Anda di halaman 1dari 26

45

QESTI I, Vol 20, l pp. 45-70, 1996







DISEOS MUESTRALES OfEQUIVALENTES
EQUIVALENTES DE PRIMER ORDEN

FERNNDEZ GARCA, FRANCISCO R.
MAYOR GALLEGO, JOS A.
Universidad de Sevilla

El comportamiento de un diseo muestral en relacin al estimador de Hor-
vitz-Thompson depende exclusivamente de sus probabilidades de inclusin
de primer y segundo orden. Al ser usualmente, mucho mayor el nmero de
muestras de undiseo que el nmero de dichas probabilidades de inclusin,
fijadas stas, existen una gran cantidad de diseos que las satisfacen y que
por ello proporcionan similares resultados en relacin al mencionado esti-
mados siendo posible escoger entre los mismos aquellos que mejoren cier-
tos criterios adicionales. En este trabajo, relacionamos los diseos con las
mismas probabilidades de inclusin con un poliedro convexo, e indicamos
laforma de obtener diseos ptimos. Adems, definimos los diseos mues-
trales equivalentes de primer orden como aquellos con las mismas probabi-
lidades de inclusin de primer orden, lo que permite obtener diseos mues-
trales ptimos en una clase ms amplia, eludiendo el problema de la deter-
minacin de las probabilidades de inclusin de segundo orden.

fi Equivalent and First Order Equivalent Sampling Designs.

AMS clasification: 62D05

Key words: muestreo, poblaciones finitas, estimador de Horvitz
Thompson, programacin lineal.






* Departamento de Estadstica e Investigacin Operativa. Universidad de Sevilla. Tarfia. 41012 Sevilla.
-Article rebut el setembre de 1994.
-Acceptat loctubre de 1995.
46
1. INTRODUCCIN


Los dos problemas centrales que estudia la teora del muestreo en poblaciones
finitas son,

La eleccin del diseo muestral usado en la seleccin de la muestra.
La eleccin del estimador ms adecuado para estimar un parmetro pobla-
cional.


Estos problemas estn muy relacionados, de forma que carece de sentido estudiarlos
independientemente. En efecto, la bondad de un estimador depende fuertemente del
diseo empleado en la obtencin de la muestra. Pensemos, por ejemplo, en la estima-
cin de una razn de medias poblacionales mediante la razn de medias muestrales.
Dicha estimacin no es insesgada para un disefio muestral aleatorio simple, sindolo
en cambio para el diseo de Midzuno (1952). Vase Sukhatme et al. (1984).
Para establecer la notacin, suponemos que en la poblacin U, con N elementos
que representamos por,

U {1, 2, . . . , N ]

estamos interesados en estudiar un parmetro poblacional lineal del tipo,



siendo Yj , Yz , . . . , Y
N
una variable de estudio cuantitativa definida sobre los elementos

de la poblacin.

Dado un disefio muestral, d (/l , p( - )), es decir, un conjunto de muestras y una
distribucin de probabilidad sobre las mismas, y una muestra, m, perteneciente a dicho
diseo, empleamos el estimador de Horvitz-Thompson (1952),




Dicha estimacin es insesgada y su varianza viene dada por la siguiente expresin,




y esta varianza puede estimarse mediante el siguiente estimador insesgado,
47







Como puede observarse, el estimador y el error dependen de los valores fijos para
la poblacin,
Y
i . , YN.
y
tambin de las probabilidades de inclusin de primer y
segundo orden,








que a su vez estn determinadas por el diseo muestral utilizado en la seleccin de
la muestra. Vase Fernndez y Mayor (1994).

Podemos afirmar pues que, en relacin al estimador de Horvitz-Thompson, dos
diseos muestrales diferentes producen el mismo error de muestreo si sus probabili-
dades de inclusin de primer y segundo coinciden, lo que nos permite buscar diseos
muestrales con similar comportamiento frente a dicho estimador y mejorando otros
criterios adicionales.

Uno de los primeros trabajos sobre este tema se debe a Goodman y Kish (1950).
Estos autores consideran la existencia de muestras no preferidas, a las que el diseo
muestral debera asignarle probabilidades pequeas. Avadhani y Sukhatme ( 1973)
definen el concepto de diseo controlado como aquel en el cual las probabilidades de
las muestras no preferidas no exceden de cierta cantidad predeterminada, indicando
la forma de obtener tales diseos.
En otra lnea, Wynn (1977), Foody y Hedayat (1976) y Hedayat (1979) estudian
la estructura de convexidad del conjunto de los diseos muestrales con las mismas
probabilidades de inclusin de primer y segundo orden, centrndose en la bisqueda
de diseos de tamafio de soporte mnimo, es decir, con el menor ntimero de muestras
posibles.
Bellhouse (1984), realiza el estudio de diseos ptimos bajo algunos modelos de
superpoblacin y Rao y Nigam (1990, 1992) estudian procedimientos de obtencin de
diseios controlados con las mismas probabilidades de inclusin que el diseo muestral
aleatorio simple y otros diseos de tipo IIPS y PPS.
48
Como veremos, la bsqueda de diseos que mejoren ciertas propiedades suele
dar lugar a la resolucin de problemas de programacin matemtica por lo que es
aplicable en la seleccin de unidades primarias en un muestreo multietpico donde
puede ser de inters la seleccin de conglomerados con determinados criterios pero
manteniendo el diseo muestral.

En la siguiente seccin, estudiaremos los diseos muestrales itequivalentes cen-
trndonos en el aspecto prctico de la bsqueda de diseos de este tipo que mejoren
ciertos criterios.

En la seccin tercera estudiamos algunas familias especiales de diseos itequi-
valentes, tanto en tamao de muestra fijo como variable.
En la cuarta seccin definimos los diseos equivalentes de primer orden e indi-
camos el procedimiento para buscar entre ellos los mejores diseos. En este sentido,
introducimos en el conjunto de las muestras de un diseo un orden total especial que
nos permite afirmar cuando un muestra es ms informativa que otra. A partir de este
orden, damos un criterio de mejora entre los diseos equivalentes de primer orden a
uno dado.




2. DISEOS MUESTRALES EQUIVALENTES


Denotaremos por II a la matriz del diseo, es decir, la matriz cuadrada de orden
N N cuyas componentes son la probabilidades de inclusin de segundo orden (con
el convenio it;, = rt;). Siguiendo la lnea de los autores mencionados anteriormente,
damos la siguiente definicin.

Definiciiin 1

Dados dos diseos muestrales, d = (M , p (-)) y d
( 2. P(
)), con matrices
de diseo respectivas N ') y H(', diremos que son diseos itequivalentes si se
cumple II ') == fl('.

Es conocido, Hedayat y Sinha (1991), que dos diseos rtequivalentes coinciden
en la esperanza y la varianza del tamao muestral, y en caso de ser ambos de tamaos
fijos, dichos tamaos son iguales.

Dado un diseo muestral, d (/lf, p( )) sobre l/, podemos considerarlo como
un punto del espacio producto /, siendo q = 2
/V
l = [0, 1], al enumerar todas las
posibles muestras del diseo, desde 1 a 2*, y asignarle a cada coordenada del punto
la probabilidad correspondiente.
49


es,
Suponemos que el conjunto de todas las muestras, en algn determinado orden,


y denotemos por a = (a , a;
)t
al punto mencionado, es decir, la distribucin
de probabilidad correspondiente, siendo a = p(k)
,
k l , . . . , q. Si consideramos la
funcin indicadora,
/ (k)=
se deber verificar,













Si denotamos,
k \


entonces las anteriores restricciones se pueden expresar como,


lo que representa un poliedro convexo, determinando todo punto del mismo un disefio
con las mismas probabilidades de inclusin, rt . El ntmero de restricciones que
determinan este poliedro es,

r N

pero estas restricciones no son independientes si se desea controlar el tamao muestral
medio y su variabilidad ya que se verifican las relaciones,










En el caso de que consideremos diseos con muestras de tamafio fijo ii(m) = n, las
N restricciones correspondientes a las probabilidades de inclusin de primer orden se
deducen a partir de las correspondientes a las probabilidades de inclusin de segundo
orden pues en este caso,






y por ello, al ser redundantes, pueden ser eliminadas quedando el poliedro determinado
por r ( ) restricciones siendo q
(/V)
el ntimero de muestras posibles.

Es interesante observar que si consideramos el diseo muestral aleatorio MAS(/\/, ii)
formado por todas las muestras posibles de tamao fijo ii con probabilidad uniforme
existen numerosos diseos itequivalentes con un nmero de muestras mucho menor,
por ejemplo, cualquier vrtice del poliedro.

As pues, el poliedro de los diseos rtequivalentes a uno dado viene definido
por una matriz, A, de dimensin r q, siendo sus elementos ceros unos segtin
se valore la funcin indicadora en cada muestra. Observemos que definidas las N
primeras filas correspondientes a los valores ii,; = ii C l/, las restantes filas se
obtienen automticamente pues los elementos de la fila asociada a ft, se calculan
multiplicando, elemento a elemento, los de las fiias correspondientes a rt; y in, por
lo cual, la matriz A tiene entre sus filas una dependencia de tipo producto.

Definido as el conjunto de los diseos itequivalentes a uno dado, es lgico que
la bsqueda de uno de ellos mejorando algn criterio adicional nos conduzca a un
problema de programacin matemtica, en el cual las restricciones son lineales, por
ello al diseo asi obtenido le llamaremos ptimo en relacin al criterio utilizado.



5 l
Ejemplo 1

Si deseamos encontrar un diseo itequivalente a un MAS(8, 3) , como in-
dicbamos anteriormente, debemos utilizar las 56 muestras posibles del diseo origi-
nal. El conjunto convexo que define todos los diseos iiequivalentes ser,




Supongamos que nuestro problema se considera en un contexto real, siendo la
poblacin U las ocho provincias de Andaluca, de las que se quiere una muestra
de tres provincias, y deseamos dar preponderancia a las muestras que tienen dos
provincias martimas y una del interior. Para ello definimos la funcin objetivo,

56


donde cz 1 si la muestra k sima no verifica la condicin deseada, siendo cero en
caso contrario.

De esta forma, la bsqueda del diseo ptimo se reduce a un problema de pro-
gramacin lineal. En caso de obtenerse un valor mnimo nulo habramos obtenido un
diseo ii equivalente al MAS(8, 3), verificando las condiciones deseadas. Si el valor
mnimo no fuera nulo, el diseo resultante sera el que ms se aproxima a los deseos
manifestados, aunque habra muestras no deseadas.
Para nuestro problema concreto, si usamos la codificacin que aparece en la si-
guiente tabla,






y denotamos por X;/ la probabilidad con la que la muestra [i, j, k ] aparece en el
diseo, tendremos la siguiente funcin objetivo,


C = K123 + X124 + X125 + X134 + X135 + X145 X167 + X168 + X178 + X234 + X235 + X245 + X267

X2 6 8 + X2 7 8 + X3 4 5 + X3 6 7 + X 3 6 8 + X3 7 8 + X4 6 7 + X 4 6 8 X4 7 8 + XS 6 7 + XS 6 8 * X 5 7 8 + X 6 7 8



con cuya minimizacin pretendemos que las muestras no deseables tengan probabili-
dad nula, desapareciendo del diseo.
52
Las restricciones sern.



















Xlt7 + xjt7 X3S7 X4S? + x667 + Xt78

Observemos que las restricciones correspondientes a las probabilidades de inclu-
sin de primer orden se pueden obtener a partir de las correspondientes a las de
segundo orden. Por ejemplo, sumando las siete primeras restricciones para las pro
babilidades de inclusin de segundo orden se obtiene la primera para las de primer
orden.
As pues, para facilitar la resolucin del problema podemos eliminar las ocho
primeras restricciones. Una solucin ptima del problema viene dada por el siguiente
diseio,
m p(m) m p(m)
X125 0.017857 X238 0.017857
J128 0.089286 X247 0.071429
X135 0.017857 X256 0.053571
X137 0.089286 X346 0.017857
X145 0.017857 X348 0.053571
X146 0.089286 X356 0.035714
X156 0.017857 X357 0.017857
X157 0.017857 X358 0.035714
X 158 0.017857 X457 0.0357 14
X234 0.035714 X458 0.053571
X236 0.05357 1 X678 0. 107143
53
con valor de la funcin objetivo,

C 0. 19642850


siendo para el diseo muestral aleatorio MAS(8, 3),
26
56

habindose obtenido pues, una mejora en relacin al muestreo aleatorio.

Para extraer una muestra, basta aplicar cualquier mtodo de seleccin de un ele-
mento con probabilidades variables directamente sobre el diseo obtenido, por ejem-
plo el mtodo de las probabilidades acumuladas o el mtodo de Lahiri (1951). Vase
Sukhatme et al. (1984). Una vez obtenida la muestra, para realizar la estimacin
de un parmetro lineal, se aplicarn los estimadores usuales en el muestreo aleato-
rio. As, si el parmetro es la media poblacional, la estimacin se realizar mediante
la media muestral y el error se calcular por las expresiones usuales basadas en la
cuasivarianza.

Es importante notar que si queremos obtener diseos de tipo controlado, iiequiva-
lentes a uno dado, basta aadir, a las restricciones ya consideradas, otras que acoten,
en la medida deseada, las probabilidad de las muestras no preferidas. Es decir, si
denominamos 11' C 3f al subconjunto del espacio muestral formado por las muestras
no preferidas, y queremos que la probabilidad de dichas muestras no exceda el valor
ti C [0, 1], basta afiadir las restricciones,




Observemos tambin que para el caso de tamao muestral fijo, todo disefio ptimo
en relacin a una funcin objetivo lineal tiene, a lo sumo, un tamafio de soporte ( )
ya que, considerado como punto del poliedro de los diseos itequivalentes, es un
punto extremo. Ello nos indica que aquellos diseos, en los que todas las mues-
tras tienen probabilidades estrictamente positivas no son diseos ptimos. Similares
consideraciones pueden hacerse para diseos de tamao muestral variable.

No obstante, en caso de ser la funcin objetivo convexa, los mnimos estn en el
interior. As, si consideramos la funcin cncava,



54
que podemos denominar entropa del diseo, la minimizacin de su opuesta,






dar lugar a diseos uniformes, si existen, o bien prximos a ellos.




3. DISEOS MUESTRALES ESPECIALES


Hay diseos muestrales que desempean un papel importante en la teora del
muestreo por representar situaciones especiales de los mismos, en relacin a los
valores de ii, y ii; en el conjunto de los diseos iiequivalentes. Como veremos
los diseos que describimos representan la mxima independencia entre las unidades
muestrales o bien la mxima equivalencia entre las mismas.

Definicin 2
Decimos que un diseo muestral es itindependiente si,



Notemos que en este caso Aj = 0 , i j por lo que resulta lgico suponer que
darn buenos estimadores del error de muestreo.
Si denotamos por ?, j iables aleatorias que indican, respectivamente, si la
unidad y las unidades i y j estn en la muestra, se tiene,


de donde se deduce que la eleccin de la unidad i es independiente de la eleccin de
cualquier otra unidad, pues las variables aleatorias l; son independientes, siendo su
distribucin de probabilidad,


por lo cual, el disefio muestral itindependiente ms general es el llamado diseno de
Poisson, es decir, M 2*, siendo la probabilidad asociada a una muestra,

(1)
55
La realizacin prctica de este disefio se puede llevar a cabo mediante el deno-
minado muestreo de Poisson consistente en explorar secuencialmente la poblacin,
seleccionando cada elemento i con probabilidad ii e independientemente de los dems.
El diseo de Poisson presenta la propiedad de maximizar la entropa del disefio,



en la clase de diseos muestrales con probabilidades de inclusin dadas, y esta pro-
piedad se mantiene, Hjek (1981), en los llamados diseos de Poisson condicionados
definidos a partir de un subconjunto /lf C 2*, por las probabilidades,



siendo p( /lf) = Jp p(m), pp(m) 0 si m / /lf, y p(m) dada por (1).
Estos diseos de Poisson condicionados son importantes porque contienen, como
casos particulares, a diseos muestrales clsicos. As, para /lf formado por todas las
muestras de tamao fijo n, y r = p, p, Si, se tiene,



es decir, el disefio muestral aleatorio simple.

La realizacin prctica de estos mtodos se puede llevar a cabo mediante proce-
dimientos de aceptacin-rechazo pero ello puede llegar a ser muy lento. As, para el
diseo de Poisson condicionado a tamafio fijo n, se tiene la siguiente cota dada por
Hjek (1981),
l


siendo k una cantidad que verifica k l

Por supuesto, existen mtodos ms directos para obtener una muestra aleatoria
simple de tamao n, incluso sin conocer el valor de N . En este sentido, proponemos
el siguiente procedimiento, que denominamos de insercin, y que tine en comfin con
el muestreo de Poisson la forma de obtencin de la muestra mediante una exploracin
secuencial de la poblacin.

Algortmo 1 (MTODO DE INSERCIN)

En este algoritmo, representa una lista ordenada de elementos de la poblacin
usando como criterio de ordenacin el indicado en el paso 2.
56
1. Hacer := 1 y := ().
2. Generar un ntimero aleatorio o; H[0, 1), y segin sea i en relacin a n realizar
las siguientes transformaciones sobre la lista ,

< n. Introducir la unidad en , de forma que los elementos de dicha
lista aparezcan ordenados por la magnitud del nmero aleatorio corres
pondiente.
i > n. 5i a _< aj maxnj eliminar la unidad l de e insertar en dicha
lista la unidad i de forma que la lista permanezca ordenada por el criterio
anteriormente indicado. En caso contrario, la lista no se modifica.

3. Hacer := + 1. Si C U, ir al paso 2. En caso contrario, finalizar el proceso,
formando los elementos en la muestra final.

Este procedimiento asegura la obtencin de una muestra perteneciente a un diseo
aleatorio simple, a partir de una exploracin secuencial de la poblacin, sin requerir el
conocimiento previo del tamao de la poblacin. Para probarlo, basta observar que si
ordenramos la poblacin completa usando como criterio la magnitud de los nmeros
aleatorios, cualquiera de las N! ordenaciones posibles tiene probabilidad 1//\/!, por lo
cual, la probabilidad de obtener la muestra m ser,



Otro procedimiento para la obtencin de muestras es el denominado mtodo de
permutaciones. Vase Hjek (1981).
Si imponemos que el tamao muestral sea constante, los diseos muestrales
ii independientes degeneran en diseos con una sola muestra.


Teorema 1

Dado un diseo muestral de tamao fijo,



entonces ) ha de pertenecer a todas las muestras del.diseo, o no pertenecer a ninguna.


Demostracin

Veamos que, en las condiciones del teorema, in es cero uno.
57






luego in = 1.



Del teorema anterior, imponiendo la condicin a todos los pares de elementos de
la poblacin, se deduce el siguiente corolario.

Corolario 2 Un diseo muestral u independiente de tamafio fijo est formado por
una sola muestra.


Vemos pues que la propiedad de rtindependencia, en diseios de tamao fijo,
da lugar a casos triviales. A continuacin estudiamos otra propiedad interesante de
los diseos muestrales y que para el caso de tamao fijo, es verificada por diseos
importantes.



Decimos que un disefio muestral es simtrico si verifica,
= I ,...,NN
Es decir, todas las unidades tienen las mismas probabilidades de inclusin de
primer orden, y todas las parejas de unidades las mismas probabilidades de inclusin
de segundo orden.

En este caso los niveles dados a los valores de las variables, {1, 2, . . . , /\/}, son
independientes de las unidades, frente a la estimacin, no proporcionando ninguna
informacin, como nos dice el teorema siguiente,

Teorema 3

Dado un disefio muestral simtrico, cualquier otro disefio muestral obtenido del
anterior al renumerar los niveles de las variables mediante una permutacin, o, en U
y en todas las muestras del espacio, siendo p(mg ) = p(m), ser un diseo simtrico
rtequivalente al anterior.
Ntese que el teorema es cierto debido a ser un diseo simtrico pues de este
modo es it, = ri . Si adems imponemos al diseo que sea de tamao muestral fijo,
tenemos,

Teorema 4

Todo diseo muestral simtrico de tamafio fijo es rtequivalente
al MAS(N, ii).

Demostracin
Puesto que
Z.c
= n, si i;, es constante debe scr ii, = n JN y dado que Z, . .,
(n l ) rt al ser it,; constante se tendr (/\/ 1)it,/ (n 1)n//\/, de donde 7t =
n(n i) JN(N l), por lo que el disefio es H equivalente al MAS(/\/, n).



Aunque esta familia de diseos itequivalentes al MAS(/V, ii) puede caracterizarse
con menor nfimero de condiciones,

Teorema 5

Todo diseo muestral de tamao fijo tal que las probabilidades de inclusin de
segundo orden son constantes es itequivalente al MAS(N, n).

Demostracin

Como rt, = k = cte, ser (N l ) Z = (ii 1)ri;, por lo que tambin son constantes
las probabilidades de inclusin de primer orden, y el teorema se deduce del anterior.



Ello nos dice que las ( ) restricciones,



asociadas a las ft, , j determinan dicho conjunto para los diseos rtequivalentes
al MAS(/V, ii).

Los diseos iiequivalentes a un MAS(/\/, n), ptimos frente a una funcin lineal
tienen a lo sumo un tamao de soporte ( ) , por la definicin del poliedro, pero
puede ocurrir que por la degeneracin del mismo, el soporte llegue a ser incluso
de tamafio (/\/ 1)/V/(ii 1)n, como indica Hedayat (1979). Para estos soportes
muestrales con menos elementos que el que proporciona el diseo MAS(/\/, n), las
probabilidades asociadas a cada muestra no forman, en general, una distribucin
uniforme sobre el conjunto de todas ellas, como ocurre en el muestreo aleatorio
simple, aunque a veces puede que exista un diseo itequivalente uniforme sobre su
59
soporte, como se comprueba en el siguiente ejemplo, en el cual se indica un diseo
uniforme iiequivalente a un MAS(7, 3) con tamao de soporte igual a la cota inferior
[N 1)/V/(n 1)ii = 7,


En caso de ser el diseo de tamao variable y ii independiente, la simetra implica
que ii, = p, \/ y u,j - p, 4 i < j, es decir, rtequivalente a un diseo de Poisson
con p, p, Si, es decir, al disefio de Bernoulli, siendo fcil probar que esta propiedad
se mantiene imponiendo solamente la igualdad de las probabilidades de inclusin de
segundo orden.




4. DISEOS MUESTRALES EQUIVALENTES DE PRIMER ORDEN


Ya hemos visto como en la clase de diseos muestrales iiequivalentes a uno
dado es posible encontrar diseos ptimos en relacin a determinado criterio.
De forma similar, dado un diseo muestral podemos buscar diseos ptimos en
la clase de diseos con las mismas probabilidades de inclusin de primer orden que
aquel. A estos diseos les denominamos equivalentes de primer orden.

Con este planteamiento, se buscan diseos ptimos en una clase ms amplia que la
de los rtequivalentes, por lo que en general se obtendrn diseos mejores en relacin
al criterio de optimalidad aplicado. No obstante, al no coincidir necesariamente la
probabilidades de inclusin de segundo orden, los estimadores no tendrn la misma
varianza.
Haciendo un planteamiento similar al caso de los diseos rtequivalentes, las
restricciones relativas a las probabilidades de inclusin seran ahora,




con la imposicin adicional, supuesto tamafio muestral fijo, de que se verifique,



para que el estimador de la varianza dado por la frmula de Yates-Grundy-Sen, Yates
y Grundy ( 1953) y Sen ( 1953),
m
p(m)
124 235 346 457 561 672 713
l/7 l/7 1/7 l/7 1/7 1/7 1/7
60




sea no negativo. Vase Sukhatme et al. ( 1984). Ello nos obliga a introducir restric-
ciones adicionales del tipo,


originando as que las probabilidades de inclusin de segundo orden sean tambin
variables del problema.
Este modo de trabajar con los diseos tiene como principal limitacin el elevado
tamao de los espacios muestrales, lo que puede hacer inabordable el problema de
programacin matemtica que se plantee, dependiendo por supuesto de los recursos
computacionales disponibles. Sin embargo, presenta la ventaja de permitir la obten-
cin de las probabilidades de inclusin de segundo orden, necesarias para la estimacin
del error, evitando as las dificultades de otros procedimientos clsicos para obtener
dichas probabilidades, usualmente mediante expresiones asintticas complicadas.
Adicionalmente se obtienen las probabilidades de eleccin de cada muestra con
lo que se facilita su obtencin.

Por todo ello, puede ser de utilidad en la seleccin de las unidades primarias en
muestreos multietpicos. Seguidamente exponemos un ejemplo numrico que indica
la realizacin prctica de lo anteriormente expuesto.


Ejemplo 2


Consideremos nuevamente la situacin expuesta en el ejemplo l de este trabajo,
pero ahora vamos a buscar el diseo ptimo entre los equivalentes de primer orden
al MAS(8, 3). Las restricciones relativas a las probabilidades de inclusin de primer
orden sern,




1
2
Y
61
De esta forma, usando la notacin Xijk para la probabilidad de la muestra [i, j, k ] ,
e Yij para it; , tendremos que aadir las restricciones,

56

k t

Observemos que si el diseo es de tamafio fijo,



y en nuestro caso, al ser MAS(8, 3), y fijar la probabilidades de inclusin de primer
orden, obtenemos las siguientes restricciones,

z g

As pues, eliminando restricciones redundantes, el problema a resolver es mini-
mizar,


C = X123 + X124 + X125 + X134 + X135 + X145 + X167 + X168 + X17B + X234 + X235 + X245 X267

+ X268 + X278 + X345 + X367 + X368 + X378 + X467 + X468 + X478 + X567 + X568 + X578 + X678



Sujeto a las restricciones,



0 < Yij = 9 64 pora toao i.y




Una solucin ptima del anterior problema viene dada por el siguiente diseio
muestral,
62




X126 0.093750 X247 0.031250
X127 0.031250 J248 0.015625
X136 0.015625 X258 0.062500
148 0.093750 X346 0.031250
X156 0.031250 X347 0. 109375
X157 0. 109375 X358 0.078125
X236 0.046875 X456 0.093750
X237 0.031250 X678 0.062500
X238 0.062500

siendo las probabilidades de inclusin de segundo orden,





donde los puntos representan los elementos diagonales de la matriz del disefio.

El valor mnimo de la funcin objetivo resulta ser,


C 0.062500


habindose obtenido pues una mejora con respecto a la bsqueda en la clase de diseos
rtequivalentes.
Observemos que, en general, la solucin del problema anterior no es nica siendo
posible escoger entre todas las existentes aquella que mejore otros criterior adicionales.

No es posible, en general, hacer afirmaciones sobre la precisin de la estima-
cin con estas nuevas probabilidades de inclusin de segundo orden, no obstante. si
ponderamos las muestras de forma adecuada, podemos conseguir una ganancia en la
misma, como se demuestra en el siguiente apartado.
0.125000 0.015625 0.093750 0.140625 0.140625 0.140625 0.093750
0.140625 0.046875 0.062500 0.140625 0.093750 0.140625
0.140625 0.078125 0.093750 0.140625 0.140625

0.093750 0.125000 0.140625 0.109375

0.125000 0. 109375 0.140625

0.062500 0.062500

0.06 500

63
min
4.1. Muestras ms informativas

Usualmente, entre las unidades de la poblacin U existen ciertas relaciones lo
que origina que unas sean ms afines y otras menos de cara a la informacin que
ofrecen, sin que este grado de afinidad puede llevarse a una estratificacin aunque si
sea posible cuantificar el grado de proximidad.
Por ejemplo, si queremos realizar un estudio en Andaluca, en relacin con la
produccin agrcola, ciertas comarcas tienen entre s ms afinidad que otras, aunque no
estn prximas geogrficamente. As, las provincias o regiones que tienen produccin
olecola no se parecen en su problemtica a las que tienen produccin temprana
de productos que son suceptibles de exportacin. Por ello, si queremos hacer una
encuesta para estudiar el estado socioeconmico de la regin, si en una muestra
intervienen dos comarcas con la misma problemtica ser menos informativa que si
interviniesen dos comarcas con distinta problemtica.
Basndonos en la idea anterior, suponemos la existencia de una matriz de afinidad,
fi, de dimensin N N, simtrica y cuyos elementos supondremos no negativos, de
manera que el elemento ay representa la afinidad entre las unidades y ). Esta matriz
nos permite cuantificar el concepto de muestra ms informativa. Para ello, dado un
disefio con espacio muestral M, definimos la funcin,


en la forma,





Definicin 4

Dadas dos muestras, m, m' C M, diremos que m es ms informativa que m', lo que
denotamos m + m', si verifican, A(m) < A(m').

Observemos que esta relacin es reflexiva y transitiva pero no antisimtrica, es
pues un preorden. Adems, dadas dos muestras, m y m', se verifica m + m' m' + m,
luego esta relacin es un preorden total.

Como el espacio muestral es finito, podemos hablar de las muestras de mxima
informacin, es decir, del conjunto de muestras,

M ={mEM|A(m)
64

sin embargo, la eleccin de una de estas muestras para realizar la estimacin no
resulta apropiada por incumplir la estrategia del muestreo probabilstico. No obstante,
para evitar esta dificultad, podemos definir el concepto de afinidad media del disefio
d (lu, p( - )) como,



y buscar entre los diseos equivalentes de primer orden a uno dado, los que minimizar
dicha afinidad media. Este enfoque tiene una interpretacin interesante, en efecto,
observemos,








Ello nos permite ahrmar que al minimizar la afinidad media en el conjunto de los
diseios equivalentes de primer orden a uno dado, tienden a estar menos representados
los pares de elementos con mayor afinidad.
Dada una clase C, de diseos muestrales, a los diseos en 6 que hagan mnima
la afinidad media, los denominaremos diseos ms informativos en la clase C. Estos
diseos, para tipos especiales de afinidad, son tambin ptimos en otro sentido, como
indica el siguiente teorema.


Teorema 6

Dada una variable cuantitativa, Yj , Yz , . . . , Y
N. definida sobre la poblacin U, sea,

M


y consideremos la matriz de afinidad R, dada por,



Se verifica que el diseo ms informativo en la clase de diseos de tamao fijo
equivalentes de primer orden al MAS(/\/, ii), minimiza la varianza del estimador de
Horvitz-Thompson para el total poblacional,


65
Demostracin

Sabemos que el estimador de Horvitz-Thompson para el total poblacional es,




y por ser el diseo de tamafio fijo, su varianza se puede expresar mediante la frmula
de Yates-Grundy-Sen,

1
2

Desarrollando la afinidad media, obtenemos,







lo que nos dice que minimizar la afinidad media es equivalente a maximizar la can-
tidad,




Por otra parte, si el diseo es equivalente de primer orden al MAS(N, ii), se tendr
para la varianza,



1
2




Luego el diseo ms informativo es de mnima varianza.


66
Observemos que en la prctica, los valores de la variable de estudio, I'j , . , .
no son conocidos, por lo que puede emplearse una variable auxiliar con valores
Si , . relacionada con la variable de estudio, como es habitual en el muestreo.







REFERENCIAS

[ 1]

(2]





[5]

[6]

[7]

[8]

(9]




[ 11]

[ 12]

[ 13]
Avadhani, M.S. y Sukhatme, B.V. ( 1973). Controlled sampling with equal
probabilities and without replacement. Internas. Statist. Rev., 41, l75182.
Bellhouse, D.R. (1984). A review of optimal designs in survey sampling.
The Canadian Journal of Statistics, 12, 5365.
Foody, W. y Hedayat, A. ( 1976). On theory and application of BlB designs
with repeated blocks. Ann. Statist. Assoc., 5, 932945.
Fernndez, F.R. y Mayor, J.A. (1994). Muestreo en poblaciones finitas. curso
bsico. P.P.U. Barcelona.
Goodman, R. y Kish, L. (1950). Controlled selection a technique in
probability sampling. J. Amer. Statist. Assoc., 45, 350372.
Hjek, J. (198 l). Sampling from a Finite Population. Marcel Dekker, Inc.
New York.
Hedayat, A. ( 1979). Sampling Designs with Reduced Support Sizes. Opti-
mizing Methods in Statistics. Rustagi, J. (Ed.). Academics Press, New York.
Hedayat, A. y Sinha, B. (1991). Desing and Inference in Finite Population
Sampling . John Wiley & Sons, Inc. New York.
Horvitz, D.G. y Thompson, D.J. ( 1952). A generalization of sampling wit-
hout replacement from a finite universe. J. Amer. Statist. Assoc., 47, 663685.
Lahiri, D.B. (195 l). A method of sample selection prov iding unbiased ratio
estimates. Bulletin of the International Statistical Institute, 33, 133140.
Midzuno, H. (1952). On the sampling system with probability proportionate
to sum of sizes. Annals of the Institute of Stat stical Mathematics, 3, 99107.
Ran, J.N.K. y Nigam, A.K. (1990). Optimal controlled sampling designs.
Biometrika, 77, 807814.
Ran, J.N.K. y Nigam, A.K. ( 1992). Optimal controlled sampling: a unihed
approach. Internat. Statist. Rev., 60, 8998.
Sen, A.R. ( 1953). On the estimate of the variance in sampling with varying
probabilities. 7. Indian Sec. Agric. Statist., 5, 119127.
Sukhatme, P.V., Sukhatme, B.V., Sukhatme, S. y Asok, C. (1984). Sampling
Theory of Surveys Applications. Tercera edicin. Iowa State University Press.
Ames. Iowa.
67

[16] Yates, F. y Grundy, P.M. (1953). Selection without replacement from within
strata with probability proportional to size. J. Roy. Statist. Soc., BIS, 253
261.
[17
1
Wynn, H.P. ( 1977). Convex sets of finite population plans. The Annals of
Statistics, 5, 414--418.







ENGLISH SUMMARV:
G EQUIYALENT AND FIRST ORDER EQUIVALENT SAMPLING
DESIGNS


Fernndez Garca, Francisco R. and Mayor Gallego, Jos A.





In order to estimate the parameter,



over the population U [ 1,2, . . . , N ] , we can use the Horvitz-Thompson estimator,




where m is a sample from a sampling design d (lu, p( )). This estimator and its
variance depend only on the first and second order inclusion probabilities, so we can
look for sampling designs improving additional criteria in the class of designs with
the same inclusion probabilities.
Usually, searching for these designs implies the resolution of mathematical pro-
gramming problems. So, we study the sampling designs with equal inclusion proba-
bilities and the practical method of finding a design with given inclusion probabilities,
improving some utility criteria.
Let be H the design matrix, that is,


68

with ii, = n,. Two sampling designs, d y (M , py (-)) and dz (Mi, p(-)) , with
design matrices H(') and H('), respectively, are said ii-equivalent if H(') = II().

We can consider a sampling design as a point belonging to the product space J
with q ==
N
and ? = [0, 1]. The sampling space is,



and a = (a , a , . . . , a )' is the above mentioned point, that is to say, the probability
distribution, with
x
k

r(k)
,
k 1, . . . , q. We denote by,





we have,
/,(k)=
\/ i, j C U, k == 1 , . . . , q







k >
0 k l , . . . , q


that is to say, a convex polyhedron whose elements are ii-equivalent sampling designs.

Notice that in order to obtain ii-equivalent controlled sampling designs, it is suffi-
cient to add some constraints bounding the probabilities of the non-preferred samples.
So, let be W the subset of the sampling space of the non-preferred samples, if we
want the probabilities of these samples not to be greater than n C [0, I], it is sufficient
to add the constraints,





Also, for a given sampling design, we can consider the class of sampling designs
with the same first order inclusion probabilities. These designs are named first order
equivalent designs. Thus, we can search for optimal designs in the class of first order
equivalent designs, obtaining, in general, better designs in relation to the optimality
criteria. Nevertheless, the second order inclusion probabilities are not the same and
therefore the estimators do not have equal variances.
69
2
The posed problem has the following constraints for the inclusion probabilities,



k \

with the additional constraints, if we have a fixed sample size,



in order that the Yates-Grundy-Sens variance estimator,

a


may be non negative. This forces the additional constraints, to be introduced,




that is to say, the second order inclusion probabilities are also problem variables.

Usually, between the units in the population there are some relations of affinity,
with respect to the information that they provide. Using this idea, let be R an affinity
matrix, with dimensions N x N, symmetric and non negative, where the element a is
the affinity between the un its i and ). Given a sampl ing design with sampling space
M, we dea ne the function,


as,




So, for two samples, m, m' C /l , we say that m is more informative than m', and
we denote it by m + m', if they verify A(m ) < A(m').

This relation is reflexive and transitive but not antisymmetric, so, it is a preorder.
Furthermore, for two samples m and m', they verify m + m' or m' + m, thus, the
relation is a total preorder.

Since the sampling space is finite, we can consider the samples providing maximal
information, that is to say, the set,
70




In order to estimate the parameter, the choice of one of these samples is not
appropriate because it does not fulfil the probabilistic sampling strategy. Nevertheless,
to avoid this difficulty, we define the expected affinity of the design d (/lf, p( - )) as,
E \A(d)\
= Z
A(m)p(m)
and minimizing the expected affinity by searching into the first order equivalent sam-
pling designs. This approach has an interesting interpretation. We note that,








Thus, minimizing the expected affinity in the class of the first order equivalent
sampling designs, the pairs of units with high affinity have less second order inclusion
probability.

For a class of sampling designs, C, the designs with minimal expected affinity
will be named most informative designs. These designs are also optimum with other
criteria and with special types of affinity as the following theorem states,


Theorem
For a quantitative variable, Y , Yz , . . . , Y
N. defi ned over the population U, let be,
M


and let us consider the affinity matrix fi, with elements,


Then, the most informative design in the class of fixed sample size designs first
order equivalent to SRS(/\/, ii) minimizes the variance of the Horvitz-Thompson esti-
mator for the population total,

Anda mungkin juga menyukai