DISEOS MUESTRALES OfEQUIVALENTES EQUIVALENTES DE PRIMER ORDEN
FERNNDEZ GARCA, FRANCISCO R. MAYOR GALLEGO, JOS A. Universidad de Sevilla
El comportamiento de un diseo muestral en relacin al estimador de Hor- vitz-Thompson depende exclusivamente de sus probabilidades de inclusin de primer y segundo orden. Al ser usualmente, mucho mayor el nmero de muestras de undiseo que el nmero de dichas probabilidades de inclusin, fijadas stas, existen una gran cantidad de diseos que las satisfacen y que por ello proporcionan similares resultados en relacin al mencionado esti- mados siendo posible escoger entre los mismos aquellos que mejoren cier- tos criterios adicionales. En este trabajo, relacionamos los diseos con las mismas probabilidades de inclusin con un poliedro convexo, e indicamos laforma de obtener diseos ptimos. Adems, definimos los diseos mues- trales equivalentes de primer orden como aquellos con las mismas probabi- lidades de inclusin de primer orden, lo que permite obtener diseos mues- trales ptimos en una clase ms amplia, eludiendo el problema de la deter- minacin de las probabilidades de inclusin de segundo orden.
fi Equivalent and First Order Equivalent Sampling Designs.
* Departamento de Estadstica e Investigacin Operativa. Universidad de Sevilla. Tarfia. 41012 Sevilla. -Article rebut el setembre de 1994. -Acceptat loctubre de 1995. 46 1. INTRODUCCIN
Los dos problemas centrales que estudia la teora del muestreo en poblaciones finitas son,
La eleccin del diseo muestral usado en la seleccin de la muestra. La eleccin del estimador ms adecuado para estimar un parmetro pobla- cional.
Estos problemas estn muy relacionados, de forma que carece de sentido estudiarlos independientemente. En efecto, la bondad de un estimador depende fuertemente del diseo empleado en la obtencin de la muestra. Pensemos, por ejemplo, en la estima- cin de una razn de medias poblacionales mediante la razn de medias muestrales. Dicha estimacin no es insesgada para un disefio muestral aleatorio simple, sindolo en cambio para el diseo de Midzuno (1952). Vase Sukhatme et al. (1984). Para establecer la notacin, suponemos que en la poblacin U, con N elementos que representamos por,
U {1, 2, . . . , N ]
estamos interesados en estudiar un parmetro poblacional lineal del tipo,
siendo Yj , Yz , . . . , Y N una variable de estudio cuantitativa definida sobre los elementos
de la poblacin.
Dado un disefio muestral, d (/l , p( - )), es decir, un conjunto de muestras y una distribucin de probabilidad sobre las mismas, y una muestra, m, perteneciente a dicho diseo, empleamos el estimador de Horvitz-Thompson (1952),
Dicha estimacin es insesgada y su varianza viene dada por la siguiente expresin,
y esta varianza puede estimarse mediante el siguiente estimador insesgado, 47
Como puede observarse, el estimador y el error dependen de los valores fijos para la poblacin, Y i . , YN. y tambin de las probabilidades de inclusin de primer y segundo orden,
que a su vez estn determinadas por el diseo muestral utilizado en la seleccin de la muestra. Vase Fernndez y Mayor (1994).
Podemos afirmar pues que, en relacin al estimador de Horvitz-Thompson, dos diseos muestrales diferentes producen el mismo error de muestreo si sus probabili- dades de inclusin de primer y segundo coinciden, lo que nos permite buscar diseos muestrales con similar comportamiento frente a dicho estimador y mejorando otros criterios adicionales.
Uno de los primeros trabajos sobre este tema se debe a Goodman y Kish (1950). Estos autores consideran la existencia de muestras no preferidas, a las que el diseo muestral debera asignarle probabilidades pequeas. Avadhani y Sukhatme ( 1973) definen el concepto de diseo controlado como aquel en el cual las probabilidades de las muestras no preferidas no exceden de cierta cantidad predeterminada, indicando la forma de obtener tales diseos. En otra lnea, Wynn (1977), Foody y Hedayat (1976) y Hedayat (1979) estudian la estructura de convexidad del conjunto de los diseos muestrales con las mismas probabilidades de inclusin de primer y segundo orden, centrndose en la bisqueda de diseos de tamafio de soporte mnimo, es decir, con el menor ntimero de muestras posibles. Bellhouse (1984), realiza el estudio de diseos ptimos bajo algunos modelos de superpoblacin y Rao y Nigam (1990, 1992) estudian procedimientos de obtencin de diseios controlados con las mismas probabilidades de inclusin que el diseo muestral aleatorio simple y otros diseos de tipo IIPS y PPS. 48 Como veremos, la bsqueda de diseos que mejoren ciertas propiedades suele dar lugar a la resolucin de problemas de programacin matemtica por lo que es aplicable en la seleccin de unidades primarias en un muestreo multietpico donde puede ser de inters la seleccin de conglomerados con determinados criterios pero manteniendo el diseo muestral.
En la siguiente seccin, estudiaremos los diseos muestrales itequivalentes cen- trndonos en el aspecto prctico de la bsqueda de diseos de este tipo que mejoren ciertos criterios.
En la seccin tercera estudiamos algunas familias especiales de diseos itequi- valentes, tanto en tamao de muestra fijo como variable. En la cuarta seccin definimos los diseos equivalentes de primer orden e indi- camos el procedimiento para buscar entre ellos los mejores diseos. En este sentido, introducimos en el conjunto de las muestras de un diseo un orden total especial que nos permite afirmar cuando un muestra es ms informativa que otra. A partir de este orden, damos un criterio de mejora entre los diseos equivalentes de primer orden a uno dado.
2. DISEOS MUESTRALES EQUIVALENTES
Denotaremos por II a la matriz del diseo, es decir, la matriz cuadrada de orden N N cuyas componentes son la probabilidades de inclusin de segundo orden (con el convenio it;, = rt;). Siguiendo la lnea de los autores mencionados anteriormente, damos la siguiente definicin.
Definiciiin 1
Dados dos diseos muestrales, d = (M , p (-)) y d ( 2. P( )), con matrices de diseo respectivas N ') y H(', diremos que son diseos itequivalentes si se cumple II ') == fl('.
Es conocido, Hedayat y Sinha (1991), que dos diseos rtequivalentes coinciden en la esperanza y la varianza del tamao muestral, y en caso de ser ambos de tamaos fijos, dichos tamaos son iguales.
Dado un diseo muestral, d (/lf, p( )) sobre l/, podemos considerarlo como un punto del espacio producto /, siendo q = 2 /V l = [0, 1], al enumerar todas las posibles muestras del diseo, desde 1 a 2*, y asignarle a cada coordenada del punto la probabilidad correspondiente. 49
es, Suponemos que el conjunto de todas las muestras, en algn determinado orden,
y denotemos por a = (a , a; )t al punto mencionado, es decir, la distribucin de probabilidad correspondiente, siendo a = p(k) , k l , . . . , q. Si consideramos la funcin indicadora, / (k)= se deber verificar,
Si denotamos, k \
entonces las anteriores restricciones se pueden expresar como,
lo que representa un poliedro convexo, determinando todo punto del mismo un disefio con las mismas probabilidades de inclusin, rt . El ntmero de restricciones que determinan este poliedro es,
r N
pero estas restricciones no son independientes si se desea controlar el tamao muestral medio y su variabilidad ya que se verifican las relaciones,
En el caso de que consideremos diseos con muestras de tamafio fijo ii(m) = n, las N restricciones correspondientes a las probabilidades de inclusin de primer orden se deducen a partir de las correspondientes a las probabilidades de inclusin de segundo orden pues en este caso,
y por ello, al ser redundantes, pueden ser eliminadas quedando el poliedro determinado por r ( ) restricciones siendo q (/V) el ntimero de muestras posibles.
Es interesante observar que si consideramos el diseo muestral aleatorio MAS(/\/, ii) formado por todas las muestras posibles de tamao fijo ii con probabilidad uniforme existen numerosos diseos itequivalentes con un nmero de muestras mucho menor, por ejemplo, cualquier vrtice del poliedro.
As pues, el poliedro de los diseos rtequivalentes a uno dado viene definido por una matriz, A, de dimensin r q, siendo sus elementos ceros unos segtin se valore la funcin indicadora en cada muestra. Observemos que definidas las N primeras filas correspondientes a los valores ii,; = ii C l/, las restantes filas se obtienen automticamente pues los elementos de la fila asociada a ft, se calculan multiplicando, elemento a elemento, los de las fiias correspondientes a rt; y in, por lo cual, la matriz A tiene entre sus filas una dependencia de tipo producto.
Definido as el conjunto de los diseos itequivalentes a uno dado, es lgico que la bsqueda de uno de ellos mejorando algn criterio adicional nos conduzca a un problema de programacin matemtica, en el cual las restricciones son lineales, por ello al diseo asi obtenido le llamaremos ptimo en relacin al criterio utilizado.
5 l Ejemplo 1
Si deseamos encontrar un diseo itequivalente a un MAS(8, 3) , como in- dicbamos anteriormente, debemos utilizar las 56 muestras posibles del diseo origi- nal. El conjunto convexo que define todos los diseos iiequivalentes ser,
Supongamos que nuestro problema se considera en un contexto real, siendo la poblacin U las ocho provincias de Andaluca, de las que se quiere una muestra de tres provincias, y deseamos dar preponderancia a las muestras que tienen dos provincias martimas y una del interior. Para ello definimos la funcin objetivo,
56
donde cz 1 si la muestra k sima no verifica la condicin deseada, siendo cero en caso contrario.
De esta forma, la bsqueda del diseo ptimo se reduce a un problema de pro- gramacin lineal. En caso de obtenerse un valor mnimo nulo habramos obtenido un diseo ii equivalente al MAS(8, 3), verificando las condiciones deseadas. Si el valor mnimo no fuera nulo, el diseo resultante sera el que ms se aproxima a los deseos manifestados, aunque habra muestras no deseadas. Para nuestro problema concreto, si usamos la codificacin que aparece en la si- guiente tabla,
y denotamos por X;/ la probabilidad con la que la muestra [i, j, k ] aparece en el diseo, tendremos la siguiente funcin objetivo,
con cuya minimizacin pretendemos que las muestras no deseables tengan probabili- dad nula, desapareciendo del diseo. 52 Las restricciones sern.
Xlt7 + xjt7 X3S7 X4S? + x667 + Xt78
Observemos que las restricciones correspondientes a las probabilidades de inclu- sin de primer orden se pueden obtener a partir de las correspondientes a las de segundo orden. Por ejemplo, sumando las siete primeras restricciones para las pro babilidades de inclusin de segundo orden se obtiene la primera para las de primer orden. As pues, para facilitar la resolucin del problema podemos eliminar las ocho primeras restricciones. Una solucin ptima del problema viene dada por el siguiente diseio, m p(m) m p(m) X125 0.017857 X238 0.017857 J128 0.089286 X247 0.071429 X135 0.017857 X256 0.053571 X137 0.089286 X346 0.017857 X145 0.017857 X348 0.053571 X146 0.089286 X356 0.035714 X156 0.017857 X357 0.017857 X157 0.017857 X358 0.035714 X 158 0.017857 X457 0.0357 14 X234 0.035714 X458 0.053571 X236 0.05357 1 X678 0. 107143 53 con valor de la funcin objetivo,
C 0. 19642850
siendo para el diseo muestral aleatorio MAS(8, 3), 26 56
habindose obtenido pues, una mejora en relacin al muestreo aleatorio.
Para extraer una muestra, basta aplicar cualquier mtodo de seleccin de un ele- mento con probabilidades variables directamente sobre el diseo obtenido, por ejem- plo el mtodo de las probabilidades acumuladas o el mtodo de Lahiri (1951). Vase Sukhatme et al. (1984). Una vez obtenida la muestra, para realizar la estimacin de un parmetro lineal, se aplicarn los estimadores usuales en el muestreo aleato- rio. As, si el parmetro es la media poblacional, la estimacin se realizar mediante la media muestral y el error se calcular por las expresiones usuales basadas en la cuasivarianza.
Es importante notar que si queremos obtener diseos de tipo controlado, iiequiva- lentes a uno dado, basta aadir, a las restricciones ya consideradas, otras que acoten, en la medida deseada, las probabilidad de las muestras no preferidas. Es decir, si denominamos 11' C 3f al subconjunto del espacio muestral formado por las muestras no preferidas, y queremos que la probabilidad de dichas muestras no exceda el valor ti C [0, 1], basta afiadir las restricciones,
Observemos tambin que para el caso de tamao muestral fijo, todo disefio ptimo en relacin a una funcin objetivo lineal tiene, a lo sumo, un tamafio de soporte ( ) ya que, considerado como punto del poliedro de los diseos itequivalentes, es un punto extremo. Ello nos indica que aquellos diseos, en los que todas las mues- tras tienen probabilidades estrictamente positivas no son diseos ptimos. Similares consideraciones pueden hacerse para diseos de tamao muestral variable.
No obstante, en caso de ser la funcin objetivo convexa, los mnimos estn en el interior. As, si consideramos la funcin cncava,
54 que podemos denominar entropa del diseo, la minimizacin de su opuesta,
dar lugar a diseos uniformes, si existen, o bien prximos a ellos.
3. DISEOS MUESTRALES ESPECIALES
Hay diseos muestrales que desempean un papel importante en la teora del muestreo por representar situaciones especiales de los mismos, en relacin a los valores de ii, y ii; en el conjunto de los diseos iiequivalentes. Como veremos los diseos que describimos representan la mxima independencia entre las unidades muestrales o bien la mxima equivalencia entre las mismas.
Definicin 2 Decimos que un diseo muestral es itindependiente si,
Notemos que en este caso Aj = 0 , i j por lo que resulta lgico suponer que darn buenos estimadores del error de muestreo. Si denotamos por ?, j iables aleatorias que indican, respectivamente, si la unidad y las unidades i y j estn en la muestra, se tiene,
de donde se deduce que la eleccin de la unidad i es independiente de la eleccin de cualquier otra unidad, pues las variables aleatorias l; son independientes, siendo su distribucin de probabilidad,
por lo cual, el disefio muestral itindependiente ms general es el llamado diseno de Poisson, es decir, M 2*, siendo la probabilidad asociada a una muestra,
(1) 55 La realizacin prctica de este disefio se puede llevar a cabo mediante el deno- minado muestreo de Poisson consistente en explorar secuencialmente la poblacin, seleccionando cada elemento i con probabilidad ii e independientemente de los dems. El diseo de Poisson presenta la propiedad de maximizar la entropa del disefio,
en la clase de diseos muestrales con probabilidades de inclusin dadas, y esta pro- piedad se mantiene, Hjek (1981), en los llamados diseos de Poisson condicionados definidos a partir de un subconjunto /lf C 2*, por las probabilidades,
siendo p( /lf) = Jp p(m), pp(m) 0 si m / /lf, y p(m) dada por (1). Estos diseos de Poisson condicionados son importantes porque contienen, como casos particulares, a diseos muestrales clsicos. As, para /lf formado por todas las muestras de tamao fijo n, y r = p, p, Si, se tiene,
es decir, el disefio muestral aleatorio simple.
La realizacin prctica de estos mtodos se puede llevar a cabo mediante proce- dimientos de aceptacin-rechazo pero ello puede llegar a ser muy lento. As, para el diseo de Poisson condicionado a tamafio fijo n, se tiene la siguiente cota dada por Hjek (1981), l
siendo k una cantidad que verifica k l
Por supuesto, existen mtodos ms directos para obtener una muestra aleatoria simple de tamao n, incluso sin conocer el valor de N . En este sentido, proponemos el siguiente procedimiento, que denominamos de insercin, y que tine en comfin con el muestreo de Poisson la forma de obtencin de la muestra mediante una exploracin secuencial de la poblacin.
Algortmo 1 (MTODO DE INSERCIN)
En este algoritmo, representa una lista ordenada de elementos de la poblacin usando como criterio de ordenacin el indicado en el paso 2. 56 1. Hacer := 1 y := (). 2. Generar un ntimero aleatorio o; H[0, 1), y segin sea i en relacin a n realizar las siguientes transformaciones sobre la lista ,
< n. Introducir la unidad en , de forma que los elementos de dicha lista aparezcan ordenados por la magnitud del nmero aleatorio corres pondiente. i > n. 5i a _< aj maxnj eliminar la unidad l de e insertar en dicha lista la unidad i de forma que la lista permanezca ordenada por el criterio anteriormente indicado. En caso contrario, la lista no se modifica.
3. Hacer := + 1. Si C U, ir al paso 2. En caso contrario, finalizar el proceso, formando los elementos en la muestra final.
Este procedimiento asegura la obtencin de una muestra perteneciente a un diseo aleatorio simple, a partir de una exploracin secuencial de la poblacin, sin requerir el conocimiento previo del tamao de la poblacin. Para probarlo, basta observar que si ordenramos la poblacin completa usando como criterio la magnitud de los nmeros aleatorios, cualquiera de las N! ordenaciones posibles tiene probabilidad 1//\/!, por lo cual, la probabilidad de obtener la muestra m ser,
Otro procedimiento para la obtencin de muestras es el denominado mtodo de permutaciones. Vase Hjek (1981). Si imponemos que el tamao muestral sea constante, los diseos muestrales ii independientes degeneran en diseos con una sola muestra.
Teorema 1
Dado un diseo muestral de tamao fijo,
entonces ) ha de pertenecer a todas las muestras del.diseo, o no pertenecer a ninguna.
Demostracin
Veamos que, en las condiciones del teorema, in es cero uno. 57
luego in = 1.
Del teorema anterior, imponiendo la condicin a todos los pares de elementos de la poblacin, se deduce el siguiente corolario.
Corolario 2 Un diseo muestral u independiente de tamafio fijo est formado por una sola muestra.
Vemos pues que la propiedad de rtindependencia, en diseios de tamao fijo, da lugar a casos triviales. A continuacin estudiamos otra propiedad interesante de los diseos muestrales y que para el caso de tamao fijo, es verificada por diseos importantes.
Decimos que un disefio muestral es simtrico si verifica, = I ,...,NN Es decir, todas las unidades tienen las mismas probabilidades de inclusin de primer orden, y todas las parejas de unidades las mismas probabilidades de inclusin de segundo orden.
En este caso los niveles dados a los valores de las variables, {1, 2, . . . , /\/}, son independientes de las unidades, frente a la estimacin, no proporcionando ninguna informacin, como nos dice el teorema siguiente,
Teorema 3
Dado un disefio muestral simtrico, cualquier otro disefio muestral obtenido del anterior al renumerar los niveles de las variables mediante una permutacin, o, en U y en todas las muestras del espacio, siendo p(mg ) = p(m), ser un diseo simtrico rtequivalente al anterior. Ntese que el teorema es cierto debido a ser un diseo simtrico pues de este modo es it, = ri . Si adems imponemos al diseo que sea de tamao muestral fijo, tenemos,
Teorema 4
Todo diseo muestral simtrico de tamafio fijo es rtequivalente al MAS(N, ii).
Demostracin Puesto que Z.c = n, si i;, es constante debe scr ii, = n JN y dado que Z, . ., (n l ) rt al ser it,; constante se tendr (/\/ 1)it,/ (n 1)n//\/, de donde 7t = n(n i) JN(N l), por lo que el disefio es H equivalente al MAS(/\/, n).
Aunque esta familia de diseos itequivalentes al MAS(/V, ii) puede caracterizarse con menor nfimero de condiciones,
Teorema 5
Todo diseo muestral de tamao fijo tal que las probabilidades de inclusin de segundo orden son constantes es itequivalente al MAS(N, n).
Demostracin
Como rt, = k = cte, ser (N l ) Z = (ii 1)ri;, por lo que tambin son constantes las probabilidades de inclusin de primer orden, y el teorema se deduce del anterior.
Ello nos dice que las ( ) restricciones,
asociadas a las ft, , j determinan dicho conjunto para los diseos rtequivalentes al MAS(/V, ii).
Los diseos iiequivalentes a un MAS(/\/, n), ptimos frente a una funcin lineal tienen a lo sumo un tamao de soporte ( ) , por la definicin del poliedro, pero puede ocurrir que por la degeneracin del mismo, el soporte llegue a ser incluso de tamafio (/\/ 1)/V/(ii 1)n, como indica Hedayat (1979). Para estos soportes muestrales con menos elementos que el que proporciona el diseo MAS(/\/, n), las probabilidades asociadas a cada muestra no forman, en general, una distribucin uniforme sobre el conjunto de todas ellas, como ocurre en el muestreo aleatorio simple, aunque a veces puede que exista un diseo itequivalente uniforme sobre su 59 soporte, como se comprueba en el siguiente ejemplo, en el cual se indica un diseo uniforme iiequivalente a un MAS(7, 3) con tamao de soporte igual a la cota inferior [N 1)/V/(n 1)ii = 7,
En caso de ser el diseo de tamao variable y ii independiente, la simetra implica que ii, = p, \/ y u,j - p, 4 i < j, es decir, rtequivalente a un diseo de Poisson con p, p, Si, es decir, al disefio de Bernoulli, siendo fcil probar que esta propiedad se mantiene imponiendo solamente la igualdad de las probabilidades de inclusin de segundo orden.
4. DISEOS MUESTRALES EQUIVALENTES DE PRIMER ORDEN
Ya hemos visto como en la clase de diseos muestrales iiequivalentes a uno dado es posible encontrar diseos ptimos en relacin a determinado criterio. De forma similar, dado un diseo muestral podemos buscar diseos ptimos en la clase de diseos con las mismas probabilidades de inclusin de primer orden que aquel. A estos diseos les denominamos equivalentes de primer orden.
Con este planteamiento, se buscan diseos ptimos en una clase ms amplia que la de los rtequivalentes, por lo que en general se obtendrn diseos mejores en relacin al criterio de optimalidad aplicado. No obstante, al no coincidir necesariamente la probabilidades de inclusin de segundo orden, los estimadores no tendrn la misma varianza. Haciendo un planteamiento similar al caso de los diseos rtequivalentes, las restricciones relativas a las probabilidades de inclusin seran ahora,
con la imposicin adicional, supuesto tamafio muestral fijo, de que se verifique,
para que el estimador de la varianza dado por la frmula de Yates-Grundy-Sen, Yates y Grundy ( 1953) y Sen ( 1953), m p(m) 124 235 346 457 561 672 713 l/7 l/7 1/7 l/7 1/7 1/7 1/7 60
sea no negativo. Vase Sukhatme et al. ( 1984). Ello nos obliga a introducir restric- ciones adicionales del tipo,
originando as que las probabilidades de inclusin de segundo orden sean tambin variables del problema. Este modo de trabajar con los diseos tiene como principal limitacin el elevado tamao de los espacios muestrales, lo que puede hacer inabordable el problema de programacin matemtica que se plantee, dependiendo por supuesto de los recursos computacionales disponibles. Sin embargo, presenta la ventaja de permitir la obten- cin de las probabilidades de inclusin de segundo orden, necesarias para la estimacin del error, evitando as las dificultades de otros procedimientos clsicos para obtener dichas probabilidades, usualmente mediante expresiones asintticas complicadas. Adicionalmente se obtienen las probabilidades de eleccin de cada muestra con lo que se facilita su obtencin.
Por todo ello, puede ser de utilidad en la seleccin de las unidades primarias en muestreos multietpicos. Seguidamente exponemos un ejemplo numrico que indica la realizacin prctica de lo anteriormente expuesto.
Ejemplo 2
Consideremos nuevamente la situacin expuesta en el ejemplo l de este trabajo, pero ahora vamos a buscar el diseo ptimo entre los equivalentes de primer orden al MAS(8, 3). Las restricciones relativas a las probabilidades de inclusin de primer orden sern,
1 2 Y 61 De esta forma, usando la notacin Xijk para la probabilidad de la muestra [i, j, k ] , e Yij para it; , tendremos que aadir las restricciones,
56
k t
Observemos que si el diseo es de tamafio fijo,
y en nuestro caso, al ser MAS(8, 3), y fijar la probabilidades de inclusin de primer orden, obtenemos las siguientes restricciones,
z g
As pues, eliminando restricciones redundantes, el problema a resolver es mini- mizar,
siendo las probabilidades de inclusin de segundo orden,
donde los puntos representan los elementos diagonales de la matriz del disefio.
El valor mnimo de la funcin objetivo resulta ser,
C 0.062500
habindose obtenido pues una mejora con respecto a la bsqueda en la clase de diseos rtequivalentes. Observemos que, en general, la solucin del problema anterior no es nica siendo posible escoger entre todas las existentes aquella que mejore otros criterior adicionales.
No es posible, en general, hacer afirmaciones sobre la precisin de la estima- cin con estas nuevas probabilidades de inclusin de segundo orden, no obstante. si ponderamos las muestras de forma adecuada, podemos conseguir una ganancia en la misma, como se demuestra en el siguiente apartado. 0.125000 0.015625 0.093750 0.140625 0.140625 0.140625 0.093750 0.140625 0.046875 0.062500 0.140625 0.093750 0.140625 0.140625 0.078125 0.093750 0.140625 0.140625
0.093750 0.125000 0.140625 0.109375
0.125000 0. 109375 0.140625
0.062500 0.062500
0.06 500
63 min 4.1. Muestras ms informativas
Usualmente, entre las unidades de la poblacin U existen ciertas relaciones lo que origina que unas sean ms afines y otras menos de cara a la informacin que ofrecen, sin que este grado de afinidad puede llevarse a una estratificacin aunque si sea posible cuantificar el grado de proximidad. Por ejemplo, si queremos realizar un estudio en Andaluca, en relacin con la produccin agrcola, ciertas comarcas tienen entre s ms afinidad que otras, aunque no estn prximas geogrficamente. As, las provincias o regiones que tienen produccin olecola no se parecen en su problemtica a las que tienen produccin temprana de productos que son suceptibles de exportacin. Por ello, si queremos hacer una encuesta para estudiar el estado socioeconmico de la regin, si en una muestra intervienen dos comarcas con la misma problemtica ser menos informativa que si interviniesen dos comarcas con distinta problemtica. Basndonos en la idea anterior, suponemos la existencia de una matriz de afinidad, fi, de dimensin N N, simtrica y cuyos elementos supondremos no negativos, de manera que el elemento ay representa la afinidad entre las unidades y ). Esta matriz nos permite cuantificar el concepto de muestra ms informativa. Para ello, dado un disefio con espacio muestral M, definimos la funcin,
en la forma,
Definicin 4
Dadas dos muestras, m, m' C M, diremos que m es ms informativa que m', lo que denotamos m + m', si verifican, A(m) < A(m').
Observemos que esta relacin es reflexiva y transitiva pero no antisimtrica, es pues un preorden. Adems, dadas dos muestras, m y m', se verifica m + m' m' + m, luego esta relacin es un preorden total.
Como el espacio muestral es finito, podemos hablar de las muestras de mxima informacin, es decir, del conjunto de muestras,
M ={mEM|A(m) 64
sin embargo, la eleccin de una de estas muestras para realizar la estimacin no resulta apropiada por incumplir la estrategia del muestreo probabilstico. No obstante, para evitar esta dificultad, podemos definir el concepto de afinidad media del disefio d (lu, p( - )) como,
y buscar entre los diseos equivalentes de primer orden a uno dado, los que minimizar dicha afinidad media. Este enfoque tiene una interpretacin interesante, en efecto, observemos,
Ello nos permite ahrmar que al minimizar la afinidad media en el conjunto de los diseios equivalentes de primer orden a uno dado, tienden a estar menos representados los pares de elementos con mayor afinidad. Dada una clase C, de diseos muestrales, a los diseos en 6 que hagan mnima la afinidad media, los denominaremos diseos ms informativos en la clase C. Estos diseos, para tipos especiales de afinidad, son tambin ptimos en otro sentido, como indica el siguiente teorema.
Teorema 6
Dada una variable cuantitativa, Yj , Yz , . . . , Y N. definida sobre la poblacin U, sea,
M
y consideremos la matriz de afinidad R, dada por,
Se verifica que el diseo ms informativo en la clase de diseos de tamao fijo equivalentes de primer orden al MAS(/\/, ii), minimiza la varianza del estimador de Horvitz-Thompson para el total poblacional,
65 Demostracin
Sabemos que el estimador de Horvitz-Thompson para el total poblacional es,
y por ser el diseo de tamafio fijo, su varianza se puede expresar mediante la frmula de Yates-Grundy-Sen,
1 2
Desarrollando la afinidad media, obtenemos,
lo que nos dice que minimizar la afinidad media es equivalente a maximizar la can- tidad,
Por otra parte, si el diseo es equivalente de primer orden al MAS(N, ii), se tendr para la varianza,
1 2
Luego el diseo ms informativo es de mnima varianza.
66 Observemos que en la prctica, los valores de la variable de estudio, I'j , . , . no son conocidos, por lo que puede emplearse una variable auxiliar con valores Si , . relacionada con la variable de estudio, como es habitual en el muestreo.
REFERENCIAS
[ 1]
(2]
[5]
[6]
[7]
[8]
(9]
[ 11]
[ 12]
[ 13] Avadhani, M.S. y Sukhatme, B.V. ( 1973). Controlled sampling with equal probabilities and without replacement. Internas. Statist. Rev., 41, l75182. Bellhouse, D.R. (1984). A review of optimal designs in survey sampling. The Canadian Journal of Statistics, 12, 5365. Foody, W. y Hedayat, A. ( 1976). On theory and application of BlB designs with repeated blocks. Ann. Statist. Assoc., 5, 932945. Fernndez, F.R. y Mayor, J.A. (1994). Muestreo en poblaciones finitas. curso bsico. P.P.U. Barcelona. Goodman, R. y Kish, L. (1950). Controlled selection a technique in probability sampling. J. Amer. Statist. Assoc., 45, 350372. Hjek, J. (198 l). Sampling from a Finite Population. Marcel Dekker, Inc. New York. Hedayat, A. ( 1979). Sampling Designs with Reduced Support Sizes. Opti- mizing Methods in Statistics. Rustagi, J. (Ed.). Academics Press, New York. Hedayat, A. y Sinha, B. (1991). Desing and Inference in Finite Population Sampling . John Wiley & Sons, Inc. New York. Horvitz, D.G. y Thompson, D.J. ( 1952). A generalization of sampling wit- hout replacement from a finite universe. J. Amer. Statist. Assoc., 47, 663685. Lahiri, D.B. (195 l). A method of sample selection prov iding unbiased ratio estimates. Bulletin of the International Statistical Institute, 33, 133140. Midzuno, H. (1952). On the sampling system with probability proportionate to sum of sizes. Annals of the Institute of Stat stical Mathematics, 3, 99107. Ran, J.N.K. y Nigam, A.K. (1990). Optimal controlled sampling designs. Biometrika, 77, 807814. Ran, J.N.K. y Nigam, A.K. ( 1992). Optimal controlled sampling: a unihed approach. Internat. Statist. Rev., 60, 8998. Sen, A.R. ( 1953). On the estimate of the variance in sampling with varying probabilities. 7. Indian Sec. Agric. Statist., 5, 119127. Sukhatme, P.V., Sukhatme, B.V., Sukhatme, S. y Asok, C. (1984). Sampling Theory of Surveys Applications. Tercera edicin. Iowa State University Press. Ames. Iowa. 67
[16] Yates, F. y Grundy, P.M. (1953). Selection without replacement from within strata with probability proportional to size. J. Roy. Statist. Soc., BIS, 253 261. [17 1 Wynn, H.P. ( 1977). Convex sets of finite population plans. The Annals of Statistics, 5, 414--418.
ENGLISH SUMMARV: G EQUIYALENT AND FIRST ORDER EQUIVALENT SAMPLING DESIGNS
Fernndez Garca, Francisco R. and Mayor Gallego, Jos A.
In order to estimate the parameter,
over the population U [ 1,2, . . . , N ] , we can use the Horvitz-Thompson estimator,
where m is a sample from a sampling design d (lu, p( )). This estimator and its variance depend only on the first and second order inclusion probabilities, so we can look for sampling designs improving additional criteria in the class of designs with the same inclusion probabilities. Usually, searching for these designs implies the resolution of mathematical pro- gramming problems. So, we study the sampling designs with equal inclusion proba- bilities and the practical method of finding a design with given inclusion probabilities, improving some utility criteria. Let be H the design matrix, that is,
68
with ii, = n,. Two sampling designs, d y (M , py (-)) and dz (Mi, p(-)) , with design matrices H(') and H('), respectively, are said ii-equivalent if H(') = II().
We can consider a sampling design as a point belonging to the product space J with q == N and ? = [0, 1]. The sampling space is,
and a = (a , a , . . . , a )' is the above mentioned point, that is to say, the probability distribution, with x k
r(k) , k 1, . . . , q. We denote by,
we have, /,(k)= \/ i, j C U, k == 1 , . . . , q
k > 0 k l , . . . , q
that is to say, a convex polyhedron whose elements are ii-equivalent sampling designs.
Notice that in order to obtain ii-equivalent controlled sampling designs, it is suffi- cient to add some constraints bounding the probabilities of the non-preferred samples. So, let be W the subset of the sampling space of the non-preferred samples, if we want the probabilities of these samples not to be greater than n C [0, I], it is sufficient to add the constraints,
Also, for a given sampling design, we can consider the class of sampling designs with the same first order inclusion probabilities. These designs are named first order equivalent designs. Thus, we can search for optimal designs in the class of first order equivalent designs, obtaining, in general, better designs in relation to the optimality criteria. Nevertheless, the second order inclusion probabilities are not the same and therefore the estimators do not have equal variances. 69 2 The posed problem has the following constraints for the inclusion probabilities,
k \
with the additional constraints, if we have a fixed sample size,
in order that the Yates-Grundy-Sens variance estimator,
a
may be non negative. This forces the additional constraints, to be introduced,
that is to say, the second order inclusion probabilities are also problem variables.
Usually, between the units in the population there are some relations of affinity, with respect to the information that they provide. Using this idea, let be R an affinity matrix, with dimensions N x N, symmetric and non negative, where the element a is the affinity between the un its i and ). Given a sampl ing design with sampling space M, we dea ne the function,
as,
So, for two samples, m, m' C /l , we say that m is more informative than m', and we denote it by m + m', if they verify A(m ) < A(m').
This relation is reflexive and transitive but not antisymmetric, so, it is a preorder. Furthermore, for two samples m and m', they verify m + m' or m' + m, thus, the relation is a total preorder.
Since the sampling space is finite, we can consider the samples providing maximal information, that is to say, the set, 70
In order to estimate the parameter, the choice of one of these samples is not appropriate because it does not fulfil the probabilistic sampling strategy. Nevertheless, to avoid this difficulty, we define the expected affinity of the design d (/lf, p( - )) as, E \A(d)\ = Z A(m)p(m) and minimizing the expected affinity by searching into the first order equivalent sam- pling designs. This approach has an interesting interpretation. We note that,
Thus, minimizing the expected affinity in the class of the first order equivalent sampling designs, the pairs of units with high affinity have less second order inclusion probability.
For a class of sampling designs, C, the designs with minimal expected affinity will be named most informative designs. These designs are also optimum with other criteria and with special types of affinity as the following theorem states,
Theorem For a quantitative variable, Y , Yz , . . . , Y N. defi ned over the population U, let be, M
and let us consider the affinity matrix fi, with elements,
Then, the most informative design in the class of fixed sample size designs first order equivalent to SRS(/\/, ii) minimizes the variance of the Horvitz-Thompson esti- mator for the population total,
Estimación de Algunas Propiedades Geotécnicas de Los Suelos Mediante Análisis Multivariado (Regresión Múltiple) y Su Utilidad en La Ingeniería Civil: Suelos Finos Del Oriente Boliviano