Anda di halaman 1dari 36

ESTADISTICA ESPAÑOLA

Núm. 1 1 5, 1987, págs. 5 a 39

U n esq uema m ixto d e m uestreo con


probabilidades desiguates
Por
J. L. SANCHEZ-CRESPO y J.M. GABEIRAS
Correspondencia: J. L. Sánchez-Crespo - Villanueva, 20 - 28001-Madrid

RESU1'VIEN

Desde un punto de vista teórico, el esquema mixto de muestreo llena una


laguna entre los procedimientos clásicos del muestreo probabilistico con
probabilidades desiguales con y sin reposicián.

En la práctica de encuestas constituye un procedimiento útil que puede


proporcionar una reducción substancial en la varianza del estimador. En
particular para r^2, en cada estrato, la reducción potencial es similar a la
obtenida con el muestreo sin reposición sobre el muestreo con reposición
en el caso de probabilidades iguales.
La selección de la muestra es muy sencilla y se dispone de un estimador
insesgado y no negativo de la varianza cuyo cálculo es muy simple.
La probabilidad incondicional de obtener una unidad es igual a la proba-
bilidad inicial, en cualquier selección. Esta propiedad es importante en los
esquemas de muestreo que ineluyen rotación de la muestra.
En el muestreo bietápico se pueden reducir ambas componentes de la
varianza,
La aplicación de un modelo de superpoblación indica un valor esperado
para la varianza igual al de Horwitz y Thompson y siernpre menor que el
Hansen y Hurwitz.

Palabras clave: Muestreo con probabilidades desiguales. Esquemas de rota-


ción. Modelos de superpoblacicín, Esquemas de Hansen y Hurwitz, y de
Horvitz y Thornpson.

Clasi^cacián A1^IS 62D05


EST.1[)ISTIE^A ESPAti()L.A

0. ANTECE©ENTES HISTORICOS DEL ESQUE:viA :vIIXTO

Consideraremos el prablema de estimar el total X en una población finita de N


unidades de muestreo, para las que se conocen los valores de una variable auxiliar M;
altamente correlacionada con la X, . En el muestreo con probabilidades desiguales
aparecen dos alternativas clásicas bien conocidas: u^ Muestreo con reposición, debido
n
a Hansen y Hurwitz ( i 943) con el estimador ^ f,,^ _^ X; 1,u, donde ^u; = nP; es el
r
número esperado de apariciones de la unidad t^, en una muestra de n unidades.
h1 Muestreo sin repasición, debido a Horwitz y Thompson (1952) con el estimador ^Zf^^-
^
_^ X, 1^, siendo n, la probabilidad de inclusión de la unidad u, en la muestra. Can los
pro^edimientos de selección debidos a Brewer (1963), Durbin (1967) y otros, ^t; = nP;.

Brewer y Hanif (1983), presentan una lista de 50 procedimientos en el muestreo con


probabilidades desiguales. No obstante en la página ó dicen: «^:1 muc^strc^^^ cvn rc^pusi-
cicín c^.s menos ^feciE^ntc^ yue cic-^rtc^s^ e.syuc^mus ultE^rnutiv^^.s' ^rc^puc^.stc^.s r^c^.^^cle c^ntunec^.s
puru el muestr^c^ .S^in re^^^.sieic^n. A^e.^^ur t,l^ E'.S'1(^ ulkun^^.s ^7rE'Jic^rc^n utiliLur c^l rrti-^c^.^'trc^v
c{^n repusicivn». Entre las razones que alegan figuran: la selección de la muestra, la
estimación insesgada de la varianza, as^ coma otros aspectos de los diseños polietáticos
son comparativamente más simples y fáciles de aplicar.

Queremos señalar que la idea de Sánchez-Crespo (1977), con las probabilidades


gradualmente variables y su extensión al esquema mixto con la colaboración de Gabei-
ras, ha tratado fundamentalmente de mantener las ventajas del método de Hansen y
Hurwitz, reduciendo al mismo tiempo la varianza. Esta reducción puede en algunos
casos ser i m portan te.

Con relación al trabajo realizado entre los años 1943 y 1952 queremos mencionar los
siguientes nombres: C^oodman y Kish (1950), Lahiri (1951), Madow { 1949), Midzuno
(1950) y Narain (1951).

En una carta reciente J. N. K. Rao hizo mención sobre el trabajo realizado en esta
dirección por Sethi en 19b2. Me sorprendió ya quc cuando en 1977 presenté mi artículo
en Nueva Delhi nadie mencionó dicho trabajo a pesar de cstar presentes durante la
discusión más de 5^ est^tdísticos, especialistas en muestrea, cíc^ la lndia. E1 presidente de
la reunión fue Hartley y a ella asistieron Azorin, E3rcwer, F'ellegi, Hansen y Kish, entrc
otros que no recuerdo. C'onsulté algunos lihros hien conocidos camo los de C'ochran,
Kish y Murthy. Solo en este último encontré cl cnt^^que de las suh-unidacies de Sethi,
páginas 187-88, pero sin mención dc la varianl;i del estimador dcl total en cl caso cíel
muestreo sin reposición. Es posihlc que cstc^ tic clchti al hccho dc yuc en las pvcas líneas
que en las páginas 219-20 de su artículo Sethi dedica al muestreo sin reposición, la
fórmula (3.2) para la v^irianla ^ip^Irc^c c:c^^^ c^c^ti ^•rr^^<<I^. ^u fi^,ur<< c) t^^ctc^r (X-1 )-^ y I^t X
UN ESQUEMA MIXTO DE MUESTREO C'ON PROBABILIDADES DESIt^I'ALES

,
debería ser X`. Utra razón podría ser la no presentación de un e^;tin^ador para la
mencionada varianza. Con nuestra notación X=M. ?Vo abstante el enfoque de Sethi
debe considerarse como un antecedente del esquerna con probabiiidades graduales.

Los resultados obtenidos por Sánchez-Crespo { l 977) fueron:

u) Si la unidad t^; queda representada en la urna por 1'vi, bolas y el muestreo es sin
reposición, el número de veces e; que dicha unidad aparece en una muestra de tamaño
n sigue una distribuCión hipergeométrica generalizada con:

M-n
E(c^,) _ ,r^; _ V (c^,) _ . n P; { 1-P,)
M-1

M - rT
^OV{('; ; ('^^ _ ^ jr P; P^ ^ # .Í
M- l

h) La probabilidad incondicional de la unidad rr; en cualquier selección es igual a


P; = M;IM. Esta propiedad puede ser utilizada en los esquemas de rotación.

c^) La varianza del estimador insesgado para el total es:

M-n ..
V^?^ sc^) = --- • V (X tcl^}
M-1

Esta expresión corresponde a la f'órmula (3.2.) de Sethi.

cl) Un estimador insesgado y^ no negativo para la varianza es:

^ M - ^t ^r
V i ^ s^ .) _ _____ • ^ {X^^P; - X.^^c^)^ / rt(tt- l )
M ,

c^) Una extensión al muestrco hiet^ípi^o.

l. DESCRIPCION DEL ES(^UEMA MIXTO

Supondremos que el lec:tor est^í f^imiliarizado con los desarrollos en el nluestreo con
probabilidades desiguales, tal cc^n^o sc pres^^nt^rn en e[ lihro dc.^ K. B. E3rewer y M. Hanif^
{1983).

Para la selección de una mu^^str<<, dc ^t uni^ia^fe^ en un^r pc^hl^reic^n finil^r, c.^on^ic^er^ire.^-


mos el siguiente esquema dc urn^r: ('<<da uni^l^td dc mue.^titrc.•c> >t,, cof^ r= I,?,... ltil, ^^st^í
representada en la urna por M, holas ^icl n^i^n^c^ cc^lc^r, ^;i^^ndc^ 1`✓I c.•1 tc^t^rl cl^^ bc^ltis.
ESTA[^ISTICA ESPAI^OLA

En el muestreo con reposici+ón, la bola seleccionada se repone a la urna permanecien-


do la composición de ésta inalterada. E1 número de veces, e,, que la unidad i^; puede
estar en la muestra, sigue una distribución de probabilidad multinomial.

En el muestreo sin reposición, todas las bolas que representan a la unidad selecciona-
da (del mismo color que esta unidad), son retiradas de la urna.

Entre estas dos alternativas clásicas, en el esquema mixto la bola seleccionada no se


repone a la urna y además son retiradas de esta h-1 bolas del mismo color, siendo h
menor o igual al mínimo valar de M, divido por n-1.

El esquema descrito podría considerarse como sin reposición, en el sentido de que la


bola no se repone a la urna. También podría considerarse como con ^ eposición en el
sentido de que cualquier unidad puede, en general, pertenecer a la muestra más de una
vez. Esta es la razón por la que le hemas denominado procedimiento rnixto. Para b-0
reproduce el esquema con reposición de Hansen y Hurwitz, y para h=1 el esquema de
probabilidades graduales de Sánchez-Crespo. La variable aleatoria e; sigue en el primer
esquema una distribución multinomial y en el segundo una distribución hipergeomé-
trica generalizada. En este artículo se considera e[ caso b? 2 en el que la variable e;
sigue una nueva distribución de probabilidad.

2. NUMERCJ DE yECES QUE LA UNIDAD u; ES OBSERVADA EN UNA


MUESTRA DE n UNIDADES.

Definiremos la siguiente función:

W (x,Y,z) = xíx-Y) (x-^Y) .... (x - (z-1) Y ) z = 1, 2, ...n

que cumple la condición W{x, y, 0) = 1.


Siendo y un núrnero entero tal que y= mfn.x 1(n - 1) con los valores de x enteros y
pOSltl VOS.
Cuando e; = Cl las n unidades de la muestra corresponderán a colores distintos al
asignado a la unidad u; y todas las unidades de la muestra pertenecerán a la clase M-M;.
Del mismo modo si todas las unidades de la muestra pertenecen a la clase M;,
tendríamos e; = n y ninguna unidad muestral pertenecería a la clase M-M;.

La variable aleatoria e; tiene la siguiente función de cuantía:

P(e; = t) = P(n, t) - n' . W(M^^h.t) • W(M-M;,b,n-t)


t!(n- t) ! V^(M, b, n)
UN ESQI^EMA MIXTU DE Ml1ESTREO C'C)IV PROBABILIDADES DESIC;l^^ALES 9

n
para t = 0, 1, 2,... n con ^ P(n,t) = 1

A continuación demostraremos que la suma de probabilidades es igual a la unidad


para n=2 y n=3, casos que creemos más importantes en las aplicaciones del muestreo
mixto.

Para n=2 tenemos:

W(M,b,2) . F(2;0) _ (M-M;) (M-M;-b) = W{M,b,2) + M^+ M7b -2MM;

W(M,b,2) . P(2;1) = 2M; (M-M;) =- 2M? + 2MM^

W(M, b, 2) . P(2;2) = M; (M;-b) = M?- M;b

y por lo tanto
t=2
W(M, b, 2) .^ P(2;t) = W(M, b, 2) + 0. M^ +©. M;
r=o

c-1
^ P(2;t) = 1
r=0

Análogamente para n=3 tendriamos:

W(M,b,3) . P(3;0) _ -M3 + M^ (3M-3b) + M; (-3M2 + 6Mb - 2bZ}

+ W(M,b^3)
W(M,b,3} . P(3;1) = 3Mj +M^ (-^iM+3b) + M; (3M2 - 3Mb)

l^(M,b, 3) . P(3;2) _-3M! + M? (3M+3b) - 3 M1bM

W(M,b, 3) . P(3;3) = M; - 3bM? + 2M; b^

de donde se deduce

t =3
^ P(3;t) = 1 y asi sucesivamente para n> 3.
r=0

El valor esperado de e; es igual a:

^
E(e;) _ ^ tP(n;t)
r=0
F..STADISTIC'A FSPAÑOLA

y por lo tanto

n tn P; {n-1) ! W(M; -b,b,t) . W(M-M, ,b, n-t)


E(e;) _ ^ .
l=o t(t-1) ! (n-t) ! W{M-b,b,n)

n
= nP; ^ P(n-1; t) ; pero P(n-1, t) es una función de cuantía para
r^o
t=1, 2, ... n por lo que E{e;} = n P;

Para la varianza de e; tenemos

V(e,) = E(e;)^ - n2 . P^

^alcularemos ahora la esperanza de e; .(e; - 1)

n(n-1) (MP; - b)
E(e;.(e;- 1))= ^ t(^ . P(n-2, t)
M-b t=^ t (t-1)

pero de nuevo P(n - 2, t) es una función de cuantía, para t = 2, 3, ,.. n y por


consiguiente: ^

E(e;•(e,- 1))=Ee2-Ee;=n(n- 1)(MP;-b). P;/(M-b}

de donde Ee; _ (n (n - 1) (MP; - b) P; / (M - b) ) + nP;

y V(e;)=(n(n- 1)(MP;-b)P;l(M -b))+nP;-(nP;)^-

n P;
_ -- . (-nb - MP; + M -nbP;)
M-b

^(e; ) _ ^ . n P; ( l - P;)
M -b

3. ESTIMAD()R DEL 'I'O'I'AL Y SU ^ARIAN:^A

Un estimador insesgado del total poblacional X es:


N ^; ^; n
^ sec =^ _^ X; 1 n P;
^ E E^ ,. ^
lJN ESQUEMA MIXTO DE Ml1ESTttE() C`U1`^ PR(7BABILID.ADE:S DESI(;UALES

con varianza

1
V (^S,^,c) = ^ ^ (X`)ZV(e;)+ ^ x`X^..Cov(e1^e^)l
J
n t Pi i^^ P; P^

La covarianza de e; y e; se obtiene a parti r de la función de cuantía de la variable


aleatoria bidimensional (e; ; e^;):

n! W(M^, b, t^) . W(M; , b, t^) . W(A, b, C)


P(e;=tl,e^=t2)= .
tl ! t2 !( n- tf- t^) ! W(M, b, n)

con A=M-M;-Mf y C-.n-e;-e^

De donde, aunque no de forma inmediata, se obtiene

n! M^.M^ - n(n- 1)MP;P^


E(e;.e^)- . -
(n - 2} ! M . (M - b) M - b}

n P; P^
Cov (e; , e^ } _ - -nb)-- M-nb
M-b ^nP;P^f
M-b

y por lo tanto
N _
V (^scc1 = M n • ^ • ^ (X^ / P; - X)2 . P ^^ = M nb . V( ^
HH)
M-b n ^ M-b

donde V(^HHy es !a varianza del estimador para el total, en el muestreo muitinomiai


debido a Hansen y Hurwitz.

Como ( M - nb) 1(M - b) ^ 1 siempre se verif ea que:

V (^SCG^ C V (.11HH^ n >

4. E5TIMADOR INSESGADO Y NO NEGATIVO PARA LA VARIANLA

Demostraremos que la expresión


h

^ (X ; ^ Pl - 1^..SC'G)2
^ (^S^•^;) = k . l
n(n- 1)
ESTAD1STi('A ESPA!V()LA

donde k=(M - nb) / M, es un estimador insesgado de V(^s^^r;).

En efecto: I}ebido a la invarianza a un cambio de origen, tenemas:

^ (X ^ i' P^ - r'LSCG}2 - ^ { (Xi ^ P^ - X} - (^SCG ' ^) ^^ _


r i

^t
= ^ (X;lP;-X)^-n(^scc-X}2
^

y por lo tanto

k n ^ Z
^(^sC.G)= •( ^ (x^^P^-X)`-n(^S^•^;-X) }
n (n - 1) ^

Introducienda la variable e; tenemos:

^(^scc}= •( ^ (X;^P^-X}2.e;-n(^scG-X)2}
n(n- 1} ^

y tomando esperanzas
k ^
E (^ (xsrG) ) _ • ( ^ ^ (X; ^ P; - X)2 . nP^ - nU (^scG) ) -
n(n-1) ^

y k . n^(M
( h}.V^
( SC )-nV(^
G SC ))_
G
n(n-1) Ni-nb

Mk
= V (^s^•c) k ( n(M - b} - 1}= y(^scc)
n- 1 M-nb M- nb

y como para que ^ (^scG) sea insesgado, ha de ser k=(M - nb) 1 M.


queda demostrado que ^(^. s^•c} es un estimador insesgado de V{^scG).

De las condiciones ya establecidas para b, se deduce que contrariamente a lo que


puede ocurrir con la varíanza estimada en el esquema de Horvitz-Thompson, ^(^scG)
es siempre no negativa.

5. MAN'TENIMIENTO DE LAS PROBABII,IDADES DE S1^:L^;CCIUN

En el pracedimiento mixto de selección la probabilidad incondicional de obtener u;


es igual a P^ en cualquier selección. Esta propiedad podría ser importante, como
indicó Feliegi (1963), en los esquemas can rotación de la muestra.
UN ESQIJEMA MIXTO DE M[JESTREO C'ON PROBABIL[C)ADES DESIC;I.;ALES ^ 3

La probabilidad que tiene la unidad u; de ser elegida en la primera selección es igual


a P; .

La probabi lidad en la segunda selección es:

M1 M;
P(uj;2.,)-. M^
`(M^` - b ) +'^; M^
r - b+M - M^^
=P;.
M(M-b) M(M-b) M-b

La probabilidad en la tercera selección es:

M ^ (M^ - b) (M; - 2b) (M - Mt) M ^ (M; - b)


P (u; ; 3.') _ ` + ' +
M (M - b) (M - 2ó} M (M - b) (M - ^b)

+ M; (M - M^) (M1 - 2b) + (M - M ^) (M - M; - b) M;


M (M - b) (M - 2b) M (M - b) (M - 2b)

y así sucesivamente.

6. ALGUNAS CUNSIDERACIONES

La varianza del estimador propuesto y el estimador de su varianza, son comparables


en formato con las obtenidas por Hansen y Hurwitz especialmente en cuanto a su
facilidad de cálculo.

A continuación citaremos la opinión de algunos autores, a este respecto.

"En la práctica, para la selección de un método son consideraciones importantes: la


facilidad de selección de la muestra, la sirnplicidad de los estimadores, y la disponibili-
dad de un estimador de la varianza. Con n=2 todos los métodos son simples". W. iG.
Cc^chran, 1977, pág. 269.

En la misma dirección M. R. Sampford (1975), en la página 3 de su artículo invitado


a la Reunión del ISI en Varsovia, dice: "Este procedimiento {refiriéndose al método de
Hansen y Hurwitz) tenía y todavía tiene considerable atractivo en la práctica: el
procedimiento de selección es simple, así como el de análisis.

Análogas consideraciones pueden verse en el libro de Brewer y Hanif (1983), pág. b.


FSTAD ^ STlt'A FSPA^C^LA

7. E,IEMPLQS ILUS"TRAT1V05 DE^L F.SQU^:?1^iA MIX'TO

Por el mornento hemos postpuesto la comparación formal del esquema mixto con
otros esquemas de muesireo. E1 único propósito de esta sección es ilustrativo para
conjuntos particulares de Ios valores de X; y P;. En ningún caso debe de ínterpretarse el
resultado como indicadar de una superioridad de un método sobre otro.

En secciones posteriores se utilizan otros ejemplos y en la seceión 11 se considera un


modelo simple de superpoblación.

Ejemplo 1

Consideremos los valores X; (1; 3; 4) y M; (3; 5; 7) con M= 15, P; (3/ 15; 5/ l 5; 7/ 15),
b= 3, y n=2. Las posibles tnuestras sk con el esquema mixto son:

sk s, (3; 3) sz (4; 4) s j(1; 3) s4 (1; 4) ss (3; 4)

P(s^) 5/90 14/90 15/90 21/90 35I90

A continuación f guran los valores de ^.scc^ su varianza como suma de componentes,


la varianza estimada, y su esperanza^ .

^scc (^ sc•c - X )2 • P{s,^) ^(^scc) ^(^sc-^) . F{sk)

9,00 0,0556 0 0
8,57 0,0508 0 0
7,00 0,1667 2,4 0,4000
6,79 0,3440 1,9 l 32 0,44ó4
8,79 0,2400 0,0276 0,0107

^(^SC-c;) = 0.8571 E(^) = 0,8571

Tenemos también E(^sc•c;) = 8 y

W(^ (^scc) ) = E(^ (^sc•c) }^ - tE (^ (^sc•c^} )? = 1,0795

que proporciona una idea de la estabilídad de varianzas.

Los coeficientes de variacíón san:


CV(X;) = 0,4ó77 CV(M;) = 0,3266 CV(^ (^,SCC) = 1,21
UN ESQUEMA MiXTU DE MUf^S^TREO CUN PROH.ABIL{[^ADES DESIGL'ALF...S l5

La varianza de ^t,t^ es V(^ZHH) - 1,1428 y la varianza del estimador de Horwitz y


Thompson, utilizando el método de selección de Brewer, es:
v(RHT I B) = 0,9286. Finalmente el estimador de Rao Hartley y Cochran proporciona el
valor V(^RHC) = 0,7619.

Por lo tanto para este ejemplo ilustrativo del esquema mixto tenemos:

V (RHH) ^ ^(^Hl ^ B) ^ V (11SCG) > ^(X RHC^

No obstante este orden cambia en el ejemplo siguiente.

Ejempio 2

Supongamos ahora los valores X; (40; 42; 43) , M; (120; 125; 130} , P; (0,320(^;
0,3333; 0,34b7), M=375, b=120, y n=2.

Los resultados obtenidos son:


^(RHH) = 0,3351, V(^HT^B) = 0,1577, V(^RNC - 0,2234, y V(^scc) = 0,1774. Vemos
que en este ejemplo el estimador de Brewer ha pasado al primer lugar con el orden
siguiente:

V (^`tfN) } V (^RHC} ^` V (RSCG) ^ V (^fI T ^ g)

quedando el esquema rnixto en segundo lugar en ambos ejemplos.

8. DISCUSION StJBRE EL VALOR DE b

De acuerdo con lo expuesto en la sección segunda sabemos que, para un tamar^o dado
de la muestra, la probabilidad de que la unidad u; pertenezca n veces a la misma viene
dada por la expresión:

M^(M^ - b)..........(M; -(n - 1) b)


P(e; = n) = W(M'' b' n) _
W(M, b, n) M(M - h)............(M -(n - 1) b)

= mr'n . M; M^,
con la condición M; -(n - l) h >0, correspondiendo fi = _______
n-1 n-1
M - nh
a la mínima varianza. Por otro lado sabemos que: G= 1- .
M-h
ES7^AL)^STIC`A ESP^^()LA

Por lo tanto la g,anancia en varianza sobre el procedimiento de Hansen y Hurwitz,


para un tamaño medio M f N= M^, es:

n-1
G =^
N(n- 1)- 1

que para n= 2 proporciona la misma ganancia que el muestreo sin reposición sobre el
muestre© con reposición en el muestreo con probabilidades iguales.

En el caso de que los valores de Ní, difieran considerablemente de dicho tamaño


medio se debería utiiizar una estratificación conveniente tratando de encontrar tamaños
similares en cada estrat©. El número de estratos debería ser igual o próximo a n/2,
obteniéndose dos unidades por estrato.

Ejerrtplo 3

Consideremos ahora el siguiente conjunta de valores: X; (40; 42; 43; 46; 48; 50; 55;
58; 60) con tamaños: M; (120; 125; 130; 150; 160; 165; 200; 215; 220).

Par n=6 el valor de b seria 120/5 = 24 y la ganancia en precisión sobre el esquema de


Hansen y Hurwitz un 8,2%.

Si ahora consideramos la población dividida en n/2 = 3 estratos obtendríamos: los


valores de b(120; 150; 200) y los de M(375; 475; 635) con el siguiente cuadro de
varianzas.

Estrato h V(^St) v^^NN) V(^scc) nn

1 3,5 0,335 0,177 2


2 6,5 0,810 0,436 2
3 9, 5 0,900 0,486 2

Varianza
global 19,0 2,045 1,099 6

Vemos por lo tanto que con la estratificación, tomando dos unidades por estrato,
tenemos una ganancia sobre el método de Hansen y Hurwitz del 46% con el mismo
tamaño de rnuestra, en vez de( 8,2%. Sobre el muestreo aleatorio simple estratificado,
V(^.s^), la ganancia en este caso es del 94°!0.
UN FSC;^UEMA MIXTO DE Ml^`ESTREU CON PROHABII_IDADES DESI^áUAL_ES ^ ^

9.(*) RAZON DE UN LIMITE SUPERIOR PARA G SOBR^; (nh - l)/(N^, - 1).

La fórmula 1 de la sección 8, puede ser considerada com© la máxima ganancia


potencial del esquema rnixto, que puede ser obtenida en cada estrato, respecto al
esquerna de Hansen y Hurwitz. En la siguiente tabla figuran los cocientes de dicha
ganancia potencial rnáxirna, a la que se obtiene en el muestreo aleatorio simple sin
reposición respecto al con reposición.

Tabla l. Razón de GmQ,,^ a (nh - 1) /(Nh - 1)

(Puede verse facilmente que la razón es algebraicamente igual a:


(N^, - 1) / (Nh ( nh - 1) - 1).

nh

NN 2 3 4 b 10

3 1,00
4 1,00 0,43
s l,ao 0,44 0,29
ó 1,00 0,4s 0,29
7 1,00 0,46 0,30 0,18
8 1,00 0,47 0,30 0,18
9 1,00 0,47 0,31 0,18
10 1,00 0,49 0, 31 0,18
20 1,00 0,49 0,32 0,19 0,10

Esta tabla confirma para nh = 2 una mejora potencial substancial del esquema mixto
sobre el de Hansen y Hurwitz en cada estrato. Esta ganancia seria idéntica a la que se
obtendria con el muestreo aleatorio simple sin reposición sobre el mismo esquema con
reposición, en el caso de probabi lidades iguales. La ganancia se reduci ría a la m itad
para n=3, y a un tercio para n=4.
Cuando N es grande la razón se aproxima a 1 /(nh - 1).
La tabla 2 presenta los valores de Gm^X para varios tamaños de muestra y estrato. En
ella vemos que para un valor fíjo de N^, los valores de G,^ú^ decrecen lentarnente al
aumentar nh cuando Nh es menor o igual a cinco.

(*) E1 contenido de esta sección se debe a una sugerencia de I. Fellegi.


rsT ,^nisT^c^,A ^:sP^^c^t_^

"I'abla 2. Valores de Gm^_x para varios valores de Nh y nh

r=h

^ 2 3 4 6 10
^

3 0, 50 --
4 0,33 0,29 -
s O,ZS 0,22 0,21 -
b 0,20 0,18 0,18
7 0,17 0,15 0,15 0,15 -
8 0,14 0,13 0,13 O,i3 -
9 0,12 0,12 0, l 2 0,1 1 --
20 0,05 0,05 0,05 0,05 0,05

10. EL ESQUEMA MIXTO EN MUESTItE(J BIETAPICO

Consideraremos los dos ^asos siguientes:

a) Las unidades de primera etapa son elegidas con el esquema mixto. En las
unidades primarias de ia muestra se realiza un listado y las unidades de segunda etapa
se seleccionan utilizando muestrec^ sxn reposición y probabilidades iguales.
,. „ ^;
El estimador del total es: ^scG = T-- con ^; = M; z;
` n P;

A partir de la varianza incondicional (teorema de Madow) tenemos:

M-nó 1 ^ 1 2 M; - m; S;
^t^SCGj ^ ^(^NH^ + -"` ^
M-ó n ^ P; M; m;

h) En ambas etapas se utilizan conglomerados compactos, aplicando el método


mixto.

,^ ^ ^. ^^ ,
El estimador es: ^sC^G = ^ = donde ^; _ ^ X;^^ / n'P;
r n p; i

es el estimador del totai para la i-ésima unidad primaria de la muestra.


l1N E:SQUFMA M(X^TC) I7E Mt.'ESTREU C^`C)ti PRC)BABILIDA[^ES DESIGI.'.ALES 19

De la expresión de la varianza incondicional


^ ^
V(^) = V(^) + ^ V2(^;) / nP;

se obtiene:
^ M- n b w M; - n; b;
V(^sr^^) = V(^HN) ♦ ^ ^ (^^^x / i) / n P;

donde M; , n; y b; tienen el mismo significado, dentro de la unidad de primera etapa


muestral, que M, n y b en el resto del texto.

Una extensitín al muestreo trietápico gradual (b = 1) puede verse en A. Galero (1982).

Ejemplo ilustrativo

Supongamos una población formada por tres conglomerados compactos en un estrato


dado. Los conglomerados pUdrían ser, por ejemplo, manzanas de una ciudad. Las
unidades de segunda etapa podrían ser segmentos de aproximadamente 10 viviendas.
Los tamarlos de ias unidades de primera etapa serían el número de segmentos dentro de
ellas.

Supondremos también que no es conveniente realizar el muestreo de segunda etapa a


partir de listados, y que se dispone de mapas y planos con suficiente detalle para
preparar segmentos cornpactos, utilizando croquis sobre el terreno.

Sean las unidades de primera etapa:

Manzanas V iviendas Segmentos

ul 80 8 n=2
u2 40 4=b ^-0,^1
u3 b0 b

M = 180 18

Supongamos conocidos los tamaños de las unidades de segunda etapa, para todas las
unidades de primera etapa en la población, aunque en la práctica solo sería necesario
conocer los tamaños de las unidades primarias pertenecientes a la muestra.

u, (10, 10, 15, 1 1, 14, 13, 10, 12}

u, (1 l, 14, 15, 10)

u^(10, 2 5, 12, 8, 15, 1 Q)


FST^1^ [^[S71t',A F^,SPAÑOLA

M^-9 5 M^--54 M^=-80 b 1= 10 h^ =- 10 t^ ^--8 n' 2 bi

-0, 8 ó
-0, 7 S+G 3--
C^=0, 8 8 C;-

y la ganancia global en varianza con relación al esquema de Hansen y Hurwitz sería:

V(^ sc.c) = 0,71 . V(^HH) + 0,88 . V,(^frN l ul) I n P

0,75 . VZ{^ f f^^ / u2) I n P^ + 0,86 . V^(^tft^ / u3) 1 n P^

11. UTILIZAí.'ION DE UN MODELU DE SUPERPCiBLACIQN

Consid^erarem©s el modelo de superpoblación utilizado por Bayless y Rao (1970):

^;=^M;+E; i= l, 2,... N

E*(E; / M;) = 0 E*(E?/ M;) = a. M;^ E*(^; ^e; / M;, Mi} = 0 i^j

con a > 0, y en muchas situaciones prácticas 1^ g< 2.

E* representa la esperanza rnatemática sobre todas las poblaeiones hipotéticas del


modelo.

Para ^t^ I^ y ^ f^^! los autores mencionados encontraron:

E* {V (^fir^) ) _ - . ^ (1 - n^) ^- (1)


Mx r

^^ ,v
E* (V (^fr^^) ) _ ^ • ^ { 1 ' ^^ f n ) ^^"- i
n^^- ^

donde ,u; = nP; es el número esperado de apariciones de la unidad u; en la nuestra.


La contribución de la unidad u; a la varianza esperada, sobre todas las posibles
poblaciones hipotéticas, es menor para ^NT que para ^HH por el factor
{ 1- n;) /{ 1-,u; / n) (véase Brewer y Hanif, { 1983), página 61), que es de orden
{N-n)/(N- 1).
Para el caso g= 1 tendríamos:

E^` { (V (X il^^^) ) _ ^ ^ (N - n) E* ( (V (^»i^) ) _ - . (N - 1)


n n
l1N E:s(^UEMA MItTO DE MUESTREO C'C)N PRCaBABILIDA[)ES DESI(-;U,A,LES

y por lo tanto

E* ( (v (^HT^ ) _ ^.^...._ E* ( (V (^HH) )


N- 1

en donde se ha utilizado un procedimiento de selección en el que n; = nP; .

Para la esperanza de la varianza de V(^scc) condicionado a un conjunto de valores


de M; tenemos:

E* { (V (^scc^) ) = naM . (N - 1) (M - nb} / n(M - b} (N - n) uM . E* ( (V (^ f^ ^^) )

o sea E* { (V (^sc^c) ) _ ^ (N - 1) (M - nb) / {N - n) (M - b) J . E* (V (^„r) )

y para n=2, de acuerdo con la tabla l de la seccián 9.

^* ( (^ (^SC'C^) } = E* ( (v (^1i I'} }

verificándase siempre E* (V (^scc) ) < E* (v (^HN) )

12. Ct)NCLUSIONES

a) La variable aleataria e^ , indicadora del número de veces que la unidad u^ de


tamaño M; es observada en una muestra de n unidades, sigue una distribución de
probabiiidad nueva cuando b> 1, en 1a que:

M - nb
E{e;) = n P; V(e^ )_ . n P; (1 - P; )
M-b

M-nb
Cav (e;, e^ )_ . n P; P^
M-b

b) La varianza para el estimador A s^^^; está relacionada con la correspondiente al


estimadar de Hansen y Hurwitz medianie la expresión:

V (^s,^.c) = M - nh •v (^i^ii)
de la que se deduce, al ser n> 1,
M-b

que siempre se verifica V(^.s^^^;) < V(^„f^)


ESTA[aIST{C'A E:SPAÑt)LA

e) Un estimador insesgado y no negativo de la varianza viene dado por:

,^. (^ n ( z
) ^ M - nó X^ / Pt - ^sc^)
sc ^ ^
M i n{n - 1)

d) L.a gananeia en varianza respecto al esquema de Hansen y Hurwitz es:

b(n - 1)
G _ .-.
M-b

que para n= 2 produce una ganancia potencial máxima, equivalente a la obtenida con
el muestreo sin reposicicín sobre el muestreo con reposición en el caso de probabilidades
iguales.

e) La probabilidad incondicional de elegir la unidad u; es ígual a P; en cualquiera de


las n selecciones. Esta propiedad es importante en los esquemas de muestreo que
incluyen rotación de la muestra.

f) EI valor de b igual a mín . M^ /{n - 1} proporciona varianza mínirna.

g) El muestreo estratificado con un número de estratos igual a nl2, eligiendo dos


unidades por estrato, y tratando de conseguir estratos con unidades de tamaño similar
produce una ganancia substancial en la varianza del estimador.

h) En el muestreo bietápico se puede obtener una reducción en la varianza para


ambas etapas.

i) Al aplicar los resultados obtenidos por Bayless y Rao con un modelo de super-
población para g= 1 y n= 2 hemos obtenido:

E* (^ (^sc^c) ) = E* (v (^t^ r / B) ) ^ E* (^ {^:trN) )

indicando con E* la esperanza, sobre todas las poblaciones hipotéticas del modelo,
condicionada a un conjunto de las M; .
l1N ESQl7EMA MIXTO DE MUESTREO C`o11 PR(JBABIC.ID.ADES C?FSIGI'AL.ES 23

RECONC^CI M I ENTU

Queremos expresar nuestro agradecimiento a, Barbara A. Bailar, R. K. Brewer, I. P.


Fellegi, M. H. Hansen, y J. N. K. Rao por sus útiles cornentarios y sugerencias durante
la preparación de este articulo. Así mismo queremos señalar nuestra gratitud a F.
Azorín y a J. de Parada por su cuidadosa lectura del manuscrito y sus valiosos
comentarios.

REFERENCIAS

BAYLES, D.L. and RAO. J.N.K. (1970). An empirical estudy of the stabilities of estimators and
varrance estimators in unequal prohability sampling. Journal of the American Statistical Asso-
ciation, 65, 1645-1667.
BREWER, K.R.V^, and HANt>~, M. (1963). A model of systematic sampling with unequal proóabilities.
Australian Journal of Statistics, 4, 5-13.

BREWER, K.R.W. and HANt>~, M. (19?5). A simple procedure for n pswor, Australian Journal of
Statistics, 17(3), lfi6-172.

BREWER, K.R.W, and HANtF, M. (1983). Sampling with unequal probabilities. New York: Springer-
Verlag.

CALERO, A. (1982). Muestreo con probabilidades gradualmente varrables. Revista Investigación


Operacional. Vol. III, Núm. 3, La Habana, Cuba.
COCHRAN, W.G. Sampling 7'echniques. (1977). New York: Wiley & Sons.

DURBIN, J. (1967). Design of multistage surveys for estimation of sampling errors. Applied
Statistics, 16,152-164.

FELLEGt, I. P. (1963). Sampling with varying probabilities without replacement: rotating and
non-rotating samples. Journal of the American Statistical Association, 58, 1$3-201.

GABEIRAS, J. M. { 1979). Una posible generalización del rnétodo de Sánchez-Crespo. Manus^rito no


publicado.

GOODMAN, R. y KISH, L. ( l 950). Cvntrolled selection - a technique in prvhaóility sampling. Journal


of the American Statistical Association. 45, 350-372.

HANSEN, M.H. y HuttwiTZ, W. N. (1943). On the theory Uf sampling from a finite papulation.
Annals of Mathematical Statistics. 14, 333-362.

HottviTZ, D. G. and THOMPSON, D. J. (1952). A^eneralization or samplin^ without replacement


from a finite universe, Journal American Statistical Association. 47, 663-b85.

KtsH, L. (1965). Survey Sumpling. New York: W iley & Sons.

LAH1R1, D. B. ( l 951). A method uJ^sumple selectic^n providinK unhiased rativ estimates. Bulletin of
the International Statistical Institute, 33, (2), 133-140.

MADOw, W. G. (1949). On the thc^c^ry c^^^.^ystc^matic sumplinK. II. Annals of Mathematical Statistics,
20, 333-354. ^
FSTAf115^TlC^,A E:SPAÑOLA

MiDZUNO, H. (1952). On the sample system with probabiliry proportionate to sum of sizes. Annals
of the Institute of Statistical Mathematics, 3, 99-107.
MURTHY, M. N. (1967). Sampling Theory and Methods. Calcuta: Statístical Publishing Society.
NARAIN, R. D. ( l 9 5 l). On sampling without replacernent with varying probabilities. Journal of the
Indian Saciety of Agrieultural Statistics, 3, 169-175.
R^o, J. N. ^. and BAYLESS, D, L. ( I 969), ^9 n empirica! study of the stabilities of estimators and
variance estirnators in pps sampling. Journal of the American Statistical Assoeiation, 64,
54U-549.
RAO, J. N. K,, HARTLEY, H. O. y CoCHRAN, W. G. (1962). ^n a simple procedure of unequal
probability sampling without replaeement. Journal of the Royal Statistical Association, Series B,
24, 4$4-491.

SAMPFORD, M. R. (1975}. The Horvitz and Thompson method in theory and practice-an historical
survey. Invited paper at the ISI meeting in Warsaw.
SANCHEZ-^RESPO, J. L. (1977}. .^ new sampling scheme: selection with graduate variable probabili-
ties without replacement, Bull. Internat. Statist. Inst. XLViI, Book 4, 458-461.
SETH1, V. C. (19ó2). .Sorne consequences of an interpretation of varying pr©bability sampling.
Sankhyái Ser. B, 24, 215-222,
UN ESQUEMA MIXTO DE MUESTREO C`C1N PRC)HAHII.If)ADES [3E:S1(;I;ALES ?5

S[^`MMARY

A MIXED SAMPLING SCHEME WITH I.JNEQLTAL PROBABILITIES

The rnixed scheme, from a theoretical point of view, removes a gap


between the classical procedures of unequal probability sarnpling with and
without replacernent.
In survey sampling practice it seems to provide a potentially useful
procedure that always has smaller variance than sampling with replace-
ment. In occasions the reduction in variance could be substantial and in
particular for n equal two in each stratum the potential reductions is
similar to that obtained with sampling without replacement in equal proba-
bility sampling. In two stage sampling both components of the variance
could be reduced.
The selection of the sample is simple and the unconditional probability
of drawing unit u; is equal to P; at any draw. An unbiased estimator for the
variance which is always non negative is available and his computation
very simple.
The application of the Bayless and Rao results with a superpopulation
model, for g=1 and n=2, shows an expectation for the variance of the mixed
scheme equal to the one of Horvitz and Thompson using the method of
Brewer, and that it is always smaller than the expectation of the Hansen
and Hurvitz procedure.

Key words: Unequal probability sampling. Rotating schemes. Superpopula-


tion rnodels. Hansen-Hurwitz and Horvitz-Thornpson procedures.
Esr.AC^IS^^IC'A F^SPAÑC)l_A

CO M E N TAR I OS
BAR BARA A. BA1 LAR
( Bureau of the Census. Washington, D.C. )

Este artículo proporciona un nuevo enfoque al muestreo de poblaciones finitas con


probabilidades desiguales. Aunque básicamente es un procedimiento de muestreo con
reposición, las probabilidades en selecciones sucesivas son modificadas de tal forma que
el esquema tiene algunas propiedades del muestreo sin reposición en cuanto a reducción
de varian^as.

E1 contexto básico del procedimiento es la selección de una muestra de n unidades de


una poblacián finita de N unidades. Cada unidad lleva asociada una caracteristica X; y
una medida Mt de su tamat^o, indicando M la suma de todos 1os valores de M;.
Consideremos ahora una urna que contiene M bolas de las que M^ (i = 1, 2, ..., N) son
de un color específico y están as©ciadas con la i-ésima unidad de la población. Se
selecciona aleatoriamente una bola de la urna. Su color identifica la unidad selecciona-
da. A continuación b bolas del color seleccionado con (O < b< M;) son retiradas de la
urna,

Entonces se realiza una segunda selección de las restantes bolas de la urna, y otra vez
se retiran b bolas del color elegido. La selección continúa l^asta que se elígen n
unidades, no necesaríamente distintas.

Si b=0, se obtiene el método de muestreo tradicional con reposicicín (VItR). Si b=M; se


abtiene el procedimiento tradicional de muestreo sin reposicián (W+OR). Si b=1 resulta
un caso particular que fue tratado por Sánchez-Crespo (19??) en otro artículo. El

(traducción del inglés por J. L. S^nchez-Crespo)


l1N ES(^UEMA MIXTO DE MUESTREn CON PRC)BABILIDAUES DESIGI'ALES

considerado ahora se refiere a b> 2, siendo el valor de b constante, de selección a


selección. Además b debe satisfacer la desilguadad (n-1 }ó < Mo dande Mo es el menor
valor de M; en la población. (De aquí que cualquier unidad, excepto quizás en la
selección final, pueda ser elegida en cada selección).

E1 esquema tiene la propiedad de que la varianza real de un estimador del total, de


una población, es menor que la obtenida para el estimador del total con el método
tradicional {WR). Además, es más fácil de utilizar que muchos de los procedimientos
(WOR) de selección, y una estimación insesgada y no negativa de la varianza del
estimador es fácil de calcular. La mejora en varianza comparada con la correspondiente
al estirnador (WR), ha sido mostrada para varios ejemplos. No obstante estos se refieren
a poblaciones pequeñas con fracciones de muestreo grandes. Para poblaciones grandes
con fracciones de muestreo pequeñas, las reducciones en varianza pueden no ser impre-
sionantes.

No se han hecho comparaciones de la varianza con su procedimiento y cualquiera de


los métodos WOR con probabilidades desiguales, aunque se hace referencia a ellos (por
ejemplo, Brewer (1963), Durbin (1967), y Brewer y Hanif (1983) que cubren muchos de
estos procedimientos). Sería interesante incluir alguno de estos métodos en las compara-
ciones. Las secciones 2, 3 y 4 contienen derivaciones de (1) el valor esperado y la
varianza del número de veces, c^;, que una unidad es seleccionada, (2) la varianza del
estimador del total, y(3) el valor esperado del estimador de la varianza. Estas expresio-
nes podrían derivarse más rápidamente tratando el esquema de muestreo como un caso
especial del procedimiento anterior (h=1) que Sánchez-^respo analizó en 1977. Si cada
medida de tamaño, M;, se reemplaza por M;/b entonces la realización del esquema con
estas medidas modificadas de los tamaños y h-1, es equiva lente a utilizar las M;
originales y los valores h. Con el procedimiento modificado, M pasa a ser Mlh. Si M se
sustituye por M/h en los valores esperados y fórmulas para la varianza en el caso h=1
dado en la página 2, las expresiones obtenidas en las secciones 2, 3 y 4, se obtienen
inmediatamente. Hay sin embargo un problerna conceptual con el cambio de las
medidas de tamaño a M;/h. Las medidas modificadas, que representan el número de
bolas en la urna para un determinado color, no serían generalmente númeras enteros.
Presumiblemente este problema de redondeo no invalidaría mi argumento. Los autores
se centran en la comparación de su esquema con el procedimiento WR tradicional.
Aunque su procedimiento es ligeramente más difícil de realizar que el ^7VR traciicional,
el estimador de un total y su varianza se obtienen directarnente, por lo menos para el
muestreo en una etapa. Por consiguiente las ganancias reales en varianza, especialmente
cuando la fracción de muestreo es grande, parecen merecedoras de la complejidad
añadida en este caso al proceso de selección. Se incluye el muestreo bietápico, pero sólo
comparando varianzas reales. Sugiero quc los autores consideren varianzas estimadas
para dos o más etapas de muestrco cuando se utiliza su csquema cn la primera, y quizás
FSTAC)1ST1(^A ^SPAÑt)L.^

otras etapas de selección. Si en un esquema polietápico, son fáciles de calcular estima-


ciones insesgadas y no negativas de la varianza, puede exisEir un potencial consic.lerable
en el esquema de los autores. Sin embargo, para una evaluación completa de su
procedimiento, deberian también haberse hecho comparaciones con otros procedimien-
tos de muestreo WOR. Presumiblemente, las varianzas reales de los totales estimados
serían menores para los correspondientes estimadores basados en diseños Wt^R. (Los
auto^res sugieren que esto no siempre es asi aunque realmente no hay mucho apoyo para
ello en su artículo, sóto una corta aseveración en la página 17 en términ©s de un
mvdelo de superpoblación}.

Aunque las aarianzas reales de los totales estimados puedan generalmente ser mayo-
res que las obtenidas con procedimientos WC?R, el método de muestreo presentado
puede ser más fácil de realizar que muchos procedimientos WOR, y las varianzas
estimadas más fáciles de obtener. Recomiendo a los autores que consideren estos
aspectos.

8 R E^/1^ E R, K. R. W.
(Bureau of Agricultural Economics. Camberra, Australia}.

Mi comentario al caso b-1, es decir con una sola bola retirada de la urna, en cada
selección, fue el existir usualmente muy poca diferencia con el muestreo con reposición,

Es ciertamente más interesante ei caso en el que, para cada selección, puede ser
retirada de la urna más de una bola, No obstante con b> 1 es importante considerar
que posici ^^n oeupa el procedimiento en el espectro entre el muestreo con y sin
reposición. En cierto sentido pareceria quedar relativamente próximo al muestreo con
reposición ya que todavía es posible seleccionar cualquier unidad hasta n veces.

En el caso de una unidad grande, comparada con la unidad rnás pequeña, su probabi-
lidad de inclusión e; veces seguiría una distribución próxima a la multimonial. Para
aquellas unidades próximas en tamaño a la más pequeña la distribución se aproximará
a la hipergeométrica, y si el tamaño de la muestra es pequeño, la varianza de la variable
aleatoria e^ será apreciablemente más pequeña que su valor bajo la distribución
multimonial. L.as circunstancias más favorables p^ ara el uso del esquema mixto, parecen
ser aquellas en las que las unidades son relativamente próximas entre si en cuanto a su
tamaño y el valor de n es pequeño.

La cuestión elave es si la reducción en varianza es del orden nl N o de un orden más


pequeño, Sustituyendo el valor máximo de f^, M„/(n- 1), donde 1Vi„ es el mínimo de los
valores M; en el término de reducción de la varianza (1- (M-nb) ! ( M-b}) obtenemos una
aproximación de primer orden M^,lM que es, en general, menor que 1/N. Este es un
UN ESQUEMA M1XT0 DE MUESTREO CON PROBABILIUADES DESIGUALES 29

orden de magnitud más pequeño que n/N indicando de modo bastante concluyente que
el método propuesto para n> 2 queda más próximo al muestreo con reposición que al
muestreo sin reposición.

No obstante, el caso r^2 es de gran interés y proporciona la aplicación más impor-


tante del método mixto. La estratificación es más eficiente con n tan pequeño c^omo sea
posible, pero si se requiere un estimador insesgado de la varianza del estimador, n debe
ser al menos igual a 2. En este casa podemos retener casi la mitad de la reducción en
varianza proporcionada por el método mixto y ganar considerablemente en sencillez, al
comparar con el muestreo sin reposición.

No estoy de acuerdo con Cochran en que para n=2 todos los métodos sean simples.
Solo son menos laboriosos e incómodos que para n> 2. E1 método mixto es más simple,
incluso para n=2, que la mayor parEe de los métodos alternativos.

I. P. FELLEGI
(Statistics Canada. Ottawa, Canada).

EI esquema mixto aparece como una ingeniosa nueva propuesta. Tengo dos observa-
ciones relacionadas con la ganancia esperada sobre el método Hansen-Hurwitz. La
primera es que la ganancia en precisión es modesta si los valores de u; pertenecen a un
intervalo amplio. Pero si la estratificación (en términos de u;) es realmente útil, pudiera
ocurrir que no fuese necesario utilizar un esquema pps para reducir varianzas ya que
este solo ayuda con un recorrido razonable para los valores de u; y existe una correla-
ción alta con los valores de X;.

La segunda observación se refiere a la sección 9, tabla 2, del artículo en la que ^guran


los valores de Gmáx, para distintos valores de nh y N^,. Puede observarse que ia máxima
ganancia, excepto para r^2, se aproxima rdpidamente a 1/Nh para valores decrecientes
de Nh: Incluso para nh=3 la ganancia resulta del orden 1/N,, para todo Nh mayor que 5
ó 6.

Por lo tanto solamente para nh=2, obtenemas una ganancia potencial sustancial en
varianza al utilizar el esquema mixto en lugar del debido a Hansen-Hurwitz.

En el ejemplo 3 con N=9 y n=6 la ganancia máxima es 0, l 1 que pasa a 0,4ó al


utilizar estratificación; este incremento de la ganancia se debe fundamentalmente a la
reducción de los tamaños muestrales en los estratos a nh=2 y solo en una pequeña
proporción a la reducción en varianza entre las u;.
ESTADISTICA ESPA^ULA

MORRIS H. HANSEN
{WESTAT, Rockville, USA}.

E1 método mixto es interesante y puede proporcionar reducciones en la varianza, que


merezcan la pena, en algunos problemas prácticos en tos que una fracción grande de las
unidades elernentales s+ea incluida en la muestra, con relativamente pocas unidades
muestra.les de segunda etapa en cada unidad muestreada de primera etapa.

El método propuesto no solamente proporciona un procedimiento potencialmente


útil, sino que adem^s completa una laguna en la teoña.

J. N. K. RAC}
(Department of Mathematics and Statistics. Carleton University.
Qtawa, Canadaj.

La extensión de su trabajo previo, al caso b > 1, la he encontrado muy interesante y


útil. Solo tengo comentarios menores que hacer:
a) I^io se discute la elección de b. Para minimizar la vañanza de ^scc uno debería
presumiblemente elegir b=mínimo de los M^.
b) Si ó-1 =^ ^Cómo se elegiñan b-1 bolas de la urna si en ella permanecen menos
de b-1? Presumo que en ese momento la unidad es eliminada de la urna.

Con reiación al artículo de Sethi, por mí mencionado, la fórmula (3.^2) debería no


haber omitido el factor (X - 1}-r y X tendría que haber figurado como X^. En este caso
para r^ 1 se llegaría a la fórmula Hansen-Hurwitz.

FRANCISCQ AZORlIV
(Universidad Autónoma de Madrid),

Comenzaré con una breve reseña sobre la personalidad y rnéritos de los comentañstas
extranjeros, ya que es posible que parte de los lectares de la Revista, no familiañzados
con el rnuestreo de poblaciones finitas y probabilidades desiguales desconozean 1o que
los comentaristas rnencionados representan en este campo.

^arbara A. Bailar: Es Directora de Metodología Estadística del Bureau of the Census de


los EE.UU. Entre sus actividades figura también la investigación de errores de medida
y la organización de estudios estadísticos. Ha sido Secretaña Científica de la IASS y
l1N ES(^UEMA MIXTO I^E MIUESTREO CON PROB.ABILI[)AUES DESIC;I;ALES 31

preside su Comité de Terminología. Es Presidenta de la American Statistical Associa-


tion. Ha dictado clases en la Graduate School y la George Washington University y
es Presidenta electa de la IASS.

K R. W. Brewer.• Ha desarrollado una intensa actividad en el campo investigador y


en el docente, habiendo sido profesor visitante en varias universidades. En particular
son relevantes sus trabajos sobre diser^o y estimadores robustos, para encuestas por
muestreo a gran escala. Autor de importantes trabajos sobre selección de rnuestras y
cálculo de probabilidades de inclusión, en el muestreo sin reposición y probabilidades
desiguales. Co-autor con Hanif del libro «t^nequal Probability Sampling» ( 1983),
considerado como el más completo en este área.

I. P. Fellegi:Es Director General de la Oficina de Estadística del Canadá y Presidente


del Instituto Internacional de Estadística. Ha realizado numerosos estudios e investi-
gaciones, como los correspondientes a la estimación de la varianza de respuesta
correlacionada. Asimismo son muy importantes sus investigaciones sobre los esque-
mas de rotación y la imputación en censos y encuestas.

M. H. Hansen: Es actualmente Presidente del Consejo de la WESTAT, INN. Es


considerado como una de las personas que mayor impulso han dado al desarrollo
tanto científico como técnico del Muestreo de poblaciones finitas, especialmente en el
Bureau of the Census de los EE.UU. Autor, en colaboración con Hurwitz del rnétodo
de muestreo con reposición y probabilidades desiguales, y con éste y Madow del
clásico libro «Sample S'urvey Methods and Theory». En particuíar deben citarse sus
trabajos sobre las diversas fuentes de error en los censos y encuestas, pudiendo
considerársele como el iniciador del muestreo con probabilidades desiguales y otros
temas de investigación estadística.

J. N. K. Rao.• Es profesor de Estadística de la Carleton University de Canadá. Sus


campos específicos de investigación abarcan practicamente toda la teoría y métodos
del muestreo de poblaciones finitas, así como los modelos lineales, el análisis de
datos y las estadísticas oficiales. Entre sus numerosas aportaciones se destacan las
relativas a la comparación de diseños y métodos de estimación en situaciones polietá-
picas y de gran complejidad estadística. Es miembro del Consejo del IASS y de otras
Comisiones y grupos de investigación sobre encuestas por rnuestreo y censos.

En cuanto al artículo que estamos comentando, me limitaré a decir que es un trabajo


fundamental en el campo del muestreo con probabilidades desiguales, en el cual parecía
dífícil hacer una nueva aportación significativa, si se tiene en cuenta que en él vienen
trabajando desde Hansen y sus ^colaboradores los rnás destacados maestros en la investi-
ESTADISTICA ESPAÑ4LA

gación del muestreo con pr©babilidades desiguales. Se trata sin duda de un método de
gran eficiencia en el sentida de costolprecisión, incluyendo en el costo los algoritmos
necesarios para la estimación, la facilidad en la obtención de estimaciones insesgadas no
negativas de la varianza del total, esquemas de rotaci+ón, etc. Creo que sería interesante
evaluar tiernpos y recursos para diferentes situaciones con poblaciones artificiales y
naturales.

JAViER DE PARAUA
{Instituto Nacional de Estadistica. Madrid).

Para un análisis de las propiedades del estimador utilizado en el esquema mixto de


muestreo es de gra.n importancia el estudio generaíizado de Ia función de probabilidad
propuesta por los autores e inherente al esquema de muestreo:

b, t} . W(M - M;, b, n-t) (1)


P(e, _ t) -- ( n) V^ (M;,
t Vt^ (M, b, n}

donde el es la variable aleatoria "número de veces que la unidad u^ puede resultar


seleccionada en una rnuestra de tamar^o n", y M=^ M; donde M; es una medida del
tamaño asociada can u;. '
En general, la expresión (1 j será una función de probabilidad si cumple las dos
condici©nes síguíentes:
n
1. •) ^ p (e; = t) - i
r=o

^.s) p(e; = t) ^0 , para cualquier valor t

Puede observarse que la expresión (1) está íntimamente relacionada con las funciones
factoriales por lo que será oportuna acudir a algunas interesantes propiedades de tales
funciones. En general, se denomína función factorial a, de grado n, y diferencia b, ai
producto de n términos consecutivos de una progresión aritmética de razón b, y primer
término a, que expresaremos por:

W (a, b, n}=a(a+b)(a+2ó)..... [a+{n-I)b ]

Según esta definición, la expresión ( l) contiene una relación de funciones factoriales


de razón negativa, por lo que más propiamente podría escribirse:

b, t) . W (M - M;, b, n-t) ^
P {e; -- t) _ ( n) ^ (M^' ' (2)
t
W (M, - b, n)
UN ESQUEMA MIXTO DE MUESTREO CON PROBABILIDADES DE5IGUALES 33

siendo b cualquier número entero positivo.

La fórmula de Vandermonde relaciona funciones factoriales mediante la importante


expresión siguiente:
n
W (a+c, - b, n)= ^ {t)W (a, - b, n-t) . V^✓ (c, - b, n), (3)
r=o

La l.• condieión para que (2) sea función de probabilidad se cumple inmediatamente
aplicando la relación (3) anterior.

La 2.a condición, P(e; = t) >0 para todo valor de t, exige que:

M; M - M;
b < ^ , y b ^ (4)
n-1 n-1

ó bien que M^ y(M - M;) sean cantidades rYiúltiples de b.

Por tanto, aunque la l.a condición no impone ninguna restricción al valor de b, que
es un número entero positivo fijado arbitrariamente, la 2.= condición restringe los
valores válidos de ó para que la función (2) sea una función de probabilidad. Los
valores de b quedan restringidos al cumplimiento de las relaciones dadas en (4).

La fórmula (3) se puede generalizar al caso de un polinomia factorial, resultando:


n n.
W (a+c+d, - b, n) _ ^, W(a,-b,x).W(c,-b,y).W(d,-b,z), {^)
^, y, Z=o ,x ^ y t Z^
(x+y+z=n)

fórmula de estructura análoga a la fórmula de Leibnitz de la potencia de un poiinomio,


pero aplicada a funciones factoriales.

Por su estrecha relación con las funciones factoriales, las distribuciones que siguen la
ley de probabilidad ( 1) propuesta por los autores podrían denominarse distribuciones
factoriales, denominación que utilizaré en el siguiente apartado.

Parámetros de la distribución fact©rial:

1) Esperanza matemática:
n
Por definición: E(e;) _^ t P(e; = t) _

_ n t( n) W(M;, - b, t) . W(M - M;, - b, n-t)


- ^ t
^_^ W (M, - h, n)
34 ES-TA[^IS^Tit',A ESPAÑOLA

M, ^ ( n _ 1 ) W(Mr,b,-b,t-1).W(M-M,,-ó.n-t)
-n t l =n M;
M ^=1 W( M - b, - h, n- 1) M

Luego la esperan^za de esta variable aleat©ria viene determinada por los valores de n
y P,=n Mi
M
2) L'arianza: Por definición V(e;) = E(e;)^ -[ E(e;} ^2
.^
E(e;}Z= ^ t^P(e;--t)=
t-o

n ,, n^ W(M,, - b, t) . W(M - M^, - b, n-t}


- ,^ [t(t-1)+t
^_o W (M^, - b, n)

= n(n - 1) M' (M' h) + n M', por tanto


1Vi ( M - b) M

V(e,)=n(n- 1) M'^M` b)+n M' -(n M' )2=


M (1V1 - b) M M

M - nb M ;
=n .
M-ó M M

3) ^^varianza:

A partir de la relación (5) podernos definir la función de probabilidad multivariante


de la distribución factarial:

p(el=tl ; e2=t2 ..... ; ek=tk)=

_ ^ n! W{M1^-b,t).W(M^,-b,t,}.. W(Mk,-b, t^)


^ ^ (M,+Mz + .... + M,^, - ,n )
^ Ir2..tk=tl tf! 1 2^... t^^
(t^+r2,..tk=n}

con la condicián, para que sea función de probabi lidad, de que

b< tnin M' ,(i = 1, 2....k)


n -1
UN ESQUEMA M1XT0 DE MUESTREO CON PROBABILIDADES DESIC;UALES ^S

Por definición:

Cov (e; ; ef) = E(e; e^) - E{e;) E(ef) ; donde

M; M^
E(e;}=n-, E{e^)=n-
M M
n
según vimos anteriormente, siendo M= ^ Mh
h=1

n n! W(M;,-b,t;) . W(M;,-b,t^) . W(M-M;-M;,-b,n-t;-t;)


E (e; e^) _ ^ t; t^ _
t r^ ^^ _^ t;! t;! (n- t,^-t^;) ! W(M^ - b, n)

^ n (n-1) (n-2} ! M; M^ W(M;-b, -b,t;-1)W(M^-ó,-b,t^-1 )W(M-M;M^,-b, n-t;-t^)


_ ^ _
^;. ^^_ ^(t;-1)!(t;-1)!(n-t;-t^}! M(M-b) W(M-2b, - b, n-2)

M; M^
= n (n-1)
M(M-b)

^ ^ (n-2)! W(M;-b,-b,t;-1) W(Mf-b,-b,t^-1).VW(M-M;-M^,-b,n-t;-t^) ^ -


^;. ^.,;-o (t;-1)!(t;-1)!(n-t;-t;)! W(M-2b, - b, n-2}

=n (n-1) M=
M(M-b)

ya que la expresión entre corchetes, en virtud de (5), es igual a la unidad. Por tanto:

M;M; ^, M;M;- M; M; { M-nb )


Cov(e; ; e;) = n (n-1) - n ^ --n
M(M-b) M` M M M- b
3ó ESTADISTIC`A ESPAÑOLA

Contestación

En los cornentarios de Burhuru ,-^. f3uilar hay, par lo menos, tres sugerencias dc gran
interés, que en un posible trabajo futuro serán tenidas en consideración, Las sugerencias
a que me refero son:

a) Analizar el potencial del esquema mixto, en el caso de que en diseños polietápicos


sean fáciles de obtener estimaciones insesgadas y no negativas de la varianza.

h1 Ampliar " en lo posible" las comparaciones con otros métodos WOR. He añadido
1a frase " en lo posible", a causa de las difieultades que muchos métodos WOR pueden
presentar, incluso con ardenadores potentes, ya sea en la selección de la muestra, en la
estimación de varianzas, o en arnbos casos.

c•J Aún en e1 caso de que los métodos WOR presentasen menores varianzas reales en
la estimación de totales, el esquema mixto podria ser más fácil de realizar que muchos
métodos WOR, y las estimaciones insesgadas y no negativas de la varianza más senciilas
de obtener. Esto deberia ser tenido en cuenta.

En cuanto a la consideración del caso N grande y fracción de muestreo pequeña, creo


que llegariamos a la misma consecuencia que en el muestreo con probabilidades iguales,
como puede verse en la tabia l.

Se han hecho algunas comparaciones con otros métodos. Asi, en el ejemplo 1 de la


sección 7 hemos obtenido: V(^scc) _ ^^8571 , V(^^H) = I,1428 , V(^NTIB) = 4,9286 ,
y^(^RHC) = 0,7^ l 9. En el ejemplo 2 de la misma sección pueden verse otros resulta-
dos. Por supuesto que los ejemplos son artificiales, con valores de N pequeños y
fracciones de muestreo grandes. No obstante, debido a la complejidad que, en general,
presentan los métodos WOR, no es fácil utilizar poblaciones grandes. Por ejemplo en la
página 228 del libro de Cochran ( 1977) se comparan varios métodos con poblaciones en
las que N= 5 y n= 2, y en la página 27U, se mencionan varias poblaciones naturales
utilizadas por Rao y Bayless ( 19ó9) en las que N varía entre 9 y 35.
UN ESQUEMA MIXTO DE MUESTREO CON PROBABILIDADES DESIC^ UALES 37

En lo que se refiere al comentario acerca del modelo de superpoblación, parece


corresponder más a nuestra sección de conclusiones que a]a dedicada al modelo, En
cualquier caso estoy de acuerdo con la necesidad de extender este análisis.

Finalmente creo interesante el carnbio de las medidas de tamaño y el problema


conceptual que este presenta, pero he de pensar sobre ello.

Creo que el punto eentral en los eomentarios de J^'. R. w'. Brc^ ^1^c^r c^.^^ c^crc^ !u u^lrc•uc•ic^n
más irnpvrtunte cle! tnétc^clo mi_Ytc> eorr^spancl^ u n= 2, y que no todos los métodos son
simples para n igual a dos. Solo son menos laboriosos e incómodos que para rr mayor
que dos. El esquema rnixto es, incluso para rt = 2, más simple que la mayoría de los
métodos alternativos. Las circunstancias más favorables para el uso del método pro-
puesto parecerían ser aquellas en que los tamaños de las unidades sean relativarnente
próximos y el número de unidades en la nuestra sea pequeño.

Por mi parte pienso que podemos acercarnos a esta situación con una estratificación
conveniente.

Tengo ciertas reservas respecto al párrafo de Brewer en el que dice: "en cierto sentido
parecería quedar relativamente próximo al muestreo con reposición ya que todavía es
posible seleccionar cualquier unidad hasta n veces". En el ejemplo 1 hemos encontrado
r
V{ s^c^c;) = 0,8571 mientras que V(X^„-IB) = 0,9286. Sin pretender darle gran significa-
ción y a pesar de sus Iimitaciones, es claro que por lo menos en este caso el procedi-
miento mixto no solo no aparece cercano al Hansen-Hurwitz, V(X^^^^) = l,1428, sino
que en el espectro mencionado por Brewer aparece como superior al esquema Horwitz-
Thompson, utilizando el método de selección de Brewer.

En esta misma línea y utilizando los resultados obtenidos por Bayless y Rao para un
modelo de superpoblación con ^^=1 y n=2 hemos obtenido E* (V (Xsc^t;) )-
^
E* {V (X^^^^/B) indicando con el asterisco la esperanza, sobre todas las poblaciones
hipotéticas del modelo, condicionada a un conjunto fíjado de las M;.

Claro que tanto el ejemplo como el modelo se refieren al caso ^r1=2 comentado
satisfactoriamente por Brewer, pero he creído importante señalar esios dos casos para
evitar que una lectura rápida del excelente comentario de Brewer pudiese producir
confusión.

La contribución de /. P. 1^^^^^c^,^^i a la sccción I n ha ^ido de ^ran valor para rcducir las


aplicaciones, en la practlca,
" ^ ^• dca• csquc.ma
^ ^ • mixtc^ ^i ^
• t^rminoti • • •
ra^onahlt,s.

A continuación pasaré a comcntar dos dc sus c^hscrvacionc^: La primcra no crco quc


afecta directamcnte al esquema mixto considcrado como un di^;eño ^^t^.ti^, ya quc estc tipo
de muestreo requiere ciertas condicic^ncs, dc carácter ^enc:ral, para tier efícicnte.
FSTADIS^I'1C'A ESPAÑOLA

De la segunda observ^^cic^n, con la que por supuesto estoy por completo de acuerdo,
pienso que posiblernente pc^dría cambiarse de negativa en positiva, diciendo p^or ejem-
plo, que en la tabla 1 la razón de G,,,ú,_ sobre ( n,,-1)/(N,,-1) es de cierta importancia para
r^ = 3 y n= 4. Así vemos que incluso para N - 20 pasamos de una gananeia potencial
del 1(JD% para n,, = 2 a una de aproximadamente el 50°Ic^ cuando n^, es iguai a 3, y a una
pr^^ xima al 30^'l^ cuando n^, es igual a 4.

En cuanto al ejemplo 3 de la sección 8, estoy de acuerdo en que la ganancia


observada con N-9, cuando pasamos a n,, = 2 en cada estrato, del 9°!^ al 4ó°l0, podría ser
debida principalmente a la reducción de la muestra de n=f^ a, nj, = 2 en cada estrato y
una parte residual sería debida a la reducción de variación de tamaño entre las unida-
des. Nu obstante, creo que sería interesante cuantificar qué parte se debería a cada
fuente de variación.

Finalmente pienso que el artículo ha mejorado mucho con la inclusión de las suge-
rencías de Fellegi.

Los comentarios de ,^lurri_^^ H. Hunsc^n tienen para mí un significado muy especial


por dos razones: La primera porque ía idea central del artículo, fué tratar de obtener
una reducción sustancial en varianza, al tiempo que se mantenían las grandes ventajas
de su procedimiento. La segunda razón es la oportunidad que me brinda de agradecerle
todo lo que aprendí durante mi estancia, hace ya muchos años, en el Bureau of the
^ensus y en la ^raduate School, como becario. Me he sentido muy orgulloso con su
frase: "It not only provides a potentially useful procedure but removes a gap in the
theory" que en castellano sería" E1 esquema no solo proporciona un procedimiento
potencialmente útil sino que completa una laguna existente en la teoría".

Respeeto a los comentarios de .i. N. K. Ruc^ me resta poco que añadir por dos
razones: u) Su carta prímera que recibí se refíere a un primer borrador. h} Practi-
camente todos sus valiasos cornentarios han sido ineorporados al artículo.

En cuanto a los comentaristas españoles creo de gran interés ia propuesta de F:


^c^^rín sobre un posible análisis costo/beneficio incluyendo en el costo la dif^cultad de
los algoritmos y los tiempos de ordenador necesarios p^ira el cálcúlo, en su caso, de las
probabilidades de inclusicín, así como para la estimación insesgada y no negtitiva de la
varianza del total. En los beneticios ti,guraría la t^icilid^id de selección, posibilidad de
obtener esquemas de rotación, t^tc., y por supucstc^ la diterencia de varianzas.

E1 comentarío de Javier de Parada ha sido muy valioso, con una exposición oríginal
y rigurosa de las bases del esquema mixto.

Ha dejado aclaradas posibles lagunas, como por ejemplo, que mientras la suma de
probabilidades es para cualquier ó entero y posítivo igual a la unidad, la función de
UN ESQUEMA MEXTC) DE Ml.`ESTREC) C`ON PROH.ABILIDADES DES[Gl'ALES ^9

cuantía requiere además la restricción b<(M-M,) /(n-1) que no aparece en el artículo


en forma explícita.

Por sí, en una lectura apresurada, hubiese lugar a confusión quiero recalcar que el
nombre de "distribución factorial" con el que según Javier de Parada "podrian denomi-
narse a las distribuciones que siguen la ley de probabilidad propuesta por los autores"
no corresponde a ninguna distribución de probabilidad conocida y sí corresponde al
esquema mixto de muestreo propuesto por primera vez por Sánchez-Crespo y Gabeiras.
La utilización del subtítulo "Momentos de las distribuciones factoriales" creo que puede
dar la impresión de que se trata de distribuciones ya existentes. Por cierto que en el
apartado correspondiente al citado subtítulo se lleg,a a partir de las mismas funciones de
cuantía utilizadas por los autores, aunque con distinta notación, a resultados por
supuesto idénticos. Es verdad que con más detalle e incluso es posible que con más
generalidad, pero creo que esta exposición alarga excesivamente un comentario que
como ya he indicado anteriormente considero muy valioso.

Quiero añadir que no creo afortunado el nombre "factorial", para bautizar nuestra
distribución, porque ya tiene numerosas acepciones en Estadística tales como; momen-
tos factoriales, cumulantes factoriales, experimentos factoriales, diseños factoriales, etc.