– Escuela de Estadística
En un muestreo probabilístico se conoce a priori la probabilidad de seleccionar un elemento de la población con el fin de
incluirlo en la muestra. Por esto, en un muestreo probabilístico se deben cumplir las siguientes condiciones:
1. Se puede definir el total de muestras posibles que pueden seleccionarse de la población de acuerdo al procedimiento
de muestreo.
2. Toda muestra s del universo o población debe tener una probabilidad p s de selección mayor que cero.
4. El mecanismo de selección debe ser tal que cada muestra reciba exactamente la probabilidad p s que se le asignó
de antemano.
En general, cualquier tipo de muestreo que no cumpla con alguna de las anteriores condiciones es un muestreo no
probabilístico. Aunque algunos tipos de muestreo no probabilísticos pueden ofrecer información útil, sin embargo, no es
posible aplicar en tales casos la teoría de muestreo, además, la precisión de tales muestras puede ser indeterminada.
Ospina (2001) enuncia tres situaciones principales donde conviene seleccionar una muestra:
Cuando la población es grande y su estudio completo excede los recursos disponibles.
Cuando las unidades poblacionales son suficientemente homogéneas con respecto a la característica o variable a
medir.
1
Introducción al Muestreo, Estadística II Prof. Nelfi González A. – Escuela de Estadística
Además, el muestreo permite un control estricto sobre la recolección de la información, pues los llamados errores no
muestrales son considerablemente menores que en el caso de un censo (Ospina, 2001).
2
Introducción al Muestreo, Estadística II Prof. Nelfi González A. – Escuela de Estadística
una muestra piloto para probar y refinar los instrumentos de recolección y de procesamiento de la información. La información
debe ser recolectada según el diseño muestral escogido.
4. Definición de términos
4.1 Universo: Conjunto de todos los elementos o individuos bajo estudio o sobre los cuales se va a extender las
conclusiones a partir de la muestra. Comúnmente el universo es identificado como la población objetivo.
4.2 Población de muestreo: Es el universo accesible, o parte del universo al cual realmente se puede acceder en el
estudio, es decir es el conjunto de elementos susceptibles de ser medidos u observados.
4.3 Población estadística: Conjunto de mediciones hechas sobre los elementos de un universo. Cada variable medida
tiene una población estadística distinta. Si un conjunto de variables son medidas simultáneamente sobre cada elemento,
entonces la población estadística es una población estadística multivariada.
4.4 Unidad elemental: Unidad, elemento o individuo sobre el cual se desea realizar una observación, medición o conteo.
4.5 Unidad de enumeración, de lista o de muestreo: Puede abarcar más de una unidad elemental, y constituyen las
unidades sobre las cuales es factible muestrear, para posteriormente, obtener la información correspondiente a las unidades
elementales. Ej. Manzanas, hogares, parcelas, intervalos de tiempo, lotes de producto, etc.
4.6 Marco de muestreo: Lista completa de todas las unidades de muestreo, o cualquier material o mecanismo que
permita delimitar o identificar en forma apropiada los elementos de una población (Ospina, 2001). A partir del marco muestral
se selecciona la muestra aleatoria.
Särndal, Swenson y Wretman (1992) dicen que un marco muestral debe cumplir las siguientes propiedades:
Identificación de las unidades en el marco mediante algún código. Además cada elemento sólo debe aparecer una
vez en el marco y el marco debe listar las unidades de la población de interés y no incluir a ninguna unidad ajena a
dicha población.
Factibilidad de hallar a cada unidad listada que sea seleccionada para la muestra.
3
Introducción al Muestreo, Estadística II Prof. Nelfi González A. – Escuela de Estadística
4.7 Variables de estudio: Características a ser medidas, observadas o contadas en las unidades o elementos de la
población de interés. Pueden ser cuantitativas (discretas o continuas) o cualitativas (atributos, categorías). Una variable se
indicará por Y , y los valores de esta variable en la i-ésima unidad elemental se denotará por yi .
4.8 Parámetros: Valores que identifican la distribución de una variable en una población estadística. Los parámetros son
las características poblacionales a estimar. Los parámetros de interés, entre otros, son:
La media poblacional de la distribución de una variable de interés
4.9 Estadísticos, estimadores y errores de estimación: Un estadístico es una función de los valores muestrales de una
variable. Cuando los estadísticos son calculados para estimar un parámetro poblacional se denominan estimadores. Los
estimadores se denotarán en general por ˆ , pero en cada caso será reemplazado por el parámetro específico. Es
4.10 Tamaño de la población de muestreo: El total de unidades elementales de la población accesible, se denotará por
N
4.11 Tamaño de muestra: El total de unidades elementales que serán seleccionadas de la población de acuerdo al diseño
muestral. El tamaño muestral será indicado por n .
4
Introducción al Muestreo, Estadística II Prof. Nelfi González A. – Escuela de Estadística
4.12 Muestra piloto: Es una pequeña muestra extraída para obtener información y que sirve de guía para el diseño del
estudio principal; puede servir para estimar las cantidades necesarias para el cálculo del tamaño de la muestra final a tomar.
La muestra piloto se puede seleccionar de forma aleatoria, por lo tanto la información recolectada podrá utilizarse para el
estudio final, o podría estar dirigida a una parte especial de la población, en este caso no se puede utilizar tal muestra para la
muestra definitiva. Con el fin de calcular los tamaños de muestra es necesario especificar además, los niveles de confianza de
los estimadores y el margen de error B que se está dispuesto a admitir en las estimaciones de los parámetros de interés.
Cuando la muestra no es representativa, corresponde a una muestra sesgada. Los sesgos posibles en el muestreo, son:
5.1 Sesgo de selección: Ocurre cuando alguna parte de la población objetivo no está representada en la muestra. Casos
de muestreo con este tipo de sesgo son las muestras de conveniencia, en éstas se incluyen las unidades que son fáciles de
elegir o que probablemente responderán una encuesta. También se incurre en este sesgo cuando no se especifica
apropiadamente a la población objetivo, o no se incluye a todos los elementos de muestreo de dicha población en el marco
muestral. Otro caso de sesgo de selección ocurre cuando se sustituyen o cambian miembros de la muestra; cuando ocurre la
no respuesta, o cuando se permite que la muestra conste sólo de voluntarios (por ejemplo, las encuestas a través de la
recepción de llamadas).
5.2 Sesgo de medición: Ocurre cuando el instrumento con el que se mide tiende a desviarse del valor verdadero en
alguna dirección. En encuestas suele suceder porque las personas mienten, no entienden las preguntas, olvidan, cambian su
respuesta según quien pregunta, o dicen lo que el entrevistador quiere oír. También la forma en que se llevan a cabo las
mediciones o se aplican las encuestas puede sesgar los resultados, incluso el orden en que se formulan las preguntas de una
encuesta pueden tener efecto sobre las respuestas.
5
Introducción al Muestreo, Estadística II Prof. Nelfi González A. – Escuela de Estadística
5.3 Errores de muestreo: Es el resultado de considerar una muestra y no a toda la población. Estos errores se reportan
en términos probabilísticos.
5.4 Errores que no son de muestreo: Imprecisiones que no se pueden atribuir a la variabilidad entre las muestras. Los
dos tipos de sesgos mencionados previamente ocasionan errores que no son de muestreo.
NOTA: Para aplicar el muestreo aleatorio simple hay que garantizar que la población es homogénea.
n! N n !
La probabilidad de una muestra específica es
N!
n
La probabilidad de que una unidad cualquiera de la población esté presente en la muestra es
N
6
Introducción al Muestreo, Estadística II Prof. Nelfi González A. – Escuela de Estadística
segunda columna generar un número aleatorio (con cuatro o cinco cifras), uno por cada entrada de la primera
columna. Ordenar luego el conjunto de datos resultante con base en el orden ascendente de los números aleatorios
generados. Los n primeros números que quedan en la primera columna son los correspondientes a las unidades del
marco muestral que se seleccionan para la muestra.
En R puede realizarse lo anterior mediante la siguiente función (es un ejemplo), en la cual el objeto X, es el marco muestral
definido en forma matricial, en el cual las filas son las unidades de muestreo y sus columnas correspondiendo alguna
información adicional identificando las unidades de muestreo; el argumento size es para especificar el tamaño de la muestra.
MAS<-function(X,size,replace=FALSE){
N<-nrow(X)
a<-sample(N,size=size,replace=replace)
X.muestra<-X[a,]
X.muestra<-cbind(c(a),X.muestra)
X.muestra
}
muestra.SR<-MAS(X,size=10) # toma una MAS de tamaño 10 de un objeto llamado X
#La primera columna del objeto muestra.SR indica la posición en el marco muestral
#de cada unidad seleccionada
Nota: Desde que el muestreo se realiza sin reemplazo en una población de tamaño finito, los estimadores insesgados para los
parámetros poblacionales que consideraremos y sus varianzas llevan en cuenta un factor de corrección por población finita.
Considere por ejemplo la expresión para la varianza de la media muestral que aparece en la tabla de la página siguiente y
compárela con el resultado que generalmente hemos considerado de .
7
Estimadores insesgados para parámetros de interés, e intervalos de confianza
Parámetro Estimador Varianza del estimador Varianza Estimada Intervalo de confianza
a estimar puntual del estimador de (1-)100%
N n N n s
N 2 2
1 1 n
N
yi
i 1
y y
n i 1 i
V y
N 1 n
V̂ y
N n
y t n 1, / 2 Vˆ y
N
yi N ˆ N y V ˆ N 2V y Vˆ ˆ N 2Vˆ y N y t n1, / 2 N Vˆ y
i 1
A a N n p 1 p N n ˆp 1 ˆp
p p̂ V ˆp Vˆ ˆp ˆ t n1, / 2 Vˆ ˆp
p
N n N 1 n 1 N n 1
A ˆ N pˆ
A V A
ˆ N 2 V ˆp
ˆ N 2 Vˆ ˆp
Vˆ A N ˆp t n 1, / 2 N Vˆ p
Donde:
1 n
yi y es la varianza muestral y su valor esperado es
2
S2
n 1 i 1
a es el número total de unidades en la muestra que poseen un atributo o característica dada
8
Introducción al Muestreo, Estadística II Prof. Nelfi González A. – Escuela de Estadística
En el caso de proporciones, si la proporción real p es o muy pequeña o muy cercana a 1, es posible que se obtenga un
intervalo de confianza con límites inconsistentes (límites inferiores negativos o límites superiores mayores que 1) con la
aproximación normal, aún si el tamaño de muestra es grande. El problema es más crítico si el tamaño de muestra es pequeño.
En estos casos se recomienda el uso de límites de confianza exactos calculados a través de la distribución hipergeométrica, o
aproximados a partir de la distribución binomial.
ˆ Z / 2 EE ˆ
de donde, con una significancia de al menos 1 100% , el error máximo absoluto de estimación no excederá de
NOTA: En general 2 es desconocido, y debe estimarse previamente. Sea S *2 tal estimación. Igualmente, es desconocido
y debe estimarse previamente. Sea tal estimación.
NOTA: La magnitud de B depende de:
La asimetría de la distribución de la variable respuesta
El rango de variación de la variable respuesta
La validez de la aproximación del Teorema del Límite Central
A continuación se esquematizan las diferentes fórmulas para el cálculo de n. La fórmula en el caso de p se obtiene asumiendo
que es la media de una muestra aleatoria de variables Bernoulli.
9
Cálculo de n para controlar el error máx. absoluto B 2 EE ˆ 2 V ˆ
Parámetro a estimar Estimador Fórmula general Fórmula para N grande
, donde
Promedio de una variable,
, donde
Total de una variable,
4 p(1 p)
, donde n0
B2
Una proporción,
1
nmax 2 (cuando )
B
CÓMO OBTENER LA VARIANZA : Note en la tabla anterior que es necesario conocer la varianza para hallar n. Podemos obtener una estimación S *2 recurriendo a lo
siguiente.
1. De estudios anteriores: Tener en cuenta tipo de variable, tiempo en que se hizo el estudio y similaridad de la población estudiada
2. Muestra piloto de tamaño n1<30: Si ésta no se obtiene aleatoriamente, las n1 observaciones no sirven para las estimaciones posteriores. Por tanto deben realizarse todas las
n observaciones que arroje la fórmula de tamaño de muestra cuando se use S *2 , la varianza muestral de la muestra piloto (obtenido con la muestra piloto).
3. Muestra aleatoria de tamaño n1: La varianza estimada de esta muestra debe corregirse por usar un tamaño de muestra pequeño, para que sea válida como estimación de la
varianza poblacional. El tamaño de muestra es:
Z2 /2 S *2 2
n 2 1 , pero las n1 observaciones de esta muestra pueden usarse para las estimaciones finales, por tanto sólo faltan n n1 observaciones muestrales
B n1
4. Suponiendo un modelo distribucional para la variable de interés: Normal, exponencial, etc. Si no se conoce nada, la estimación bayesiana nos lleva a suponer una
distribución uniforme U(A,B), es decir, conociendo el rango de variación de la variable respuesta, asumir que todos los valores son igualmente probables. Si por ejemplo se
ymax ymin
asume normalidad, recordar que casi la totalidad de las observaciones están a 3 desviaciones estándar de la media, entonces una estimación es S
*
,óa2
6
ymax ymin
desviaciones estándar de la media la estimación es S
*
.
4
10
Introducción al Muestreo, Estadística II Prof. Nelfi González A. – Escuela de Estadística
Los subgrupos poblacionales disjuntos reciben el nombre de estratos. Los estratos pueden establecerse de acuerdo a
variables cualitativas o cuantitativas sobre las cuales se posee suficiente información, por ejemplo, variables geográficas,
demográficas, socio – económicas, tecnológicas, entre otras. Los estratos en muestreo deben cumplir con ciertas
características que hacen de las muestras estratificadas un método práctico y eficiente. Estas características se concentran
en la homogeneidad que debe existir dentro de los estratos y en la heterogeneidad entre los estratos. Esto conlleva a mejorar
la precisión de los estimadores y a minimizar costos en la recolección de la información.
Sintetizando, las razones por las cuales se recurre al M.A.E son (Lohr, 2000):
Para protegernos contra la posibilidad de obtener una mala muestra.
Para obtener datos de precisión sobre subgrupos o estratos.
Para mayor eficiencia en la administración y reducción de costos. Se pueden usar distintos esquemas de muestreo
para diversos estratos.
Si se hace correctamente, para obtener estimaciones más precisas para toda la población.
yij es el valor de la variable de interés en la j – ésima unidad o elemento del i – ésimo estrato.
11
Introducción al Muestreo, Estadística II Prof. Nelfi González A. – Escuela de Estadística
Ni
1
i
Ni
y
j 1
ij es la media poblacional de la variable de interés en el i – ésimo estrato.
Ni
i yij es el total poblacional de la variable de interés en el i – ésimo estrato.
j 1
Ai corresponde al número total de individuos o elementos de la población del i – ésimo estrato que poseen una característica
dada.
pi Ai / N i es la proporción de elementos o unidades de la población del i – ésimo estrato que poseen una característica
dada.
Luego, los parámetros poblacionales globales en función de los parámetros poblacionales de cada estrato, están dados por:
L L
i Ni i el total global de la variable de interés en la población
i 1 i 1
L
i Ni L
i el promedio global de la variable de interés en la población
i 1 N i 1 N
L
A Ai el número total global de individuos en la población que poseen cierta característica
i 1
L
Ai L Ni
p pi la proporción global de individuos que en la población poseen cierta característica.
i 1 N i 1 N
tamaños de muestra)
3. De cada estrato se toma una M.A.S sin reemplazo de tamaño ni respectivamente.
12
Introducción al Muestreo, Estadística II Prof. Nelfi González A. – Escuela de Estadística
6.2.2 Estimaciones
Para estimar los parámetros de interés en cada estrato, se aplican las fórmulas correspondientes al M.A.S sin reemplazo. Las
estimaciones en los estratos se combinan para obtener una estimación global. En el caso de las medias y proporciones
poblacionales globales las estimaciones poblacionales son básicamente promedios ponderados de las respectivas
estimaciones en los estratos, en los que el factor de peso es: . En la tabla siguiente se resumen los
estimadores poblacionales y los intervalos de confianza correspondientes.
13
Introducción al Muestreo, Estadística II Prof. Nelfi González A. – Escuela de Estadística
L L
ˆ st N y st i 1
N i yi = ˆ
i 1
i Vˆ ˆ st N 2Vˆ yst N yst t n L , / 2 N Vˆ yst
L L
p ˆ st Wi pˆ i
p Vˆ ˆpst Wi 2Vˆ ˆpi ˆpst t n L , / 2 Vˆ ˆpst
i 1 i 1
L L
ˆ N 2Vˆ pˆ
Vˆ Ast st
A A ˆ st N i ˆpi A
ˆ Np ˆ L ˆ t
A n L , / 2 N V pst
ˆ ˆ
N Vˆ pˆ i
st i st
2
i 1 i 1
i
i 1
y
2
ni
y ij ai N i n i s i2 ni yi
yi ni
, pˆ i n , Vˆ y i
Ni
, s i2
ij
ni 1
j 1 i ni j 1
N ni pˆ i 1 pˆ i
Vˆ pˆ i i ,
N i ni 1
Los intervalos de confianza especificados son apropiados si los tamaños de muestras en los estratos, ni , son suficientemente
grandes para aplicar la aproximación normal. De lo contrario, las estimaciones de las varianzas tienden a ser inestables.
6.2.3.1 Determinación del tamaño de la muestra total: El tamaño de muestra aproximado para estimar ó para un valor
prefijado para la varianza del respectivo estimador es dada por la siguiente ecuación:
14
Introducción al Muestreo, Estadística II Prof. Nelfi González A. – Escuela de Estadística
(1)
con igual a ó , respectivamente. es llamada la fracción de afijación de la muestra de tamaño n entre los
estratos, de forma que . Cuando se impone un límite para el error de estimación B, con un
nivel de confianza del 95%, la ecuación anterior toma la siguiente forma
(2)
n i 1 i 1
L
N 2V yst N i i2
i 1
L L
N i i C i N i i C i
n i 1 i 1
L
N 2 D N i i2
i 1
Para hallar los se debe usar afijación óptima para costos variables. Desde que las varianzas aparecen en la ecuación
éstas deben ser pre-estimadas (usar los )
15
Introducción al Muestreo, Estadística II Prof. Nelfi González A. – Escuela de Estadística
L
2 N i
2
i
N i i n i 1
i 1
L
N i i2
n N V yst
L
N
N 2V y st N i i2 i 1
i 1
Para V yst prefijada en , tenemos
Para V y st prefijada en , tenemos L
2 N i
2
i
L
n i 1
N i i L
N i i2
n i 1 N D
L i 1 N
N 2 D N i i2
i 1
Para hallar los se debe usar afijación óptima. Desde que Para hallar los se debe usar afijación proporcional.
las varianzas aparecen en la ecuación éstas deben ser pre- Desde que las varianzas aparecen en la ecuación éstas deben
estimadas (usar los ) ser pre-estimadas (usar los )
6.2.3.2 Afijación
Respecto a la afijación, básicamente existen tres formas, que dependen de la información que se conozca y de lo que se
desea minimizar. A continuación, se presentan los métodos de afijación para la estimación de medias y totales
poblacionales (en las siguientes ecuaciones, en general, i se reemplaza por su estimación previa Si* ):
Afijación proporcional: Si no tenemos información alguna sobre costos de muestreo ni sobre las varianzas de la
variable respuesta en cada estrato, lo más que podemos hacer es asignar los tamaños de muestra proporcionalmente
al tamaño de los estratos:
N
ni Wi n i n
N
16
Introducción al Muestreo, Estadística II Prof. Nelfi González A. – Escuela de Estadística
Afijación óptima (Neyman): Si conocemos las varianzas i2 dentro de cada estrato (aunque no los costos de
ninguna índole o asumimos que son iguales), podemos minimizar la varianza del estimador ( de la media o del total
L
poblacional) sujetos a que ni n con el siguiente valor de ni (para demostrarlo hay que usar multiplicadores de
i 1
Lagrange):
N i i
ni L
n
N
k 1
k k
Afijación óptima para costos variables: Sea C i el costo por unidad del estudio de muestreo en el estrato .
Supongamos que también son conocidas las varianzas de la variable respuesta en cada estrato: Debemos buscar
cómo asignar el tamaño global de muestra n de modo que se garantice la menor variabilidad del estimador para los
costos fijos o que minimice los costos totales para la varianza prefijada para el estimador, donde el costo del muestreo
es dado por
L
Ecuación de costo total: nC i 1
i i
El procedimiento a seguir
1. Determinar primero n sin aproximarlo a ningún entero (es decir tomarlo con cifras decimales).
2. Determinar los ni con el método de afijación apropiado, redondearlos al entero más próximo.
17
Introducción al Muestreo, Estadística II Prof. Nelfi González A. – Escuela de Estadística
L
3. Comprobar que ni , redondeados nredondeado
i 1
4. Si la anterior condición no se cumple por defecto (es decir es menor que el valor de n redondeado), aumentar el
tamaño de muestra para aquel estrato (o estratos) con la cantidad no entera (decimal) más grande antes del
redondeo. Si la condición no es cumplida por exceso, tomar la parte entera como tamaño de muestra para aquel
estrato que originalmente tiene la mayor parte decimal.
6.2.4 Tamaños de muestra en M.A.E para estimación de proporciones y total de individuos con cierta característica
Por M.A.S sin reemplazo en cada estrato se conocen las varianzas para las proporciones estimadas en los estratos, y
globalmente considerando la independencia de los estimadores entre estratos en toda la población. Para las siguientes
fórmulas, se asume que las observaciones son variables Bernoulli (es decir, tomando sólo valores de 0 ó 1) así que
y las varianzas en los estratos corresponden a , luego, podemos usar las ecuaciones vistas en el
caso de la media de una variable cuantitativa.
6.2.4.1 Determinación del tamaño de la muestra total: El tamaño de muestra aproximado para estimar p para un valor
prefijado para la varianza del respectivo estimador , es dado por la siguiente ecuación:
(3)
Cuando se impone un límite para el error de estimación B, con un nivel de confianza del 95%, la ecuación anterior toma la
siguiente forma
(4)
con . En forma similar al caso de estimación de la media poblacional, en la tabla siguiente se dan las diferentes
fórmulas de tamaño de muestra según la información conocida y objetivos (minimización de varianza del estimador de la
proporción y/o de los costos de muestreo) involucrados con los criterios de afijación los cuáles determinan los valores de los
en las ecuaciones (3) y (4). (ver criterios de afijación). Las fórmulas aplican suponiendo que los estratos son grandes
18
Introducción al Muestreo, Estadística II Prof. Nelfi González A. – Escuela de Estadística
Determinación de n
a) Cuando queremos minimizar los costos totales del muestreo (sin restricción de presupuesto) para un valor de V pˆ st que
previamente debemos fijar:
L pi 1 pi L
Ni N i pi 1 pi C i
i 1 Ci i 1
n
L
N 2V pˆ st N i pi 1 pi
i 1
Para prefijada en , tenemos,
L pi 1 pi L
Ni N i pi 1 pi C i
i 1 Ci i 1
n
L
N 2 D N i pi 1 pi
i 1
Para el cálculo de los ni se debe usar afijación óptima para costos variables, para proporciones. Desde que las
proporciones aparecen en la ecuación éstas deben ser pre-estimadas (usar los )
b) Cuando queremos minimizar V pˆ st y no conocemos
costos unitarios de muestreo en los estratos (o se asumen c) Cuando desconocemos los costos o se asumen iguales y
iguales), pero sí tenemos información de las proporciones en asumimos la homogeneidad en cada estrato, lo único que
cada estrato, usamos multiplicadores de Lagrange para podemos hacer es prefijar VAR pˆ st y asignar
hallar los ni que minimizan V pˆ st y luego, prefijamos proporcionalmente los ni , de lo que se tiene que:
este último valor y despejamos a n :
2 L
L
N i pi 1 pi N p 1 p
i i i
n i 1 n i 1
L
1
N V pˆ st N p 1 p
L
N V pˆ st N i pi 1 pi
2
N i i i
i 1
i 1
N p 1 p
2
L
N i pi 1 pi
i i i
n i 1
n i 1 1 L
L
N 2 D N i pi 1 pi
N p 1 pi
N D
N i 1 i i
i 1
Para el cálculo de los ni se debe usar afijación proporcional.
Para el cálculo de los ni se debe usar afijación óptima
Desde que las proporciones aparecen en la ecuación éstas
para estimación de proporciones. Desde que las deben ser pre-estimadas (usar los )
proporciones aparecen en la ecuación éstas deben ser pre-
estimadas (usar los )
6.2.4.2 Afijación
Las afijaciones en este caso se calculan como sigue:
19
Introducción al Muestreo, Estadística II Prof. Nelfi González A. – Escuela de Estadística
Afijación proporcional:
Ni
ni Wi n n
N
En este caso la fracción de afijación es .
Afijación óptima:
N i pi 1 pi
ni L
n
N k pk 1 pk
k 1
pi 1 pi
Ni
Ci
ni n
L
pk 1 pk
N
k 1
k
Ck
Las aproximaciones en todos los casos se hacen suponiendo que los estratos son grandes.
4. Si la anterior condición no se cumple por defecto (es decir es menor que el valor de n redondeado), aumentar el
tamaño de muestra para aquel estrato (o estratos) con la cantidad no entera (decimal) más grande antes del
redondeo. Si la condición no es cumplida por exceso, tomar la parte entera como tamaño de muestra para aquel
estrato que originalmente tiene la mayor parte decimal.
20
Introducción al Muestreo, Estadística II Prof. Nelfi González A. – Escuela de Estadística
Pesos de muestreo
L
L ni
y ij L ni
Ni L ni
ˆ st
i 1
Ni
j 1 ni
i 1 j 1 ni
y ij
i 1 j 1
ij y ij
donde el subíndice j es para las unidades seleccionadas en cada estrato para la muestra.
población representadas por el miembro de la muestra (i, j). Si la población tiene 1600 hombres y 400 mujeres, y el diseño
muestral estratificado especifica una muestra de 200 hombre y 200 mujeres, entonces cada hombre de la muestra tiene un
peso de 8 y por tanto se representa a sí mismo y a otros 7 hombres que no están en la muestra, en tanto que cada mujer de
la muestra tiene un peso de 2 y por tanto se representa así misma y a otra mujer que no está en la muestra (Lohr, 2000).
La probabilidad de elegir la unidad j del estrato i para estar en la muestra es ij ni / N i , la fracción de muestreo en el
L ni
La suma de los pesos de muestreo es igual al tamaño de toda la población N, es decir
i 1 j 1
ij N , esto es cierto dado
que como cada unidad de la muestra representa a cierta cantidad de unidades de la población, entonces la muestra completa
representa a toda la población. La estimación de la media poblacional haciendo uso de los pesos de muestreo corresponde
por tanto a:
L ni
ˆ st
i 1 j 1
ij yij
yst L ni
N
i 1 j 1
ij
21
Introducción al Muestreo, Estadística II Prof. Nelfi González A. – Escuela de Estadística
Este procedimiento calcula por defecto los pesos de muestreo según el diseño muestral, a menos que se le especifique
directamente qué pesos usar.
¿Cómo seleccionar un muestra con el PROC SURVEYSELECT?
1. Ingrese en SAS el conjunto de datos que contiene al marco muestral o una lista de las unidades sobre las cuales se va
a muestrear.
2. Si la muestra va a ser una M.A.E, dentro del conjunto de datos SAS se debe haber incluido la variable estrato. Los
estratos pueden ser identificados mediante código alfanumérico o nombres de las categorías, o simplemente
numerados como 1, 2, …, etc.
3. Se invoca el PROC SURVEYSELECT y sus diferentes opciones, como se ejemplifica a continuación.
donde:
method=srs especifica que el muestreo es aleatorio simple sin reemplazo.
Al ejecutar el anterior programa, el SAS genera una salida por pantalla como la que se muestra a continuación,
proporcionando información resumen sobre el proceso de selección:
22
Introducción al Muestreo, Estadística II Prof. Nelfi González A. – Escuela de Estadística
Puede observarse que para el caso, la probabilidad de selección para cada unidad es 0.007423 y el peso de muestreo usado
es 134.71 (o sea el tamaño de la población dividido el tamaño de la muestra)
Los tamaños de muestra deben ser previamente calculados. Estos pueden especificarse directamente en el PROC
SURVEYSELECT o remitiendo a un data set en el cual se hayan especificados. Suponga inicialmente que el número de
estratos es 4 y que los tamaños de muestra calculados son 25, 25, 35, y 15 (para los estratos ordenados ascendentemente
después de aplicar el proc sort). Para tomar la muestra aleatoria estratificada, se procede de la siguiente manera:
En el data set MUESTRA2 queda guardada la muestral seleccionada, proporcionando la información de las variables
originales en el marco muestral creado en SAS más dos nuevas variables SelectionProb y SamplingWeight, que
23
Introducción al Muestreo, Estadística II Prof. Nelfi González A. – Escuela de Estadística
contienen respectivamente las probabilidades de selección y los pesos de muestreo para cada uno de los registros
seleccionados de la base de datos
Si los tamaños de muestra van a ser leídos del algún data set en SAS, este conjunto de datos debe contener todas las
variables de estratificación que se especifiquen en STRATA, con el mismo tipo y longitud y nombre que aparecen el marco
muestral creado en SAS. En este nuevo data set los estratos deben aparecer en el mismo orden en que se dan en la base de
datos del marco muestral ordenada según variable de estratificación, además debe incluir la variable _NSIZE_ con la cual se
especifica los tamaños de muestra para cada estrato. En muestreo sin remplazo estos tamaños no pueden exceder al tamaño
del respectivo estrato.
Para el ejemplo, suponga que las cuatro zonas en las cuales se han estratificado los clientes, han sido codificadas como NC,
NE, S, y W, luego, en SAS se procedería de la siguiente forma:
data TAMANOS_MUESTRAS;
INPUT zona $ @@;
if zona='NC' then _NSIZE_=25;
if zona='NE' then _NSIZE_=25;
if zona='S' then _NSIZE_=35;
if zona='W' then _NSIZE_=15;
CARDS;
NC NE S W
;
run;
observe que cuando se especificó en el data set TAMANOS_MUESTRAS las zonas, se hizo en orden alfabético, es decir, en
orden ascendente.
24
Introducción al Muestreo, Estadística II Prof. Nelfi González A. – Escuela de Estadística
El procedimiento usa el método de expansión en series de Taylor para estimar los errores muestrales de los estimadores
basados en diseños muestrales complejos. Cuando el diseño es estratificado, el procedimiento combina las estimaciones de
las varianzas del estimador de interés en los estratos para calcular la estimación de la varianza total del estimador global.
data muestra3;
input grado gasto grupo $;
peso_muestreo=100;
cards;
7 7 menos
7 7 menos
8 12 mas
9 10 mas
7 1 menos
7 10 mas
7 3 menos
8 20 mas
8 19 mas
7 2 menos
7 2 menos
9 15 mas
8 16 mas
7 6 menos
7 6 menos
7 6 menos
9 15 mas
8 17 mas
8 14 mas
9 8 menos
9 8 menos
9 7 menos
7 3 menos
7 12 mas
7 4 menos
9 14 mas
8 18 mas
9 9 menos
7 2 menos
7 1 menos
7 4 menos
7 11 mas
9 8 menos
8 10 mas
8 13 mas
7 2 menos
25
Introducción al Muestreo, Estadística II Prof. Nelfi González A. – Escuela de Estadística
9 6 menos
9 11 mas
7 2 menos
7 9 menos
;
run;
peso_
Obs grado gasto grupo muestreo
1 7 7 menos 100
2 7 7 menos 100
3 8 12 mas 100
4 9 10 mas 100
5 7 1 menos 100
6 7 10 mas 100
7 7 3 menos 100
8 8 20 mas 100
9 8 19 mas 100
. . . . .
. . . . .
. . . . .
37 9 6 menos 100
38 9 11 mas 100
39 7 2 menos 100
40 7 9 menos 100
26
Introducción al Muestreo, Estadística II Prof. Nelfi González A. – Escuela de Estadística
Observe que la variable gastos es cuantitativa en tanto que la variable grupo es cualitativa. En la base de datos de la muestra
también debe incluirse una variable que especifique los pesos de muestreo aplicados a cada elemento, que para un M.A.S es
simplemente N / n para todas las unidades, en el ejemplo tal variable corresponde a “peso_muestreo” con valor de 100
en todos los registros. Se desea estimar totales, promedios de la variable gasto y total y proporciones de la variable grupo en
cada categoría. Suponga que la muestra es guardada en SAS en un data set llamado MUESTRA3, a continuación se aplica el
proc surveymeans:
PROC SURVEYMEANS data=MUESTRA3 total=4000 NOBS mean sum var clm varsum clsum sumwgt;
var gasto grupo;
weight peso_muestreo;
ods output Statistics=estadist;
run;
donde:
total=4000 indica al procedimiento que el tamaño de la población es de 4000 individuos. También se puede usar N=4000
NOBS solicita que se imprima el número de individuos en la muestra para cada variable analizada.
var solicita que se imprima la varianza estimada de las medias muestrales para las variables analizadas.
varsum solicita la impresión de la varianza estimada de los totales estimados para las variables analizadas.
clm solicita los límites para los intervalos de confianza de las medias de las variables analizadas. Por defecto se usa un nivel
del confianza del 95%, si se desea modificarlo, por ejemplo un 99%, hay que especificar la opción alpha=0.01.
27
Introducción al Muestreo, Estadística II Prof. Nelfi González A. – Escuela de Estadística
clsum solicita los límites para los intervalos de confianza de los totales de las variables analizadas. Por defecto se usa un
nivel del confianza del 95%, si se desea modificarlo, por ejemplo un 99%, hay que especificar la opción alpha=0.01.
var para especificar sobre cuales variables se realizarán los análisis, para el ejemplo note que se invocan las variables
weight peso_muestreo le indica al procedimiento que los pesos de muestreo de cada unidad de la muestra están en la
Statistics
Sum of Std Error Lower 95%
Variable N Weights Mean of Mean Var of Mean CL for Mean
------------------------------------------------------------------------------------------------
gasto 40 4000.000000 8.750000 0.845139 0.714260 7.040545
grupo=mas 17 4000.000000 0.425000 0.078761 0.006203 0.265690
grupo=menos 23 4000.000000 0.575000 0.078761 0.006203 0.415690
------------------------------------------------------------------------------------------------
Statistics
Upper 95% Lower 95% Upper 95%
Variable CL for Mean Sum Std Dev Var of Sum CL for Sum CL for Sum
--------------------------------------------------------------------------------------------
gasto 10.459455 35000 3380.555257 11428154 28162 41838
grupo=mas 0.584310 1700.000000 315.045784 99254 1062.759753 2337.240247
grupo=menos 0.734310 2300.000000 315.045784 99254 1662.759753 2937.240247
------------------------------------------------------------------------------------------------
Observe que sobre la variable grupo el procedimiento SAS calcula la proporciones de individuos en cada categoría
(información dada como un promedio), como también los respectivos totales de individuos (información que aparece como una
suma).
Suponga ahora que la muestra del ejemplo anterior fue extraída mediante un diseño estratificado, donde la variable de
estratificación es el grado. Poblacionalmente se tiene los tamaños de cada estrato correspondiendo a 1824 estudiantes del
grado 7, 1025 estudiantes en el grado 8 y 1151 estudiantes en el grado 9. Estos tamaños deben especificarse en el PROC
SURVEYMEANS en la opción total de la declaración en la que se invoca el procedimiento; esto se puede hacer creando un
28
Introducción al Muestreo, Estadística II Prof. Nelfi González A. – Escuela de Estadística
data set en el cual se definen los tamaños poblacionales de cada estrato, en una variable que debe nombrarse por _total_ ,
este data set debe ser especificado en la opción total del PROC SURVEYMEANS. Además, también se requiere que los
pesos de muestreo, que para el diseño estratificado corresponden a ij N i / ni , estén definidos dentro de la base datos de
la muestra. A continuación se ilustra el uso del PROC SURVEYMEANS con muestras estratificadas usando la base de datos
de la muestra del ejemplo anterior, para lo cual se crea un nuevo data set que se denominará muestra4, a partir del data
muestra3.
data TOTALES;
input grado _total_;
cards;
7 1824
8 1025
9 1151
;
run;
PROC SURVEYMEANS data=muestra4 total=totales NOBS mean var clm sum varsum clsum sumwgt;
strata grado/list;
var gasto grupo;
weight peso_muest;
run;
Observe que antes de invocar al procedimiento, se crea el data set denominado TOTALES en el cual se ha definido para cada
grado el valor de la variable _total_ . La declaración strata grado/list indica al procedimiento que use como variable
de estratificación a la variable grado. La opción list imprime por pantalla información adicional sobre el diseño estratificado
específico. A continuación se presentan los resultados SAS:
29
Introducción al Muestreo, Estadística II Prof. Nelfi González A. – Escuela de Estadística
Stratum Information
Stratum Population Sampling
Index grado Total Rate N Obs Variable N
------------------------------------------------------------------------------------
1 7 1824 1.10% 20 gasto 20
grupo=mas 3
grupo=menos 17
2 8 1025 0.88% 9 gasto 9
grupo=mas 9
grupo=menos 0
3 9 1151 0.96% 11 gasto 11
grupo=mas 5
grupo=menos 6
------------------------------------------------------------------------------------
Statistics
Sum of Std Error Lower 95%
Variable N Weights Mean of Mean Var of Mean CL for Mean
-----------------------------------------------------------------------------------------------
gasto 40 4000.000000 9.141298 0.531799 0.282810 8.063771
grupo=mas 17 4000.000000 0.455445 0.058424 0.003413 0.337068
grupo=menos 23 4000.000000 0.544555 0.058424 0.003413 0.426177
-----------------------------------------------------------------------------------------------
Statistics
Upper 95% Lower 95% Upper 95%
Variable CL for Mean Sum Std Dev Var of Sum CL for Sum CL for Sum
-----------------------------------------------------------------------------------------------
gasto 10.218825 36565 2127.196661 4524966 32255 40875
grupo=mas 0.573823 1821.781818 233.695008 54613 1348.270755 2295.292882
grupo=menos 0.662932 2178.218182 233.695008 54613 1704.707118 2651.729245
-----------------------------------------------------------------------------------------------
Observe que el procedimiento calcula las tasas de muestreo, es decir ij ni / N i , cuyos valores aparecen bajo el item
“SamplingRate” en forma porcentual. El procedimiento usa los tamaños poblacionales de los estratos especificados en la
opción total= para aplicar el factor de corrección por muestreo de poblaciones finitas en el cálculo de las varianzas
estimadas. Si no se proporciona los tamaños de los estratos o las tasas de muestreo, entonces el procedimiento asume que la
proporción de la población en la muestra es muy pequeña, y por tanto no aplica el factor de corrección por población finita en
los cálculos.
A continuación se presenta un último ejemplo, en el cual se simula un marco muestral de tamaño 2500 registros, donde la
variable de interés es nombrada por x y la variable de estratificación por estrato con 3 niveles identificados como 1, 2, y 3,
cada uno de tamaño 1000, 500 y 1000, respectivamente. Se toma una M.A.E de tamaño 120, distribuida así, 30 unidades en
el estrato 1, 20 en el estrato 2 y 70 en el estrato 3.
data simul;
estrato=1;
do i=1 to 1000;
x=500+10*normal(0);
output;
end;
30
Introducción al Muestreo, Estadística II Prof. Nelfi González A. – Escuela de Estadística
estrato=2;
do i=1001 to 1500;
x=100+12*normal(0);
output;end;
estrato=3;
do i=1501 to 2500;
x=800+10*normal(0);
output;
end;
run;
data totales_estratos;
input estrato _total_ @@;
cards;
1 1000 2 500 3 1000
;
RUN;
proc surveymeans data=muestra1 total=totales_estratos NOBS mean var clm sum varsum clsum
sumwgt;
strata estrato/list;
var x;
weight SamplingWeight;run;
Stratum Information
Stratum Population Sampling
Index estrato Total Rate N Obs Variable N
---------------------------------------------------------------------------------
1 1 1000 3.00% 30 x 30
2 2 500 4.00% 20 x 20
3 3 1000 7.00% 70 x 70
---------------------------------------------------------------------------------
31
Introducción al Muestreo, Estadística II Prof. Nelfi González A. – Escuela de Estadística
Statistics
Sum of Std Error Lower 95%
Variable N Weights Mean of Mean Var of Mean CL for Mean
--------------------------------------------------------------------------------------------------
x 120 2500.000000 539.647758 1.150892 1.324553 537.368476
--------------------------------------------------------------------------------------------------
Statistics
Upper 95% Lower 95% Upper 95%
Variable CL for Mean Sum Std Dev Var of Sum CL for Sum CL for Sum
--------------------------------------------------------------------------------------------------
x 541.927040 1349119 2877.230714 8278457 1343421 1354818
--------------------------------------------------------------------------------------------------
BIBLIOGRAFÍA
Scheaffer, R. L, Mendehall W. y Lyman O., R (2007) Elementos de Muestro. 6 ed. Thomson, México D. F.
Lohr, S. L. (2000). Muestreo: Diseño y Análisis.International Thomson Editores, México D.F.
Ospina, D. (2001). Introducción al Muestreo. Departamento de Matemáticas y Estadística, Facultad de Ciencias, Universidad
Nacional de Colombia, Bogotá.
Särndal, C. E., Swenson, B. y Wretman, J. (1992). Model Assisted Survey Sampling. Springer-Verlag, New York.
SAS Institute Inc., SAS/STAT® User’s Guide, Versión 8, Cary, NC: SAS Institute Inc., 1999. Chapter 61.
SAS Institute Inc., SAS/STAT® User’s Guide, Versión 8, Cary, NC: SAS Institute Inc., 1999. Chapter 63.
32