Elementos Basicos de Muestreo Estii 012010

Introducción al Muestreo, Estadística II Prof. Nelfi González A.
– Escuela de Estadística
ELEMENTOS BÁSICOS DE MUESTREO

1. Definición
El muestreo es aquella rama de la estadística que estudia los procesos estadísticos para seleccionar un subconjunto de
observaciones o muestra de una población de interés, con el propósito de obtener conclusiones sobre toda la población.
Cuando el muestreo se realiza siguiendo un plan probabilístico o una función de determinadas características, se dice que es
un muestreo probabilístico.
En un muestreo probabilístico se conoce a priori la probabilidad de seleccionar un elemento de la población con el fin de
incluirlo en la muestra. Por esto, en un muestreo probabilístico se deben cumplir las siguientes condiciones:
1. Se puede definir el total de muestras posibles que pueden seleccionarse de la población de acuerdo al procedimiento
de muestreo.
2. Toda muestra s del universo o población debe tener una probabilidad p  s  de selección mayor que cero.
3. p  s  debe ser conocida y preestablecida como parte del diseño.
4. El mecanismo de selección debe ser tal que cada muestra reciba exactamente la probabilidad p  s  que se le asignó
de antemano.
En general, cualquier tipo de muestreo que no cumpla con alguna de las anteriores condiciones es un muestreo no
probabilístico. Aunque algunos tipos de muestreo no probabilísticos pueden ofrecer información útil, sin embargo, no es
posible aplicar en tales casos la teoría de muestreo, además, la precisión de tales muestras puede ser indeterminada.
2. Importancia del muestreo

En muchas áreas se necesita recolectar información sobre variables o características de una población grande, sobre la cual
resulta imposible o no es económico censar a cada unidad componente de dicha población; es necesario seleccionar una
parte de ésta para medir las características de interés, por métodos que permitan considerar a la muestra como representativa
para hacer inferencias sobre tales características poblacionales.
Ospina (2001) enuncia tres situaciones principales donde conviene seleccionar una muestra:
 Cuando la población es grande y su estudio completo excede los recursos disponibles.
 Cuando las unidades poblacionales son suficientemente homogéneas con respecto a la característica o variable a
medir.
1
Introducción al Muestreo, Estadística II Prof. Nelfi González A. – Escuela de Estadística
 Cuando el proceso de medición es destructivo.
Además, el muestreo permite un control estricto sobre la recolección de la información, pues los llamados errores no
muestrales son considerablemente menores que en el caso de un censo (Ospina, 2001).
3. Pasos para el diseño de investigaciones por muestreo (Ospina, 2001)

1. Determinación del diseño muestral
2. Determinación de las mediciones a realizar
3. Planeación del trabajo de campo
4. Planeación del análisis estadístico
3.1 El diseño muestral

Comprende:
 El plan de muestro: La metodología para seleccionar la muestra de la población.
 Los procedimientos de estimación: Algoritmos para obtener estimaciones de parámetros poblacionales y su
confiabilidad a partir de los datos muestrales.
Para la selección del diseño muestral se debe tener en cuenta:

 Variables a medir
 Estimaciones requeridas
 Niveles de confiabilidad necesarios
 Restricciones de recursos
3.2 Determinación de las mediciones a realizar

Según el criterio de expertos en el asunto o tema de la investigación. Implica el diseño de encuestas, cuestionarios, o planillas
a diligenciar para recolectar la información adecuada. Esta etapa debe ser superada antes de la recolección y procesamiento
de la información.
3.3 El trabajo de campo

Debe iniciar después de la elaboración, ensayo y modificación de los instrumentos para recolección de la información. Debe
asegurarse que los encargados de recolectar la información hayan sido entrenados en el procedimiento y conozcan
claramente los objetivos y la importancia del estudio y de la labor que desempeñan. En muchos casos es conveniente tomar
2
una muestra piloto para probar y refinar los instrumentos de recolección y de procesamiento de la información. La información
debe ser recolectada según el diseño muestral escogido.
3.4 El análisis estadístico

Implica el procesamiento de la información y la obtención de las estimaciones de las características poblacionales objeto del
estudio. Se debe contar con los mejores recursos disponibles para esta tarea.
4. Definición de términos
4.1 Universo: Conjunto de todos los elementos o individuos bajo estudio o sobre los cuales se va a extender las
conclusiones a partir de la muestra. Comúnmente el universo es identificado como la población objetivo.
4.2 Población de muestreo: Es el universo accesible, o parte del universo al cual realmente se puede acceder en el
estudio, es decir es el conjunto de elementos susceptibles de ser medidos u observados.
4.3 Población estadística: Conjunto de mediciones hechas sobre los elementos de un universo. Cada variable medida
tiene una población estadística distinta. Si un conjunto de variables son medidas simultáneamente sobre cada elemento,
entonces la población estadística es una población estadística multivariada.
4.4 Unidad elemental: Unidad, elemento o individuo sobre el cual se desea realizar una observación, medición o conteo.
4.5 Unidad de enumeración, de lista o de muestreo: Puede abarcar más de una unidad elemental, y constituyen las
unidades sobre las cuales es factible muestrear, para posteriormente, obtener la información correspondiente a las unidades
elementales. Ej. Manzanas, hogares, parcelas, intervalos de tiempo, lotes de producto, etc.
4.6 Marco de muestreo: Lista completa de todas las unidades de muestreo, o cualquier material o mecanismo que
permita delimitar o identificar en forma apropiada los elementos de una población (Ospina, 2001). A partir del marco muestral
se selecciona la muestra aleatoria.
Särndal, Swenson y Wretman (1992) dicen que un marco muestral debe cumplir las siguientes propiedades:
 Identificación de las unidades en el marco mediante algún código. Además cada elemento sólo debe aparecer una
vez en el marco y el marco debe listar las unidades de la población de interés y no incluir a ninguna unidad ajena a
dicha población.
 Factibilidad de hallar a cada unidad listada que sea seleccionada para la muestra.
3
 Organización en forma sistemática: Alfabética, geográfica, por tamaño, etc.

 Contener información adicional necesaria par obtener las principales características de un diseño muestral, y que sea
también útil para construir estimadores que involucren variables auxiliares. Las variables del marco son llamadas
variables de diseño.
 En la estimación por dominios o subpoblaciones, el marco debe especificar el dominio al cual pertenece cada unidad.
4.7 Variables de estudio: Características a ser medidas, observadas o contadas en las unidades o elementos de la
población de interés. Pueden ser cuantitativas (discretas o continuas) o cualitativas (atributos, categorías). Una variable se
indicará por Y , y los valores de esta variable en la i-ésima unidad elemental se denotará por yi .
4.8 Parámetros: Valores que identifican la distribución de una variable en una población estadística. Los parámetros son
las características poblacionales a estimar. Los parámetros de interés, entre otros, son:
 La media poblacional  de la distribución de una variable de interés
 La varianza poblacional  2 de la distribución de una variable de interés

 El total poblacional  de los valores de una variable de interés
 El total de elementos en la población con una característica o atributo dado, A
 La proporción de elementos en la población con una característica o atributo dado, p
4.9 Estadísticos, estimadores y errores de estimación: Un estadístico es una función de los valores muestrales de una
variable. Cuando los estadísticos son calculados para estimar un parámetro poblacional se denominan estimadores. Los
estimadores se denotarán en general por ˆ , pero en cada caso  será reemplazado por el parámetro específico. Es
necesario considerar el error estándar del estimador , donde es la varianza de ˆ . También es
necesario fijar un límite para el error absoluto de estimación: , es decir .
4.10 Tamaño de la población de muestreo: El total de unidades elementales de la población accesible, se denotará por
N
4.11 Tamaño de muestra: El total de unidades elementales que serán seleccionadas de la población de acuerdo al diseño
muestral. El tamaño muestral será indicado por n .
4
4.12 Muestra piloto: Es una pequeña muestra extraída para obtener información y que sirve de guía para el diseño del
estudio principal; puede servir para estimar las cantidades necesarias para el cálculo del tamaño de la muestra final a tomar.
La muestra piloto se puede seleccionar de forma aleatoria, por lo tanto la información recolectada podrá utilizarse para el
estudio final, o podría estar dirigida a una parte especial de la población, en este caso no se puede utilizar tal muestra para la
muestra definitiva. Con el fin de calcular los tamaños de muestra es necesario especificar además, los niveles de confianza de
los estimadores y el margen de error B que se está dispuesto a admitir en las estimaciones de los parámetros de interés.
5. Sesgos y errores en el muestreo

Una muestra perfecta debería ser una versión a escala de la población, pero tal muestra no existe para poblaciones complejas,
y aún si existiera no podríamos determinar que es perfecta sin medir a toda a la población. Sin embargo una buena muestra
reproduce las características de interés que existen en la población de la manera más cercana posible (Lohr, 2000). Esta
muestra será considerada como una muestra representativa, en el sentido de que cada unidad muestreada representará las
características de una cantidad conocida de unidades en la población.
Cuando la muestra no es representativa, corresponde a una muestra sesgada. Los sesgos posibles en el muestreo, son:
5.1 Sesgo de selección: Ocurre cuando alguna parte de la población objetivo no está representada en la muestra. Casos
de muestreo con este tipo de sesgo son las muestras de conveniencia, en éstas se incluyen las unidades que son fáciles de
elegir o que probablemente responderán una encuesta. También se incurre en este sesgo cuando no se especifica
apropiadamente a la población objetivo, o no se incluye a todos los elementos de muestreo de dicha población en el marco
muestral. Otro caso de sesgo de selección ocurre cuando se sustituyen o cambian miembros de la muestra; cuando ocurre la
no respuesta, o cuando se permite que la muestra conste sólo de voluntarios (por ejemplo, las encuestas a través de la
recepción de llamadas).
5.2 Sesgo de medición: Ocurre cuando el instrumento con el que se mide tiende a desviarse del valor verdadero en
alguna dirección. En encuestas suele suceder porque las personas mienten, no entienden las preguntas, olvidan, cambian su
respuesta según quien pregunta, o dicen lo que el entrevistador quiere oír. También la forma en que se llevan a cabo las
mediciones o se aplican las encuestas puede sesgar los resultados, incluso el orden en que se formulan las preguntas de una
encuesta pueden tener efecto sobre las respuestas.
En cuanto a los errores en el muestreo, estos pueden ser:
5
5.3 Errores de muestreo: Es el resultado de considerar una muestra y no a toda la población. Estos errores se reportan
en términos probabilísticos.
5.4 Errores que no son de muestreo: Imprecisiones que no se pueden atribuir a la variabilidad entre las muestras. Los
dos tipos de sesgos mencionados previamente ocasionan errores que no son de muestreo.
6. Diseños muestrales o métodos de muestreo

La elección depende de los objetivos de la investigación y del tipo de análisis que se quiera implementar. Pero cualquier
método de muestreo que se seleccione deberá estar supeditado al principio básico de conocer a priori la probabilidad de
seleccionar un elemento de la población a fin de incluirlo en la muestra. Cabe mencionar los siguientes métodos básicos:
 Muestreo aleatorio simple (M.A.S), con o sin reemplazo
 Muestreo aleatorio estratificado (M.A.E)
 Muestreo por conglomerados
 Muestreo sistemático
 Diseños muestrales avanzados (muestreos polietápicos)
Se estudiarán los casos M.A.S sin reemplazo y M.A.E.
6.1 Muestreo aleatorio simple sin reemplazo o irrestrictamente aleatorio

Para una población finita de tamaño N , se toma una muestra de tamaño n de forma que cada elemento sólo pueda
seleccionarse una sola vez. En este diseño muestral todas las muestras posibles del mismo tamaño tienen la misma
probabilidad de ser seleccionadas, por lo tanto, todas las unidades de la población tendrán la misma probabilidad de estar en
la muestra.
NOTA: Para aplicar el muestreo aleatorio simple hay que garantizar que la población es homogénea.
n!  N  n  !
La probabilidad de una muestra específica es
N!
n
La probabilidad de que una unidad cualquiera de la población esté presente en la muestra es
N
6.1.1 ¿Cómo obtener una muestra aleatoria simple sin reemplazo?

1. Asignar a cada unidad del marco muestral un número de 1 a N.
2. Seleccionar n unidades distintas del marco muestral usando algún mecanismo de aleatorización, por ejemplo, un
generador de números aleatorios: Generar una columna cuyas entradas sean los números enteros de 1 a N. En una
6
segunda columna generar un número aleatorio (con cuatro o cinco cifras), uno por cada entrada de la primera
columna. Ordenar luego el conjunto de datos resultante con base en el orden ascendente de los números aleatorios
generados. Los n primeros números que quedan en la primera columna son los correspondientes a las unidades del
marco muestral que se seleccionan para la muestra.
En R puede realizarse lo anterior mediante la siguiente función (es un ejemplo), en la cual el objeto X, es el marco muestral
definido en forma matricial, en el cual las filas son las unidades de muestreo y sus columnas correspondiendo alguna
información adicional identificando las unidades de muestreo; el argumento size es para especificar el tamaño de la muestra.
MAS<-function(X,size,replace=FALSE){
N<-nrow(X)
a<-sample(N,size=size,replace=replace)
X.muestra<-X[a,]
X.muestra<-cbind(c(a),X.muestra)
X.muestra
}
muestra.SR<-MAS(X,size=10) # toma una MAS de tamaño 10 de un objeto llamado X
#La primera columna del objeto muestra.SR indica la posición en el marco muestral
#de cada unidad seleccionada
Nota: Desde que el muestreo se realiza sin reemplazo en una población de tamaño finito, los estimadores insesgados para los
parámetros poblacionales que consideraremos y sus varianzas llevan en cuenta un factor de corrección por población finita.
Considere por ejemplo la expresión para la varianza de la media muestral que aparece en la tabla de la página siguiente y
compárela con el resultado que generalmente hemos considerado de .
7
Estimadores insesgados para parámetros de interés, e intervalos de confianza
Parámetro Estimador Varianza del estimador Varianza Estimada Intervalo de confianza
a estimar puntual del estimador de (1-)100%
 N  n  N n s
N 2 2
1 1 n

N
 yi
i 1
y y
n i 1 i
V  y   
 N 1  n
V̂  y   
 N n
 y  t n 1, / 2 Vˆ  y 
N
   yi  N  ˆ  N y V ˆ   N 2V  y  Vˆ ˆ   N 2Vˆ  y  N y  t n1, / 2 N Vˆ  y 
i 1
A a  N  n  p 1  p   N  n  ˆp 1  ˆp 
p p̂  V  ˆp     Vˆ  ˆp     ˆ  t n1, / 2 Vˆ  ˆp 
p
N n  N 1  n 1  N  n 1
A ˆ  N pˆ
A V A 
ˆ  N 2 V  ˆp   
ˆ  N 2 Vˆ  ˆp 
Vˆ A N ˆp  t n 1, / 2 N Vˆ  p 
Donde:
1 n
  yi  y  es la varianza muestral y su valor esperado es
2
S2 
n  1 i 1
a es el número total de unidades en la muestra que poseen un atributo o característica dada
8
En el caso de proporciones, si la proporción real p es o muy pequeña o muy cercana a 1, es posible que se obtenga un
intervalo de confianza con límites inconsistentes (límites inferiores negativos o límites superiores mayores que 1) con la
aproximación normal, aún si el tamaño de muestra es grande. El problema es más crítico si el tamaño de muestra es pequeño.
En estos casos se recomienda el uso de límites de confianza exactos calculados a través de la distribución hipergeométrica, o
aproximados a partir de la distribución binomial.
6.1.2 ¿Cuántas unidades muestrear?

En general se observa que:
1. Con n grande y 2 pequeño, se obtienen estimaciones más precisas de los parámetros.
2. Si N es relativamente grande, influye poco en la precisión de los estimadores.
3. Para una precisión dada, n está relacionado con la variabilidad poblacional.
4. El tamaño muestral depende del parámetro a estimar
5. La confiabilidad deseada afecta directamente el tamaño muestral
Para el cálculo de n se toma como base la aproximación normal:
ˆ  Z / 2 EE ˆ 
de donde, con una significancia de al menos 1    100% , el error máximo absoluto de estimación no excederá de
Z / 2 EE ˆ  , es decir, , por tanto tomamos B  Z /2 EE ˆ  . Recuerde que
EE ˆ   V ˆ   es el error estándar del estimador ˆ y Z / 2 es el percentil 1   / 2  100% de la distribución normal
estándar. Para un nivel de confianza del 95% tomamos B  2  EE ˆ  .
NOTA: En general 2 es desconocido, y debe estimarse previamente. Sea S *2 tal estimación. Igualmente, es desconocido
y debe estimarse previamente. Sea tal estimación.
NOTA: La magnitud de B depende de:
 La asimetría de la distribución de la variable respuesta
 El rango de variación de la variable respuesta
 La validez de la aproximación del Teorema del Límite Central
A continuación se esquematizan las diferentes fórmulas para el cálculo de n. La fórmula en el caso de p se obtiene asumiendo
que es la media de una muestra aleatoria de variables Bernoulli.
9
Cálculo de n para controlar el error máx. absoluto B  2  EE ˆ   2 V ˆ  
Parámetro a estimar Estimador Fórmula general Fórmula para N grande
, donde
Promedio de una variable,
, donde
Total de una variable,
4 p(1  p)
, donde n0 
B2
Una proporción,
1
nmax  2 (cuando )
B
CÓMO OBTENER LA VARIANZA : Note en la tabla anterior que es necesario conocer la varianza para hallar n. Podemos obtener una estimación S *2 recurriendo a lo
siguiente.
1. De estudios anteriores: Tener en cuenta tipo de variable, tiempo en que se hizo el estudio y similaridad de la población estudiada
2. Muestra piloto de tamaño n1<30: Si ésta no se obtiene aleatoriamente, las n1 observaciones no sirven para las estimaciones posteriores. Por tanto deben realizarse todas las
n observaciones que arroje la fórmula de tamaño de muestra cuando se use S *2 , la varianza muestral de la muestra piloto (obtenido con la muestra piloto).
3. Muestra aleatoria de tamaño n1: La varianza estimada de esta muestra debe corregirse por usar un tamaño de muestra pequeño, para que sea válida como estimación de la
varianza poblacional. El tamaño de muestra es:
Z2 /2 S *2  2
n 2  1   , pero las n1 observaciones de esta muestra pueden usarse para las estimaciones finales, por tanto sólo faltan n  n1 observaciones muestrales
B  n1 
4. Suponiendo un modelo distribucional para la variable de interés: Normal, exponencial, etc. Si no se conoce nada, la estimación bayesiana nos lleva a suponer una
distribución uniforme U(A,B), es decir, conociendo el rango de variación de la variable respuesta, asumir que todos los valores son igualmente probables. Si por ejemplo se
ymax  ymin
asume normalidad, recordar que casi la totalidad de las observaciones están a 3 desviaciones estándar de la media, entonces una estimación es S 
*
,óa2
6
ymax  ymin
desviaciones estándar de la media la estimación es S 
*
.
4
10
6.2 Muestreo aleatorio estratificado o M.A.E (sin reemplazo)

El M.A.S sólo es apropiado cuando la población de la cual se muestrea puede considerarse homogénea, es decir, cuando la
distribución de valores de la variable de interés no depende de ciertas características de las unidades o elementos de la
población. Por el contrario, si la distribución de valores de una variable depende de ciertas características que crean
subgrupos poblacionales disjuntos previamente identificados, en ese caso, un M.A.S conllevaría a estimaciones menos
precisas y no representativas para todos los subgrupos poblacionales.
Los subgrupos poblacionales disjuntos reciben el nombre de estratos. Los estratos pueden establecerse de acuerdo a
variables cualitativas o cuantitativas sobre las cuales se posee suficiente información, por ejemplo, variables geográficas,
demográficas, socio – económicas, tecnológicas, entre otras. Los estratos en muestreo deben cumplir con ciertas
características que hacen de las muestras estratificadas un método práctico y eficiente. Estas características se concentran
en la homogeneidad que debe existir dentro de los estratos y en la heterogeneidad entre los estratos. Esto conlleva a mejorar
la precisión de los estimadores y a minimizar costos en la recolección de la información.
Sintetizando, las razones por las cuales se recurre al M.A.E son (Lohr, 2000):
 Para protegernos contra la posibilidad de obtener una mala muestra.
 Para obtener datos de precisión sobre subgrupos o estratos.
 Para mayor eficiencia en la administración y reducción de costos. Se pueden usar distintos esquemas de muestreo
para diversos estratos.
 Si se hace correctamente, para obtener estimaciones más precisas para toda la población.
Recordar que es condición necesaria para una buena estratificación que

 Los elementos individuales dentro de cada estrato deben tener cierta homogeneidad pero las medias de los estratos
deberán diferir entre sí lo más posible.
 No se deben presentar traslapes entre estratos y todos juntos deberán formar la población completa.
6.2.1 Idea básica del M.A.E

El procedimiento aplicado en este diseño muestral consiste en considerar a cada uno de los estratos como una subpoblación:
Suponga que la población es dividida en L estratos; en cada uno podemos definir los parámetros siguientes, con
(todas las variables y parámetros usados en relación a los estratos tendrán subíndice i):
N i corresponde al tamaño de la población en el i – ésimo estrato.
yij es el valor de la variable de interés en la j – ésima unidad o elemento del i – ésimo estrato.
11
Ni
1
i 
Ni
y
j 1
ij es la media poblacional de la variable de interés en el i – ésimo estrato.
Ni
 i   yij es el total poblacional de la variable de interés en el i – ésimo estrato.
j 1
Ai corresponde al número total de individuos o elementos de la población del i – ésimo estrato que poseen una característica
dada.
pi  Ai / N i es la proporción de elementos o unidades de la población del i – ésimo estrato que poseen una característica
dada.
Luego, los parámetros poblacionales globales en función de los parámetros poblacionales de cada estrato, están dados por:
L L
  i  Ni i el total global de la variable de interés en la población
i 1 i 1
L
i Ni L
    i el promedio global de la variable de interés en la población
i 1 N i 1 N
L
A   Ai el número total global de individuos en la población que poseen cierta característica
i 1
L
Ai L Ni
p    pi la proporción global de individuos que en la población poseen cierta característica.
i 1 N i 1 N
Para efectos de muestreo y estimación se procede de la siguiente manera:

1. Se determina el tamaño global de muestra n .
L
2. Se determinan los tamaños de muestra en cada estrato, ni , tal que n
i 1
i  n (procedimiento de afijación de
tamaños de muestra)
3. De cada estrato se toma una M.A.S sin reemplazo de tamaño ni respectivamente.
4. Se obtienen las estimaciones de los parámetros de interés en cada estrato.

5. Se combinan las estimaciones de los parámetros de interés para generar la estimación puntual global del
parámetro en la población.
En la figura 1 se esquematiza el procedimiento de muestreo y estimación descrito.
12
M.A.S SOBRE CADA ESTRATO, ESTIMACIONES DE PARÁMETROS

EN LOS ESTRATOS,

muestras de tamaño
COMBINAR PARA OBTENER LAS RESPECTIVAS

ESTIMACIONES POBLACIONALES
Figura 1. Procedimiento de muestreo y estimación en M.A.E
6.2.2 Estimaciones
Para estimar los parámetros de interés en cada estrato, se aplican las fórmulas correspondientes al M.A.S sin reemplazo. Las
estimaciones en los estratos se combinan para obtener una estimación global. En el caso de las medias y proporciones
poblacionales globales las estimaciones poblacionales son básicamente promedios ponderados de las respectivas
estimaciones en los estratos, en los que el factor de peso es: . En la tabla siguiente se resumen los
estimadores poblacionales y los intervalos de confianza correspondientes.
13
ESTIMADORES E INTERVALOS DE CONFIANZA

Parámetro Estimador Varianza Estimada Intervalo de confianza para el
a estimar puntual del estimador parámetro, de (1-)100%
L L
 yst   Wi yi Vˆ  yst    Wi 2Vˆ  yi  y st  t n L , / 2 Vˆ  yst 
i 1 i 1
L L
 ˆ st  N y st  i 1
N i yi =  ˆ
i 1
i Vˆ ˆ st   N 2Vˆ  yst  N yst  t n  L , / 2 N Vˆ  yst 
L L
p ˆ st   Wi pˆ i
p Vˆ  ˆpst    Wi 2Vˆ  ˆpi  ˆpst  t n  L , / 2 Vˆ  ˆpst 
i 1 i 1
L L  
ˆ  N 2Vˆ  pˆ 
Vˆ Ast st
A A ˆ st   N i ˆpi   A
ˆ  Np ˆ L ˆ t
A n  L , / 2 N V  pst 
ˆ ˆ
  N Vˆ  pˆ i 
st i st
2
i 1 i 1
i
i 1
y por M.A.S sin reemplazo, en cada estrato, se tienen:
y 
2
ni
y ij ai  N i  n i  s i2 ni  yi
yi   ni
, pˆ i  n , Vˆ  y i   
Ni
 , s i2  
ij
ni  1
j 1 i   ni j 1
 N  ni  pˆ i 1  pˆ i 
Vˆ  pˆ i    i  ,
 N i  ni  1
Los intervalos de confianza especificados son apropiados si los tamaños de muestras en los estratos, ni , son suficientemente
grandes para aplicar la aproximación normal. De lo contrario, las estimaciones de las varianzas tienden a ser inestables.
6.2.3 Tamaños de muestra en M.A.E para estimación de medias y totales poblacionales

En cuanto a los tamaños de muestra, en este diseño muestral es necesario:
1. Cálculo del tamaño de muestra global n , es decir el total de unidades o elementos que se muestrearán de toda la
población.
2. Afijación de la muestra, lo cual responde a la pregunta dado un tamaño de muestra total n , ¿cómo distribuirlo
entre los estratos?, es decir, ¿cómo calcular los tamaños de muestra para cada estrato (los ni )?
6.2.3.1 Determinación del tamaño de la muestra total: El tamaño de muestra aproximado para estimar  ó  para un valor
prefijado para la varianza del respectivo estimador es dada por la siguiente ecuación:
14
(1)
con igual a ó , respectivamente. es llamada la fracción de afijación de la muestra de tamaño n entre los
estratos, de forma que . Cuando se impone un límite para el error de estimación B, con un
nivel de confianza del 95%, la ecuación anterior toma la siguiente forma
(2)
con cuando se estima  y cuando se estima . En la tabla siguiente aparecen diferentes

fórmulas de tamaño de muestra según la información conocida y objetivos (minimización de varianza del estimador de la
media y/o de los costos de muestreo) involucrados con los criterios de afijación los cuáles determinan los valores de los en
las ecuaciones (1) y (2). (ver criterios de afijación).
Determinación de n para estimación de la media poblacional 

a) Cuando queremos minimizar los costos totales del muestreo (sin restricción presupuestal), para un valor de V  yst  que
previamente debemos prefijar: ( es el costo unitario en el estrato )
 L  L 
 i iN  C i    N i i C i 
n   i 1   i 1
L

N 2V  yst    N i i2
i 1
Para V  y st  prefijada en , tenemos
 L  L 
  N i i C i    N i i C i 
n   i 1   i 1
L

N 2 D   N i i2
i 1
Para hallar los se debe usar afijación óptima para costos variables. Desde que las varianzas aparecen en la ecuación
éstas deben ser pre-estimadas (usar los )
15
Determinación de n para estimación de la media poblacional  (continuación)

b) Cuando queremos minimizar V  y st  y no conocemos c) Cuando desconocemos costos o se asumen iguales y no
estamos seguros de valores a asignar a las varianzas dentro
costos unitarios de muestreo en los estratos (o se asumen
de los estratos (aunque sí se requieren las estimaciones
iguales), pero sí tenemos conocimiento sobre las varianzas
dentro de los estratos (son pre estimadas con los valores ), previas Si ), lo único que podemos hacer es prefijar V  yst 
*2
usamos multiplicadores de Lagrange para hallar los ni que y calcular:

minimizan V  y st  y luego, prefijamos este último valor y
despejamos a n :
L
 L

2 N i
2
i
  N i i  n i 1
 i 1 
L
N i i2
n N V  yst   
L
N
N 2V  y st    N i i2 i 1
i 1
Para V  yst  prefijada en , tenemos
Para V  y st  prefijada en , tenemos L
2 N i
2
i
 L
 n i 1
  N i i  L
N i i2
n  i 1  N D
L i 1 N
N 2 D   N i i2
i 1
Para hallar los se debe usar afijación óptima. Desde que Para hallar los se debe usar afijación proporcional.
las varianzas aparecen en la ecuación éstas deben ser pre- Desde que las varianzas aparecen en la ecuación éstas deben
estimadas (usar los ) ser pre-estimadas (usar los )
6.2.3.2 Afijación
Respecto a la afijación, básicamente existen tres formas, que dependen de la información que se conozca y de lo que se
desea minimizar. A continuación, se presentan los métodos de afijación para la estimación de medias y totales
poblacionales (en las siguientes ecuaciones, en general,  i se reemplaza por su estimación previa Si* ):
 Afijación proporcional: Si no tenemos información alguna sobre costos de muestreo ni sobre las varianzas de la
variable respuesta en cada estrato, lo más que podemos hacer es asignar los tamaños de muestra proporcionalmente
al tamaño de los estratos:
N 
ni  Wi n   i  n
 N 
observe que en este caso la fracción de afijación es .
16
 Afijación óptima (Neyman): Si conocemos las varianzas  i2 dentro de cada estrato (aunque no los costos de
ninguna índole o asumimos que son iguales), podemos minimizar la varianza del estimador ( de la media o del total
L
poblacional) sujetos a que  ni  n con el siguiente valor de ni (para demostrarlo hay que usar multiplicadores de
i 1
Lagrange):
N i i
ni  L
n
N
k 1
k k
En este caso la fracción de afijación es
 Afijación óptima para costos variables: Sea C i el costo por unidad del estudio de muestreo en el estrato .
Supongamos que también son conocidas las varianzas de la variable respuesta en cada estrato: Debemos buscar
cómo asignar el tamaño global de muestra n de modo que se garantice la menor variabilidad del estimador para los
costos fijos o que minimice los costos totales para la varianza prefijada para el estimador, donde el costo del muestreo
es dado por
L
Ecuación de costo total: nC i 1
i i
Luego, la afijación óptima corresponde a:

N i i
Ci
ni  n
L  N k k 
 
k 1 

C k 
En este caso la fracción de afijación corresponde a
El procedimiento a seguir
1. Determinar primero n sin aproximarlo a ningún entero (es decir tomarlo con cifras decimales).
2. Determinar los ni con el método de afijación apropiado, redondearlos al entero más próximo.
17
L
3. Comprobar que  ni , redondeados  nredondeado
i 1
4. Si la anterior condición no se cumple por defecto (es decir es menor que el valor de n redondeado), aumentar el
tamaño de muestra para aquel estrato (o estratos) con la cantidad no entera (decimal) más grande antes del
redondeo. Si la condición no es cumplida por exceso, tomar la parte entera como tamaño de muestra para aquel
estrato que originalmente tiene la mayor parte decimal.
6.2.4 Tamaños de muestra en M.A.E para estimación de proporciones y total de individuos con cierta característica
Por M.A.S sin reemplazo en cada estrato se conocen las varianzas para las proporciones estimadas en los estratos, y
globalmente considerando la independencia de los estimadores entre estratos en toda la población. Para las siguientes
fórmulas, se asume que las observaciones son variables Bernoulli (es decir, tomando sólo valores de 0 ó 1) así que
y las varianzas en los estratos corresponden a , luego, podemos usar las ecuaciones vistas en el
caso de la media de una variable cuantitativa.
6.2.4.1 Determinación del tamaño de la muestra total: El tamaño de muestra aproximado para estimar p para un valor
prefijado para la varianza del respectivo estimador , es dado por la siguiente ecuación:
(3)
Cuando se impone un límite para el error de estimación B, con un nivel de confianza del 95%, la ecuación anterior toma la
siguiente forma
(4)
con . En forma similar al caso de estimación de la media poblacional, en la tabla siguiente se dan las diferentes
fórmulas de tamaño de muestra según la información conocida y objetivos (minimización de varianza del estimador de la
proporción y/o de los costos de muestreo) involucrados con los criterios de afijación los cuáles determinan los valores de los
en las ecuaciones (3) y (4). (ver criterios de afijación). Las fórmulas aplican suponiendo que los estratos son grandes
18
Determinación de n
a) Cuando queremos minimizar los costos totales del muestreo (sin restricción de presupuesto) para un valor de V  pˆ st  que
previamente debemos fijar:
 L pi 1  pi    L 
  Ni    N i pi 1  pi  C i 
 i 1 Ci   i 1 
n  
L
N 2V  pˆ st    N i pi 1  pi 
i 1
Para prefijada en , tenemos,
 L pi 1  pi    L 
  Ni    N i pi 1  pi  C i 
 i 1 Ci   i 1 
n  
L
N 2 D   N i pi 1  pi 
i 1
Para el cálculo de los ni se debe usar afijación óptima para costos variables, para proporciones. Desde que las
proporciones aparecen en la ecuación éstas deben ser pre-estimadas (usar los )
b) Cuando queremos minimizar V  pˆ st  y no conocemos
costos unitarios de muestreo en los estratos (o se asumen c) Cuando desconocemos los costos o se asumen iguales y
iguales), pero sí tenemos información de las proporciones en asumimos la homogeneidad en cada estrato, lo único que
cada estrato, usamos multiplicadores de Lagrange para podemos hacer es prefijar VAR  pˆ st  y asignar
hallar los ni que minimizan V  pˆ st  y luego, prefijamos proporcionalmente los ni , de lo que se tiene que:
este último valor y despejamos a n :
2 L
 L 
  N i pi 1  pi    N p 1  p 
i i i
n  i 1  n i 1
L
1
N V  pˆ st    N p 1  p 
L
N V  pˆ st    N i pi 1  pi 
2
N i i i
i 1
i 1
Para prefijada en , tenemos, Para prefijada en , tenemos,

L
 N p 1  p 
2
 L 
  N i pi 1  pi  
i i i
n i 1
n   i 1  1 L
L
N 2 D   N i pi 1  pi 
 N p 1  pi 
N D
N i 1 i i
i 1
Para el cálculo de los ni se debe usar afijación proporcional.
Para el cálculo de los ni se debe usar afijación óptima
Desde que las proporciones aparecen en la ecuación éstas
para estimación de proporciones. Desde que las deben ser pre-estimadas (usar los )
proporciones aparecen en la ecuación éstas deben ser pre-
estimadas (usar los )
6.2.4.2 Afijación
Las afijaciones en este caso se calculan como sigue:
19
 Afijación proporcional:
Ni
ni  Wi n  n
N
En este caso la fracción de afijación es .
 Afijación óptima:
N i pi 1  pi 
ni  L
n
N k pk 1  pk 
k 1
En este caso, la fracción de afijación es
 Afijación óptima para costos variables para estimación de proporciones:
pi 1  pi 
Ni
Ci
ni  n
L
pk 1  pk 
N
k 1
k
Ck
La fracción de afijación en este caso corresponde a
Las aproximaciones en todos los casos se hacen suponiendo que los estratos son grandes.
De nuevo, el procedimiento a seguir es

1. Determinar primero n sin aproximarlo a ningún entero (es decir tomarlo con cifras decimales).
2. Determinar los ni con el método de afijación apropiado, redondearlos al entero más próximo.
L
3. Comprobar que  ni , redondeados  nredondeado
i 1
4. Si la anterior condición no se cumple por defecto (es decir es menor que el valor de n redondeado), aumentar el
tamaño de muestra para aquel estrato (o estratos) con la cantidad no entera (decimal) más grande antes del
redondeo. Si la condición no es cumplida por exceso, tomar la parte entera como tamaño de muestra para aquel
estrato que originalmente tiene la mayor parte decimal.
20
Pesos de muestreo
L
Considere el estimador del total de una variable ˆ st  

i 1
N i y i podemos rescribir esta fórmula de la siguiente manera:
L ni
y ij L ni
Ni L ni
ˆ st  
i 1
Ni
j 1 ni
 
i 1 j 1 ni
y ij  
i 1 j 1
ij y ij
donde el subíndice j es para las unidades seleccionadas en cada estrato para la muestra.
El peso de muestreo corresponde a la constante  ij  N i / ni y puede interpretarse como el número de unidades en la
población representadas por el miembro de la muestra (i, j). Si la población tiene 1600 hombres y 400 mujeres, y el diseño
muestral estratificado especifica una muestra de 200 hombre y 200 mujeres, entonces cada hombre de la muestra tiene un
peso de 8 y por tanto se representa a sí mismo y a otros 7 hombres que no están en la muestra, en tanto que cada mujer de
la muestra tiene un peso de 2 y por tanto se representa así misma y a otra mujer que no está en la muestra (Lohr, 2000).
La probabilidad de elegir la unidad j del estrato i para estar en la muestra es  ij  ni / N i , la fracción de muestreo en el
estrato i. Por tanto el peso de muestreo es el inverso de esta probabilidad.
L ni
La suma de los pesos de muestreo es igual al tamaño de toda la población N, es decir  
i 1 j 1
ij  N , esto es cierto dado
que como cada unidad de la muestra representa a cierta cantidad de unidades de la población, entonces la muestra completa
representa a toda la población. La estimación de la media poblacional haciendo uso de los pesos de muestreo corresponde
por tanto a:
L ni
ˆ st
 
i 1 j 1
ij yij
yst   L ni
N
 
i 1 j 1
ij
ANEXO 1: EL PROC SURVEYSELECT

Este procedimiento, disponible en el paquete estadístico SAS, proporciona una variedad de métodos para seleccionar
muestras probabilísticas. Permite seleccionar desde muestras aleatorias simples hasta diseños muestrales multietápicos
complejos. También permite tomar muestras con probabilidades iguales y con probabilidades de muestreo distintas,
específicamente por el método denominado PPS (probabilidad proporcional al tamaño de cada unidad de muestreo).
21
Este procedimiento calcula por defecto los pesos de muestreo según el diseño muestral, a menos que se le especifique
directamente qué pesos usar.
¿Cómo seleccionar un muestra con el PROC SURVEYSELECT?
1. Ingrese en SAS el conjunto de datos que contiene al marco muestral o una lista de las unidades sobre las cuales se va
a muestrear.
2. Si la muestra va a ser una M.A.E, dentro del conjunto de datos SAS se debe haber incluido la variable estrato. Los
estratos pueden ser identificados mediante código alfanumérico o nombres de las categorías, o simplemente
numerados como 1, 2, …, etc.
3. Se invoca el PROC SURVEYSELECT y sus diferentes opciones, como se ejemplifica a continuación.
a) M.A.S sin reemplazo

Suponga que una empresa de servicios de conexión a Internet desea investigar la satisfacción de sus clientes con los servicios
prestados. La población objetivo consiste de los suscriptores actuales de la compañía. La empresa posee una base de datos
a partir de la cual construye el marco muestral en la cual incluye información sobre código de identificación del usuario, zona
en el que está ubicado el usuario, promedio mensual en minutos de uso de la conexión de Internet, entre otros datos.
Suponga que se ingresa en SAS este marco muestral en una data set denominado CLIENTES con un total de 13471 registros.
Se desea tomar una muestra aleatoria simple sin reemplazo de tamaño 100, entre los clientes para aplicarles una encuesta.
Esto se puede hacer de la siguiente manera:
PROC SURVEYSELECT data=CLIENTES method=srs n=100 seed=39647 out=MUESTRA1;

run;
donde:
method=srs especifica que el muestreo es aleatorio simple sin reemplazo.
seed=39647 es opcional. Con ella se fija la muestra en la correspondiente a la semilla 39647.
n=100 indica el tamaño de la muestra. En vez de n= puede usarse la opción sampsize= .
out=MUESTRA1 especifica que la muestra seleccionada se guarde en un data llamado MUESTRA1.
Al ejecutar el anterior programa, el SAS genera una salida por pantalla como la que se muestra a continuación,
proporcionando información resumen sobre el proceso de selección:
22
The SURVEYSELECT Procedure

Selection Method Simple Random Sampling
Input Data Set CLIENTES
Random Number Seed 39647
Sample Size 100
Selection Probability 0.007423
Sampling Weight 134.71
Output Data Set MUESTRA1
Puede observarse que para el caso, la probabilidad de selección para cada unidad es 0.007423 y el peso de muestreo usado
es 134.71 (o sea el tamaño de la población dividido el tamaño de la muestra)
b) M.A.E sin reemplazo

Considere ahora que la empresa desea realiza un diseño muestral por estratificación, usando como variable de estratificación
la variable zona en el cual está localizado el suscriptor y suponga que esta variable ha sido nombrada zona en la base de
datos. El PROC SURVEYSELECT requiere que la base de datos del marco muestral sea previamente ordenado en forma
ascendente por los valores de la variable de estratificación, lo cual se realiza mediante las siguientes líneas:
PROC SORT data=CLIENTES;

by zona;
run;
Los tamaños de muestra deben ser previamente calculados. Estos pueden especificarse directamente en el PROC
SURVEYSELECT o remitiendo a un data set en el cual se hayan especificados. Suponga inicialmente que el número de
estratos es 4 y que los tamaños de muestra calculados son 25, 25, 35, y 15 (para los estratos ordenados ascendentemente
después de aplicar el proc sort). Para tomar la muestra aleatoria estratificada, se procede de la siguiente manera:
PROC SURVEYSELECT data=CLIENTES method=srs n=(25 25 35 15) seed=48702 out=MUESTRA2;

strata zona;
run;
The SURVEYSELECT Procedure

Selection Method Simple Random Sampling
Strata Variable zona
Input Data Set CLIENTES

Random Number Seed 48702
Number of Strata 4
Total Sample Size 100
Output Data Set MUESTRA2
En el data set MUESTRA2 queda guardada la muestral seleccionada, proporcionando la información de las variables
originales en el marco muestral creado en SAS más dos nuevas variables SelectionProb y SamplingWeight, que
23
contienen respectivamente las probabilidades de selección y los pesos de muestreo para cada uno de los registros
seleccionados de la base de datos
Si los tamaños de muestra van a ser leídos del algún data set en SAS, este conjunto de datos debe contener todas las
variables de estratificación que se especifiquen en STRATA, con el mismo tipo y longitud y nombre que aparecen el marco
muestral creado en SAS. En este nuevo data set los estratos deben aparecer en el mismo orden en que se dan en la base de
datos del marco muestral ordenada según variable de estratificación, además debe incluir la variable _NSIZE_ con la cual se
especifica los tamaños de muestra para cada estrato. En muestreo sin remplazo estos tamaños no pueden exceder al tamaño
del respectivo estrato.
Para el ejemplo, suponga que las cuatro zonas en las cuales se han estratificado los clientes, han sido codificadas como NC,
NE, S, y W, luego, en SAS se procedería de la siguiente forma:
data TAMANOS_MUESTRAS;
INPUT zona $ @@;
if zona='NC' then _NSIZE_=25;
if zona='NE' then _NSIZE_=25;
if zona='S' then _NSIZE_=35;
if zona='W' then _NSIZE_=15;
CARDS;
NC NE S W
;
run;
proc surveyselect data=CLIENTES method=srs n=TAMANOS_MUESTRAS seed=48702 out=muestra2;

strata zona;
run;
observe que cuando se especificó en el data set TAMANOS_MUESTRAS las zonas, se hizo en orden alfabético, es decir, en
orden ascendente.
ANEXO 2: EL PROC SURVEYMEANS

Este procedimiento SAS produce estimaciones para las medias y totales poblacionales a partir de datos de una muestra.
También produce las varianzas, los límites de intervalos de confianza y otros estadísticos descriptivos. El procedimiento tiene
en cuenta el diseño muestral usado para la muestra que se analiza. El diseño muestral puede ser un M.A.S, un M.A.E, o un
diseño muestral complejo.
24
El procedimiento usa el método de expansión en series de Taylor para estimar los errores muestrales de los estimadores
basados en diseños muestrales complejos. Cuando el diseño es estratificado, el procedimiento combina las estimaciones de
las varianzas del estimador de interés en los estratos para calcular la estimación de la varianza total del estimador global.
a) Estimaciones en M.A.S sin reemplazo

Suponga que se ha tomado una muestra aleatoria simple de tamaño 40 de un marco muestral con 4000 registros. Los datos
recolectados corresponden a gastos semanales (en cientos de pesos) en consumo de helados, de estudiantes de secundaria
en los grados 7, 8 y 9, en cierta ciudad. Además cada individuo en la muestra es clasificado en uno de dos grupos: los que
gastan menos de $1000/semanales y los que gastan más de $1000/semanales en la muestra. A continuación se presenta la
base de datos SAS de la muestra creada con el siguiente programa en SAS, estadísticos descriptivos de la muestra:
data muestra3;
input grado gasto grupo $;
peso_muestreo=100;
cards;
7 7 menos
7 7 menos
8 12 mas
9 10 mas
7 1 menos
7 10 mas
7 3 menos
8 20 mas
8 19 mas
7 2 menos
7 2 menos
9 15 mas
8 16 mas
7 6 menos
7 6 menos
7 6 menos
9 15 mas
8 17 mas
8 14 mas
9 8 menos
9 8 menos
9 7 menos
7 3 menos
7 12 mas
7 4 menos
9 14 mas
8 18 mas
9 9 menos
7 2 menos
7 1 menos
7 4 menos
7 11 mas
9 8 menos
8 10 mas
8 13 mas
7 2 menos
25
9 6 menos
9 11 mas
7 2 menos
7 9 menos
;
run;
proc print data=muestra3;run;

proc means data=muestra3 mean var;
var gasto;
run;

class grado;
var gasto;
run;
proc freq data=muestra3;

tables grupo*grado;
run;
peso_
Obs grado gasto grupo muestreo
1 7 7 menos 100
2 7 7 menos 100
3 8 12 mas 100
4 9 10 mas 100
5 7 1 menos 100
6 7 10 mas 100
7 7 3 menos 100
8 8 20 mas 100
9 8 19 mas 100
. . . . .
. . . . .
. . . . .
37 9 6 menos 100
38 9 11 mas 100
39 7 2 menos 100
40 7 9 menos 100
The MEANS Procedure

Analysis Variable : gasto
Mean Variance
----------------------------
8.7500000 28.8589744
----------------------------
The MEANS Procedure

Analysis Variable : gasto
N
grado Obs Mean Variance
----------------------------------------------------
7 20 5.0000000 11.7894737
8 9 15.4444444 11.5277778
9 11 10.0909091 10.4909091
----------------------------------------------------
26
The FREQ Procedure

Table of grupo by grado
grupo grado
Frequency‚
Percent ‚
Row Pct ‚
Col Pct ‚ 7‚ 8‚ 9‚ Total
------------------------------------
mas ‚ 3 ‚ 9 ‚ 5 ‚ 17
‚ 7.50 ‚ 22.50 ‚ 12.50 ‚ 42.50
‚ 17.65 ‚ 52.94 ‚ 29.41 ‚
‚ 15.00 ‚ 100.00 ‚ 45.45 ‚
------------------------------------
menos ‚ 17 ‚ 0 ‚ 6 ‚ 23
‚ 42.50 ‚ 0.00 ‚ 15.00 ‚ 57.50
‚ 73.91 ‚ 0.00 ‚ 26.09 ‚
‚ 85.00 ‚ 0.00 ‚ 54.55 ‚
------------------------------------
Total 20 9 11 40
50.00 22.50 27.50 100.00
Observe que la variable gastos es cuantitativa en tanto que la variable grupo es cualitativa. En la base de datos de la muestra
también debe incluirse una variable que especifique los pesos de muestreo aplicados a cada elemento, que para un M.A.S es
simplemente   N / n para todas las unidades, en el ejemplo tal variable corresponde a “peso_muestreo” con valor de 100
en todos los registros. Se desea estimar totales, promedios de la variable gasto y total y proporciones de la variable grupo en
cada categoría. Suponga que la muestra es guardada en SAS en un data set llamado MUESTRA3, a continuación se aplica el
proc surveymeans:
PROC SURVEYMEANS data=MUESTRA3 total=4000 NOBS mean sum var clm varsum clsum sumwgt;
var gasto grupo;
weight peso_muestreo;
ods output Statistics=estadist;
run;
donde:
total=4000 indica al procedimiento que el tamaño de la población es de 4000 individuos. También se puede usar N=4000
NOBS solicita que se imprima el número de individuos en la muestra para cada variable analizada.
mean solicita que se imprima el promedio muestral de cada variable analizada.
sum solicita los totales muestrales de las variables analizadas.
var solicita que se imprima la varianza estimada de las medias muestrales para las variables analizadas.
varsum solicita la impresión de la varianza estimada de los totales estimados para las variables analizadas.
clm solicita los límites para los intervalos de confianza de las medias de las variables analizadas. Por defecto se usa un nivel
del confianza del 95%, si se desea modificarlo, por ejemplo un 99%, hay que especificar la opción alpha=0.01.
27
clsum solicita los límites para los intervalos de confianza de los totales de las variables analizadas. Por defecto se usa un
nivel del confianza del 95%, si se desea modificarlo, por ejemplo un 99%, hay que especificar la opción alpha=0.01.
var para especificar sobre cuales variables se realizarán los análisis, para el ejemplo note que se invocan las variables
denominadas gasto y grupo.

sumwgt Solicita la suma de los pesos de muestreo para cada variable analizada.
weight peso_muestreo le indica al procedimiento que los pesos de muestreo de cada unidad de la muestra están en la
base de datos de la muestra, en la variable “peso_muestreo”.

ods output Statistics=estadist indica al SAS que guarde los estadísticos muestrales relativos a las medias de las
variables analizadas, en un data set denominado estadist.
El anterior procedimiento genera la siguiente salida SAS
The SURVEYMEANS Procedure

Data Summary
Number of Observations 40
Sum of Weights 4000
Class Level Information
Class
Variable Levels Values
grupo 2 mas menos
Statistics
Sum of Std Error Lower 95%
Variable N Weights Mean of Mean Var of Mean CL for Mean
------------------------------------------------------------------------------------------------
gasto 40 4000.000000 8.750000 0.845139 0.714260 7.040545
grupo=mas 17 4000.000000 0.425000 0.078761 0.006203 0.265690
grupo=menos 23 4000.000000 0.575000 0.078761 0.006203 0.415690
------------------------------------------------------------------------------------------------
Statistics
Upper 95% Lower 95% Upper 95%
Variable CL for Mean Sum Std Dev Var of Sum CL for Sum CL for Sum
--------------------------------------------------------------------------------------------
gasto 10.459455 35000 3380.555257 11428154 28162 41838
grupo=mas 0.584310 1700.000000 315.045784 99254 1062.759753 2337.240247
grupo=menos 0.734310 2300.000000 315.045784 99254 1662.759753 2937.240247
------------------------------------------------------------------------------------------------
Observe que sobre la variable grupo el procedimiento SAS calcula la proporciones de individuos en cada categoría
(información dada como un promedio), como también los respectivos totales de individuos (información que aparece como una
suma).
Suponga ahora que la muestra del ejemplo anterior fue extraída mediante un diseño estratificado, donde la variable de
estratificación es el grado. Poblacionalmente se tiene los tamaños de cada estrato correspondiendo a 1824 estudiantes del
grado 7, 1025 estudiantes en el grado 8 y 1151 estudiantes en el grado 9. Estos tamaños deben especificarse en el PROC
SURVEYMEANS en la opción total de la declaración en la que se invoca el procedimiento; esto se puede hacer creando un
28
data set en el cual se definen los tamaños poblacionales de cada estrato, en una variable que debe nombrarse por _total_ ,
este data set debe ser especificado en la opción total del PROC SURVEYMEANS. Además, también se requiere que los
pesos de muestreo, que para el diseño estratificado corresponden a  ij  N i / ni , estén definidos dentro de la base datos de
la muestra. A continuación se ilustra el uso del PROC SURVEYMEANS con muestras estratificadas usando la base de datos
de la muestra del ejemplo anterior, para lo cual se crea un nuevo data set que se denominará muestra4, a partir del data
muestra3.
data muestra4 (drop=peso_muestreo);

set muestra3;
if grado=7 then peso_muest=1824/20;
run;
data TOTALES;
input grado _total_;
cards;
7 1824
8 1025
9 1151
;
run;
PROC SURVEYMEANS data=muestra4 total=totales NOBS mean var clm sum varsum clsum sumwgt;
strata grado/list;
var gasto grupo;
weight peso_muest;
run;
Observe que antes de invocar al procedimiento, se crea el data set denominado TOTALES en el cual se ha definido para cada
grado el valor de la variable _total_ . La declaración strata grado/list indica al procedimiento que use como variable
de estratificación a la variable grado. La opción list imprime por pantalla información adicional sobre el diseño estratificado
específico. A continuación se presentan los resultados SAS:

Data Summary
Number of Strata 3
Sum of Weights 4000
Class Level Information

Class
Variable Levels Values
grupo 2 mas menos
29
Stratum Information
Stratum Population Sampling
Index grado Total Rate N Obs Variable N
------------------------------------------------------------------------------------
1 7 1824 1.10% 20 gasto 20
grupo=mas 3
grupo=menos 17
2 8 1025 0.88% 9 gasto 9
grupo=mas 9
grupo=menos 0
3 9 1151 0.96% 11 gasto 11
grupo=mas 5
grupo=menos 6
------------------------------------------------------------------------------------
Statistics
-----------------------------------------------------------------------------------------------
gasto 40 4000.000000 9.141298 0.531799 0.282810 8.063771
grupo=mas 17 4000.000000 0.455445 0.058424 0.003413 0.337068
grupo=menos 23 4000.000000 0.544555 0.058424 0.003413 0.426177
-----------------------------------------------------------------------------------------------
Statistics
-----------------------------------------------------------------------------------------------
gasto 10.218825 36565 2127.196661 4524966 32255 40875
grupo=mas 0.573823 1821.781818 233.695008 54613 1348.270755 2295.292882
grupo=menos 0.662932 2178.218182 233.695008 54613 1704.707118 2651.729245
-----------------------------------------------------------------------------------------------
Observe que el procedimiento calcula las tasas de muestreo, es decir  ij  ni / N i , cuyos valores aparecen bajo el item
“SamplingRate” en forma porcentual. El procedimiento usa los tamaños poblacionales de los estratos especificados en la
opción total= para aplicar el factor de corrección por muestreo de poblaciones finitas en el cálculo de las varianzas
estimadas. Si no se proporciona los tamaños de los estratos o las tasas de muestreo, entonces el procedimiento asume que la
proporción de la población en la muestra es muy pequeña, y por tanto no aplica el factor de corrección por población finita en
los cálculos.
A continuación se presenta un último ejemplo, en el cual se simula un marco muestral de tamaño 2500 registros, donde la
variable de interés es nombrada por x y la variable de estratificación por estrato con 3 niveles identificados como 1, 2, y 3,
cada uno de tamaño 1000, 500 y 1000, respectivamente. Se toma una M.A.E de tamaño 120, distribuida así, 30 unidades en
el estrato 1, 20 en el estrato 2 y 70 en el estrato 3.
data simul;
estrato=1;
do i=1 to 1000;
x=500+10*normal(0);
output;
end;
30
estrato=2;
do i=1001 to 1500;
x=100+12*normal(0);
output;end;
estrato=3;
do i=1501 to 2500;
x=800+10*normal(0);
output;
end;
run;
proc surveyselect data=simul method=srs n=(30 20 70) seed=1953 out=muestra1;

strata estrato;
run;

class estrato;
var x;
run;
data totales_estratos;
input estrato _total_ @@;
cards;
1 1000 2 500 3 1000
;
RUN;
proc surveymeans data=muestra1 total=totales_estratos NOBS mean var clm sum varsum clsum
sumwgt;
strata estrato/list;
var x;
weight SamplingWeight;run;
The MEANS Procedure

Analysis Variable : x
N
estrato Obs Mean Variance
---------------------------------------------------
1 30 499.2023012 136.7242790
2 20 100.2417032 158.5128399
3 70 799.7962424 147.1919967
---------------------------------------------------

Data Summary
Number of Strata 3
Sum of Weights 2500
Stratum Information
Stratum Population Sampling
Index estrato Total Rate N Obs Variable N
---------------------------------------------------------------------------------
1 1 1000 3.00% 30 x 30
2 2 500 4.00% 20 x 20
3 3 1000 7.00% 70 x 70
---------------------------------------------------------------------------------
31
Statistics
--------------------------------------------------------------------------------------------------
x 120 2500.000000 539.647758 1.150892 1.324553 537.368476
--------------------------------------------------------------------------------------------------
Statistics
--------------------------------------------------------------------------------------------------
x 541.927040 1349119 2877.230714 8278457 1343421 1354818
--------------------------------------------------------------------------------------------------
BIBLIOGRAFÍA
Scheaffer, R. L, Mendehall W. y Lyman O., R (2007) Elementos de Muestro. 6 ed. Thomson, México D. F.
Lohr, S. L. (2000). Muestreo: Diseño y Análisis.International Thomson Editores, México D.F.
Ospina, D. (2001). Introducción al Muestreo. Departamento de Matemáticas y Estadística, Facultad de Ciencias, Universidad
Nacional de Colombia, Bogotá.
Särndal, C. E., Swenson, B. y Wretman, J. (1992). Model Assisted Survey Sampling. Springer-Verlag, New York.
SAS Institute Inc., SAS/STAT® User’s Guide, Versión 8, Cary, NC: SAS Institute Inc., 1999. Chapter 61.
SAS Institute Inc., SAS/STAT® User’s Guide, Versión 8, Cary, NC: SAS Institute Inc., 1999. Chapter 63.
32

Elementos Basicos de Muestreo Estii 012010

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Elementos Basicos de Muestreo Estii 012010

Diunggah oleh

Hak Cipta:

Format Tersedia

Introducción al Muestreo, Estadística II Prof. Nelfi González A.

ELEMENTOS BÁSICOS DE MUESTREO

3. p  s  debe ser conocida y preestablecida como parte del diseño.

2. Importancia del muestreo

 Cuando el proceso de medición es destructivo.

3. Pasos para el diseño de investigaciones por muestreo (Ospina, 2001)

3.1 El diseño muestral

Para la selección del diseño muestral se debe tener en cuenta:

3.2 Determinación de las mediciones a realizar

3.3 El trabajo de campo

3.4 El análisis estadístico

 Organización en forma sistemática: Alfabética, geográfica, por tamaño, etc.

 La varianza poblacional  2 de la distribución de una variable de interés

necesario considerar el error estándar del estimador , donde es la varianza de ˆ . También es

necesario fijar un límite para el error absoluto de estimación: , es decir .

5. Sesgos y errores en el muestreo

En cuanto a los errores en el muestreo, estos pueden ser:

6. Diseños muestrales o métodos de muestreo

6.1 Muestreo aleatorio simple sin reemplazo o irrestrictamente aleatorio

6.1.1 ¿Cómo obtener una muestra aleatoria simple sin reemplazo?

6.1.2 ¿Cuántas unidades muestrear?

Para el cálculo de n se toma como base la aproximación normal:

Z / 2 EE ˆ  , es decir, , por tanto tomamos B  Z /2 EE ˆ  . Recuerde que

EE ˆ   V ˆ   es el error estándar del estimador ˆ y Z / 2 es el percentil 1   / 2  100% de la distribución normal

estándar. Para un nivel de confianza del 95% tomamos B  2  EE ˆ  .

6.2 Muestreo aleatorio estratificado o M.A.E (sin reemplazo)

Recordar que es condición necesaria para una buena estratificación que

6.2.1 Idea básica del M.A.E

Para efectos de muestreo y estimación se procede de la siguiente manera:

4. Se obtienen las estimaciones de los parámetros de interés en cada estrato.

En la figura 1 se esquematiza el procedimiento de muestreo y estimación descrito.

M.A.S SOBRE CADA ESTRATO, ESTIMACIONES DE PARÁMETROS

COMBINAR PARA OBTENER LAS RESPECTIVAS

Figura 1. Procedimiento de muestreo y estimación en M.A.E

ESTIMADORES E INTERVALOS DE CONFIANZA

y por M.A.S sin reemplazo, en cada estrato, se tienen:

6.2.3 Tamaños de muestra en M.A.E para estimación de medias y totales poblacionales

con cuando se estima  y cuando se estima . En la tabla siguiente aparecen diferentes

Determinación de n para estimación de la media poblacional 

Para V  y st  prefijada en , tenemos

Determinación de n para estimación de la media poblacional  (continuación)

usamos multiplicadores de Lagrange para hallar los ni que y calcular:

observe que en este caso la fracción de afijación es .

En este caso la fracción de afijación es

Luego, la afijación óptima corresponde a:

En este caso la fracción de afijación corresponde a

Para prefijada en , tenemos, Para prefijada en , tenemos,

En este caso, la fracción de afijación es

 Afijación óptima para costos variables para estimación de proporciones:

La fracción de afijación en este caso corresponde a

De nuevo, el procedimiento a seguir es

Considere el estimador del total de una variable ˆ st  

El peso de muestreo corresponde a la constante  ij  N i / ni y puede interpretarse como el número de unidades en la

estrato i. Por tanto el peso de muestreo es el inverso de esta probabilidad.

ANEXO 1: EL PROC SURVEYSELECT

a) M.A.S sin reemplazo

PROC SURVEYSELECT data=CLIENTES method=srs n=100 seed=39647 out=MUESTRA1;

seed=39647 es opcional. Con ella se fija la muestra en la correspondiente a la semilla 39647.

n=100 indica el tamaño de la muestra. En vez de n= puede usarse la opción sampsize= .

out=MUESTRA1 especifica que la muestra seleccionada se guarde en un data llamado MUESTRA1.

The SURVEYSELECT Procedure

b) M.A.E sin reemplazo

PROC SORT data=CLIENTES;