Anda di halaman 1dari 50

Muestreo

Tipos de muestreo

Álvaro José Flórez


1 Escuela de Ingeniería Industrial y Estadística
Facultad de Ingenierías

Febrero - Junio 2012


Introducción

Todos los métodos probabilísticos de muestreo están soportados por


la estructura del azar. Una gran ventaja de esto es que elimina la
subjetividad que podría influir en la elección de las unidades que
integrarán la muestra.

El hecho de que una muestra esté basada en la probabilidad permitirá


la aplicación de la inferencia estadística haciendo que las conclusiones
obtenidas tengan validez.
¿Por qué muestrear?
En muchas investigaciones sobre una población determinada es
necesario el uso de la metodología del muestreo para llevarla a cabo.
Algunas de las razones para ello pueden ser
• Población objeto de estudio es infinita o muy grande
• La observación de la característica analizada pone en peligro la
existencia de la unidad misma.
• Costo de medición.
• Acceso a las unidades de estudio.
• La población es suficientemente homogénea como para que
cualquier muestra dé una buena representación.
Las muestras deben estar basadas en un diseño probabilístico de
muestreo para inferir, de forma válida, dicha característica sobre la
población con un margen de error y nivel de confianza.
¿Por qué muestrear?

Error Muestral:
Diferencia entre la realidad (parámetro) y la estimación basada en la
muestra.

Error no muestral:
Se genera por el procedimiento del censo o muestreo durante la
operación de recolección.

Ejemplo: preguntas mal formuladas, mediciones mal realizadas,


marcos muestrales imperfectos e inadecuados.
Algunas definiciones

Población objeto de estudio


En la determinación de una población objeto suelen intervenir tres
elementos fundamentales que a su vez determinan la validez del
estudio. El tiempo, el espacio y las características que deben cumplir
las unidades que serán medidas.

Marco Muestral
Medio físico o digital que permite ubicar e identificar las unidades
que pertenecen a la población objeto de estudio en una investigación.

El muestreo probabilístico necesita dar a cada unidad de la población


objeto de estudio una probabilidad diferente de cero para que sea
seleccionada en la muestra que finalmente será estudiada o medida.
Algunas definiciones
Unidad de estudio
Es cada uno de los elementos de la población objeto sobre los cuales
se realizan las mediciones u observaciones.

Unidad de muestreo
Es cada uno de los elementos que componen la población
muestreada. Estas unidades cubren la población objeto y cada
elemento de esta debe pertenecer a una sóla unidad de muestreo.

Ejemplo:
En un estudio para medir la incidencia de cierta enfermedad en cierto
periodo de tiempo, en una determinada comunidad, es mas simple tomar
una muestra de hogares que de personas. Los primeros generalmente
pueden ser identificados con la ayuda de mapas o registros municipales,
mientras que una identificación previa de las personas resulta ser más
complejo.
¿De que depende el tamaño de una
muestra?

• La precisión.
• el nivel de confianza.
• la variabilidad de la característica de interés.
• No depende directamente del tamaño de la población. a
medida que crece la población, su tamaño pierde influencia
sobre el tamaño de la muestra
¿De que depende el tamaño de una
muestra?

N n
100

50 33
75 42
80

100 49
Tamaño de muestra (n)

60

200 66
40

500 82
1000 89
20

5000 96
0

0 2000 4000 6000

Tamaño de la población (N)


8000 10000
10000 97
Tipos de muestreo

Muestreo Probabilístico
Todas las unidades seleccionadas para la muestra, tienen una
probabilidad conocida de inclusión en ella y su selección se realiza
mediante un proceso aleatorio. Algunos métodos de muestreo
probabilístico son:
• Muestreo Aleatorio Simple (MAS)
• Muestreo Aleatorio Estratificado (MAE)
• Muestreo Sistemático (MSIS)
• Muestreo por Conglomerados (MCON)
• Muestreo Multietápico
Muestreo Aleatorio Simple (MAS)

Se desea extraer un subconjunto de tamaño definido n de una


población de tamaño N . En un MAS se debe garantizar que todos los
posibles subgrupos de tamaño n de dicha población, tenga la misma
probabilidad de ser seleccionados.

Cada unidad de la población tiene la misma posibilidad de ser elegida


que las demás para integrar la muestra

La selección de una unidad cualquiera de la población no influye a la


selección de otra unidad.
Muestreo Aleatorio Simple (MAS)

Características

• La selección de unidades requiere de un marco de muestreo.


• Cada elemento de la población tiene la misma probabilidad de
selección (idéntica y conocida).
• La muestra se toma mediante un procedimiento aleatorio.
• Eficiente en poblaciones homogéneas.
• El procedimiento de selección es fácil.
Muestreo Aleatorio Simple (MAS)

Inconvenientes

• La construcción de un marco muestral puede ser muy compleja


(costosa) en muchas situaciones.
• Puede ser que no en todos los casos se obtenga una muestra
representativa (poblaciones muy heterogéneas).
• Los errores de muestreo puede ser muy elevado en caso de que
la población sea muy heterogénea.
Muestreo Aleatorio Simple (MAS)

Procedimiento para seleccionar una muestra:


1 Seleccionar un marco de muestreo adecuado.
2 Asignar a cada elemento de la población un número de 1 hasta
N.
3 Generar n números aleatorios diferentes comprendidos en el
intervalo.
4 Los números así generados indican los elementos o unidades de
la población que debemos incluir en la muestra.
Muestreo Aleatorio Simple (MAS)

Si el parámetro a estimar es la media poblacional µ entonces su


estimador es x̄

Expresión de precisión:
Mediante esta se establece por parte del investigador el máximo error
de muestreo permitido.

|x̄ − µ| ≤ δ Error de muestreo


Expresión de confiabilidad
Esta expresión establece para la precisión definida un nivel de
confianza determinado

P (|x̄ − µ| ≤ δ) = 1 − α
Muestreo Aleatorio Simple (MAS)

Si se supone que la variable aleatoria x̄ se distribuye normal, entonces


se puede estandarizar en la expresión:
!
|x̄ − µ| δ
P p ≤p =1−α
var(x̄) var(x̄)
Ecuación fundamental:

δ
z1−α/2 = p
var(x̄)
Muestreo Aleatorio Simple (MAS)

Si se utiliza como estimador de var(x̄) a:

2 N
SN n 2 1 X
var(x̄) = (1 − f ) , donde f = , SN = (xi − X̄)
n N N −1
i=1
Muestreo Aleatorio Simple (MAS)

Si se utiliza como estimador de var(x̄) a:

2 N
SN n 2 1 X
var(x̄) = (1 − f ) , donde f = , SN = (xi − X̄)
n N N −1
i=1

El tamaño de muestra puede ser calculado como:


n0 S2 2
SN es una cantidad
n= ; n0 =  N  2 desconocida que debe
1 + n0 /N δ
zα/2 estimarse

El diseño óptimo de la muestra, en particular la determinación


previa de su tamaño óptimo, sólo podría conseguirse a partir del
conocimiento de la población. Paradoja de Friedman
Muestreo Aleatorio Simple (MAS)

¿Cómo se estima la varianza poblacional para la variable


analizada (SN2 ) de forma adelantada?
Muestreo Aleatorio Simple (MAS)

¿Cómo se estima la varianza poblacional para la variable


analizada (SN2 ) de forma adelantada?

• Mediante el uso de un estudio piloto aplicado sobre la


población objetivo.
• Por conocimiento parcial de la distribución de la característica
analizada (distribución).
• Mediante el juicio de expertos, los cuales se basan en estudios
similares.
Muestreo Aleatorio Simple (MAS)

En un MAS el tamaño de muestra se determina como (en caso que se


quiera estimar µ):


 n0 si n0
< 0,05 S2
N n0 =  2
n= δ
n0 n0 zα/2
 n
1+ N0
si N ≥ 0,05
Muestreo Aleatorio Simple (MAS)

En un MAS el tamaño de muestra se determina como (en caso que se


quiera estimar µ):


 n0 si n0
< 0,05 S2
N n0 =  2
n= δ
n0 n0 zα/2
 n
1+ N0
si N ≥ 0,05

• A mayor nivel de confianza, más grande es el tamaño de la muestra


• El máximo error tolerable influye inversamente en el tamaño de la
muestra.
• Entre más heterogénea sea la población, el tamaño de muestra
requerido será mayor.
Muestreo Aleatorio Simple (MAS)
A mayor nivel de confianza, más grande es el tamaño de la muestra
100
90
Tamaño de muestra (n)

80
70
60

0.80 0.85 0.90 0.95

Nivel de Confianza
Muestreo Aleatorio Simple (MAS)
El máximo error tolerable influye inversamente en el tamaño de la
muestra
400
Tamaño de muestra (n)

300
200
100

0.0 0.2 0.4 0.6 0.8 1.0

Error de Estimación
Ejemplo

En una comunidad integrada por 20000 casas se desea estimar el


consumo promedio mensual de gas por vivienda con un nivel de
confianza del 95 % y un error de muestreo de δ = 6.95m3 .

Estudios anteriores para dicha comunidad permiten suponer que para


el consumo mensual de gas en dicha comunidad Ŝ 2 = 1255.

¿Qué tamaño de muestra será necesario en este caso para llevar a


cabo la correspondiente estimación?
Ejemplo

En un lote de frascos para medicina, con una población de 8000


unidades, se desea estimar la media de la capacidad en centímetros
cúbicos de los mismos. A través de un premuestreo de tamaño 35 se
ha estimado que la desviación estándar es de 2cms3 . Si se quiere
tener un error de muestreo máximo de 0.25cms3 y un nivel de
confianza del 95 %. ¿De que tamaño debe de ser la muestra?
Ejemplo

En un lote de frascos para medicina, con una población de 8000


unidades, se desea estimar la media de la capacidad en centímetros
cúbicos de los mismos. A través de un premuestreo de tamaño 35 se
ha estimado que la desviación estándar es de 2cms3 . Si se quiere
tener un error de muestreo máximo de 0.25cms3 y un nivel de
confianza del 95 %. ¿De que tamaño debe de ser la muestra?

Si sólo se esta dispuesto a muestrear 200 frascos,

¿Cuál es el error de muestreo que se estaría asumiendo?


(manteniendo el nivel de confianza del 95 %)
Si se desea mantener el error de muestreo en 0.25cms3 , ¿Cuál es el
nivel de confianza de la muestra? (asuma normalidad de la población)
Muestreo Aleatorio Simple (MAS)

Si el parámetro a estimar es una proporción poblacional(P ) entonces


su estimador es la proporción muestral p̂ y su varianza es:
 
N − n P (1 − P )
var(p̂) =
N −1 n
Por lo cual el tamaño de muestra puede calcularse de la siguiente
forma:

n0 P (1 − P )
n= ; n0 =  2
1 + (n0 − 1)/N δ
zα/2

En situaciones prácticas se decide tomar P =0.5 para resolver el problema de su


no-conocimiento (dicho valor produce la máxima varianza del estimador de P ,
cuando los otros factores que la determinan están constantes)
Muestreo Aleatorio Simple (MAS)

Los pacientes que siguen tratamientos antidepresivos tienen alta


probabilidad de abandonar dichos tratamientos y, por lo tanto,
tener nuevas recaídas. En el hospital en donde se atendieron 600
pacientes con un nuevo fármaco denominado venlafaxina, el cual es
suministrado una sola vez al día, se desea estimar el porcentaje de
pacientes que abandonaron el tratamiento con un error del 6 %. Se
cree para este tipo de pacientes que el porcentaje de abandono para
el tratamiento está alrededor del 30 %.

¿Cuántos pacientes tratados con el nuevo fármaco deben de


investigarse para determinar el verdadero valor de P con un nivel de
confianza del 95 %, en dicho hospital?
Muestreo Aleatorio Estratificado

Realizar un muestreo en una población muy heterogénea utilizando


un MAS requiere grandes esfuerzos para alcanzar cierto nivel de
precisión.

En algunas ocasiones, la característica de interés tiene


comportamientos distintos (en promedio) con respecto a subgrupos
poblacionales. Si esto ocurre, es posible mejorar la precisión de las
estimaciones tomando muestras independientes en cada unos de los
subgrupos (Estratos).

Algunas variables típicas de estratificación son del tipo regional


(municipio, departamento), demográfico (género o grupo de edad) y
socioeconómico (grupo dei ingresos).
Muestreo Aleatorio Estratificado

Algunas consideraciones del MAE

Se supone que la variabilidad Entre los estrato es grande mientras que


dentro de ellos existe poca variabilidad, en relación con la variable
que se está estudiando.

La definición de cada estrato no establece ambigüedades y las


unidades de cada estrato se pueden listar

La selección dentro de cada estrato se hace mediante un MAS.


Muestreo Aleatorio Estratificado

Características

• Más eficiente para poblaciones heterogéneas.


Al dividir una población heterogénea se busca que, el error
cometido al muestrear estos estratos sea menor. El error total
derivado de los estratos puede ser menor que si no se realiza la
estratificación
• Las estimaciones basadas en la muestra estratificada,
usualmente tienen mayor precisión (o menor error muestral)
que si utilizamos un MAS con toda la población.
• Se debe disponer de una(s) característica(s) muy precisas o
adecuadas para la división de la población en estratos
altamente homogéneos.
Muestreo Aleatorio Estratificado

Si la población se divide en L estratos y el parámetro a estimar es la


media poblacional, entonces su estimación es:
L L
1 X X
X̄Es = X̄h Nh = Wh X̄h
N
h=1 h=1

y su varianza es:
L L
X X Sh2
V (X̄Es ) = Wh2 V (X̄h ) = Wh2 (1 − fh )
nh
h=1 h=1

Donde X̄h y Sh2 son el promedio y la varianza de X en el estrato h.


Muestreo Aleatorio Estratificado

El tamaño de muestra en el MAE se determina de la siguiente forma:


PL Wh2 Sh2
n0 h=1 wh
n= n0 =
1 + n0 /N V0
Nh
Donde Wh = N ,wh es un valor que depende de la forma de
 2
asignación de n a cada estrato y V0 = z δ es la varianza
α/2
deseada.

Si n0 es menor al 5 % de la población, entonces n = n0


Muestreo Aleatorio Estratificado
Una entidad gubernamental está interesado en estimar, entre otras
variables, la ganancia media de las empresas del sector industrial de una
ciudad en el último año fiscal (N = 2396). Como se sabe que ganancias
de las empresas puede tomar valores muy variables, la entidad decide
dividir las empresas según su tamaño, como Pequeña (N1 = 1576), Media
(N2 = 737) y Grande (N3 = 83). Esta clasificación la realizan en base
a información disponible de los impuestos declarados por cada empresa 1 .
Se quiere determinar la ganancia media de los ingresos con un nivel de
confianza del 95 % y un margen de error de 20 unidades

1
Gutiérrez, H. A. (2009), Estrategias de muestreo: Diseño de encuestas y
estimación de parámetros
Muestreo Aleatorio Estratificado
Una entidad gubernamental está interesado en estimar, entre otras
variables, la ganancia media de las empresas del sector industrial de una
ciudad en el último año fiscal (N = 2396). Como se sabe que ganancias
de las empresas puede tomar valores muy variables, la entidad decide
dividir las empresas según su tamaño, como Pequeña (N1 = 1576), Media
(N2 = 737) y Grande (N3 = 83). Esta clasificación la realizan en base
a información disponible de los impuestos declarados por cada empresa 1 .
Se quiere determinar la ganancia media de los ingresos con un nivel de
confianza del 95 % y un margen de error de 20 unidades

Luego de tomar una muestra piloto de compañias de cada tamaño se


observó que:

Tamaño n x̄ S2
Pequeña 20 258.25 10716.93
Mediana 10 635.1 14901.21
Grande 5 14901.21 28226.8

1
Gutiérrez, H. A. (2009), Estrategias de muestreo: Diseño de encuestas y
estimación de parámetros
Asignación de la muestra

Una vez determinado el tamaño de la muestra n, se debe definir o


asegurar la participación
P en dicha muestra de todos los estratos. Se
de cumplir que n = L h=1 nh

La forma de repartir la muestra n en cada estrato incide en la


precisión del estimador, lo idea es que se escoja la repartición que de
la menor varianza del estimador. Algunas de estas asignaciones son:
• Uniforme
• Proporcional
• De mínima varianza (Neyman)
• Óptima (depende de los costos de tomar una muestra)
Asignación de la muestra

Asignación Uniforme:
Consiste en asignar el mismo número de unidades muestrales a cada
estrato.
n
nh = ∀h
L
Da la misma importancia a todos los estratos, en cuanto al tamaño
de la muestra.
Favorece a los estratos de menor tamaño y perjudica a los grandes,
en cuanto a precisión.

En este caso:
1
wh =
L
Asignación de la muestra
Asignación Proporcional:
se reparte la muestra final en entre los estratos de forma proporcional
al tamaño de estos.

Nh
nh = n
N
Estrato más grande muestra más grande, estrato más pequeño
muestra más pequeña.
la indicada cuando no tenemos información sobre la distribución de
la característica en estudio.

En este caso:

Nh
wh =
N
Asignación de la muestra

Asignación de mínima varianza:


se reparto la muestra de forma que para un tamaño fijo de n, la varianza
sea mínima. Cuanto mayor sea la variabilidad de estrato, más elementos se
seleccionan en la muestra de tal forma que la varianza global sea mínima.
!
Wh S h
nh = n PL
h=1 Wh Sh

Estrato más heterogéneos obtienen muestra más grande, estrato más


homogéneos muestra más pequeña.
la indicada cuando no la variabilidad de cada estrato es muy diferente.

En este caso:
Wh Sh
wh = PL
h=1 Wh Sh
MAE para una proporción

Si el parámetro a estimar es una proporción poblacional (P) entonces


su estimador es:
L L
1 X X
p̂Es = Nh p̂h = Wh p̂h
N
h=1 h=1

Donde L es el número de estratos y p̂h es la proporción estimada en


el estrato h. La varianza del estimador p̂Es :
L
1 X Nh2 (Nh − nh ) Ph (1 − Ph )
 
Var(p̂Es ) = 2
N Nh − 1 nh
h=1
MAE para una proporción
El tamaño de muestra para estimar P por medio de un MAE se
calcula como:
 
2 Nh Ph (1−Ph ) /w
PL
h=1 W h Nh −1 h
n0 =
V0
Nh
Donde Wh = N , wh es un valor que depende de la forma de
 2
asignación de n a cada estrato y V0 = z δ es la varianza
α/2
deseada.


n0
 n0
 si N < 0,05
n=
n0 n0

 n
1+ N0
si N ≥ 0,05
MAE para una proporción

Asignación Uniforme:
n 1
nh = ∀h ∴ wh = ∀h
L L
Asignación Proporcional:

nh = nWh ∴ wh = W h
Asignación Mínima varianza:

 q   q 
Nh Ph (1−Ph ) Nh Ph (1−Ph )
Wh Nh−1 Wh Nh−1
nh = n  P q  ∴ wh =  q 
L Nh Ph (1−Ph ) P L Nh Ph (1−Ph )
h=1 Wh Nh−1 h=1 Wh Nh−1
Ejemplo

El transporte urbano destinado al servicio público en una gran


ciudad está compuesto por 3000 taxis y 2000 buses. La secretaría de
Tránsito y Transporte de dicha ciudad desea estimar la proporción
de vehículos de servicio público que son conducidos por sus dueños
exclusivamente. Se cree que el porcentaje puede ser del 20 % para
buses y del 40 % para taxis. Determine el número de buses y de taxis
que se deben revisar para encontrar tal estimación con un nivel de
confianza del 95 % y un margen de error máximo tolerable del 6
Muestreo Sistemático

Una muestra sistemática es obtenida cuando los elementos son


seleccionados en una manera ordenada, donde se suponen que el marco
muestral está ordenado de una forma particular. En lugar de extraer n
números aleatorios sólo se extrae uno, se parte de ese número aleatorio
i, y los elementos que integran la muestra son los que ocupan los lugares
i, i + k, i + 2k, . . . , i + (n − 1)k, se toman individuos de k en k.

Este método es frecuentemente utilizado por la facilidad que proporciona


en lo que respeta a la selección de la muestra. Su aplicación requiere que la
población tenga una secuencia ordenada para poder seleccionar la muestra
a intervalos constantes.

una muestra sistemática puede dar la misma precisión de estimación acerca


de la población, que una muestra aleatoria simple cuando los elementos en
la población están ordenados al azar.
Ejemplo

Con el objetivo de medir el nivel de contaminación de metales pesados


en un terreno de forma irregular aledaño a una empresa industrial la cual
deposita en él sus desechos industriales, se ha levantado un plano del
terreno y en el se ha construido una rejilla que permite dividirlo en 40
unidades muestrales de determinada área. Se selecciona una muestra de
tamaño 8 de cinco en cinco partiendo de la unidad #3 y siguiendo la ruta
estipulada. Finalmente las 8 muestras de lodo son enviadas al laboratorio
para su respectivo análisis.
N
k=
n
El punto i que se
emplea como punto
de partida será un
numero al azar entre
1yk
Muestreo Sistemático
Ventajas

• Extiende la muestra a toda la población.


• Recoge el posible efecto de estratificación debido al orden en
que figuran las unidades de la población.
• Fácil aplicación. No es necesario un listado de toda la
población

Desventajas

• La posibilidad de aumento de la varianza si existe periodicidad


en la población.
• No hay independencia en la selección de unidades en las
distintas zonas, ya que las unidades extraídas en cada zona
dependen de la seleccionada en la primera zona.
Muestreo por Conglomerados

En un muestreo por conglomerados, la población se divide en


unidades o grupos, que deben ser lo más representativas posibles de
la población, es decir, cada grupo debe representar la heterogeneidad
de la población objeto de estudio y ser entre sí homogéneos.

Los conglomerados deben ser tan heterogéneos como la población,


en relación a las variables estudiadas, y entre si homogéneos.

Para obtener una muestra bastará con seleccionar aleatoriamente


algunos conglomerados.
Muestreo por Conglomerados
Procedimiento para seleccionar una muestra:
• Dividir la población en conglomerados no excesivamente
grandes. Esta división se realiza habitualmente atendiendo a
divisiones geográficas, administrativas, o de otro tipo.
• Considerar el conjunto de conglomerados como una nueva
población, procediendo a la selección de m conglomerados
mediante un MAS
• Se realizan las mediciones de la variable bajo estudio en todos
los individuos de los conglomerados seleccionados
El muestreo bietápico es un caso particular de muestreo por
conglomerados en el que en la segunda etapa no se seleccionan
todos los elementos del conglomerado, sino que se seleccionan un
determinado número de elementos de cada conglomerado de manera
aleatoria
Ejemplo

En una fábrica de refrescos se desea medir el contenido promedio de


líquido por botella, para mantener el estándar de calidad. El producto
se empaca en canastilllas de 12 unidades cada una. Para tal propósito
se toma una muestra aleatoria de 5 cajas de refrescos y se determina
en cada una de las botellas de cada caja el contenido exacto de
líquido
Muestreo por Conglomerados
Ventajas

• Es eficiente cuando la población es muy grande y dispersa.


Reduce costos.
• No es preciso tener un listado de toda la población sino de las
unidades (conglomerados) por los que se agruparán.

Desventajas

• El error es mayor que cuando se utilizan otras técnicas de


muestreo, pero su valor práctico lo hace muy popular.
• Calculo del error de muestreo es complejo.
• Si los conglomerados no reproducen exactamente la
variabilidad de la población, los errores al extrapolar los
resultados de la investigación serán mayores.

Anda mungkin juga menyukai