Muestreo
1 Poblaciones.
La definición estadística de población, no incluye solamente a poblaciones de individuos u objetos, sino que
considera poblaciones de valores numéricos obtenidos al medir una o más características de personas u objetos
como la altura o peso de individuos, el diámetro de tuercas producidas por una fábrica; o pueden consistir de
todos los valores posibles que se puede conseguir cuando se hacen observaciones repetidas, como sería el caso
de registrar el número de caras o sellos al lanzar una moneda mil veces.
El principal objetivo de la inferencia estadística es sacar conclusiones a partir de la muestra, sobre poblaciones.
En consecuencia, es de fundamental importancia especificar o definir la población con la que estamos trabajando.
Muchas veces, la población para la que se han obtenido ciertas inferencias, difiere en algún aspecto importante
de la población que produjo los datos en los que se basó la inferencia.
Siempre existe riesgo cuando se generalizan conclusiones para una población amplia, partiendo de una
población limitada o que no es representativa de aquella. Cuando se realizan pruebas de adaptación de una
nueva variedad en varias localidades o haciendas, dentro de un cantón o provincia, tendremos seguridad de
recomendarla -si los resultados fueron satisfactorios- para las localidades o haciendas en las que se hizo el ensayo.
Sería peligroso generalizar las conclusiones y afirmar que la nueva variedad puede sembrarse indistintamente en
todo el cantón o provincia. Esto es así por cuanto conocemos la variabilidad de suelos, clima, prácticas culturales
que existen dentro de un mismo cantón o provincia.
Para estudios de tipo sociológico, industrial, económico, etc., nos interesa obtener una muestra representativa y
suficiente -que refleje lo más exactamente que sea posible las características de la población para la que se sacará
conclusiones- si vamos a tener confianza en las predicciones. Cuando se trata de establecer, por ejemplo, la edad
promedio de los estudiantes de la Universidad, o los ingresos de sus padres para adoptar una decisión de carácter
económico, debemos realizar un muestreo estratificado formando clases o grupos con características similares
dentro de cada uno.
2 Muestras.
Cuando queremos obtener datos sobre una población cualquiera, sería ideal si pudiéramos analizar cada elemento
de la población. En la mayoría de los casos, tal procedimiento sería descartado por razones de tiempo y costo,
principalmente. Por otro lado, no se justificaría debido a que, en la práctica, pueden obtenerse resultados
precisos, en forma rápida y con menor costo, estudiando solo una parte de la población. Esta parte de la población
constituye la muestra.
3 Estimación.
En general, debido a que difícilmente se puede estudiar y analizar una población íntegra, desconocemos el valor
real de los parámetros de la distribución teórica de la que suponemos que los datos tomados por nosotros
constituyen una muestra. Aspiramos entonces, a que la muestra tomada sea un estimado ¡nsesgado (no viciado,
confiable) de los valores poblacionales o paramétricos.
Por ejemplo, cuando se cumple con lo que dice el teorema del límite central, la media de la muestra 𝑋̅ es un
estimador de la media poblacional µ; la desviación típica de la muestra s, es un estimador de la desviación típica
de la población 𝜎.
El teorema, en su forma más simple, dice: si se seleccionan muestras al azar de una población determinada,
conforme aumenta el tamaño de la muestra, la distribución se aproxima a la distribución normal. Es decir que
podemos hacer uso de la teoría sobre distribuciones normales y de distribuciones de muestreo derivadas de
poblaciones normales, con el objeto de obtener inferencias acerca de la población involucrada, sin tomar en
cuenta la forma o tipo de ésta, con tal de que el tamaño de la muestra sea suficientemente grande. El tamaño de
la muestra que puede considerarse suficiente en una situación dada, depende del grado en que la población
involucrada se desvía de la normalidad.
5 Tipos de muestreo.
Sabemos que, a partir de la muestra, se obtienen generalizaciones sobre la población. La exactitud de aquellas
depende del cuidado con que se diseña y ejecuta el análisis muestral.
Trabajar con la muestra no solo reduce el tiempo sino el costo de obtener la información. Por ser imposible o
impráctico trabajar con la población total, se han creado diseños muéstrales, algunos de los que se trata
seguidamente.
El diseño de muestreo es un plan que especifica cómo se seleccionará la muestra que se ha de extraer de una
población dada.
En general, las poblaciones pueden ser finitas o infinitas. Las casas de un barrio, los agricultores de una parroquia,
el número de cabezas de ganado de una hacienda, son ejemplos de poblaciones finitas.
Poblaciones infinitas se asocian con algún proceso repetitivo como el de lanzar una moneda, que puede dar caras
o sellos, en forma indefinida; también constituyen poblaciones infinitas, los individuos u observaciones cuyo
contaje o mensuración sería difícil o imposible de establecer: las bacterias Azotobacter del suelo.
La selección de muestras aleatorias de una población finita, puede ser una tarea larga y tediosa. Supongamos que
se desea estimar la edad promedio de los estudiantes de la politécnica; una persona podría instalarse en la puerta
principal y preguntar la edad de cada 100 estudiantes que entren. Esta no sería una muestra aleatoria porque la
probabilidad de usar esa puerta es mayor para cierto grupo de estudiantes que para otros.
También se podría telefonear, una determinada noche, al 10% de alumnos que habitan en una Residencia
Universitaria; esta tampoco sería una muestra aleatoria, porque es posible que estudiantes de ciertos cursos
tengan mayor acceso a la Residencia o porque determinados grupos de estudiantes no permanezcan en ella las
noches.
Una manera de lograr una muestra aleatoria, sería conseguir una lista completa de todos los estudiantes
matriculados, asignar un número a cada uno, anotarlos en pedazos de papel y, luego de colocarlos en una caja,
seleccionar los números, reponiéndolos cada vez y mezclando los papeles antes de cada extracción. Esta sería una
verdadera muestra al azar, para la que estaríamos trabajando con todo el universo o población. El proceso, claro
está, duraría varios días y sería impráctico y tedioso dado el alto número de estudiantes que conforman la
población universitaria. Este tipo de muestreo sería utilizable cuando se trata de poblaciones pequeñas, bien
definidas; las rifas o sorteos, como el juego de lotería de Guayaquil emplean muestreos aleatorios simples, en los
que la población está constituida por los números cero a nueve, para cada una de las cinco fichas que dan los
diferentes premios.
Supongamos que el rector de una escuela quiere determinar el coeficiente intelectual de los estudiantes, a partir
de una muestra aleatoria. Al efecto, decide usar la media aritmética y una muestra al azar formada por los datos
contenidos en 50 tarjetas de archivo; el total de alumnos es de 1.000. En este caso, el rector estaría trabajando
con 5% del estudiantado. Por cuanto sería impráctico emplear pedazos de papel en los que se halle el número de
cada uno de los alumnos, de acuerdo con el listado de archivo, resulta más fácil recurrir a una tabla de números
randomizados. Dicha Tabla está formada por dígitos obtenidos al azar, mecánicamente, de tal modo, que cuando
seleccionamos una serie de aquellos, podemos tener confianza de que al hacerlo estamos obteniendo una
verdadera muestra al azar, sin que intervenga el criterio o preferencia de la persona al realizar el sorteo.
Supongamos que se elige como punto de partida la primera columna de la Tabla respectiva; por cuanto el listado
de archivo irá de 001 a 1.000 (la población total con la que estamos trabajando), vamos a escoger 50 series de
tres números cada una. El primer número que aparece en la primera columna es el 039; por tanto se incluirá en
la muestra la tarjeta No 39; la segunda será la No 385, luego la 175 y así sucesivamente, hasta completar las 50
tarjetas. Este tipo de muestras fue muy simple: la población era relativamente pequeña y estaba bien definida y
fue fácil asegurarse de que cada elemento de la población tuviera igual oportunidad de ser escogido. Sin embargo,
no siempre es posible obtener una lista completa de todos los elementos de una población. Por ejemplo, no existe
una guía actualizada de todos los productores de maíz en el Ecuador y, si quisiéramos determinar costos de
producción o el grado de mecanización que aquellos usan en sus propiedades, tendríamos que recurrir a un tipo
de muestreo diferente que el probabilístico.
80 x 0,8 = 64 obreros
80 x 0,15 = 12 administrativos
80 X 0,05 = 4 ejecutivos
Total 80 empleados, los que serán seleccionados al azar, dentro de cada estrato o categoría.
En esta forma daríamos cumplimiento a lo establecido por este tipo de muestreo, puesto que a la población total,
se habría dividido en tres subpoblaciones cuyos promedios de ingresos son diferentes unos de otros, existiendo
relativa homogeneidad dentro de cada estrato o subpoblación.
El principal inconveniente radica en que las muestras sistemáticas no siempre son aleatorias. Si la población está
ordenada en forma sistemática con respecto a la característica de interés, es posible que se incluyan más
elementos de una clase que de otra. Por ejemplo, si se trata de averiguar el ingreso de empleados administrativos
y obreros de una fábrica de gran tamaño, posiblemente van a aparecer en la lista de pagos, más obreros que
empleados administrativos, sesgando el ingreso medio general.
En algunos casos, puede modificarse el sistema cambiando ocasionalmente el punto de partida y el intervalo entre
muestra y muestra.
El muestreo por áreas elimina el tener que hacer un listado completo de los elementos de una población finita. Es
adecuado para encuestas a nivel nacional y se puede aumentar el tamaño de la muestra sin mayor problema.
En el caso de encuestas de tipo político sobre preferencias del público, debe precederse de manera similar.
Diferentes grupos de personas (aspectos raciales, religiosos, económicos, educativos, etc.), van a tener diversas
preferencias y, en consecuencia, conviene separarlas en grupos a fin de obtener inferencias más precisas sobre
las poblaciones involucradas. Como vemos, este tipo de muestreos son parte dirigidos y parte aleatorios.