Anda di halaman 1dari 52

Estadística para el Trabajo Social.

Apuntes y tareas.
Grado en Trabajo Social

Curso: 2018/19

José M. Menéndez Estébanez


jmme@uniovi.es
Dpto. de Estadística e I.O. y Didáctica de la Matemática

Universidad de Oviedo

-1-
________________________________

Índice general

1. Nociones básicas de probabilidad 1

2. Estimación de parámetros en una encuesta 9

3. Contrastes de hipótesis 14

4. Planteamiento estadístico de una encuesta 17

5. Tabulación y análisis de datos 39

Bibliografía 42

Anexo I: Tabla N(0;1) 43

Anexo II: Ficha familiar 45

Anexo III: Cuestionario ganaderos 47

Anexo IV: Cronograma 51

-2-
1
________________________________

Nociones básicas de probabilidad

1.1. Concepto de probabilidad

En el lenguaje ordinario se utiliza el término probable para expresar lo incierto o verosímil de un


resultado. Esto permite ya intuir que la probabilidad está relacionada con fenómenos imprevisibles en
sus resultados o manifestaciones, los denominados Fenómenos Aleatorios, frente a los Fenómenos
Determinísticos.

La Aproximación Clásica al concepto de probabilidad nace asociada a los juegos de azar. La


regla de Laplace proporciona un método práctico del cálculo de probabilidades, pero su aplicación es
muy restringida. En dicha regla se propone el cálculo de la probabilidad de un suceso como el cociente
entre el número de casos favorables a dicho suceso y el total de casos posibles. Así, en el lanzamiento
de un dado, la probabilidad de obtener un 2 es un caso entre seis.

La Interpretación Frecuentista considera la probabilidad como una extensión lógica del


concepto de frecuencia, bien sea como límite o como valor esperado. Es decir, la probabilidad de un
suceso es el valor al que tiende su frecuencia relativa al repetir el experimento un número
suficientemente grande de veces. Así, si un dado se lanza 100, 300, …. 1000 veces, se podrá ver que la
frecuencia relativa de aparición del número 2 va aproximándose a 1/6.

En la Interpretación Subjetiva, la probabilidad es el grado de creencia de una persona


respecto a la ocurrencia de algún suceso. La probabilidad representa el propio juicio de la persona sobre
la verosimilitud de que se obtenga el resultado. Este juicio estará basado en las opiniones e información
de la persona acerca del proceso. Otra persona, con diferente opinión o información distinta, puede
asignar una probabilidad diferente al mismo resultado. Por ejemplo, si una moneda ha de ser lanzada
una vez, una persona sin información especial acerca de la moneda o de la manera en que se lanza
podría considerar cara o cruz como resultados igualmente verosímiles. Esa persona asignaría entonces
una probabilidad subjetiva de 1/2 a la posibilidad de obtener una cara. La persona que realmente lanza
la moneda, sin embargo, podría pensar que una cara es mucho más verosímil que una cruz.

En base a estas intuiciones se ha llegado a una Definición Axiomática, propuesta por el


matemático ruso A.N. Kolmogorov en 1933.

-3-
1.2. Distribución de frecuencias y distribución de probabilidad

Los conceptos de Variable Aleatoria y de Probabilidad se presentan en esta asignatura


como extensiones paralelas a los de Variable Estadística y Frecuencia Relativa, respectivamente.

Si lanzamos un dado 80 veces podemos obtener los resultados que aparecen en la tabla 1, y
que pueden expresarse en términos de frecuencia absoluta, porcentaje o frecuencia relativa (tanto por
uno). La variable “resultado del lanzamiento de un dado” procedente de ese experimento se dice que es
una Variable Estadística. Sin embargo la misma variable entendida como el comportamiento teórico
del dado (tabla 2) se dice que es una Variable Aleatoria.
Al conjunto de valores obtenidos en la variable estadística acompañados de sus frecuencias se
le denomina Distribución de Frecuencias (Tabla 1), mientras que el conjunto de valores que puede
tomar una variable aleatoria junto con sus respectivas probabilidades constituyen la denominada
Distribución de Probabilidad de dicha variable aleatoria (Tabla 2).

Resultados del Comportamiento


lanzamiento de un dado probabilístico del dado
(Variable estadística) (Variable aleatoria)

Frecuencia
Valor Frecuencia Porcentaje relativa Valor Probabilidad
1 28 35 0,35 1 1/6
3 16 20 0,20 2 1/6
4 24 30 0,30 3 1/6
6 12 15 0,15 4 1/6
Total…... 80 100 1,00 5 1/6
6 1/6
Total…... 1,00

Tabla 1 Tabla 2

En el caso de variables aleatorias discretas (variables que toman una cantidad numerable de
valores) es posible asociar una probabilidad finita a cada punto del recorrido aunque el número de
puntos que constituye éste, sea infinito, verificándose que la suma de las probabilidades es igual a la
unidad; se tiene así la Función de Probabilidad. Para variables aleatorias continuas (variables que
toman valores en un intervalo) puede resultar más difícil la comprensión de estas ideas, debido al hecho
de que ese tipo de variable no toma valores de probabilidad en un punto, sino en un intervalo. Por
tanto, aquí, la noción de función de probabilidad no da resultados útiles. En su lugar utilizaremos la
Función de Densidad que proporciona un medio para determinar la probabilidad de un intervalo. Esta
probabilidad viene dada por el área que hay bajo la función de densidad en ese intervalo, y
matemáticamente se obtiene integrando la función de densidad sobre ese intervalo.

También de un modo paralelo con la Estadística Descriptiva nos podemos referir a las medidas
características o de resumen del comportamiento de una variable aleatoria. Así, hablaremos de
Esperanza Matemática como valor promedio de los valores de una variable aleatoria, o de Varianza
y de Desviación Típica, como medidas de variabilidad de los valores de la variable en torno a su valor
promedio.

1.3. Distribuciones de probabilidad más comunes

Iniciamos los modelos de distribuciones de probabilidad con la Distribución Uniforme, que es


quizá la más sencilla. Una variable aleatoria sigue una distribución uniforme si su masa de probabilidad
está repartida uniformemente a lo largo de su soporte. En el caso de una distribución de tipo continuo,
esto significa que su función de densidad es constante en un intervalo. En la figura 1 se representa la
distribución uniforme a lo largo del intervalo [0,1].

-4-
Figura 1. Representación gráfica de la distribución U(0;1)

A partir de aquí, es muy cómodo introducir de forma intuitiva otras variables; como la
Distribución Normal, que juega un papel central en el análisis estadístico, pues proporciona una
adecuada representación de las distribuciones de una gran cantidad de variables físicas. Esta variable,
cuya función de densidad tiene forma acampanada (campana de Gauss), se simboliza como N(µ,σ),
siendo µ la media (esperanza matemática) y σ la desviación típica. Si la media es cero y la desviación
típica es uno, estamos ante la N(0,1), que se denomina Distribución Normal Estándar (figura 2).

Figura 2. Representación gráfica de la distribución N(0;1)

Cualquier variable N(µ,σ) se puede transformar en una variable N(0,1) mediante la operación
conocida como tipificación de variables. Por ello a la N(0,1) también se la denomina Distribución
Normal Tipificada. Esa transformación nos permite entonces calcular cualquier probabilidad para una
N(µ,σ) mediante la distribución N(0,1).

Existen tablas para calcular las probabilidades más comunes. Así, si queremos obtener la
probabilidad de un intervalo del tipo [-z;z], como por ejemplo del intervalo [-1,5;1,5], habría que
obtener el área que hay bajo la curva en ese intervalo haciendo la integral correspondiente. Sin
embargo, basta consultar en las tablas de la N(0,1) y el resultado es 0,865. Es decir, que en una
población de individuos en la que analizamos una variable cuyo comportamiento venga dado por esta
gráfica el 86,5% de los individuos se sitúan entre -1,5 y 1,5; o dicho de otra forma, hay un 86,5% de
posibilidades (de confianza) de que un individuo, elegido al azar, se encuentre entre -1,5 y 1,5. A esa
confianza la simbolizaremos con δ.

Los siguientes intervalos del tipo [-z;z] tienen especial interés para su uso en otros temas de
esta asignatura:

-5-
z=1,645 ---> δ=0,9 (90%)
z=1,96 ---> δ=0,95 (95%)
z=2,00 ---> δ=0,955 (95,5%)
z=2,17 ---> δ=0,97 (97%)
z=2,576 ---> δ=0,99 (99%)

Finalizamos este apartado recordando otras distribuciones que también pueden ser útiles, como
la Distribución “t” de Student, también acampanada (figura 3), o la Jí Cuadrado (figura 4), cuyas
representaciones gráficas dependen de un parámetro k llamado “grados de libertad”.

Figura 3. Representación gráfica de la distribución t de Student

Figura 4. Representación gráfica de la distribución Jí-cuadrado

________________________________

Tareas sobre el tema 1


________________________________

T 1.1: En un portal de internet el número de billetes de avión vendidos cada día se


comporta como una N(200;70).

a) ¿Qué % de los días se venden entre 94 y 306 billetes?.


b) ¿Qué % de los días se venden más de 302 billetes?.

-6-
c) ¿Qué % de los días se venden menos de 98 billetes?.
d) ¿Qué % de los días la venta se desvía de la media en menos de 78 billetes?.
e) ¿Entre que valores oscila la venta en el 77% de los días situados en torno a la venta
media?.

Soluciones T 1.1:

a) El 87% (z=1,514)
b) El 7,25% (z=1,457)
c) El 7,25% (z=-1,457)
d) El 73,5% (z=1,114)
e) Entre 116 y 284 billetes (z=1,2)

T 1.2: Los ingresos familiares en un cierto barrio siguen un comportamiento N(1.500;400)


(cantidades en €).

a) ¿Qué % de las familias se sitúan por debajo de 938 €?.


b) ¿Qué confianza hay de encontrar a una familia con ingresos comprendidos entre
1.030 y 1.970 €?.
c) Si nos informan de que hay 8.000 familias en ese barrio, ¿cuántas ingresarán entre
811 y 2.189 €?. ¿Y menos de 811 €?.
d) ¿Qué cantidad separa del resto de las familias al 2,5% de las familias que más
ingresos tienen?.

Soluciones T 1.2:

a) El 8% (z=-1,405).
b) El 76% (z=1,175).
c) 7.320 entre 811 y 2.189 € (el 91,5%) (z=1,722). 340 menos de 811 € (el 4,25%).
d) 2.284 € (z=1,96).

T 1.3: El número de comidas diarias que se dan en un albergue de transeúntes sigue una
distribución N(70;10).

a) ¿Qué % de los días del año se darán entre el 58 y 82 comidas?.


b) En el 8% de los días más flojos, ¿cuál es el mayor número de comidas que se
alcanza?.
c) ¿Cuántos días del año probablemente se superarán las 86 comidas?. ¿Y 70
comidas?.

Soluciones T 1.3:

a) El 77% de los días (z=1,2).


b) 56 comidas (z=1,405).
c) Unos 20 días (el 5,5%) (z=1,6). La mitad de los días, es decir 182 o 183 días.

T 1.4 La pensión media de jubilación en España sigue una distribución N(900;300)


(expresado en €).

a) ¿Qué % de los pensionistas perciben entre 540 y 1260 €?.


b) ¿Qué % de los pensionistas se sitúan por encima de 1158 €?.
c) ¿Qué % de los pensionistas cobran menos de 768 €?.
d) ¿Qué % de los pensionistas se desvían menos de 300 € de la pensión media?.
e) ¿Entre que valores oscila la pensión del 75% de los pensionistas situados en torno a
la pensión media?.

-7-
Soluciones T 1.4:

a) El 77%
b) El 19,5%
c) El 33%
d) El 68,5%
e) Entre 555 y 1245 €

T 1.5 El número de cigarrillos/día que fuman los fumadores habituales de una región sigue
una distribución N(28;4).

a) ¿Qué % de los fumadores consumen menos de 20 cigarrillos/día?.


b) ¿Qué confianza hay de encontrar a un fumador que consuma entre 22 y 34
cigarrillos?.
c) Si en esa región hay 50.000 fumadores habituales, ¿cuántos fumarán entre 22 y 34
cigarrillos diarios?. ¿Y más de 34 cigarrillos?.
d) ¿Qué número de cigarrillos separa del resto de los fumadores al 20% de las
personas que más fuman?.

Soluciones T 1.5:

a) El 2,25%
b) El 86,5%
c) 43.250 entre 22 y 34 cigarrillos. 3.375 más de 34 cigarrillos.
d) 31,37 cigarrillos.

T 1.6 El tiempo que tardan las personas en resolver sus trámites en las ventanillas de un
servicio administrativo se comporta según una N(300;60) (expresado en segundos).

a) ¿Qué % de las personas son atendidas entre los 193 y los 407 segundos?.
b) ¿Cuál es el máximo tiempo que se necesita en el 10% de los casos más rápidos?.
c) ¿Qué confianza hay de que una persona emplee 145,4 y 454,6 segundos?.
d) Si en un mes pasaron por ese servicio 4000 personas ¿cuántas probablemente
habrán tardado más de 340 segundos en hacer sus trámites?. ¿Y más de 300
segundos?.

Soluciones T 1.6:

a) El 92,5%.
b) 223 segundos.
c) El 99%.
d) 1010 más de 340 segundos. La mitad de ellas, es decir 2000, más de 300 segundos.

T 1.7 La duración de las estancias de los pacientes en los hospitales públicos puede
suponerse que es de tipo N(7;2) (expresado en días).

a) ¿Qué % de los paciente permanecen 3 días como mínimo?.


b) ¿Cuál es el número mínimo de días que permanecen en los hospitales el 15% de los
pacientes correspondientes a las estancias más largas?.
c) El 30,75% de los pacientes permanece en los hospitales menos de k días. ¿Cuánto
vale k?.

Soluciones T 1.7:

a) El 97,75%.
b) 9,07 días como mínimo.
c) k=6 días.

-8-
2
________________________________

Estimación de parámetros en una encuesta

2.1. Inconvenientes de los métodos de muestreo

Cuando en un determinado Ámbito (Demarcación geográfica o lugar físico en el que se lleva a


cabo una encuesta) tratamos de estudiar una Población Objetivo (Conjunto de individuos o cosas
sobre los que se va a investigar), a menudo se recurre a la toma de una Muestra (Cualquier
subconjunto de elementos de la población objetivo), ante las dificultades que entrañaría encuestar a
toda la población objetivo. Por ejemplo, sería imposible entrevistar a todos los excursionistas que vienen
a Asturias, pero no lo es encuestar a un subconjunto de ellos.

La toma de una muestra viene motivada, por tanto, por el interés que se tiene en conocer el
valor de algún Parámetro (dato desconocido de la población objetivo). Y así, con las observaciones
muestrales realizadas, obtendremos un Estimador (medida cuantitativa derivada de los datos de una
muestra, cuyo objetivo es inferir, estimar, el valor de un parámetro) que nos permita acercarnos al
verdadero valor del parámetro investigado. Por ejemplo, desconocemos cuál es la edad media
(parámetro) en la que los jóvenes de una ciudad comienzan a consumir un tipo de droga, pero a través
de una muestra obtenemos una edad media de 14 años (estimador) que nos permite pronosticar la
edad media de toda la población.

Es evidente que, desde el momento en que solo se entrevista a una parte de la población, las
conclusiones que se obtengan no serán exactas, llevarán aparejado un margen de error (la edad media
de 14 años pronosticada anteriormente no será exacta); y la magnitud de este error va a estar
determinada por tal cantidad de factores que podrían conducirnos a una calidad muy pobre de los datos
recogidos y, por tanto, de las conclusiones que se obtengan.

Esos factores pueden provenir del propio modelo teórico (metodología) de recogida de la
información que se haya aplicado o de otros aspectos externos, a veces imprevisibles, como puede ser
el hecho de que los encuestados se nieguen a responder. Los errores que se derivan del primer caso se
llaman Errores en el muestreo; los del segundo, Errores ajenos al muestreo.

-9-
2.2. Determinación de los errores en el muestreo

Al realizar un pronóstico sobre un parámetro, posiblemente la primera pregunta que se haga el


investigador sea acerca del Error en la Estimación (Error en el muestreo), que anotaremos con ε.
Este error depende de la muestra elegida; y dado que ésta tiene carácter aleatorio, el error heredará tal
carácter, pudiendo hablar así de error aleatorio, al que podremos asociar una probabilidad que, siendo
prefijada, denominaremos Nivel de Confianza. Podremos estimar, por ejemplo, que la edad media en
la que los jóvenes de una ciudad comienzan a consumir un tipo de droga es 14 años, teniendo una
confianza del 95% de que nos equivocaremos, como máximo, en 1 año en ese pronóstico. También
podríamos decir, en este caso, que se tiene una confianza del 95% de que la edad promedio de inicio al
consumo se sitúa entre 13 y 15 años. Estamos, entonces, ante una Estimación por Intervalo, y el
resultado obtenido es un Intervalo de Confianza. Si nos limitásemos a afirmar que la edad media es
14 años estaríamos haciendo una Estimación Puntual.

En general, la obtención concreta del error depende, como se acaba de sugerir, de dos factores:
la variabilidad de la muestra y el nivel de confianza deseado. La primera viene expresada por el Error
Estándar, también llamado Error Típico (ET); y el segundo permite obtener, a partir de la
distribución probabilística asociada al modelo, el número de errores estándares que podremos alejarnos
del pronóstico efectuado. De esta forma se obtiene la expresión

ε = z ∙ ET
Las fórmulas para los dos casos más habituales, el de estimación de una media y el de una
proporción, siempre que el tamaño muestral sea mayor de 30 (véanse otros requisitos y
recomendaciones en la bibliografía), son las siguientes:

Error en la estimación de una media

Tamaño poblacional desconocido Tamaño poblacional conocido

N n
z z
n n N

Error en la estimación de una proporción

Tamaño poblacional desconocido Tamaño poblacional conocido

p (1 p ) p (1 p ) N n
z z
n n N 1
En estas fórmulas, es la desviación típica de la población, p la proporción que se está
estimando, n el tamaño de la muestra, N el tamaño de la población, y z el valor obtenido en la
distribución N(0,1) para el nivel de confianza δ deseado.

2.3. Cálculo del tamaño de la muestra. Inconvenientes

A partir de las fórmulas del apartado anterior se pueden obtener las que nos permiten
determinar el número de entrevistas necesarias en una encuesta para obtener resultados con una
confianza determinada y con el error máximo que se esté dispuesto a admitir de antemano.

- 10 -
Tamaño de la muestra para la estimación de una media

Tamaño poblacional desconocido Tamaño poblacional conocido

2
z z2 2
N
n n 2
N z2 2

Tamaño de la muestra para la estimación de una proporción

Tamaño poblacional desconocido Tamaño poblacional conocido

z 2 p (1 p) z 2 p (1 p ) N
n n
2
( N 1) 2 z 2 p (1 p )
Las fórmulas anteriores presentan algunos inconvenientes para poder ser aplicadas. Así,
presuponer cuál será el valor de la desviación típica ( ) o el de la proporción (p), precisamente antes
de haber recogido la muestra, puede ser una tarea de cierta dificultad. En el primero de los casos se
suele acudir a la realización de una encuesta piloto (pre-test) para evaluar el parámetro; en el segundo
se le asigna el valor 0,5 por ser el que maximiza el valor de n.

________________________________

Tareas sobre el tema 2


________________________________

T 2.1 En un municipio se elige una muestra de 576 personas en paro.

a) El 70% de las personas entrevistadas manifestaron haber trabajado alguna vez


anteriormente. ¿Qué margen de error tiene este resultado, al 95,5% de confianza?.
Ese error, ¿es grande?. Obtener el intervalo asociado e interpretar su significado.
b) Los ingresos medios familiares en esa muestra son de 900 € por familia, y la
desviación típica 1200 €. ¿Qué margen de error tienen esos ingresos medios, al
95,5% de confianza?. Ese error, ¿es grande?. Obtener el intervalo asociado e
interpretar su significado.
c) ¿Cuál es el error máximo que se comete en esa encuesta, al 95,5% de confianza, en
las estimaciones de porcentajes?. ¿Y en las de medias?.
d) Dar respuesta a los apartados a), b) y c) suponiendo que ahora se sabe que fueron
4.000 las personas que hay en paro en ese municipio.

Soluciones T 2.1:

a) Error de 3,8%. Es pequeño. Intervalo: ( 66,2% ; 73,8% )


b) Error de 100 €. Es grande (error relativo del 11,11%). Intervalo: ( 800€ ; 1000€ )
c) Porcentajes: 4,2%. Medias: solo es calculable si se conoce el valor máximo de la desviación típica.
d) Apdo. a): Error de 3,53%. Es pequeño. Intervalo: ( 66,47% ; 73,53% )
Apdo. b): Error de 92,52 €. Es grande (error relativo del 10,28%). Intervalo: ( 807,5€ ; 992,5€ )
Apdo. c): Porcentajes: 3,85%. Medias: solo calculable si se conoce el máximo de la desv. típica.

- 11 -
T 2.2 Se va a realizar una encuesta entre las personas de 15 a 17 años en una ciudad con el
fin de estimar el número medio de horas semanales que esos jóvenes dedican a ver la TV, y
el porcentaje de jóvenes que leen la prensa diaria de forma habitual. En todas las
estimaciones se desea tener un 97% de confianza.

a) ¿A cuántas personas es preciso entrevistar para que el error en la estimación de la


media de horas de TV no supere 3 horas, si se sabe que la dispersión en la variable
es de 30 horas?.
b) ¿A cuántas personas es preciso entrevistar para que el error en las estimaciones de
porcentajes no supere el 3%?.
c) Teniendo en cuenta los resultados de a) y b), ¿cuál es, definitivamente, el número
de personas a entrevistar?.
d) Dar respuesta a los apartados a), b) y c) si ahora se sabe que hay 3000 jóvenes en la
ciudad con edades de 15 a 17 años.

Soluciones T 2.2:

a) 471 personas b) 1309 personas c) 1309 personas


d) a) 407 personas b) 912 personas c) 912 personas

T 2.3 Una vez consultadas una de cada tres de las 270 residencias para personas mayores
de una región, se obtuvo que el 80% de los establecimientos disponen de página web.

a) ¿Qué margen de error tiene este resultado, al 95,5% de confianza?. Ese error, ¿es
grande?. Obtener el intervalo correspondiente e interpretar su significado.
b) Al 95,5% de confianza, ¿cuál es el error máximo de esa encuesta en los pronósticos
para porcentajes?. ¿Es grande?.

Soluciones T 2.3:

a) Error de 6,9%. Es mediano. Intervalo: ( 73,1% ; 86,9% )


b) Error máximo: 8,6%. Es mediano-alto.

T 2.4 Se pretende hacer un estudio, a través de una encuesta, de diversos aspectos de las
120 asociaciones culturales que hay en una ciudad. En los resultados porcentuales que se
obtengan se admitirá hasta un 5% de error; en los que se expresen en forma de medias
se admite un error de 8 unidades, y se sabe que la máxima desviación típica de las
variables es de 70 unidades.

¿En cuántas asociaciones habrá que tomar datos, si se desea tener una confianza del
95,5%?.

Solución T 2.4:

En 93 asociaciones. Para porcentajes resulta 92,4 y para medias 86,2.

T 2.5 Al salir de las consultas médicas de un Centro de Salud 196 personas elegidos al azar
manifestaron que tienen que realizar un gasto medio de 6 € por persona en las medicinas
recetadas, con un error típico igual a 0,12 €. También resultó que el tiempo de espera
medio para ser atendidos por su doctor/a fue de 20 minutos, con una desviación típica
igual a 17,5 minutos.

a) ¿En cuál de las dos medias estimadas se obtiene menos error, al 95,5% de
confianza?.
b) ¿Son ambos promedios unas buenas estimaciones?.

- 12 -
c) Dar un intervalo para cada media e interpretar el resultado.

Soluciones T 2.5:

a) En el gasto medio, por ser menor su error relativo.


Gasto medio: error igual a 0,24 €; error relativo igual a 4%.
Tiempo medio: error igual a 2,5 minutos; error relativo igual a 12,5%.
b) La del gasto medio sí lo es. En la del tiempo medio de espera el error es grande.
c) Gasto medio: ( 5,76€ ; 6,24€ ) Tiempo de espera medio: ( 17,5 min. ; 22,5 min.)

T 2.6 La Concejalía de Juventud de una ciudad hace un sondeo entre la población de 15 a


18 años, que está compuesta por 5.000 personas. En 121 jóvenes, elegidos al azar, se
obtuvo un gasto medio de 27 €/semana por conceptos de ocio y tiempo libre, y una
dispersión de 8 €/semana.

a) Al afirmar que el gasto medio por persona es de 27 €/mes, ¿qué error se comete
como máximo al 95% de confianza?. Analícese la fiabilidad del pronóstico.
b) 49 jóvenes, de los 121 sondeados, afirman ir al cine casi todas las semanas. Al 90%
de confianza, ¿entre qué límites situaremos el porcentaje de jóvenes que van al cine
casi todas las semanas?. Analizar la precisión de esta estimación.

Soluciones T 2.6:

a) Error máximo de 1,41 €. Error relativo igual a 5,22% y confianza 95% (alta) ---> Bastante fiable.
b) El porcentaje es 40,5% (p=0,405) y el error es 7,24%. Intervalo: (33,26%;47,74%).
Como el error relativo es 7,24% y la confianza 90% (no muy alta) ---> Poco precisa.

- 13 -
3
________________________________

Contraste de hipótesis

3.1. Conceptos básicos

Otro interés del investigador puede estar centrado en la formulación de dos hipótesis sobre el
verdadero valor del parámetro que está estimando, con el fin de decidir con qué hipótesis quedarse. La
solución será optar por la más razonable, en términos probabilísticos, teniendo en cuenta la información
de que disponemos en la muestra.

Así, por ejemplo, partiendo de la hipótesis teórica (llamada también Hipótesis Principal o
Hipótesis Nula, Ho ) de que el peso medio de una población es 65 kg., y habiendo obtenido en una
muestra de 90 individuos un peso medio de 70 kg. ¿es razonable suponer que el peso medio
poblacional es distinto de 65 kg. (Hipótesis Alternativa, H1) como se creía, rechazando así la
hipótesis teórica?. Es decir, ¿la información muestral nos permite decidir si las desviaciones observadas
con respecto a la hipótesis teórica son demasiado «significativas» como para poder atribuirlas al azar?.
¿Qué riesgo tenemos de equivocarnos si admitimos como buena la hipótesis alternativa?.

Es fácil comprender, entonces, que la toma de decisión en un contraste de hipótesis se basa en


el cálculo, en términos de probabilidad, del riesgo que se corre al admitir la hipótesis alternativa. Solo si
el riesgo es muy bajo, por lo general menor o igual que 0,05 (5%), se admitirá dicha hipótesis; en caso
contrario se admitirá la hipótesis de partida (Hipótesis Principal). A la probabilidad encontrada se la
denomina p-valor. Algunos programas informáticos también la denominan Significación.

3.2. Algunos modelos de contraste de hipótesis

Existen muchos modelos de contrastes de hipótesis. Aquí se presentan algunos, acompañados


de ejemplos, clasificados en dos grupos según que en el modelo intervengan una o dos variables.

3.2.1. Contrastes con una variable

Caso a: Contraste para una media

Ho: La media poblacional es igual a “k” (µ=k)


H1: La media poblacional es distinta de “k” (µ≠k)

- 14 -
Alternativamente, H1 puede formularse como “La media poblacional es menor que k” ( µ < k ) o
como “La media poblacional es mayor que k” ( µ > k ).

Ejemplo a.1

Año 2001: el peso medio de una población está establecido en 65 kg.


Año 2012: una muestra de 90 individuos arroja un peso medio de 70 Kg.

Ho: La media poblacional sigue siendo 65 kg. ( µ = 65 )


H1: La media poblacional es distinta de 65 kg. ( µ ≠ 65 )

p-valor: = 0,30 (30%) Decisión: Aceptar Ho

Ejemplo a.2

Año 2003: las personas fumadoras de una ciudad consumen 20 cigarrillos/día por persona.
Año 2012: en una muestra de 250 personas fumadoras resulta un consumo de 15 cigarrillos/día.

Ho: La media poblacional sigue siendo 20 cigarrillos ( µ = 20 )


H1: La media poblacional es distinta de 20 cigarrillos ( µ ≠ 20 )

p-valor: = 0,02 (2%) Decisión: Aceptar H1

Caso b: Contraste para una proporción

Ho: La proporción poblacional es igual a “k” (p=k)


H1: La proporción poblacional es diferente de “k” ( p ≠ k )

Ejemplo

Año 2004: el % de jóvenes (14-18 años) que consumieron cannabis en el último mes es el 24 %.
Año 2012: en una muestra de 1.400 jóvenes, el 20% consumieron cannabis en el último mes.

Ho: La proporción poblacional sigue siendo del 24% ( p = 0,24 )


H1: La proporción poblacional es diferente del 24% ( p ≠ 0,24 )

p-valor: = 0,07 (7%) Decisión: Aceptar Ho (o H1 con prudencia)

Caso c: Contraste de comparación de medias

Ho: Las medias de las poblaciones 1 y 2 son iguales ( µ1 = µ2 )


H1: Las medias de las poblaciones 1 y 2 son diferentes ( µ1 ≠ µ2 )

Ejemplo

Varones: en una muestra elegida al azar en una población el consumo medio anual de alcohol es 13 l.
Mujeres: en idénticas condiciones muestrales el consumo medio anual de alcohol es 12 l.

Ho: Las medias generales son iguales en ambos sexos en esa población ( µ1 = µ2 )
H1: Las medias generales son diferentes en ambos sexos ( µ1 ≠ µ2 )

p-valor: = 0,12 (12%) Decisión: Aceptar H0

Caso d: Contraste de comparación de varianzas

Ho: Las varianzas de las poblaciones 1 y 2 son iguales ( σ12 = σ22 )


H1: Las varianzas de las poblaciones 1 y 2 son diferentes ( σ12 ≠ σ22 )

- 15 -
Ejemplo

Barrio 1: en una muestra elegida entre las familias, la oscilación de los ingresos familiares mensuales es
de 280 € ( σ1 = 280 € ; σ12 = 78400 €2 ).
Barrio 2: en idénticas condiciones muestrales, la oscilación de los ingresos familiares mensuales es de
300 € ( σ2 = 300 € ; σ22 = 90000 €2 ).

Ho: La oscilación (la varianza) es igual en ambos barrios ( σ12 = σ22 )


H1: La oscilación (la varianza) es diferente en cada barrio ( σ12 ≠ σ22 )

p-valor: = 0,06 (6%) Decisión: Aceptar Ho (o H1 con prudencia)

3.2.2. Contrastes con dos variables

Caso a: Contraste de independencia

Ho: Las variables categóricas 1 y 2 son independientes entre sí


H1: Las variables categóricas 1 y 2 están relacionadas entre sí

Ejemplo

En una muestra de 1.300 personas de una población se anota el barrio donde viven y si usan medios
anticonceptivos en sus relaciones sexuales.

Ho: El uso de anticonceptivos es independiente del barrio de procedencia


H1: El uso de anticonceptivos está relacionado con el barrio de procedencia

p-valor: = 0,04 (4%) Decisión: Aceptar H1

Caso b: Contraste de correlación

Ho: Las variables numéricas 1 y 2 no guardan relación lineal entre sí ( r = 0 )


H1: Las variables numéricas 1 y 2 sí guardan relación lineal entre sí ( r ≠ 0 )

Ejemplo

En una muestra elegida entre 350 personas fumadoras de una población se observan el volumen diario
de cigarrillos consumidos y la edad.

Ho: El volumen consumido no guarda relación lineal con la edad ( r = 0 )


H1: El volumen consumido sí guarda relación lineal con la edad ( r ≠ 0 )

p-valor: = 0,18 (18%) Decisión: Aceptar H0

________________________________

Tareas sobre el tema 3


________________________________

Las aplicaciones y casos prácticos sobre este tema se verán a través del ordenador, dentro del
tema 5.

- 16 -
4
________________________________

Planteamiento estadístico de una encuesta

En este tema se aborda la planificación de una encuesta desde el punto de vista estadístico,
incidiendo especialmente en los problemas técnicos más comunes que pueden aparecer en las
encuestas del ámbito del Trabajo Social.

Para una mejor comprensión del tema nos basaremos en el siguiente esquema (Figura 5), en el
que se detallan todos los apartados inherentes al planteamiento de una encuesta por muestreo:

DEFINICIONES: Ámbito, población, objetivos, etc.


TRABAJOS CUESTIONARIO: Elaboración, cuestionarios previos, pre-test, codificación.
PRELIMINARES COSTES ESTIMADOS: Necesidades materiales y de personal, presupuesto.

ELABORACIÓN O ACTUALIZACIÓN DEL MARCO.


DISEÑO USO DE INFORMACIÓN COMPLEMENTARIA.
DE LA ESTIMADORES NECESARIOS.
MUESTRA TAMAÑO DE LA MUESTRA: Nivel de confianza, error máximo en el muestreo.
METODO DE SELECCIÓN DE LA MUESTRA.
ERRORES AJENOS AL MUESTREO: Previsión y normas a seguir.

SELECCIÓN Y PREPARACIÓN DEL PERSONAL: Entrevistadores, supervisores, etc.


TRABAJOS
MATERIALES E INSTRUCCIONES PARA LA RECOGIDA DE DATOS.
DE CAMPO
RECOGIDA DE LOS DATOS.

DEPURACIÓN DE CUESTIONARIOS: Corrección de errores, recodificación, etc.


TABULACIÓN TRATAMIENTO INFORMÁTICO Y OBTENCIÓN DE TABLAS.

DISCREPANCIAS ENTRE EL DISEÑO TEÓRICO Y SU APLICACIÓN.


EVALUACIÓN VALORACIÓN, A POSTERIORI, DE LOS ERRORES.
DE COMPARACIÓN CON OTROS DISEÑOS.
RESULTADOS DISCREPANCIAS ENTRE EL PRESUPUESTO Y LA EJECUCIÓN DEL MISMO.
ANÁLISIS DE LOS DATOS Y ELABORACIÓN DE LAS CONCLUSIONES.

Figura 5. Planteamiento general de las encuestas por muestreo

- 17 -
4.1. Trabajos preliminares

Al iniciar el diseño de una encuesta hay que realizar una serie de tareas que van a determinar,
en gran medida, muchos de los aspectos estadísticos posteriores. En este sentido es imprescindible
definir claramente el ámbito y la población del estudio y elaborar la lista de objetivos de nuestro
trabajo; de ellos surgirá el modelo de cuestionario adecuado, que, junto con el presupuesto disponible,
determinarán todo el diseño de la muestra, buena parte del trabajo de campo y la tabulación
estadística.

4.1.1. Definiciones

El trabajo en una encuesta comienza por definir los conceptos de ámbito y población objetivo,
que ya han sido estudiados en el tema 2, y por elaborar una lista con los objetivos del estudio. Esta lista
puede comenzar presentando unos objetivos generales, y dentro de cada uno de estos, posteriormente,
concretar una serie de objetivos específicos.

Por ejemplo, una encuesta dirigida a las personas jóvenes de una ciudad podría tener los cuatro
siguientes objetivos generales, y, dentro de cada uno, los objetivos específicos que se citan:

- Disponibilidad de vivienda
o Detectar con quién viven los jóvenes
o Conocer el régimen de tenencia de la vivienda
o Estimar el gasto mensual en alquiler o pago de la vivienda

- Formación y situación laboral de los jóvenes


o Determinar los % de jóvenes que estudian y/o trabajan
o Conocer el nivel de formación
o Averiguar el tipo de contrato en caso de estar trabajando

- Hábitos de ocio
o Estimar las horas libres disponibles para ocio
o Detectar cuáles son las actividades de tiempo libre más practicadas

- Relaciones sexuales y uso de anticonceptivos


o Conocer la edad de iniciación a las relaciones sexuales completas
o Determinar la frecuencia de las relaciones sexuales
o Averiguar la tasa de uso de anticonceptivos

Una premisa importante a la hora de plantearse la lista de objetivos es la de que ser comedido
con el número de ellos que propongamos. Tengamos en cuenta que a partir de los objetivos vamos a
elaborar las preguntas del cuestionario, y no interesa que este sea tan amplio que resulte inoperativo.
No hay que olvidar que un cuestionario muy amplio lleva aparejados una serie de inconvenientes
importantes como pueden ser la duración de la recogida de los datos, el aumento de los costes, la falta
de respuesta por cansancio del respondiente, y las pérdidas de calidad de los datos y de fiabilidad
estadística.

4.1.2. Cuestionario

La elaboración del cuestionario en el ámbito del Trabajo Social es una tarea compleja que, en
muchos casos, es realizada por varios profesionales de distintas áreas relacionadas con las temáticas del
estudio, como pueden ser sociólogos, psicólogos, trabajadores sociales, etc., y también por otros afines
a la computación o la estadística, estos con el fin de que la información del cuestionario sea leída
correctamente por los programas informáticos y se puedan realizar los análisis estadísticos adecuados.

En esta asignatura no abordaremos el diseño y elaboración de cuestionarios, al ser más propios


de otras áreas de conocimiento. Únicamente nos referiremos, a continuación, a dos aspectos
relacionados con la estadística: la encuesta piloto y la codificación.

- 18 -
Durante el proceso de preparación de un cuestionario se van introduciendo numerosos cambios,
dando lugar a una sucesión de cuestionarios previos. Cuando se supone que el cuestionario es el
adecuado se lleva a cabo una encuesta piloto (pre-test), con un pequeño número de personas de la
población objetivo, con el fin de detectar anomalías en dicho cuestionario y, tras las correcciones
oportunas, elaborar el cuestionario definitivo (figura 6).

Cuestionarios previos

Cuest. 1 Cuest. 2 Cuest. 3 Cuestionario


Encuesta
-- -- -- - - -- -- -- - - -- -- -- - - definitivo
piloto
- --- - --- - --- - --- - --- - --- -- -- -- -- --- -

Figura 6. Proceso de elaboración del cuestionario

Sin embargo esa encuesta piloto no sirve únicamente para ese fin, sino que tiene otras
aplicaciones muy importantes, algunas de tipo estadístico:

- Diseño del muestreo


- Estimación de parámetros
- Observación de la falta de respuesta
- Eficacia en la organización del trabajo
- Duración y costes de la encuesta

El cuestionario definitivo debe presentar una codificación adecuada de sus ítems, para que los
datos puedan ser tabulados correctamente. Realizar dicha codificación no suele ser, en general, tarea
complicada. En las preguntas ordinarias, como la siguiente, es bastante obvio numerar las distintas
opciones desde el 1 en adelante:

P 3.- En tu trabajo, ¿qué tipo de contrato tienes?

1 Temporal
2 Fijo
3 Por cuenta propia
4 Negocio familiar

Sin embargo, en algunos casos la codificación adecuada no es tan evidente. ¿Cuál sería la
codificación más correcta, que sustituiría a los interrogantes, en la siguiente pregunta?:

P 8.- ¿Qué actividades deportivas practica usted principalmente? (Señalar un máximo de dos)

Regularmente De vez en cuando


? Baloncesto ? ?
? Bicicleta ? ?
? Esquí ? ?
? Footing ? ?
? Fútbol ? ?
? Gimnasia ? ?
? Natación ? ?
? Senderismo ? ?
? Yoga ? ?
? Otros ? ?
? Ninguno ? ?

En los anexos II y III figuran dos cuestionarios reales que presentan problemas de codificación
e inconvenientes de tipo estadístico. Serán comentados en el aula.

- 19 -
4.1.3. Costes estimados

Una vez realizada la encuesta piloto, que nos habrá ayudado a estimar la duración del trabajo
de campo y a planificar el muestreo, estaremos en condiciones de hacer una estimación razonable de
los costes de la encuesta, pues precisamente el trabajo de campo suele ser el capítulo de gastos más
elevados.

Habrá que tener en cuenta todas las necesidades materiales, como pueden ser los equipos
informáticos o el fotocopiado de cuestionarios, las necesidades de personal (encuestadores,
supervisores, etc.) y los costes que genera la recogida de los datos debido a los gastos y dietas de
desplazamiento.

4.2. Diseño de la muestra

El diseño de la muestra es la parte estadística de mayor complejidad dentro de una encuesta.


Que las estimaciones que se hagan sean acertadas o no, que la encuesta sea fiable o no, y, en
definitiva, que la encuesta sea una “buena encuesta”, depende del diseño de la muestra de forma
decisiva.

4.2.1. Elaboración o actualización del marco

El conocimiento de la mayor cantidad posible de información de la población objetivo, antes de


realizar la encuesta, nos va a permitir hacer el diseño del muestreo con mayor eficacia. Por ejemplo,
disponer de un listado de los elementos que componen la población objetivo nos permitiría realizar un
sorteo para seleccionar la muestra. A ese listado se le conoce como el Marco.

Sin embargo, muchas veces, no se dispone del marco ni es posible su elaboración. En esos
casos, con mayor razón, hay que tratar de recopilar cualquier tipo de información complementaria sobre
la población objetivo que pueda ser beneficiosa para el diseño muestral. El conocimiento de datos como
el tamaño de la población o características como la distribución por sexo y edad pueden resultar
fundamentales para la calidad del muestreo y la fiabilidad de los resultados.

4.2.2. Tamaño de la muestra

Una vez obtenida toda la información posible de la población objetivo y, en su caso, elaborado
el marco, se procede a realizar los cálculos del tamaño de la muestra. Para ello es necesario caracterizar
qué estimadores se van a utilizar (medias, proporciones, etc.), qué errores máximos estamos dispuestos
a admitir a priori y con qué nivel de confianza deseamos trabajar. Los cálculos relativos a este punto ya
han sido estudiados en el tema 2.

Dependiendo del tipo de población que estemos investigando y de los métodos de muestreo
que se estudian en el apartado siguiente, el tamaño muestral obtenido habrá que repartirlo en función
de diversas características poblacionales (por sexo, edad, barrio, etc.) con el fin de que la muestra
resulte lo más representativa posible de la población objetivo.

Por ejemplo, para realizar una encuesta en Gijón a la población de 15 a 29 años que vive en la
zona urbana es necesario disponer de la distribución de esas personas según las características de
edad, sexo y barrio (Tabla 3), para que una vez obtenido el tamaño muestral, en este caso 1.204
individuos, podamos hacer el reparto de éstos en función de dichas características (Tabla 4). Entonces
estaremos en condiciones de calcular los errores máximos en las estimaciones para cada tramo de
edad, para cada sexo y para cada barrio (Tabla 5).

- 20 -
DISTRIBUCIÓN DE LA POBLACIÓN POR BARRIOS SEGÚN EDAD Y SEXO

15 a 19 años 20 a 24 años 25 a 29 años Total


BARRIO Hombres Mujeres Hombres Mujeres Hombres Mujeres Hombres Mujeres Total
Centro 2.355 2.277 2.902 2.803 2.531 2.476 7.788 7.556 15.344
Cimadevilla 65 64 77 82 130 124 272 270 542
Subtotal 2.420 2.341 2.979 2.885 2.661 2.600 8.060 7.826 15.886
Calzada 1.461 1.411 1.561 1.550 1.388 1.428 4.410 4.389 8.799
Natahoyo 216 212 243 243 188 159 647 614 1.261
Subtotal 1.677 1.623 1.804 1.793 1.576 1.587 5.057 5.003 10.060
Pumarín 1.591 1.506 1.697 1.738 1.296 1.304 4.584 4.548 9.132
Moreda 71 73 60 58 89 116 220 247 467
Subtotal 1.662 1.579 1.757 1.796 1.385 1.420 4.804 4.795 9.599
El Llano 1.370 1.272 1.448 1.451 1.282 1.328 4.100 4.051 8.151
Subtotal 1.370 1.272 1.448 1.451 1.282 1.328 4.100 4.051 8.151
La Arena 613 558 719 708 626 587 1.958 1.853 3.811
Bibio 352 284 354 285 190 175 896 744 1.640
Viesques 171 189 186 148 100 97 457 434 891
Subtotal 1.136 1.031 1.259 1.141 916 859 3.311 3.031 6.342
El Coto 475 436 580 586 456 410 1.511 1.432 2.943
Subtotal 475 436 580 586 456 410 1.511 1.432 2.943
Ceares 260 285 327 329 280 267 867 881 1.748
Contrueces 224 205 242 227 317 304 783 736 1.519
Subtotal 484 490 569 556 597 571 1.650 1.617 3.267

Total 9.224 8.772 10.396 10.208 8.873 8.775 28.493 27.755 56.248

Total por edades 17.996 20.604 17.648 56.248

Tabla 3. Población de Gijón de 15 a 29 años, según sexo y barrio

DISTRIBUCIÓN DE LA MUESTRA POR BARRIOS SEGÚN EDAD Y SEXO

15 a 19 años 20 a 24 años 25 a 29 años Total por sexo


BARRIO Hombres Mujeres Hombres Mujeres Hombres Mujeres Hombres Mujeres Total
Centro 26 25 31 30 27 27 84 82 166
Cimadevilla 1 1 1 1 1 1 3 3 6
Subtotal 27 26 32 31 28 28 87 85 172
Calzada 25 24 27 26 24 24 76 74 150
Natahoyo 4 4 4 4 3 3 11 11 22
Subtotal 29 28 31 30 27 27 87 85 172
Pumarín 29 27 31 31 23 23 83 81 164
Moreda 1 1 1 1 2 2 4 4 8
Subtotal 30 28 32 32 25 25 87 85 172
El Llano 29 27 30 31 27 28 86 86 172
Subtotal 29 27 30 31 27 28 86 86 172
La Arena 17 15 19 19 17 16 53 50 103
Bibio 9 8 9 8 5 5 23 21 44
Viesques 5 5 5 4 3 3 13 12 25
Subtotal 31 28 33 31 25 24 89 83 172
El Coto 28 25 34 34 27 24 89 83 172
Subtotal 28 25 34 34 27 24 89 83 172
Ceares 13 15 17 17 15 14 45 46 91
Contrueces 12 11 13 12 17 16 42 39 81
Subtotal 25 26 30 29 32 30 87 85 172

Total 199 188 222 218 191 186 612 592 1.204

Total por edades 387 440 377 1.204

Tabla 4. Distribución una muestra de 1.204 personas de 15 a 29 años, según sexo y barrio

ERRORES MÁXIMOS EN LAS ESTIMACIONES DE PORCENTAJES, AL 95% DE CONFIANZA

BARRIO Error máximo (%) EDAD Error máximo (%) SEXO Error máximo (%)

Centro / Cimadevilla 7,5 15 a 19 7,8 Hombre 6,3

Calzada / Natahoyo 7,4 20 a 24 7,4 Mujer 6,4

Pumarín / Moreda 7,4 25 a 29 8,1

El Llano 7,4

La Arena / Bibio / Viesques 7,4


ERROR MÁXIMO GENERAL PARA TODA LA POBLACIÓN: 4,5%
El Coto 7,3

Ceares / Contrueces 7,3

Tabla 5. Errores máximos en estimaciones de porcentajes, según barrio, edad y sexo

- 21 -
4.2.3. Método de selección de la muestra

Los métodos de muestreo se clasifican en “No aleatorios” o “Aleatorios”.

En el primer caso no todos los individuos tienen la misma probabilidad de ser elegidos,
quedando muchas veces a juicio del propio encuestador la decisión de a qué persona se va a encuestar;
por ello estos métodos también suelen llamarse “De juicio”.

En el caso de los métodos aleatorios todos los individuos de la población objetivo tienen la
misma probabilidad de ser escogidos; por esa razón también se llaman métodos probabilísticos.
Obviamente, en estos métodos no interviene el criterio del encuestador sobre el individuo a elegir.

En la figura 7 se presentan los métodos a los que haremos referencia.

OPINÁTICO

NO ALEATORIOS BOLA DE NIEVE


(DE JUICIO)
POR CUOTAS

MÉTODOS
SIMPLE
DE MUESTREO

SISTEMÁTICO

ALEATORIOS RUTAS
(PROBABILÍSTICOS)
ESTRATIFICADO

CONGLOMERADOS

Figura 7. Métodos de selección de una muestra

4.2.3.1. Métodos de muestreo no aleatorios

Las dificultades de diseño o los costes de los métodos probabilísticos obligan a veces al empleo
de métodos no aleatorios, aún a sabiendas de que presentan grandes inconvenientes para realizar
generalizaciones ya que la muestra extraída puede no ser representativa. En cualquier caso la premisa
general a la hora de seleccionar a los individuos debería ser la obtención de una muestra representativa,
utilizando para ello todos los criterios posibles, ya sean objetivos o subjetivos.

4.2.3.1.1. Muestreo opinático o intencional: La muestra es obtenida según el criterio de quien


diseña o recoge la muestra. Por tanto el método es completamente subjetivo, y solo puede resultar
adecuado si quien define la selección conoce aspectos de la población que permitan obtener una
muestra “representativa”.

Un ejemplo es el del investigador que decide entrevistar solo a aquellos profesores de una
universidad que tienen el más alto nivel pedagógico, con el fin de determinar cuáles son las cualidades
que debe reunir un buen alumno.

4.2.3.1.2. Bola de nieve: Se localiza a algunos individuos, los cuales conducen a otros, y estos a
otros, y así hasta conseguir una muestra suficiente. Este tipo de muestreo se emplea muy
frecuentemente cuando se hacen estudios con poblaciones marginales, sectas, ciertos tipos de
enfermos, etc.

4.2.3.1.3. Muestreo por cuotas: En este método se establecen unas "cuotas", unos cupos, que
consisten en un número de individuos que reúnen unas determinadas condiciones, como por ejemplo
pedir al encuestador que obtenga una muestra de 20 individuos de 30 a 40 años, 12 mujeres (6

- 22 -
casadas y 6 solteras) y 8 hombres (4 casados y 4 solteros). Cumpliendo esas premisas, el entrevistador
decide a quién interroga.

Dichas cuotas las establece el equipo investigador en base al conocimiento previo que se tenga
de la población, con el fin de tratar de aproximarse lo más posible a la obtención de una muestra
representativa de la población.

Este tipo de muestreo se utiliza mucho en los estudios de mercado y sondeos de opinión. Aún
no tratándose de un método probabilístico, puede dar buenos resultados si se aplica con el rigor
suficiente.

4.2.3.2. Métodos de muestreo aleatorios

La garantía del principio de equiprobabilidad de pertenencia a la muestra para los individuos de


la población objetivo hace que estos métodos sean los más recomendables desde el punto de vista
estadístico.

Sin embargo no siempre son aplicables. Es relativamente frecuente encontrarse con situaciones
que hacen imposible su aplicación, como pueden ser los costes, la duración del trabajo de campo, la
complejidad del diseño o, muy a menudo, la falta de información sobre la población objetivo.

4.2.3.2.1. Muestreo aleatorio simple: El procedimiento tiene dos pasos: 1) se asigna un número a
cada individuo de la población y 2) se sortean tantos casos como sea necesario para completar el
tamaño de muestra requerido. Ese sorteo suele efectuarse a partir de tablas de números aleatorios o
generando por ordenador dichos números.

Este método, en principio muy simple, puede no ser útil si la población que estamos manejando
es muy grande. Además para aplicarlo es imprescindible disponer del marco (lista de unidades de la
población objetivo), lo que es imposible en muchos casos.

Un ejemplo de este método aparece cuando queremos obtener una muestra aleatoria de
comercios de un determinado tipo dentro de una ciudad, por ejemplo de agencias de viaje. A partir de
un listado de las agencias existentes se sortearía el número necesario de ellas para obtener la muestra.

4.2.3.2.2. Muestreo aleatorio sistemático: Para aplicar este método se parte de un número
aleatorio i, que es un número elegido al azar, y los elementos que integran la muestra son los que
ocupan los lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es decir se toman los individuos de k en k, siendo k el
resultado de dividir el tamaño de la población entre el tamaño de la muestra: k=N/n. A k se le llama
coeficiente de elevación, y su valor nos indica a cuántos elementos de la población representa cada
elemento de la muestra. Al elemento de lugar i elegido en primer lugar se le llama punto de arranque.

El ejemplo más típico de aplicación es el de las encuestas telefónicas a partir de la guía de


teléfonos. Si en la guía figuran 2000 números y se desea seleccionar 400, sortearíamos un punto de
arranque y sobre el propio listín iríamos eligiendo a un número cada 5 (k=2000/400).

También es típica la selección sistemática de individuos por un lugar de paso, como ocurre con
las encuestas a los clientes a la entrada de un supermercado o a los turistas que van a coger el avión,
donde el encuestador elige a una de cada k personas o cada k minutos. Sin embargo en estos casos, al
no existir el marco ni estar fijado el valor de N, no está garantizada la equiprobabilidad para todos los
individuos; el método no es plenamente aleatorio.

Este procedimiento simplifica el proceso de obtención de la muestra respecto al método


aleatorio simple, particularmente si la población es grande, pues en lugar de extraer n números
aleatorios sólo se extrae uno y, a partir de él, se puede ir contando y seleccionando sobre las propias
unidades poblacionales sin necesidad de numerarlas.

El riesgo de este tipo de muestreo está en los casos en que se dan periodicidades en la
población, ya que al elegir a los miembros de la muestra con una periodicidad constante (k) podemos

- 23 -
distorsionar la muestra hasta el punto de que no sea representativa en absoluto. Imaginemos que
estamos seleccionando una muestra sobre listas de 10 individuos en los que los 5 primeros son varones
y los 5 últimos mujeres; si empleamos un muestreo aleatorio sistemático con k=10 siempre
seleccionaríamos o sólo hombres o sólo mujeres, no podría haber una representación de los dos sexos.

4.2.3.2.3. Muestreo por rutas aleatorias: Este procedimiento se caracteriza por la selección de
viviendas según una ruta aleatoria establecida por cada encuestador. Partiendo de un lugar elegido al
azar en una ciudad, el encuestador realiza sorteos de calle, portal, vivienda e individuo al que
entrevistar. Siempre que encuentre un cruce de calles vuelve a sortear por cuál debe continuar y, de
esa forma, va completando una ruta al azar.

El método podría parecer muy bueno en cuanto al grado de aleatoriedad. De hecho lo incluimos
dentro del grupo de los métodos aleatorios. Sin embargo el método es únicamente cuasi-probabilístico
pues normalmente no todas las viviendas tienen la misma probabilidad de formar parte de la muestra.

Este procedimiento es bastante utilizado con muy buenos resultados en encuestas generales
sobre ciudades de un tamaño medio o grande. Por la propia dinámica de selección de la muestra no
resulta eficaz en núcleos de población pequeños.

4.2.3.2.4. Muestreo aleatorio estratificado: Para aplicar este método hay que establecer una
partición de la población objetivo considerando categorías típicas diferentes entre sí (estratos) respecto
a alguna variable. Se puede dividir (estratificar) la población, por ejemplo, según el sexo, la edad, la
profesión, el estado civil, etc. Lo que se pretende con este tipo de muestreo es asegurarse de que todos
los estratos de interés estarán representados adecuadamente en la muestra.

Una vez establecidos los estratos de interés se reparte la muestra entre dichos estratos. El
último paso consiste en seleccionar dentro de cada estrato las unidades que formarán parte de la
muestra, para lo cual es preciso acudir a otro de los métodos aleatorios estudiados.

Como puede verse, entonces, el muestreo estratificado no en sí mismo un método de selección


de la muestra, sino un método de reparto de la misma con el fin de hacerla lo más representativa
posible. Una vez hecho ese reparto siempre vamos a necesitar acudir a otro método de muestreo.

La distribución de la muestra en función de los diferentes estratos se denomina afijación, y


puede ser de diferentes tipos:

Afijación Simple: A cada estrato le corresponde igual número de elementos muestrales.

Tal sería, para una muestra de 400 personas en la que se desea estratificar por sexo, repartir
las entrevistas en 200 hombres y 200 mujeres, sin tener en cuenta los volúmenes totales de hombres y
de mujeres que haya en la población.

Afijación Proporcional: La distribución de la muestra se hace de forma directamente


proporcional al peso (tamaño) de la población de cada estrato. La fórmula es:

Así, si en el ejemplo anterior se sabe que en la población hay 10.000 personas de las que 4.000
(el 40%) son hombres y 6.000 (el 60%) son mujeres, lo razonable es aplicar estas proporciones al
tamaño de la muestra. Con ese criterio entrevistaríamos a 0,4x400=160 hombres y 0,6x400=240
mujeres.

Existen otros criterios de afijación, como la Afijación Óptima, que no son muy utilizados por
las dificultades técnicas que presentan.

- 24 -
4.2.3.2.5. Muestreo aleatorio por conglomerados: Los métodos presentados hasta ahora están
pensados para seleccionar directamente los elementos de la población, es decir, que las unidades
muestrales son elementos de la población. En el muestreo por conglomerados la unidad muestral es un
grupo de elementos de la población, al que llamamos conglomerado. El método consiste en seleccionar
aleatoriamente un cierto número de conglomerados (el necesario para alcanzar el tamaño de muestra
establecido) y en investigar después todos los elementos pertenecientes a los conglomerados elegidos;
es decir, todos los elementos de los conglomerados seleccionados forman parte de la muestra.

Por ejemplo, supongamos que se desea elegir una muestra de 300 estudiantes de 1º de
bachillerato en una ciudad en la que hay una población de 3000 estudiantes de ese nivel, repartidos en
120 aulas en varios centros a razón de 25 alumnos por aula. Considerando cada aula como un
conglomerado de individuos, se seleccionan al azar 12 aulas de entre las 120, y se entrevista a todo el
alumnado de las aulas elegidas. De esa forma resultarían entrevistadas 12x25 = 300 personas.

Del ejemplo anterior pueden deducirse fácilmente las ventajas de este método frente al
aleatorio simple o el sistemático, ya que para poder aplicar estos se necesitaría una relación nominal de
los 3000 estudiantes, y además, una vez realizado el sorteo de las personas a encuestar, resultaría
mucho más complejo y costoso llevar a cabo las entrevistas al tener que contactar con estudiantes que
no están físicamente a la vez en el mismo aula. Sin embargo el propio sistema de aplicación del
muestreo por conglomerados hace que solo se utilice en casos muy concretos, al ser preciso que la
población pueda estructurarse en conglomerados que sean muy similares entre sí.

4.2.4. Errores ajenos al muestreo

Son muy variadas las circunstancias o imprevistos que ocurren durante el proceso de la
encuesta y que pueden dar lugar a desviaciones en los resultados. A tales situaciones se les denomina
Errores ajenos al muestreo.
Posiblemente los 4 errores más típicos sean los siguientes:

Error de cobertura.
Error de respuesta.
Falta de respuesta.
Errores en el procesamiento informático de los datos.

El primero se da cuando el Marco, listado de elementos de la población objetivo, no coincide


con los elementos de dicha población. Si en el marco hay más casos que en la población se dice que
hay un Exceso de cobertura; si hay menos se denomina Falta de cobertura.

Cuando en el cuestionario se observa una respuesta equivocada nos encontramos con el error
de respuesta.

La falta de respuesta aparece cuando un individuo deja sin responder una o más preguntas
del cuestionario.

Por último, es habitual encontrarse con errores derivados de la transcripción de los cuestionarios
al programa informático con el que se vayan a tabular los datos, o errores de codificación o de cálculo;
es decir, errores en el procesamiento informático.

En ocasiones, algunos de los errores ajenos al muestreo pueden preverse; en ese caso, suelen
establecerse unas normas o criterios a seguir ante su aparición. Tal es el caso de un entrevistador que
tiene que entrevistar en un determinado domicilio y no encuentra a nadie en la vivienda; debe de estar
previsto qué tiene que hacer ante esa situación.

- 25 -
4.3. Trabajos de campo

El éxito de una encuesta se basa muchísimo de la calidad de la información obtenida. Por ello
es imprescindible contar con un buen equipo de encuestadores y supervisores; es decir, es fundamental
hacer una buena selección y preparación del personal.

En muchas ocasiones esas tareas resultan verdaderamente complicadas debido al tipo de


encuesta, a la población objetivo o al cuestionario propuesto, entre otras razones. Piénsese en la
necesidad de capacitar o adiestrar a un conjunto de personas para que en un breve espacio de tiempo
se adapten a un nuevo comportamiento, actitudes, lenguaje, etc.

Otro aspecto no menos importante del trabajo de campo son los materiales e instrucciones para
la recogida de los datos, como pueden ser una hoja de ruta, tablas, plantillas, mapas, o un manual que
resuelva al entrevistador las dudas que le puedan surgir.

4.4. Tabulación

Desde el momento en que se van recogiendo los cuestionarios comienza la fase de tabulación.
En un primer paso aparece la ardua tarea de depurar cada cuestionario mediante su revisión y
corrección de errores, que de una forma muy básica se explica en la parte práctica de esta asignatura.

Tras la transcripción de los cuestionarios al programa informático se aborda la recodificación de


aquellas variables que haya sido preciso modificar, y la creación de nuevas variables a partir de las
existentes.

Finalmente se procede a la obtención de las tablas y resultados estadísticos.

4.5. Evaluación de resultados

Por evaluación de resultados suele entenderse muchas veces al hecho de analizar los datos
recogidos y obtener las conclusiones pertinentes. Sin embargo, ese término comporta varios aspectos
más, como la autocrítica al trabajo realizado, observando los errores y revisando el presupuesto inicial,
o como la comparación con otros diseños o trabajos similares.

En un primer paso podemos analizar las discrepancias que haya entre el diseño teórico
propuesto inicialmente y su ejecución, revisando especialmente los errores ajenos al muestreo, con el
fin de buscar mejoras de cara a futuras encuestas. Es imprescindible también recalcular los errores en el
muestreo, obteniendo así los errores a posteriori.

Si es posible también es interesante comparar nuestro modelo de trabajo con los diseños de
otros estudios similares. Seguro que redundará en una mejora en las planificaciones futuras. Este
mismo beneficio lo obtendremos realizando una comparativa entre el presupuesto establecido
inicialmente y los costes finales de las partidas de dinero asignadas a cada parcela del trabajo.

La evaluación de resultados termina con el análisis de los datos, la elaboración de las


conclusiones, y la redacción del informe final, que constituyen, en definitiva, la razón de ser del trabajo
de encuesta llevado a cabo.

Respecto al análisis de los datos podemos establecer varios niveles de profundidad, según el
grado de complejidad del trabajo y los intereses del investigador:

- Estadística descriptiva univariante. Se obtienen únicamente tablas y estadísticos de


cada variable individual. Sería el caso de limitar el estudio a la obtención de las tablas de
frecuencias y los estadísticos (media, mediana, etc.) de cada pregunta del cuestionario.

- 26 -
- Estadística descriptiva bivariante. Se obtienen cruces entre dos variables cualesquiera.
Es el caso de la obtención de resultados según el sexo, la edad, etc.

- Contrastes de hipótesis. Se juzga, a la vista de los resultados obtenidos, si son ciertas o


no determinadas propiedades de la población objetivo, apoyándose en el cálculo de
probabilidades. Por ejemplo podríamos juzgar si se puede establecer que el uso de
anticonceptivos es independiente de la edad, o si el consumo medio de alcohol en los
jóvenes es igual en los varones que en las mujeres.

- Estadística multivariante. Se obtienen resultados cruzados de tres o más variables


simultáneamente. Pongamos por caso la búsqueda de factores que inciden en el
rendimiento escolar; tendríamos que analizar simultáneamente variables como “Resultados
de los exámenes”, “Asistencia a clase”, “Horas de estudio”, “Lugar de estudio”, “Entorno en
el momento del estudio”, “Horas de TV y ocio informático”, “Composición del hogar”, etc.

En el ámbito del Trabajo Social actualmente muy pocas encuestas se quedan en el primer nivel;
lo habitual es describir la población objetivo con cada una de las variables, y después ofrecer resultados
por sexo, edad, barrio, nivel de estudios, etc., es decir, abarcar los dos primeros niveles de análisis. Los
contrastes de hipótesis también aparecen en las encuestas con cierta frecuencia, ligados
fundamentalmente a la relación entre dos variables. Y casi únicamente en proyectos de investigación,
presentaciones en congresos o estudios muy específicos suelen aplicarse los métodos de estadística
multivariante.

4.6. Big Data y encuestas on line

En los últimos años están alcanzando una notoriedad extraordinaria el análisis masivo de datos
(Big Data) procedentes de internet y las encuestas on line, con el fin de diseñar estrategias comerciales.

De ambos métodos se harán reflexiones en el aula, observando las fortalezas y debilidades que
muestran.

4.7. El informe estadístico

En este epígrafe se pretende que el alumnado conozca cuáles son los apartados que suele
incluir un informe estadístico, y el contenido de los mismos. Para su desarrollo se parte del siguiente
esquema:

# INTRODUCCIÓN

# PRESENTACIÓN Y ANTECEDENTES DEL PROBLEMA

 Descripción del problema: sentido, alcance....


 Antecedentes históricos y situación actual.
 Finalidad de la investigación: aportes teóricos y/o prácticos.

# OBJETIVOS

 Objetivos generales: principales temas que se van a estudiar.


 Objetivos específicos y formulación de hipótesis.

# METODOLOGÍA

 Ámbito, población objetivo y muestra: métodos y cálculos empleados.

- 27 -
 Instrumentos para recoger la información: observación directa, entrevista no
estructurada, cuestionario ....
 Definición de las variables.
 Técnicas de análisis para tratar los datos.
 Cronograma.
 Presupuesto.
 Ficha técnica del trabajo.

# RESULTADOS

 Exposición detallada y análisis.


 Informes parciales.
 Conclusiones finales.

# BIBLIOGRAFÍA

# ANEXOS

 Instrumentos de investigación empleados.


 Listados informáticos.
 Otros documentos.

4.8. La ficha técnica

Creemos que a la ficha técnica, presentada dentro de la metodología en el apartado anterior, se


le debe dar una relevancia específica; por ello, a partir de ejemplos de diversos casos reales, se explican
las características que debe de tener la ficha técnica de una encuesta realizada por muestreo
estadístico.

Concretamente, los puntos que debe contemplar una ficha técnica son los siguientes:

- Ámbito:
- Población objetivo (Universo):
- Tamaño poblacional:
- Tamaño muestral:
- Método de muestreo (Selección de las personas entrevistadas):
- Fiabilidad:
- Instrumento de recogida de la información:
- Período de recogida de datos (Fecha de trabajo de campo):
- Encarga el trabajo:
- Patrocinadores:
- Dirección técnica:

Sin embargo, en investigaciones, encuestas, medios de comunicación, etc. es bastante


frecuente encontrarse con fichas técnicas que no recogen todos esos aspectos. Eso puede ocurrir
porque simplemente algún punto sea desconocido, como puede pasar con el tamaño de la población;
pero también puede deberse a una omisión que, si es intencionada, trata de ocultar alguna información
que no interesa presentar públicamente.

A continuación se presentan varios ejemplos de fichas técnicas.

- 28 -
4.8.1. Encuesta sobre actividades de tiempo libre

ÁMBITO:
Municipio de Gijón.

POBLACIÓN OBJETIVO:
Residentes en el Municipio, con edades entre 15 y 70 años, ambas inclusive.

TAMAÑO DE LA POBLACIÓN:
256.433 personas.

TAMAÑO DE LA MUESTRA:
400 personas.

MÉTODO DE MUESTREO:
Aleatorio estratificado, con afijación proporcional según el sexo, la edad y el distrito
en el que viven los entrevistados. Se siguió el método de rut as aleatorias, usando tablas con
el fin de elegir la planta, puerta y persona a entrevistar mediante cuestionario estructurado.

FIABILIDAD:
Se tiene un 95% de confianza de que los errores en las estimaciones de porcentajes
para la población objetivo no superarán el 5%.

EQUIPO DE TRABAJO DE CAMPO:


Han participado 20 entrevistadores y 2 supervisores. El tratamiento informático fue
realizado por el Servicio de Informática del Ayuntamiento de Gijón.

PERIODO DE RECOGIDA DE DATOS:


23 de Abril al 16 de Mayo de 2011.

TRABAJO ENCARGADO POR:


Patronato Deportivo Municipal de Gijón.

PATROCINADOR:
Ayuntamiento de Gijón.

DIRECCIÓN TÉCNICA DEL ESTUDIO:


Departamento de Estadística de la Facultad “Jovellanos” de Gijón.

Figura 8. Ficha técnica de la encuesta ”Actividades de tiempo libre de los habitantes de Gijón”

- 29 -
4.8.2. Encuesta sobre gustos y temores en niños de 5 y 6 años.

ÁMBITO:
España peninsular.

UNIVERSO:
Niños de 5 o 6 años.

TAMAÑO DE LA MUESTRA:
400 entrevistas segmentadas de la siguiente manera:
- 50% niños y 50% niñas.
- 50% sujetos de 5 años y 50% de 6 años.
- 65% pertenecientes a colegios públicos.
- 35% pertenecientes a colegios privados.
- 70% hábitat urbano.
- 30% hábitat rural.

TIPO DE ENTREVISTA:
Personal, en los centros escolares, mediante cuestionario por cuotas de área
geográfica.

FIABILIDAD:
Estas entrevistas proporcionan un error para los datos de 4,85%, con un nivel de
confianza del 95% y el supuesto más desfavorable de la población (p=q=50).

FECHA DEL TRABAJO DE CAMPO:


Del 14 al 31 de Octubre de 2006.

TRABAJO ENCARGADO POR:


Bayard Revistas.

ENCUESTA REALIZADA POR:


Taiss Investigación S.L.

Figura 9. Ficha técnica de la encuesta ”Gustos y temores en niños de 5 y 6 años de España”

- 30 -
4.8.3. Encuesta sobre ciberacoso en 2º de la E.S.O.

AMBITO: Colegios e Institutos de Enseñanza Secundaria de Gijón

POBLACIÓN OBJETIVO: Alumnado de 2º de la E.S.O.

TAMAÑO POBLACIONAL: 1.863 personas (1.122 en centros públicos y 741 en concertados)

TAMAÑO MUESTRAL: 524 personas (251 en centros públicos y 273 en concertados)

MÉTODO DE MUESTREO: Aleatorio por conglomerados, seleccionando en cada centro un aula de 2º


de la ESO y entrevistando a todo el alumnado. Al no resultar proporcionales a la población las muestras
recogidas por tipo de centro y por sexo, se pondera cada individuo por el correspondiente coeficiente de
elevación.

FIABILIDAD: Al 95% de confianza los errores en las estimaciones de porcentajes para la población
objetivo en general y para las subpoblaciones analizadas son inferiores a las siguientes cantidades:

Tipo de población Error máximo (%)


Población objetivo 3,7
Centros públicos 5,5
Centros concertados 4,7
Varones 5,1
Mujeres 5,1
Menos de 15 años 3,9
15 o más años 9,9

PERÍODO DE RECOGIDA DE DATOS: Abril de 2010

ENCARGA EL TRABAJO: Ayuntamiento, Colegios e I.E.S. de Gijón

DIRECCIÓN TÉCNICA: José M. Menéndez y Trinidad Pascual (Universidad de Oviedo)

Figura 10. Ficha técnica de la encuesta ”Ciberacoso en estudiantes de 2º de la E.S.O. en Gijón”

Población de Muestra de Ponderación


Tipo de centro alumnos (N) alumnos (n) (N/n)
Público 1122 251 4,470
Concertado 741 273 2,714
Total: 1863 524 3,555

Tabla 6. Ponderaciones según el tipo de centro

- 31 -
4.8.4. Análisis de la oferta de alojamientos colectivos asturianos

ENCUESTA: Oferta de alojamientos


CARACTERÍSTICAS
colectivos
Ámbito geográfico: Principado de Asturias
Establecimientos de Alojamiento
Población:
colectivo asturianos.
Muestreo exhaustivo mediante
Método de muestreo:
entrevista personal estructurada
Periodo de recogida: Junio a Diciembre 2006
Tamaño Tamaño Error
Alojamientos población Muestral Máximo *

Albergue 58 37 9,78%
Apartamento Turístico 77 57 6,66%
Casa de Aldea 321 284 1,98%
Casona Asturiana 24 24 0,00%
Camping 60 53 4,64%
Hoteles 3, 4 y 5 estrellas 69 67 2,05%
Hoteles 1 y 2 estrellas 234 196 2,83%
Hostales y Pensiones. 314 131 6,55%
Total 1.157 849 1,74%
(*): Con una confianza del 95% es el error máximo que se puede cometer en las
estimaciones de porcentajes.

Figura 11. Ficha técnica de la encuesta ”Oferta de alojamientos turísticos colectivos de Asturias”

- 32 -
4.8.5. Encuesta sobre intención de voto en Asturias

Figura 13. Ficha técnica de la encuesta ”Intención de voto en Asturias”

- 33 -
________________________________

Tareas sobre el tema 4


________________________________

El siguiente grupo de ejercicios integran todos los conceptos estudiados en los temas 2 y 4. Al
inicio de cada pregunta la forma del paréntesis nos indica a qué tema pertenece la pregunta en
cuestión. Así b) indica que corresponde al tema 2, y b( que pertenece al tema 4.

EJERCICIOS GENERALES DE LOS TEMAS 2, 3 Y 4

1) Ante la polémica surgida en una población por la posible instalación de una central térmica, el
Ayuntamiento decide realizar un sondeo entre las personas adultas preguntando a 400 y a 300
habitantes de las zonas urbana y rural, respectivamente. El resultado ha sido que 182 personas de la
1ª zona y 147 de la 2ª se mostraron en total disconformidad con el proyecto.

a) Dar sendos intervalos, al 95,5% de confianza, para el porcentaje de disconformes en cada zona. ¿En
qué zona se comete menos error en el pronóstico del porcentaje?.
b) El alcalde, ¿podrá sostener que los disconformes con la instalación no son la mayoría de la población
adulta, si se apoya para ello en un intervalo al 99% de confianza?.

2) En una zona de una ciudad, en la que el problema del paro entre los jóvenes cobra especial
intensidad, diversos Organismos de la Administración llevan a cabo una encuesta que permita
planificar actuaciones concretas. Se entrevista a 500 jóvenes, de los 1.100 que hay en esa zona, y
se obtienen los siguientes datos:

Nº de entrevistados actualmente en paro: 300


Ingresos medios de los entrevistados, por rendimientos del trabajo: 700 €/mes
Desviación típica de los ingresos: 100 €/mes

a) Estimar el porcentaje de jóvenes en paro, al 95% de confianza, y analizar el error.


b) ¿Qué confianza podemos tener de no equivocarnos en más de 6,6 €/mes en la estimación de los
ingresos medios?.

3) Desde la Consejería de Trabajo se encargó una encuesta a Teleopinión S.A. en la que interesaba
analizar la situación y expectativas de la población masculina en edad laboral (18 a 64 años) del
barrio de La Carriona en el Municipio de Avilés. La recogida de los datos se efectuó en el mes de
Marzo del presente año, entrevistando a 474 personas, y los resultados se presentaron siempre en
forma de porcentajes.

a) Determinar el error máximo de los resultados, al 95% de confianza. ¿Puede decirse que la encuesta
tiene mucha fiabilidad?.
b( ¿De qué forma llevarías a cabo la selección de los entrevistados?.
c( Con los datos disponibles hasta este apartado, haz una ficha técnica de esta encuesta.
d) De las entrevistas realizadas, 200 corresponden a personas de 18 a 35 años, y 274 al rango de 36 a
64 años. El 30% del primer grupo y el 24,82% del segundo son personas que están en paro.
¿Qué % de la población se encuentra en situación de paro?. Estimar puntualmente y por
intervalo al 99% de confianza, analizando la fiabilidad del pronóstico.

- 34 -
4) En el próximo mes de Octubre, la empresa Opinión S.A. realizará un muestreo, para la Consejería de
la Juventud, entre las asociaciones juveniles de Asturias con el fin de estimar diversos promedios
relativos a los ingresos y gastos anuales de esas asociaciones.

Para ello se dispone de un listado donde aparecen numeradas las distintas asociaciones,
clasificadas en tres grupos de acuerdo al volumen de socios:
Tipo de asociación
Pequeña Mediana Grande
Nº de asociaciones 200 50 6

Por análisis previos se sabe que la desviación típica de las variables a observar es del orden
de 1.250 €, y que ésta es básicamente la misma en cualquier tipo de asociación.
a) Determina, al 95% de confianza, el tamaño muestral necesario para que el error en la estimación de
las medias no supere 200 €.
Si se quisiera hacer pronósticos sobre porcentajes, ¿a cuántas asociaciones habría que
entrevistar para que los errores no superasen el 5%?.
b) Finalmente solo se analizan 90 asociaciones, y se obtiene un presupuesto medio anual para
actividades culturales de 5.000 € y una desviación típica de 1.200 €.
Dar, al 95,5% de confianza, un intervalo para ese presupuesto medio y analizar el error de
la estimación. ¿Por qué resulta mayor que el previsto en el apartado a)?.
c( Explica con detalle, razonándolo, el sistema que llevarías a cabo para seleccionar la muestra.
d( Presenta una ficha técnica del muestreo realizado.

5) Se realizó una encuesta en Gijón entre las mujeres casadas, en la que se pretendía analizar el
tiempo dedicado a las distintas tareas de la vida diaria. Para ello se entrevistó a 79 mujeres,
repartidas en 3 niveles de edad: 29 entrevistadas menores de 30 años, 21 con edad de 30 a 50, y
29 mayores de 50 años. La pregunta del cuestionario que analizaremos en este caso es “¿Cuántos
minutos dedicas a cocinar, semanalmente?”.

a) Se obtuvo que las entrevistadas dedican a cocinar, semanalmente, una media de 519 minutos con
una desviación típica igual a 348 minutos.
¿Es grande o pequeño el error que se comete en el pronóstico de la media, al 95,5% de
confianza?. ¿A qué factores achacas el hecho de que salga esa cantidad?.
¿A cuántas mujeres habría que entrevistar para que el error en esa estimación no fuese superior
a 13 minutos?.
b( ¿A que método de muestreo podría corresponder la recogida de los datos, según la información
disponible en el ejercicio?.

6) La Consejería de Trabajo y Promoción del Empleo del Principado de Asturias solicita al Departamento
de Sociología de la Universidad de Oviedo la realización de una encuesta con el fin de analizar
diversos aspectos socioeconómicos de la población masculina de Avilés, con edad entre 18 y 64
años, y en la que interesa particularmente distinguir dos sectores: personas en paro y personas en
activo.
Para llevar a cabo el estudio se dispone de sendos listados de la población citada donde figuran,
numerados, los nombres y direcciones de los 8.000 parados y de las 32.000 personas en activo que
hay en la ciudad.
La recogida de los datos se realizará en el próximo mes de Octubre, entrevistando a 360
parados y a 1.440 personas en activo, y los resultados serán reflejados, fundamentalmente, en
forma de porcentajes.

- 35 -
a) Con una confianza del 99%, ¿cuál es el error máximo que se comete al hacer estimaciones de
porcentajes para cada uno de los sectores indicados?. ¿Y para toda la población?. Analiza la
fiabilidad de esta encuesta.
b( Justifica, detalladamente, qué métodos de muestreo parecen más adecuados para seleccionar la
muestra en este caso.
c( Con la información que se desprende de este ejercicio, cubre una ficha técnica que recoja los
aspectos esenciales de la encuesta realizada.

7) Se trata de hacer una investigación en Gijón, mediante una encuesta, sobre las mujeres divorciadas.
El trabajo, subvencionado por el Ayuntamiento, lo llevará a cabo la consultoría Pearson & Co.,
realizando el trabajo de campo entre los días 12 al 30 del próximo mes de Abril, con la participación
de 10 encuestadores, 3 supervisores y 2 directores técnicos.
a) Los resultados se van a presentar en forma de porcentajes, y se desea tener un 95,5% de confianza
de que los errores no superarán el 5,5%. ¿A cuántas mujeres habrá que entrevistar?.
b( Reflexiona sobre los métodos de muestreo que se podrían llevar a cabo para recoger la información.
c) Finalmente, se decide entrevistar a 400 mujeres divorciadas. De ellas, 120 manifiestan la existencia
de malos tratos en su matrimonio. Dar una estimación por intervalo, al 99% de confianza, para el
porcentaje de casos de maltrato.
¿Se comete mucho error en la estimación?. Compáralo con el que se había previsto en a) y
razona a qué se debe la diferencia que se observa.
d) ¿Cuál es el error máximo a posteriori, al 95,5% de confianza?.
e( Presenta una ficha técnica con las características metodológicas más relevantes.

8) Dentro del presupuesto de una encuesta, en la que se van a estimar una serie de porcentajes en una
población de 2000 personas, se dispone de 4845 € para el pago a los entrevistadores por el
rellenado de los cuestionarios.
Si cada cuestionario cubierto se paga a 15 €, ¿qué tamaño muestral, qué nivel de confianza y
qué error de estimación propondrías?.

9) Se pretende estimar el ingreso medio que, en concepto de pensión, perciben mensualmente las
personas jubiladas de una ciudad. Experiencias anteriores indican que la dispersión de la cuantía de
esas pensiones es del orden de 180 €.
a) Si se desea tener una seguridad del 99% de que, en dicha estimación, no se cometerá un error
absoluto superior a 20 €, ¿a cuántos jubilados habrá que entrevistar?. ¿Y si finalmente nos informan
de que hay 2980 pensionistas en esa ciudad?.
b) Tras entrevistar a 576 pensionistas se encontró una pensión media de 900 € y una dispersión de
340,83 €.
Con un 95% de confianza, analizar el error máximo para la cuantía de la pensión media de los
2980 pensionistas. Compárese con el previsto en a) y analícese la situación.
¿En cuánto estimaríamos la cantidad global que se reparte en pensiones cada mes en esa
ciudad?. ¿Qué margen de error (en €) tiene esa cantidad?.
c( Explica con qué criterios de muestreo podríamos realizar la recogida de datos.

- 36 -
Soluciones

1) a) 1ª zona: p1=0,455 (0,455 0,0498) (40,52%;50,48%) 1=4,98%

2ª zona: p2=0,49 (0,49 0,0577) (43,23%;54,77%) 2=5,77%

Se comete menos error en la 1ª zona.


b) p=0,47 (0,47 0,0481) (42,18%;51,81%) No debe sostener esa afirmación, pues el intervalo
no se sitúa completamente por debajo del 50%.
2) a) p=0,6 y =0,0317. Luego (56,83%;63,17%) =3,17% y =95% ----> Muy fiable.
b) Resulta z=2, que se corresponde con una confianza del 95,5%.

3) a) Tomando p=0,5 se calcula =4,5%. Como además =95% ----> Muy fiable.
b) O por rutas aleatorias, estratificando por edades, o no aleatoriamente por cuotas de edad.
d) El 27%. Se obtiene =5,25%, luego (21,75%;32,25%)
=5,25% (algo mayor del 5%), pero =99% ----> Muy fiable.

4) a) n=94,6 ----> 95 asociaciones. Para porcentajes resultaría n=153,8 ----> 154 asociaciones.
b) =203,72 €. Luego, (4.796,28 €; 5.203,72 €) .

r=4,07% y =95,5% ----> Muy fiable.


c) Estratificado con afijación proporcional según el tipo de asociación (74 pequeñas, 19 medianas y 2
grandes). En cada estrato se aplica el muestreo aleatorio simple.

5) a) =78,3 minutos. r=15,08% ----> Es grande, debido a “n” y a la dispersión


Para =13 minutos ----> n=2.866,3 (2.867 mujeres)
b) Podría ser no aleatorio por cuotas de edad. Aunque también podría haberse realizado por rutas
aleatorias y estratificando según la edad.

6) a) Parados: =6,63% Activos: =3,31% Población total: =2,96%


Fiabilidad muy alta; aunque para los parados es >5%, la confianza es del 99%.
b) Aleatorio simple y estratificado con afijación proporcional según edad y situación laboral.

7) a) n=330,57 ----> 331 mujeres divorciadas


c) p=30% y =5,9%, luego es (24,1%;35,9%)
El error no es grande, aunque salga mayor del 5%, pues =99%. Resulta mayor que el previsto
en a). Al entrevistar a más personas de las previstas debería haber disminuido el error; pero el
aumentar la confianza del 95,5% al 99% provoca que el error aumente.
d) El error máximo es del 5%.

8) n=4845/15=323 cuestionarios. Lo más razonable sería tomar =95%, pues nos lleva a =4,99%,
que es menor del 5%. Si tomamos =95,5%, entonces =5,1%, ligeramente mayor del 5%. Desde
luego no tomaríamos =99%, pues =6,56%.

9) a) A 538 personas en el primer caso y a 456 en el segundo supuesto.


b) =25€ r=2,78%. Se ha entrevistado a más personas de las previstas en a), y la confianza
propuesta ahora es menor; todo ello tendría que haber provocado una disminución en el error

- 37 -
respecto al apdo. a). Sin embargo la dispersión encontrada ahora es muy superior a la de a) y
esto hace que el error finalmente haya crecido. No obstante el error sigue siendo pequeño pues

r es menor del 5%.


La cantidad global estimada es de 2.682.000 €. El margen de error es de 74500 €.
c) Partiendo de la base de que será imposible disponer de un listado con la dirección de todas las
personas jubiladas (lo que elimina el método aleatorio simple y el sistemático con marco), habrá
que pensar en un método de rutas aleatorias teniendo en cuenta además las estratificaciones que
puedan llevarse a cabo (por sexo, edad, barrios o distritos, etc.). De no hacerse así, se iría a un
método no aleatorio por cuotas de sexo, edad, barrios, etc.

- 38 -
5
________________________________

Tabulación y análisis de datos

5.1. Fuentes de información estadística

De forma general, la toma de datos estadísticos puede hacerse por dos vías: mediante la
recogida personal a través de encuestas o censos, o recopilando los datos de fuentes diversas. En los
temas anteriores nos hemos referido a la primera de esas vías; en este apartado incidimos en la
segunda vía, sugiriendo una serie de organismos que pueden resultar de utilidad para el trabajador
social.

5.1.1. Organismos nacionales

Lógicamente, en primer lugar, debemos señalar al ente más significativo dentro de las
Estadísticas Oficiales: el Instituto Nacional de Estadística (INE) http://www.ine.es/. En su página web
se encuentra la información estructurada en los siguientes bloques:

- Agricultura y medio ambiente


- Ciencia y tecnología
- Demografía y población
- Economía
- Industria, energía, construcción
- Mercado Laboral
- Nivel y condiciones de vida (IPC)
- Servicios
- Sociedad
- Datos internacionales
- Síntesis estadística
- Indicadores económicos. FMI

Seguro que en todos ellos encontraremos estadísticas interesantes, pero quizá el apartado de
Sociedad sea el más interesante para nuestros fines. Se divide en los siguientes epígrafes:

- Educación
- Cultura y ocio
- Salud

- 39 -
- Seguridad y Justicia
- Nivel, calidad y condiciones de vida (IPC,...)
- Mercado laboral (EPA, Costes laborales,...)
- Análisis sociales
- Procesos electorales

Otro organismo importante como fuente de datos es el Ministerio de Sanidad, Servicios Sociales
e Igualdad (http://www.msc.es/). Al entrar en su página web se nos ofrece la posibilidad de consultar el
llamado Portal Estadístico de SNS.

El IMSERSO (http://www.imserso.es/imserso_01/index.htm), en el apartado dedicado a


secciones informativas, y dentro de él en “Documentación”, ofrece un amplio abanico de estadísticas. Y
en el portal científico, llamado “Portal Mayores” (http://envejecimiento.csic.es/general/index.html), se
ofrecen informaciones muy variadas y estadísticas relacionadas con Gerontología y Geriatría.

A nivel regional, cada comunidad autónoma tiene sus propios organismos de elaboración de
estadísticas. En el caso del Principado de Asturias, el organismo más conocido es la Sociedad Asturiana
de Estudios Económicos e Industriales, llamada abreviadamente SADEI (http://www.sadei.es/).
Obviamente también podemos buscar información en la web del Gobierno del Principado
(http://www.asturias.es/) y en las webs de las Consejerías y Servicios que de él dependen, como
pueden ser los portales de salud y educación AsturSalud (http://www.asturias.es/portal/site/astursalud)
y Educastur (http://www.educastur.es/). Para temas relativos a género podemos dirigirnos al Instituto
Asturiano de la Mujer (http://institutoasturianodelamujer.com/iam/).

A nivel municipal tendremos que dirigir nuestra búsqueda de datos a los ayuntamientos
correspondientes, a través de sus empresas, fundaciones, patronatos, etc., o a todas aquellas entidades
públicas o privadas relacionadas con nuestro objeto de estudio.

En el caso de Gijón podemos consultar la página web del ayuntamiento (http://www.gijon.es/).


En su zona inferior encontraremos enlaces a otros portales como pueden ser el de la Fundación
Municipal de Servicios Sociales, FMSS, (http://sociales.gijon.es/) o el relativo a temas de inmigración
(http://inmigrante.gijon.es/). Este ofrece unos enlaces de interés como el Observatorio de la
Inmigración en Asturias o el Observatorio Español del Racismo y la Xenofobia.

5.1.2. Organismos internacionales

Dada la variedad de organismos a los que podríamos dirigirnos según el tipo de estadística que
estemos interesados en encontrar, citaremos solo dos casos:

- Eurostat.
http://ec.europa.eu/eurostat/
- Organización Mundial de la Salud (WHO)
http://who.int/es/

Señalemos, finalmente, que en la página web del INE, en su apartado denominado “Datos
Internacionales” figuran también algunas estadísticas internacionales relativas a demografía, educación,
salud y condiciones de vida, entre otras.

5.2. Software de tipo estadístico

El paquete estadístico SPSS (http://www.ibm.com/analytics/es/es/technology/spss/) será el que


utilicemos, tanto para obtener tablas y resultados diversos como para la realización de gráficos. Para
esta última tarea, no obstante, se recomienda también el uso del programa Microsoft Excel.

Para el seguimiento de este tema se recomienda especialmente la asistencia a las clases. En


todo caso se facilitarán al alumnado las bases de datos que se utilizarán. Además en la bibliografía
figuran varios libros de apoyo para el manejo del paquete estadístico.

- 40 -
Otros programas que pueden ser útiles son el R (http://www.r-project.org/), el PSPP
(http://www.gnu.org/software/pspp/pspp.html), el Statgraphics (http://www.statgraphics.net/) o el SAS
(http://www.sas.com/).

________________________________

Tareas sobre el tema 5


________________________________

Tareas no presenciales:

Se entregará una lista de ejercicios de análisis de datos, con sus soluciones, para que el
alumnado practique por su cuenta.

Tareas presenciales:

Discusión de aspectos técnicos de algunas de las encuestas elaboradas por los organismos
citados en este tema.

En la sala de ordenadores, a medida que se vayan explicando los apartados que conforman el
tema 5, se irán proponiendo ejercicios sobre el manejo del SPSS y la interpretación de los resultados
obtenidos.

- 41 -
________________________________

Bibliografía

Documento básico
1. Menéndez, J.M. (2017). “Estadística para el Trabajo Social. Apuntes y tareas”.

Referencias generales
2. Infante, F.G., Zárate, L. F. (2005). “Métodos estadísticos”. Ed. Trillas.
3. Levin, R. (1997). “Estadística para Administradores”. Ed. Prentice Hall.
4. Lohr, S. L. (2000). “Muestreo: diseño y análisis”. Ed. Thompson-Paraninfo.
5. Pérez, C. (2009). “Técnicas de muestreo estadístico”. Ed. Garceta.
6. Quesada, V., Isidoro, A., López, L.A. (1989): “Curso y ejercicios de Estadística”. Ed. Alhambra.
7. Ruiz Maya, L., Martín Pliego, F. J. (2002). “Estadística II: Inferencia”. Ed. AC..

Referencias para el software estadístico


8. Ferrán Aranaz, M. (2001). “SPSS para Windows. Análisis estadístico”. Ed. Mc Graw Hill.
9. Gondar Nores, J.E. (2002). “Análisis estadístico con SPSS”. Data Mining Institute S.L. Madrid.
10. Martín, Q., Cabero, M. T., Paz, Y. R. (2008). “Tratamiento estadístico de datos con SPSS”.
Thompson. Madrid.
11. Pérez, C. (2001). “Técnicas estadísticas con SPSS”. Ed. Prentice-Hall.

- 42 -
________________________________

Anexo I:

Tabla de la distribución N(0;1)

- 43 -
TABLA DE LA DISTRIBUCIÓN N(0;1)

La tabla proporciona la probabilidad , en %, del intervalo ( -z , z ).

La probabilidad se obtiene sumando los números que aparecen en los márgenes.

Así, para z = 2,241 el valor de es 90,0 + 7,5 = 97,5 %

- 44 -
(en %) 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5 9,0 9,5
90,0 1,645 1,670 1,695 1,722 1,751 1,780 1,812 1,845 1,881 1,919 1,960 2,005 2,054 2,108 2,170 2,241 2,326 2,432 2,576 2,807
80,0 1,282 1,296 1,311 1,326 1,341 1,356 1,372 1,388 1,405 1,422 1,440 1,457 1,476 1,495 1,514 1,534 1,555 1,576 1,598 1,621

70,0 1,036 1,047 1,058 1,069 1,080 1,092 1,103 1,115 1,126 1,138 1,150 1,163 1,175 1,188 1,200 1,213 1,227 1,240 1,254 1,267

60,0 0,842 0,851 0,860 0,869 0,878 0,887 0,896 0,906 0,915 0,925 0,935 0,944 0,954 0,964 0,974 0,984 0,994 1,005 1,015 1,026

50,0 0,674 0,682 0,690 0,698 0,706 0,714 0,722 0,731 0,739 0,747 0,755 0,764 0,772 0,781 0,789 0,798 0,806 0,815 0,824 0,833

40,0 0,524 0,532 0,539 0,546 0,553 0,561 0,568 0,575 0,583 0,590 0,598 0,605 0,613 0,620 0,628 0,636 0,643 0,651 0,659 0,667
30,0 0,385 0,392 0,399 0,406 0,412 0,419 0,426 0,433 0,440 0,447 0,454 0,461 0,468 0,475 0,482 0,489 0,496 0,503 0,510 0,517

20,0 0,253 0,260 0,266 0,273 0,279 0,286 0,292 0,299 0,305 0,312 0,319 0,325 0,332 0,338 0,345 0,352 0,358 0,365 0,372 0,379

10,0 0,126 0,132 0,138 0,145 0,151 0,157 0,164 0,170 0,176 0,183 0,189 0,196 0,202 0,208 0,215 0,221 0,228 0,234 0,240 0,247

0,0 0,000 0,006 0,013 0,019 0,025 0,031 0,038 0,044 0,050 0,056 0,063 0,069 0,075 0,082 0,088 0,094 0,100 0,107 0,113 0,119
________________________________

Anexo II:

Ficha pasada a familias con situación


económica precaria, para baremar los
casos con el fin de otorgar una serie de
ayudas.

- 45 -
DATOS DEL GRUPO FAMILIAR

MIEMBROS

EDAD

SEXO

E. CIVIL

SALUD

ESTUDIOS

SIT. LABORAL

OCUPACIÓN

INGRESOS

Nº PAGAS

TIEMPO PARO

DATOS DE LA VIVIENDA

TIEMPO DE RESIDENCIA TIPO DE HABITAT

TIPO DE VIVIENDA RÉGIMEN DE TENENCIA

Nº DE HABITACIONES M2 APROXIMADOS

EQUIPAMIENTO CARENCIAS

- 46 -
________________________________

Anexo III:

Sección de un cuestionario pasado a los


ganaderos de ovejas y cabras de la
provincia de León.

- 47 -
- 48 -
- 49 -
- 50 -
________________________________

Anexo IV:

Ejemplo de cronograma

- 51 -
- 52 -

Anda mungkin juga menyukai