2.2. Estadística
2.2.2. Inferencia estadística: estimación y contrastes
Índice
Página
Ejercicios
Página
Ejercicio 2.1:........................................................................................................................ 4
Ejercicio 2.2:........................................................................................................................ 9
Ejercicio 2.3:...................................................................................................................... 17
Ejercicio 2.4:...................................................................................................................... 23
i) Introducción a la inferencia
1
Parámetro: es un número (usualmente desconocido) que caracteriza a una población o a una variable aleatoria. Ej:
estatura media de los españoles, efectividad de un medicamento, etc.
Que sea insesgado, es decir, que sean lo más parecido en algún sentido al
parámetro a estimar.
Que tenga varianza mínima, es decir, que sea estable en el muestreo.
2
Cuidado con las distintas acepciones que se dan a los mismos términos. En el lenguaje médico podemos ver, por
ejemplo, que a las distintas variables bioquímicas medidas en un análisis de sangre u orina se les denomina
parámetros. En Estadística se reserva esa palabra para los valores en la población.
poblacional .
- La cuasi-varianza muestral 3 Sˆ2 , es un estimador eficiente de la
varianza poblacional 2 .
- La proporción de éxitos en la muestra p , es un estimador eficiente
de la proporción en la población p.
Ejercicio 2.1:
Supongamos que los datos proporcionados en la base de datos
Pacientes_infartados.xls han sido extraídos al azar (por un procedimiento de
muestreo adecuado) y son una muestra representativa de los pacientes que
acuden a urgencias a lo largo del año en un hospital. Queremos realizar unas
estimaciones puntuales a cerca de los posibles valores de determinados
parámetros de la población:
Respuesta
1. Realice una estimación puntual de la edad de los pacientes
infartados.
3
Se define igual que la varianza muestral, pero en el denominador tiene un “n-1” en lugar de “n”.
En el ejemplo de la estatura,
supongamos que al tomar la
muestra de españoles hemos
obtenido que 171 ≤ ≤ 178, es decir
el parámetro “estatura media de los
españoles” está comprendido entre
171 cm y 178 cm con una confianza
del 95% (si es el nivel de confianza
utilizado al realizar los cálculos).
¿Cómo se interpreta este 95%?
Pues si repetimos el experimento
100 veces, en 95 de ellas seguro
que el verdadero valor del parámetro
(estatura media de los españoles)
estaría incluido dentro del intervalo
calculado y en 5% de ellas no.
Este aspecto es el que se trata de
esquematizar con el gráfico de la
izquierda. La mayoría de los
intervalos contendrán al verdadero
valor del parámetro (línea azul), pero
habrá alguno que no lo contendrá,
nos estaremos equivocando y no lo
sabremos…
Por una serie de cuestiones estadísticas que no son objeto del presente
curso, el intervalo de confianza para la media de una distribución Normal de
varianza conocida con un nivel de confianza 1 tendría el siguiente aspecto:
I
1 X Z 2
n
Nota: Los valores de Z 2 para los niveles de confianza más habituales son: Para 95%: Z 2 1,96
Para 99%: Z 2 2,58
Ejemplo:
Queremos calcular un intervalo con una confianza del 95% para estimar la
estatura media de los españoles, sabemos que la desviación típica poblacional
es 20cm. Tomamos una muestra representativa de la población de 1.000
individuos. Calculamos la estatura media de la muestra tomada y resulta ser
173cm.
171,8 174,2
95%
I
4
Que una variable siga una distribución Normal quiere decir que la forma que tiene la distribución de valores de la
variable, es en forma de campana, como la que aparece en la figura.
Respuesta
1. Suponga que la desviación típica de la edad de la población es
de 12,75 años. Haga una estimación de la edad media de la
población, con una confianza del 95%.
2. Si queremos que el intervalo calculado en el punto 1 sea más
preciso, trabajaremos con una confianza del 99%. Responda
Verdadero o Falso.
Hay que tener cuidado a la hora de elegir estos errores, ya que ambos
están relacionados en sentido inverso, al descender uno, aumenta el otro. En el
ejemplo del juicio, si no queremos que ningún inocente vaya a la cárcel, seguro
que algún culpable se queda en libertad…
H0 H1
Inocente Culpable
la prueba
estadística Error tipo II
Acepto Ho
Correcto
En libertad… ()
Ejemplo:
Queremos saber, con un nivel de significación del 5%, si la estatura media
de los españoles podemos considerarla 170 cm. Sabemos que la desviación
típica poblacional es 20 cm. Tomamos una muestra representativa de la
población de 1.000 individuos. Calculamos la estatura media de la muestra
tomada y resulta ser 173 cm.
Decidimos trabajar con un nivel del significación del 5%, por ejemplo:
= 0,05
5. A continuación determinamos l a r e g i ó n c r í t i c a y l a r e g i ó n d e
aceptación (RC y RA): Denominamos región crítica al conjunto de valores
teóricos que de caer ahí el valor del estadístico de contraste, nos lleva a
rechazar la hipótesis nula. Llamaremos región de aceptación a los valores que
nos llevan a aceptar la hipótesis nula cuando el valor del estadístico de
contraste está entre ellos.
RA
0,95
0,95
RC RC
0,025
0,025
-Z Z
-1,96 1,96 Zexp=4,74
RC RC
C on trastes
UNILATERALES
Acepto H0
RA P-valor
P-valor
RC
Z
Zexp
Resumiendo:
Ejemplo 5:
Supongamos que queremos saber si la tensión sistólica media puede
considerarse igual en hombres (H) y en mujeres (M). Para ello tomamos
una muestra aleatoria (con las suficientes garantías) y obtenemos los
siguientes resultados:
Estadísticos de grupo
5
Los distintos paquetes estadísticos exponen sus resultados de forma aparentemente distinta, pero sólo en el aspecto,
en el fondo, son todas similares.
Respuesta
1. El error tipo I y el error tipo II tienen que ser siempre del 5% o
del 1%.
Muestreos probabilísticos
Ejemplo:
Supongamos que queremos conocer la salud bucodental de los escolares
entre 6 y 12 años de Castilla y León. Podemos conseguir un listado de todos
los alumnos de esa edad matriculados en los centros de educación de la
Comunidad (lo que se denomina marco). Mediante una tabla de números
aleatorios (o generando los números de forma aleatoria con el ordenador),
realizaremos un muestreo aleatorio simple y seleccionaremos a los alumnos
que formarán parte de la muestra.
Ejemplo:
Si elegimos un día cada 7 (k=7) para estudiar el tiempo medio de espera
en la consulta del médico, estaremos seleccionando siempre a los pacientes
que acuden el mismo día de la semana, lo que puede estar sesgando el
estudio (parece que las consultas están más saturadas los lunes que los
viernes, por ejemplo).
Muestreo estratificado:
Ejemplo:
Volviendo al ejemplo de la salud bucodental de los escolares nos damos
cuenta de que al realizar un m.a.s. en la muestra podría no salirnos ningún niño
de entre 10 y 12, lo que podría sesgar los resultados. Podríamos hacer estratos
por edades: de 6, 7, 8, 9, 10, 11 y 12 años, 7 estratos. Extraemos una muestra
aleatoria en cada uno de los estratos, para asegurarnos de que todos los
estratos que nos interesan están representados.
Ejemplo:
Para reducir costes, podríamos pensar en los colegios como
conglomerados, ya que son un grupo heterogéneo con todas las características
de la población: hay alumnos de todas las edades, la proporción por sexo será
parecida a la de la población, etc. Seleccionamos al azar una muestra de
conglomerados (de colegios) y así nos ahorramos tener que ir a tantos centros
educativos distintos. Dentro de cada colegio seleccionado, podemos tomar
datos de todos los alumnos de entre 6 y 12 años, o extraer muestras
aleatorioas.
Muestreos no probabilísticos
Voluntarios
Los grupos de voluntarios son frecuentes y, en general, los resultados no
son representativos de la población ya que muchos voluntarios tienen alguna
causa que les impulsa a serlo y esto puede sesgar el estudio.
2 ˆˆ
Z 2 Npq
1 ˆ ˆ N n
pq n
I p pˆ Z 2 n N 1 2 2 ˆˆ
E N 1 Z 2 pq
Ejercicio 2.4:
Responda a las siguientes preguntas con verdadero o falso:
Respuesta
1. Lo importante a la hora de realizar inferencia, es obtener un
tamaño de muestra muy grande, da igual cómo se haya
obtenido.