CONTRASTES DE HIPOTESIS
José Luis Vicente Villardón
Departamento de Estadística
Universidad de Salamanca
INDICE
0.- INTRODUCCIÓN Y MOTIVACIÓN......................................................... 3
De acuerdo con lo explicado, los pasos que se han de realizar `para llevar a cabo
un contraste de hipótesis son los siguientes:
RIBERA DE DUERO
12,8 12,8 12,5 11,9 12,5 12,1 12,2 12,6 13,0 12,4 12,6 12,2 12,8 13,0
La primera cuestión que hemos de tener en cuenta es que la decisión por una
hipótesis concreta ha de tomarse con un cierto riesgo de equivocarse al no
disponer de la información de todos los individuos de la población.
Trabajaremos con la media muestral como estimador de la media poblacional
desconocida. En el ejemplo la media muestral es de 12,529, que como ya
sabemos no coincide con la media poblacional.
Trataremos de decidir entre las dos hipótesis a partir del valor de la media
muestral pero, si la media muestral no coincide con la media poblacional, ¿será
la diferencia entre el valor observado y el teórico lo suficientemente grande
como para rechazar la hipótesis nula? ó ¿la diferencia observada es lo
suficientemente pequeña como para ser debida simplemente al azar o al
desconocimiento de la población?. Daremos respuesta a ambas preguntas
utilizando los conceptos sobre distribuciones aprendidos en temas anteriores.
A los valores de z/2 se les suele denominar valores críticos ya que determinan
la frontera entre la región crítica y la región de aceptación.
HIPOTESIS:
NIVEL DE SIGNIFICACION:
ESTADIGRAFO DE CONTRASTE:
REGION DE ACEPTACION:
REGION CRITICA:
Cuadro 2: Contraste para la media de una población normal con varianza conocida.
Una vez que hemos determinado la forma general del contraste pasamos a
aplicarlo a los datos del problema inicial que nos ocupa.
Hipótesis:
Estadígrafo de contraste:
Cuadro 3: Aplicación del contraste para la media de una población normal con varianza conocida al
problema de la modificación en el grado alcohólico del vino de Ribera de Duero.
Una vez que hemos tomado la decisión final, no sabemos si es correcta o no,
simplemente esperamos que sea del 95% de las muestras en las que aceptamos
la hipótesis correctamente. Si aceptamos la hipótesis nula no quiere decir que
sea cierta y el grado medio sea exactamente de 12.5 grados (probablemente no
lo es), sería más correcto interpretar que, con la información de la que
disponemos no hemos encontrado evidencia suficiente de que la media sea
distinta de 12.5. Evidentemente, los valores muestrales son compatibles con
muchos otros posibles valores teóricos.
Si aumentamos el tamaño de muestra indefinidamente, la variabilidad de la
media sería cada vez menor y conseguiríamos que la pequeña diferencia
observada sea lo suficientemente grande como para considerarla significativa.
Es por esto por lo que en Estadística decimos que es tan malo tener un tamaño
de muestra demasiado alto como tenerlo demasiado bajo ya que en el primer
caso cualquier pequeña diferencia es considerada como significativa mientras
que en el segundo no se declara significación incluso en el caso en el que la
diferencia sea elevada.
Cual sería la potencia del contraste obtenido para detectar que la media no es
12.5 si en realidad la media fuera 13 (y suponiendo un nivel de significación
del 5%).
para el ejemplo del grado alcohólico, n> 1141,97, es decir, para que la
diferencia observada fuera significativa tendríamos que haber recogido más de
1142 observaciones lo que da una idea de que la diferencia observada es muy
pequeña y, por tanto es muy probable que la hipótesis nula sea cierta.
Para el ejemplo anterior el p-valor es 1-P(-0.217 < Z < 0.217) = 2 P(Z > 0.217)
= 0.8285, es decir el p-valor puede considerarse grande. En la práctica se suele
adoptar el criterio de aceptar la hipótesis cuando el p-valor es mayor que el nivel
de significación fijado en el procedimiento de contraste.
HIPOTESIS:
NIVEL DE SIGNIFICACION:
ESTADIGRAFO DE CONTRASTE:
REGION DE ACEPTACION:
REGION CRITICA:
Cuadro 4: Contraste unilateral superior para la media de una población normal con varianza conocida.
El contraste así obtenido se denomina contraste unilateral superior ya que solo
estamos interesados en las desviaciones positivas. La diferencia fundamental
con el contraste bilateral es que se produce un incremento en la potencia para
detectar diferencias positivas de la hipótesis nula y un decremento drástico para
detectar las negativas.
como .
HIPOTESIS:
NIVEL DE SIGNIFICACION:
ESTADIGRAFO DE CONTRASTE:
REGION CRITICA:
p-valor:
Cuadro 5: Contraste unilateral inferior para la media de una población normal con varianza conocida.
La decisión por el tipo de contraste debe hacerse a priori, antes de tomar los
datos. Supongamos, por ejemplo, que sospechamos, antes de realizar el
experimento, que la modificación en el proceso de fabricación, aumenta el
grado alcohólico. El procedimiento de contraste para los datos de la tabla 1 se
muestra en el cuadro siguiente
Hipótesis:
Estadígrafo de contraste:
p-valor: 0.4129
Decisión estadística: El valor del estadígrafo de contraste pertenece a la región de
aceptación, por tanto aceptamos la hipótesis nula.
Cuadro 6: Aplicación del contraste para la media de una población normal con varianza conocida al
problema de la modificación en el grado alcohólico del vino de Ribera de Duero
HIPOTESIS
NIVEL DE SIGNIFICACION:
ESTADIGRAFO DE CONTRASTE:
REGION DE ACEPTACION:
[2]
REGION CRITICA:
Cuadro 6: Contraste para la media de una población normal con varianza desconocida.
HIPOTESIS:
NIVEL DE SIGNIFICACION:
ESTADIGRAFO DE CONTRASTE:
[3]
REGION DE ACEPTACION:
REGION CRITICA:
Cuadro 7: Contraste para la media de una población normal con varianza desconocida.
Hipótesis:
Estadígrafo de contraste:
Valores críticos : para el 5% t18, 0..05= 2.101 para el 1% t18, 0..01= 2.878
p-valor : 0,7571
Cuadro 8: Aplicación del contraste para la media de una población normal con varianza desconocida al
problema de la modificación en el grado alcohólico del vino de Ribera de Duero
HIPOTESIS:
NIVEL DE SIGNIFICACION:
ESTADIGRAFO DE CONTRASTE:
REGION CRITICA:
Cuadro 9: Contraste para la media de una población normal con varianza desconocida cuando la muestra
es grande.
Supongamos que los datos obtenidos son los siguientes para muestras aleatorias
de tamaño n1 = 14 y n2 = 6.
Ribera de Duero
12,8 12,8 12,5 11,9 12,5 12,1 12,2 12,6 13,0 12,4 12,6 12,2 12,8 13,0
Toro
Una primera aproximación a las diferencias entre los dos grupos sería la
construcción de gráficos comparativos que muestren la estructura de los
mismos, por ejemplo, un Box-Plot con los grupos separados.
Figura 12: Box plot para la comparación del grado alcohólico de las denominaciones de Ribera y Toro.
Una simple inspección visual del gráfico nos muestra que hay una clara
diferencia entre los grados de ambas denominaciones, a pesar de que la
diferencia muestral es muy evidente necesitamos un procedimiento más formal
para establecer si las diferencias observadas pueden ser consideradas
estadísticamente significativas. Construiremos el procedimiento de contraste en
varios supuestos comenzando desde el más sencillo hasta los más complejos.
HIPOTESIS:
NIVEL DE SIGNIFICACION:
ESTADIGRAFO DE CONTRASTE:
REGION DE ACEPTACION:
REGION CRITICA:
Cuadro 10: Contraste para la diferencia de medias de dos poblaciones normales con varianza conocida.
Si aplicamos el contraste a los datos del ejemplo, obtenemos los resultados del
cuadro 10.
HIPOTESIS:
En este caso es necesario que las varianzas sean iguales para poder despejarlas
y eliminarlas en el cálculo del estadígrafo de contraste. La comprobación de la
igualdad de varianzas se hará posteriormente aunque sea un paso previo a la
decisión del tipo de contraste.
HIPOTESIS:
NIVEL DE SIGNIFICACION:
ESTADIGRAFO DE CONTRASTE:
con ó
REGION DE ACEPTACION:
REGION CRITICA:
Cuadro 10: Contraste para la diferencia de medias de dos poblaciones normales con varianzas
desconocidas pero iguales.
El contraste se ha aplicado a los datos del ejemplo inicial y se han obtenido los
siguientes resultados.
HIPOTESIS:
ESTADIGRAFO DE CONTRASTE:
Valores críticos : para el 5% t18,0.025= 2.101 para el 1% t18,0.005= 2.878
Cuadro 11: Contraste para la diferencia de medias de dos poblaciones normales con varianzas
desconocidas pero iguales, aplicado a los datos sobre el grado alcohólico.
HIPOTESIS:
NIVEL DE SIGNIFICACION:
ESTADIGRAFO DE CONTRASTE:
REGION DE ACEPTACION:
REGION CRITICA:
Cuadro 11: Contraste para la diferencia de medias de dos poblaciones normales con varianzas
desconocidas y distintas.
HIPOTESIS:
NIVEL DE SIGNIFICACION:
ESTADIGRAFO DE CONTRASTE:
REGION DE ACEPTACION:
REGION CRITICA:
Cuadro 12: Contraste para la diferencia de medias de dos poblaciones normales con varianzas desconocidas
y tamaños muestrales grandes.
Como las variables están relacionadas, todos los cálculos que realizamos en el
caso de datos independientes ya no son válidos. Para evitar este problema nos
centraremos en una sola variable aleatoria que es la diferencia entre los dos
valores obtenidos para cada uno de los individuos estudiados que mide el efecto
del tratamiento aplicado. Tenemos ahora una nueva variable D que suponemos
que tiene una distribución normal de media d desviación típica d. La
hipótesis de interés es ahora que, en promedio, el tratamiento aplicado a los
individuos es 0, es decir, d = 0. El contraste es ahora exactamente igual que el
descrito para la media de una población normal (ahora la población de las
diferencias.
HIPOTESIS:
NIVEL DE SIGNIFICACION:
ESTADIGRAFO DE CONTRASTE:
REGION DE ACEPTACION:
REGION CRITICA:
Cuadro 6: Contraste para la diferencia de medias de dos poblaciones normales con datos apareados.
Nivel de significación: 5% y 1%
ESTADIGRAFO DE CONTRASTE:
Valores críticos : para el 5% t9, 0.05= 2,262 para el 1% t9, 0.01= 3,250
p-valor : 0,0510
Conclusión no estadística: Con los datos de los que disponemos no existe una
evidencia significativa de que exista una diferencia entre la presión sistólica
antes y después de haber dejado de beber.
Cuadro 6: Contraste para la diferencia de medias de dos poblaciones normales con datos apareados
aplicado al ejemplo de la reducción de la tensión arterial en alcohólicos.
HIPOTESIS:
REG. DE ACEP.:
REGION CRITICA:
6.2.- Comparación de medianas de dos poblaciones
con datos apareados: el test de Wilcoxon
Contrasta la hipótesis de que la mediana de las diferencias es cero. La base del
contraste es similar al caso de muestras independientes.
HIPOTESIS:
REG. DE ACEP.:
REGION CRITICA:
Para contrastar más formalmente que las varianzas son iguales se puede
construir un contraste muy simple teniendo en cuenta la distribución del
cociente de varianzas basado en el cociente de las distribuciones ji-cuadrado
asociadas.
El cociente
HIPOTESIS:
NIVEL DE SIGNIFICACION:
ESTADIGRAFO DE CONTRASTE:
REGION DE ACEPTACION:
[5]
REGION CRITICA:
HIPOTESIS:
NIVEL DE SIGNIFICACION: = 5% y 1%
ESTADIGRAFO DE CONTRASTE:
Cuadro 7: Contraste de comparación de las varianzas de dos poblaciones normales aplicado ala
comparación de la variabilidad del grado alcohólico.
[1]
La demostración completa no se realiza aquí.
[2]
tn-1, es el valor crítico de la t de Student tal que P(-tn-1, ≤ tn-1 ≤ tn-1, ) = 1-Se ha denotado con
el subíndice porque es el que se utiliza para buscar el valor correspondiente en la tabla.
tn-1,2 es el valor crítico de la t de Student tal que P( tn-1 > tn-1,2 ) = Se ha denotado con el
[3]
[5]
El valor es el valor crítico que deja a la derecha un área de . En la práctica