Anda di halaman 1dari 42

INTRODUCCION A LOS

CONTRASTES DE HIPOTESIS
José Luis Vicente Villardón

Departamento de Estadística

Universidad de Salamanca

INDICE
0.- INTRODUCCIÓN Y MOTIVACIÓN......................................................... 3

1.- CONCEPTOS GENERALES DE CONTRASTE............................................ 3

2.- EL CONTRASTE PARA LA MEDIA DE UNA POBLACIÓN NORMAL.............. 5

2.1.- PLANTEAMIENTO GENERAL.............................................................................................. 5

2.2.- VARIANZA (DESVIACIÓN TÍPICA) CONOCIDA....................................................................... 7

2.3.- LA POTENCIA DEL CONTRASTE........................................................................................ 11

2.4.- EL P-VALOR DEL CONTRASTE.......................................................................................... 13

2.5.- LOS CONTRASTES UNILATERALES.................................................................................... 14

2.6.- VARIANZA DESCONOCIDA.............................................................................................. 18

2.7.- CONTRASTES PARA MUESTRAS GRANDES......................................................................... 21

3.- EL CONTRASTE PARA LA DIFERENCIA DE MEDIAS DE DOS POBLACIONES


NORMALES CON DATOS INDEPENDIENTES.............................. 22

3.1.- PLANTEAMIENTO GENERAL............................................................................................ 22

3.2.- VARIANZAS CONOCIDAS................................................................................................ 24

3.3.- VARIANZAS DESCONOCIDAS PERO IGUALES...................................................................... 26

3.4.- VARIANZAS DESCONOCIDAS Y DISTINTAS......................................................................... 29

3.5.- CONTRASTES DE COMPARACIÓN DE MEDIAS PARA MUESTRAS GRANDES............................... 30

3.6.- OBTENCIÓN DE DATOS PARA LA COMPARACIÓN DE MEDIAS................................................ 31


4.- EL CONTRASTE PARA LA DIFERENCIA DE MEDIAS DE DOS POBLACIONES
NORMALES CON DATOS APAREADOS..................................... 32

5.- ARBOL DE DECISIONES PARA LA COMPARACIÓN DE MEDIAS DE DOS


POBLACIONES NORMALES........................................................................ 35

6.- CONTRASTES PARA LA COMPARACIÓN DE LA TENDENCIA CENTRAL CUANDO


LAS POBLACIONES NO SON NORMALES......................................... 36

6.1.- COMPARACIÓN DE MEDIANAS DE DOS POBLACIONES CON DATOS INDEPENDIENTES: EL CONTRASTE


U DE MANN-WITHNEY.............................................................................................. 37

6.2.- COMPARACIÓN DE MEDIANAS DE DOS POBLACIONES CON DATOS APAREADOS: EL TEST DE


WILCOXON.............................................................................................................................. 38

7.- COMPARACIÓN DE VARIAS POBLACIONES. INTRODUCCIÓN AL PROBLEMA DE


LAS COMPARACIONES MÚLTIPLES....................................... 39

8.- VALIDACIÓN DE LAS HIPÓTESIS DE PARTIDA..................................... 40

0.- INTRODUCCIÓN Y MOTIVACIÓN


Antes de comenzar con el desarrollo del tema se supone que el lector conoce
los conceptos fundamentales de muestreo, los principales estimadores de los
parámetros de distribuciones normales y sus correspondientes distribuciones
muestrales.

Trataremos de explicar alguna de las ideas generales impòrtantes para pasar


despues a la explicación de algunos de los contrastes más habituales en la
práctica. Comenzaremos ilustrando las ideas generales sobre el contraste más
simple, el de la media de una población normal, para ir extendiendo
progresivamente las ideas a dos poblaciones, a la comparación de proporciones
y a las poblaciones no normales. Analizaremos la problemática de realizar un
número elevado de contrastes sobre el mismo conjunto de datos, y
extenderemos las ideas fundamentales al diseño de experimentos con varios
grupos experimentales.

1.- CONCEPTOS GENERALES DE


CONTRASTE
Una hipótesis estadística es una afirmación que se hace acerca de una o varias
características de una población. Las características pueden ser los parámetros
de una distribución de probabilidad predeterminada, seleccionada para la
población. En este caso hablaremos de hipótesis paramétricas. En algunas
situaciones las características a estudiar no son parámetros de una distibucion
concreta y decimos que las hipótesis son no paramétricas.

Un contraste de hipótesis es un procedimiento para decidir si una hipótesis se


acepta como válida o se rechaza.

Dos son las hipótesis que generalmente se contrastan, la que


denominamos hipótesis nula (H0) que es la hipótesis en la que se basa el
procedimeineto de contraste, y la que denominamos hipótesis alternativa (Ha)
que es la hipótesis que se acepta cuando se rechaza la nula y viceversa.
Generalmente la hipótesis nula está formada por un único valor del parámetro
mientras que la hipótesis alternativa está formada por un conjunto de valores.
A la hipótesis alternativa se la denomina también hipótesis de trabajo o
hipótesis a investigar ya que, en la mayor parte de las situaciones practicas
reales es la hipótesis alternativa la que se desea aceptar.

Para realizar el contraste de una hipótesis seleccionamos una muestra aleatoria


de la población y trataremos de tomar una decisión de acuerdo con la
información que nos proporcionan los valores muestrales, a través de una
estimación de la característica (parámetro) a estudiar y de su distribución
muestral. Denominaremos estadígrafo o estadistico de contraste a una
variable aleatoria con distribución conocida cuando la hipótesis nula es cierta.
La variable aletoria es una transformación directa de la distribución muestral.

Obviamente, la única forma de estar seguros de cual es la hipótesis correcta


sería investigar toda la población, cosa que no es posible ya que, en general,
estamos trabajando con poblaciones infinitas. Como disponemos de la
información limitada que nos proporciona la muestra podemos realizar
decisiones erróneas. Dos son los tipos de errores que podemos cometer:

Error de tipo I: Rechazar H0 cuando es verdadera.

Error de tipo II: Aceptar H0 cuando es falsa.

A la probabilidad de cometer un error de tipo I la denominaremos nivel de


significación y la denotaremos con . A la probabilidad de cometer un error de
tipo II la denotaremos con  a su complemento 1-lo denominamos potencia
del contraste, y se define como la probabilidad de rechazar cuando es falsa.
Seleccionaremos, si es posible, aquel procedimiento de contraste en el que los
errores sean lo más pequeños posible. Desgraciadamente, ambos covarian de
forma inversa, es decir, cuando  aumenta disminuye y viceversa. Como no
es posible fijar ambos, se toma como norma fijar el nivel de significación para
realizar el contraste. Explicaremos estos conceptos con más detalle en el
capítulo siguiente. Utilizando un fijo dividimos los valores del estdígrafo de
contraste en dos regiones mutuamente excluyentes:

La región de aceptación: Conjunto de valores del estadígrafo de contraste que


nos llevan a aceptar la hipótesis nula.

La región crítica: Conjunto de valores del estadígrafo de contraste que nos


llevan a rechazar la hipótesis nula (y aceptar la alternativa).

De acuerdo con lo explicado, los pasos que se han de realizar `para llevar a cabo
un contraste de hipótesis son los siguientes:

- Determinar las hipótesis nula y alternativa, traduciendo hipótesis básicas de


trabajo en hipótesis acerca de parámetros (o características) de una distribución
de probabilidad asignada a la población.

- Fijar un nivel de significación: Generalmente el 0.05 (5%) y 0.01 (1%).

- Determinar cual es el estadígrafo de contraste y su distribución muestral.

- Determinar la región crítica y la región de aceptación.

- Seleccionar una muestra y calcular el valor experimental del estadísgrafo de


contraste.

- Tomar la decisión estadística de acuerdo con el valor experimental obtenido.

- Sacar conclusiones de tipo no estadistico.

Los procedimientos de contraste pueden diseñarse tambien utilizando alguna


media de la discrepancia o de la similitud entre el valor teórico de la hipótesis
nula y el valor estimado a partir de la muestra, la hipótesis se rechaza cuando la
discrepencia es muy grande. Este tipo de medida se denomina p-valor y se
explicará detalladamente más adelante.
2.- EL CONTRASTE PARA LA MEDIA
DE UNA POBLACIÓN NORMAL
2.1.- Planteamiento general
Consideremos un caso muy simple mediante un ejemplo concreto. Supongamos
que pertenecemos al consejo regulador de la denominación de origen de los
vinos de Ribera de Duero. Sabemos que los vinos jóvenes de años anteriores
tienen un grado alcohólico medio de 12.5 grados, tal y como aparece en la
etiqueta. Para el año actual, el consejo regulador, de acuerdo con todos sus
miembros, ha decidido cambiar algunos de los pasos del proceso de fabricación.
El primer problema que se plantea es : ¿Se ha modificado el grado alcohólico
al modificar el proceso de fabricación?.

La definición del problema a estudiar nos permite determinar la población que


queremos estudiar, los vinos jóvenes de ribera de Duero en el año actual; la
variable que queremos medir, el grado alcohólico de los mismos, y la hipótesis
de trabajo inicial ¿Se ha modificado el grado alcohólico?.

El paso siguiente consiste en suponer un modelo de comportamiento teórico


para la población (a priori). Suponemos que la variable que estamos midiendo
en la población a estudiar sigue una distribución normal. La suposición de
normalidad la haremos de acuerdo con el conocimiento previo que tengamos
sobre la población objeto de estudio tratando de que las características de la
distribución reflejen en la mayor medida posible las de la población, se trata
simplemente de buscar un modelo probabilístico que aproxime la variable a
estudiar. En el caso que nos ocupa, parece razonable suponer, a priori, que el
grado alcohólico se concentra de forma simétrica alrededor de un valor medio.
Si consideráramos, por ejemplo, los salarios de una empresa la hipótesis de
normalidad no es plausible puesto que cabe esperar que la distribución de los
mismos sea marcadamente asimétrica debido a los altos salarios de un grupo
reducido de ejecutivos.

Formularemos ahora la hipótesis de trabajo en términos de los parámetros del


modelo (media y/o desviación típica en el caso de la normal). La hipótesis
principal la denominamos hipótesis nula (H0).
La hipótesis nula suele ser la de igualdad del parámetro a un único valor
concreto procedente de la hipótesis de trabajo.

Junto con la hipótesis nula planteamos la que denominamos hipótesis


alternativa (Ha o H1) que será aceptada cuando se rechace la nula y viceversa.
Por el momento tomaremos la más sencilla, la hipótesis e que la media es
diferente de 12 que resultará en un contraste bilateral.

Trataremos de diseñar un procedimiento para decidir entre ambas hipótesis a


partir de la información contenida en una muestra de tamaño n, por ejemplo 14
observaciones.

Supongamos que la muestra ha sido seleccionada al azar de la población y que


se han obtenido los resultados siguientes.

RIBERA DE DUERO

12,8 12,8 12,5 11,9 12,5 12,1 12,2 12,6 13,0 12,4 12,6 12,2 12,8 13,0

Tabla 1: Grado alcohólico de 14 vinos de la denominación de Ribera de Duero.

La primera cuestión que hemos de tener en cuenta es que la decisión por una
hipótesis concreta ha de tomarse con un cierto riesgo de equivocarse al no
disponer de la información de todos los individuos de la población.
Trabajaremos con la media muestral como estimador de la media poblacional
desconocida. En el ejemplo la media muestral es de 12,529, que como ya
sabemos no coincide con la media poblacional.

Trataremos de decidir entre las dos hipótesis a partir del valor de la media
muestral pero, si la media muestral no coincide con la media poblacional, ¿será
la diferencia entre el valor observado y el teórico lo suficientemente grande
como para rechazar la hipótesis nula? ó ¿la diferencia observada es lo
suficientemente pequeña como para ser debida simplemente al azar o al
desconocimiento de la población?. Daremos respuesta a ambas preguntas
utilizando los conceptos sobre distribuciones aprendidos en temas anteriores.

2.2.- Varianza (desviación típica) conocida


Supondremos, por el momento, que la varianza de la población
es conocida. Sabemos que la media muestral para distintas muestras

sigue una distribución normal , luego, cuando la hipótesis nula es cierta

En la práctica, este resultado tiene implicaciones importantes. Veámoslo con un


dibujo.

Figura 3 : Distribución de la media muestral.

El dibujo muestra como, aunque los valores de la media muestral no coinciden


con la media poblacional, se concentran en torno a ella y por tanto es muy
probable que sean cercanos aunque, con el modelo supuesto puede tomar
cualquier valor. Obsérvese también que cuanto mayor es el tamaño muestral
más se concentran los valores de la media muestral en torno a la media
poblacional.

Intuitivamente, aceptaremos la hipótesis nula cuando la media muestral sea


próxima a y la rechazaremos (aceptando la alternativa) cuando la media
muestral sea muy diferente de , es decir, utilizamos la media muestral como
estadístico, o estadígrafo, de contraste. Nos queda por determinar cual es el
criterio para decidir si la media muestral está próxima o no al valor teórico
propuesto utilizando el concepto de riesgo tipo I definido previamente. Fijamos
el riesgo tipo Y en (por ejemplo en 0.05 o el 5%)

Nos plantearemos el contraste como un juicio en el que la media muestral es


inocente (procede de una población con media ) y no la declararemos
culpable (no procede de una población con media ) hasta que no se demuestre
claramente lo contrario.
Sobre la distribución de la media seleccionamos dos puntos y ,
simétricos alrededor de de forma que si la hipótesis nula cierta en el (1-
)100% (por ejemplo el 95%) de las muestras la media muestral esté entre esos
dos valores (figura 4).

Aceptaremos la hipótesis nula si la media muestral está dentro del intervalo


seleccionado y la rechazaremos en caso contrario. Es claro que si la media está
fuera del intervalo seleccionado hay una clara evidencia de que la hipótesis no
es cierta ya que toma los valores correspondientes solo en el 5% de los casos en
los que la hipótesis nula es cierta. Por supuesto, estamos asumiendo un riesgo
del 5% de equivocarnos y rechazar indebidamente.

Como ya es conocido, al conjunto de valores que nos llevan a aceptar la


hipótesis nula lo denominamos Región de Aceptación, y al conjunto de valores
que nos llevan a rechazarla lo denominaremos Región Crítica. En este caso la
región crítica se ha dividido en las dos colas de la distribución por lo que se dice
que el contraste es bilateral o de dos colas.

Figura 4: Procedimiento de contraste a partir de la media muestral

En la práctica no se trabaja directamente con la media muestral y su


distribución asociada sino con la distribución normal estándar. Teniendo en
cuenta las propiedades de la normal podemos escribir
de forma que el procedimiento descrito se convierte ahora en el que se muestra

en la figura 5. El estadígrafo de contraste es ahora y mide la discrepancia


entre el valor observado de la media y el valor teórico de la misma, en la escala
de la desviación típica. No es lo mismo una diferencia de una unidad en una
escala de centímetros que en una escala de kilómetros.

Figura 4: Procedimiento de contraste a partir de la media muestral


estandarizada.

La interpretación intuitiva del nuevo procedimiento sigue siendo clara,


rechazaremos la hipótesis nula solamente cuando la discrepancia entre la media
observada y la teórica ( ) sea grande, en relación a la variabilidad intrínseca

medida por . La magnitud de la diferencia necesaria para rechazar se


determina a través del riesgo de tipo 1 mediante la distribución normal estándar.

A los valores de z/2 se les suele denominar valores críticos ya que determinan
la frontera entre la región crítica y la región de aceptación.

El cuadro siguiente muestra el procedimiento completo con los pasos que se


siguen habitualmente en la construcción de cualquier contraste.

HIPOTESIS:

NIVEL DE SIGNIFICACION: 
ESTADIGRAFO DE CONTRASTE:

DISTRIBUCION DEL ESTADIGRAFO CUANDO H0 ES CIERTA: N(0,1)

REGION DE ACEPTACION:

REGION CRITICA:

Cuadro 2: Contraste para la media de una población normal con varianza conocida.

Una vez que hemos determinado la forma general del contraste pasamos a
aplicarlo a los datos del problema inicial que nos ocupa.

Hipótesis:

Nivel de significación: 5% y 1%.

Estadígrafo de contraste:

Valores críticos : para el 5% z0.025= 1,96 para el 1% z0.005= 2,57

Decisión estadística: El valor del estadígrafo de contraste pertenece a la región de


aceptación, por tanto aceptamos la hipótesis nula.

Conclusión no estadística: La modificación en el proceso de fabricación no ha


modificado significativamente el grado alcohólico.

Cuadro 3: Aplicación del contraste para la media de una población normal con varianza conocida al
problema de la modificación en el grado alcohólico del vino de Ribera de Duero.

Una vez que hemos tomado la decisión final, no sabemos si es correcta o no,
simplemente esperamos que sea del 95% de las muestras en las que aceptamos
la hipótesis correctamente. Si aceptamos la hipótesis nula no quiere decir que
sea cierta y el grado medio sea exactamente de 12.5 grados (probablemente no
lo es), sería más correcto interpretar que, con la información de la que
disponemos no hemos encontrado evidencia suficiente de que la media sea
distinta de 12.5. Evidentemente, los valores muestrales son compatibles con
muchos otros posibles valores teóricos.
Si aumentamos el tamaño de muestra indefinidamente, la variabilidad de la
media sería cada vez menor y conseguiríamos que la pequeña diferencia
observada sea lo suficientemente grande como para considerarla significativa.
Es por esto por lo que en Estadística decimos que es tan malo tener un tamaño
de muestra demasiado alto como tenerlo demasiado bajo ya que en el primer
caso cualquier pequeña diferencia es considerada como significativa mientras
que en el segundo no se declara significación incluso en el caso en el que la
diferencia sea elevada.

2.3.- La potencia del contraste


En todo el proceso descrito hasta el momento solamente se ha utilizado el riesgo
de tipo I en el desarrollo del contraste. Sabemos que esta asociado con el riesgo
de tipo II de forma que cuando uno aumenta, el otro disminuye. Tampoco
hemos hecho ninguna afirmación acerca de un concepto importante como es el
de potencia del contraste (probabilidad de rechazar la hipótesis nula cuando es
falsa).

No es posible calcular la potencia del contraste porque para ello necesitaríamos


un único valor en la hipótesis alternativa (revísese el ejemplo de los cirróticos
utilizado como aplicación de la distribución normal), aunque si podemos
realizar el cálculo para distintos valores en la alternativa (función de potencia)
y analizar lo que ocurre.

Veámoslo con un ejemplo.

Cual sería la potencia del contraste obtenido para detectar que la media no es
12.5 si en realidad la media fuera 13 (y suponiendo un nivel de significación
del 5%).

En términos de la media muestral el procedimiento de contraste consiste en


aceptar la hipótesis nula si la media muestral está entre 12.238 y 12.762. La
probabilidad de cometer un error de tipo 2 (aceptar indebidamente) si la media
real fuera de 13 se podría calcular como en una normal de

media 13 y desviación típica . Esta probabilidad es 0.037 de forma que la


potencia es 1 - 0.037 = 0.963. La situación esquematizada aparece en la figura
5.
Figura 5: Cálculo de la potencia del contraste para una alternativa predeterminada.

En la figura 6 se muestra la función de potencia para distintos valores posibles


de la hipótesis alternativa.

Figura 6: Función de potencia para distintos valores de la alternativa.

El gráfico muestra como la potencia es mayor cuando los valores de la


alternativa se alejan del valor para la hipótesis nula. En la práctica este hecho
tiene una implicación obvia: es más fácil detectar diferencias o efectos
experimentales de gran magnitud.

Aunque no es posible un control directo de la potencia, a la vista de la figura 5


es claro que la potencia puede modificarse modificando el nivel de significación
o el tamaño muestral ya que la forma de las curvas depende de éste. Cuanto
mayor sea el tamaño muestral más concentrada es la curva normal y, por tanto,
mayor es la potencia para el mismo nivel de significación.
En la práctica suele hacerse un estudio de potencia para los contrastes no
significativos, calculando cual sería el tamaño muestral necesario para que la
diferencia observada en los datos sea significativa. Si este tamaño es muy
grande es difícil declarar la significación por lo que consideraremos que
estamos haciendo lo correcto, si el tamaño muestral necesario es pequeño, sería
conveniente revisar el experimento.

El cálculo es muy simple cuando se trabaja con distribuciones normales. La

hipótesis nula se rechaza cuando de forma que, para que la


diferencia sea significativa el valor de n será

para el ejemplo del grado alcohólico, n> 1141,97, es decir, para que la
diferencia observada fuera significativa tendríamos que haber recogido más de
1142 observaciones lo que da una idea de que la diferencia observada es muy
pequeña y, por tanto es muy probable que la hipótesis nula sea cierta.

2.4.- El p-valor del contraste


Una forma habitual de medir la significación en los contrastes de hipótesis es
el denominado p-valor del contraste. Su utilización en la investigación aplicada
es debida a que es la forma de presentación de los resultados de un contraste
usada por la mayor parte de los programas de ordenador.

Se puede definir el p-valor de un contraste como la probabilidad de obtener un


valor muestral más extremo que el obtenido en nuestro caso particular (cuando
H0 es cierta). Si el p-valor es muy pequeño rechazaremos la hipótesis nula ya
que el valor experimental es muy extremo, mientras que si el p-valor es grande
aceptaremos la hipótesis nula ya que el valor es compatible con la misma.

De forma general, el p-valor para el contraste actual se puede calcular

como en una distribución normal estándar.

Para el ejemplo anterior el p-valor es 1-P(-0.217 < Z < 0.217) = 2 P(Z > 0.217)
= 0.8285, es decir el p-valor puede considerarse grande. En la práctica se suele
adoptar el criterio de aceptar la hipótesis cuando el p-valor es mayor que el nivel
de significación fijado en el procedimiento de contraste.

Figura 7: El p-valor de un contraste bilateral.

2.5.- Los contrastes unilaterales


En algunas situaciones concretas no estamos interesados en todos los posibles
valores de la hipótesis alternativa propuesta en un contraste bilateral.
Supongamos, por ejemplo, que en el caso práctico anterior sospechamos a priori
que la modificación en el procedimiento de fabricación produce un incremento
en el contenido alcohólico. En este caso sería conveniente modificar la hipótesis
alternativa para que sea de la forma . El procedimiento de contraste es
muy similar al anterior y se muestra en el cuadro siguiente.

HIPOTESIS:

NIVEL DE SIGNIFICACION: 

ESTADIGRAFO DE CONTRASTE:

DISTRIBUCION DEL ESTADIGRAFO CUANDO H0 ES CIERTA: N(0,1)

REGION DE ACEPTACION:

REGION CRITICA:

Cuadro 4: Contraste unilateral superior para la media de una población normal con varianza conocida.
El contraste así obtenido se denomina contraste unilateral superior ya que solo
estamos interesados en las desviaciones positivas. La diferencia fundamental
con el contraste bilateral es que se produce un incremento en la potencia para
detectar diferencias positivas de la hipótesis nula y un decremento drástico para
detectar las negativas.

El p-valor sigue teniendo la misma interpretación aunque ahora se calcula

como .

Figura 8: El p-valor de un contraste unilateral superior.

De la misma manera que se ha construido el contraste unilateral superior es


posible construir el contraste unilateral inferior si estamos interesados
exclusivamente en detectar diferencias negativas con respecto a la hipótesis
nula. La construcción del contraste es completamente análoga con la
correspondiente modificación de la hipótesis alternativa. El contraste unilateral
inferior incrementa la potencia para detectar diferencias negativas aunque no
tiene potencia para detectar las positivas.

HIPOTESIS:

NIVEL DE SIGNIFICACION: 

ESTADIGRAFO DE CONTRASTE:

DISTRIBUCION DEL ESTADIGRAFO CUANDO H0 ES CIERTA: N(0,1)


REGION DE ACEPTACION:

REGION CRITICA:

p-valor:

Cuadro 5: Contraste unilateral inferior para la media de una población normal con varianza conocida.

Figura 9: El p-valor de un contraste unilateral inferior.

La decisión por el tipo de contraste debe hacerse a priori, antes de tomar los
datos. Supongamos, por ejemplo, que sospechamos, antes de realizar el
experimento, que la modificación en el proceso de fabricación, aumenta el
grado alcohólico. El procedimiento de contraste para los datos de la tabla 1 se
muestra en el cuadro siguiente

Hipótesis:

Nivel de significación: 5% y 1%.

Estadígrafo de contraste:

Valores críticos : para el 5% z0.025= 1,65 para el 1% z0.005= 2,33

p-valor: 0.4129
Decisión estadística: El valor del estadígrafo de contraste pertenece a la región de
aceptación, por tanto aceptamos la hipótesis nula.

Conclusión no estadística: La modificación en el proceso de fabricación no


ha aumentado significativamente el grado alcohólico.

Cuadro 6: Aplicación del contraste para la media de una población normal con varianza conocida al
problema de la modificación en el grado alcohólico del vino de Ribera de Duero

La función de potencia para distintos valores de la alternativa aparece en la


figura siguiente. Obsérvese como el contraste no tiene ninguna potencia para
detectar valores a la izquierda de la hipótesis nula.

Figura 10: Función de potencia para un contraste unilateral superior .

2.6.- Varianza desconocida


En la mayor parte de las aplicaciones prácticas la varianza de la distribución es
también desconocida y ha de ser estimada a partir de los datos. El problema es
que ya no es posible seguir utilizando la distribución normal para el
procedimiento de contraste ya que es necesario eliminar el parámetro  del
estadígrafo de contraste.

De acuerdo con la teoría, además de la distribución muestral de la media

sabemos que sigue una distribución ji-cuadrado con n-1 grados de


libertad. Si suponemos que media y varianza son independientes[1], es posible
combinar las correspondientes distribuciones muestrales para obtener una
distribución t de Student y eliminar el parámetro .
Utilizando la definición de distribución t de Student con n-1 grados de libertad
como el cociente entre una normal estándar y la raíz cuadrada de una ji-
cuadrado con n-1 grados de libertad dividida por sus grados de libertad, y ambas
independientes, obtenemos que la variable aleatoria

sigue una distribución t de Student con n-1 grados de libertad.

El procedimiento de contraste en este caso es análogo al anterior pero


sustituyendo la distribución normal por la distribución t. El cuadro 6 muestra el
procedimiento de contraste completo.

HIPOTESIS

NIVEL DE SIGNIFICACION: 

ESTADIGRAFO DE CONTRASTE:

DISTRIBUCION DEL ESTADIGRAFO CUANDO LA HIPOTESIS NULA ES


CIERTA: tn-1

REGION DE ACEPTACION:

[2]
REGION CRITICA:

Cuadro 6: Contraste para la media de una población normal con varianza desconocida.

En la práctica, la sustitución de la distribución normal por la distribución t de


Student implica un aumento de la dispersión por lo que es más difícil detectar
diferencias. La situación se muestra el la figura siguiente en la que se comparan
la distribución normal estándar (en línea discontinua) y la distribución t (en
línea continua).
Figura 11: Diferencia entra la distribución normal y la distribución t de Student.

Es posible construir contrastes unilaterales de la misma manera que en el caso


de varianza conocida. El cuadro 7 muestra el contraste unilateral superior, el
contraste unilateral inferior se deja como ejercicio al lector.

HIPOTESIS:

NIVEL DE SIGNIFICACION: 

ESTADIGRAFO DE CONTRASTE:

DISTRIBUCION DEL ESTADIGRAFO CUANDO H0 ES CIERTA: tn-1

[3]
REGION DE ACEPTACION:

REGION CRITICA:

Cuadro 7: Contraste para la media de una población normal con varianza desconocida.

Para el ejemplo del grado alcohólico de los vinos de la denominación de origen


de Ribera de Duero los resultados del contraste bilateral se muestran en el
cuadro 8.

Hipótesis:

Nivel de significación: 5% y 1%.

Estadígrafo de contraste:
Valores críticos : para el 5% t18, 0..05= 2.101 para el 1% t18, 0..01= 2.878

p-valor : 0,7571

Decisión estadística: El valor del estadígrafo de contraste pertenece a la región de


aceptación, por tanto aceptamos la hipótesis nula.

Conclusión no estadística: La modificación en el proceso de fabricación no ha


modificado significativamente el grado alcohólico.

Cuadro 8: Aplicación del contraste para la media de una población normal con varianza desconocida al
problema de la modificación en el grado alcohólico del vino de Ribera de Duero

Todos los conceptos explicados para el contraste de la media de una población


normal con varianza conocida siguen siendo válidos aquí.

2.7.- Contrastes para muestras grandes


Cuando las muestras de las que se dispone son muestras grandes
(aproximadamente mayores de 30 observaciones) es posible utilizar
directamente la distribución normal ya que es muy similar a la t de Student.
Además el teorema central del límite permite relajar la hipótesis de normalidad
ya que la normalidad de la distribución muestral de medias está garantizada,
bajo ciertas condiciones de regularidad, aunque la población original no sea
normal. Hay que tener en cuenta que se trata sólo de una aproximación y, cuanto
mayor es el tamaño de la muestra mejor es la aproximación normal obtenida.
El procedimiento de contraste para muestras grandes se muestra en el cuadro 9.
Mostramos solamente el contraste bilateral ya que los unilaterales se construyen
exactamente de la misma manera que en los casos anteriores.

HIPOTESIS:

NIVEL DE SIGNIFICACION: 

ESTADIGRAFO DE CONTRASTE:

DISTRIBUCION DEL ESTADIGRAFO CUANDO LA HIPOTESIS NULA ES


CIERTA: N(0, 1)
REGION DE ACEPTACION:

REGION CRITICA:

Cuadro 9: Contraste para la media de una población normal con varianza desconocida cuando la muestra
es grande.

3.- EL CONTRASTE PARA LA


DIFERENCIA DE MEDIAS DE DOS
POBLACIONES NORMALES CON
DATOS INDEPENDIENTES.
3.1.- Planteamiento general
En la investigación aplicada la situación más habitual es aquella en la que se
quieren comparar dos poblaciones a las que se les ha aplicado, por ejemplo, dos
tratamientos diferentes.

Pongámonos en el mismo supuesto que en el ejemplo que sirvió para ilustrar el


contraste para una población, y supongamos que lo que deseamos es conocer si
los vinos de nuestra denominación de origen tienen el mismo contenido
alcohólico que los de otra denominación de origen, por ejemplo la de Toro. Se
trata de saber si existe una clara diferenciación en los mismos ya que, debido a
la proximidad geográfica de ambas regiones, es posible que haya fraudes y se
intercambien vinos de ambas dependiendo del mercado de los mismos. La
hipótesis de trabajo inicial es entonces ¿Existen diferencias en el grado
alcohólico de ambas denominaciones?.

Procediendo de la misma manera que en el caso de una población, suponemos


una distribución de probabilidad para la población que es la distribución
normal. En la primera población (Ribera de Duero) el grado alcohólico sigue
una distribución normal N(1, 1); en la segunda población (Toro) el grado
alcohólico sigue una distribución normal N(2, 2).

Formulamos a continuación las hipótesis de trabajo en términos de los


parámetros de los modelos. Las hipótesis nula y alternativa son ahora
para el contraste bilateral. Vemos como el contraste de que las medias son
iguales es equivalente al contraste de que la diferencia de medias vale 0.

Supongamos que los datos obtenidos son los siguientes para muestras aleatorias
de tamaño n1 = 14 y n2 = 6.

Ribera de Duero

12,8 12,8 12,5 11,9 12,5 12,1 12,2 12,6 13,0 12,4 12,6 12,2 12,8 13,0

Toro

13,0 14,0 13,2 13,4 13,2 13,9

Tabla 2: Grado alcohólico de 20 vinos de las denominaciones de origen de Ribera y Toro.

Se supone que las muestras se han obtenido de forma independiente en ambas


denominaciones.

La estadística descriptiva básica para ambos grupos aparece en la tabla


siguiente.

Tabla 3: Descriptiva básica del grado alcohólico.

Una primera aproximación a las diferencias entre los dos grupos sería la
construcción de gráficos comparativos que muestren la estructura de los
mismos, por ejemplo, un Box-Plot con los grupos separados.
Figura 12: Box plot para la comparación del grado alcohólico de las denominaciones de Ribera y Toro.

Una simple inspección visual del gráfico nos muestra que hay una clara
diferencia entre los grados de ambas denominaciones, a pesar de que la
diferencia muestral es muy evidente necesitamos un procedimiento más formal
para establecer si las diferencias observadas pueden ser consideradas
estadísticamente significativas. Construiremos el procedimiento de contraste en
varios supuestos comenzando desde el más sencillo hasta los más complejos.

3.2.- Varianzas conocidas


Supongamos, para simplificar que las desviaciones típicas son conocidas, por
ejemplo 1 = 0.5 y 2 = 0.6 para las denominaciones de Ribera de Duero y Toro
respectivamente. Desarrollaremos el procedimiento general para después
aplicarlo a los datos de los que disponemos.

Conocemos la distribución de la media muestral en ambas poblaciones.

y ambas distribuciones son independientes. El estimador de la diferencia de


medias poblacionales será la diferencia de medias muestrales y, como la
diferencia de normales independientes es también una distribución normal,
tenemos que
Estandarizando se obtiene que

Cuando la hipótesis nula es cierta y se tiene que

luego Z será el estadígrafo de contraste que utilizaremos.

El procedimiento de contraste completo se muestra el cuadro 9. Solo se incluye


el contraste bilateral ya que la construcción de los correspondientes unilaterales
es la misma que en los casos previos y se deja como ejercicio al lector.

HIPOTESIS:

NIVEL DE SIGNIFICACION: 

ESTADIGRAFO DE CONTRASTE:

DISTRIBUCION DEL ESTADIGRAFO CUANDO H0 ES CIERTA: N(0,


1)

REGION DE ACEPTACION:

REGION CRITICA:

Cuadro 10: Contraste para la diferencia de medias de dos poblaciones normales con varianza conocida.

Si aplicamos el contraste a los datos del ejemplo, obtenemos los resultados del
cuadro 10.

HIPOTESIS:

NIVEL DE SIGNIFICACION: 0.05 (5%) ó 0.01 (1%)


ESTADIGRAFO DE CONTRASTE:

Valores críticos : para el 5% z0.025= 1,96 para el 1% z0.005= 2,57

Decisión estadística: El valor del estadígrafo de contraste pertenece a la región


crítica, por tanto rechazamos la hipótesis nula.

Conclusión no estadística: Los grados alcohólicos medios de las dos


denominaciones son diferentes.
Cuadro 11: Contraste para la diferencia de medias de dos poblaciones normales con varianza desconocida
aplicado al ejemplo de la comparación del grado alcohólico en dos denominaciones de origen.

3.3.- Varianzas desconocidas pero iguales


Supongamos ahora que las varianzas son desconocidas pero iguales
(1 = 2 = ). La distribución de la diferencia de medias muestrales es ahora

Tenemos que eliminar el parámetro , para lo cual utilizaremos las


distribuciones muestrales asociadas a las cuasi-varianzas muestrales

La suma de dos ji-cuadrado es también una ji-cuadrado, sumando las dos


anteriores

Suponiendo que ambas distribuciones son independientes[4], podemos


combinarlas para obtener una distribución t de Student. La variable aleatoria
con sigue una t de Student con n1 + n2 -2 grados de
libertad.

Si la hipótesis nula es cierta, el estadígrafo de contraste que utilizaremos es

Es posible considerar un estadígrafo de contraste alternativo si se utilizan las


varianzas muestrales en lugar de las cuasi-varianzas. Para ello basta tener en
cuenta que las distribuciones muestrales asociadas a las varianzas son

El nuevo estadígrafo de contraste es de la forma

con . Los dos estadísticos toman exactamente el mismo valor


por lo que pueden utilizarse indistintamente. Usaremos el calculado a partir de
las cuasi-varianzas porque son estimadores insesgados de la varianza
poblacional.

En ambos casos lo que se ha hecho es estimar la varianza común de ambas


poblaciones mediante una media ponderada de las varianzas estimadas en cada
población, y se ha cambiado la distribución normal por la t de Student con el
correspondiente aumento en la dispersión que hace que sea más difícil encontrar
diferencias.

En este caso es necesario que las varianzas sean iguales para poder despejarlas
y eliminarlas en el cálculo del estadígrafo de contraste. La comprobación de la
igualdad de varianzas se hará posteriormente aunque sea un paso previo a la
decisión del tipo de contraste.

Las cuestiones relacionadas con la potencia del contraste se interpretan de la


misma manera que en todos los casos anteriores. Cuanto mayor sea la diferencia
que queremos detectar mayor será la potencia para detectarla. Cuanto más
pequeño sea el efecto que queremos detectar mayor será el tamaño de muestra
necesario para hacerlo. Si aumentamos indefinidamente el tamaño muestral
conseguiremos que la diferencia muestral sea siempre estadísticamente
significativa por pequeña que sea.

El contraste completo se muestra en el cuadro siguiente.

HIPOTESIS:

NIVEL DE SIGNIFICACION: 

ESTADIGRAFO DE CONTRASTE:

con ó

DISTRIBUCION DEL ESTADIGRAFO CUANDO LA HIPOTESIS


NULA ES CIERTA: t de Student

REGION DE ACEPTACION:

REGION CRITICA:

Cuadro 10: Contraste para la diferencia de medias de dos poblaciones normales con varianzas
desconocidas pero iguales.

El contraste se ha aplicado a los datos del ejemplo inicial y se han obtenido los
siguientes resultados.

HIPOTESIS:

NIVEL DE SIGNIFICACION: 0.05 (5%) ó 0.01 (1%)

ESTADIGRAFO DE CONTRASTE:
Valores críticos : para el 5% t18,0.025= 2.101 para el 1% t18,0.005= 2.878

Decisión estadística: El valor del estadígrafo de contraste pertenece a la región


crítica, por tanto rechazamos la hipótesis nula.

Conclusión no estadística: El grado alcohólico es significativamente diferente


en Ribera de Duero y Toro.

Cuadro 11: Contraste para la diferencia de medias de dos poblaciones normales con varianzas
desconocidas pero iguales, aplicado a los datos sobre el grado alcohólico.

3.4.- Varianzas desconocidas y distintas


Supongamos ahora que las varianzas son desconocidas y distintas (1 ≠ 2) de
forma que ya no es posible eliminar el parámetro en el cálculo de la t de Student.
Se han propuesto diversas aproximaciones para la aproximación de la
distribución del estadígrafo de contraste. Describiremos aquí la aproximación
de Welch. La demostración completa está fuera de los propósitos de este
trabajo.

HIPOTESIS:

NIVEL DE SIGNIFICACION: 

ESTADIGRAFO DE CONTRASTE:

DISTRIBUCION DEL ESTADIGRAFO CUANDO LA HIPOTESIS


NULA ES CIERTA: t de Student donde f es el entero más próximo a

REGION DE ACEPTACION:
REGION CRITICA:

Cuadro 11: Contraste para la diferencia de medias de dos poblaciones normales con varianzas
desconocidas y distintas.

3.5.- Contrastes de comparación de medias para


muestras grandes.
Como ya se comentó para el caso de una única población, el teorema central
del límite permite asignar distribuciones normales a las medias muestrales
aunque la distribución en la población no sea normal. Si disponemos de una
muestra de tamaño grande y estimamos la varianza poblacional a través de la
cuasivarianza muestral, podemos construir un contraste aproximado de
comparación de medias utilizando la distribución normal.

HIPOTESIS:

NIVEL DE SIGNIFICACION: 

ESTADIGRAFO DE CONTRASTE:

DISTRIBUCION DEL ESTADIGRAFO CUANDO LA HIPOTESIS


NULA ES CIERTA: N(0,1)

REGION DE ACEPTACION:

REGION CRITICA:

Cuadro 12: Contraste para la diferencia de medias de dos poblaciones normales con varianzas desconocidas
y tamaños muestrales grandes.

Obsérvese que estamos suponiendo implícitamente que la cuasi-varianza


muestral es un buen estimador de la varianza poblacional, próximo al verdadero
valor.

3.6.- Obtención de datos para la comparación de


medias.
Dos son los tipos de datos de los que es posible disponer para la comparación
de las medias

- Datos procedentes de estudios observacionales.

- Datos procedentes de estudios experimentales.

En el primer caso se toman muestras aleatorias en dos poblaciones. La muestra


aleatoria garantiza la representatividad . A este tipo de datos corresponde el
ejemplo que hemos utilizado como guía para la explicación.

Los datos experimentales se corresponden con experimentos planificados en los


que se asignan dos tratamientos distintos a un grupo de individuos. En este tipo
de diseños es necesario que todas las características que no intervienen en el
diseño y puedan modificar la respuesta, estén controlados y sean similares en
los dos grupos a comparar. Por ejemplo, si se desea hacer un ensayo clínico en
el que se dispone de un grupo de pacientes de forma que a un subconjunto se le
aplicará el tratamiento a comparar y el resto será utilizado como control sobre
el que se utilizará un placebo (substancia no activa) con la misma apariencia
que el tratamiento, los pacientes de ambos grupos han de ser similares en
composición con respecto a características como la edad peso u otros factores
que pudieran alterar la respuesta y que no intervienen directamente en el diseño.
Se tratará de evitar sesgos de forma que los efectos puedan ser asignados a los
tratamientos, por ejemplo, en un experimento con ratones de laboratorio en el
que se dispone de dos camadas distintas, no sería correcto asignar un
tratamiento diferente a cada una de las camadas ya que sería imposible separar
los efectos del tratamiento y de la camada. En Estadística decimos que los
tratamientos están confundidos.

La forma de asignar tratamientos a individuos para que no existan errores


sistemáticos es hacerlo al azar, por ejemplo, sorteando cual es el tratamiento
que se aplica a cada individuo. A este procedimiento se le denomina
aleatorización, y juega un papel fundamental en el diseño de experimentos
planificados. Hay que hacer notar que al azar no significa “de cualquier manera”
o “cualquiera de los tratamientos”, para conseguir una verdadera aleatorización
es necesario utilizar la probabilidad.

En los experimentos diseñados es muy importante realizar estudios previos


sobre el tamaño de muestra necesario para detectar un determinado efecto. Este
problema está fuera del alcance de un curso introductorio aunque las ideas
básicas fueron expuestas cuando se trató con los intervalos de confianza.

Este tipo de experimentos se comenzó en Agricultura para extenderse después


a otras aplicaciones como la Industria o la Medicina. Actualmente los ensayos
clínicos controlados, basados fundamentalmente en conceptos de Estadística,
forman una parte importante de la investigación médica. Todo el mundo ha oído
alguna vez en las noticias los resultados de ensayos clínicos controlados antes
de lanzar al mercado un nuevo medicamento.

4.- EL CONTRASTE PARA LA


DIFERENCIA DE MEDIAS DE DOS
POBLACIONES NORMALES CON
DATOS APAREADOS.
En el caso de datos independientes en el punto anterior, se dispone de dos
conjuntos distintos de individuos para cada una de las situaciones
experimentales que se quiere compara. Una forma de controlar la variabilidad
debida a los propios sujetos consiste en aplicar todos los tratamientos en estudio
a todos los individuos de la muestra en dos ocasiones diferentes. A este tipo de
datos lo denominaremos datos apareados, relacionados, o ligados y consisten
en dos mediadas tomadas sobre el mismo conjunto d individuos en dos
ocasiones diferentes.

Para ilustrar los procedimientos utilizaremos datos tomados de MARTIN


ANDRES y LUNA CASTILLO (1990).

Supongamos que deseamos saber si la presión sistólica de personas alcohólicas


se modifica cuando dejan el hábito de beber, para ello se toma una muestra de
10 personas que ingresan en en el hospital para tratar su alcoholismo y se toma
una medida de la presión sistólica antes y después de dos meses de haber dejado
de beber. El experimento fue diseñado de esta manera ya que aunque se espera
una reducción en la presión sanguínea, esta depende del valor inicial en cada
individuo.

Los resultados obtenidos para la presión sistólica mediada en milímetros de


mercurio fueron los siguientes:
Individuo 1 2 3 4 5 6 7 8 9 10
Antes 140 165 160 160 175 190 170 175 155 160
Después 145 150 150 160 170 175 160 165 145 170
Reducción -5 15 10 0 5 15 10 10 10 -10

Como las variables están relacionadas, todos los cálculos que realizamos en el
caso de datos independientes ya no son válidos. Para evitar este problema nos
centraremos en una sola variable aleatoria que es la diferencia entre los dos
valores obtenidos para cada uno de los individuos estudiados que mide el efecto
del tratamiento aplicado. Tenemos ahora una nueva variable D que suponemos
que tiene una distribución normal de media d desviación típica d. La
hipótesis de interés es ahora que, en promedio, el tratamiento aplicado a los
individuos es 0, es decir, d = 0. El contraste es ahora exactamente igual que el
descrito para la media de una población normal (ahora la población de las
diferencias.

Describimos a continuación el contraste para muestras pequeñas y varianza


desconocida para datos apareados. Llamaremos , a la media muestral de las
diferencias y a la cuasi desviación típica. El contraste se muestra en el cuadro
??.

HIPOTESIS:

NIVEL DE SIGNIFICACION: 

ESTADIGRAFO DE CONTRASTE:

DISTRIBUCION DEL ESTADIGRAFO CUANDO H0 ES CIERTA: tn-1

REGION DE ACEPTACION:

REGION CRITICA:

Cuadro 6: Contraste para la diferencia de medias de dos poblaciones normales con datos apareados.

El resto de los contrastes se construye de la misma manera que en el caso de


una sola población. El cuadro ?? muestra ejemplo.
HIPOTESIS:

Nivel de significación: 5% y 1%

ESTADIGRAFO DE CONTRASTE:

DISTRIBUCION DEL ESTADIGRAFO CUANDO H0 ES CIERTA: t9

Valores críticos : para el 5% t9, 0.05= 2,262 para el 1% t9, 0.01= 3,250

p-valor : 0,0510

Decisión estadística: El valor del estadígrafo de contraste pertenece a la región


de aceptación, por tanto aceptamos la hipótesis nula.

Conclusión no estadística: Con los datos de los que disponemos no existe una
evidencia significativa de que exista una diferencia entre la presión sistólica
antes y después de haber dejado de beber.

Cuadro 6: Contraste para la diferencia de medias de dos poblaciones normales con datos apareados
aplicado al ejemplo de la reducción de la tensión arterial en alcohólicos.

5.- ARBOL DE DECISIONES PARA LA


COMPARACIÓN DE MEDIAS DE DOS
POBLACIONES NORMALES.
La figura siguiente muestra de forma esquemática el proceso de decisión por el
tipo de contraste a utilizar en poblaciones normales.
Figura : Arbol de de decisiónes para el contraste de comparación de las medias de dos poblaciones
normales.

6.- CONTRASTES PARA LA


COMPARACIÓN DE LA TENDENCIA
CENTRAL CUANDO LAS
POBLACIONES NO SON NORMALES.
En muchas situaciones prácticas es difícil aceptar la hipótesis previa de que los
datos son normales al disponerse, por ejemplo, de distribuciones muy
asimétricas. En estos casos los contrastes anteriores no detectan claras
diferencias en el comportamiento de las poblaciones, debido a que la dispersión
es muy grande o debido a que la medida de tendencia central utilizada (la
media) no es la correcta porque está afectada por los valores extremos. Los
contrastes paramétricos descritos antes son especialmente sensibles a valores
extremos de la variable.

Para solucionar el problema se utiliza la mediana en lugar de la media


construyéndose los que se denominan contrastes no paramétricos al no referirse
ya a parámetros de una distribución concreta.

En la figura se muestra como para distribuciones asimétricas es mucho más


intuitiva la comparación de las medianas que la comparación de las medias, ya
que estas están afectadas por los valores muy extremos de la distribución. La
situación del esquema es muy típica, por ejemplo, en problamas médicos en los
que la mayoría de los controles (curva de la izquierda) presentan valores
normales de la variable, y solamente algunos de ellos presentan valores
elevados, en el grupo de los pacientes enfremos, la mayoría presenta valores
elevados y solamente alguno presenta valores normales. El problema es
particularmente crítico cuando el tamaño de muestra es pequeño pero, incluso
cuando el tamaño de muestra es grande y se utiliza erróneamente el contraste
paramétrico correspondiente, se subestima el tamaño del efecto a pesar de que
la distribución normal esté correctamente utilizada aplicando el Teorema
Central del límite. La práctica habitual, especialmente en el ámbito médico, de
aplicar contrastes no paramétricos cuando la muestra es pequeña y paramétricos
cuando es grande es claramente errónea y puede llevar a no encontrar efectos
experimentales que aparecen claramente definidos en los datos.

Para la comparación de medianas de dos poblaciones con datos independientes


el contraste más utilizado es el conocido como U de Mann-Withney, está basado
en la suma de los rangos de orden de las observaciones de las dos poblaciones
consideradas conjuntamente y consiste básicamente en calcular todas las
ordenaciones posibles con muestras de los mismos tamaños en el caso de que
las medianas fueran iguales, para comprobar el percentil en el que se encuentra
nuestro caso particular. Cabe esperar que si las medianas de las dos poblaciones
son iguales los datos estén mezclados y las sumas de rangos de orden sean
similares en amos grupos. El resto del razonamiento es similar al de cualquier
contraste, si el valor muestral obtenido es muy probable aceptamos la hipótesis
nula y si no la rechazamos.

Para el caso de datos apareados se utiliza el test de Wilcoxon que contrasta la


hipótesis de que la mediana de las diferencias es cero. La base del contraste es
similar al caso de muestras independientes.

6.1.- Comparación de medianas de dos poblaciones


con datos independientes: el contraste U de Mann-
Withney
Está basado en la suma de los rangos de orden de las observaciones de las dos
poblaciones consideradas conjuntamente y consiste básicamente en calcular la
distribución muestral a partir de todas las ordenaciones posibles con muestras
de los mismos tamaños en el caso de que las medianas fueran iguales. Cabe
esperar que si las medianas de las dos poblaciones son iguales los datos estén
mezclados y las sumas de rangos de orden sean similares en ambos grupos.

HIPOTESIS:

ESTADIGRAFO DE CONTRASTE: Ordenar las observaciones, asignar el


rango correspondiente y calcular las sumas de rangos de las observaciones de
cada grupo.(R1 y R2)

Para muestras grandes:

DISTRIBUCION DEL ESTADIGRAFO CUANDO H0 ES CIERTA:


Distribución empírica o N(0,1) para muestras grandes.

REG. DE ACEP.:

REGION CRITICA:
6.2.- Comparación de medianas de dos poblaciones
con datos apareados: el test de Wilcoxon
Contrasta la hipótesis de que la mediana de las diferencias es cero. La base del
contraste es similar al caso de muestras independientes.

HIPOTESIS:

ESTADIGRAFO DE CONTRASTE: Calcular las diferencias entre los


valores de ambos grupos, Suprimir las observaciones nulas, Ordenar las
observaciones en valor absoluto, asignar el rango correspondiente y calcular
las sumas de rangos de las observaciones positivas y negativas.(T+ y T-)

Para muestras grandes:

DISTRIBUCION DEL ESTADIGRAFO CUANDO H0 ES CIERTA:


Distribución empírica o N(0,1) para muestras grandes.

REG. DE ACEP.:

REGION CRITICA:

7.- COMPARACIÓN DE VARIAS


POBLACIONES. INTRODUCCIÓN AL
PROBLEMA DE LAS
COMPARACIONES MÚLTIPLES.
En muchas situaciones experimentales se dispone de r >2 poblaciones a
comparar. La primera aproximación al problema es la comparación de todas la
parejas de medias, sin embargo, la propia construcción del procedimiento de
contraste hace que la probabilidad de error no se mantenga al realizar todas las
comparaciones por parejas.
Supongamos que disponemos de r poblaciones y queremos contrastar la
hipótesis de que todas las medias son iguales

La hipótesis es cierta si y solo si las hipótesis por parejas para todas

las combinaciones posibles de i y de j.

Si contrastamos la hipótesis por separado a un nivel de significación , tenemos

Si las comparaciones fueran independientes

es decir, la probabilidad de cometer un error tipo I es

Por ejemplo, para tres poblaciones en las que se realizan comparaciones


individuales al 5%, hay una probabilidad de de
rechazar la hipótesis nula indebidamente. Con 5 poblaciones la probabilidad
sería . Con 10 poblaciones , es
decir, con 10 poblaciones, aunque todas las medias fueran iguales tendríamos
una probabilidad del 90% de encontrar diferencias en alguna de las parejas.

Este problema es importante no solo en la comparación de medias por parejas


sino también cuando se quieren realizar muchas comparaciones sobre el mismo
conjunto de datos. Supongamos, por ejemplo, que un investigador desea
demostrar que es capaz de encontrar diferencias entre personas convictas por
algún tipo de delito y personas que no. A tal fin realiza 100 medidas biométricas
como el perímetro torácico, el perímetro craneal, etc ... que compara en los dos
grupos. En cada comparación tiene una probabilidad del 5% de rechazar
indebidamente, sin embargo (si las medidas fueran independientes) tendría una
probabilidad del 99,41% de encontrar diferencias en alguna de las variables. El
número esperado de contrastes significativos sería de 5.
El problema de mantener el nivel de significación global en la comparación de
las medias de varios grupos se soluciona mediante la técnica denominada
Análisis de la varianza seguido de las comparaciones por parejas en las que se
hace algún tipo de corrección en el nivel de significación individual.

El Análisis de la Varianza se menciona aquí simplemente para alertar al lector


de que existen muchos problemas abiertos que pueden ser objeto de estudio
posterior.

8.- VALIDACIÓN DE LAS HIPÓTESIS


DE PARTIDA.
A lo largo de los distintos puntos de la descripción de los contrastes básicos
hemos ido haciendo una serie de suposiciones que no hemos verificado como
son las hipótesis de normalidad o de igualdad de varianzas (homocedasticidad)
de las poblaciones. La validación de estos supuestos se ha dejado para el final
aunque debe realizarse previamente a la aplicación de los procedimientos de
contraste.

Existen muchos métodos que permiten la validación de la hipótesis de


normalidad, desde los más formales consistentes en nuevos contrastes cuya
hipótesis nula es la hipótesis de que los datos proceden de una distribución
normal, hasta simples procedimientos descriptivos como el histograma o el
Box-Plot que nos permiten decidir si la distribución es aproximadamente
simétrica o normal y si la dispersión de los grupos en estudio es
aproximadamente la misma.

Los procedimientos de contraste de comparación de medias suelen ser robustos


con respecto a la hipótesis de normalidad aunque muy sensibles a la presencia
de outliers (datos anormalmente grandes o pequeños). En las representaciones
Box-plot de los grupos a comparar buscaremos la simetría de lo grupos y, sobre
todo, la presencia de observaciones extrañas en los extremos de la distribución.

La figura siguiente muestra el gráfico con los Box-Plots correspondientes al


ejemplo de las denominaciones de origen.
Figura 12: Box plot para la comparación del grado alcohólico de las denominaciones de Ribera y Toro.

El gráfico muestra como no hay observaciones muy extremas, las dos


distribuciones tienen aproximadamente la misma dispersión y la
correspondiente a la denominación de origen de Toro parece más asimétrica.
La asimetría podría ser debida simplemente a que el tamaño muestral es muy
pequeño en este grupo.

En líneas generales parece que las hipótesis se verifican y es posible aplicar el


contraste par la igualdad de medias de dos poblaciones normales con
varianzas desconocidas pero iguales.

Para contrastar más formalmente que las varianzas son iguales se puede
construir un contraste muy simple teniendo en cuenta la distribución del
cociente de varianzas basado en el cociente de las distribuciones ji-cuadrado
asociadas.

El cociente

sigue una distribución F de Snedecor con n1-1 y n2-1 grados de libertad.


Si la hipótesis nula es cierta, el cociente de cuasi-varianzas

muestrales sigue una distribución F de Snedecor con n1-1 y n2-1 grados


de libertad.

El contraste completo aparece en el cuadro siguiente.

HIPOTESIS:

NIVEL DE SIGNIFICACION: 

ESTADIGRAFO DE CONTRASTE:

DISTRIBUCION DEL ESTADIGRAFO CUANDO H0 ES


CIERTA:

REGION DE ACEPTACION:

[5]
REGION CRITICA:

Cuadro 6: Contraste de comparación de las varianzas de dos poblaciones normales.

Para el ejemplo de la comparación del grado alcohólico en las dos


denominaciones de origen consideradas el contraste de comparación de
varianzas se muestra en el cuadro siguiente.

HIPOTESIS:

NIVEL DE SIGNIFICACION:  = 5% y 1%

ESTADIGRAFO DE CONTRASTE:

DISTRIBUCION DEL ESTADIGRAFO CUANDO H0 ES


CIERTA:
p-valor : 0.6261

Conclusión : Se acepta la hipótesis nula.

Cuadro 7: Contraste de comparación de las varianzas de dos poblaciones normales aplicado ala
comparación de la variabilidad del grado alcohólico.

Como se acepta la hipótesis de igualdad de varianzas, la comparación de medias


ha de hacerse en el supuesto de que las varianzas son iguales.

[1]
La demostración completa no se realiza aquí.

[2]
tn-1, es el valor crítico de la t de Student tal que P(-tn-1, ≤ tn-1 ≤ tn-1, ) = 1-Se ha denotado con
el subíndice  porque es el que se utiliza para buscar el valor correspondiente en la tabla.

tn-1,2 es el valor crítico de la t de Student tal que P( tn-1 > tn-1,2 ) = Se ha denotado con el
[3]

subíndice 2 porque es el que se utiliza para buscar el valor correspondiente en la tabla.

La demostración puede encontrarse en cualquier libro de Estadística Matemática. No se ha incluido


[4]

aquí porque supera los propósitos de este trabajo.

[5]
El valor es el valor crítico que deja a la derecha un área de . En la práctica

puede calcularse como

Anda mungkin juga menyukai