Anda di halaman 1dari 20

1.3 Contraste o test de hiptesis. Definiciones.

1.3.1 Definiciones bsicas.


Un contraste o test de hiptesis es una tcnica de Inferencia Estadstica que
permite comprobar si la informacin que proporciona una muestra observada
concuerda (o no) con la hiptesis estadstica formulada sobre el modelo de
probabilidad en estudio y, por tanto, se puede aceptar (o no) la hiptesis
formulada.
Una hiptesis estadstica es cualquier conjetura sobre una o varias
caractersticas de inters de un modelo de probabilidad.
Una hiptesis estadstica puede ser:
Paramtrica: es una afirmacin sobre los valores de los parmetros
poblacionales desconocidos. Las hiptesis paramtricas se clasifican en
Simple: si la hiptesis asigna valores nicos a los parmetros ( = 1'5, = 10,
X =
Y ,...).
Compuesta: si la hiptesis asigna un rango de valores a los parmetros
poblacionales desconocidos ( > 1'5,5 < < 10, X< Y ,...).
No Paramtrica: es una afirmacin sobre alguna caracterstica estadstica de
la poblacin en estudio. Por ejemplo, las observaciones son independientes, la
distribucin de la variable en estudio es normal, la distribucin es
simtrica,...
La hiptesis que se contrasta se denominahiptesis nula y, normalmente, se
denota por H0.Si se rechaza la hiptesis nula es porque se asume como correcta
una hiptesis complementaria que se denominahiptesis alternativa y se denota
por H1.
1.3.2 Pasos a seguir en la realizacin de un contraste de hiptesis.
Al realizar cualquier contraste de hiptesis estadstico se deben seguir las
siguientes etapas:
1. Plantear el contraste de hiptesis, definiendo la hiptesis nula (H0,
hiptesis que se desea contrastar), y la hiptesis alternativa (H1, cualquier
forma de negacin de la hiptesis nula ).
2. Definir una medida de discrepancia entre la informacin que proporciona
la muestra ( ) y la hiptesis H0. Esta medida de discrepancia
1.

(1.6)
2. se denomina estadstico del contraste y ser cualquier funcin de los
datos muestrales
y de la informacin de la
hiptesis nula
.
La medida de discrepancia debe seguir una distribucin conocida cuando
H0 sea cierta, de forma que se pueda distinguir entre:
una discrepancia grande, la que tiene una probabilidad muy pequea de ocurrir
cuando H0 es cierto.
una discrepancia pequea, la que tiene una probabilidad grande de ocurrir
cuando H0 es cierta.
3. Decidir que valores de d se consideran muy grandes, cuandoH0 es cierto,
para que sean atribuibles al azar. sto es, decidir que discrepancias se
consideran inadmisibles cuando H0 es correcto, lo que equivale a indicar el
valor del nivel de significacin, que se denota por .
4. Tomar la muestra ( ), calcular el valor del estadistico asociado a la
muestra (valorcrtico del contraste) y analizar:
Si es pequeo (pertenece a la regin de aceptacin), entonces se acepta
la hiptesis H0.
Si es grande (pertenece a la regin de rechazo), entonces se rechaza la
hiptesis H0.
1.3.3 Tipos de Error en un contraste de hiptesis.
Al realizar un contraste se puede cometer uno de los dos errores siguientes:
Error tipo I, se rechaza la hiptesis nula H0 cuando es cierta.
Error tipo II, se acepta la hiptesis nula H0 cuando es falsa.

Situacin real:

H es cierta H es falsa
0

Decisin:

ACEPTAR
CORRECTO ERROR II
H
0

RECHAZAR
ERROR I
H

CORRECTO

Tabla 1.1:

Situaciones posibles en un contraste de hiptesis.

Debe tenerse en cuenta que slo se puede cometer uno de los dos tipos de error
y, en la mayora de las situaciones, se desea controlar controlar la probabilidad
de cometer un error de tipo I.
Se denomina nivel de significacinde un contraste a la probabilidad de
cometer un error tipo I, se denota por y, por tanto,
(1.7)
Fijar el nivel de significacin equivale a decidir de antemano la probabilidad
mxima que se est dispuesto a asumir de rechazar la hiptesis nula cuando es
cierta. El nivel de significacin lo elige el experimentador y tiene por ello la
ventaja de tomarlo tan pequeo como desee (normalmente se toma = 0'05, 0'01
o 0'001).
La seleccin de un nivel de significacin conduce a dividir en dos regiones el
conjunto de posibles valores del estadstico de contraste:
La regin de Rechazo, con probabilidad , bajo H0.
La regin de Aceptacin, con probabilidad 1 - ,bajo H0.

f. densidad de D

0,4
D/H_0

0,3

D/H_1

0,2
E_ii

0,1

E_i
0
-4

-2

R. Aceptacin

2
1.65

Figura 1.1. Tipos de errores. Contraste unilateral, P

R.Rechazo
= 0'05, P

= 0'36,

Si el estadstico de contraste toma un valor perteneciente a la regin de


aceptacin, entonces no existen evidencias suficientes para rechazar la hiptesis
nula con un nivel de significacin y el contraste se dice que estadsticamente

no es significativo. Si, por el contrario, el estadstico cae en la regin de


rechazo entonces se asume que los datos no son compatibles con la hiptesis
nula y se rechaza a un nivel de significacin . En este supuesto se dice que el
contraste es estadsticamente significativo.
Por tanto, resolver un contraste estadstico es calcular la regin de
aceptacin y la regin de rechazo y actuar segn la siguiente regla de decisin:
Se obtiene la muestra
contraste .

y se calcula el estadstico del

(1.8)
Segn la forma de la regin de rechazo, un contraste de hiptesis, paramtrico o
no, se denomina
Contraste unilateral o contraste de una cola es el contraste de hiptesis cuya
regin de rechazo est formada por una cola de la distribucin del estadstico
de contraste, bajo H0.
Contraste bilateral o contraste de dos colas es el contraste de hiptesis cuya
regin de rechazo est formada por las dos colas de la distribucin del
estadstico de contraste, bajo H0.

Figura 1.2. Contraste bilateral. H0 : = 0, H1 :

0.

Figura 1.3. Contraste unilateral H0 : > 0, H1 : < 0.


Ejemplo 1.1. Test de hiptesis estadstica.

La distribucin del tamao en Kb de los ficheros que resultan al digitalizar


imgenes con un determinado programa puede suponerse normal. El programa ha
sido mejorado en su ltima versin (versin B) hasta el punto de que quienes lo
comercializan garantizan una disminucin en el tamao medio de los ficheros
resultantes superior a 6 Kb con respecto a la versin anterior (versin A).
La nueva versin B se envi a probar a un centro de investigacin privado que
utiliza la versin A. Las ltimas 550 imgenes recibidas se digitalizaron con la
nueva versin B, obtenindose que los tamaos de los ficheros resultantes
presentaron una media xB= 63'9 y una cuasivarianza B2= 105'063. Cuando se
comprob que las 550 imgenes anteriores a stas, digitalizadas con la versin
antigua A, haban proporcionado las siguientes medidas xA= 70'8 y A2= 96'04, el
centro no consider realista la diferencia anunciada por el proveedor y
devolvieron el producto.
Los proveedores enviaron entonces un representante comercial y ste
convenci a los responsables del centro para la realizacin de una nueva prueba.
Las 25 imgenes que haba en ese momento en el laboratorio se digitalizaron con
las dos versiones del programa A y B. Finalmente se calcularon las diferencias en
Kb de los ficheros obtenidos con cada versin
resultando
5'210
10'785
10'830
7'343

9'607
-2'368
12'836
0'615

12'442
9'762
11'487
12'406

11'248
8'683
12'964
6'151

9'776
10'783
5'371
9'917

5'722

4'693

4'048

8'480

8'151

Estos resultados hicieron cambiar de idea a los responsables del centro y


adquirieron la nueva versin B.
Analizar ambas experiencias.
Cmo es posible que con tan slo 25 datos se haya cambiado de opinin si la
experiencia primera se realiz en base a un tamao de muestra 22 veces
superior?
Solucin:
Se siguen los siguientes pasos
Paso 1: Especificar las hiptesis nula (H0) y alternativa (H1).
Sea A la esperanza de la distribucin de los tamaos de los ficheros una
vez digitalizadas las imgenes con la versin A del programa y B la
correspondiente a la versin B actualizada. Se desea investigar si es
razonable asumir la afirmacin del proveedor. El contraste a realizar es
(1.9)
Se supone que se verifican las siguientes hiptesis:
Las observaciones siguen una distribucin normal.
Las observaciones son independientes.
Las dos muestras tienen igual varianza.
Se contrasta la tercera hiptesis de igualdad de las varianzas de las dos
muestras.
(1.10)
Fijado = 0'05, se calcula el estadstico del contraste

Este valor 2 no pertenece a la regin de rechazo especificada para el


contraste de varianzas de dos muestras independientes que viene dado por

Por tanto se acepta la hiptesis de igualdad de las varianzas de las dos


muestras.

F_549,549

4
3
2

0'95

0'025

0'025

0
0,6
0,7
0,8
0,9
1
1,1
1,2
1,3
1'09
R. Rechazo 0'83
1'17 R. Rechazo
R. Aceptacin
Figura 1.4. Contraste de igualdad de varianzas.
Paso 2: Se elige un estadstico de contraste apropiado: d1= d1(H0, ). En
este problema una buena eleccin es la siguiente.
(1.11)
Si H0 es cierto, entonces
(1.12)
T

es un estimador del parmetro

2
A

2
B

, que viene dado por

(1.13)

Paso 3: Se fija el nivel de significacin , esto es, la probabilidad de error


de tipo I. En este ejemplo se utiliza = 0'05.
Paso 4: Se calculan las regiones de rechazo y de aceptacin del contraste,
teniendo en cuenta si el contraste es unilateral o bilateral.
En el ejemplo el contraste es unilateral y teniendo en cuenta
regin de rechazo para = 0'05 es

la
(1.14)

0,4

t_1098

0,3
0,2

0'95

0,1

0'05

0
-4

-3

-2
-1
R. Aceptacin

0
1'48

1
1'64

3
4
R. Rechazo

Figura 1.5. Contraste de igualdad de medias. Primer estudio.


Paso 5: Se obtiene la muestra y utilizando el estadstico de contraste d1
dado en
se obtiene el valor crtico = (X1, ,Xn).
En el ejemplo en estudio, en primer lugar se calcula la estimacin de la
varianza

Ahora el valor crtico del contraste C1 es

El nivel crtico asociado del contraste es 0'0683 (ver siguiente seccin).


Paso 6: Se concluye si el test es estadsticamente significativo o no al nivel
de significacin segn que el valor crtico pertenezca a la regin de
rechazo o a la regin de aceptacin, respectivamente.
Como 1 = 1'488 no pertenece a la regin de rechazo dada en
se
acepta la hiptesis nula. Por consiguiente los datos muestrales no avalan
que el tamao medio de los ficheros disminuye en ms de 6 Kb como
afirman los vendedores del nuevo programa.
Tal y como se resolvi el problema hay un parmetro que no se controla, el error
de tipo II, ya que se desconoce la probabilidad de aceptar la hiptesis nula
cuando es falsa.
Si, simultneamente, se desea controlar la probabilidad de error de tipo I
y
la probabilidad de error de tipo II ( ( 1)) se debe especificar el tamao muestral
que se est dispuesto a asumir. sto es, si se quiere controlar el porcentaje de
veces que se detecta la hiptesis alternativa (que se denota = 1)cuando es
cierta, que en trminos de probabilidad se denota por

es necesario calcular el tamao muestral n adecuado para garantizar que ambas


probabilidades de error sean las fijadas.
Obviamente existe una relacin entre los tres parmetros (n, y ( )),
conocidos dos de ellos se puede obtener el tercero:
n, tamao muestral,
, probabilidad de error de tipo I,
( ), probabilidad de error de tipo II.
En este ejemplo puede suponerse que existe independencia entre las
observaciones muestrales y que no hay relacin entre los dos grupos de 550
imgenes digitalizadas por cada una de las dos versiones del programa. Por tanto
se trata de dos muestras independientes.
En la segunda experiencia que se propone los datos se han tomado apareados
ya que se han ejecutado las dos versiones del programa sobre las mismas
imgenes, primero la versin A y despus la B. Por tanto hay independencia entre

las observaciones de cada muestra pero no entre las observaciones de una


muestra respecto a la otra. Para resolver el problema en este segundo contexto y
evitar el problema de dependencia, se trabaja con la variable diferencia del
tamao del fichero al digitalizar la imagen con la versin A del programa y el
tamao del fichero al utilizar la versin B
.Se calculan las 25
diferencias entre los tamaos de los ficheros resultantes y se obtiene una
muestra nica. De la que se obtiene

El contraste es ahora
(1.15)
El estadstico del contraste es
(1.16)
Bajo las hiptesis supuestas se verifica que la distribucin de d3,cuando H0es
cierta, es una distribucin t
(1.17)
Para = 0'05se obtiene la siguiente regin de rechazo

Utilizando

Este valor

se obtiene el siguiente valor crtico

pertenece a la regin de rechazo y se rechaza H0.

Obsrvese que tambin se rechazara H0con = 0'01(de hecho el nivel crtico


es 0'003). La decisin de rechazo parece clara y con garantas, en contradiccin
con la decisin de la primera experiencia.

0,4

Figura 1.6. Contraste sobre la media. Datos apareados.


Por qu esta diferencia en la respuesta?
Viene motivada por la alta variabilidad de las variables del primer
experimento XAy XB.Con el muestreo apareado la variabilidad ha disminuido
considerablemente, la varianza de la variable diferencia Z es considerablemente
inferior a la varianza de XAy XB. La disminucin tan fuerte en la variabilidad est
motivada en la existencia de una alta correlacin positiva entre las variables XAy
XB,ya que las imgenes que al digitalizarlas con una versin generan ficheros
grandes (pequeos) tambin producirn ficheros grandes (pequeos) al ser
digitalizadas con la otra versin.
1.3.4 Nivel crtico y regin crtica.
Si el contraste de hiptesis se va estudiar con una nica muestra y no de forma
repetida y sistemtica, se puede utilizar una filosofa alternativa y ms
informativa que se basa en los conceptos de nivel crtico y regin crtica.
Se denomina nivel crtico o p-valor a la probabilidad p de obtener una
discrepancia con H0 mayor o igual que el valor crtico cuando H0 es correcto.
(1.9)
La regin crtica es el conjunto de valores para los cuales d es mayor o igual que
el valor crtico d .
Por tanto,

Comentarios:
1. El nivel crtico slo puede calcularse una vez tomada la muestra,
obtenindose niveles crticos distintos para cada muestra.
2. El nivel crtico p puede interpretarse como un nivel mnimo de
significacin en el sentido de que niveles de significacin iguales o
superiores al p -valor llevarn a rechazar la hiptesis nula.
Por tanto, cuanto menor sea el p -valor mayor es el grado de
incompatibilidad de la muestra con H0, lo que lleva a rechazar H0.

3. El clculo del nivel crtico no proporciona de modo sistemtico una


decisin entre H0 y H1.
4. En las Figuras 1.7 (y 1.8) pueden verse representados el nivel crtico y la
regin crtica en un contraste unilateral (y bilateral) acerca de la media,
bajo la hiptesis de normalidad.

Figura 1.7. Nivel crtico. Contraste unilateral sobre la media con

= 0'84.

0,4

Figura 1.8. Nivel crtico. Contraste bilateral sobre la media con = 0'84.
1.3.5 Potencia de un contraste.
Para medir la bondad de un contraste de hiptesis se utiliza el concepto de
potencia del contraste. Considrese que se est estudiando un contraste de
hiptesis acerca del parmetro , siendo la hiptesis nula
frente a la hiptesis alternativa
Se denomina potencia al nivel del estadstico de contrasted a la funcin que
asigna a cada valor del parmetro la probabilidad de rechazar H0 cuando es
correcto.
Esto es,

donde

(1.10)

Comentarios:
1. Al grafo de la potencia se lo denomina curva de potencia. En algunos
textos se trabaja con la funcin curva caracterstica de operacin
definida por
1.
(1.11)
2. Si denotamos por a la probabilidad de error de tipo I, se verifica que
Cuanto ms lejana se encuentra la alternativa H1 de H0 menor es la
probabilidad de incurrir en un error tipo II ( ) y, por consiguiente, la
potencia tomar valores ms prximos a 1.

3. Si la potencia en la hiptesis alternativa es siempre muy prxima a 1


entonces se dice que el estadstico de contraste es muy potentepara
contrastar H0 ya que en ese caso las muestras sern, con alta
probabilidad, incompatibles con H0 cuando H1 sea cierta.
Por tanto puede interpretarse la potencia de un contraste como su
sensibilidad o capacidad para detectar una hiptesis alternativa.
1. Fijado un nivel de significacin , un contraste d1 se dice ms potente
que otro d2 para contrastar la hiptesis nula H0 si
1.
(1.12)
2. En la Figura 1.9. se representa la funcin de potencia del contraste
H0 : = 0 frente a la alternativa H1 : 0 (contraste bilateral), bajo la
hiptesis de normalidad, con = 0'10 y tamao muestral n = 100.
En la Figura 1.10. se representa la funcin de potencia del contraste
H0 : < 0 frente a la alternativa H1 : >0 (contraste unilateral), bajo la
hiptesis de normalidad, con = 0'10 y tamao muestral n = 100.

Figura 1.9. Funcin de Potencia. Contraste bilateral acerca de la media.

Figura 1.10. Funcin de Potencia. Contraste unilateral acerca de la


media.
1.3.6 Algunos contrastes paramtricos importantes.
Se exponen en esta seccin algunos de los estadsticos de contraste ms
importantes para contrastar hiptesis nulas del tipo H0 : = 0,siendo un
parmetro desconocido y de cuyo valor depende la distribucin de una
variable de inters X.

Contrastes sobre la media. A partir de una muestra


extrada
2
de una poblacin X normal con media y varianza desconocidas, se desea
contrastar la hiptesis nula
El estadstico de contraste es
(1.13)
donde es la desviacin tpica muestral corregida

. Si H0 es cierto

Contrastes sobre la varianza. Sea la muestra aleatoria simple


extrada de una poblacin X normal con varianza
contrastar

, se desea

El estadstico de contraste es
(1.14)
Si H0 es cierto

Contrastes sobre la igualdad de varianzas.Sean dos muestras aleatorias


simples
e
obtenidas de dos poblaciones X e
Y,con distribuciones respectivas
N

yN

Se desea contrastar

El estadstico de contraste es
(1.15)
Si H0 es cierto

Contrastes sobre la diferencia de medias, muestras independientes e


igualdadde varianzas. Sean dos muestras aleatorias simples
obtenidas de dos poblaciones X e Y, con distribuciones N
yN

.Por tanto se supone que

El estadstico de contraste es

= 2. Se desea contrastar

(1.16)

siendo
(1.17)
un estimador insesgado eficiente de la varianza que se calcula a partir de la
informacin que proporcionan ambas muestras.
Si H0 es cierto se verifica que

Contrastes sobre la diferencia de medias, muestras independientes y


varianzasdesiguales. Sean dos muestras aleatorias simples
obtenidas de dos poblaciones X e Y, con distribuciones
respectivas N
contrastar

yN

,y se supone que

2
X

. Se desea

El estadstico de contraste que se utiliza es

(1.18)

Si H0 es cierto se verifica que

siendo g =n + m- 2 + , con un trmino de correccin (ver Cao y otros (2001)).


Contrastes sobre la diferencia de medias, muestreo apareado. En este caso
las dos muestras aleatorias simples tienen igual tamao muestral
e
y son obtenidas al realizar dos
observacionesXi e Y i sobre el mismo individuo, el i-simo. Por la naturaleza del
muestreo apareado las dos muestras son dependientes. Para eliminar este
problema se estudia la variable diferencia Z =Y - X, por tanto, a partir de las

dos muestras iniciales se calcula la muestra de diferencias


=Xi -Yi .Para contrastar la hiptesis

, Zi

Se utiliza el siguiente estadstico de contraste


(1.19)
Si H0 es cierto

[Anterior] [Arriba]

Anda mungkin juga menyukai