Anda di halaman 1dari 70

MODELOS DE PROBABILIDAD

La variable Normal N(,). El modelo de probabilidad normal de parmetros y , N(,), siendo y constantes, con >0, juega un papel fundamental en estadstica, ya que todas las tcnicas o procedimientos inferenciales dependen directa o indirectamente de esta variable aleatoria.

Sus propiedades ms relevantes son:

Si X1, X2, ..., Xn son variables aleatorias independientes y con leyes de probabilidad N(i,i) , i=1,2,...n, respectivamente; y a1,a2,...,an,b son constantes; entonces la variable aleatoria

Si X1, X2, ..., Xn son variables aleatorias independientes y con leyes de probabilidad N(i,i) , i=1,2,...n, respectivamente;

sigue la ley de probabilidad del modelo Chi-cuadrado con n grados de libertad.

Teorema del lmite central. Si X1, X2, ..., Xn son variables aleatorias (discretas o continuas) independientes ,con idntico modelo de probabilidad, de valor medio y varianza 2 ,entonces la distribucin de la variable

se aproxima a la de una normal tipificada N(0,1), mejorndose la calidad de la aproximacin a medida que n aumenta.

Este resultado prueba que el estadstico o estimador media muestral

Con carcter general, o al menos en los modelos de probabilidad clsicos, se admite una aproximacin aceptable al modelo normal siempre que n sea mayor o igual que 30, a pesar de que esta cifra es insuficiente en determinados casos y excesiva en otros; por lo que debemos ser cautelosos en su aplicacin. En la ltima pgina de este tema se establece una relacin de algunos modelos, con aproximaciones particulares, que en la mayora de los casos derivan del teorema del lmite central. La variable 2 de Pearson. Este modelo de probabilidad puede ser introducido como caso particular de la familia de distribuciones Gamma de prametros y p , constantes positivas. Concretamente, si se considera = 1/2 y p = n/2 , donde n es un entero positivo, el modelo de probabilidad resultante se denomina 2,Chi-cuadrado, con n grados de libertad. Resultado que afecta a la distribucin de S2. Si X1, X2, ..., Xn son variables aleatorias independientes con ley de probabilidad normal N(,) , es decir, una muestra aleatoria de tamao n extrada de una poblacin N(,), entonces

sigue la ley de probabilidad del modelo 2 con (n-1) grados de libertad. La distribucin t de Student. Una variable aleatoria se distribuye segn el modelo de probabilidad t o T de Student con k grados de libertad , donde k es un entero positivo. Su valor medio y varianza son

La ley de probabilidad de la media muestral en una poblacin normal con varianza desconocida. Si X1, X2, ..., Xn son variables aleatorias independientes con ley de probabilidad normal N(,) , es decir, una muestra aleatoria de tamao n extrada de una poblacin N(,), entonces

La distribucin F de Fisher. Una variable aleatoria se distribuye segn el modelo de probabilidad F de Fisher con (m,n) grados de libertad , donde m y n son enteros positivos El modelo de probabilidad del cociente entre varianzas muestrales, en poblaciones normales e independientes. Si X1, X2, ..., Xm ; e Y1, Y2, ..., Yn son muestras aleatorias de tamaos m y n extradas de poblaciones normales N(x, x) y N(y, y) , respectivamente, entonces

ESTIMACIN DE PARMETROS: INTERVALOS DE CONFIANZA


Objetivos: La inferencia estadstica se ocupa, entre otras cuestiones, de los procedimientos de estimacin de parmetros desconocidos de la distribucin de una variable aleatoria o de lapoblacin, a partir de la informacin suministrada por una muestra de tamao reducido, extrada al azar. La estimacin de parmetros por intervalos, permite construir un intervalo que contendr el parmetro a estimar con un confianza fijada a priori por el experimentador.

Estimacin de parmetros. Poblacin y muestra. Una experiencia aleatoria es aqulla cuyo desarrollo y resultado depende exclusivamente del azar pudiendo establecer formalmente y sin ambigedad el conjunto de los resultados posibles; una magnitud o caracterstica numrica X, dependiente y conectada con esta experiencia, se pone de manifiesto, es decir, toma un valor, cada vez que observamos el resultado de la realizacin de la experiencia aleatoria. Esta magnitud X es, por consiguiente, de naturaleza aleatoria en tanto que depende del resultado de un experimento aleatorio. Se dice que X es una variable aleatoria. Si la experiencia aleatoria afecta a objetos u entes (individuos) de un conjunto (poblacin) , cualquier subconjunto de tamao n de individuos, que sern seleccionados aleatoriamente (sin ejercer ningn control en la seleccin), tendr asociado una sucesin de variables aleatorias :

Desde un punto de vista estadstico, entenderemos que esta sucesin de variables aleatorias, que supondremos independientes, es una muestra aleatoria de tamao n extrada de la poblacin que, en tanto que se trata de n rplicas de X, queda identificada de alguna manera con la variable aleatoria: se alude, en tal caso, a la poblacin univariante X.

Cuando la experiencia se centra en la observacin simultnea de k magnitudes numricas: Y1 , Y2 , ... , Yk ; una muestra de tamao n de la poblacin multivariante (Y1 , Y2 , ... , Yk)podra representarse por la siguiente coleccin de variables aleatorias:

Estimacin de parmetros. Concepto de estimador. Una variable aleatoria o poblacin X lleva aparejada su funcin de densidad de probabilidad , que la describe o establece probabilsticamente. Esta funcin de densidad de probabilidad, siempre que est determinada con todo detalle, permite calcular cualquier parmetro poblacional , es decir, aquella constante que informa de manera sinttica de una propiedad relevante o caracterstica de una poblacin o variable aleatoria, tal como el valor medio o la varianza, parmetros clsicos de centralizacin y de dispersin, respectivamente. Si el valor de un parmetro es desconocido, los estimadores que se puedan construir permitirn la estimacin de tal parmetro. A tal efecto, entenderemos como estimador cualquier variable aleatoria que se defina a partir de la sucesin de variables aleatorias que integran una muestra extrada al azar de una poblacin, es decir, toma un valor para cada nobservaciones o datos. Estos datos corresponden a los valores de la variable que representan a la poblacin en los n "individuos" de la muestra. Deberemos valorar en un estimador su capacidad de extraer "al mximo" la informacin contenida en la muestra, ya que redundar en la calidad y precisin de las estimaciones. Dos propiedades bsicas en los estimadores son el insesgamiento y la eficiencia :

Se dice que un estimador (X1,X2,...,Xn) (o simplemente ) de un parmetro es insesgado o centrado si su valor medio o esperado coincide exactamente con :

Esta propiedad es deseable en tanto que el valor medio de una variable informa acerca del "centro de gravedad" de su ley de probabilidad, es decir, seala la zona donde se concentran los valores de mxima probabilidad de la variable, sobre todo si su funcin de densidad es notablemente simtrica.

Dados dos estimadores centrados, 1 y 2 , de un mismo parmetro , se dice que 1 es ms eficiente que 2 si la varianza de 1 es menor que la de 2 :

Puesto que la varianza de una variable aleatoria es una medida de dispersin de la variable, respecto de su valor medio, en este caso representara una medida del error que se puede cometer en la estimacin; por lo que deberemos elegir aquel estimador de mnima varianza o ms eficiente. Estimacin de parmetros. Media y varianza muestral. Los estimadores clsicos del valor medio y la varianza 2 de una variable aleatoria o poblacin X son la media muestral y la varianza muestral, respectivamente: Dada una muestra aleatoria X1, X2 ,..., Xn de tamao n de una poblacin X , se define el estimador media muestral como la siguiente variable aleatoria:

Se trata, por tanto, de un estimador centrado del valor medio de una variable aleatoria X , cuya varianza decrece a medida que aumenta n , el tamao muestral, es decir, a medida de que se disponga de "mayor informacin" de la poblacin.

La varianza muestral una muestra aleatoria X1, X2 ,..., Xn de tamao n de una poblacin X se define como

S2 es un estimador centrado de 2 , cuya varianza se reduce al aumentar el tamao muestral. Observacin: conviene sealar en estos momentos que la gran mayora de estadsticos o estimadores que aparecen en inferencia estadstica pueden expresarse en funcin de medias y varianzas muestrales, que afectan a una o varias poblaciones univariantes o multivariantes.

Estimacin de parmetros. Puntual y por intervalos. Al considerar un estimador de un parmetro poblacional , la realizacin de una muestra aleatoria de tamao n , X1, X2 ,..., Xn ; suministra n datos, valores u observaciones, x1, x2 ,..., xn , que determinan una estimacin puntual del parmetro desconocido:

Si pretendemos, por ejemplo, estimar puntualmente el valor medio con el estimador media muestral, extraeremos una muestra de la poblacin, observaremos el valor de la variable en losn individuos de la muestra. En tal caso, los n datos obtenidos x1, x2 ,..., xn , permiten calcular lo deseado:

La estimacin por intervalos de un prametro consiste en la determinacin de un intervalo, que contendr el parmetro con una confianza 1- , nmero entre 0 y 1, fijado por el experimentador. Par ello se requerir lo siguiente:

Una muestra aleatoria X1, X2 ,..., Xn de tamao n extrada de la poblacin X. Un estimador del parmetro poblacional , con distribucin o ley de probabilidad conocida. El nivel de confianza 1- , establecido a priori por el experimentador (los usuales son 0.95, 0.90 y 0.99).

Estimacin de parmetros. Estimacin por intervalos del valor medio en poblacin normal. Vamos a ilustrar el procedimiento de obtencin de un intervalo de confianza, considerando una poblacin normal X con varianza desconocida , siendo el parmetro a estimar su valor medio . Para ello se deber disponer de:

Una muestra aleatoria X1, X2 ,..., Xn de tamao n extrada de la poblacin X. Un estimador del parmetro poblacional , que en este caso es la media muestral pero que, debido al desconocimiento de la varianza de la poblacin, tendremos que reemplazar este ltimo parmetro por la varianza muestral. El estadstico que emplearemos, relacionado con el parmetro , ser :

Este estadstico sigue una distribucin T de Student con (n-1) grados de libertad.

El nivel de confianza 1- , establecido a priori por el experimentador (los usuales son 0.95, 0.90 y 0.99).

Dada la distribucin del estadstico y el nivel de confianza , se tiene la siguiente igualdad probabilstica:

La expresin anterior es equivalente a:

que hace referencia a que con una probabilidad 1- el intervalo aleatorio

contendr el valor medio . El intervalo es aleatorio ya que sus extremos se determinan a partir de los estimadores media muestral y desviacin tpica muestral, tratndose de variables aleatorias. La probabilidad a que se refiere dicho intervalo aleatorio, puede interpretarse de manera informal pero quizs ms clara: "Si consideramos todas las muestras distintas de tamao n que puedan ser extradas de la poblacin X , y con las observaciones de cada una construimos los correspondientes intervalos, segn la estructura anterior, el (1- )% de estos intervalos contendrn el parmetro " Por tanto, si extraemos una muestra de tamao n y con los datos u observaciones, x1, x2 ,..., xn , calculamos los extremos del intervalo, dispondremos del concreto intervalo de confianza para el parmetro

que, en funcin de la interpretacin informal anterior, contendr dicho parmetro con una confianza (1- ). Observacin: el nivel de confianza establece en alguna medida la longitud del correspondiente intervalo de confianza. Aumentando el nivel de confianza (mayor certeza) , aumenta la longitud (menor precisin). Estimacin de parmetros. Estimacin por intervalos en general. A continuacin trataremos de exponer, de forma ms general, el procedimiento de obtencin de un intervalo de confianza para un parmetro de una poblacin univariante X, siguiendo los mismos pasos que en el caso particular expuesto en la pgina precedente. Si E() es el estadstico adecuado para ,con distribucin de probabilidad conocida, y 1- es el nivel de confianza adoptado, podremos asegurar que

Esta expresin probabilstica ser equivalente a:

Por ello, con una probabilidad 1- el intervalo aleatorio

contendr el parmetro . Si extraemos una muestra de tamao n y con los datos u observaciones, x1, x2 ,..., xn , calculamos los extremos del intervalo, dispondremos del concreto intervalo de confianza para el parmetro :

que contendr dicho parmetro con una confianza (1- ).

CONTRASTES DE HIPTESIS ESTADSTICAS


Objetivos: Dentro del campo de la inferencia estadstica, disciplina que se ocupa de desarrollar procedimientos que permiten "pronunciarse", en condiciones de incertidumbre, acerca de conjeturas de carcter general, es decir, que afectan a una poblacin, a partir de la informacin suministrada por una muestra extrada al azar, de tamao reducido; se introduce uno de sus conceptos fundamentales: el contrate o test de hiptesis estadsticas, entendindose como hiptesis estadstica cualquier conjetura, asercin, o afirmacin relacionada con la distribucin o modelo de probabilidad de una o varias poblaciones univariantes o multivariantes.

Contrastes de hiptesis estadsticas. Ejemplo ilustrativo. Introduciremos el tema considerando el problema expuesto por un investigador al conjeturar sobre la proporcin "exacta" p3 de individuos con genotipo aa en una poblacin numerosa, si se tiene en cuenta la existencia de otros dos genotipo AA y Aa, en proporciones p1 y p2 , respectivamente. La formulacin de tal hiptesis, denominada hiptesis nula y designada por H0, lleva aparejada una hiptesis alternativa H1 que, en este caso, niega la asercin del experimentador. El procedimiento desarrollar el contraste de ambas hiptesis en juego, en base a la utilizacin de un criterio o regla "razonable" que permita "pronunciarse" o no por la conjetura expuesta, es decir, el rechazo o no rechazo de la hiptesis nula. Concretamente, las hiptesis a contrastar giran en torno a que dicha proporcin sea o no 1/4 , y pueden ser expresadas formalmente como sigue:

El no rechazo de la hiptesis nula, nos conducira a afirmar que la proporcin de individuos con genotipo aa no "difiere significativamente" de 1/4, lo que no se debe interpretar como que dicha proporcin sea exactamente esta fraccin. Contrastes de hiptesis estadsticas. Apunte informal del criterio de rechazo. Como en todo proceso inferencial, nuestra intencin es extraer al azar una muestra de la poblacin, de tamao 100 por ejemplo, que representamos formalmente con ayuda de Y1, Y2 , .... , Y100 , es decir, una sucesin de variables aleatorias independientes con idntico modelo de probabilidad que la variable de Bernoulli , Y , que identifica a la poblacin ( Y=1 , si el individuo tiene genotipo aa ; Y=0 si no es el caso) ; con la esperanza de que esta muestra nos permita confeccionar el criterio de rechazo de H0. Si la conjetura de investigador es cierta, es decir, si H0 es cierta, el nmero medio o esperado de individuos con genotipo aa ser:

donde Y1+ Y2 + .... + Y100 es una variable aleatoria con modelo de probabilidad Binomial B(100, 1/4) , que contabiliza el nmero de individuos con genotipo aa en la muestra de tamao100. En base a la interpretacin del valor medio de una variable como centro de gravedad de su ley de probabilidad, si se obtiene en la muestra un nmero de individuos, con genotipo aa, que difiera "sustancialmente" de 25, tanto por exceso como por defecto, nos har dudar de la veracidad de H0 , obligndonos a su rechazo. Contrastes de hiptesis estadsticas. Formulacin del criterio de rechazo. Si H0 es cierta, y a efectos esencialmente didcticos, utilizaremos el teorema del lmite central para aproximar mediante el modelo normal la ley de probabilidad de Y1+ Y2 + .... + Y100 , concretamente emplearemos el modelo

Dado que la desviacin tpica es una medida de la dispersin media o alejamiento medio de una variable aleatoria respecto de su valor medio o esperado, resultara razonable, tal y como apunt Fisher, empezar a dudar de la veracidad de H0 cuando el alejamiento entre Y1+ Y2 + .... + Y100 y 25 , tanto por la derecha como por la izquierda, sea como mnimo el doble de lo que se espera, es decir, el doble de la desviacin tpica. Tal consideracin nos lleva a formular el siguiente criterio o regla:

o de manera equivalente:

El rechazo de H0 se producir cuando en la muestra de tamao 100 se observen como mnimo 34 o como mximo 16 individuos con genotipo aa , lo que puede ser visualizado grficamente :

Hay por tanto una regin crtica o de rechazo de H0 :

Contrastes de hiptesis estadsticas. Tipos de errores. Sin entrar en el anlisis de cul sera la "mejor" regin crtica y, por tanto, cul sera el mejor criterio que podemos adoptar para decidir el rechazo de H0 , resulta

imprescindible cuantificar en qu medida se acta errneamente. Se consideran, a tal efecto, dos tipos de errores: Error de tipo I o de primera especie. Se comete al rechazar errneamente H0, es decir, cuando se rechaza H0 , siendo cierta. Error de tipo II o de segunda especie. Se comete cuando no rechazamos errneamente H0 , es decir; cuando no se rechaza H0 , siendo falsa.

Por tanto, cada vez que, aplicando un determinado criterio, rechazamos H0 , deberemos preocuparnos exclusivamente del error del tipo I. Si los datos y el criterio nos conducen al no rechazo de H0 , nuestra preocupacin tendr que ver exclusivamente con el error de tipo II.

La cuantificacin del error de tipo I se establece, obviamente, determinando la probabilidad de rechazar H0 , cuando esta hiptesis es cierta. Dicha probabilidad se designa por y recibe el nombre de nivel de significacin del contraste :

El valor de 0.05, nivel de significacin de este contraste de hiptesis, es el que se suele adoptar habitualmente y su justificacin ha sido expuesta anteriormente en base al razonamiento realizado por Fisher. Comentario informal sobre el error de tipo I: Si aplicando el criterio, rechazamos la hiptesis nula, actuaremos correctamente si es falsa; pero si es cierta slo ocurrir; es decir, la rechazaremos; en el 5% de los casos. Contrastes de hiptesis estadsticas. Tipos de errores. Respecto al error de tipo II, conviene sealar que en el ejemplo que nos ocupa la hiptesis

alternativa es compuesta, es decir, el conjunto de valores que considera para p3 no se restringe a uno solo, es decir, cualquier valor distinto de 1/4 debe ser tenido en cuenta en esta hiptesis. La funcin de potencia de un contraste de hiptesis, que nosotros utilizaremos parcialmente, ser definida para cuantificar la capacidad del criterio utilizado para rechazar H0 cuando esta hiptesis sea falsa. Concretamente, si p3 =p, con p distinto a 1/4, 1-(funcin de potencia para p) calcula el error de tipo II correspondiente, es decir, la probabilidad de no rechazar H 0 para este valor particular de la hiptesis alternativa. Esta probabilidad se designa por p y suele denominarse nivel de riesgo para el valor p de la hiptesis alternativa :

A continuacin se expone en una tabla la potencia y el nivel de riesgo de este contraste para varios valores de la hiptesis alternativa:

1-p

0.10 0.983 0.017 0.15 0.647 0.353

0.20 0.30 0.35 0.40 0.45 0.50

0.191 0.214 0.611 0.913 0.989 0.9995

0.819 0.786 0.389 0.097 0.011 0.0005

As mismo, se representan grficamente los niveles de riesgo correspondientes:

Contrastes de hiptesis estadsticas. Tipos de errores. De los clculos obtenidos acerca de la potencia y el nivel de riesgo para distintos valores de la hiptesis alternativa, en el caso particular que nos ocupa, es interesante observar lo siguiente: Si con el criterio adoptado y una vez se disponga de los datos correspondientes a la muestra de tamao 100, no se rechaza H0, habremos actuado correctamente si la hiptesis nula es cierta; pero si es falsa, en el caso de que p sea 0.3, por ejemplo, no lo detectaremos en aproximadamente el 79% de los casos (0.3 = 0.786). El investigador, que analiza las condiciones en las que se va a desarrollar el contraste y que an no ha extrado muestra alguna de la poblacin, puede pensar que este error es sustancial y considera una serie de medidas con el fin de disminuir el nivel de riesgo para el valor 0.3 : o Modificar el criterio para que el nivel de significacin FALSA", aunque este razonamiento no es del todo correcto . Contrastes de hiptesis estadsticas. Algunos casos particulares. Si es un parmetro, es decir una constante que puede ser determinada con ayuda de los modelos de probabilidad de una o varias poblaciones univariantes o

multivariantes, podemos estar interesados en desarrollar el siguiente contraste de hiptesis estadsticas :

Para poder llevar a cabo dicho contraste es preciso disponer de lo siguiente:


Informacin muestral de la o de las poblaciones afectadas. Un estadstico conveniente, , relacionado de alguna forma con el parmetro , con ley de probabilidad conocida, aunque fuera de manera aproximada, sea cual sea el valor de este parmetro. Esta ley de probabilidad permitir cuantificar el nivel de significacin y el nivel de riesgo de este contraste, respecto a un criterio determinado.

Una regla o criterio que, partiendo de la veracidad de H0, permita adoptar una decisin: rechazar o no esta hiptesis nula. Para un nivel de significacin, que puede ser fijado por el experimentador, el criterio determinar de matera equivalente una regin R, crtica o de rechazo de H 0, y entonces se tendr:

Para el nivel de significacin se tiene :

Contrastes sobre valores medios en poblaciones independientes. Con el fin de desarrollar de una forma ms operativa un contraste de hiptesis, nos vamos a servir de la situacin particular que afecta a dos poblaciones independientes, X e Y, con distribuciones normales N(x,x) y N(y,y) , respectivamente. Se supone, adems, que las varianzas de estas poblaciones son desconocidas pero no significativamente distintas . Se pretende inicialmente contrastar la existencia de diferencias apreciables entre los valores medios de estas poblaciones:

Actuaremos sistemticamente, siguiendo los pasos sealados en la pgina anterior ( = x-y y o = 0):

Se extraern muestras aleatorias de tamaos n1 y n2 , de X e Y, respectivamente:

Dada la informacin disponible, el estadstico a utilizar ser:

Este estadstico sigue una distribucin T de Student con (n1+n2-2) grados de libertad.

Fijado , nivel de significacin, y bajo el supuesto de la veracidad de H0 (lo que supone x-y = 0) , se adopta el siguiente criterio:

Es decir, se duda de la veracidad de H0 cuando la diferencia entre las medias muestrales de las observaciones es "sustancialmente grande". Los valores crticos se determinan a partir de la igualdad

Grficamente, los valores crticos establecen los puntos frontera de la regin crtica R :

Dado que la regin crtica se localiza en las "colas" izquierda y derecha de la funcin de densidad del estadstico utilizado, el contraste que estamos desarrollando se denominabilateral.

La forma ms extendida de formular el criterio de rechazo de la hiptesis nula recurre al P-valor , tambin llamado nivel de significacin emprico o nominal, que en este caso se define de la forma siguiente:

Entonces, de manera equivalente se tiene:

Contrastes unilaterales sobre valores medios en poblaciones independientes. Partiendo de los mismos supuestos, es decir, X e Y,poblaciones independientes, con distribuciones normales N(x,x) y N(y,y) , respectivamente; y varianzas desconocidas,

pero no significativamente distintas; se puede considerar el contraste unilateral superior o con cola a la derecha siguiente:

En tal caso, para muestras aleatorias de tamaos n1 y n2 , de X e Y, respectivamente; y nivel de significacin , se establece el siguiente criterio:

El valor crtico se determina a partir de la igualdad

Grficamente, el valor crtico establece el punto frontera de la regin crtica R :

La regin crtica se localiza, en este caso, en la "cola" derecha de la funcin de densidad del estadstico utilizado. Si recurrimos al P-valor , que en este caso se define de la forma siguiente:

el criterio de rechazo de la hiptesis nula se formula de manera equivalente como :

Respecto al contraste unilateral inferior o con cola a la izquierda :

se adopta el siguiente criterio:

El valor crtico se determina a partir de la igualdad:

Grficamente, el valor crtico establece el punto frontera de la regin crtica R

La regin crtica se localiza, en este caso, en la "cola" izquierda de la funcin de densidad del estadstico utilizado. Si recurrimos al P-valor , que en este caso se define de la forma siguiente:

el criterio de rechazo de la hiptesis nula se formula de manera equivalente como :

Contrastes sobre valores medios en poblaciones independientes. Nos ocupamos ahora de establecer el procedimiento para contrastar las igualdad de valores medios en dos poblaciones independientes, X e Y, con distribuciones normales N(x,x) y N(y,y), respectivamente; pero con varianzas desconocidas y diferentes. El contraste bilateral sera:

Se extraern muestras aleatorias de tamaos n1 y n2 , de X e Y, respectivamente:

Dada la informacin disponible, el estadstico a utilizar ser:

Este estadstico sigue una distribucin T de Student con grados de libertad, donde es el entero ms prximo a:

Fijado , nivel de significacin, y bajo el supuesto de la veracidad de H0 (lo que supone x-y = 0) , se adopta el siguiente criterio:

Es decir, se duda de la veracidad de H0 cuando la diferencia entre las medias muestrales de las observaciones es "sustancialmente grande". Los valores crticos se determinan a partir de la igualdad

Grficamente, los valores crticos establecen los puntos frontera de la regin crtica R :

Dado que la regin crtica se localiza en las "colas" izquierda y derecha de la funcin de densidad del estadstico utilizado, el contraste que estamos desarrollando se denominabilateral.

La forma ms extendida de formular el criterio de rechazo de la hiptesis nula recurre al P-valor , tambin llamado nivel de significacin emprico o nominal, que en este caso se define de la forma siguiente:

Entonces, de manera equivalente se tiene:

Contrastes unilaterales sobre valores medios en poblaciones independientes. Partiendo de los mismos supuestos que en la pgina anterior, es decir, X e Y,poblaciones independientes, con distribuciones normales N(x,x) y N(y,y) , respectivamente; y varianzas desconocidas y distintas; se puede considerar el contraste unilateral superior o con cola a la derecha siguiente:

En tal caso, para muestras aleatorias de tamaos n1 y n2 , de X e Y, respectivamente; y nivel de significacin , se establece el siguiente criterio:

El valor crtico se determina a partir de la igualdad

Grficamente, el valor crtico establece el punto frontera de la regin crtica R :

La regin crtica se localiza, en este caso, en la "cola" derecha de la funcin de densidad del estadstico utilizado. Si recurrimos al P-valor , que en este caso se define de la forma siguiente:

el criterio de rechazo de la hiptesis nula se formula de manera equivalente como :

Respecto al contraste unilateral inferior o con cola a la izquierda :

se adopta el siguiente criterio:

El valor crtico se determina a partir de la igualdad:

Grficamente, el valor crtico establece el punto frontera de la regin crtica R

La regin crtica se localiza, en este caso, en la "cola" izquierda de la funcin de densidad del estadstico utilizado. Si recurrimos al P-valor , que en este caso se define de la forma siguiente:

el criterio de rechazo de la hiptesis nula se formula de manera equivalente como :

Contrastes sobre valores medios (poblacin bivariante). Se considera una poblacin bivariante (X,Y) en la que se supone que la variable D = X-Y sigue una con distribucin normalN(D,D) , donde D = x-y , y con varianza desconocida. El contraste bilateral que pretendemos desarrollar es:

Se extraer una muestra aleatoria de tamaos n

Dada la informacin disponible, el estadstico a utilizar ser:

Este estadstico sigue una distribucin T de Student con (n-1) grados de libertad

Fijado , nivel de significacin, y bajo el supuesto de la veracidad de H0 (lo que supone x-y = 0) , se adopta el siguiente criterio:

Es decir, se duda de la veracidad de H0 cuando la diferencia entre las medias muestrales de las observaciones es "sustancialmente grande". Los valores crticos se determinan a partir de la igualdad

Grficamente, los valores crticos establecen los puntos frontera de la regin crtica R :

Dado que la regin crtica se localiza en las "colas" izquierda y derecha de la funcin de densidad del estadstico utilizado, el contraste que estamos desarrollando se denominabilateral.

La forma ms extendida de formular el criterio de rechazo de la hiptesis nula recurre al P-valor , tambin llamado nivel de significacin emprico o nominal, que en este caso se define de la forma siguiente:

Entonces, de manera equivalente se tiene:

Contrastes unilaterales sobre valores medios (poblacin bivariante). Se parte de los mismos supuestos sealados en la pgina anterior , es decir, se considera una poblacin bivariante (X,Y) donde D = X-Y sigue una distribucin normal N(D,D) , siendo D = x-y y cuya varianza es desconocida. Se aborda, en primer lugar, el contraste unilateral superior o con cola a la derecha :

Se extraer una muestra aleatoria de tamaos n

El estadstico a utilizar ser:

cuya ley de probabilidad corresponde a la de una distribucin T de Student con (n-1) grados de libertad

Fijado , nivel de significacin, y bajo el supuesto de la veracidad de H0 (lo que supone x-y = 0) , se adopta el siguiente criterio:

Es decir, se duda de la veracidad de H0 cuando la diferencia entre las medias muestrales de las observaciones es "sustancialmente grande". Los valores crticos se determinan a partir de la igualdad

Grficamente, los valores crticos establecen los puntos frontera de la regin crtica R :

La forma ms extendida de formular el criterio de rechazo de la hiptesis nula recurre al P-valor , tambin llamado nivel de significacin emprico o nominal, que en este caso se define de la forma siguiente:

Entonces, de manera equivalente se tiene:

Para el contraste unilateral inferior o de cola a la izquierda se tiene:

Se extraer una muestra aleatoria de tamaos n

El estadstico a utilizar ser:

cuya ley de probabilidad corresponde a la de una distribucin T de Student con (n-1) grados de libertad

Fijado , nivel de significacin, y bajo el supuesto de la veracidad de H0 (lo que supone x-y = 0) , se adopta el siguiente criterio:

Es decir, se duda de la veracidad de H0 cuando la diferencia entre las medias muestrales de las observaciones es "sustancialmente grande". Los valores crticos se determinan a partir de la igualdad

Grficamente, los valores crticos establecen los puntos frontera de la regin crtica R :

La forma ms extendida de formular el criterio de rechazo de la hiptesis nula recurre al P-valor , tambin llamado nivel de significacin emprico o nominal, que en este caso se define de la forma siguiente:

Entonces, de manera equivalente se tiene:

ANLISIS DE DATOS EN VARIABLES CATEGRICAS. TABLAS DE CONTINGENCIA


Objetivos: Se aborda una introduccin al anlisis de datos (pruebas o contrastes de hiptesis, medidas de asociacin) que afectan a las llamadas variables categricas o cualitativas : aqullas que permiten clasificar o identificar la clase, nivel o categora de un individuo de una poblacin, respecto de un carcter, caracterstica, o cualidad. Esencialmente, las pruebas estadsticas contrastarn la independencia entre dos criterios de clasificacin as como la homogeneidad de las proporciones o probabilidades con que se presentan las distintas categoras de un criterio de clasificacin en poblaciones multinomiales independientes. Las medidas de asociacin cuantificarn el grado de asociacin, en caso de dependencia, entre variables cualitativas, y establecern, en aquellas situaciones que as lo requieran, una medida de cmo el conocimiento de una de las variables puede predecir el comportamiento de la otra. La mayor parte de estos procedimientos recurrirn a la distribucin 2 de Pearson. En este contexto, los datos suelen disponerse en forma tabular, en las llamadas tablas de contingencia, que, a modo de ejemplo, sealamos a continuacin para pruebas de independencia:

B1 A1 A2 ..... Ar Totales x11 x21 ... xr1 n+1

B2 x12 x22 ... xr2 n+1

...... ...... ...... ...... ......

Bs Totales x1s n1+ x2s n2+ ... xrs nr+ n+1 n

Xij= n de individuos de la muestra clasificados en la clase Ai de A y en la Bj de B. ni+= total de la i-sima fila= n individuos de la Ai de A n+j= total de la j-sima columna= n de individuos de la Bj de B

El modelo multinomial y la variable 2 de Pearson. Al considerar n ensayos o repeticiones independientes de una experiencia aleatoria, podemos definir la variable multinomial (X1,X2, ..., Xr), asociada a una particin A1, A2, ..., Ar del correspondiente espacio muestral , con p(Ai)=pi , donde Xi = n de veces que tiene lugar el suceso Ai en los n ensayos. Cuando n ,el nmero de ensayos, es suficientemente grande, la variable

sigue una ley de probabilidad prxima a la del modelo 2(r-1) con r-1 grados de libertad. Esta aproximacin se considera adecuada si las frecuencias

esperadas cumplen Ei=npi 5 , para i=1,...,r. Se suelen tambin utilizar Oi = frecuencia observada de Ai e Ei = valor medio de Xi = frecuencia esperada de Ai , para designar a Xi y npi , respectivamente. En el caso que las probabilidades pi hayan de ser reemplazadas por sus estimaciones, la variable presenta la forma

y su ley se ajusta asntoticamente a la de una distribucin 2(r-s-1) , donde s = n de parmetros que es necesario estimar para determinar a su vez las estimaciones de las probabilidades desconocidas . Observacin: Para aclarar esta ltima afirmacin, srvase de ejemplo el siguiente: si la probabilidad pi a estimar correspondiese a la de que una variable Y, con distribucin normal y parmetros desconocidos, tomase valores en el intervalo [a,b], sera preciso previamente estimar dos parmetros, la media y la varianza de Y, por lo que s=2. Ejemplo de aplicacin de la distribucin 2 Pearson. Para poner de manifiesto el principio de segregacin independiente, Mendel, en un experimento con guisante (Pisum sativum), cruz plantas de semillas lisas y amarillas (AABB) con plantas de semillas rugosas y verdes (aabb). La generacin F1 se autofecund (AaBb x AaBb) y en la generacin resultante se obtuvo la siguiente distribucin fenotpica:

fenotipo frecuencia

AB x1=315

Ab x2=108

aB x3=101

ab x4=32

total plantas n=556

AB: lisas amarillas , Ab: lisas verdes , aB: rugosas amarillas , ab: rugosas verdes Dado que la conjetura de Mendel estableca que la relacin fenotpica era: 9(AB): 3(Ab): 3 (aB): 1(ab) ; se trata de realizar un contraste de hiptesis acerca de las cuatro proporciones o probabilidades que afectan a la variable multinomial (X1,X2,X3, X4) donde Xi= n de plantas con fenotipo i en la muestra de 556 (AB=fenotipo 1; Ab=fenotipo 2; aB=fenotipo 3; ab=fenotipo 4); y p1=9/16; p2=3/16; p3=3/16; p4=1/16. La formulacin del referido contraste ser:

El estadstico que utilizaremos para establecer el criterio de rechazo de la hiptesis nula ser

que sigue una ley de probabilidad prxima a la del modelo 2(3) con 3 grados de libertad. Este estadstico pone de manifiesto una medida de la diferencia entre los valores observados y los valores esperados si la hiptesis nula fuese cierta. Por tanto, un valor de Q en la muestra "excesivo", nos inclinara a pensar que las frecuencias observadas no proceden de la poblacin con las probabilidades que establece la hiptesis nula, conducindonos a su rechazo. Por tanto, el criterio para rechazar de H0 al un nivel de significacin ser:

es decir, rechazaremos la hiptesis nula si el valor del estadstico para la muestra es al menos el valor crtico que determinan la distribucin 2(3) y el nivel de significacin. Slo nos queda el clculo de q y compararlo con el valor crtico para =0.05 ( 23,0.05= 7.8147 ):

En base a los resultados obtenidos, no podemos rechazar la conjetura de Mendel al nivel de significacin especificado. Observaciones: 1. El P-valor de este contraste unilateral superior es 0.925426 , suficientemente alejado de 0.05

2. Conviene insistir en el hecho, mencionado en temas anteriores, que el no rechazo de una hiptesis no supone asumir que sta sea cierta, es decir, este procedimiento no establece ninguna probabilidad o medida acerca de su veracidad. Contrastes de homogeneidad de proporciones . Se consideran E1=(X11,X12 ,..., X1s), E2=(X21,X22 ,..., X2s) ,..., Er=(Xr1,Xr2 ,..., Xrs), r poblaciones multinomiales independientes, en relacin a un mismo criterio de clasificacin con s niveles o clases A1, A2, ..., As ; donde los nmeros de ensayos son n1+, n2+,..., nr+, respectivamente ; Xij = n de veces, de los ni+ensayos realizados en la poblacin Ei , que tiene lugar Aj ; pij = probabilidad que en Ei tiene el atributo Aj . Las variables a las que se alude en esta situacin definen la siguiente tabla de contingencia con r filas y s columnas

A1 E1 E2 ..... Er Totales x11 x21 ... xr1 n+1

A2 x12 x22 ... xr2 n+2

...... ...... ...... ...... ......

As Totales x1s n1+ x2s n2+ ... xrs nr+ n+s n

n+j= total de la j-sima columna= frecuencia de Aj , respecto de n = n de ensayos total. Se trata de contrastar si, en relacin al criterio considerado, las r poblaciones son homogneas, es decir, si no existen diferencias entre la probabilidades de cada uno de los atributos o clases en todas las poblaciones. La formulacin de este contraste sera:

Bajo la veracidad de H0 , el estadstico

sigue de manera aproximada, si los tamaos muestrales son grandes, la ley de probabilidad de una variable 2 con (r-1)(s-1) grados de libertad, donde

son estimaciones de las probabilidades pj , considerando la totalidad de n datos u observaciones y, como es obvio, bajo suposicin de ser cierta la hiptesis nula. La aproximacin considerada es aceptable siempre que las estimaciones de todos valores esperados (Eij=ni+pj) sean como mnimo 5; aunque una regla menos conservadora permite quela aproximacin pueda emplearse si como mximo el 20% de estos valores esperados son menores que 5 y ninguno es cero. Criterio de rechazo de la hiptesis nula. Utilizando el mismo razonamiento que en el ejemplo previo, el estadstico Q no debe alcanzar valores significativamente grandes, si H0 es cierta. Entonces, para un nivel de significacin , el criterio para rechazar H0 ser:

donde 2(r-1)(s-1), es el valor crtico que determinan Q, con distribucin chicuadrado con (r-1)(s-1) grados de libertad, y el nivel de significacin dado. Al tratarse de un contraste unilateral superior, la formulacin de este criterio , en trminos del P - valor , ser:

Ejemplo de contraste de homogeneidad de proporciones . En un ensayo clnico se desean comparar cuatro vacunas, E1, E2, E3 y E4 ; en relacin al criterio reaccin cutnea, con tres niveles, A1="reaccin nula" ; A2="reaccin moderada" ; y A3="reaccin importante". Se dividi un grupo de 400 nios en cuatro grupos de 100, a los que se administr las vacunas E1, E2, E3 y E4 ; respectivamente. Los resultados obtenidos conforman la siguiente tabla de contingencia con 4 filas y 3 columnas :

E1 E2 E3 E4 totales

A1 13 15 14 5

A2 71 74 80 70

A3 16 11 6 25

totales n1+=100 n2+=100 n3+=100 n4+=100 n=400

n+1=47 n+2=295 n+3=58

El desarrollo del siguiente contraste refleja en su hiptesis nula el hecho de que, respecto a cualquiera de los tres tipos de reaccin, las 4 vacunas son similares

Bajo la veracidad de H0 , las estimaciones de las probabilidades de que tengan lugar las distintas reacciones (proporciones de nios manifestando las diferentes reacciones) as como de los valores esperados en cada celdilla, figuran en azul y rojo, respectivamente. Los datos en verde representan los valores de los sumandos del estadstico Q del contraste, respecto de los datos obtenidos: R1 13 (11.75) (0.132979) 15 (11.75) (0.898936) 14 (11.75) (0.430851) R2 71 (73.75) (0.102542) 74 (73.75) (0.000847) 80 (73.75) (0.529661) totales n1+=10 0 n2+=10 0 n =10 6 (14.5)(4.982759) 3+ 0 R3 16 (14.5) (0.155172) 11 (14.5) (0.844828)

E1 E2 E3

E4 total es

5 (11.75)(3.877660) n+1=47

70 (73.75) (0.190678) n+2=295

25 (14.5) (7.603448) n+3=58

n4+=10 0 n=400

Adoptado 0.05 como nivel de significacin y dado que el valor del estadstico para los datos obtenidos y el P - valor son

,donde Q sigue la ley 2 con 6=(4-1)(3-1) grados de libertad, nos vemos obligados a rechazar la hiptesis nula. Comentario: Si observamos los sumandos de q (aparecen en verde en la tabla anterior) que corresponden a la vacuna E4 (cuarta fila), stos representan cerca del 60% del valor de q, es decir, suponen una gran parte de la variabilidad detectada; mientras que esta variabilidad en la totalidad del resto de vacunas entra dentro de lo "razonable" (basta con comprobar que las diferencias entre valores observados y valores esperados son, en general, "mnimas") , si la hiptesis nula fuese cierta. A modo de ejercicio, puede el lector comprobar -mediante el correspondiente contraste y utilizando el applet (tabla de contingencia con 3 filas y 3 columnas)que si suprime los datos de la vacuna E4, no existen diferencias significativas en las reacciones de las vacunas E1, E2 y E3 . Contrastes sobre independencia de dos variables categricas. Para introducir este tipo de contraste, supongamos que en una poblacin se consideran dos criterios de clasificacin A y B, integrados por los niveles o clases A1, A2, ..., Ar ; y B1, B2, ..., Bs , respectivamente. Una muestra aleatoria de n individuos define la variable multinomial

donde Xij= n de individuos de la muestra clasificados en la clase Ai de A y en la Bj de B; y configura la siguiente tabla de contingencia con r filas y s columnas

B1 A1 A2 ..... Ar Totales x11 x21 ... xr1 n+1

B2 x12 x22 ... xr2 n+2

...... ...... ...... ...... ......

Bs Totales x1s n1+ x2s n2+ ... xrs nr+ n+s n

ni+= total de la i-sima fila = n individuos en la muestra de la clase A i de A n+j= total de la j-sima columna = n individuos en la muestra de la clase B j de B Afirmar que los dos criterios de clasificacin son independientes significara que cualquier nivel (suceso) Ai del criterio A es independiente de cualquier nivel (suceso) Bj del criterio B, es decir,

Una manera ms intuitiva e equivalente de interpretar la independencia entre los criterios A y B sera la siguiente:

es, decir, la proporcin de individuos de la clase Bj es la misma en cualquiera de la r subpoblaciones que se obtendran al separar los

individuos de las clases A1, A2, .., y Ar;respectivamente, cualquiera que sea j. Obviamente, esta proporcin coincide con la de B j en la totalidad de la poblacin. La formulacin del contraste de independencia o test de asociacin entre dos variables categricas sera:

Bajo la veracidad de H0 , el estadstico

sigue de manera aproximada, si los tamaos muestrales son grandes, la ley de probabilidad de una variable 2 con (r-1)(s-1) grados de libertad, donde

son estimaciones de las probabilidades pi+ y p+j. La aproximacin considerada es aceptable siempre que las estimaciones de todos valores esperados (Eij=npi+p+j) sean como mnimo 5; aunque una regla menos conservadora permite que la aproximacin pueda emplearse si como mximo el 20% de estos valores esperados son menores que 5 y ninguno es cero. Criterio de rechazo de la hiptesis nula. En base al razonamiento utilizado en pginas previas, el estadstico Q no debe alcanzar valores significativamente grandes, si H0 es cierta. Entonces, para un nivel de significacin , el criterio para rechazar H0 ser:

donde 2(r-1)(s-1), es el valor crtico que determinan Q, con distribucin chicuadrado con (r-1)(s-1) grados de libertad, y el nivel de significacin dado. Al tratarse de un contraste unilateral superior, la formulacin de este criterio , en trminos del P - valor , ser:

Comentario: Se puede observar que el valor q, que se puede establecer a partir de los datos de la tabla de contingencia, es el mismo que el obtenido desde similar tabla de contingencia en el contraste de homogeneidad de proporciones. Ejemplo de contraste sobre independencia de dos criterios de clasificacin. Con el fin de estudiar la posible asociacin entre color de los ojos (criterio de clasificacin A) y color del pelo (criterio de clasificacin B) , Ammon O. ("Zur Anthropologie der Badener".1899) consider los niveles o clases, A1="azules", A2="gris-verdes" y A3="castaos", para el color de los ojos; y los niveles, B1="rubio", B2="castao" , B3="negro" y B4="rojo", para el color del pelo. Los datos manejados conforman la siguiente tabla de contingencia con 3 filas y 4 columnas: B1 1768 946 115 n+1=2829 B2 807 1387 438 n+2=2632 B3 189 746 288 n+3=1223 B4 47 53 16 n+4=126 totales n1+=2811 n2+=3132 n3+=857 n=6800

A1 A2 A3 totales

El siguiente contraste refleja en su hiptesis nula el hecho de que ambos criterios de clasificacin son independientes :

Las estimaciones de las probabilidades o proporciones de individuos en la poblacin pertenecientes a las respectivas clases de color de pelo, as como a los distintos colores de ojos, figuran en azul en la siguiente tabla; los valores esperados en cada celdilla, en rojo. Los datos en verde representan los valores de los sumandos del estadstico Q del contraste, respecto de los datos obtenidos:

B1 A1 1768 (1169.5) (306.29) 946 (1303.0) (97.81) 115 (356.5) (163.59) n+1=2829

B2 807 (1088.0) (72.57) 1387 (1212.3) (25.18) 438 (331.7) (34.06) n+2=2632

B3 189 (505.6) (198.25) 746 (563.3) (59.26) 288 (154.1) (116.35) n+3=1223

B4 47 (48.0) (0.0283) 53 (53.4) (0.00299) 16 (14.6) (0.134) n+4=126

totales n1+=2811

A2

n2+=3132

A3

n3+=857

totales

n=6800

Adoptado 0.05 como nivel de significacin y dado que el valor del estadstico para los datos obtenidos y el P - valor son

,donde Q sigue la ley 2 con 6=(4-1)(3-1) grados de libertad, nos vemos obligados a rechazar la hiptesis nula, sobre independencia entre el color de los ojos y el color del pelo. Contrastes de homogeneidad e independencia en tablas 2x2. En este caso, adoptaremos, para las variables y datos implicados en el estudio, la siguiente terminologa genrica, se trate de un contraste de homogeneidad o de un contraste sobre independencia :

Bc

Totales

A Ac Totales

x1 x2 n+1

n1+ - x1 n2+ - x2 n+2

n1+ n2+ n

En el caso de un contraste de homogeneidad , A y Ac identifican a dos poblaciones binomiales independientes, B(n1+, p1) y B(n2+, p2), de parmetros p1 (probabilidad o proporcin de individuos de A que son de la clase B) y p2 (probabilidad o proporcin de individuos de Ac que son de la clase B), respectivamente; n1+= total de la primera fila = tamao muestral fijo, adoptado en la poblacin A ; n2+= total de la segunda fila = tamao muestral fijo, adoptado en la poblacin Ac ; x1 = n individuos de individuos en la muestra de tamao n1+extrada de A , que son de la clase o tipo B ; x2 = n de individuos en la muestra de tamao n2+ extrada de Ac , que son de la clase o tipo B. En el caso de que se trate de un contraste de independenciaasociacin entre dos criterios de clasificacin en una poblacin multinomial -respecto de un tamao muestral fijo n-, entonces A y Ac representan las clases de uno de los criterios, mientras que B y Bc sern las clases o niveles del segundo criterio; x 1 = n individuos de individuos, en la muestra de tamao n, que pertenecen a la clases A y B ,es decir, tipo A B; x2 = n individuos de individuos, en la muestra de tamao n, que pertenecen a las clases Ac y B, es decir, tipo Ac B; mientras que p1 y p2 designan probabilidades condicionadas, concretamente, p1=p(B|A) y p2=p(B|Ac).

Con esta nomenclatura, podemos formular, por ejemplo, el siguiente contraste para llevar a cabo, indistintamente, una prueba de independencia o de homogeneidad:

Otra forma, por ejemplo, de reducir ambas alternativas a un nico contexto experimental, sera considerar una nica poblacin integrada por dos subpoblaciones A y Ac , perfectamente controladas (en el sentido de poder extraer muestras aleatorias de stas sin ninguna dificultad). Entonces, para el desarrollo del contraste (1) en el caso de homogeneidad, muestras aleatorias sern extradas de A y Ac , de tamaos n1+ y n2+ , respectivamente. Mientras

que para (1), en el caso de independencia, una muestra de tamao n ser obtenida de la totalidad de la poblacin. Es decir, en el caso de homogeneidad n1+ y n2+ son valores fijos, no aleatorios; sin embargo, si se trata de un contraste de independencia, estos dos valores son de naturaleza aleatoria. Para finalizar este comentario, podemos admitir, e indistintamente de la alternativa manejada -dependiente de las condiciones experimentales- , que el no rechazo de H0 supone aceptar que

,es decir,

Los criterios clasificacin son independientes o no estn asociados o no interactan o, equivalentemente

La proporcin de individuos del tipo B en A no difiere de la proporcin de individuos de tipo B en Ac

Observacin Conviene sealar que esta especie de equivalencia, entre contrates sobre homogeneidad de proporciones y de independencia entre dos criterios de clasificacin, puede ser considerada igualmente, como es obvio, en tablas de contingencia de mayores dimensiones. Tablas 2x2. Caso con valores esperados 5 en la cuatro celdillas. A la hora de aplicar los criterios de rechazo de tablas generales, expuestos en pginas previas y basados en el modelo de probabilidad 2 , al caso particular de tablas 2x2, hemos de considerar la regla de Cochran, que exige que los valores esperados en las cuatro celdillas alcancen como mnimo el valor 5 y aplicar la correccin de Yates, que expondremos a continuacin (conviene sealar que no hay una regla sencilla que sirva para todas las situaciones y, adems, la correccin por continuidad propuesta, no mejora en algunos casos la aproximacin de los P valores obtenidos sin tal correccin). Para el anlisis de datos que conforman la tabla 2x2

B A x1

Bc n1+ - x1

Totales n1+

Ac Totales

x2 n+1

n2+ - x2 n+2

n2+ n

y respecto del siguiente contraste (recurdese la equivalencia estudiada en la pgina anterior)

el criterio de rechazo de la hiptesis nula -que contempla el estadstico Q de Pearson con la correccin por continuidad de Yates- ser

para un nivel de significacin , donde 21, es el valor crtico que determinan Q, con distribucin chi-cuadrado con un grado de libertad. (Se recuerda que las estimaciones, ni+nj+/n (i, j=1,2), de los valores esperados, han de ser como mnimo 5). La formulacin de este criterio , en trminos del P - valor , ser:

Ejemplo de tablas 2x2 con valores esperados 5 en las cuatro celdillas. En un estudio clnico se clasifican 216 pacientes que sufren una determinada dolencia, en funcin de haber padecido o no un infarto de miocardio y de si poseen o no el hbito de fumar. Estamos ante un diseo que considera dos criterios de clasificacin, respecto a una poblacin de pacientes. Con de fin de contrastar si existe asociacin entre los dos criterios, partimos de

la siguiente tabla 2x2 de resultados, donde entre parntesis figuran las estimaciones de los valores esperados (todos superiores a 5), bajo el supuesto de independencia entre los dos criterios:

B infarto 45 (34.96) 14 (24.04) n+1=59 Bc no infarto 83 (93.04) 74 (63.96) n+2=147 Totales n1+=128 n2+=88 n=216

A fumador Ac no fumador Totales

Entonces, el contraste a desarrollar ser

Dado que el valor del estadstico Q de Pearson con la correccin por continuidad de Yates y el correspondiente P - valor son, respectivamente

optamos por rechazar la independencia para un nivel de significacin =0.05. Por tanto, parece haber evidencia estadstica a favor de la asociacin entre el hbito de fumar y haber sufrido un infarto de miocardio, en el grupo de pacientes considerado. Prueba o test exacto de Fisher. Este procedimiento permitir desarrollar contrastes cuyos datos puedan estructurarse en una tabla de contingencia 2x2 y se detecte que algn valor esperado, de las cuatro celdillas, sea inferior a 5. Otra caracterstica relevante de ste es que permite establecer con exactitud el correspondiente P - valor, y no de manera aproximada como es el caso cuando se recurre a la distribucin 2 . Para ilustrar este mtodo, supngase que se pretende desarrollar el siguiente contraste bilateral

y que se dispone de los siguientes resultados

B A Ac Totales x1 x2 n+1

Bc n1+ - x1 n2+ - x2 n+2

Totales n1+ n2+ n

Bajo la veracidad de H0 (homogeneidad de proporciones, por ejemplo), y partiendo de los datos obtenidos (en el sentido de admitir que los totales por filas y por columnas son fijos), nos podemos preguntar -en el supuesto caso de que en una muestra de tamao n, x1 + x2 individuos sean del tipo B- acerca de la probabilidad de que r1 de estos individuos procedan de los n1+ que son del tipo A ; y r2 = x1 + x2 - r1 procedan de los n2+ que son del tipo Ac (recurdese que n= n1+ + n2+ y n+1 =x1 + x2 ). No es difcil establecer que tal probabilidad ser

(Basta con considerar los sucesos R="r1 son de tipo B, de los n1+ extrados de A; y r2 = x1 + x2 - r1 son del tipo B ,de los n2+ extrados de Ac" ; y S= "x1 + x2 , de los n, son del tipo B". Teniendo en cuenta que bajo H0 , p1=p2=p,

,es decir, estas probabilidades se obtienen del modelo de probabilidad binomial; entonces la probabilidad condicionada, p(R|S), coincide con (1)) Prueba o test exacto de Fisher. Criterio de Rechazo de H 0 . A partir del modelo de probabilidad establecido en la pgina previa, para formular el criterio de rechazo de la hiptesis nula en el caso bilateral, se considerarn, como es habitual, aquellos valores (r1, r2) menos compatibles con H0, bajo la restriccin mencionada de que r1+r2=x1+x2. Entonces, para el nivel de significacin , el criterio de rechazo, en trminos de la regin crtica, R, ser:

(se entiende que R contiene el mayor nmero de valores verificando la condicin). Este mismo criterio, en funcin del P - valor, se formular de la manera siguiente:

es decir, el P-valor considera todos aquellos resultados que son al menos tan favorables a la hiptesis alternativa, o tan desfavorables a la hiptesis nula, como el valor observado (x1). En el caso de que se desarrollen contrastes unilaterales (superior e inferior) los criterios de rechazo sern:

Para el contraste unilateral superior

Para el contraste unilateral inferior

Prueba o test exacto de Fisher. Ejemplo. Supngase que los siguientes resultados estructurados en una tabla 2x2 corresponden al contraste bilateral formulado en un determinado anlisis experimental:

B A Ac Totales x1 =6 x2 =3 n+1=9

Bc n1+-x1=2 n2+-x2=8 n+2=10

Totales n1+=8 n2+=11 n=19

Consideramos, en primer lugar, el modelo de probabilidad para X 1 (valor de la celdilla de la primera fila y primera columna), bajo el supuesto de la veracidad de H0 y de que los totales por filas y columnas sean fijos, tal y como se ha expuesto en pginas anteriores:

a partir del cual obtenemos los valores:

r1 P(X1=r1)

0.00059538 0.014289 0.10002 0.28007 0.35008 0.20005 0.050012 0.004763 0.00011908

0.8181

0.6022

0.3863 0.017045 0.04545 0.2613 0.45772

0.6931

0.9090

Al adoptar el nivel de significacin 0.05 , localizamos la regin crtica, R, con el mayor nmero de valores cuya suma de probabilidades sea a lo sumo 0.05:

Dado que el valor observado, x1=6, no pertenece a la regin crtica, no se rechaza H0. Si hubisemos optado por recurrir, equivalentemente, al P-valor, se obtendra

que, al ser superior al nivel de significacin, no permite el rechazo de H 0. Para los contrastes unilaterales, superior e inferior, los P-valores seran

respectivamente. Observacin En la ltima fila de la tabla anterior figuran estimaciones de p 1-p2 en valor absoluto para los distintos valores que se puedan observar, ponindose de manifiesto que, como ocurre en la mayora de las situaciones experimentales, a las mayores diferencias corresponden menores probabilidades. Medidas de asociacin para variables nominales. Supongamos que en una poblacin se consideran dos criterios de clasificacin A y B, integrados por los niveles o clases A1, A2, ..., Ar ; y B1, B2, ..., Bs , respectivamente. Cada criterio lleva implcitamente asociado una variable nominal, que identifica a los niveles o clases pero que, en ningn caso, establece relacin cuantitativa entre sus valores. Desde ahora en adelante, hablaremos indistintamente de los criterios de clasificacin A y B; o de las variables nominales A y B (de valores -por ejemplo- 1,2,...,r; y 1,2,...,s; respectivamente). Afirmar que los dos criterios de clasificacin son independientes significara, como ya mencionamos en pginas anteriores, que cualquier nivel (suceso) Ai del criterio A es independientede cualquier nivel (suceso) Bj del criterio B, es decir,

Esta afirmacin es equivalente a que los criterios de clasificacin no estn asociados, o que las variables no estn asociadas. A continuacin desarrollaremos algunas medidas de asociacin que nos permitirn, entre otras cosas, cuantificar, si es el caso, el grado de asociacin entre dos variables categricas (nominales) o entre dos criterios de clasificacin. Coeficiente de contingencia de Pearson Se define por

Este coeficiente est acotado entre 0 y 1, aunque alcanza su mximo valor para C=((h-1)/h)0.5 , en caso de "perfecta asociacin", donde h = min(r,s); mientras que C=0, en el caso de "independencia entre los dos criterios". Coeficiente de contingencia de Cramer Se define por

As mismo, est acotado entre 0 y 1; su mximo valor, V=1, lo alcanza en caso de "perfecta asociacin"; y V=0, en caso de "independencia". Esta medida, al variar entre 0 y 1, puede ser interpretada como la proporcin de variabilidad debida a la asociacin o interaccin entre las variables. Estimaciones de los coeficientes de contingencia. A la hora de estimar los coeficientes de contingencia, presentados en la pgina anterior, partiremos de una muestra aleatoria de tamao n , que definir la variable multinomial

donde Xij= n de individuos o items de la muestra clasificados en la clase Ai de A y en la Bj de B; y configura la siguiente tabla de contingencia con r filas y s columnas

B1 A1 A2 ..... Ar Totales x11 x21 ... xr1 n+1

B2 x12 x22 ... xr2 n+2

...... ...... ...... ...... ......

Bs Totales x1s n1+ x2s n2+ ... xrs nr+ n+s n

ni+= total de la i-sima fila = n individuos o items en la muestra de la clase Ai de A n+j= total de la j-sima columna = n individuos o items en la muestra de la clase Bj de B Estimacin de coeficiente de contingencia de Pearson Dado que el estimador de 2 se establece a partir de

donde

el estimador de C ser

Estimacin de coeficiente de contingencia de Cramer Procediendo de manera similar, utilizaremos como estimador de V

recordando que h = min (r,s) ; donde r = n de filas, y s = n de columnas.

ANLISIS DE LA VARIANZA
Objetivos: Introducir una de las tcnicas fundamentales del diseo experimental: el anlisis de la varianza ; un contraste de hiptesis estadsticas, que afecta simultneamente a los valores medios o esperados de k poblaciones (variables aleatorias) con distribucin normal y homoscedsticas , es decir, con idnticas varianzas. En el caso ms sencillo, modelo de ANOVA de un factor de efectos fijos , interviene una variable aleatoria Y, denominada variable observable o variable respuesta, que se analiza en ksituaciones experimentales, las cuales definen el llamado factor o va :

Anlisis de la varianza de un factor o va de efectos fijos. Supngase que se est interesado en comparar k situaciones experimentales determinadas, respecto de unavariable respuesta Y. Desde un punto de vista formal, el anlisis de la varianza considera :

Formulacin del anlisis de la varianza de un factor : si i ,denominado efecto del i-simo tratamiento, representa la variabilidad de la respuesta debida exclusivamente a este nivel, entonces:

Hiptesis a contrastar en el ANOVA de un factor o va de efectos fijos. La consideracin de que las k situaciones experimentales analizadas sobre la variable respuesta sonsimilares , lo que equivale a afirmar que los niveles del factor no tienen efecto alguno sobre la variable respuesta , se refleja en las siguientes hiptesis estadsticas:

Las observaciones, es decir, los valores de muestras aleatorias que sern extradas de las k poblaciones o niveles del factor, sern designadas por:

donde ni es el tamao muestral adoptado en el nivel i. Estos N=n 1+ n2 +...+ nk datos configuran la siguiente tabla :

Suma de cuadrados en el ANOVA de un factor o va de efectos fijos. La variabilidad observada en los datos es debida a la naturaleza propia de las variables o medidas que analizamos, pero tambin es imputable a los niveles o tratamientos en el caso que afecten de manera desigual a la variable respuesta. El anlisis de la varianza permite considerar herramientas (estadsticos) que separan la variabilidad debida al azar de la variabilidad imputable a los tratamientos o niveles. Estos estadsticos se definen a partir de las variables que configuran las N=n1+n2+...+nk observaciones. Por simplificar la notacin supondremos que estamos ante un diseo balanceado o equilibrado, es decir n1=n2=...=nk=n ; que es el recomendable, por otra parte, en tanto que es menos sensible a pequeas desviaciones de la normalidad y de la homocedasticidad ( los supuestos bsicos del ANOVA). Una medida de la variabilidad total de los datos es lasuma de cuadrados total , designada por SST :

La suma de cuadrados total, en tanto que medida de variabilidad total, se descompone de la forma siguiente:

SSA es una medida de la variabilidad entre las medias muestrales de las observaciones de cada tratamiento.

SSE es una medida de la variabilidad de las observaciones respecto a la media muestral a la que pertenecen. Cuadrados medios en el ANOVA de un factor o va de efectos fijos. Los cuadrados medios definidos a partir de las sumas de cuadrados de los tratamientos y del error, respectivamente, son:

con valores medios

Estos valores medios sealan que cuando la hiptesis H0 es cierta, lo cual equivale a i = 0 para i=1,2,...,k ; tanto MSA como MSE son estimadores centrados de 2. Sin embargo, cuando H0 es falsa, MSA sobrestima esta varianza. Criterio a emplear en el desarrollo de un ANOVA de un factor o va de efectos fijos. Dado que bajo el supuesto de veracidad de H0 , el cociente:

resulta razonable dudar de la veracidad de tal hiptesis cuando el valor de este cociente sea "sustancialmente" grande, lo cual indicara que MSA est sobreestimando 2 , y esta circunstancia se pone de manifiesto cuando H0 es falsa. Por todo ello, formulamos el siguiente criterio, para un nivel de significacin ,

Este criterio puede ser apreciado grficamente, en el caso de una distribucin F con 4 y 36 grados de libertad, como sigue

As mismo, el criterio se puede establecer de manera equivalente con ayuda del P-valor :

Diseos factoriales. Un caso particular: ANOVA de dos factores o vas de efectos fijos. Los diseos factoriales permiten estudiar simultneamente los efectos de dos o ms factores (fuentes de variacin) sobre una variable respuesta. En estos modelos aparece el concepto de interaccin entre factores, que ilustraremos con el siguiente ejemplo: se desea estudiar la productividad de dos variedades de maz (V1,V2) en tres regiones del pas (R1,R2,R3), tomado como variable respuesta Y = peso de cosecha por parcela. Dos factores entran en juego, con 2 y 3 niveles respectivamente:

La interaccin entre ambos factores podra indicarnos, por ejemplo,

que la regin R1 tiene un efecto aadido sobre la produccin propia de V1 (aquella que es independiente de la regin) que es distinto al que tiene para V2 , es decir, la diferencia de produccin entre R1 y R2 o entre R1 y R3 no es la misma para V1 que para V2 : supngase que la produccin real fuese

entonces, grficamente se tendr

Sin embargo, una configuracin de la siguiente forma seala que ambos factores no interactan:

ANOVA de dos factores o vas de efectos fijos. Supngase que estamos interesados en el estudio del efecto simultneo de dos factores A y B , con a y b tratamientos o niveles, respectivamente, sobre la variable respuesta Y. Este modelo de anlisis de la varianza considera:

Si i designa el efecto del i-simo tratamiento del factor A, y j es el efecto del j-simo tratamiento del factor B, la formulacin de este modelo sera:

Datos u observaciones. En el diseo balanceado, que considera idntico tamao muestral en las ab poblaciones que intervienen, los datos u observaciones , es decir, los valores de las correspondientes variables aleatorias, pueden expresarse, bajo este diseo, de la siguiente forma :

Las nab observaciones configuran la siguiente tabla:

ANOVA de dos factores o vas de efectos fijos. Cara a una interpretacin adecuada de los resultados, conviene sealar la conveniencia de contrastar, en primer lugar, la no interaccin entre los factores , en tanto que bajo interaccin no tiene sentido contrastar por separado los efectos del factor A y B. En tal caso se puede proceder, como alternativa, a un diseo de un factor con ab niveles o tratamientos, o a simular el ANOVA mediante un modelo de regresin lineal mltiple. Por tanto, respecto a la interaccin, se desarrollar el siguiente contraste

Si la hiptesis de no interaccin no es rechazada, se continuar con el desarrollo de los contrastes que afecta a los efectos de cada uno de los factores:

Suma de cuadrados ANOVA de dos factores o vas de efectos fijos. Tal y como ocurra en al caso de un factor, se tiene la siguiente identidad de suma de cuadrados:

Cuadrados medios en el ANOVA de dos factores o vas de efectos fijos. Los cuadrados medios , estimadores de la varianza comn 2 se definen como:

cuyos valores medios son

Criterio empleado en el desarrollo del contraste acerca de la interaccin. Como ya se seal previamente conviene, en primer lugar, contrastar la interaccin entre factores. Dado que si no existe interaccin, se tiene que

resulta razonable no rechazar la interaccin cuando el valor de este cociente para los datos sea "sustancialmente grande", lo cual indicara que MSAB est sobreestimando 2 , y esta circunstancia se pone de manifiesto cuando H0 es falsa. Para un nivel de significacin , adoptamos el siguiente criterio:

La formulacin equivalente de este criterio con ayuda de P-valor ser:

Criterio empleado en el desarrollo del contraste acerca del efecto del factor A. Siempre que la no existencia de interaccin sea asumida, resulta pertinente contrastar el posible efecto del factor A. Para ello, si el factor no induce variabilidad alguna sobre la variable respuesta, se tiene que

y resulta razonable inclinarse por la hiptesis de que el factor A aade variabilidad cuando el valor de este cociente para los datos sea "sustancialmente grande", lo cual indicara que MSA est sobreestimando 2 , y esta circunstancia se pone de manifiesto cuando H0 es falsa. Para un nivel de significacin , adoptamos el siguiente criterio:

La formulacin equivalente de este criterio con ayuda de P-valor ser:

Criterio empleado en el desarrollo del contraste acerca del efecto del factor B. Siempre que la no existencia de interaccin sea asumida, resulta

pertinente contrastar, finalmente, el posible efecto del factor B. Para ello, si el factor no induce variabilidad alguna sobre la variable respuesta, se tiene que

y resulta razonable inclinarse por la hiptesis de que el factor B aade variabilidad cuando el valor de este cociente para los datos sea "sustancialmente grande", lo cual indicara que MSB est sobreestimando 2 , y esta circunstancia se pone de manifiesto cuando H0 es falsa. Para un nivel de significacin , adoptamos el siguiente criterio:

La formulacin equivalente de este criterio con ayuda de P-valor ser:

ANLISIS DE LA REGRESIN LINEAL SIMPLE Objetivos: Introducir la tcnica de regresin lineal simple, en la que para cada valor x de una variable no aleatoria X -conocida como predictora, regresora o independiente-, interviene una variable aleatoria Yx, denominada variable respuesta o dependiente; relacionadas, a travs del valor medio o esperado de la variable respuesta, por la expresin

Regresin lineal simple. Tiene como objeto estudiar cmo los cambios en una variable, no aleatoria, afectan a una variable aleatoria, en el caso de existir una relacin funcional entre ambas variables que puede ser establecida por una expresin lineal, es decir, su representacin grfica es una lnea recta. Cuando la relacin lineal concierne al valor medio o esperado de la variable aleatoria, estamos ante un modelo de regresin lineal simple. La respuesta aleatoria al valor x de la variable controlada se designa por Yx y, segn lo establecido, se tendr

De manera equivalente, otra formulacin del modelo de regresin lineal simple sera: si xi es un valor de la variable predictora e Yi la variable respuesta que le corresponde, entonces

Ei es el error o desviacin aleatoria de Yi . Estimacin de los parmetros de la recta de regresin. El primer problema a abordar es obtener los estimadores de los parmetros de la recta de regresin, partiendo de una muestra de tamao n, es decir, n pares (x1, Y1) , (x2, Y2), ..., (xn, Yn); que representan nuestra intencin de extraer para cada xi un individuo de la poblacin o variable Yi . Una vez realizada la muestra, se dispondr de n pares de valores o puntos del plano (x1, y1) , (x2, y2), ..., (xn, yn). El mtodo de estimacin aplicable en regresin, denominado de losmnimos cuadrados, permite esencialmente determinar la recta que "mejor" se ajuste o mejor se adapte a la nube de n puntos. Las estimaciones de los parmetros de la recta de regresin obtenidas con este procedimiento son:

Por tanto la recta de regresin estimada ser:

Un ejemplo. La recta de regresin representada corresponde a la estimacin obtenida a partir de 20 pares de observaciones: x representa la temperatura fijada en un recinto cerrado e Y el ritmo cardaco de un vertebrado.

Anda mungkin juga menyukai