Anda di halaman 1dari 19

UNIDAD III: INFERENCIA ESTADSTICA

34
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2013



P PR RU UE EB BA AS S D DE E H HI IP P T TE ES SI IS S J JI I C CU UA AD DR RA AD DO O


















1 12 2. .1 1. . I IN NT TR RO OD DU UC CC CI I N N

Este captulo est destinado a presentar un grupo de pruebas estadsticas, que tienen como
denominador comn la utilizacin de un estadgrafo de prueba denominado Ji cuadrado, simbolizado por
tradicin con la letra griega Ji elevada al cuadrado, esto es
2
. En el muestreo repetitivo, el
estadgrafo
2
se comporta como una variable aleatoria denominada Ji cuadrado, que por consistencia
con lo indicado para variables aleatorias se simbolizar como X
2
. El comportamiento del estadgrafo Ji
cuadrado en el muestreo, as como el de una variable aleatoria X
2
es modelado por una distribucin
continua de probabilidades, denominada distribucin Ji cuadrado.

Las pruebas de hiptesis Ji cuadrado son aplicables a variadas situaciones problemticas, Los
cuatro tipos de pruebas Ji cuadrado que se abordarn, en correspondencia a las preguntas que llevarn
a su empleo, son los siguientes:

1) Prueba para una varianza: una varianza poblacional es igual a otra de valor conocido?
2) Prueba de bondad de ajuste: una distribucin de frecuencias empricas es significativamente
diferente de la distribucin esperada?
3) Prueba de independencia: la clasificacin de acuerdo a un atributo es independiente de la
clasificacin con respecto a otro?
4) Prueba de homogeneidad: se puede considerar que un grupo de k muestras procede de una
misma poblacin?


1 12 2. .2 2. . P PR RU UE EB BA AS S N NO O P PA AR RA AM M T TR RI IC CA AS S V VE ER RS SU US S P PR RU UE EB BA AS S P PA AR RA AM M T TR RI IC CA AS S
Hasta ahora se han aplicado pruebas de hiptesis utilizando los estadgrafos de prueba z y t,
En tales casos, las pruebas han coincidido en las siguientes caractersticas:
a) se ha requerido suponer que las muestras eran aleatorias.
b) se ha tenido datos empricos de variables medidas en una escala de intervalo o de razones
(cuando se trat de una variable cualitativa dicotmica, se usaron proporciones).
c) se han postulado hiptesis referidas a parmetros: ,
1
-
2
, y
1
y
2
.
d) se ha establecido el cumplimiento de supuestos con relacin a las distribuciones de las
poblaciones originales de donde se han extrado las muestras (normales o estudentizadas).
e) a la hora de definir la regla de decisin se presupuso una distribucin terica subyacente para
explicar el comportamiento del estadgrafo de prueba en el muestreo repetitivo que fueron: la
distribucin normal y la distribucin T de Student.
Contenidos


12.1. Introduccin
12.2. Pruebas paramtricas versus Pruebas no paramtricas
12.3. Experimentos multinomiales
12.4. Distribucin de probabilidad Ji cuadrado
12.4. Clasificacin de las pruebas Ji cuadrado
12.5. Estadgrafo Ji cuadrado
12.6. Ejemplos de aplicacin de las pruebas Ji cuadrado

ANEXO: Tabla de la funcin de distribucin de probabilidad
acumulada de Ji cuadrado

Ctedra de Clculo
En captulos siguientes se vern otras aplicaciones de la prueba T de Stude
llamada F de Fisher. Todas ellas pertenecen al grupo de la
las ciencias empricas son las ms utilizadas
Existe por otra parte, el grupo de las denominadas
de las anteriores en lo siguiente:
a) no necesitan cumplimentar supuestos exigentes sobre las poblaciones de las que se extraen las
muestras
b) adems de lo visto para el caso paramtrico, se pueden aplicar a variables cualitativas
c) las hiptesis no se plantean en relacin directa a parmetros
Las pruebas de Ji cuadrado indicadas en la introduccin pertenecen a ambos grupos; al paramtrico en
el caso de la varianza, y al no paramtrico en el caso restante, que comprende pruebas referidas a un
modelo probabilstico (Bondad de ajuste) y pruebas referidas a tablas de contingencia (independencia y
homogeneidad).
12.3. EXPERIMENTOS MULTINOMIALES
Al presentar la distribucin binomial, se defini el experimento binomial y se
asociados a variables dicotmicas, con aplicaciones a casos como los siguientes: a) bi
investigar la accin de un insecticida
relevamiento a campo para evaluar
inters en 80 cuadrculas (
industrial a travs de muestreos con recuento del nmero de unidades defectuosas. De modo anlo
se dan muchas situaciones donde el inters est puesto en clasificar las unidades de anlisis en k
categoras, por ejemplo: se ha elaborado un producto con cuatro formulaciones diferentes y se realiza un
ensayo de evaluacin sensorial con consumidores,
preferida, en poca de elecciones
al que pertenece el candidato que van a votar para gobernador, o se clasifican los alumnos de una
muestra segn el tipo de estudio con que ingresaron a la universidad y la condicin lograda al finalizar el
primer ao en matemtica (aprobado, regular, libre).
aproximacin, las caractersticas que definen

Def. 12.1. Un experimento multinomial es aqul que:

a) consta de n pruebas idnticas,
b) el resultado de cada prueba se localiza en una de las k categoras,
c) la probabilidad p
i
de que un resultado de una prueba se localice en la i
constante de una prueba a otra.
Ntese lo siguiente: p
d) las pruebas son independientes.
e) interesan las frecuencias n
las cuales el resultado se clasifica en la i
Ntese que n
1
+ n
2
+ n



PRUEBA
PARAMTRICA

Prueba para
una varianza

culo Estadstico y Biometra Facultad de Cien
En captulos siguientes se vern otras aplicaciones de la prueba T de Stude
llamada F de Fisher. Todas ellas pertenecen al grupo de la pruebas paramtricas
son las ms utilizadas.
Existe por otra parte, el grupo de las denominadas pruebas no paramtricas
lo siguiente:
no necesitan cumplimentar supuestos exigentes sobre las poblaciones de las que se extraen las
adems de lo visto para el caso paramtrico, se pueden aplicar a variables cualitativas
e plantean en relacin directa a parmetros
Las pruebas de Ji cuadrado indicadas en la introduccin pertenecen a ambos grupos; al paramtrico en
el caso de la varianza, y al no paramtrico en el caso restante, que comprende pruebas referidas a un
stico (Bondad de ajuste) y pruebas referidas a tablas de contingencia (independencia y
EXPERIMENTOS MULTINOMIALES
Al presentar la distribucin binomial, se defini el experimento binomial y se
asociados a variables dicotmicas, con aplicaciones a casos como los siguientes: a) bi
la accin de un insecticida en grupos de 50 pulgones (insecto vivo
relevamiento a campo para evaluar el desarrollo de plantas
en 80 cuadrculas (con parasitismo-sin parasitismo) y c) medicin de la calidad de un proceso
industrial a travs de muestreos con recuento del nmero de unidades defectuosas. De modo anlo
se dan muchas situaciones donde el inters est puesto en clasificar las unidades de anlisis en k
categoras, por ejemplo: se ha elaborado un producto con cuatro formulaciones diferentes y se realiza un
ensayo de evaluacin sensorial con consumidores, quienes deben elegir cual es la formulacin
en poca de elecciones se realiza una encuesta a 1000 personas que deben indicar el partido
al que pertenece el candidato que van a votar para gobernador, o se clasifican los alumnos de una
gn el tipo de estudio con que ingresaron a la universidad y la condicin lograda al finalizar el
primer ao en matemtica (aprobado, regular, libre)..Los ejemplos d
aproximacin, las caractersticas que definen a un experimento mult
Def. 12.1. Un experimento multinomial es aqul que:
consta de n pruebas idnticas,
el resultado de cada prueba se localiza en una de las k categoras,
de que un resultado de una prueba se localice en la i
onstante de una prueba a otra.
Ntese lo siguiente: p
1
+ p
2
+ p
3
+ + p
k
= 1, siendo i = 1, 2, 3, , k.
las pruebas son independientes.
interesan las frecuencias n
1
, n
2
, n
3
, , n
k
, donde n
i
(i=1, 2, , k) es igual al nmero de pruebas en
resultado se clasifica en la i-sima categora.
+ n
3
+ + n
k
= n.
Pruebas de hiptesis de Ji cuadrado
PARAMTRICA
PRUEBAS NO PARAMTRICAS


Prueba para
una distribucin
de frecuencias
emprica
(1 variable)


Prueba para
una varianza

Prueba de
bondad de
ajuste

Prueba de
independencia
UNIDAD III:INFERENCIA ESTADSTICA
iencias Agrarias UNCUYO / Ciclo 2013
En captulos siguientes se vern otras aplicaciones de la prueba T de Student y de una nueva prueba
pruebas paramtricas, que en el campo de
pruebas no paramtricas, que se diferencian
no necesitan cumplimentar supuestos exigentes sobre las poblaciones de las que se extraen las
adems de lo visto para el caso paramtrico, se pueden aplicar a variables cualitativas
e plantean en relacin directa a parmetros
Las pruebas de Ji cuadrado indicadas en la introduccin pertenecen a ambos grupos; al paramtrico en
el caso de la varianza, y al no paramtrico en el caso restante, que comprende pruebas referidas a un
stico (Bondad de ajuste) y pruebas referidas a tablas de contingencia (independencia y
Al presentar la distribucin binomial, se defini el experimento binomial y se analizaron recuentos
asociados a variables dicotmicas, con aplicaciones a casos como los siguientes: a) bioensayo
en grupos de 50 pulgones (insecto vivo-insecto muerto), b)
esarrollo de plantas parsitas sobre una especie nativa de
sin parasitismo) y c) medicin de la calidad de un proceso
industrial a travs de muestreos con recuento del nmero de unidades defectuosas. De modo anlo
se dan muchas situaciones donde el inters est puesto en clasificar las unidades de anlisis en k
categoras, por ejemplo: se ha elaborado un producto con cuatro formulaciones diferentes y se realiza un
quienes deben elegir cual es la formulacin
za una encuesta a 1000 personas que deben indicar el partido
al que pertenece el candidato que van a votar para gobernador, o se clasifican los alumnos de una
gn el tipo de estudio con que ingresaron a la universidad y la condicin lograda al finalizar el
Los ejemplos dados tienen, con cierta
experimento multinomial.
el resultado de cada prueba se localiza en una de las k categoras,
de que un resultado de una prueba se localice en la i-sima categora, es
= 1, siendo i = 1, 2, 3, , k.
(i=1, 2, , k) es igual al nmero de pruebas en
sima categora.
Ji cuadrado
PRUEBAS NO PARAMTRICAS


Pruebas para tablas de
contingencia (2 variables)


Prueba de
independencia

Prueba de
homogeneidad
INFERENCIA ESTADSTICA
35
nt y de una nueva prueba
, que en el campo de
diferencian
no necesitan cumplimentar supuestos exigentes sobre las poblaciones de las que se extraen las
Las pruebas de Ji cuadrado indicadas en la introduccin pertenecen a ambos grupos; al paramtrico en
el caso de la varianza, y al no paramtrico en el caso restante, que comprende pruebas referidas a un
stico (Bondad de ajuste) y pruebas referidas a tablas de contingencia (independencia y

analizaron recuentos
oensayo para
insecto muerto), b)
sobre una especie nativa de
sin parasitismo) y c) medicin de la calidad de un proceso
industrial a travs de muestreos con recuento del nmero de unidades defectuosas. De modo anlogo
se dan muchas situaciones donde el inters est puesto en clasificar las unidades de anlisis en k
categoras, por ejemplo: se ha elaborado un producto con cuatro formulaciones diferentes y se realiza un
quienes deben elegir cual es la formulacin
za una encuesta a 1000 personas que deben indicar el partido
al que pertenece el candidato que van a votar para gobernador, o se clasifican los alumnos de una
gn el tipo de estudio con que ingresaron a la universidad y la condicin lograda al finalizar el
tienen, con cierta
sima categora, es
(i=1, 2, , k) es igual al nmero de pruebas en
UNIDAD III:INFERENCIA ESTADSTICA
36
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2013
Ntese la similitud entre los experimentos binomial y multinomial. En particular, el experimento
binomial representa el caso especial del experimento multinomial donde k=2. Mientras que las dos
probabilidades, p y q, del experimento binomial estn representadas por las k probabilidades (p
1
, p
2
,,
p
k
), asociadas a las k categoras derivadas de un experimento multinomial.

Otra concepcin prctica para comprender de modo general a los experimentos multinomiales,
es hacer una analoga con un experimento de lanzamiento de n bolas donde se dispone de k cajas, de
modo que toda pelota lanzada caer en alguna de las k cajas. El experimento se repite n veces (n
tiradas) tal que la probabilidad de que una pelota caiga en una caja vara de una caja a otra, pero
permanece constante a lo largo del experimento para cada caja en particular, adems los lanzamientos
se hacen en forma independiente. En tal caso al finalizar el experimento, resultarn n
1
pelotas en la
primera caja, n
2
en la segunda, , y n
k
en la k-sima caja, donde el nmero total de pelotas es igual a
n n
i
=

, siendo i=1, 2, ,n.




1 12 2. .4 4. . D DI IS ST TR RI IB BU UC CI I N N D DE E P PR RO OB BA AB BI IL LI ID DA AD D J JI I C CU UA AD DR RA AD DO O

Si se recuerda, al presentar el captulo destinado a las distribuciones continuas de probabilidad,
se estableci que la distribucin Ji cuadrado pertenece a tal grupo de distribuciones probabilsticas.

En trminos generales su funcin de densidad f(x; ) se deriva como un caso muy especial de la
distribucin continua de probabilidades gamma, , y est totalmente definida por un nico parmetro,
que son los grados de libertad, .

Def. 12.2. Funcin de densidad de probabilidad para la distribucin Ji cuadrado

Donde: es la funcin gamma y los grados de libertad

La distribucin Ji cuadrado es fundamental en inferencia estadstica, ya que modela la distribucin de la
variable aleatoria suma de los cuadrados de n variables independientes, lo que permite su utilizacin
en las pruebas de hiptesis que se tratarn en este captulo. Por tal razn, en este contexto se utilizar
la expresin f(x
2
; ), en lugar de la ms general f(x; ).

Es importante notar que, al igual que lo visto en el caso de la variable T de Student, en realidad
se trata de una familia de distribuciones Ji cuadrado: existe una distribucin Ji cuadrado distinta para
cada nmero de grados de libertad, , por tanto existen infinitas distribuciones posibles. Pero, a
diferencia de la funcin estudentizada que como la normal tipificada, siempre es simtrica con respecto
a su centrado en 0 =
t
, la distribucin Ji cuadrado es asimtrica positiva.

Propiedades de la funcin de densidad Ji cuadrado:
1) La variable no toma valores negativos, su campo de variacin ( 2
x
R
) es igual a
2
0 .
2) La funcin f(x
2
; ) es 0.
3) Por ser una funcin de densidad, el rea bajo una curva Ji cuadrado y sobre el eje horizontal tiene
un valor unitario.
( )
2
f


Adems, como se muestra grficamente, la
funcin de densidad de probabilidad de una
variable aleatoria Ji cuadrado,
2
, es:
a) unimodal,
b) marcadamente asimtrica con sesgo
positivo, es decir con cola a la derecha, cuando
el nmero de grados de libertad es muy
pequeo. Conforme aumentan los grados de
libertad, se hace menos sesgada y para 20
grados de libertad resulta bastante simtrica. A
partir de Para 30, la distribucin se
considera aproximadamente normal.


x
2
f(x
2
; )
2 1 2
2
2
2
1
x
e x

\
|

;
2
0
0, en cualquier otro caso
Familia de distribuciones Ji cuadrado,
2
~ jc (x
2
; ), para 1,4,10 y 20 grados
de libertad
UNIDAD III:INFERENCIA ESTADSTICA
37
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2013
Tabla de la funcin de distribucin de probabilidad acumulada para una variable Ji cuadrado:

Los valores las reas de probabilidad acumulada desde
2
= 0, hasta los percentiles x
2


ms
utilizados en las pruebas de hiptesis se encuentran tabulados (Ver Tabla correspondiente en Anexo).


Mediante la Tabla de la funcin de distribucin acumulada, F(x
2
; ), se pueden resolver
problemas del tipo siguiente: cul es la probabilidad de encontrar valores mayores a cierto x
2
i
?; Qu
proporcin del rea de probabilidad se encuentra a la izquierda de cierto x
2
i
?; Qu valor de la variable
X
2
es superado solamente por el 10% de los datos posibles?.

1 12 2. .5 5. . C CL LA AS SI IF FI IC CA AC CI I N N D DE E L LA AS S P PR RU UE EB BA AS S D DE E H HI IP P T TE ES SI IS S J JI I C CU UA AD DR RA AD DO O
Hasta ahora se han resuelto problemas de inferencia estadstica referidos a medias
poblacionales y proporciones. Como se anticipara, las pruebas de Ji cuadrado consideradas en este
captulo, sern de tipo paramtrico para la varianza poblacional y, de tipo no paramtrico con tres tipos
de objetivos diferentes para situaciones en las que se tienen disponibles datos de frecuencias. A partir
de estos dos tipos de pruebas Ji cuadrado se formularn, correspondientemente, hiptesis en trminos
de un parmetro, especficamente
2
, y otro tipo de hiptesis con un formato diferente como son las
siguientes:
2
0
: H ( )
2
, ; x N , o bien
j i ij
H = :
0
. Ver el Cuadro 12.1. Anlisis comparativo de
las Pruebas de Ji cuadrado.
Cuadro 12.1. Anlisis comparativo de las Pruebas de Ji cuadrado.
Prueba de hiptesis Objetivo Hiptesis
P. para una varianza

Interesa determinar si una varianza
poblacional es igual a otra conocida.

a) P. unilateral por
derecha(izquierda)

2
0
2
0
: = H

2 2
1

o
H > : (o bien
2 2
1

o
H < : )
b) P. bilateral

2
0
2
0
: = H

2 2
1

o
H :
P. de bondad de ajuste
Caso a: Interesa determinar si los datos
disponibles de una muestra aleatoria
univariada de tamao n provienen de una
poblacin que tiene una distribucin de
probabilidad conocida.

a) Distribucin binomial
:
0
H ( ) p n x B , ;
:
1
H sigue otra distribucin

b) Distribucin Poisson
:
0
H ( ) ; x P
:
1
H sigue otra distribucin

c) Distribucin normal
:
0
H ( )
2
, ; x N
:
1
H sigue otra distribucin
Caso b: Interesa determinar si los datos
disponibles de una muestra aleatoria
univariada de tamao n provienen de una
poblacin que tiene una distribucin de
probabilidad especfica

k
H : ... : : :
2 1 0

Por ejemplo:
16
1
:
16
3
:
16
3
:
16
9
:
0
H

:
1
H las k probabilidades se
interrelacionan de otra manera
P. de independencia

Interesa determinar para una muestra
aleatoria bivariada, de tamao n, si la
clasificacin segn una de las variables es
independiente de la clasificacin segn la otra
variable.

j i ij
H = :
0
; para todo (i,j)
j i ij
H :
1
para al menos
un (i,j)
P. de homogeneidad


Interesa determinar si los datos
correspondientes a dos o ms muestras
aleatorias, clasificadas segn dos variables,
se distribuyen probabilsticamente de la
misma manera.

rj j j
H = = = ... :
2 1 0
; para todo j
diferente un menos al H
ij
:
1



.
Ctedra de Clculo
1 12 2. .6 6. . E ES ST TA AD D G GR RA AF F

En los anlisis inferenciales a considerar, surgirn dos formas posibles para el estadgrafo Ji Cuadrado,
que se denotar como
2


a) Prueba para la varianza

Al realizar una prueba referente a la media poblacional, se ha visto que se utiliza como estadgrafo
de prueba a la media muestral. Esto es posible porque la distribucin del estadgrafo media y el
estadgrafo diferencia de medias, tiene en el muestreo repetitivo una distr
conocida. Esto no ocurre en el caso de la varianza.
Si se extrae una muestra aleatoria de una poblacin que tiene distribucin normal, con media
varianza , se conoce que la varianza muestral, s
utilizada como estimador de la varianza poblacional
inferencias (estimaciones intervalares y pruebas de hiptesis) relacionadas con
la distribucin del estadgrafo en el muestreo repetitivo,
probabilidad con una media igual a
Afortunadamente existe un modo de simplificar el pro
varianza muestral a travs de una transformacin (recordar que para la media muestral, la
transformacin z permiti utilizar las tablas de la normal). La transformacin es
tamao de una muestra aleatoria,
poblacin.
El estadgrafo definido,
grados de libertad, por lo que se lo denomina estadgrafo Ji cuadrado,
Estadgrafo Ji cuadrado
para la prueba de hiptesis
de la varianza

Los valores crticos para el estadgrafo
ingresando por filas con los
( )
2 2
c
P > =
.

Es importante advertir
poblacin se distribuyen de forma normal. Lamentablemente, esta prueba es sensible a desviaciones de
esta suposicin, por lo que si la poblacin no tiene distribucin normal, y en especial si las muestras son
de tamao pequeo, la exactitud de la prueba puede resultar seriame


b) Pruebas con datos de frecuencias

En pruebas de hiptesis relacionadas con una distribucin de frecuencias (P. de bondad de
ajuste) o bien con tablas de contingencia (P. de independencia y P. de homogeneidad), el estadgrafo de
prueba Ji cuadrado,
2
c

, responde a la siguiente frmula:



( )

= (
(


=
k
i i
i i
n
n n
1
2
2


siendo i= 1, 2, ,k.


culo Estadstico y Biometra Facultad de Cien
F FO O J JI I C CU UA AD DR RA AD DO O
En los anlisis inferenciales a considerar, surgirn dos formas posibles para el estadgrafo Ji Cuadrado,
2
, de acuerdo al tipo de prueba.
Prueba para la varianza
rueba referente a la media poblacional, se ha visto que se utiliza como estadgrafo
de prueba a la media muestral. Esto es posible porque la distribucin del estadgrafo media y el
estadgrafo diferencia de medias, tiene en el muestreo repetitivo una distr
conocida. Esto no ocurre en el caso de la varianza.
Si se extrae una muestra aleatoria de una poblacin que tiene distribucin normal, con media
, se conoce que la varianza muestral, s
2
, calculada como
utilizada como estimador de la varianza poblacional . Pero para poder sustentar probabilsticamente
inferencias (estimaciones intervalares y pruebas de hiptesis) relacionadas con
estadgrafo en el muestreo repetitivo, y resulta que la s
probabilidad con una media igual a
2
, pero su forma es asimtrica y depende del tamao muestral.
Afortunadamente existe un modo de simplificar el problema, que consiste en tipificar el valor de la
varianza muestral a travs de una transformacin (recordar que para la media muestral, la
transformacin z permiti utilizar las tablas de la normal). La transformacin es
tamao de una muestra aleatoria,
2
s es la varianza muestral y
El estadgrafo definido, tiene una distribucin muestral que
, por lo que se lo denomina estadgrafo Ji cuadrado,
Estadgrafo Ji cuadrado
la prueba de hiptesis

( )
2
2
2
1

=
s n
, donde
aleatoria
para el estadgrafo Ji cuadrado,
2
c

, se obtienen
ilas con los grados de libertad ( = n-1) y, por columnas con la probabilidad 1
advertir acerca de que este tipo de prueba de hiptesis presupone que los datos de la
uyen de forma normal. Lamentablemente, esta prueba es sensible a desviaciones de
esta suposicin, por lo que si la poblacin no tiene distribucin normal, y en especial si las muestras son
de tamao pequeo, la exactitud de la prueba puede resultar seriame
on datos de frecuencias
En pruebas de hiptesis relacionadas con una distribucin de frecuencias (P. de bondad de
ajuste) o bien con tablas de contingencia (P. de independencia y P. de homogeneidad), el estadgrafo de
, responde a la siguiente frmula:


El valor muestral de
2
es
numerador el cuadrado de la di
observada y su correspondiente frecuencia
denominador igual a esta ltima frecuencia,
la de ad probabilid ( n
i
=

Notar: la suma afecta a k cocientes,


numerador de un cociente.
UNIDAD III:INFERENCIA ESTADSTICA
iencias Agrarias UNCUYO / Ciclo 2013
En los anlisis inferenciales a considerar, surgirn dos formas posibles para el estadgrafo Ji Cuadrado,
rueba referente a la media poblacional, se ha visto que se utiliza como estadgrafo
de prueba a la media muestral. Esto es posible porque la distribucin del estadgrafo media y el
estadgrafo diferencia de medias, tiene en el muestreo repetitivo una distribucin probabilstica que es
Si se extrae una muestra aleatoria de una poblacin que tiene distribucin normal, con media
calculada como
=

|
|

\
|

n
i
i
x x
1
2
/ n-1, puede ser
. Pero para poder sustentar probabilsticamente
inferencias (estimaciones intervalares y pruebas de hiptesis) relacionadas con , se requiere conocer
y resulta que la s
2
sigue una distribucin de
, pero su forma es asimtrica y depende del tamao muestral.
blema, que consiste en tipificar el valor de la
varianza muestral a travs de una transformacin (recordar que para la media muestral, la
transformacin z permiti utilizar las tablas de la normal). La transformacin es
( )
2
2
1

s n
, donde n
es la varianza muestral y
2
es la varianza hipottica de la
tiene una distribucin muestral que sigue la distribucin Ji cuadrado con n
, por lo que se lo denomina estadgrafo Ji cuadrado,
2

.
donde
2

se comporta como una variable


aleatoria X
2
jc (x
2
; )
se obtienen en la Tabla de la funcin F(x
, por columnas con la probabilidad 1-

siendo
que este tipo de prueba de hiptesis presupone que los datos de la
uyen de forma normal. Lamentablemente, esta prueba es sensible a desviaciones de
esta suposicin, por lo que si la poblacin no tiene distribucin normal, y en especial si las muestras son
de tamao pequeo, la exactitud de la prueba puede resultar seriamente afectada.
En pruebas de hiptesis relacionadas con una distribucin de frecuencias (P. de bondad de
ajuste) o bien con tablas de contingencia (P. de independencia y P. de homogeneidad), el estadgrafo de
es igual a la suma de k cocientes
de la diferencia entre la i-sima frecuencia
y su correspondiente frecuencia terica o esperada,
esta ltima frecuencia, calculada como
muestral tamao ( x ) clase sima i la
: la suma afecta a k cocientes, esto es

=
k
i
cocientes
1
) (
, NO a
INFERENCIA ESTADSTICA
38
En los anlisis inferenciales a considerar, surgirn dos formas posibles para el estadgrafo Ji Cuadrado,
rueba referente a la media poblacional, se ha visto que se utiliza como estadgrafo
de prueba a la media muestral. Esto es posible porque la distribucin del estadgrafo media y el
ibucin probabilstica que es
Si se extrae una muestra aleatoria de una poblacin que tiene distribucin normal, con media y
puede ser
. Pero para poder sustentar probabilsticamente
se requiere conocer
sigue una distribucin de
, pero su forma es asimtrica y depende del tamao muestral.
blema, que consiste en tipificar el valor de la
varianza muestral a travs de una transformacin (recordar que para la media muestral, la
n es el
es la varianza hipottica de la
con n-1
variable
Tabla de la funcin F(x
2
; ),
siendo
que este tipo de prueba de hiptesis presupone que los datos de la
uyen de forma normal. Lamentablemente, esta prueba es sensible a desviaciones de
esta suposicin, por lo que si la poblacin no tiene distribucin normal, y en especial si las muestras son
En pruebas de hiptesis relacionadas con una distribucin de frecuencias (P. de bondad de
ajuste) o bien con tablas de contingencia (P. de independencia y P. de homogeneidad), el estadgrafo de
de k cocientes con
frecuencia
, y con
calculada como:
) muestral
NO al
UNIDAD III:INFERENCIA ESTADSTICA
39
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2013


Estadgrafo Ji cuadrado
para pruebas de hiptesis
con datos de frecuencias de
una muestra
( )

= (
(


=
k
i i
i i
n
n n
1
2
2

, donde
2

se comporta como una variable


aleatoria X
2
jc (x
2
; )


La construccin del estadgrafo requiere un raciocinio simple:

a) el valor de Ji cuadrado calculado proviene de la suma de varios nmeros: uno por cada categora
b) el numerador de cada trmino en la frmula es igual al cuadrado de la diferencia entre las
frecuencias observadas y estimadas para cada una de las categoras o celdas. Cuanto ms
cercanos estn stos valores, tanto ms pequeo es el valor de ( )
2

i i
n n ; y cuanto ms
distantes, tanto ms grande es su valor. El denominador de cada celda pone en perspectiva el
tamao del denominador. Es decir, una diferencia ( )
i i
n n igual a 10, como resultado de la
diferencia entre frecuencias de 110 y 100, es muy distinta de una que proviene de la diferencia
entre 15 y 5. Estas ideas indican que los valores pequeos del estadgrafo Ji cuadrado
2
,
sealan concordancia entre los dos conjuntos de frecuencias, mientras que los grandes implican
discrepancia. De modo que es comn que estas pruebas sean de una sola cola, con la regin
crtica a la derecha.

El estadgrafo de prueba Ji cuadrado fue propuesto en 1900 por Karl Pearson, como una funcin de
los cuadrados de las desviaciones entre las frecuencias observadas y sus respectivos valores
esperados, ponderados por el recproco de sus valores esperados. La demostracin matemtica est
fuera del alcance de este curso, basta saber que se puede demostrar que el estadgrafo Ji cuadrado
2

, en el muestreo repetitivo sigue una distribucin que se puede aproximar con una distribucin de
probabilidad de la variable aleatoria Ji cuadrado, X
2
, para n grande ( 50 n ) y si las frecuencias
esperadas para las k categoras son iguales o mayores a 5.

Los valores crticos para el estadgrafo Ji cuadrado,
2
c

, se obtienen como en el caso anterior de la


Tabla de la funcin F(x
2
; ), ingresando por filas con los grados de libertad ( ) y, por columnas con la
probabilidad 1-

siendo
( )
2 2
c
P > =
. La frmula general para el clculo de los grados de libertad
es la siguiente:

= k p 1 ; donde k es el nmero de categoras, y p es el nmero de parmetros
que se necesita estimar.
En el cuadro 12.2. se presenta un resumen para cada caso en particular en el Cuadro 12.2. Anlisis
comparativo para el clculo de los grados de libertad en las Pruebas de Ji cuadrado.
Prueba de
la varianza
Prueba de
bondad de ajuste
Pruebas con datos de
tablas de contingencia (rxc)
Prueba de
independencia
Prueba de
homogeneidad
= n 1
Ajustamiento del modelo binomial, X~ b(x;n, )

a) parmetro conocido
= k p 1 = k-0-1= k-1
b) parmetro desconocido
= k p 1 = k-1-1= k-2
= (r-1)(c-1)

r: n de filas
c: n de columnas
= (r-1)(c-1)

r: n de filas
c: n de columnas
Ajustamiento del modelo Poisson, X~ p(x;)

a) parmetro conocido
= k p 1 = k-0-1= k-1
b) parmetro desconocido
= k p 1 = k-1-1= k-2
Ajustamiento del modelo normal, X~ n(x;,)

a) parmetros y conocidos
= k p 1 = k-0-1= k-1
b) un parmetro desconocido ( o bien )
= k p 1 = k-1-1= k-2
c) los dos parmetros desconocidos
= k p 1 = k-2-1= k-3
UNIDAD III:INFERENCIA ESTADSTICA
40
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2013
1 12 2. .7 7. . E EJ JE EM MP PL LO OS S D DE E A AP PL LI IC CA AC CI I N N D DE E L LA AS S P PR RU UE EB BA AS S D DE E J JI I C CU UA AD DR RA AD DO O

12.7.1. Prueba de una hiptesis concerniente a una varianza (o desviacin tpica)
poblacional

Al analizar una variable cuantitativa en una muestra, frecuentemente el inters se centra en estimar el
valor de la media y de la varianza o desviacin tpica, pero tambin suele interesar comprobar el valor de
la evidencia muestral a partir del planteo de alguna hiptesis paramtrica. Las pruebas para la media
ya fueron consideradas, ahora se presentar el caso para la varianza
2
.

Se parte del concepto que la varianza muestral, al igual que la media muestral, es una variable aleatoria.
Por muestreo aleatorio repetitivo aplicado a una poblacin normal con media y varianza
2
, resulta que
la distribucin en el muestreo de la varianza muestral tiene un valor esperado
[ ]
( )
2 2
1

=
n
n
s E
, o
sea que el valor esperado de la varianza muestral no coincide con el valor deseado que es la varianza
poblacional, E[s
2
]
2
, adems tiene asimetra positiva, y depende del tamao muestral. Pero resulta
que se puede considerar una variable aleatoria tipificada X
2
, definida como
=
(
(
(
(
(
(

|
|

\
|

=
n
i
_
i
X X
X
1
2
2
2
que
tiene una distribucin conocida, que es tipo Ji cuadrado con = n-1, esto es
2
2
1
2
1

S ) n (
)
n
(
y
que est tabulada para varios valores de reas en las colas asimtricas de la distribucin.

Las pruebas de hiptesis para la varianza poblacional, pueden responder a alguno de los tres siguientes
casos


Caso 1: Prueba de dos colas



En ambas colas las reas de
probabilidad son igual a /2

Caso 1: Prueba de cola superior



La regin de rechazo se
encuentra en la cola derecha y
es igual a .

Caso 1: Prueba de cola inferior



La regin de rechazo se
encuentra en la cola izquierda y
es igual a .


Ejemplo 12.1. En los procesos industrializados ces muy importante obtener conclusiones acerca del
valor promedio y de la variabilidad. Con relacin al primero, mediante el control estadstico de la calidad,
se analiza a travs de muestras aleatorias si las variables medidas como por ejemplo del peso neto, la
humedad, etc., indican que: 1) el proceso est centrado (la media del proceso coindice con la media
especificada o paramtrica) y 2) que la variabilidad es mnima, para reducir el nmero de productos que
resulten defectuosos. En este contexto, antes de analizar el valor medio hay que asegurarse de tener
una mnima variabilidad. Por esta razn, una industria que produce cajas de cereales que ha
incorporado un nuevo equipamiento y est ajustando su funcionamiento, quiere comprobar si la varianza
del proceso actual es mayor a la varianza que debera tener de acuerdo a la especificacin del proceso
productivo ( 15 gramos), fijando un n=25 y un = 0,05.

Solucin: segn la informacin dada, se puede plantear la siguiente terna de hiptesis,



Ctedra de Clculo

Al analizar H
1
queda claro,
segn la direccin a la que apunta la hiptesis alternativa),
a prueba, esto es H
o
, slo se
arrojando un valor de estadgrafo de prueba
Ji cuadrado para el nivel de significancia

La regla de decisin se puede graficar como sigue:






Los grados de libertad resultan igual a
en la Tabla de la distribucin acumulada de probabi
= 36, 415. Luego si resultara
si
2 2
c m
>
se considerar que
igualdad de varianzas.
Dado que el estadgrafo muestral es igual a
valor crtico, 31,92 <36,415
. Luego, en trminos del problema se
la variabilidad del proceso
Ejemplo 12.2. Este ejem
varianza. En una agroindustria, el
distribuye normalmente, y se por datos histricos se considera que la
tomado una muestra de 10 latas
suficiente evidencia para decir que la varianza ha cambiado?. Use
cuenta el p-valor.
Solucin: segn la informacin dada,
H
c
: la varianza de lo producido tiene un valor numrico diferente al valor histrico.

La regla de decisin es la siguiente
f(x
2
)
Valores de
2
c

que
determinan la
aceptacin de la H
0
reas de probabilidad
1-

0
f(x
2
)
culo Estadstico y Biometra Facultad de Cien
H
c
: la varianza del peso neto es mayor a

2
0
2
1
2
0
2
0
2
0




>
=
:
; :
H
donde H

queda claro, que se trata de una prueba de cola derecha
segn la direccin a la que apunta la hiptesis alternativa), y que por lo tanto la
slo ser rechazada cuando los datos muestrales aporten evidencia suficiente,
stadgrafo de prueba muestral mayor que
para el nivel de significancia fijado.

La regla de decisin se puede graficar como sigue:

resultan igual a n 1 = 24, y como se ha fijado
en la Tabla de la distribucin acumulada de probabilidades de Ji cuadrado, se encuentra un
= 36, 415. Luego si resultara
2 2
c m
<
, es decir,
415 36
2
, <
m

se considerar que la muestra aport suficiente


el estadgrafo muestral es igual a
( ) [
15
17 1 25
2
2

=
m

<36,415. La decisin estadstica es: no corresponde


Luego, en trminos del problema se concluye que: no hay evidencia emprica de que haya aumentado
la variabilidad del proceso por encima de 15 gramos, para el nivel de significancia fijado.
. Este ejemplo se utilizar para ilustrar un caso de
varianza. En una agroindustria, el contenido de azcar del almbar de los duraznos enlatados
distribuye normalmente, y se por datos histricos se considera que la
muestra de 10 latas obtenindose una desviacin tpica de
suficiente evidencia para decir que la varianza ha cambiado?. Use
ormacin dada, las hiptesis de inters son

: la varianza de lo producido tiene un valor numrico diferente al valor histrico.
2
0
2
1
2
0
2
0



=
:
; :
H
donde H

es la siguiente:

que
de la H0
Valores de
2
c

que
determinan el
rechazo de la H0
x
2
reas de probabilidad

x
2
reas de probabilidad

1-

x
c

2

UNIDAD III:INFERENCIA ESTADSTICA
iencias Agrarias UNCUYO / Ciclo 2013
mayor a 225 gramos.
2
(gramos) 225 =

que se trata de una prueba de cola derecha (el tipo de cola se identifica
y que por lo tanto la hiptesis que se somete
los datos muestrales aporten evidencia suficiente,
mayor que al valor crtico que indica la distribucin
4, y como se ha fijado un nivel de significancia de 0,05,
lidades de Ji cuadrado, se encuentra un
2
=
c
415
, se deber aceptar la Ho, en tanto que
suficiente evidencia para rechazar a la hiptesis de
]
92 31
3 17
,
,
=
, el valor muestral es menor al
no corresponde rechazar la H
0,
para un =
hay evidencia emprica de que haya aumentado
el nivel de significancia fijado.
plo se utilizar para ilustrar un caso de prueba de hiptesis bilateral para
contenido de azcar del almbar de los duraznos enlatados
distribuye normalmente, y se por datos histricos se considera que la varianza es
2
= 18 mg
2
. Se
obtenindose una desviacin tpica de 4,8 mg. Muestran estos datos
suficiente evidencia para decir que la varianza ha cambiado?. Use = 0.05 y responda teniendo en
las hiptesis de inters son
: la varianza de lo producido tiene un valor numrico diferente al valor histrico.
2 2
0
mg 0 23 = ,

INFERENCIA ESTADSTICA
41
(el tipo de cola se identifica
que se somete
los datos muestrales aporten evidencia suficiente,
que indica la distribucin
de 0,05,
2

,
=

en tanto que
la hiptesis de
el valor muestral es menor al
05 , 0 =
hay evidencia emprica de que haya aumentado
prueba de hiptesis bilateral para la
contenido de azcar del almbar de los duraznos enlatados se
. Se ha
8 mg. Muestran estos datos
responda teniendo en
Ctedra de Clculo
Usando el criterio tradicional, s
contrariamente ocurre que
que se quiere la conclusin en
Al calcular el estadgrafo muestral, resulta
Al entrar con el valor

rea igual 0.2423, por lo tanto


el valor de probabilidad observado es igual a 0,48 de modo que la probabilidad de que
presentado un valor de estadgrafo muestral de 11,52
rechazo de la hiptesis de que las varianzas son iguales (no ha cambiado la variabilidad).
Ejemplo 12.3. Este ejemplo se utilizar para ilustrar
estimacin intervalar de la vari
mostrado que el peso de las bolsas de semillas para csped
motivo de haber realizado una modificacin en el sistema de llenado, se han tomado una muestra para
conocer la variabilidad del proceso, con el siguiente resultado:
45,8 - 46.9 45,2 y 46,0.
Fundamentacin: la estimacin de
en lo siguiente
La primera expresin indica que el estadgrafo a utilizar para construir el intervalo de inters, en el
muestreo repetitivo sigue la distribucin probabilstica de la variable aleatoria Ji cu
libertad = n-1. La segunda explica que se trata de construir un intervalo que contenga a la varianza
poblacional, basado en lo anterior. En otros trminos, se
de la distribucin Ji cuadrado que definen un rea central de probabilidad igual a 1
lados reas igual a /2, como muestra el siguiente grfico
Solucin: a partir de los datos muestrales se obtiene una
primeramente se calculan los estadgrafos media y varianza:
( )
2
2
2
1

s n
=
culo Estadstico y Biometra Facultad de Cien
Usando el criterio tradicional, significa que si 2.70
2
m

19.023 no se
contrariamente ocurre que
2
m

<2.7 si
2
m

>19.023 no podr sostenerse la


que se quiere la conclusin en trminos de un p-valor.
estadgrafo muestral, resulta:
2
m

=11.52 y = 9, en la Tabla de la distribucin de Ji cuadrado,


0.2423, por lo tanto el p-valor resulta igual a (2)(0.24
el valor de probabilidad observado es igual a 0,48 de modo que la probabilidad de que
de estadgrafo muestral de 11,52 por azar es
rechazo de la hiptesis de que las varianzas son iguales (no ha cambiado la variabilidad).
. Este ejemplo se utilizar para ilustrar la aplicacin de la distribucin Ji cuadrado a la
estimacin intervalar de la varianza. En una semillera el historial de las estadsticas productivas ha
peso de las bolsas de semillas para csped
realizado una modificacin en el sistema de llenado, se han tomado una muestra para
la variabilidad del proceso, con el siguiente resultado:
. Se quiere estimar la varianza mediante un
la estimacin de la varianza poblacional mediante
La primera expresin indica que el estadgrafo a utilizar para construir el intervalo de inters, en el
muestreo repetitivo sigue la distribucin probabilstica de la variable aleatoria Ji cu
1. La segunda explica que se trata de construir un intervalo que contenga a la varianza
poblacional, basado en lo anterior. En otros trminos, se trata entonces de identificar los dos percentiles
Ji cuadrado que definen un rea central de probabilidad igual a 1
como muestra el siguiente grfico y lo indica la siguiente simbologa
a partir de los datos muestrales se obtiene una estimacin puntual de la varianza.
primeramente se calculan los estadgrafos media y varianza:
2
m



que se distribuye
como una

ji(x
2
;
)

;
UNIDAD III:INFERENCIA ESTADSTICA
iencias Agrarias UNCUYO / Ciclo 2013
19.023 no se debe rechazar la H
o
, y que si
no podr sostenerse la H
o
, pero hay que recordar

en la Tabla de la distribucin de Ji cuadrado, se obtiene un
(2)(0.2423) = 0,4846. Se interpreta entonces que
el valor de probabilidad observado es igual a 0,48 de modo que la probabilidad de que se haya
por azar es muy alto, entonces no ca
rechazo de la hiptesis de que las varianzas son iguales (no ha cambiado la variabilidad).
la aplicacin de la distribucin Ji cuadrado a la
el historial de las estadsticas productivas ha
peso de las bolsas de semillas para csped contenido se distribuye normalmente.
realizado una modificacin en el sistema de llenado, se han tomado una muestra para
la variabilidad del proceso, con el siguiente resultado: 46,4 46,1- 45,8 47,0 46,1 45
Se quiere estimar la varianza mediante un intervalo de confianza de 95%.
mediante un intervalo de confianza se

La primera expresin indica que el estadgrafo a utilizar para construir el intervalo de inters, en el
muestreo repetitivo sigue la distribucin probabilstica de la variable aleatoria Ji cuadrado con grados de
1. La segunda explica que se trata de construir un intervalo que contenga a la varianza
trata entonces de identificar los dos percentiles
Ji cuadrado que definen un rea central de probabilidad igual a 1-, y dejan a ambos
y lo indica la siguiente simbologa
estimacin puntual de la varianza. Para esto,

INFERENCIA ESTADSTICA
42
, y que si
, pero hay que recordar
se obtiene un
Se interpreta entonces que
se haya
muy alto, entonces no cabe un
la aplicacin de la distribucin Ji cuadrado a la
el historial de las estadsticas productivas ha
distribuye normalmente. Con
realizado una modificacin en el sistema de llenado, se han tomado una muestra para
45,9
.
se basa
La primera expresin indica que el estadgrafo a utilizar para construir el intervalo de inters, en el
adrado con grados de
1. La segunda explica que se trata de construir un intervalo que contenga a la varianza
trata entonces de identificar los dos percentiles
y dejan a ambos

Para esto,
Ctedra de Clculo
Distribucin de probabilidad

Por lo tanto, reemplazando en


los lmites del intervalo de confianza de
95% para la varianza resultan ig
Finalmente, se construye el intervalo de conf
que se interpreta de forma anloga a como se vio para el caso de la estimacin intervalar de
tiene una confianza a nivel del 95% que el intervalo construido contenga a la verdadera varianza
poblacional de los pesos

12.7.2. Pruebas de hiptesis para

Segn se ha anticipado en la clasificacin
puede decirse que hay dos situaciones de problemas relacionados con datos de frecuencia:

a) Prueba de hiptesis para la bondad de ajuste:
distribucin de frecuencias empricas (n
ajustar un modelo probabilstico que se elige pensando que explica el comportamiento de la variable
de inters en la poblacin, obtenindose una distribucin de frec
Luego, el objetivo al aplicar este tipo de prueba es
importantes entre ambas frecuencias, o sea, que se trata de probar que el ajustamiento realizado
resulta apropiado.

b) Prueba de hiptesis para tablas de contingencia:
empricos de frecuencia (frecuencias
(variables medidas en escala nominal
escala ordinal), o de variables cuantitativas originalmente transformadas en variables cualitativas
como sera medir rendimientos parcelarios en kg/ha y posteriormente
categoras: rendimiento alto, normal y bajo.
dos tipos de anlisis, segn sea la situacin problema.

b.1. Prueba de independencia
obtenida a partir de
clasifica de acuerdo a dos criterios.
clasificacin de las unidades de anlisis segn las categoras o clases de una de
independiente de la clasificacin segn la otra variable
(
p
ij
=


x
2
(0,025;9) = 2,70 x
2
(0,975;9)

culo Estadstico y Biometra Facultad de Cien

Distribucin de probabilidad X
2
jc(x
2
; )

Al fijar un intervalo de confianza de 95%, significa que el
en trminos probabilsticos,
a 1-, por tanto el rea central en la distribucin X
(x
2
; ) limitada por la curva y el eje de abscisas
0,95, y que a ambas colas les corresponde un
a /2, o sea de
distribucin, las reas de las colas no son simtricas).
Con los valores de
0,975, para grados de libertad
Tabla de Ji cuadrado para obtener los valores de los
percentiles x
2
(0,025;9) y
19,03 respectivamente.

Por lo tanto, reemplazando en
los lmites del intervalo de confianza de
95% para la varianza resultan igual a:

Finalmente, se construye el intervalo de confianza de inters
( 935 0 135 0
2 2
, , < < kg P
que se interpreta de forma anloga a como se vio para el caso de la estimacin intervalar de
tiene una confianza a nivel del 95% que el intervalo construido contenga a la verdadera varianza
poblacional de los pesos de las bolsas de semilla,
2
.
12.7.2. Pruebas de hiptesis para datos de frecuencias
Segn se ha anticipado en la clasificacin de las pruebas de hiptesis de Ji cuadrado, en general
puede decirse que hay dos situaciones de problemas relacionados con datos de frecuencia:
Prueba de hiptesis para la bondad de ajuste: la situacin problema se refiere a que se tiene una
de frecuencias empricas (n
i
) para una muestra aleatoria
ajustar un modelo probabilstico que se elige pensando que explica el comportamiento de la variable
de inters en la poblacin, obtenindose una distribucin de frec
( ) ( x clase la de ad probabilid ni =

el objetivo al aplicar este tipo de prueba es comprobar que no existen discrepancias


importantes entre ambas frecuencias, o sea, que se trata de probar que el ajustamiento realizado
Prueba de hiptesis para tablas de contingencia: las tablas de contingencia muestran datos
de frecuencia (frecuencias observadas), referidos a la clasificacin de acuerdo
en escala nominal), o bien a categoras
o de variables cuantitativas originalmente transformadas en variables cualitativas
o sera medir rendimientos parcelarios en kg/ha y posteriormente
nto alto, normal y bajo. Los datos de estas tablas de contingencia dan lugar a
dos tipos de anlisis, segn sea la situacin problema.
Prueba de independencia: se parte de una distribucin
una muestra aleatoria de tamao n
clasifica de acuerdo a dos criterios. Esto lleva a un tipo de anlisis estadstico para
clasificacin de las unidades de anlisis segn las categoras o clases de una de
independiente de la clasificacin segn la otra variable; probabilsticamente para cada celda ij:
o clasificad ser de ad probabilid (
o clasificad ser de ad probabilid (
(0,975;9) = 19,03

UNIDAD III:INFERENCIA ESTADSTICA
iencias Agrarias UNCUYO / Ciclo 2013
Al fijar un intervalo de confianza de 95%, significa que el
rminos probabilsticos, el nivel de confianza es
, por tanto el rea central en la distribucin X
2
) limitada por la curva y el eje de abscisas es igual a
0,95, y que a ambas colas les corresponde un rea igual
o sea de 0,025 (notar que por la asimetra de la
distribucin, las reas de las colas no son simtricas).
los valores de probabilidad acumulada de 0, 025 y
grados de libertad =n-1=9, se ingresa
Tabla de Ji cuadrado para obtener los valores de los
(0,025;9) y
x
2
(0,975;9),
que resultan igual a 2,70 y
19,03 respectivamente.
ianza de inters
) 95 0 935
2
, = kg

que se interpreta de forma anloga a como se vio para el caso de la estimacin intervalar de
tiene una confianza a nivel del 95% que el intervalo construido contenga a la verdadera varianza
datos de frecuencias
de las pruebas de hiptesis de Ji cuadrado, en general
puede decirse que hay dos situaciones de problemas relacionados con datos de frecuencia:
la situacin problema se refiere a que se tiene una
) para una muestra aleatoria univariada, y se ha procedido a
ajustar un modelo probabilstico que se elige pensando que explica el comportamiento de la variable
de inters en la poblacin, obtenindose una distribucin de frecuencias tericas calculadas como:
) ( muestral tamao
comprobar que no existen discrepancias
importantes entre ambas frecuencias, o sea, que se trata de probar que el ajustamiento realizado
las tablas de contingencia muestran datos
referidos a la clasificacin de acuerdo a atributo
egoras (clases derivadas de la medicin
o de variables cuantitativas originalmente transformadas en variables cualitativas
o sera medir rendimientos parcelarios en kg/ha y posteriormente dar los resultados como
Los datos de estas tablas de contingencia dan lugar a
una distribucin conjunta de frecuencias empricas (n
a de tamao n, en la que cada unidad de anlisis se
Esto lleva a un tipo de anlisis estadstico para probar que la
clasificacin de las unidades de anlisis segn las categoras o clases de una de las variables, es
; probabilsticamente para cada celda ij:
) sima j columna la en
x ) sima i fila la en o


Lm inf
(int.para 2)
Lm sup
(int.para 2)
INFERENCIA ESTADSTICA
43
Al fijar un intervalo de confianza de 95%, significa que el
es igual
2
ji
es igual a
rea igual
(notar que por la asimetra de la
distribucin, las reas de las colas no son simtricas).
acumulada de 0, 025 y
ingresa a la
Tabla de Ji cuadrado para obtener los valores de los
resultan igual a 2,70 y


que se interpreta de forma anloga a como se vio para el caso de la estimacin intervalar de : se
tiene una confianza a nivel del 95% que el intervalo construido contenga a la verdadera varianza
de las pruebas de hiptesis de Ji cuadrado, en general
la situacin problema se refiere a que se tiene una
univariada, y se ha procedido a
ajustar un modelo probabilstico que se elige pensando que explica el comportamiento de la variable
calculadas como:
comprobar que no existen discrepancias
importantes entre ambas frecuencias, o sea, que se trata de probar que el ajustamiento realizado
las tablas de contingencia muestran datos
atributos
clases derivadas de la medicin en
o de variables cuantitativas originalmente transformadas en variables cualitativas
dar los resultados como
Los datos de estas tablas de contingencia dan lugar a
de frecuencias empricas (n
ij
),
la que cada unidad de anlisis se
probar que la
las variables, es

UNIDAD III:INFERENCIA ESTADSTICA
44
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2013
Bajo el supuesto de una clasificacin bivariada independiente, o sea, bajo el supuesto de
independencia estadstica, se obtienen las frecuencias tericas ( )
ij
n
como:


=
n
) ) x (n (n
n
i j
ij



b.2. Prueba de homogeneidad: se dispone de datos de frecuencias empricas para una variable de
carcter cualitativo, medida en r muestras aleatorias de tamao fijo n para cada caso, que se
consideran proceden de una misma poblacin. En este caso interesa conocer si los datos
muestrales aportan evidencia suficiente para comprobar que las r muestras aleatorias clasifican en
las j categoras (j conjuntos disyuntos) de forma homognea, lo que permite inferir para las sendas
poblaciones que las mismas son homogneas entre s, y por tanto concluir estadsticamente que las
muestras proceden de una misma poblacin. La tabla de contingencia en este caso presenta el
siguiente aspecto:


Muestra
Atributo A
Total fila
A
1
A
2
A
j
A
k

1 n
11
n
11
n
1j
n
1k
n
1.
2 n
21
n
22
n
2j
n
2k
n
2.


i n
k1
n
k2
n
ij
n
jk
n
i.


r n
k1
n
k2
n
rj
n
rk
n
r.
Total
columna
n
.1
n
.2
n
.j


n
.k
n
..



La hiptesis de que las r poblaciones son homogneas, se traduce en que cada conjunto
o categora Aj debe tener una probabilidad terica desconocida, que no vara de
poblacin a poblacin (las categoras son homogneas en las r poblaciones). El
estadgrafo de prueba, se calcula en forma anloga a una prueba de bondad de ajuste,
esto es, para cada una de las muestras se compara la frecuencia observada en cada
categora, con la correspondiente esperada. La frecuencia esperada de que en la muestra
i se den observaciones para la categora j , bajo el supuesto de homogeneidad, se
expresa como
) A categora la en o clasificad ser de ad probabilid ( n n
j i ij
=



es decir, el nmero de individuos que tiene la muestra i por la probabilidad de que ocurra
la caracterstica j en la poblacin:

=
n
) (n
n n
j
. i ij



El siguiente diagrama sintetiza los casos expuestos




Pruebas Ji cuadrado
para frecuencias
UNIDAD III:INFERENCIA ESTADSTICA
45
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2013
12.7.3. Aplicaciones del Ji cuadrado a Pruebas de hiptesis para datos de frecuencias
12.7.3.1. Prueba de bondad de ajuste

En la Unidad de Probabilidad se present el concepto de ajustamiento de una distribucin de
probabilidades, y se cumplimentaron los primeros pasos de una prueba de bondad de ajuste:

1) A partir del anlisis de la distribucin de frecuencias observadas en una muestra, se eligi una
distribucin de probabilidad para modelar la distribucin de la correspondiente variable aleatoria
(distribucin poblacional de donde se supone fue extrada la muestra aleatoria).
2) Se estimaron los parmetros de la distribucin de probabilidad elegida, esto es

; ; ; , etc.
a partir de informacin real o de un conocimiento completo disponible sobre la poblacin.

3) Se us la distribucin de probabilidad terica para determinar la probabilidad de ocurrencia de los
valores (puntuales o intervalares) de la variable aleatoria en el muestreo, para calcular las
correspondientes frecuencias tericas

i
n .
4) Por ltimo, se calcularon las diferencias
i i
n n

, y se estableci si sus magnitudes indicaban una


discrepancia grande o pequea entre lo observado y lo modelado, como para sospechar que la muestra,
respectivamente, no provena de la poblacin supuesta (mal ajustamiento) o s (buen ajustamiento).

Mediante la prueba Ji cuadrado para bondad de ajuste, se dispondr de una herramienta que
permitir justificar en trminos probabilsticos, la decisin de considerar que el modelo fue adecuado
para explicar el comportamiento de los datos muestrales, o en otras palabras si el modelo se ajusta a lo
observado (ajustamiento bueno), o bien si no result un modelo apropiado y lo observado requiere otro
modelo explicativo (ajustamiento malo).

En pruebas de bondad de ajuste existen dos casos posibles con relacin al modelo probabilstico
a utilizar para estimar las

i
n :

a) Modelos probabilsticos conocidos de aplicacin generalizada como el normal, binomial o
Poisson.

b) Modelos que especifican interrelaciones de inters particular en determinados campos del
saber, tal el caso de los modelos probabilsticos referidos a las leyes de Mendell que explican
la segregacin de los caracteres genticos.


12.7.3.1.1. Prueba de bondad de ajuste con modelos probabilsticos conocidos

Caso 1. Distribucin uniforme


Situacin problema: un jugador compr un dado corriente de seis caras y quiere comprobar si est bien
construido. Para esto se realiza 120 lanzamientos y registra las frecuencias correspondientes a los seis
resultados posibles. Indican los datos experimentales que el dado es legal (=0,05)?

Hiptesis:
H
c
: el dado no es legal
H
o
:
6 2 1
6
1
, ... , , i para ) x X ( P
i
= = =

H
1
:
i un menos al para ) x X ( P
i
6
1
=

Regla de decisin:
( )

= (
(


=
k
i i
i i
m
n
n n
1
2
2

X
2
(x
2
; ) , donde
= = 1 k
6-1 =5 ; 07 11
2
1
,
; ) (
=



Clculo del estadgrafo de prueba:

Datos de 120 lanzamientos de un dado legal
|

\
|
=
6
1
i

UNIDAD III:INFERENCIA ESTADSTICA
46
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2013
Puntaje
N de
ocurrencias
i
n
Frecuencia
terica
n x X P n
i i
) ( = =
=(1/6)120
) (

i i
n n
2

i
i i
n
n n ) (

1 18 20,00
-2,00 0,20
2 21 20,00
0,00 0,00
3 25 20,00
7,00 2,45
4 13 20,00
-5,00 1,25
5 23 20,00
3,00 0,45
6 17 20,00
-3,00 0,45
- 120 120,00 0,00 80 4
2
, =
m



donde
( ) ( ) ( ) ( ) ( ) ( )
00 20
00 20 17
00 20
00 20 23
00 20
00 20 13
00 20
00 20 25
00 20
00 20 21
00 20
00 20 18
2 2 2 2 2 2
2
,
,
,
,
,
,
,
,
,
,
,
,
+

=
m


Conclusiones:

a) Conclusin estadstica: dado que
2
1
2


; ) (
<
m
, esto es el valor muestral de Ji cuadrado es menor
al valor que indica la distribucin de probabilidades Ji cuadrado (4,80 < 11,07), o sea que pertenece
al intervalo de valores de la variable en correspondencia a la regin de aceptacin, se decide
aceptar la hiptesis nula, al nivel de significancia de 0,05.
b) Conclusin en trminos del problema: dada la conclusin estadstica que antecede, hay que aceptar
que se trata de un dado legal, es decir, que en una larga serie de tiradas hay que esperar que todas
las caras del dado (1 al 6) se presenten con similar nmero de ocurrencias (frecuencia real).

Caso 2. Distribucin de Poisson

Situacin problema: de un monte de cerezos atacado por pulgn verde, un tcnico fruticultor ha extrado
una muestra aleatoria de 100 hojas. Examinado el material recolectado, se han encontrado los
siguientes resultados:

N de pulgones/hoja 0 1 2 3 4 5 6 7
N de hojas 39 21 18 9 5 4 3 1
El tcnico postula que X p (x; ). Pruebe la bondad del ajuste para un (=0,05).

Hiptesis:
H
c
: el nmero de pulgones verdes por hoja, sigue una distribucin de Poisson

:
0
H ( ) ; x p ;
:
1
H sigue otra distribucin

Regla de decisin:
( )

= (
(


=
k
i i
i i
m
n
n n
1
2
2

X
2
(x
2
; ) , donde
= = 2 k
7-1-1 =5
1
; 07 , 11
2
; ) 1 (
=



Clculo del estadgrafo de prueba:

Resulta conveniente notar que para calcular las probabilidades ) (
i
x X P = se requiere conocer el
parmetro de la distribucin de Poisson,
!
) ( ) (
x
e
x p x X P
x
i i


= = = ; donde = n.p pero p, la
probababilidad p no es conocida: el planteo de la situacin problema no incluye un valor especificado de
, ni tampoco se informa en la hiptesis, por tanto habr que estimar su valor a partir de los datos
muestrales para poder realizar el ajustamiento, como
49 , 1
_
=

= =

n
n x
x
i i
k





1
Recordar que
1 = s k
, y en este caso s = 1 , se pierde un grado de libertad al estimar a . Estos grados de libertad
luego sern corregidos por agrupamiento de clases
UNIDAD III:INFERENCIA ESTADSTICA
47
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2013

Datos de recuento de pulgones en 100 hojas de cerezo.
N de
pulgon
es /hoja
N de
hojas
i
n

Probabilidad
!
) (
x
e
x p
x
i


=

Frecuencia terica
n x p n
i i
) ( =
) (

i i
n n
2

i
i i
n
n n ) (

0 39 0,225 22,54 16,46 12,020
1 21 0,336 33,58 -12,58 4,713
2 18 0,250 25,02 -7,02 1,970
3 9 0,124 12,43 -8,43 0,946
4 5 0,046 4,63
5 4 0,014 1,38 6,57 6,713
6 3 0,003 0,34
7 1 0,001 0,08
- 100 1,000 100,00 0,00
=
2
m
26,362


donde las clases cuyas frecuencias esperadas han sido menores a 5 en correspondencia a la cola
superior de la distribucin, esto es
i
n para x
i
= 5,6,7, se han agrupado hasta cumplir con el requisito
i
n 5 obtenindose un valor grupal de 6,43. Lo propio se ha hecho luego con las respectivas n
i
dando
13. Esto lleva a recalcular los grados de libertad iniciales, =n-k=7-2=5 , resultando como =n-k=5 -2 =3.

Puesto que estas clases se encuentran en las secciones del extremo inferior y del superior de la
distribucin, se tienen que combinar con categoras adyacentes respectivas para el propsito de realizar
el anlisis. Luego el valor crtico del estadgrafo de prueba resulta igual a 82 , 7
2
) 95 , 0 ; 3 (
2
= =
m
; es
decir que los valores que determinarn el rechazo de la H
0
, al nivel =0,05 , pertenecen al intervalo
[7,82; +]

Conclusiones:
a) Conclusin estadstica: dado que
2
m
>
2
; ) 1 (

, esto es el valor muestral de Ji cuadrado es


mayor al valor que indica la distribucin de probabilidades Ji cuadrado (26,36 > 7,82), o sea que
pertenece al intervalo de valores de la variable en correspondencia a la regin de rechazo, se
decide rechazar la hiptesis nula, al nivel de significancia de 0,05.
b) Conclusin en trminos del problema: dada la conclusin estadstica que antecede, resulta que los
datos sobre el nmero de pulgones/hoja no siguen una distribucin Poisson con tasa media igual a
1,49.

Caso 3. Distribucin Binomial

Para resolver situaciones problema relacionadas con la distribucin binomial se debe seguir un camino
anlogo al indicado para la distribucin binomial, recordando que :
0
H ( ) p n x b , ; y, que


2 - k
1 - k

muestra) la de travs a estima (se o desconocid
conocido
1
=
=

p
p
s n

Caso 4. Distribucin normal

Situacin problema: de la base del censo provincial del arbolado pblico viario o arbolado de calle, se
conoce para la variable circunferencia de tronco de los pltanos lo siguiente; es igual a
54 , 34 85 , 190 en cm. Para una ciudad donde todava no se ha llevado a cabo este censo, se ha
extrado una muestra aleatoria de n=228 pltanos. Interesa modelar la distribucin terica de la variable
aleatoria circunferencia de tronco, suponiendo que la muestra procede de la poblacin conocida X
( ) 54 , 34 , 85 , 190 ; x n . Pruebe la bondad del ajuste para un (=0,05).

Hiptesis:

H
c
: la circunferencia de tronco de los pltanos de la ciudad considerada, se distribuye normalmente
:
0
H

( ) cm , , cm , ; x n 54 34 85 190
:
1
H sigue otra distribucin

Regla de decisin:
13
6,43
UNIDAD III:INFERENCIA ESTADSTICA
48
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2013
( )

= (
(


=
k
i i
i i
m
n
n n
1
2
2

X
2
(x
2
; ) , donde
= = 1 k
13-1 =12 ; 03 , 21
2
; ) 1 (
=


En este caso los dos parmetros de la distribucin normal, y , son conocidos por tanto s=0. Pero
habr que ver si resulta necesario agrupar clases para determinar la necesidad de corregir los grados de
libertad.

Clculo del estadgrafo de prueba

Se observar que en este caso ha resultado necesario agrupar clases en ambos extremos de la
distribucin, con lo cual se tienen que recalcular los grados de libertad iniciales
= = 1 k
13-1 =12
como
= = 1 k
8 -1=7, segn ocurri en el caso del ajustamiento con la distribucin de Poisson. De
este modo el valor crtico del estadgrafo de prueba resulta igual a 07 , 14
2
) 95 , 0 ; 7 (
2
= =
m
; es decir que
los valores que determinarn el rechazo de la H
0
, al nivel =0,05 , pertenecen al intervalo [14,07; +]

Datos de circunferencia de tronco de pltanos del arbolado viario para una ciudad.
Intervalos
de clase
Punto
medio
i
x

Probabilidad
del intervalo
Frecuencia
absoluta
i
n

Frecuencia terica
n prob n
i
int) ( =

) (

i i
n n
2

i
i i
n
n n ) (

Menos de 100 - 0,00430 2 1,0002
100 < 120 110 0,01590 5 16 3,7047 16,4947 -0,4947 0,015
120 < 140 130 0,05060 9 11,7898
140 < 160 150 0,11590 15 22,0047 -7,0047
2,230
160 < 180 170 0,19160 40 44,6428 -4,6428 0,483
180 < 200 190 0,22430 59 52,2619 6,7381 0,869
200 < 220 210 0,19690 37 45,8777 -8,8777 1,718
220 < 240 230 0,12270 21 28,5891 -7,5891 2,015
240 < 260 250 0,05500 16 12,8150 3,1850 0,792
260 < 280 270 0,01790 10 4,1707
280 < 300 290 0,00411 7 24 0,9580 5,3128 18,6872 65,730
300 < 320 310 0,00070 6 0,1631
320 ms - 0,00009 1 0,0210
- - 1,00000 228 227,9987
0,0013
=
2
m
73,850


Conclusiones:

a) Conclusin estadstica: dado que
2
m
>
2
; ) 1 (

, esto es el valor muestral de Ji cuadrado es


mayor al valor que indica la distribucin de probabilidades Ji cuadrado (73,85 > 14,07), o sea que
pertenece al intervalo de valores de la variable en correspondencia a la regin de rechazo, se
decide rechazar la hiptesis nula (=0,05).
b) Conclusin en trminos del problema: dada la conclusin estadstica que antecede, la muestra no
aporta suficiente evidencia a favor de H
0
. No puede decirse que los datos sobre la circunferencia
no siguen la distribucin normal propuesta al nivel de significancia de 0,05. Es importante destacar
que ha existido una gran discrepancia entre lo observado y lo terico en la cola superior de la
distribucin, la muestra presenta considerablemente mayor nmero de rboles con circunferencia
grande que lo que puede esperarse en una muestra extrada de la poblacin censal.


12.7.3.1.2. Prueba de bondad de ajuste con modelos especficos

Hay campos de aplicacin donde se utilizan leyes probabilsticas que establecen interrelaciones
particulares entre las probabilidades multinomiales que corresponden a k clases. Esto es lo que ocurre
con las leyes de Mendel que son un conjunto de reglas bsicas acerca de cmo se transmiten por
herencia, las caractersticas de los padres a sus hijos. Este conocimiento es muy utilizado en agronoma
en la gentica vegetal y animal, para lograr ejemplares con caractersticas deseables.

Situacin problema: de acuerdo a la teora mendeliana de la herencia, cuando se cruzan plantas de
arveja (Pisum sativum), puede esperarse con relacin a la herencia de las caractersticas textura del
tegumento y el color del grano que se presente una interrelacin de 9:3:3:1.





UNIDAD III:INFERENCIA ESTADSTICA
49
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2013


Genotipos parentales AaLl x AaLl

Donde para color, A es amarillo (dominante) y, a es verde (recesivo), y
para forma, L es lisa (dominante) y l rugosa (recesivo)
Segregacin fenotpica esperada para la descendencia
Granos arveja
amarillos y lisos
Granos de arveja
amarillos y
rugosos
Granos de arveja
verdes y lisos
Granos de arveja
verdes y rugosos
9 3 3 1
Proporciones mendelianas
9/16 3/16 3/16 1/16

Las proporciones establecidas se pueden interpretar como estimaciones empricas de las
correspondientes probabilidades, y entonces se tiene una ley especfica de probabilidad para el caso.

Un genetista ha realizado un experimento gentico y quiere comprobar si los datos obtenidos estn de
acuerdo con las proporciones mendelianas dadas para el nivel de significacin 0,05.


Hiptesis:

H
c
: los caracteres color y forma de las semillas de arvejas segregan en proporcin 9:3:3:1, de este
modo se est suponiendo que los 4 tipos de semilla, en la poblacin se presentan de acuerdo a la
siguiente proporcin
16
1
16
3
16
3
16
9
: : :


: H
o
16
9
1
= ;
16
3
2
= ;
16
3
3
= ,
16
1
4
=


1
H : al menos una
i
se presenta con una probabilidad diferente a la especificada


Regla de decisin:
( )

= (
(


=
k
i i
i i
m
n
n n
1
2
2

X
2
(x
2
; ) , donde
= = 1 k
4-1 =3 ; 82 7
2
1
,
; ) (
=


Notar que en este caso los valores de probabilidad estn especificados por el modelo, de modo que para
el clculo de los grados de libertad, s=0.

Clculo del estadgrafo de prueba

Para calcular las frecuencias esperadas, se aplica lo siguiente n n n n
16
1
16
3
16
3
16
9
; ; ; donde n=
556 semillas, por ejemplo 75 312 596
16
9
1 1
, . = |

\
|
= = n n . El ajustamiento de acuerdo a la ley mendeliana
propuesta result:

Datos de un cruzamiento de arveja.
Fenotipo
i
n
i
n ) (
i i
n n
2
) (
i i
n n
( )
i
i i
n
n n


Amarilla-Lisa 315 312,75 2,25 5,0625 0,0162
Amarilla-rugosa 101 104.25 -3,25 10,5625 0,1013
verde-lisa 108 104.25 3,75 10,5625 0,1349
Verde-rugosa 32 34.75 -2,75 7,5625 0,2176
Total 556 556,00 0,00 ------ =
2
m
0,47

Conclusiones:

a) Conclusin estadstica: dado que
2
m
<
2
; ) 1 (

, esto es el valor muestral de Ji cuadrado es


menor al valor que indica la distribucin de probabilidades de la variable aleatoria Ji cuadrado
lisa
rugosa
Caractersticas del grano

Forma Color

UNIDAD III:INFERENCIA ESTADSTICA
50
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2013
(0,47 < 7,82), o sea que pertenece al intervalo de valores de la variable en correspondencia a la
regin de aceptacin, se decide no rechazar la hiptesis nula (=0,05).
b) Conclusin en trminos del problema: dada la conclusin estadstica que antecede, la muestra
no aporta suficiente evidencia para rechazar H
0
. Por tanto se considera que la ley mendeliana
16
1
16
3
16
3
16
9
: : : puede utilizarse como modelo probabilstico para explicar los resultados
experimentales obtenidos en experimentos similares al realizado por el genetista, para un nivel
de significancia de 0,05.


12.7.3.2. Prueba para tablas de contingencia

Conviene recordar el concepto y la notacin de una tabla de contingencia: 1) es una disposicin
de datos de frecuencias observadas, que puede corresponder a una clasificacin de doble entrada
(bivariada) o de orden superior. Los datos se registran en las celdas de la tabla, identificados segn la
notacin matricial: esto es mediante una notacin sub (i,j) donde i se refiere a la fila y, j a la columna, de
modo que i= 1,2, , i, r y, j= 1,2, , i, c.


Frecuencias
observadas




Columnas
Filas
1 2 j

... c
Total
marginal
de fila
1
11
n
12
n
j
n
1


c
n
1

1
n
2
21
n
22
n
j
n
2


c
n
2

2
n



i
1 i
n
2 i
n
ij
n

...
i
n



r
1 r
n
2 n
n ...

rc
n
n
n

Total
marginal
de
columna
1
n
2
n
j
n




k
n



n






Frecuencias
tericas

En forma abreviada a una tabla de contingencia con r filas y c columnas se le conoce como tabla r x c
(se lee r por c).


12.7.3.2.1 Prueba de independencia

Situacin problema: se desea probar si la decisin de los votantes respecto a la reforma de la
Constitucin Provincial de Mendoza es independiente del nivel de ingresos de los mismos para un
=0,05. A tal efecto se ha tomado una muestra aleatoria de 1000 votantes
2
del padrn electoral,
resultando lo siguiente:
Tabla de contingencia 2 x 3; n=1000
Reforma de la
Constitucin
Nivel de ingreso
Total
Bajo Medio Alto
A favor 182 213 203 598
En contra 154 138 110 402
Total 336 351 313 1000

12.7.2.2.2 Prueba de homogeneidad

A diferencia de la prueba de independencia, en la prueba de homogeneidad interesa determinar
si los datos correspondientes a dos o ms muestras aleatorias provienen de la misma poblacin.


2
Notar que al tomar solo una muestra aleatoria los totales marginales de filas y columnas son aleatorios


=
n
) ) x (n (n
n
i j
ij

UNIDAD III:INFERENCIA ESTADSTICA
51
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2013
Nuevamente el conjunto de posibles valores de las observaciones se divide en k conjuntos disyuntos,
A
1
, A
2
, ..., A
k,
clasificando en ellos las n
k
observaciones de cada muestra. Es importante notar que al
tener definidos los tamaos muestrales, resulta que los totales de filas (o bien de columnas segn se
haya ordenado) resultan fijos.

Situacin problema: en una regin minera se estn explotando dos minas. Entre los pobladores de la
zona de influencia corre la opinin de que la cantidad de enfermos por contaminacin ambiental es
mayor en una de las minas. Se quiere probar si realmente los registros sanitarios no son homogneos,
a tal fin se toma una muestra de trabajadores de cada mina y se contabilizan los casos con patologas
asociadas a las condiciones ambientales. Los resultados han sido:

Tabla de contingencia 2 x 2; n
1
=160 y n
2
= 100.
Explotacin
minera
Patologas
Total
Sin Con
A 35 125 160
B 37 63 100
C 25 35 60
Total 97 223 320

Hiptesis:

H
c
: para cada mina las proporciones de registros sanitarios, sin y con patologas asociadas a la
contaminacin ambiental, son las mismas.
31 21 11 0
=
=
: H ;
32 22 21
=
=
; donde
2 1
3 2 1
, j
, , i
=
=


: H
1
las poblaciones no son homogneas

En este contexto, homognea se interpreta como igual. Las dos poblaciones en estudio sern
homogneas cuando la interrelacin entre los casos sin patologa y con patologa sea igual en ambos,
esto es, en ambas minas las proporciones entre los dos tipos de registros son iguales. En esencia,
interesa determinar si en las dos explotaciones mineras se dan de forma similar los casos de patologas
positivos y casos negativos atribuibles al ambiente laboral.

Regla de decisin:
( )

= = (
(


=
c
i ij
ij ij
r
i
m
n

n
1
2
1
2
X
2
(x
2
; ) , donde
2 1 2 1 3 1 1 = = = ) )( ( ) c ( ) r (
;
99 5
2
1
,
; ) (
=



El nmero de grados de libertad asociado a este tipo de prueba est dado por el nmero de frecuencias
de celdas que pueden llenarse libremente cuando se dan los totales marginales y el total general.

Clculo del estadgrafo de prueba

Al suponer homogeneidad tambin los datos se ordenan en una tabla de contingencia, por tanto
las frecuencias esperadas de cada celda nuevamente pueden obtenerse multiplicando las frecuencias
marginales de la fila y la columna de la celda en cuestin, y dividiendo por el total general (n
1 +
n
2 =
n).
Pero en este caso al tratarse de una tabla 2x2 basta calcular la frecuencia terica para la celda (1,1).
que las restantes se obtienen por diferencia, esto es:
12
n = . n
1
-
11
n ;
21
n =
1
. n -
11
n ;
22
n = .. n -
11
n .

Tabla de contingencia 2 x 2 con frecuencias observadas y calculadas; n
1
=160 , n
2
= 100 y n
3
= 60.

Explotacin
minera
Patologas
Total
Sin Con
A 35 (48,500) 125(111,500) 160
B 37(30,313) 63(69,688) 100
C 25 818,188) 35(41,813) 60
Total 97 223 320
UNIDAD III:INFERENCIA ESTADSTICA
52
Ctedra de Clculo Estadstico y Biometra Facultad de Ciencias Agrarias UNCUYO / Ciclo 2013
REQUISITOS PARA APLICAR EL ESTADGRAFO
Ji cuadrado,
2


1) La o las muestras deben ser aleatorias
2) El tamao muestral n debe ser grande (n > 30)
3) Todas las frecuencias esperadas deben ser iguales o mayores a 5 (en
caso de que no sea as agrupar varias categoras hasta tener valores 5)

Luego
( ) ( ) ( )
171 11
813 41
813 41 35
500 111
500 111 125
500 48
500 48 35
2 2 2
2
,
,
,
...
,
.
,
,
m
=

+ +

=

Conclusiones:

a) Conclusin estadstica: dado que
2
m
>
2
; ) 1 (

, esto es el valor muestral de Ji cuadrado es


mayor al valor que indica la distribucin de probabilidades Ji cuadrado (11,171 > 5,99), o sea que
pertenece al intervalo de valores de la variable en correspondencia a la regin de rechazo, se
decide rechazar la hiptesis nula (=0,05).
b) Conclusin en trminos del problema: dada la conclusin estadstica que antecede, no hay
evidencia para concluir que la proporcin de trabajadores con patologa y sin patologa difiere entre
las explotaciones mineras al nivel de significancia de 0,05.


12.7. CORRECCIN DE YATES

Es importante recordar que el estadgrafo sobre el cual se basa la decisin en las pruebas de Ji
cuadrado no paramtricas, tiene una distribucin slo aproximadas a la distribucin de una variable
aleatoria Ji cuadrado (la distribucin de X
2
es una distribucin continua de probabilidades, y el
estadgrafo se calcula a partir de datos de frecuencia o conteo). En consecuencia se requiere tomar
algunas precauciones:
1) que la muestra sea grande (no menor a 50)
2) que las frecuencias tericas no sean menor a 5 (caso contrario agrupar clases)
3) que los grados de libertad sean mayores a 1.
Con relacin a esto ltimo caso, las tablas de contingencia 2x2 siempre son violatorias de este requisito
ya que
1 1 2 1 2 1 1 = = = ) )( ( ) c ( ) r (
. Esto lleva a una correccin en el clculo del estadgrafo
para mejorar la aproximacin de su distribucin de probabilidades con la distribucin continua Ji
cuadrado. Tal correccion recibe el nombre de correccin de Yates para continuidad.

La correccin consiste en aplicar la frmula que se da a continuacin, en lugar de la utilizada
hasta ahora:
( )


=
i
i i
n
, n n
2
2
5 0

Por ltimo si se tuvieran frecuencias esperadas menores a 5, se debera aplicar la prueba exacta
de Fisher-Irwin.

Anda mungkin juga menyukai