Anda di halaman 1dari 15

1

PRCTICA 13: PRUEBA DE HIPTESIS DE BONDAD DE AJUSTE E INDEPENDENCIA


En ocasiones ocurre que el encargado de hacer un trabajo estadstico no est seguro de la distribucin de una determinada variable aleatoria. Para solucionar tales dificultades surgen los llamados test de Bondad de Ajuste. Uno de ellos es el denominado contraste chi-cuadrado y que consiste en comparar las frecuencias observadas en la muestra con las que deberan haberse obtenido en una poblacin que perteneciese a una distribucin de probabilidad especfica. De all determinamos si la variable tiene la distribucin postulada (o terica) o si no la tiene. La prueba puede aplicarse tanto a distribuciones discretas como continuas, aunque previamente el investigador debe establecer una particin conveniente del espacio muestral en sucesos mutuamente excluyentes: para el caso de las discretas, esta particin puede darse naturalmente; para las continuas depende solamente del criterio del investigador. La prueba entonces, quiere discernir si una poblacin tiene o no una determinada distribucin y por lo tanto las hiptesis adecuadas son: H0) FX = F0 H1) FX F0 donde FX es la verdadera distribucin de la variable de inters X, y F0 es la distribucin postulada y que est totalmente especificada. Supongamos, entonces, que establecimos una particin del espacio muestral en k sucesos mutuamente excluyentes cada uno con probabilidad terica pi y por lo tanto

p = 1. De all,
i i =1

se compara la frecuencia esperada si la distribucin postulada fuera cierta en cada intervalo n pi (que es la probabilidad pi multiplicada por el tamao muestral n), con la observada en cada uno de ellos y que notamos ni, por medio del siguiente estadstico:
2 k 1 =

i =1 i

( ni n p i ) 2 n pi

con las siguientes propiedades: a) como

i =1

pi = 1 n

i =1

pi =

n p
i =1

=n

b) como los k sucesos son excluyentes:

n = n
i i =1

Por medio del contrate de razn de verosimilitudes se puede demostrar que la distribucin asinttica (es decir, cuando n tiende a infinito) del mencionado estadstico es, como se puede intuir a partir de su notacin, una chi-cuadrado con (k 1) grados de libertad. Por lo tanto, y como el estadstico compara la frecuencia terica con la observada, se rechaza H0 cuando ste es grande y por ello, la regin crtica para un nivel nos queda:
2 = k 1 =

i =1

( ni n p i ) 2 2 k 1, 1 n pi

Observaciones: a) Los grados de libertad corresponden a la cantidad de sucesos mutuamente excluyentes menos uno, dado que la relacin

n = n implica que slo k 1 eventos


i i =1

son independientes. b) Como la distribucin del estadstico es asinttica ello crea una dificultad en cuanto a qu tamao de muestra es aceptable. En general, se considera que la aproximacin es buena si las frecuencias esperadas para cada suceso son mayores o iguales a cinco (npi 5, para todo i). c) Si las frecuencias esperadas para algn suceso son menores que 5, se debe agrupar con algn otro, reducindose en tal caso los grados de libertad: stos son siempre un grado menos que los sucesos finales considerados. 1

2 d) Si es necesario estimar algn parmetro, entonces el estadstico pierde un grado de libertad por cada parmetro estimado, e) La forma del estadstico es coherente con los que pretende medir. En primer lugar (ni n pi) evala qu tan lejos estn las observaciones de los valores tericos. Luego, (ni n pi)2 evita que las diferencias en ms y en menos se compensen. Y por ltimo la divisin entre n pi, estandariza el cociente, de tal forma que diferencias en magnitud tengan siempre la misma distribucin.

EJERCICIO 1 (CANAVOS 10.2)


Sea X = Mes en que ocurre el nacimiento en un hospital Queremos elegir entre: H0) X Uniforme discreta (1,12) H1) X no se distribuye Uniforme discreta (1,12) Como la variable es una uniforme discreta y los sucesos posibles son k = 12, entonces cada 1 pi = y como el tamao total de nacimientos es n = 1200, entonces n pi = 100, para todo i. 12 2 2 El lmite de la regin crtica es, a un nivel = 0,01: k 1, 1 = 11, 0,99 = 24,725. El valor del estadstico lo calculamos:
2 k 1 =

i =1

( ni n p i ) 2 n pi

(95 100 )2 100

(105 100 )2 100

(95 100 )2 100

(105 100 )2 100

(90 100 )2 (95 100 )2 (105 100 )2 (110 100 )2 (105 100 )2 (100 100 )2 + + + + + + 100 100 100 100 100 100 (95 100 )2 (100 100 )2 + =4 100 100 Por lo tanto como 4 < 24,725, entonces no caemos en la R.C. y por lo tanto no se rechaza H0 a ese nivel.

Recordemos que el p-valor es la probabilidad de que el estadstico de prueba tome valores peores, en el sentido de la regin crtica, que el que tom en la muestra. En este caso: 2 p-valor = P ( k 1 4) = 1 - 0,03 = 0.97 Observacin: Si el p-valor es mayor que el nivel , entonces no se rechaza H0 y si es mayor, entonces se rechaza. SOLUCIN DEL EJERCICIO USANDO EL PAQUETE R: #Ejer 1 x<-c(Ene=95,Feb=105,Mar=95,Abr=105,May=90,Jun=95, Jul=105,Ago=110,Set=105,Oct=100,Nov=95,Dic=100) chisq.test(x) Chi-squared test for given probabilities data: x X-squared = 4, df = 11, p-value = 0.97

EJERCICIO 2 (SEGUNDA REVISIN DE 1998)


1) Sea X = cantidad de goles por partido en el mundial de ftbol de Francia 98 Las hiptesis que nos planteamos son: H0) X tiene distribucin Poisson H1) X no tiene distribucin Poisson Como no conocemos el parmetro de la distribucin de Poisson debemos estimarlo:
xi

n ( x i ) = ni 5 10 13 19 11 5 0 1 64

h ( xi ) 0,078125 0,15625 0,203125 0,296875 0,171875 0,078125 0 0,015625 1

xi h ( xi )

0 1 2 3 4 5 6 7

0 0,15625 0,40625 0,890625 0,6875 0,390625 0 0,109375 2,640625

= x = 2,64. Entonces Por otra parte, como las frecuencias esperadas en la primera y tres ltimas categoras son menores que 5 debemos reagrupar, para luego calcular sus probabilidades postuladas: (n i n pi )2 xi pi n pi n ( x i ) = ni n pi

0y1 2 3 4 5 y ms

15 13 19 11 6 64

0.2596 0.2486 0.2189 0.1445 0.1284 1

16.6168 15.9131 14.0068 9.2467 8.2166 64

0.1573 0.5333 1.7800 0.3324 0.5980 3.4010

Como la cantidad de categoras finalmente utilizadas es de 6, y se estima un parmetro entonces los grados de libertad del estadstico son cuatro. La regin crtica a un nivel del 5% queda: 2 = 2 4 > 4, 0,95 = 9,48773
2 y como 2 4 = 3,4010 < 4, 0,95 = 9,48773, no se rechaza H0 al nivel mencionado.

2) Como p-valor = P ( 2 4 > 3,4010) = 0,5060, es mayor que 0,10. SOLUCIN DEL EJERCICIO USANDO EL PAQUETE R: #Ejer 2 GOLES<-c(0,1,2,3,4,5,6,7) GOLES.O<-c(5,10,13,19,11,5,0,1) n<-sum(GOLES.O) mu<-sum(GOLES*GOLES.O)/n GOLES.E<-c(dpois(GOLES[-8], mu),ppois(6,mu, lower.tail=FALSE))*n chisq.test(GOLES.O, p=GOLES.E, rescale.p = TRUE)

chisq.test(GOLES.O, p=GOLES.E, rescale.p = TRUE ,simulate.p.value = TRUE) Chi-squared test for given probabilities with simulated p-value (based on 2000 replicates) data: GOLES.O X-squared = 5.2174, df = NA, p-value = 0.6262 #La diferencia entre los valores para p-value (0.6335 y 0.6262) para los datos originales #y simulados no indican la necesidad de reagrupar. #Sin embargo, si lo indica la regla (muy conservadora) ne >= 5. Qu hace el R? GOLES.E>=5 [1] FALSE TRUE TRUE TRUE TRUE FALSE FALSE FALSE GOLES.O<-c(sum(GOLES.O[1:2]), GOLES.O[3:5], sum(GOLES.O[6:8])) GOLES.E<-c(ppois(1,mu),dpois(GOLES[3:5], mu),ppois(4,mu, lower.tail=FALSE))*n GOLES.E>=5 [1] TRUE TRUE TRUE TRUE TRUE chisq.test(GOLES.O, p=GOLES.E, rescale.p = TRUE) Chi-squared test for given probabilities data: GOLES.O X-squared = 3.401, df = 4, p-value = 0.4931

EJERCICIO 3
PUNTAJE FRECUENCIAS MARCA [ x i' , x i' +1 ) [0, 10) [10, 15) [15, 20) [20, 25) [25, 30) [30, 40) [40, 50) n ( x i ) = ni 24 49 71 72 37 21 16 290
xi

FREC. REL. h ( xi ) 0,08275862 0,16896552 0,24482759 0,24827586 0,12758621 0,07241379 0,05517241 1


x i h ( x i ) ( x i x )2 h ( x i )

5 12,5 17,5 22,5 27,5 35 45

0,4137931 2,11206897 4,28448276 5,5862069 3,50862069 2,53448276 2,48275862 20,9224138

20,9812354 11,9859161 2,86764501 0,61790356 5,51997134 14,3508521 31,9851121 88,3086356

Sea X = el puntaje de una prueba de un estudiante. Queremos elegir entre las hiptesis: H0) X se distribuye normal H1) X no se distribuye normal En este caso hay que estimar los parmetros de la normal. Ello lo hacemos en el cuadro de
2 = s2 = 88,9208. Con estas estimaciones = x = 20,92 y arriba y en l obtenemos: calculamos las probabilidades de cada intervalo si la distribucin es normal y que denotamos por pi, y los valores esperados n pi:

[ x i' , x i' +1 ) [0, 10) [10, 15) [15, 20) [20, 25) [25, 30) [30, 40) [40, 50)

F( x i' +1 ) 0,1226783 0,26441684 0,46101677 0,6678712 0,83296727 0,97881098 1

F( x i' ) 0,01302273 0,1226783 0,26441684 0,46101677 0,6678712 0,83296727 0,97881098

pi 0,1226783 0,14173854 0,19659994 0,20685443 0,16509607 0,14584371 0,02118902 1

n pi 35,5767059 41,104177 57,0139812 59,9877842 47,8778602 42,2946767 6,14481485 290

(n i n pi )2 n pi

3,76707498 1,51673202 3,43089045 2,40537853 2,4714522 10,7215208 15,8059562 40,1190052

Como la cantidad de sucesos (en este caso intervalos) es 7, y se estimaron 2 parmetros los grados de libertad del estadstico son 4 y por lo tanto el valor crtico es

2 4 , 0.99

= 13,2767. El = 13,2767,

valor que toma el estadstico es, como se ve en el cuadro, 2 4 = 40,119 > con lo que caemos en la R.C. y por lo tanto rechazamos H0 al nivel del 1%.

2 4 , 0.99

Nota: En el cuadro de arriba se toma como p1 = F (10) = P ( X 10) en vez de F (10) F (0) y p7 = 1 F (40) en vez de F (50) F (40), a efectos de que

p = 1, porque la Normal
i i =1

puede tomar valores entre y +, y es necesario considerar esta discrepancia con la muestra. SOLUCIN DEL EJERCICIO USANDO EL PAQUETE R: #Ejer 3 Puntaje<-c("-Inf - 10","10 - 15","15 - 20","20 - 25","25 - 30","30 - 40","40 - +Inf") Marca<-c(5,12.5,17.5,22.5,27.5,35,45) Frecuencia.O<-c(24,49,71,72,37,21,16) n<-sum(Frecuencia.O) mu<-sum(Marca*Frecuencia.O/n) sigma<-sqrt((1/(n-1))*(sum(Marca^2*Frecuencia.O)-n*mu^2)) x<-c(0,10,15,20,25,30,40,50) z<-(x-mu)/sigma Frecuencia.E<-(pnorm(c(z[2:7], +Inf))-pnorm(c(-Inf, z[2:7])))*n Frecuencia.E>=5 [1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE chisq.test(Frecuencia.O, p=Frecuencia.E, rescale.p = TRUE) Chi-squared test for given probabilities data: Frecuencia.O X-squared = 40.0251, df = 6, p-value = 4.504e-07 tabla<-data.frame(Puntaje=Puntaje, Marca=Marca, O=Frecuencia.O, E=Frecuencia.E, + dif=(Frecuencia.O-Frecuencia.E)^2/Frecuencia.E)

6 tabla Puntaje 1 -Inf - 10 2 10 - 15 3 15 - 20 4 20 - 25 5 25 - 30 6 30 - 40 7 40 - +Inf sum(tabla$dif) [1] 40.02512 qchisq(0.99,4) [1] 13.27670 Marca 5.0 12.5 17.5 22.5 27.5 35.0 45.0 O 24 49 71 72 37 21 16 E 35.659895 41.082459 56.939179 59.908510 47.851161 42.367070 6.191726 dif 3.812494 1.525894 3.472243 2.440457 2.460707 10.776098 15.537224

EJERCICIO 4 (CANAVOS 10.6)


Sea X = nmero de personas que desarrollan alguna enfermedad cardaca Queremos discernir entre las hiptesis: H0) X tiene distribucin uniforme (en las cuatro categoras) H1) X no tiene distribucin uniforme a) Como la cantidad de categoras son cuatro y no se estim ningn parmetro los grados de libertad del estadstico son tres. El valor de ste, con los datos de la muestra, es:
23 =
(58 40)2 (54 40)2 (36 40)2 (12 40)2 + + + = 33 40 40 40 40

Como el valor de tablas es

2 3, 0.99

= 11,34488 y 33 > 11,34488, entonces se rechaza H0 y por

lo tanto a un nivel del 1%, existe evidencia estadstica suficiente para afirmar que la variable no es uniforme. b) Advertirle al investigador mdico que la distribucin del estadstico es asinttica. SOLUCIN DEL EJERCICIO USANDO EL PAQUETE R: #Ejer 4 x<-c(Agudo=58,Moderado=54,Ocasional=36,Nofuma=12) chisq.test(x) Chi-squared test for given probabilities data: x X-squared = 33, df = 3, p-value = 3.221e-07

EJERCICIO 5 (EXAMEN DE FEBRERO DE 1999)


1) Sea X = nmero de pacientes que atiende un odontlogo en una semana 1.1) H0) X se distribuye uniforme discreta H1) X no se distribuye uniforme discreta 1.2) H0) X tiene una distribucin con probabilidades p1 = p2 = p3 = 0,16 y p4 = p5 = 0,26 H1) X no tiene dicha distribucin 2) En este caso no hay que estimar ningn parmetro y dado que la cantidad de categoras es k = 5: 6

2 k 1 =

i =1

( ni n p i ) 2 n pi

2 4

3) La regin crtica, a un nivel del 5%, es: 2 = 2 4 > 4, 0,95 = 9,48773 En la tabla siguiente se calcula el valor del estadstico: DA 1 2 3 4 5 ni 10 9 11 14 16 60 pi 0,16 0,16 0,16 0,26 0,26 1 n pi 9,6 9,6 9,6 15,6 15,6 60
(n i n pi )2 n pi

0,01666667 0,0375 0,20416667 0,16410256 0,01025641 0,43269231

Entonces, 2 4 = 0,43268 <

2 4, 0,95 = 9,48773 y por lo tanto no rechazamos H0 al 5% de

significacin: el odontlogo no tiene evidencia estadstica suficiente para afirmar que, con los nuevos horarios, la distribucin de sus pacientes en los das de la semana, haya cambiado. 4) Cometemos un error de tipo II cuando no rechazamos H0 siendo H0 falsa. En este caso sera sostener que la distribucin no cambi, a pesar de la nueva estrategia de atencin del odontlogo, cuando en realidad s lo hizo. SOLUCIN DEL EJERCICIO USANDO EL PAQUETE R: #Ejer 5 O<-c(10,9,11,14,16) n<-sum(O) p<-c(0.16,0.16,0.16,0.26,0.26) E<-p*n E>=5 [1] TRUE TRUE TRUE TRUE TRUE chisq.test(O,E) Pearson's Chi-squared test data: O and E X-squared = 5, df = 4, p-value = 0.2873 Warning message: In chisq.test(O, E) : Chi-squared approximation may be incorrect #Por qu aparece un Warning message:?

EJERCICIO 6 (SEGUNDA REVISIN DE 1996)


X = la demanda total semanal de un producto en miles de Kg. Para calcular las probabilidades de la muestra presentada en el cuadro, debemos hallar la funcin de distribucin: a) si x [ 0, 1) FX(x) =

x t2

dt =

x3 6

b) si x [ 1, 2) FX(x) =

1 t2

dt +

1 7 t3 7 t2 + 10 t 6) dt = + ( + 5 t 2 6t ) 6 6 2

x 1

1 7 14 7 x3 7 x3 + + 5 x2 6 x + 5+6= + 5 x2 6 x + 6 6 6 6 6

1) La prueba tiene, entonces, las siguientes hiptesis: H0) X tiene distribucin FX H1) X no tiene distribucin FX Como la cantidad de categoras de la muestra es 4 y no se estima ningn parmetro, los grados de libertad son 3 y por lo tanto la regin crtica a un nivel del 10% es: 2 2 > 3 = 3 , 0,90 = 6,25139 En el siguiente cuadro calculamos el valor del estadstico: [ x i' , x i' +1 ) [ 0; 0,5) [0,5; 1) [1; 1,5) [1,5; 2) ni 9 61 195 135 F( x i' ) F( x i' +1 ) pi n pi
(n i n pi )2 n pi

0,02083333 0 0,02083333 8,33333333 0,16666667 0,02083333 0,14583333 58,3333333 0,64583333 0,16666667 0,47916667 191,666667 1 0,64583333 0,35416667 141,666667 1 400

0,05333333 0,12190476 0,05797101 0,31372549 0,5469346

Entonces 2 2 0,54693 = 3 < 3 , 0,90 = 6,25139 y por lo tanto no rechazamos H0 al 10%. 2) En ambas pruebas la decisin es no rechazar H0 porque no tengo evidencia estadstica suficiente para hacerlo. Esto significa, que a dicho nivel, no se puede hallar diferencias sustanciales, con los datos de la muestra obtenida, entre las distribuciones postuladas y la real. Lo que sucede en la realidad es que si no se rechazan dos distribuciones distintas, stas no deberan ser muy diferentes. SOLUCIN DEL EJERCICIO USANDO EL PAQUETE R: #Ejer 6 f<-function(x) { ifelse(x<0,1,0)*0+ ifelse(x>=0 & x<1,1,0)*x^2/2+ ifelse(x>=1 & x<=2,1,0)*(-7*x^2/2+10*x-6)+ ifelse(x>2,1,0)*0 }

9 > integrate(f,-Inf,Inf) 1 with absolute error < 3.4e-06 p1E<-integrate(f,0, 0.5)$value; p1O<-9 p2E<-integrate(f,0.5, 1)$value; p2O<-61 p3E<-integrate(f,1,1.5)$value; p3O<-195 p4E<-integrate(f,1.5,2)$value; p4O<-135 datos<-data.frame(E=400*c(p1E, p2E, p3E, p4E), O=c(p1O, p2O, p3O, p4O)) chisq.test(datos$O, p=datos$E, rescale=TRUE) Chi-squared test for given probabilities data: datos$O X-squared = 0.5469, df = 3, p-value = 0.9085

EJERCICIO 7 (CANAVOS 10.14)


En este ejercicio aplicaremos el Test de Ajuste de Kolmogorov-Smirnoff, el cual se dise especficamente para determinar si una variable aleatoria continua tiene o no determinada distribucin. A tales efectos, se utiliza la funcin de distribucin emprica (vista en la Prctica 9, Ejercicio 12):
* Fn (x) =

1 n

1{
i =1

Xi x

la cual es, como vimos anteriormente, la funcin que vale 0, hasta el mnimo dato de la 1 2 muestra; vale entre el mnimo y el segundo ms chico; entre el segundo y el tercero ms n n chico; ... y 1, del ms grande en adelante. Si llamamos X (1) al dato ms chico de la muestra, X (2) al segundo ms chico, ..., y X (n) al ms grande, podemos graficar la funcin de la siguiente manera:

2 n 1 n

X (1)

X (2)

X ( n)

10

* ( x ) es un estadstico En el Ejercicio 12 de la mencionada prctica 9, demostramos que Fn consistente para estimar FX(x) = P (X x). Kolmogorov y Smirnoff demostraron que:
n * sup Fn ( x ) FX ( x ) 0 x

y que la distribucin de cada uno los siguientes estadsticos no depende de la distribucin de X:


+ * * * Dn = sup ( Fn ( x ) FX ( x ) ) , Dn = sup ( FX ( x ) Fn ( x ) ) y Dn = sup Fn ( x ) FX ( x )
x x x

a condicin de que la distribucin de X sea continua. Ntese que decir que la distribucin de los estadsticos antedichos no depende de X, indica que esa distribucin es fija y que se puede tabular (de hecho estn tabuladas en cualquier libro de texto de Estadstica). La demostracin del Teorema, en general, no aparece en los libros de texto y est fuera del alcance de este curso: simplemente se quiere puntualizar que ella est basada en la conocida propiedad de que la variable aleatoria Y = FX(X) U [ 0, 1] ( FX(X) es aplicar FX a la variable aleatoria X) a condicin de que X sea continua. Estamos en condiciones, entonces, para contrastar las hiptesis: H0) FX(x) = F0(x) H1) FX(x) F0(x)
* ( x ) F0 ( x ) = Si F0 es la verdadera distribucin de X, entonces se debe cumplir que sup Fn x

sup
x

* Fn

( x ) FX ( x ) 0 , se rechazar H0 si Dn K . Por lo tanto, para que el nivel de

significacin sea , la regin crtica debe ser: Tres observaciones finales:

= Muestras: Dn Dn, 1

* * ( x ) F0 ( x ) = mx Fn a) como el tamao de muestra es n, finito, entonces: sup Fn ( x ) F0 ( x ) x

* b) mx Fn ( x ) F0 ( x ) = mx x

1 i n

x [ X ( i + 1) X ( i ) )

mx

* Fn ( x ) F0 ( x ) (para encontrar el mximo se puede

tomar el mximo en cada intervalo, y de esos n mximos tomar el mximo) * c) En cada intervalo [ X ( i) X ( i+1)), la funcin Fn ( x ) es constante, y como F0(x) es creciente (por ser X absolutamente continua), el extremos. Pasemos a la resolucin del ejercicio:
x [ X ( i + 1) X ( i ) )

mx

* Fn ( x ) F0 ( x ) se alcanza slo en los

10

11

x 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 38 41 45 50

F0(x) 0.033473 0.0487404 0.06833493 0.0926039 0.12170516 0.15558433 0.19397098 0.23639308 0.28220716 0.33064005 0.38083679 0.43191036 0.4829887 0.5332551 0.5819805 0.62854634 0.67245761 0.78520616 0.86772621 0.93658907 0.97770698

Fn*(x) 0.04 0.08 0.12 0.16 0.24 0.28 0.32 0.4 0.48 0.52 0.56 0.6 0.68 0.72 0.76 0.8 0.84 0.88 0.92 0.96 1

Fn*(x- )F0(x) Fn*(x) F0(x) -0.033473 0.006527 -0.0087404 0.0312596 0.01166507 0.05166507 0.0273961 0.0673961 0.03829484 0.11829484 0.08441567 0.12441567 0.08602902 0.12602902 0.08360692 0.16360692 0.11779284 0.19779284 0.14935995 0.18935995 0.13916321 0.17916321 0.12808964 0.16808964 0.1170113 0.1970113 0.1467449 0.1867449 0.1380195 0.1780195 0.13145366 0.17145366 0.12754239 0.16754239 0.05479384 0.09479384 0.01227379 0.05227379 -0.01658907 0.02341093 -0.01770698 0.02229302 0.14935995 0.19779284

Notacin: Los intervalos [ X ( i) X ( i+1)) se definen naturalmente y son, a va de ejemplo: (, 19), [19,20), ... . [45, 50), [50, +). La notacin F0(x) corresponde a evaluar F0 en el extremo izquierdo de cada intervalo.
* * Si hallamos el mximo del valor absoluto de las columnas Fn ( x ) F0(x) y Fn ( x ) F0(x), obtenemos que Dn = 0.19779284 < 0.27 = Dn, 1 , con lo cual no tenemos evidencia estadstica necesaria para rechazar H0 al nivel del 5%.

SOLUCIN DEL EJERCICIO USANDO EL PAQUETE R: #Ejer 7 Edades<-c(24, 19, 20, 22, 50, 23, 23, 21, 25, 27, 45, 27, 26, 26, 35, 29, 28, 30, 31, 32, 31, 33, 34, 38, 41) Edades<-Edades[order(Edades)] ks.test(Edades, pgamma, 16, 0.5, alternative = c("two.sided")) One-sample Kolmogorov-Smirnov test data: Edades D = 0.1978, p-value = 0.2820 alternative hypothesis: two-sided Warning message: In ks.test(Edades, pgamma, 16, 0.5, alternative = c("two.sided")) : cannot compute correct p-values with ties #Investigar por que da un mensaje de alerta

11

12

EJERCICIO 8
En este ejercicio y en los posteriores de esta Prctica veremos las llamadas Pruebas de Hiptesis de Independencia, las cuales aplicaremos a dos rasgos distintos de una misma poblacin (para ms aspectos el razonamiento es relativamente similar). La idea consiste en comparar, de manera similar al Test de Ajuste Chi-cuadrado, las frecuencias realmente observadas en la muestra, para cada suceso, con las que tericamente deberan haberse observado en el caso de ser cierta las hiptesis nula de independencia. Las hiptesis que se plantean entonces, son: H0) X y Y son independientes H1) X y Y no son independientes Como la cantidad de categoras que se toman es un conjunto finito, si llamamos pi. a la probabilidad marginal del i-simo suceso de la variable X y p.j al j-simo suceso de la variable Y, las hiptesis anteriores son equivalentes a las siguientes: H0) pi j = pi. x p.j, para todo i = 1, 2, , r y todo j = 1, 2, ..., s (siendo r y s la cantidad de posibles sucesos de las variables X y Y respectivamente) H1) pi j pi. x p.j, para algn i y j. Si pueden especificarse las probabilidades marginales pi. y p.j, entonces bajo la hiptesis nula, la estadstica: r s ( Nij n pi. p . j )2 2 rs = 1 n pi. p. j i =1 j =1

tiene una distribucin asinttica chi-cuadrado con (r s 1) grados de libertad Sin embargo, la mayora de las veces pueden no conocerse los valores de las probabilidades marginales, por lo que se estiman en base a la muestra. Para ello se usan los estimadores de mxima verosimilitud de pi. y p.j que son respectivamente: n n i. = i. y p . j = . j p n n donde ni. y n.j son las frecuencias absolutas del i-simo suceso de la variable X y del j-simo suceso de la variable Y. Afortunadamente, la estadstica chi-cuadrado permanece como la apropiada para la prueba, siempre que se empleen los estimadores antedichos y se le reste un grado de libertad por cada parmetro estimado. Entonces como

i =1

pi . = 1 y

p
i =1

.j

= 1 , existen (r 1) parmetros de la

variable X y (s 1) parmetros de la variable Y a estimar y por lo tanto el nmero de grados de libertad ser (r s 1 (r 1) (s 1) = (r 1) (s 1). Al sustituir las probabilidades por los estimadores nos queda la estadstica: n i . n. j 2 ) ( Nij r s n 2 = (r 1) ( s 1) n i. n. j

i =1 j =1

Si la hiptesis nula es cierta N ij est prximo a por ello la regin crtica a un nivel nos queda: = 2 (r 1) ( s 1)
=

ni . n. j n

y el estadstico toma valores pequeos, y

i =1 j =1

( Nij

n i . n. j

n n i. n. j n

)2

2 (r 1) ( s 1) , 1

Las hiptesis que nos planteamos en este ejercicio son: H0) X y Y son independientes H1) X y Y no son indepedientes 12

13

donde X = la categora de la poblacin econmicamente activa (P:E:A.) y Y = la edad de la P:E:A:

CUADRO DE VALORES OBSERVADOS < 25 25 - 60 > 60 50 220 40 O.I.M. 60 150 20 O.C. 50 250 30 O.S 40 80 10 DESOC. 200 700 100

310 230 330 130 1000

Luego de calcular las probabilidades estimadas mediante las frmulas antedichas, podemos obtener un cuadro de valores esperados (multiplicando aquellas por el tamao de la muestra): CUADRO DE VALORES ESTIMADOS < 25 25 - 60 > 60 62 217 31 O.I.M. 46 161 23 O.C. 66 231 33 O.S 26 91 13 DESOC. Como el valor del estadstico es 26 = 25,6554 tiene probabilidad P( 26 >=25,6554) = 0,13967 = 26, 0,97 , entonces rechazamos H0 a un nivel del 3%: tenemos evidencia estadstica suficiente para rechazar la hiptesis de independencia entre ambas variables. SOLUCIN DEL EJERCICIO USANDO EL PAQUETE R: #Ejer 8 O<-matrix(data=c(50,220,40,60,150,20,50,250,30,40,80,10), nrow=4, ncol=3, byrow = TRUE) chisq.test(O, rescale.p = TRUE) Pearson's Chi-squared test data: O X-squared = 25.6554, df = 6, p-value = 0.0002581

EJERCICIO 9 (SEGUNDA REVISIN DE 1997)


1) Como en el cuadro de valores observados las tres primeras columnas dan 103, 93 y 94 respectivamente, lo mismo debe suceder con las de los valores esperados y por lo tanto: = 103 (24,7 + 15,4 + 18,8 + 17,9) = 26,2 = 93 (22,3 + 13,9 + 16,9 + 16,2) = 23,7 = 94 (22,6 + 14 + 17,1 + 16,3) = 24 2) H0) Hay independencia entre la marca de yogur comprada ms frecuentemente H1) No la hay O equivalentemente, definiendo X = la marca de yogur ms frecuentemente comprada y Y = la caracterstica principal del yogur y adems p i. la probabilidad de que X sea la marca i-sima y p.j la probabilidad de que Y sea la caracterstica j-sima:

13

14 H0) pi j = pi. x p.j, para todo i = 1, 2, , 5 y todo j = 1, 2, ..., 5 H1) pi j pi. x p.j, para algn i y j 3) Como no hay que estimar ningn parmetro el estadstico tiene 24 grados de libertad y como 224 = 40,45 > 36,415 = 224, 0,95 , entonces rechazamos H0 a un nivel del 5%: tenemos evidencia estadstica suficiente para rechazar la hiptesis de independencia entre ambas variables. 4) Recordamos que el p-valor es la probabilidad de que suceda lo que sucedi o algo peor en el sentido de la regin crtica, o sea: p-valor = P ( 224 > 40,45) Pero como: P ( 224 > 40,45) < P ( 224 > 36,415) = p < SOLUCIN DEL EJERCICIO USANDO EL PAQUETE R: #Ejer 9 O<-matrix(data=c(30,30,20,15,28, 28,28,18,16,26, 15,10,15,23,9, 14,13,16,27,18, 16,12,25,24,7), nrow=5, ncol=5, byrow = TRUE) chisq.test(O, rescale.p = TRUE) Pearson's Chi-squared test data: O X-squared = 40.4543, df = 16, p-value = 0.000668.

EJERCICIO 10
1. H0) Los atributos son independientes H1) Los atributos no son independientes = 0,01 RC = {Muestras tales que

(2m 1).( q 1) > k }

Hay que hallar el cuadro de valores esperados para calcular el estadstico chi-cuadrado CUADRO DE VALORES ESPERADOS SI N0 TOTAL 40 360 400 CNCER 960 8.640 9.600 OTRA 1.000 9.000 10.000 TOTAL El valor del estadstico en la muestra es 740,74. El estadstico chi-cuadrado tiene, en este caso, 1 grado de libertad. El valor de tablas que acumula 0,99 es 6,63 y, por tanto, el valor de la muestra cae en la regin tpica. Conclusin: las variables no son independientes. Es fcil advertir que la asociacin se da entre las categoras ser fumador y morir de cncer de pulmn.

14

15 2. P(Morir de cncer de pulmn / Ser fumador) = 200 / 1.000 = 0,20 P(Morir de cncer de pulmn / No ser fumador) = 200 / 9.000 = 0,022 Observacin: en este ejercicio resulta que es 9 veces ms probable morir de cncer de pulmn si se es fumador que si no se es. Los estudios realizados en la dcada del 50 (Vejentud: humano tesoro Tlice) en EEUU mostraban que este coeficiente llegaba a 19. SOLUCIN DEL EJERCICIO USANDO EL PAQUETE R: #Ejer 10 O<-matrix(data=c(200,200,800,8800), nrow=2, ncol=2, byrow = TRUE) chisq.test(O, rescale.p = TRUE) Pearson's Chi-squared test with Yates' continuity correction #Quin es Yates? data: O X-squared = 736.1183, df = 1, p-value < 2.2e-16.

EJERCICIO 11 (CANAVOS 10.22)


Sea X = la marca de preferencia de un consumidor y Y = la regin geogrfica en la que habita. Como en ejercicios anteriores, queremos probar: H0) X y Y son independientes H1) X y Y no son independientes Elaboramos el cuadro: CUADRO DE VALORES ESPERADOS ESTIMADOS REGIN 1 REGIN 2 REGIN 3 39 48,75 29,25 MARCA A 39,25 MARCA B 52,33333333 65,41666667 51,5 MARCA C 68,66666667 85,83333333 160 200 120

117 157 206 480

El estadstico chi-cuadrado, en este caso, tiene cuatro grados y libertad y como dada la muestra 24 = 3,76754 < 24, 0,95 = 9,48773, no rechazamos H0, es decir que no hay evidencia necesaria suficiente para rechazar la hiptesis de independencia entre ambas variables. En R: #Ejer 11 O<-matrix(data=c(40,52,25, 52,70,35, 68,78,60), nrow=3, ncol=3, byrow = TRUE) chisq.test(O, rescale.p = TRUE) Pearson's Chi-squared test data: O X-squared = 3.7675, df = 4, p-value = 0.4384

15

Anda mungkin juga menyukai