p = 1. De all,
i i =1
se compara la frecuencia esperada si la distribucin postulada fuera cierta en cada intervalo n pi (que es la probabilidad pi multiplicada por el tamao muestral n), con la observada en cada uno de ellos y que notamos ni, por medio del siguiente estadstico:
2 k 1 =
i =1 i
( ni n p i ) 2 n pi
i =1
pi = 1 n
i =1
pi =
n p
i =1
=n
n = n
i i =1
Por medio del contrate de razn de verosimilitudes se puede demostrar que la distribucin asinttica (es decir, cuando n tiende a infinito) del mencionado estadstico es, como se puede intuir a partir de su notacin, una chi-cuadrado con (k 1) grados de libertad. Por lo tanto, y como el estadstico compara la frecuencia terica con la observada, se rechaza H0 cuando ste es grande y por ello, la regin crtica para un nivel nos queda:
2 = k 1 =
i =1
( ni n p i ) 2 2 k 1, 1 n pi
Observaciones: a) Los grados de libertad corresponden a la cantidad de sucesos mutuamente excluyentes menos uno, dado que la relacin
son independientes. b) Como la distribucin del estadstico es asinttica ello crea una dificultad en cuanto a qu tamao de muestra es aceptable. En general, se considera que la aproximacin es buena si las frecuencias esperadas para cada suceso son mayores o iguales a cinco (npi 5, para todo i). c) Si las frecuencias esperadas para algn suceso son menores que 5, se debe agrupar con algn otro, reducindose en tal caso los grados de libertad: stos son siempre un grado menos que los sucesos finales considerados. 1
2 d) Si es necesario estimar algn parmetro, entonces el estadstico pierde un grado de libertad por cada parmetro estimado, e) La forma del estadstico es coherente con los que pretende medir. En primer lugar (ni n pi) evala qu tan lejos estn las observaciones de los valores tericos. Luego, (ni n pi)2 evita que las diferencias en ms y en menos se compensen. Y por ltimo la divisin entre n pi, estandariza el cociente, de tal forma que diferencias en magnitud tengan siempre la misma distribucin.
i =1
( ni n p i ) 2 n pi
(90 100 )2 (95 100 )2 (105 100 )2 (110 100 )2 (105 100 )2 (100 100 )2 + + + + + + 100 100 100 100 100 100 (95 100 )2 (100 100 )2 + =4 100 100 Por lo tanto como 4 < 24,725, entonces no caemos en la R.C. y por lo tanto no se rechaza H0 a ese nivel.
Recordemos que el p-valor es la probabilidad de que el estadstico de prueba tome valores peores, en el sentido de la regin crtica, que el que tom en la muestra. En este caso: 2 p-valor = P ( k 1 4) = 1 - 0,03 = 0.97 Observacin: Si el p-valor es mayor que el nivel , entonces no se rechaza H0 y si es mayor, entonces se rechaza. SOLUCIN DEL EJERCICIO USANDO EL PAQUETE R: #Ejer 1 x<-c(Ene=95,Feb=105,Mar=95,Abr=105,May=90,Jun=95, Jul=105,Ago=110,Set=105,Oct=100,Nov=95,Dic=100) chisq.test(x) Chi-squared test for given probabilities data: x X-squared = 4, df = 11, p-value = 0.97
n ( x i ) = ni 5 10 13 19 11 5 0 1 64
xi h ( xi )
0 1 2 3 4 5 6 7
= x = 2,64. Entonces Por otra parte, como las frecuencias esperadas en la primera y tres ltimas categoras son menores que 5 debemos reagrupar, para luego calcular sus probabilidades postuladas: (n i n pi )2 xi pi n pi n ( x i ) = ni n pi
0y1 2 3 4 5 y ms
15 13 19 11 6 64
Como la cantidad de categoras finalmente utilizadas es de 6, y se estima un parmetro entonces los grados de libertad del estadstico son cuatro. La regin crtica a un nivel del 5% queda: 2 = 2 4 > 4, 0,95 = 9,48773
2 y como 2 4 = 3,4010 < 4, 0,95 = 9,48773, no se rechaza H0 al nivel mencionado.
2) Como p-valor = P ( 2 4 > 3,4010) = 0,5060, es mayor que 0,10. SOLUCIN DEL EJERCICIO USANDO EL PAQUETE R: #Ejer 2 GOLES<-c(0,1,2,3,4,5,6,7) GOLES.O<-c(5,10,13,19,11,5,0,1) n<-sum(GOLES.O) mu<-sum(GOLES*GOLES.O)/n GOLES.E<-c(dpois(GOLES[-8], mu),ppois(6,mu, lower.tail=FALSE))*n chisq.test(GOLES.O, p=GOLES.E, rescale.p = TRUE)
chisq.test(GOLES.O, p=GOLES.E, rescale.p = TRUE ,simulate.p.value = TRUE) Chi-squared test for given probabilities with simulated p-value (based on 2000 replicates) data: GOLES.O X-squared = 5.2174, df = NA, p-value = 0.6262 #La diferencia entre los valores para p-value (0.6335 y 0.6262) para los datos originales #y simulados no indican la necesidad de reagrupar. #Sin embargo, si lo indica la regla (muy conservadora) ne >= 5. Qu hace el R? GOLES.E>=5 [1] FALSE TRUE TRUE TRUE TRUE FALSE FALSE FALSE GOLES.O<-c(sum(GOLES.O[1:2]), GOLES.O[3:5], sum(GOLES.O[6:8])) GOLES.E<-c(ppois(1,mu),dpois(GOLES[3:5], mu),ppois(4,mu, lower.tail=FALSE))*n GOLES.E>=5 [1] TRUE TRUE TRUE TRUE TRUE chisq.test(GOLES.O, p=GOLES.E, rescale.p = TRUE) Chi-squared test for given probabilities data: GOLES.O X-squared = 3.401, df = 4, p-value = 0.4931
EJERCICIO 3
PUNTAJE FRECUENCIAS MARCA [ x i' , x i' +1 ) [0, 10) [10, 15) [15, 20) [20, 25) [25, 30) [30, 40) [40, 50) n ( x i ) = ni 24 49 71 72 37 21 16 290
xi
Sea X = el puntaje de una prueba de un estudiante. Queremos elegir entre las hiptesis: H0) X se distribuye normal H1) X no se distribuye normal En este caso hay que estimar los parmetros de la normal. Ello lo hacemos en el cuadro de
2 = s2 = 88,9208. Con estas estimaciones = x = 20,92 y arriba y en l obtenemos: calculamos las probabilidades de cada intervalo si la distribucin es normal y que denotamos por pi, y los valores esperados n pi:
[ x i' , x i' +1 ) [0, 10) [10, 15) [15, 20) [20, 25) [25, 30) [30, 40) [40, 50)
(n i n pi )2 n pi
Como la cantidad de sucesos (en este caso intervalos) es 7, y se estimaron 2 parmetros los grados de libertad del estadstico son 4 y por lo tanto el valor crtico es
2 4 , 0.99
= 13,2767. El = 13,2767,
valor que toma el estadstico es, como se ve en el cuadro, 2 4 = 40,119 > con lo que caemos en la R.C. y por lo tanto rechazamos H0 al nivel del 1%.
2 4 , 0.99
Nota: En el cuadro de arriba se toma como p1 = F (10) = P ( X 10) en vez de F (10) F (0) y p7 = 1 F (40) en vez de F (50) F (40), a efectos de que
p = 1, porque la Normal
i i =1
puede tomar valores entre y +, y es necesario considerar esta discrepancia con la muestra. SOLUCIN DEL EJERCICIO USANDO EL PAQUETE R: #Ejer 3 Puntaje<-c("-Inf - 10","10 - 15","15 - 20","20 - 25","25 - 30","30 - 40","40 - +Inf") Marca<-c(5,12.5,17.5,22.5,27.5,35,45) Frecuencia.O<-c(24,49,71,72,37,21,16) n<-sum(Frecuencia.O) mu<-sum(Marca*Frecuencia.O/n) sigma<-sqrt((1/(n-1))*(sum(Marca^2*Frecuencia.O)-n*mu^2)) x<-c(0,10,15,20,25,30,40,50) z<-(x-mu)/sigma Frecuencia.E<-(pnorm(c(z[2:7], +Inf))-pnorm(c(-Inf, z[2:7])))*n Frecuencia.E>=5 [1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE chisq.test(Frecuencia.O, p=Frecuencia.E, rescale.p = TRUE) Chi-squared test for given probabilities data: Frecuencia.O X-squared = 40.0251, df = 6, p-value = 4.504e-07 tabla<-data.frame(Puntaje=Puntaje, Marca=Marca, O=Frecuencia.O, E=Frecuencia.E, + dif=(Frecuencia.O-Frecuencia.E)^2/Frecuencia.E)
6 tabla Puntaje 1 -Inf - 10 2 10 - 15 3 15 - 20 4 20 - 25 5 25 - 30 6 30 - 40 7 40 - +Inf sum(tabla$dif) [1] 40.02512 qchisq(0.99,4) [1] 13.27670 Marca 5.0 12.5 17.5 22.5 27.5 35.0 45.0 O 24 49 71 72 37 21 16 E 35.659895 41.082459 56.939179 59.908510 47.851161 42.367070 6.191726 dif 3.812494 1.525894 3.472243 2.440457 2.460707 10.776098 15.537224
2 3, 0.99
lo tanto a un nivel del 1%, existe evidencia estadstica suficiente para afirmar que la variable no es uniforme. b) Advertirle al investigador mdico que la distribucin del estadstico es asinttica. SOLUCIN DEL EJERCICIO USANDO EL PAQUETE R: #Ejer 4 x<-c(Agudo=58,Moderado=54,Ocasional=36,Nofuma=12) chisq.test(x) Chi-squared test for given probabilities data: x X-squared = 33, df = 3, p-value = 3.221e-07
2 k 1 =
i =1
( ni n p i ) 2 n pi
2 4
3) La regin crtica, a un nivel del 5%, es: 2 = 2 4 > 4, 0,95 = 9,48773 En la tabla siguiente se calcula el valor del estadstico: DA 1 2 3 4 5 ni 10 9 11 14 16 60 pi 0,16 0,16 0,16 0,26 0,26 1 n pi 9,6 9,6 9,6 15,6 15,6 60
(n i n pi )2 n pi
significacin: el odontlogo no tiene evidencia estadstica suficiente para afirmar que, con los nuevos horarios, la distribucin de sus pacientes en los das de la semana, haya cambiado. 4) Cometemos un error de tipo II cuando no rechazamos H0 siendo H0 falsa. En este caso sera sostener que la distribucin no cambi, a pesar de la nueva estrategia de atencin del odontlogo, cuando en realidad s lo hizo. SOLUCIN DEL EJERCICIO USANDO EL PAQUETE R: #Ejer 5 O<-c(10,9,11,14,16) n<-sum(O) p<-c(0.16,0.16,0.16,0.26,0.26) E<-p*n E>=5 [1] TRUE TRUE TRUE TRUE TRUE chisq.test(O,E) Pearson's Chi-squared test data: O and E X-squared = 5, df = 4, p-value = 0.2873 Warning message: In chisq.test(O, E) : Chi-squared approximation may be incorrect #Por qu aparece un Warning message:?
x t2
dt =
x3 6
b) si x [ 1, 2) FX(x) =
1 t2
dt +
1 7 t3 7 t2 + 10 t 6) dt = + ( + 5 t 2 6t ) 6 6 2
x 1
1 7 14 7 x3 7 x3 + + 5 x2 6 x + 5+6= + 5 x2 6 x + 6 6 6 6 6
1) La prueba tiene, entonces, las siguientes hiptesis: H0) X tiene distribucin FX H1) X no tiene distribucin FX Como la cantidad de categoras de la muestra es 4 y no se estima ningn parmetro, los grados de libertad son 3 y por lo tanto la regin crtica a un nivel del 10% es: 2 2 > 3 = 3 , 0,90 = 6,25139 En el siguiente cuadro calculamos el valor del estadstico: [ x i' , x i' +1 ) [ 0; 0,5) [0,5; 1) [1; 1,5) [1,5; 2) ni 9 61 195 135 F( x i' ) F( x i' +1 ) pi n pi
(n i n pi )2 n pi
0,02083333 0 0,02083333 8,33333333 0,16666667 0,02083333 0,14583333 58,3333333 0,64583333 0,16666667 0,47916667 191,666667 1 0,64583333 0,35416667 141,666667 1 400
Entonces 2 2 0,54693 = 3 < 3 , 0,90 = 6,25139 y por lo tanto no rechazamos H0 al 10%. 2) En ambas pruebas la decisin es no rechazar H0 porque no tengo evidencia estadstica suficiente para hacerlo. Esto significa, que a dicho nivel, no se puede hallar diferencias sustanciales, con los datos de la muestra obtenida, entre las distribuciones postuladas y la real. Lo que sucede en la realidad es que si no se rechazan dos distribuciones distintas, stas no deberan ser muy diferentes. SOLUCIN DEL EJERCICIO USANDO EL PAQUETE R: #Ejer 6 f<-function(x) { ifelse(x<0,1,0)*0+ ifelse(x>=0 & x<1,1,0)*x^2/2+ ifelse(x>=1 & x<=2,1,0)*(-7*x^2/2+10*x-6)+ ifelse(x>2,1,0)*0 }
9 > integrate(f,-Inf,Inf) 1 with absolute error < 3.4e-06 p1E<-integrate(f,0, 0.5)$value; p1O<-9 p2E<-integrate(f,0.5, 1)$value; p2O<-61 p3E<-integrate(f,1,1.5)$value; p3O<-195 p4E<-integrate(f,1.5,2)$value; p4O<-135 datos<-data.frame(E=400*c(p1E, p2E, p3E, p4E), O=c(p1O, p2O, p3O, p4O)) chisq.test(datos$O, p=datos$E, rescale=TRUE) Chi-squared test for given probabilities data: datos$O X-squared = 0.5469, df = 3, p-value = 0.9085
1 n
1{
i =1
Xi x
la cual es, como vimos anteriormente, la funcin que vale 0, hasta el mnimo dato de la 1 2 muestra; vale entre el mnimo y el segundo ms chico; entre el segundo y el tercero ms n n chico; ... y 1, del ms grande en adelante. Si llamamos X (1) al dato ms chico de la muestra, X (2) al segundo ms chico, ..., y X (n) al ms grande, podemos graficar la funcin de la siguiente manera:
2 n 1 n
X (1)
X (2)
X ( n)
10
* ( x ) es un estadstico En el Ejercicio 12 de la mencionada prctica 9, demostramos que Fn consistente para estimar FX(x) = P (X x). Kolmogorov y Smirnoff demostraron que:
n * sup Fn ( x ) FX ( x ) 0 x
a condicin de que la distribucin de X sea continua. Ntese que decir que la distribucin de los estadsticos antedichos no depende de X, indica que esa distribucin es fija y que se puede tabular (de hecho estn tabuladas en cualquier libro de texto de Estadstica). La demostracin del Teorema, en general, no aparece en los libros de texto y est fuera del alcance de este curso: simplemente se quiere puntualizar que ella est basada en la conocida propiedad de que la variable aleatoria Y = FX(X) U [ 0, 1] ( FX(X) es aplicar FX a la variable aleatoria X) a condicin de que X sea continua. Estamos en condiciones, entonces, para contrastar las hiptesis: H0) FX(x) = F0(x) H1) FX(x) F0(x)
* ( x ) F0 ( x ) = Si F0 es la verdadera distribucin de X, entonces se debe cumplir que sup Fn x
sup
x
* Fn
= Muestras: Dn Dn, 1
* b) mx Fn ( x ) F0 ( x ) = mx x
1 i n
x [ X ( i + 1) X ( i ) )
mx
tomar el mximo en cada intervalo, y de esos n mximos tomar el mximo) * c) En cada intervalo [ X ( i) X ( i+1)), la funcin Fn ( x ) es constante, y como F0(x) es creciente (por ser X absolutamente continua), el extremos. Pasemos a la resolucin del ejercicio:
x [ X ( i + 1) X ( i ) )
mx
10
11
x 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 38 41 45 50
F0(x) 0.033473 0.0487404 0.06833493 0.0926039 0.12170516 0.15558433 0.19397098 0.23639308 0.28220716 0.33064005 0.38083679 0.43191036 0.4829887 0.5332551 0.5819805 0.62854634 0.67245761 0.78520616 0.86772621 0.93658907 0.97770698
Fn*(x) 0.04 0.08 0.12 0.16 0.24 0.28 0.32 0.4 0.48 0.52 0.56 0.6 0.68 0.72 0.76 0.8 0.84 0.88 0.92 0.96 1
Fn*(x- )F0(x) Fn*(x) F0(x) -0.033473 0.006527 -0.0087404 0.0312596 0.01166507 0.05166507 0.0273961 0.0673961 0.03829484 0.11829484 0.08441567 0.12441567 0.08602902 0.12602902 0.08360692 0.16360692 0.11779284 0.19779284 0.14935995 0.18935995 0.13916321 0.17916321 0.12808964 0.16808964 0.1170113 0.1970113 0.1467449 0.1867449 0.1380195 0.1780195 0.13145366 0.17145366 0.12754239 0.16754239 0.05479384 0.09479384 0.01227379 0.05227379 -0.01658907 0.02341093 -0.01770698 0.02229302 0.14935995 0.19779284
Notacin: Los intervalos [ X ( i) X ( i+1)) se definen naturalmente y son, a va de ejemplo: (, 19), [19,20), ... . [45, 50), [50, +). La notacin F0(x) corresponde a evaluar F0 en el extremo izquierdo de cada intervalo.
* * Si hallamos el mximo del valor absoluto de las columnas Fn ( x ) F0(x) y Fn ( x ) F0(x), obtenemos que Dn = 0.19779284 < 0.27 = Dn, 1 , con lo cual no tenemos evidencia estadstica necesaria para rechazar H0 al nivel del 5%.
SOLUCIN DEL EJERCICIO USANDO EL PAQUETE R: #Ejer 7 Edades<-c(24, 19, 20, 22, 50, 23, 23, 21, 25, 27, 45, 27, 26, 26, 35, 29, 28, 30, 31, 32, 31, 33, 34, 38, 41) Edades<-Edades[order(Edades)] ks.test(Edades, pgamma, 16, 0.5, alternative = c("two.sided")) One-sample Kolmogorov-Smirnov test data: Edades D = 0.1978, p-value = 0.2820 alternative hypothesis: two-sided Warning message: In ks.test(Edades, pgamma, 16, 0.5, alternative = c("two.sided")) : cannot compute correct p-values with ties #Investigar por que da un mensaje de alerta
11
12
EJERCICIO 8
En este ejercicio y en los posteriores de esta Prctica veremos las llamadas Pruebas de Hiptesis de Independencia, las cuales aplicaremos a dos rasgos distintos de una misma poblacin (para ms aspectos el razonamiento es relativamente similar). La idea consiste en comparar, de manera similar al Test de Ajuste Chi-cuadrado, las frecuencias realmente observadas en la muestra, para cada suceso, con las que tericamente deberan haberse observado en el caso de ser cierta las hiptesis nula de independencia. Las hiptesis que se plantean entonces, son: H0) X y Y son independientes H1) X y Y no son independientes Como la cantidad de categoras que se toman es un conjunto finito, si llamamos pi. a la probabilidad marginal del i-simo suceso de la variable X y p.j al j-simo suceso de la variable Y, las hiptesis anteriores son equivalentes a las siguientes: H0) pi j = pi. x p.j, para todo i = 1, 2, , r y todo j = 1, 2, ..., s (siendo r y s la cantidad de posibles sucesos de las variables X y Y respectivamente) H1) pi j pi. x p.j, para algn i y j. Si pueden especificarse las probabilidades marginales pi. y p.j, entonces bajo la hiptesis nula, la estadstica: r s ( Nij n pi. p . j )2 2 rs = 1 n pi. p. j i =1 j =1
tiene una distribucin asinttica chi-cuadrado con (r s 1) grados de libertad Sin embargo, la mayora de las veces pueden no conocerse los valores de las probabilidades marginales, por lo que se estiman en base a la muestra. Para ello se usan los estimadores de mxima verosimilitud de pi. y p.j que son respectivamente: n n i. = i. y p . j = . j p n n donde ni. y n.j son las frecuencias absolutas del i-simo suceso de la variable X y del j-simo suceso de la variable Y. Afortunadamente, la estadstica chi-cuadrado permanece como la apropiada para la prueba, siempre que se empleen los estimadores antedichos y se le reste un grado de libertad por cada parmetro estimado. Entonces como
i =1
pi . = 1 y
p
i =1
.j
= 1 , existen (r 1) parmetros de la
variable X y (s 1) parmetros de la variable Y a estimar y por lo tanto el nmero de grados de libertad ser (r s 1 (r 1) (s 1) = (r 1) (s 1). Al sustituir las probabilidades por los estimadores nos queda la estadstica: n i . n. j 2 ) ( Nij r s n 2 = (r 1) ( s 1) n i. n. j
i =1 j =1
Si la hiptesis nula es cierta N ij est prximo a por ello la regin crtica a un nivel nos queda: = 2 (r 1) ( s 1)
=
ni . n. j n
i =1 j =1
( Nij
n i . n. j
n n i. n. j n
)2
2 (r 1) ( s 1) , 1
Las hiptesis que nos planteamos en este ejercicio son: H0) X y Y son independientes H1) X y Y no son indepedientes 12
13
CUADRO DE VALORES OBSERVADOS < 25 25 - 60 > 60 50 220 40 O.I.M. 60 150 20 O.C. 50 250 30 O.S 40 80 10 DESOC. 200 700 100
Luego de calcular las probabilidades estimadas mediante las frmulas antedichas, podemos obtener un cuadro de valores esperados (multiplicando aquellas por el tamao de la muestra): CUADRO DE VALORES ESTIMADOS < 25 25 - 60 > 60 62 217 31 O.I.M. 46 161 23 O.C. 66 231 33 O.S 26 91 13 DESOC. Como el valor del estadstico es 26 = 25,6554 tiene probabilidad P( 26 >=25,6554) = 0,13967 = 26, 0,97 , entonces rechazamos H0 a un nivel del 3%: tenemos evidencia estadstica suficiente para rechazar la hiptesis de independencia entre ambas variables. SOLUCIN DEL EJERCICIO USANDO EL PAQUETE R: #Ejer 8 O<-matrix(data=c(50,220,40,60,150,20,50,250,30,40,80,10), nrow=4, ncol=3, byrow = TRUE) chisq.test(O, rescale.p = TRUE) Pearson's Chi-squared test data: O X-squared = 25.6554, df = 6, p-value = 0.0002581
13
14 H0) pi j = pi. x p.j, para todo i = 1, 2, , 5 y todo j = 1, 2, ..., 5 H1) pi j pi. x p.j, para algn i y j 3) Como no hay que estimar ningn parmetro el estadstico tiene 24 grados de libertad y como 224 = 40,45 > 36,415 = 224, 0,95 , entonces rechazamos H0 a un nivel del 5%: tenemos evidencia estadstica suficiente para rechazar la hiptesis de independencia entre ambas variables. 4) Recordamos que el p-valor es la probabilidad de que suceda lo que sucedi o algo peor en el sentido de la regin crtica, o sea: p-valor = P ( 224 > 40,45) Pero como: P ( 224 > 40,45) < P ( 224 > 36,415) = p < SOLUCIN DEL EJERCICIO USANDO EL PAQUETE R: #Ejer 9 O<-matrix(data=c(30,30,20,15,28, 28,28,18,16,26, 15,10,15,23,9, 14,13,16,27,18, 16,12,25,24,7), nrow=5, ncol=5, byrow = TRUE) chisq.test(O, rescale.p = TRUE) Pearson's Chi-squared test data: O X-squared = 40.4543, df = 16, p-value = 0.000668.
EJERCICIO 10
1. H0) Los atributos son independientes H1) Los atributos no son independientes = 0,01 RC = {Muestras tales que
Hay que hallar el cuadro de valores esperados para calcular el estadstico chi-cuadrado CUADRO DE VALORES ESPERADOS SI N0 TOTAL 40 360 400 CNCER 960 8.640 9.600 OTRA 1.000 9.000 10.000 TOTAL El valor del estadstico en la muestra es 740,74. El estadstico chi-cuadrado tiene, en este caso, 1 grado de libertad. El valor de tablas que acumula 0,99 es 6,63 y, por tanto, el valor de la muestra cae en la regin tpica. Conclusin: las variables no son independientes. Es fcil advertir que la asociacin se da entre las categoras ser fumador y morir de cncer de pulmn.
14
15 2. P(Morir de cncer de pulmn / Ser fumador) = 200 / 1.000 = 0,20 P(Morir de cncer de pulmn / No ser fumador) = 200 / 9.000 = 0,022 Observacin: en este ejercicio resulta que es 9 veces ms probable morir de cncer de pulmn si se es fumador que si no se es. Los estudios realizados en la dcada del 50 (Vejentud: humano tesoro Tlice) en EEUU mostraban que este coeficiente llegaba a 19. SOLUCIN DEL EJERCICIO USANDO EL PAQUETE R: #Ejer 10 O<-matrix(data=c(200,200,800,8800), nrow=2, ncol=2, byrow = TRUE) chisq.test(O, rescale.p = TRUE) Pearson's Chi-squared test with Yates' continuity correction #Quin es Yates? data: O X-squared = 736.1183, df = 1, p-value < 2.2e-16.
El estadstico chi-cuadrado, en este caso, tiene cuatro grados y libertad y como dada la muestra 24 = 3,76754 < 24, 0,95 = 9,48773, no rechazamos H0, es decir que no hay evidencia necesaria suficiente para rechazar la hiptesis de independencia entre ambas variables. En R: #Ejer 11 O<-matrix(data=c(40,52,25, 52,70,35, 68,78,60), nrow=3, ncol=3, byrow = TRUE) chisq.test(O, rescale.p = TRUE) Pearson's Chi-squared test data: O X-squared = 3.7675, df = 4, p-value = 0.4384
15