Anda di halaman 1dari 11

Apunte preparado por el profesor Sr.

Rosamel Sez Espinoza con fines de docencia Pruebas de bondad de ajuste Al estimar los parmetros del modelo se supone que los datos constituyen una muestra aleatoria seleccionada de una distribucin que, salvo por sus parmetros, es conocida, sin embargo, en muchas ocasiones necesitamos realizar un contraste sobre la forma de la distribucin supuestamente generadora de los datos. Tal contraste se conoce con el nombre de prueba de bondad de ajuste. Los dos contrastes ms comunes de ajuste son el contraste Chi-cuadrado de Pearson y el de Kolmogorov- Smirnov. El primer test, compara las frecuencias observadas con las especificadas por el modelo y es vlido para distribuciones discretas o continuas y se recomienda para muestras mayores o iguales a 30. El segundo mide la distancia entre la funcin de distribucin emprica y la terica y es vlido slo para variables continuas. La hiptesis a contrastar es: H0: los datos siguen una distribucin f(x) H1: los datos no siguen una distribucin f(x) Contraste Chi-cuadrado de Pearson: Caso 1: Variable aleatoria discreta: Sean x1, x2, , xk, los posibles valores de una variable aleatoria X, discreta. Supongamos que en una muestra de tamao n se han observado estos posibles valores con frecuencias O1, O2, , Ok, con

O
i =1

= n . Sean pi=P(X = xi) con i=1, ,k las probabilidades que asigna el modelo

supuesto. Sea adems Ei = npi con i=1, ,k, las frecuencias esperadas. Si el modelo es correcto, y Ei 5, entonces la variable:
Ei Sigue una distribucin aproximadamente Chi-Cuadrado con los grados de libertad segn se indica a continuacin: i) Si el modelo especifica completamente las probabilidades pi, que son conocidas antes de tomar la muestra, el nmero de grados de libertad ser k-1. ii) Si las probabilidades pi se han calculados estimando r parmetros del modelo por mxima verosimilitud, el nmero de grados de libertad es k-r-1. La hiptesis H0 ser rechazada si valor de la prueba es inferior a un nivel de significacin dado.
i =1

=
2

( Oi Ei )

Caso 2: Variable aleatoria continua: Para una variable continua agrupamos los datos muestrales en intervalos de clases (las clases extremas sern, en general, abiertas). Sean O1, O2, , Ok, las frecuencias observadas, y sean p1, p2, , pk las probabilidades que el modelo asigna a estas clases, luego Ei = npi con i=1, ,k, son las frecuencias esperadas. Si el nmero de clases es al menos cinco y la frecuencia esperada en cada clase es al menos cinco, la variable:

=
2 i =1

( Oi Ei )
Ei

Apunte preparado por el profesor Sr. Rosamel Sez Espinoza con fines de docencia Sigue asintticamente una distribucin 2 con grados de libertad obtenidos como se ha indicado anteriormente. La hiptesis H0 ser rechazada si valor de la prueba es inferior a un nivel de significacin dado. Observacin: Si alguna de las frecuencias esperadas es inferior a 5 se recomienda fusionar con otras clases hasta que la frecuencia esperada sea superior de cinco. Ejemplo: Durante la segunda guerra mundial se dividi el mapa de Londres en cuadrculas de km2 y se cont el nmero de bombas cadas en cada cuadrcula durante un bombardeo alemn. Los resultados fueron: xi: n de impactos en la cuadrcula Oi: frecuencia 0 229 1 211 2 93 3 35 4 7 5 1

Contrastar la hiptesis que los datos siguen una distribucin de Poisson. Sol: A continuacin se muestra el histograma para la variable
Histograma para el nmero de impactos 250 200 150 100 50 0 0 1 2 3 4 5

Veamos ahora algunos histogramas usando la distribucin de Poisson para diferentes valores de a fin de observar cual es la ms semejante.
Histograma para el nmero de impactos para lambda=0.6 350 300 250 200 150 100 50 0 0 1 2 3 4 5 300 250 200 150 100 50 0 0 1 2 3 4 5 Histograma para el nmero de impactos para lambda=0.8

Apunte preparado por el profesor Sr. Rosamel Sez Espinoza con fines de docencia
Histograma para el nmero de impactos para lambda=0.9 Histograma para el nmero de impactos para lambda=1.0

250 200 150 100 50 0 0 1 2 3 4 5

250 200 150 100 50 0 0 1 2 3 4 5

Contraste de Kolmogorov Smirnov (KS) La hiptesis a contrastar es: H 0 : Los datos analizados siguen una distribucin F(x) H1 : Los datos analizados no siguen una distribucin F(x) Donde F(x) es la funcin de distribucin para una variable continua. Para aplicar el contraste KS un primer paso a realizar es ordenar los datos en orden creciente, as la muestra ordenada es x(1) , x(2) ,..., x( n ) con x(1) x(2) x( n ) La medida de discrepancia para el contraste KS es; Donde:
Fn ( x j ) es la funcin de distribucin emprica obtenida de la siguiente forma

D = sup Fn ( xi ) F ( xi )
0 i n

0 Fn ( x ) = j n 1

x < x(1) x( j ) x x( j +1) x x( n )

Si hay valores repetidos, j asume el mayor de los ndices, por ejemplo una muestra observada tiene por valores 4, 5, 4, 7, 3, 4, 1, 6. Al ordenar la muestra los valores quedan: Orden valores Indice j As Fn (4) = 5 1 1 1 2 3 2 3 4 4 4 5 4 5 6 5 6 7 6 7 8 7 8

8
3

Apunte preparado por el profesor Sr. Rosamel Sez Espinoza con fines de docencia Si H0 es cierta, entonces las diferencias entre Fn ( x) y F(x) para una muestra de tamao suficientemente grande, no sern significativas. H 0 ser rechazada si la mayor discrepancia vertical entre para algn nivel de significacin dado. Fn ( x) y F(x), D es mayor a D ( , n)

El estadstico D presenta una distribucin libre, por consiguiente, la distribucin de probabilidad de D es la misma cualquiera sea F(x). El valor D( , n) depende de la distribucin a contrastar y su valor se encuentra tabulado. La forma general del valor es: c D ( , n) = k ( n) Tabla: Valores de c para distintos valores de y distribuciones de probabilidad. Valores de 0.05 1,358 0,895 1,094 0,819 0,843 0,856 0,874

Modelo General Normal Exponencial Weibull, n=10 Weibull, n=20 Weibull, n=50 Weibull, n=

0.1 1,224 0,819 0,990 0,760 0,779 0,790 0,803

0.01 1,628 1,035 1,308 0,944 0,973 0,988 1,007

Tabla: Valores de k (n) segn distribuciones de probabilidad. Modelo General Normal Exponencial Weibull
k ( n)

0,11 n 0,85 k (n) = n 0, 01 + n 0,11 k (n) = n + 0,12 + n k ( n) = n + 0,12 +

k ( n) = n

Para obtener la mayor discrepancia vertical entre

Fn ( x) y F(x), donde x( j 1) < x < x( j ) se debe

tener en cuenta que esta se puede dar inmediatamente antes de llegar a x( j ) y su magnitud viene dada por Fn ( x( j 1) ) F ( x( j ) ) , o se puede dar justo en el punto x( j ) y su magnitud viene dada por
Fn ( x( j ) ) F ( x( j ) ) . Observar la grfica siguiente:

Apunte preparado por el profesor Sr. Rosamel Sez Espinoza con fines de docencia

F(x) Fn(x) (d) (c) (b) (a)

x0

x1

x2

Grfico: Ilustracin de la aplicacin del test KS. Del grfico, en el punto x1 la mxima discrepancia la alcanza en x0, distancia representada por (a) = Fn ( x0 ) F ( x1 ) , en cambio en el punto x2, la mxima discrepancia la alcanza en x2, distancia representada por (b) = Fn ( x2 ) F ( x2 ) . Una vez obtenidas todas las distancia obtenemos el estadstico de prueba como la mayor de todas las discrepancias.

Ejemplo 1: Verifique si la siguiente muestra Intervalos 0,00 - 0,20 0,20 - 0,40 0,40 - 0,60 0,60 - 0,80 0,80 - 1,00 ni 1 7 10 18 14 50

procede de una poblacin continua con funcin de distribucin F ( x) = x 2 para 0 x 1

Ejemplo 2: Contrastar si la muestra siguiente de duracin de vida puede suponerse exponencial: 16 8 10 12 10 20 7 2 24.

Apunte preparado por el profesor Sr. Rosamel Sez Espinoza con fines de docencia Ejercicios adicionales: 1) Una organizacin de seguridad vial desea determinar si el nmero de accidentes fatales se encuentra distribuido de igual forma para el color de los automviles involucrados. De una muestra aleatoria de 600 accidentes se obtuvieron los siguientes resultados. Color Auto N de accidentes Rojo 75 caf 125 amarillo 70 blanco 80 gris 135 azul 115

Existe alguna razn para creer que las proporciones de color no son idnticas?. 2) Los datos que se muestran a continuacin corresponden a un resumen en el nmero de clientes que visitaron la oficina de un profesional durante sus primeros 102 das de instalado. N de clientes N de das 0 40 1 36 2 16 3 7 4 2 5 1

Pruebe si el nmero de clientes por da sigue una distribucin de Poisson. 3) Si los autos llegan a un supermercado siguiendo un proceso de Poisson, el tiempo entre llegadas sucesivas es una variable aleatoria con distribucin exponencial. Se registraron las horas de llegada para todos los autos durante 2 horas y los tiempos entre llegadas (en minutos) se resumen a continuacin: Tiempo entre llegadas N de autos

1 40

12 20

23 15

>3 8

Pruebe si es cierto que el tiempo entre llegada tiene distribucin exponencial. 4) Determinar, usando el contraste KS si los siguientes valores siguen una distribucin normal: 6,0 2,3 4,8 5,6 4,5 3,4 3,3 1,9 4,8 4,5

Contraste de Normalidad: En el contraste de normalidad, adems de los dos ya estudiados, existen el contraste W de Shapiro y Wilks, el contraste de Kolmogorov-Smirnov- Lilliefors, el test Aderson Darling y el test Cramr Von Mises. Cuando la muestra contiene menos de 30 datos se puede aplicar el contraste de Shapiro y Wilks, en cambio para muestras de ms de 30 observaciones son ms adecuados los contrastes XhiCuadrado de Pearson y Kolmogorov-Smirnov- Lilliefors. El contraste de Shapiro y Wilks mide el ajuste de la muestra al dibujarla en papel probabilstico normal a una recta. El contraste de Kolmogorov-Smirnov- Lilliefors.(KSL), se aplica igual que el contraste de Kolmogorov-Smirnov, slo que usamos una tabla estadstica especialmente tabulada para esta prueba. El contraste de normalidad mediante el estadstico Chi-cuadrado de Pearson se aplica siguiendo las reglas antes establecidas. 6

Apunte preparado por el profesor Sr. Rosamel Sez Espinoza con fines de docencia No existe una regla que especfica cmo seleccionar las clases, sin embargo es recomendable tomar clases equiprobables en un nmero tal que la frecuencia terica de cada clase sea mayor que 3. A continuacin se proporciona una tabla con los percentiles en la distribucin normal para construir 8, 6, 5 y 4 clases equiprobables:
P( X x p ) xp

0,125 -1,15

0,1667 -0,97

0,20 -0,84

0,25 -0,68

0,3333 -0,43

0,375 -0,32

0,4 -0,26 96,7 117,2

Ejemplo: Comprobar si los datos siguientes provienen de una distribucin normal: 107.9 91,2 79,0 103,1 88,0 101,3 106,0 93,7 86,0 100,7 99,4 104,6 112,2 106,9 93,0 88,3 101,9 109,8.

Ejemplo 2: Las especificaciones para la produccin de tanques de aire utilizados en inmersin requieren que los tanques se llenen a una presin promedio de 600 libras por pulgada cuadrada (psi). Se permite una desviacin estndar de 10 psi. Las especificaciones de seguridad permiten una distribucin normal en los niveles de llenado, para comprobar esto se miden 1000 tanques, encontrando la siguiente distribucin para los datos: PSI 0 y por debajo de 580 580 y por debajo de 590 590 y por debajo de 600 600 y por debajo de 610 610 y por debajo de 620 620 y por encima Frecuencia 20 142 310 370 128 30

Contrastar que los niveles de llenado proceden de una distribucin normal con media 600 psi y desviacin estndar de 10 psi.

Apunte preparado por el profesor Sr. Rosamel Sez Espinoza con fines de docencia Prueba de independencia con Chi-cuadrado La prueba de bondad de ajuste involucra una sola variable o caracterstica. Sin embargo las pruebas Chi-cuadrado tambin puede ser usada para un proyecto de investigacin relacionado con dos caractersticas, por ejemplo nos gustara saber si un hombre liberado de una prisin se ajusta mejor a la vida civil si regresa a su ciudad natal o si va a vivir a otra parte. Para realizar el estudio debemos medir dos caractersticas; ajuste a la vida civil y lugar de residencia. Posteriormente mediante una prueba estadstica debemos observar si hay o no dependencia entre las variables medidas. Para entender esta prueba chi-cuadrado o prueba de independencia, supongamos que un grupo de psiclogos entrevistaron a 200 ex convictos seleccionados al azar. Utilizando una serie de preguntas, los psiclogos clasificaron el ajuste de cada individuo a la vida civil como excelente, bueno, regular o insatisfactorio. Una vez tabulada la informacin se present en la siguiente tabla de doble entrada o tabla de contingencias: Lugar de residencia Cuidad natal Otra Ciudad Ajuste a la vida civil Bueno Regular 35 33 15 27

Excelente 27 13

Insatisfactorio 25 25

Total

Existe relacin entre el ajuste a la vida civil y el lugar de residencia despus de la liberacin? Solucin: Para estudiar si existe o no relacin entre el ajuste a la vida civil y el lugar de residencia despus de la liberacin, vamos a realizar una prueba de independencia, en que la hiptesis nula y la alternativa estn dadas por: H0: No existe relacin entre el ajuste a la vida civil y el lugar de residencia despus de la liberacin. H1: Existe relacin entre el ajuste a la vida civil y el lugar de residencia despus de la liberacin. Estas hiptesis pueden tambin ser planteadas de la siguiente forma: H0: El ajuste a la vida civil y el lugar de residencia despus de la liberacin son independientes. H1: El ajuste a la vida civil y el lugar de residencia despus de la liberacin no son independientes. La medida de discrepancia es dada por: =
2 i =1 r c

(O

ij

Eij )

Eij donde r es el nmero de filas y j es el nmero de columnas. La frecuencia esperada Eij se obtiene de la siguiente forma: (Total fila i sima )(Total columna j sima ) Eij = Total de objetos observados Los grados de libertad para la prueba estadstica son (r-1)(c-1).

Los supuestos para la aplicacin de la prueba son: 1.- Los n valores observados son una muestra aleatoria de la poblacin de inters. As, podemos considerar que se trata de un experimento multinomial con r x c posibles resultados. 8

Apunte preparado por el profesor Sr. Rosamel Sez Espinoza con fines de docencia 2.- Para que la aproximacin 2 sea vlida, es necesario que las frecuencias esperadas sean por lo menos cinco en todas las celdas.

Ejercicio: Para un estudio acerca de la situacin de empleo que tienen las personas, se realiz una encuesta telefnica a 4000 individuos mayores de 18 aos, la que indic de las personas de ms de 18 aos, el 63% son empleados a tiempo completo, o en jornada parcial que no busca empleo a tiempo completo; el 10% son desempleados o estn empleados, pero buscan un trabajo a tiempo completo y el 27% estn desempleados pero no buscan trabajo. A continuacin se muestran la clasificacin de los datos de acuerdo con la edad y la situacin de empleo: Situacin de empleo Buscan No buscan 120 80 160 200 40 80 40 200 40 520 400 1080

Grupo de edad
Nuevos trabajadores (18-24) Generacin del Boon (25-44) Trabajadores con > sueldos (45-54)

Trabajadores veteranos (55-64) Jubilados (65 o ms) Total

Con empleo 360 1440 440 200 80 2520

Total 560 1800 560 440 640 4000

Presentan los datos evidencia suficiente para indicar que la situacin de empleo vara tomando en cuenta la edad del grupo?

Apunte preparado por el profesor Sr. Rosamel Sez Espinoza con fines de docencia
TABLA 7

Valores crticos del test de Kolmogorov-Smirnov para una muestra.


Tamao muestral n 1 2 3 4 5 6. 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 Nivel de significacin 0,2 0,90000 0,68377 0,56481 0,49265 0,44698 0,41037 0,38148 0,35831 0,33910 0,32260 0,30829 0,29577 0,28470 0,27481 0,26588 0,25778 0,25039 0,24360 0,23735 0,23156 0,22617 0,22115 0,21645 0,21205 0,20790 0,20399 0,20030 0,19680 0,19348 0,19032 0,18732 0,18445 0,18171 0,17909 0,17659 0,1 0,95000 0,77639 0,63604 0,56522 0,50945 0,46799 0,43607 0,40962 0,38746 0,36866 0,35242 0,33815 0,32549 0,31417 0,30397 0,29472 0,28627 0,27851 0,27136 0,26473 0,25858 0,25283 0,24746 0,24242 0,23768 0,23320 0,22898 0,22497 0,22117 0,21756 0,21412 0,21085 0,20771 0,20472 0,20185 0,05 0,97500 0,84189 0,70760 0,62394 0,56328 0,51926 0,48342 0,45427 0,43001 0,40925 0,39122 0,37543 0,36143 0,34890 0,33760 0,32733 0,31796 0,30936 0,30143 0,29408 0,28724 0,28087 0,27490 0,26931 0,26404 0,25907 0,25438 0,24993 0,24571 0,24170 0,23788 0,23424 0,13076 0,22743 0,22425 0,02 0,99000 0,90000 0,78456 0,68887 0,62718 0,57741 0,53844 0,50654 0,47960 0,45662 0,43670 0,41918 0,40362 0,38970 0,37713 0,36571 0,35528 0,34569 0,33685 0,32866 0,32104 0,31394 0,30728 0,30104 0,29516 0,28962 0,28438 0,27942 0,27471 0,27023 0,26596 0,26189 0,25801 0,25429 0,25073 0.,01 0,99500 0,92929 0,82900 0,73424 0,66853 0,61661 0,57581 0,54179 0,51332 0,48893 0,46770 0,44905 0,43247 0,41762 0,40420 0,39201 0,38086 0,37062 0,36117 0,35241 0,34427 0,33666 0,32954 0,32286 0,31657 0,31064 0,30502 0,29971 0,29466 0,28987 0,28530 0,28094 0,27677 0,27279 0,26897

10

Apunte preparado por el profesor Sr. Rosamel Sez Espinoza con fines de docencia
TABLA 7 (Continuacin)

Valores crticos del test de Kolmogorov-Smirnov para una muestra.


Tamao muestral n 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 Nivel de significacin 0,2 0,17418 0,17188 0,16966 0,16753 0,16547 0,16349 0,16158 0,15974 0,15796 0,15623 0,15457 0,15295 0,15139 0,14987 0,14840 0,14697 0,14558 0,14423 0,14292 0,14164 0,14040 0,13919 0,13801 0,13686 0,13573 0,13464 0,13357 0,13253 0,13151 0,13052 0,12954 0,12859 0,12766 0,12675 0,12586 0,1 0,19910 0,19646 0,19392 0,19148 0,18913 0,18687 0,18468 0,18257 0,18053 0,17856 0,17665 0,17481 0,17302 0,17128 0,16959 0,16796 0,16637 0,16483 0,16332 0,16186 0,16044 0,15906 0,15771 0,15639 0,15511 0,15385 0,15263 0,15144 0,15027 0,14913 0,14802 0,14693 0,14587 0,14483 0,14381 0,05 0,22119 0,21826 0,21544 0,21273 0,21012 0,20760 0,20517 0,20283 0,20056 0,19837 0,19625 0,19420 0,19221 0,19028 0,18841 0,18659 0,18482 0,18311 0,18144 0,17981 0,17823 0,17669 0,17519 0,17373 0,17231 0,17091 0,16956 0,16823 0,16693 0,16567 0,16443 0,16322 0,16204 0,16088 0,15975, 0,02 0,24732 0,24404 0,24089 0,23786 0,23494 0,23213 0,22941 0,22679 0,22426 0,22181 0,21944 0,21715 0,21493 0,21277 0,21068 0,20864 0,20667 0,20475 0,20289 0,20107 0,19930 0,19758 0,19590 0,19427 0,19267 0,19112 0,18960 0,18812 0,18667 0,18525 0,18387 0,18252 0,18119 0,17990 0,17863 0,01 0,26532 0,26180 0,25843 0,25518 0,25205 0,24904 0,24613 0,24332 0,24060 O,V798 0,23544 0,23298 0,23059 0,22828 0,22604 0,22386 0,22174 0,21968 0,21768 0,21574 0,21384 0,21199 0,21019 0,20844 0,20673 0,20506 0,20343 0,20184 0,20029 0,19877 0,19729 0,19584 0,19442 0,19303 0,19167

11

Anda mungkin juga menyukai