Anda di halaman 1dari 27

PRUEBAS BONDAD DE AJUSTE

ANDREA CHACN PORRAS


ANDREA DIAZ GUZMAN
SERGIO ANDRES PARRA

OLMEDO GONZALES HERRERA

UNIVERSIDAD INDUSTRIAL DE SANTANDER


FACULTAD DE INGENIERIAS FISICOMECNICAS
ESCUELA DE ESTUDIOS NDUSTRIALES Y EMPRESARIALES
BUCARAMANGA
SEPTIEMBRE 2015
PRUEBAS BONDAD DE AJUSTE

INTRODUCCION

En los sistemas reales regularmente nos encontramos con variables


cuyo comportamiento es aleatorio, y son susceptibles de ser
modeladas por variables de entrada de un modelo estocstico, ests
variables requieren de un tratamiento estadstico para su generacin
de manera artificial, el cual se realiza usualmente por medio de un
modelo terico de distribucin de probabilidad, es as como las
pruebas de bondad de ajuste es una buena herramienta para
determinar el comportamiento de un conjunto de datos.
En muchas ocasiones cuando se est simulando un sistema, las
variable son controlables del modelo son estocsticas, las variables de
entradas las cuales tienen un comportamiento aleatorio son
muestreadas con el objetivo de tener un conjunto de datos sobre dicha
variable aleatoria y encontrar el modelo de distribucin de probabilidad
que pueda representar las serie de datos productos de la muestra. En
otras palabras lo que se desea es probar la hiptesis que un modelo
de probabilidad terico.
La prueba de bondad corresponde a los casos en los cuales es
imposible establecer la forma de distribucin poblacional o cuando los
datos se encuentren en escala nominal u ordinal, es decir, que pueden
ordenarse por rangos o categoras, se hace indispensable la
aplicacin de mtodos no paramtricos, de distribucin libre; el
mtodo no paramtrico ms usado es la Prueba Chi o Ji cuadrado,
otro mtodo utilizado es Kolmogor-smirnov.
Debe tenerse en cuanta que cuando a una serie de datos se la aplica
cualquiera de las pruebas de bondad y se encuentra que ningn
modelo terico se puede ajustas a la serie de datos, se trabaja
entonces con el modelo emprico (que no es modelo estndar
conocido).
PRUEBA DE BONDAD DE AJUSTE DE PRUEBA CHI CUADRADO

El problema de bondad de ajuste consiste en determinar a partir de un conjunto de


datos mustrales si estos son consistentes con una distribucin de Probabilidad
terica. Esta prueba es realizada en todos aquellos casos, en los cuales el
anlisis de los datos est basado en el conteo.

PLANTEAMIENTO

Partiendo de una muestra de n valores observados x1 , x2 ,..., xn de una


variable aleatoria X con distribucin supuesta F ( x ) , se plantea el
siguiente contraste de hiptesis:

Ho : X presenta F (x)

H1 : X sigue otra distribucin

Consideremos una variable aleatoria X, y una muestra aleatoria de tamao


n de la distribucin de dicha variable agrupada en k clases exhaustivas y
mutuamente excluyentes.

Sea ni , i = 1, 2,...., k, la frecuencia absoluta de la i- sima clase.

Supongamos una cierta distribucin terica para X cuyos parmetros


poblacionales los estimamos a partir de los datos muestrales.

Si denotamos por pi la probabilidad asociada a la clase i , los valores n pi


sern los valores esperados asociados a cada clase i .Si algn valor
esperado es menor que 5, dicha clase se agrupar con otras
contiguas, de manera que en todas ellas dichos valores sean mayores
o iguales a 5, reducindose el nmero de clases.
DEFINICIN

Definicin de 2 Una medida de la discrepancia existente entre las


frecuencias observadas y esperadas es suministrada por el estadstico X2,
dado por:

Entre mayor sea el valor de 2 ms fuerte es la evidencia en contra de Ho.


La distribucin 2 tiene k p-1 grados de libertad.

PRUEBA DE BONDAD, DISTRIBUCIONES DISCRETAS (POISSON)

Pasos a seguir

1. Establecer las hiptesis nula y alternativa. Definir variable inters

Ho: La poblacin tiene una distribucin de Poisson

Ha: La poblacin no tiene una distribucin de Poisson

2. Seleccionar una muestra aleatoria. Para cada valor de la variable aleatoria


de Poisson anotar la frecuencia observada Oi y calcular el nmero
promedio de las ocurrencias
3. Calcular para cada valor de la variable aleatoria de poisson, la frecuencia
esperada ei de ocurrencias. (Valor esperado)

4. Calcular el valor del estadstico de prueba

Donde:

Oi es la frecuencia observada

ei es la frecuencia esperada

5. Regla de decisin:

Mtodo del valor crtico: Rechazar Ho si ; k p -1

Donde:

K: cantidad de clases

P: parmetros a estimar

Mtodo del valor p: Rechazar Ho si el valorp

PRUEBA DE BONDAD, DISTRIBUCION NORMAL

Pasos a seguir
1. Establecer las hiptesis nula y alternativa.

Ho: La poblacin tiene una distribucin normal

Ha: La poblacin no tiene una distribucin normal

2. Seleccionar una muestra aleatoria. Y

(a) Calcular la media muestral y desviacin estndar muestral


(b) Definir intervalos de valores de manera que la frecuencia esperada en
cada intervalo sea por lo menos 5. Se usan intervalos de igual
probabilidad.
(c) En cada uno de los intervalos definidos anotar la frecuencia observada

Oi en los datos.

3. Calcular el nmero esperado de ocurrencias ei en cada uno de los


intervalos de valores definidos en el paso 2b. Multiplicar el tamao de la
muestra por la probabilidad de que una variable aleatoria normal pertenece
al intervalo.

4. Calcular el valor del estadstico de prueba

( o
km
e ) 2
2 i i
i 1 ei
Donde: Oi es la frecuencia observada y ei es la frecuencia esperada.

5. Regla de decisin :

Metodo del valor crtico: Rechazar Ho si ; k p -1

Donde

k: cantidad de clases
p: parmetros a estimar

Metodo del valor p: Rechazar Ho si el valorp

PRUEBA DE BONDAD, BINOMIAL

1. Establecer la hiptesis nula y alternativa. Definir variables de inters


Ho: la poblacin tiene una distribucin binomial.
Ha: la poblacin NO tiene una distribucin binomial.
2. Establecer la estadstica de prueba
k 2
( F oFE)
X =
2

i FE

3. Definir el nivel de significancia y la zona de rechazo


4. Regla de decisin
5. Calculo el estadstico de prueba
f ( x )=P ( x )= n p x (1 p)nx
() x
6. Conclusiones.

PRUEBA DE BONDAD DE AJUSTE DE KOLMOGOROV SMIRNOV

Es aplicable solamente a variables aleatorias continuas.

- Comparar la grfica de la distribucin emprica acumulada con la


correspondiente grfica de la funcin de densidad acumulada de la distribucin
terica propuesta.

-Si hay un acercamiento entre las grficas existe una probabilidad de que la
distribucin terica se ajusta a los datos.

El hecho de que utiliza la distribucin de probabilidad acumulada la hace un poco


ms eficiente que la prueba anterior La metodologa de la prueba es la siguiente:
1. Se colocan los n datos histricos en una tabla de frecuencias con m= n
intervalos o utilizando la frmula de Struges:

K=1+3.3log n; donde n es el nmero de datos de la muestra.

1.1 Encuentre la amplitud del intervalo de clase por medio de la siguiente relacin

1.2 Para cada intervalo se tendr la frecuencia observada i (FOi). Se calcula la


media y la varianza de los datos

2. Se encuentra la probabilidad observada (POi), dividiendo la frecuencia


observada de cada intervalo por el nmero total de datos.
3. Se calcula la probabilidad acumulada observada de cada intervalo (PAOi)
del paso 2.
4. Se propone una distribucin de probabilidad de acuerdo con la forma de
tabla de frecuencia obtenida en 1. O con la grfica de los datos.
5. Con la funcin acumulada de la distribucin propuesta, se calcula la
probabilidad esperada acumulada para cada intervalo (PEAi) mediante la
integracin de la distribucin propuesta.
6. Se calcula la probabilidad acumulada (PAEi) para cada intervalo de clase.
7. Se calcula el valor absoluto entre la diferencia de PAO y PAE para cada
intervalo y se selecciona la mxima diferencia, llamndola MD.
8. El estimador MD se comporta con un valor lmite correspondiente a la (tabla
que contiene los valores crticos de kolmogorov-Smirnov). Con n datos y a
un nivel de confianza de 1. Si el estimador MD es menor o igual al valor
lmite de la tabla, entonces se acepta ha hiptesis de que la informacin
histrica sigue la distribucin propuesta.
EJERCICIOS DE APLICACIN

EJERCICIOS DE APLICACIN CHI- CUADRADO

1. Distribucin poisson. Se propone que el nmero de defectos en las


tarjetas de circuito impreso sigue una distribucin Poisson. Se rene una
muestra aleatoria de 60 tarjetas de circuito impreso y se observa el nmero
de defectos. Los resultados obtenidos son los siguientes:

Numero de Frecuencia
defectos observada
0 32
1 15
2 9
3 o mas 4

Muestran estos datos suficiente evidencia para decir que provienen de una
distribucin Poisson? Haga la prueba de la bondad del ajuste con un =
0.05.

Solucin:

Ho; La forma de la distribucin de los defectos es Poisson.

Ha; La forma de la distribucin de los defectos no es Poisson.


La media de la distribucin Poisson propuesta en este ejemplo es desconocida y
debe estimarse a partir de los datos contenidos en la muestra.

A partir de la distribucin Poisson con parmetro 0.75, pueden calcularse las


probabilidades asociadas con el valor de x. Esto es la frmula de la Poisson es:

Con esta frmula se calculan las probabilidades, mismas que se multiplican por 60
para obtener los valores esperados.

Numero de Probabilida Frecuencia Frecuencia


defectos d esperada observada

0 0.472 28.32 32

1 0.354 21.24 15

2 0.133 7.98 9

3 o mas 0.041 2.46 4

Puesto que la frecuencia esperada en la ltima celda es menor que 5, se


combinan las dos ltimas celdas

Nmeros de Frecuencia Frecuencia


defectos esperada observada
0 28.32 32

1 21.24 15

2 o mas 10.44 13

Los grados de libertad seran 3-1-1=1, debido a que la media de la distribucin


Poisson fue estimada a partir de los datos.

Regla de decisin:

Si X2R 3.84 no se rechaza Ho.

Si X2R >3.84 se rechaza Ho.

Clculos:
Interpretacion: Como el 2.94 no es mayor a 3.84, no se rechaza H 0 y se
concluye con un = 0.05 que la distribucin de defectos en las tarjetas de
circuito impreso es Poisson

2. Distribucion normal. Pruebe la hiptesis de que la distribucin de


frecuencia de las duraciones de bateras dadas en la siguiente tabla, se
puede aproximar mediante una distribucin normal con media = 3.5 y

desviacin estndar =0.7. Utilice un =0.005

LIMITES DE FRECUENCIAS
CLASE OBSERVADAS

1.45-1.95 2

1.95-2.45 1

2.45-2.95 4

2.95-3.45 15

3.45-3.95 10

3.95-4.45 5

4.45-4.95 3

Solucin:

Se procede a elaborar el histograma, para visualizar los datos:


En el histograma podemos observar que aparentemente tiende a ser normal;se
probara esta hiptesis?

Ho: Los datos previenen de una distribucin normal.

Ha: los datos no provienen de una distribucin normal.

En este ejercicio en particular se cuenta con la media y desviacin estndar de la


poblacin.

Se proceder a calcular los valores de z para encontrar las probabilidades en la

tabla. Recordando que , se sustituye el valor de x por los lmites de clase


comenzando con el lmite de 1.95.
Limite Real P(x)

1.95 -2.21 P(x 1.95) = 0.01355

2.45 -1.50 P(x 2.45) = 0.06680

2.95 -0.79 P(x 2.95) = 0.21476

3.45 -0.07 P(x 3.45) = 0.47210

3.95 -0.64 P(x3.95) = 0.26109

4.45 1.36 P(x4.45) = 0.08691

La razn por la cual se comienza con el lmite de 1.95 y se termina con el lmite de
4.45, es porque la suma de todas las probabilidades debe ser 1, bajo la curva
normal.

A continuacin se muestra la curva normal con sus respectivas probabilidades,


segn los limites reales. Las probabilidades que no se muestran en la tabla
anterior y estn en la curva se calcularon por diferencias.
P(1.95 x 2.45) = 0.0668-0.013553 = 0.053254

P(2.45 x 2.95) = 0.21476-0.0668 = 0.147953

P(2.95 x 3.45) = 0.4721-0.21476 = 0.25734

P(3.45 x 3.50) = 0.50-0.4721 = 0.0279

P(3.50 x 3.95) = 0.50-0.26109= 0.23891

P(3.95 x 4.45) = 0.26109-0.086915 = 0.17417

Con estas probabilidades se calcularn los valores esperados, multiplicando cada


probabilidad por 40.

Lmites de Frecuencia Probabilida Frecuencia


clase s d esperada
observadas

1.45-1.95 2 0.01355 0.54212

1.95-2.45 71 0.05325 2.13016


2.45-2.95 4 0.14795 5.91812

2.95-3.45 15 0.25734 10.29360

3.45-3.95 10 0.26681 10.67240

3.95-4.45 85 0.17417 6.96680

4.45-4.95 3 0.08691 3.47660

Grados de libertad: k-1-m = 4-1-0 = 3

Regla de decisin:

Si X2R 7.815 no se rechaza Ho.

Si X2R >7.815 se rechaza Ho.

Clculos:
Interpretacin:

Como el 3.06 no es mayor de 7.815, no se rechaza H 0 y se concluye con un =


0.05 que el ajuste de los datos a una distribucin normal es bueno.

3. Binomial. Si un ingeniero de control de calidad toma una muestra de 10


neumticos que salen de una lnea de ensamblaje y l desea verificar sobre
la base de los datos que siguen, los nmeros de llantas con defectos
observadas en 200 das, si es cierto que el 5% de todos los neumticos
tienen defecto; es decir, si el muestrea una poblacin binomial con n = 10 y
p = 0.05
Establecer la hiptesis
Ho: La poblacin es binomial
Ha: La poblacin no es binomial Establecer la estadstica de prueba
Establecer la estadstica de prueba
. Definir el nivel de significancia y la zona de rechazo

g,l=k-m-
Nivel de significancia = 0.05 1=2
2 2
Zona de rechazo = x /x 5.99
m = 0 porque no se necesit estimar ningn parmetro

Clculos estadsticos de prueba


Para poder calcular las frecuencias esperada tenemos que calcular las
probabilidades; utilizaremos la frmula de la binomial
f ( x )=P ( x )= n p x (1 p)nx
() x
Donde n=10 p=0.05
f ( 0 )=P ( 0 )= 10 0.051 (10.05)100
( )
0

f ( 1 )=P ( 1 )=( 10 ) 0.05 (10.05)


1 101

1
Y la probabilidad de 2 o ms= 1.0-0.05999-0.086
Ahora ya podemos encontrar las frecuencias esperadas:
200(0.0599)=119.8 2000(0.315)=63 200(0.086)=17.2

Nmero de unidades con Numero de muestras Valor esperado


defecto observadas

0 138 119,8

1 53 63

2 o mas 9 17,2

Total 200 200

Al aplicar la formula se tiene:


2 2 2
2 (138119.8) (5363.0) ( 917.2)
X= + + =8.26
119.8 63 17.2

Como 8.26 es mayor que 5.99, se rechaza la hiptesis nula con un nivel de
significancia de 0.05.

Conclusin
Se concluye que el porcentaje verdadero de neumticos con defecto no es
el 5%

EJERCICIOS DE APLICACIN KOLMOGOROV SMIRNOV

1. Distribucin de probabilidad uniforme.

Un muestreo realizado sobre la demanda de televisores en un almacn del centro


de Medelln durante 40 dias tiene el siguiente comportamiento.
1. Hallamos el rango R = X max X min
R = 13 1 = 12
k =1+ 3.3 log41
2. Encontramos e valor de k=6.3 y se aproxima a 6
Luego k=6
3. Hallar la amplitud

4. El lmite inferior es 1 y al superior se le suma la amplitud y as


sucesivamente, como se nota en la tabla de frecuencias
5. Luego se completa la tabla de frecuencias.
6. Se quiere proponer la hiptesis que los datos en estudio siguen una
distribucin uniforme de lo cual procedemos de la siguiente manera: a.
Integramos la funcin de densidad de la distribucin uniforme.

La funcin de densidad de una variable aleatoria uniforme es:

La funcin de distribucin acumulada se encuentra integrando f(x) de la siguiente


manera:
Con esta frmula se encuentra la POA (probabilidad observada acumulada) para
cada intervalo.

Para el primer intervalo POA=

Para el segundo intervalo POA=

Y asi sucesivamente.
LS= limite superior de cada intervalo

Podemos observar que la mxima diferencia de la columna lPOA PEAl es 0.025


La cual al ser comparada con la tabla de los valores crticos de kolmogorov
Smirnov el cual es d (40%,5) = 0.2150, con la cual se cumple la hiptesis, luego
no se rechaza la hiptesis que este conjunto de datos se pueden modelar por
medio de una distribucin uniforme entre 1 y 13 televisores demandados por das
A un nivel de confianza de del 95%.

Luego que se ha encontrado que los datos se pueden modelar por una distribucin
uniforme se busca entonces generar variables aleatorias uniformes como entradas
estocsticas para un modelo de simulacin a travs la formula.
Para estimar los parmetros a y b utilizamos los mtodos de los momentos en
base a los datos histricos. Como se tienen dos momentos se deben usar los dos
primeros de la media y la varianza.

2
Es decir, igualamos la media y la varianza de la poblacin ( y ) a la media de

2
la muestra X y s .

a+b
Se sabe que la media para una distribucin uniforme = = y que la
2
2
2 (ba) 2
varianza es = =s . Despejando a y b de las dos expresiones
2
anteriores:
De la primera ecuacin despejamo b, b = 2 a

De la segunda despejamos b,

Ahora igualamos las dos ecuaciones:


En resumen las ecuaciones para estimar a y b requieren que se estime la media y
las varianzas de la muestra:

2. Distribucin de probabilidad exponencial

Un muestreo realizado sobre la demanda de caf en el eje cafetero a travs del


tiempo, medida por cargas es

1. Hallamos el rango R = X max X min

2. Encontramos el valor de

3. Hallar la amplitud.
La Dm=0,030208 se compara con d (50%,5) =0.2150 lo cual indica que los datos
de caf en el eje cafetero siguen una distribucin exponencial con media de =6
toneladas/das. Es decir,

Demanda Exp ( =6) toneladas/dias.

Recordemos que el parmetro que define la distribucin de probabilidad


exponencial es la media la cual se encuentra cuando los datos estn agrupados
de la siguiente manera:

Agrupados de la siguiente manera:


Con esta frmula se puede comprobar que x =6 y se puede demostrar por el

estimador de mxima verosimilitud de es la media muestral x , es decir =

Luego =6

Recurdese que al integrar la funcin de densidad exponencial.


3. Distribucin de probabilidad normal.

Un almacn encuentra que el tiempo de entrega de los pedidos por parte de su


proveedor es aleatorio, el proveedor alega que siempre entrega su mercanca en 7
das o menos. La evitar el debate el gerente del almacn hizo un muestreo de las
ltimas entregas y obtuvo la siguiente informacin: Demuestre a partir de la
prueba de bondad so los datos se pueden modelar a partir de una distribucin de
probabilidad normal. Hallamos la media y la varianza mustrales aplicando las
frmulas para datos agrupados utilizados en el ejercicio anterior (inciso 2-
distribucion de probabilidad exponencial).

x =84 y S=3

Li Ls Mc Fo FOA POA Z PEA |POAPEA|


0 1 0,5 0 0 0 -2,5 0,0063 0,00637181
7
2 3 2,5 2 2 0,04 -1,8 0,0343 0,00135306
6
4 5 4,5 8 10 0,18 -1,1 0,1251 0,05342231
5
6 7 6,5 12 22 0,39 -0,5 0,3159 0,07689158
7
8 9 8,5 20 42 0,75 0,19 0,5759 0,17402612
7
10 11 10,5 10 52 0,93 0,86 0,8057 0,12285495
2
12 13 19,5 3 55 0,98 1,53 0,9373 0,04480127
4
14 15 19,5 1 56 1 2,2 0,9862 0,01378158
2
16 17 19,5 0 56 1 2,87 0,9979 0,00202614
7

BIBLIOGRAFIA:

Citado el 28 de septiembre de 2015, disponible en


<https://carlosmarquez.files.wordpress.com/2012/02/prueba-de-bondad-de-
ajuste.pdf>.
Citado el 28 de septiembre de 2015, disponible en
<http://www.itch.edu.mx/academic/industrial/estadistica1/toc.html>.
. Martha Cecilia Durn Len, Pruebas Bondad de Ajuste.

Anda mungkin juga menyukai