Anda di halaman 1dari 9

Pruebas de la bondad de ajuste.

En la construccin del modelo de simulacin es importante decidir si un


conjunto de datos se ajusta apropiadamente a una distribucin especfica de
probabilidad. Al probar la bondad del ajuste de un conjunto de datos, se
comparan las frecuencias observadas FO realmente en cada categora o
intervalo de clase con las frecuencias esperadas tericamente FE.
Prueba Ji cuadrada

La prueba Ji cuadrada hace uso de la distribucin del mismo nombre para


probar la bondad del ajuste al comparar el estadstico de prueba Xo 2 con el
valor en tablas de la mencionada distribucin Ji cuadrada con v grados de
libertad y un nivel de significancia alfa. En la siguiente seccin aplicaremos
esta prueba para probar la hiptesis nula de que los nmeros aleatorios
(provenientes de un generador) se ajustan a la distribucin terica uniforme
continua.

Sea X una variable aleatoria discreta con valores x1, x2,......., xn Se propone la
hiptesis nula H0, de que la distribucin de donde proviene la muestra se
comporta segn un modelo terico especfico tal como la uniforme, la
exponencial, la normal, etc. Entonces FOi, representa el nmero de veces que
ocurre el valor xi mientras que FEi, es la frecuencia esperada proporcionada
por el modelo terico propuesto. A menudo ocurre que muchas de las
frecuencias FEi, (y tambin las FOi) son muy pequeas, entonces, como regla
prctica adoptamos el criterio de agrupar los valores consecutivos de estas
frecuencias esperadas hasta que su suma sea de al menos cinco. La medida
estadstica de prueba para la hiptesis nula es

Para n grande este estadstico de prueba tiene una distribucin X2 aproximada


con V grados de libertad dados por
V = (k 1) (nmero de parmetros estimados)
as, si se estiman dos parmetros como la media y la varianza, la medida
estadstica tendr (k 3) grados de libertad.
Se puede aplicar esta prueba a variables continuas agrupando adecuadamente
los valores en un nmero adecuado de subintervalos o clases k. Una regla
emprica para seleccionar el nmero de clases es:

EJEMPLO.
31

39

45

49

41

28

62

31

28

40

40

19

24

41

36

40

48

64

49

22

37

39

28

43

41

27

32

44

60

20

48

37

18

38

33

42

25

55

51

45

36

26

58

34

41

43

50

36

39

21

42

28

49

31

26

43

61

35

43

26

30

25

52

33

41

21

34

37

34

54

29

35

33

18

51

24

41

16

21

73

35

43

36

42

44

52

56

39

36

26

68

40

20

31

48

26

42

26

36

26

media =
des. Estandar=

37,82
11,82992268

Pruebe la hiptesis de que la distribucin de frecuencia de las duraciones de


bateras dadas en la siguiente tabla, se puede aproximar mediante una
distribucin normal . Utilice un
= 0.05.
Solucin:

Claes
16---21
22---27
28---33
34---39
40---45
46---51
52---57
58---63
64---69
70---75

frec.
frecuencias acumul
frec relat.
rec. Acu- rel %Frec Rel
9
9
0,09
0,09
9
13
22
0,13
0,22
13
14
36
0,14
0,36
14
20
56
0,2
0,56
20
23
79
0,23
0,79
23
10
89
0,1
0,89
10
5
94
0,05
0,94
5
4
98
0,04
0,98
4
1
99
0,01
0,99
1
1
100
0,01
1
1
100
1
100

Se procede a elaborar el histograma, para visualizar los datos:

frecuencias
25
20
15
10

frecuencias

5
0

Como se puede observar el histograma tiene una forma que aparenta ser
normal, se probar esta hiptesis.
H0; Los datos provienen de una distribucin normal.
H1; Los datos no provienen de una distribucin normal.
En este ejercicio en particular se cuenta con la media y desviacin estndar de la
poblacin, por lo que no se tiene que estimar. En caso de que no se tuviera, se
estimaran a partir de los datos agrupados con las frmulas que se vieron en la Unidad
III del curso de probabilidad y estadstica, tomando en cuenta que para los grados de
libertad el valor de m sera 2, ya que se estimara la media y la desviacin estndar.
Se proceder a calcular los valores de z para encontrar las probabilidades en la tabla.

Recordando que
, se sustituye el valor de x por los lmites de clase
comenzando con el lmite de 1.95

Lmite real

P(x)

1.95

-2.21

P(x

1.95) = 0.01355

2.45

-1.50

P(x

2.45) = 0.06680

2.95

-0.79

P(x

2.95) = 0.21476

3.45

-0.07

P(x

3.45) = 0.47210

3.95

0.64

P(x

3.95) = 0.26109

4.45

1.36

P(x

4.45) = 0.08691

La razn por la cual se comienza con el lmite de 1.95 y se termina con el lmite
de 4.45, es porque la suma de todas las probabilidades debe ser 1, bajo la
curva normal.
A continuacin se muestra la curva normal con sus respectivas probabilidades,
segn los limites reales. Las probabilidades que no se muestran en la tabla
anterior y estn en la curva se calcularon por diferencias.

P(1.95

2.45) = 0.0668-0.013553 = 0.053254

P(2.45

2.95) = 0.21476-0.0668 = 0.147953

P(2.95

3.45) = 0.4721-0.21476 = 0.25734

P(3.45

3.50) = 0.50-0.4721 = 0.0279

P(3.50

3.95) = 0.50-0.26109= 0.23891

P(3.95

4.45) = 0.26109-0.086915 = 0.17417

Con estas probabilidades se calcularn los valores esperados, multiplicando cada


probabilidad por 40.
Lmites de
clase

Frecuencias
observadas

Probabilidad

Frecuencia
esperada

1.45 1.95

0.01355

0.54212

1.95 2.45

71

0.05325

2.13016

2.45 2.95

0.14795

5.91812

2.95 3.45

15

0.25734

10.29360

3.45 3.95

10

0.26681

10.67240

0.17417

6.96680

0.08691

3.47660

3.95 4.45

85

4.45 4.95

Grados de libertad: k-1-m = 4-1-0 = 3

Regla de decisin:
Si X2R

7.815 no se rechaza Ho.

Si X2R >7.815 se rechaza Ho.


Clculos:

Justificacin y decisin:
Como el 3.06 no es mayor de 7.815, no se rechaza H0 y se concluye con un
= 0.05 que el ajuste de los datos a una distribucin normal es bueno.

Prueba de Kolmogorov - Smirnov

Otra prueba para la bondad de ajuste se apoya en la distribucin de


Kolmogorov Smirnov la que al ser desarrollada para variables continuas la
hace ms poderosa por ejemplo, en el caso de los nmeros aleatorios, que la Ji
cuadrada. Por esta razn, en esta seccin la presentamos para un caso distinto
al de la distribucin continua.
Definamos la siguiente funcin de distribucin emprica. Supngase que Y es
una variable aleatoria continua que tiene una funcin de distribucin F(y). Una
muestra aleatoria de n realizaciones de Y produce las observaciones y1, y2, ...,
yn. Reordenemos esos valores observados de menor a mayor, y las yi
ordenadas se representan mediante y(1) y(2) ..., y(n). Es decir, si y1 = 7, y2 = 9 y y3
= 3, entonces y(1) = 3, y(2) = 7 y y(3) = 9. Ahora bien, la funcin de distribucin
acumulada emprica esta definida por:

F n(y) = fraccin de la muestra menor o igual a y


Supngase que se toma una variable aleatoria continua Y, bajo la hiptesis
nula, que tiene una funcin de distribucin representada por F (y). La hiptesis
alterna es que F (y) no es la funcin verdadera de distribucin de es la funcin
verdadera de distribucin de Y. Despus de observar una muestra aleatoria de
n valores de Y, F (y) debe estar cerca de F n(y) siempre y cuando sea
verdadera la hiptesis nula. Por lo tanto, la medida estadstica debe apreciar la
cercana de F(y) a Fn(y) en todo el intervalo de valores de y.
La medida estadstica D de K-S se basa en la distancia mxima entre F(y) y
Fn(y), es decir,
D = mx F(y) - Fn(y)
Se rechaza la hiptesis nula si D es demasiado grande.
Como F(y) y Fn(y) no son decrecientes y Fn(y) es constante entre
observaciones de muestra, la desviacin mxima entre F(y) y Fn(y), se
presentar ya sea en uno de los puntos de observacin y1 , ... yn , o
inmediatamente a la izquierda de uno de ellos. Para determinar el valor
observado de D, se necesita entonces comprobar tan slo

D+ = mx
y

D- = mx

Ya que
D = mx (D+ , D-)
Si en H0 se supone la forma de F (y), pero se deja sin especificar algunos de
los parmetros, entonces stos se deben estimar a parir de los datos de la
muestra antes de poder llevar a cabo la prueba.
Stephens (1974) dio valores de corte de reas superiores de 0.15, 0.10, 0.05,
0.025 y 0.01 para una forma modificada de la tabla K S para D (presentada
en el apndice de este libro), los cuales se muestran en la siguiente tabla para
tres casos. Estos casos son para la hiptesis nula de una F(y) completamente
especificada, una F(y) normal con promedio y variancia desconocidos, y una
F(y) exponencial con promedio desconocido.
TABLA DE KOLMOGOROV SMIRNOV DE STEPHENS. Puntos porcentuales
del extremo superior para D modificada

EJEMPLO. Considrese que las 50 observaciones siguientes son una muestra


aleatoria de una distribucin continua. Probar la hiptesis de que esos datos
provienen de una distribucin exponencial con promedio 2, en el nivel de
significacin 0.05.
8.223
2.230
2.920
0.761
1.064

0.836
3.810
0.968
4.490
0.186

2.634
1.624
0.333
1.514
2.782

4.778
1.507
4.025
1.064
3.246

0.406
2.343
0.538
5.088
5.587

0.517
1.458
0.234
1.401
0.685

2.330
0.774
3.323
0.294
1.725

2.563
0.023
3.334
3.491
1.267

0.511
0.225
2.325
2.921
1.702

6.426
3.214
7.514
0.334
1.849

Solucin. Se ordenan las 50 observaciones ascendentemente y entonces se


calcula, para cada y(i), el valor de F(yi), donde H0 establece que F (y) es
exponencial
con
teta=2.
por
tanto,
F(yi) = 1 - e-yi/2
Registraremos los datos ordenados as como los clculos en la siguiente

TABLA
I

y(i)

F(yi)

i/n

(i 1)/n

i/n - F(yi)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41

0
0,186
0,225
0,234
0,294
0,333
0,334
0,406
0,511
0,517
0,538
0,685
0,761
0,774
0,836
0,968
1,064
1,064
1,267
1,401
1,458
1,507
1,514
1,624
1,702
1,725
1,849
2,23
2,325
2,33
2,343
2,563
2,634
2,782
2,92
2,921
3,214
3,246
3,323
3,334
3,491

0,01143413
0,0888065
0,10640265
0,11041481
0,13670602
0,15337718
0,15380039
0,18372176
0,22547086
0,22779097
0,23585674
0,29000688
0,31648044
0,32090891
0,34163777
0,3836868
0,41257106
0,41257106
0,46926901
0,50366293
0,51760886
0,52928384
0,53092847
0,55603076
0,57301227
0,5778945
0,60327027
0,67208472
0,68729656
0,68807734
0,69009826
0,72237944
0,73206209
0,75117365
0,76776373
0,76787981
0,79951182
0,80269411
0,81014601
0,81118735
0,82544231

0,02
0,04
0,06
0,08
0,1
0,12
0,14
0,16
0,18
0,2
0,22
0,24
0,26
0,28
0,3
0,32
0,34
0,36
0,38
0,4
0,42
0,44
0,46
0,48
0,5
0,52
0,54
0,56
0,58
0,6
0,62
0,64
0,66
0,68
0,7
0,72
0,74
0,76
0,78
0,8
0,82

0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0,16
0,18
0,2
0,22
0,24
0,26
0,28
0,3
0,32
0,34
0,36
0,38
0,4
0,42
0,44
0,46
0,48
0,5
0,52
0,54
0,56
0,58
0,6
0,62
0,64
0,66
0,68
0,7
0,72
0,74
0,76
0,78
0,8

0,00856587
-0,0488065
-0,04640265
-0,03041481
-0,03670602
-0,03337718
-0,01380039
-0,02372176
-0,04547086
-0,02779097
-0,01585674
-0,05000688
-0,05648044
-0,04090891
-0,04163777
-0,0636868
-0,07257106
-0,05257106
-0,08926901
-0,10366293
-0,09760886
-0,08928384
-0,07092847
-0,07603076
-0,07301227
-0,0578945
-0,06327027
-0,11208472
-0,10729656
-0,08807734
-0,07009826
-0,08237944
-0,07206209
-0,07117365
-0,06776373
-0,04787981
-0,05951182
-0,04269411
-0,03014601
-0,01118735
-0,00544231

F(yi) - (i
1)/n
0,01143413
0,0688065
0,06640265
0,05041481
0,05670602
0,05337718
0,03380039
0,04372176
0,06547086
0,04779097
0,03585674
0,07000688
0,07648044
0,06090891
0,06163777
0,0836868
0,09257106
0,07257106
0,10926901
0,12366293
0,11760886
0,10928384
0,09092847
0,09603076
0,09301227
0,0778945
0,08327027
0,13208472
0,12729656
0,10807734
0,09009826
0,10237944
0,09206209
0,09117365
0,08776373
0,06787981
0,07951182
0,06269411
0,05014601
0,03118735
0,02544231

42
43
44
45
46
47
48
49
50

3,81
4,025
4,49
4,778
5,088
5,587
6,426
7,514
8,223

0,85117736
0,86634588
0,89407246
0,90827864
0,92144844
0,93879338
0,95976428
0,9766463
0,98361682

0,84
0,86
0,88
0,9
0,92
0,94
0,96
0,98
1

0,82
0,84
0,86
0,88
0,9
0,92
0,94
0,96
0,98

-0,01117736
-0,00634588
-0,01407246
-0,00827864
-0,00144844
0,00120662
0,00023572
0,0033537
0,01638318

0,03117736
0,02634588
0,03407246
0,02827864
0,02144844
0,01879338
0,01976428
0,0166463
0,00361682

D+ es el valor mximo en la columna 6 y D- el mximo en la columna 7.


Entonces D + = 0.0886 y D = 0.13208472, lo cual da D = 0.3208472. Para
determinar el valor crtico a partir de la tabla K - S, se necesita calcular

(D)( +0,12+0,11/ )= (0,3208472)(7,20662416)=2,31

En el nivel de significacin alfa = 0.05, el valor de D calculado es mayor que el


valor del valor de D modificado. Por lo tanto, se rechaza la hiptesis nula.

Anda mungkin juga menyukai