Anda di halaman 1dari 11

1

Prctica de AJUSTE DE DISTRIBUCIONES II


(ajuste de datos)

1. Objetivos de la prctica
En esta prctica vamos a ajustar modelos de distribucin a datos reales. Un
vez que hayamos hecho esto, podremos utilizar las propiedades de la funcin
de densidad o distribucin para calcular probabilidades.

2. Datos
Para esta prctica se utilizarn los datos Datosajuste.sf3
El aspecto del fichero de datos es:

Se proporcionan cuatro variables:

Peso: Peso en kg. de 117 estudiantes de ingeniera.


Alturas: Altura en cm. de 60 personas
Espera: Tiempo de espera al llegar a una parada de autobs en hora
punta.
Beneficios: Beneficios antes de impuestos de 130 sucursales de una
entidad bancaria. (En pesetas. 1 pta=166,67 Euros)

3. Ajuste de distribuciones
Vamos a realizar el anlisis para la variable PESO. Para ello seleccionamos
las opciones: DESCRIBE-DISTRIBUTIONS-DISTRIBUTION FITTING (UN-
CENSORED DATA)
2

Y seleccionamos la variable PESO

Se obtiene el siguiente resultado:


3

Parmetros de
la distribucin

Icono de
Tabular grficos
options

Los parmetros de la distribucin ajustada son:


Data variable: peso

117 values ranging from 41,0 to 112,0

Fitted normal distribution:


mean = 69,1709
standard deviation = 10,8503

Es decir el Peso de distribuye como una Normal con media 69.2 y desviacin
tpica 10.85.

N(69.2, 10.852)

Pinchando en el icono de grficos,


4

Seleccionamos las opciones marcadas, y maximizando la pantalla, se obtiene:

El primer grfico (density trace) dibuja una funcin de densidad a partir de los
datos de PESO. Esta funcin de densidad sigue exactamente la distribucin
de nuestros datos, pero suavizada.

El segundo grfico es el histograma de nuestros datos con una distribucin


ajustada encima. Por defecto la distribucin es una normal. Para cambiar de
distribucin hay que presionar el botn auxiliar del ratn, analysis options y
elegir la distribucin deseada.
5

Como se ha indicado por defecto aparece la normal. En este caso la distribu-


cin normal parece ajustar bien a los datos tal como muestra el histograma

Histogram for peso


50

40
frequency

30

20

10

0
37 57 77 97 117
peso

Tambin hay una buena concordancia entre la funcin de distribucin de la


normal la distribucin emprica calculada a partir de los datos.

Normal Distribution
1
cumulative probability

0,8

0,6

0,4

0,2

0
41 61 81 101 121
peso

Evidentemente la observacin visual del ajuste no es suficiente para decidir si


un modelo es adecuado. Para ello tenemos diversos tests de bondad de ajus-
te.
6
Para obtenerlos hay que pulsar en el icono amarillo de Tabular Options y elegir
la opcin Goodnes of Fit.

En esta seccin se obtienen tres tests de bondad de ajuste:

1. Test de la Chi cuadrado


2. Test de Kolmogorov-Smirnof
3. Test de Anderson Darling

Estos tres tests funcionan de una manera similar y proporcionan el p-valor. El


p-valor se estudiar en el tema de contrastes de hiptesis, e indica la probabi-
lidad de encontrar una muestra ms desfavorable que la que tenemos si los
datos proceden de una distribucin normal.

Cuanto ms pequeo es el p-valor ms improbable ser que la distribucin


sea normal. (Ya que estaremos en una situacin muy poco probable)

En nuestro caso se obtiene:


7
Goodness-of-Fit Tests for peso

Chi-Square Test
----------------------------------------------------------------------------
Lower Upper Observed Expected
Limit Limit Frequency Frequency Chi-Square
----------------------------------------------------------------------------
at or below 53,6975 8 9,00 0,11
53,6975 58,1028 9 9,00 0,00
58,1028 61,1817 11 9,00 0,44
61,1817 63,7197 5 9,00 1,78
63,7197 65,9876 10 9,00 0,11
65,9876 68,1232 18 9,00 9,00
68,1232 70,2186 9 9,00 0,00
70,2186 72,3542 5 9,00 1,78
72,3542 74,6222 8 9,00 0,11
74,6222 77,1602 9 9,00 0,00
77,1602 80,2391 10 9,00 0,11
80,2391 84,6443 6 9,00 1,00
above 84,6443 9 9,00 0,00
----------------------------------------------------------------------------
Chi-Square = 14,4446 with 10 d.f. P-Value = 0,153662

Estimated Kolmogorov statistic DPLUS = 0,0678348


Estimated Kolmogorov statistic DMINUS = 0,0451458
Estimated overall statistic DN = 0,0678348
Approximate P-Value = 0,65457

EDF Statistic Value Modified Form P-Value


---------------------------------------------------------------------
Kolmogorov-Smirnov D 0,0678348 0,738397 >0.10*
Anderson-Darling A^2 0,368646 0,37107 0,4231*
---------------------------------------------------------------------
*Indicates that the P-Value has been compared to tables of critical values
specially constructed for fitting the currently selected distribution.
Other P-values are based on general tables and may be very conservative.

Los p-valores de los tres tests son superiores a 0.10, y por tanto no rechazare-
mos la hiptesis de que los datos son normales. (En estadstica se habla a veces
de una manera algo especial. En lugar de decir aceptamos que los datos son
normales, decimos No rechazamos que los datos son normales. La conclusin
es la misma.)

Si a nuestros datos les hubiramos ajustado una distribucin de valores extremos


Extreme Value (Para ello hay que presionar el botn alternativo y elegir Anlisis
Options)
8

Los resultados hubieran sido:

Histogram for peso


60
50
frequency

40
30
20
10
0
37 57 77 97 117
peso

Ya se ve que el histograma es peor ajustado por esta distribucin.

Los tests resultan ser:

Chi cuadrado: p-valor=0.42


Kolmogorov Smirnov: p-valor <0.01
Anderson Darling: p-valor<0.01

Por lo que no aceptaremos que la distribucin de valores extremos sea adecuada


para estos datos.
9

4. Clculo de probabilidades con la distribucin ajustada


Una vez ajustada la distribucin, se pueden calcular todas las probabilidades a
partir de la funcin de densidad.

2
En nuestro caso, la normal ajustada tiene parmetros N(69.2, 10.85 )
por lo que para calcular la probabilidad de que un estudiante pese menos de
50kg. Se puede ir a las tablas.

Tambin lo hace directamente el ordenador:

Pinchando Tabular Options y eligiendo Tail Areas y Critical Values:

Tail Areas for peso

area below 55,3368 = 0,101154

area below 62,2538 = 0,261898

area below 69,1709 = 0,5

area below 76,088 = 0,738102

area below 83,0051 = 0,898846

Esta opcin nos da las probabilidades de pesar menos de 55,3368 kilos. Para se-
leccionar el peso deseado por ejemplo probabilidad de pesar menos de 55 kilos,
se pincha el botn auxiliar del ratn y se elige Pane Options.
10

Poniendo los pesos deseados (55-65-75-85-95) obtenemos las probabilidades de


pesar menos de esos valores.
Tail Areas for peso

area below 55,0 = 0,0957691

area below 65,0 = 0,350336

area below 75,0 = 0,704446

area below 85,0 = 0,927698

area below 95,0 = 0,991355

Es decir

o P(Peso<55)=0.096
o P(Peso<65)=0.35
o P(Peso<75)=0.70
o P(Peso<85)=0.93
o P(Peso<95)=0.99
11

5. Ejercicio:

Variable Distribucin Valores de los Probabilidades


elegida parmetros
Alturas
P(Altura<160)=

P(Altura<180)=

P(160<Altura<180)=

Espera
P(Espera<5Minutos)=

P(Espera<10 minu-
tos)=

Beneficios
P(Beneficios<50)=

P(Beneficios>100=

Notas sobre distribuciones:


La direccin

http://www.itl.nist.gov/div898/handbook/eda/section3/eda366.htm

Tiene una completa lista de las distribuciones habitualmente utilizadas en Ingenie-


ra y sus frmulas.

Esta direccin pertenece al NIST (National Institute of Standards and Technolo-


gy) cuya pgina principal del Handbook de Estadstica es:

NIST/SEMATECH e-Handbook of Statistical Methods,


http://www.itl.nist.gov/div898/handbook/ , 2006