FACULTAD DE INGENIERA
DEPARTAMENTO DE INGENIERA EN MINAS
LABORATORIO DE MODELACIN Y SIMULACIN
Laboratorio N1
Anlisis de la distribucin, de los valores medidos de consumo de
combustible, de los camiones vacos de la flota minera Estrella 30.
Fecha de realizacin: 15 y 22 de Abril de 2014
Coordinacin: M6
1. Resumen Ejecutivo
En toda rea industrial, debe esforzarse por mejorar la calidad de los productos y
servicios si es que se pretende competir con xito tanto en el mercado interno como a
nivel mundial.
2
2. ndice
Introduccin ......................................................................................................................................... 4
Objetivos ............................................................................................................................................. 5
Marco Terico...................................................................................................................................... 6
Procedimiento.................................................................................................................................... 10
Resultados ......................................................................................................................................... 13
Anlisis de Resultados ...................................................................................................................... 17
Conclusin ......................................................................................................................................... 19
Bibliografa......................................................................................................................................... 20
Anexo ................................................................................................................................................ 21
ndice de Figuras
Figura 1: Representacin grfica del anlisis de Curtosis. ................................................................. 7
Figura 2: Representacin grfica del anlisis de Asimetra. ............................................................. 7
Figura 3: Representacin grfica de la Distribucin Normal ............................................................... 9
Figura 4: Caractersticas del problema analizado en el presente informe. ....................................... 10
Figura 5: Histograma segn Criterio Grupal. En l, se observa la tendencia del consumo de
combustible. ..................................................................................................................................... 14
Figura 6: Asimetra hacia la izquierda de los datos de combustible, descrita por el valor del
coeficiente de asimetra menor a cero. ............................................................................................ 17
ndice de Tablas
Tabla 1: Estadstica descriptiva. Anlisis estadstico, aplicado a los datos Fuel Rate de los
camiones vacos. ............................................................................................................................... 13
Tabla 2: Amplitud de intervalos, calculados para los criterios Grupal, de Sturges y Kaiser
respectivamente. Los valores de rango y nmero total de datos (n) se obtuvieron del anlisis
estadstico de la Tabla 1. ................................................................................................................. 13
Tabla 3: Intervalos. Valores mnimos (Min) y mximos (Max) de los Intervalos obtenidos para los
datos de consumo de combustible segn el criterio grupal, junto con sus respectivas marcas de
clases. . ............................................................................................................................................. 14
Tabla 4: Frecuencia, % acumulado, normalizacin y distribucin normal para cada intervalo, segn
Criterio Grupal. .................................................................................................................................. 15
Tabla 5: Clculos de frecuencias observadas (Oi), frecuencia esperada (Ei) y Chi cuadrado (X2)
para cada intervalo del criterio Grupal. Min y Max, representan los valores mnimos y mximos de
cada intervalo, respectivamente; Y1 e Y2 son las respectivas normalizaciones. ............................. 15
2
Tabla 6: X calculado y lmites inferior y superior, asociado a cada criterio. .................................... 16
Tabla 7: Conclusin del Anlisis de bondad y ajuste de X2, para cada criterio. .............................. 16
3
3. Introduccin
El campo de la estadstica tiene que ver con la recopilacin, presentacin, anlisis y uso de
datos para tomar decisiones y resolver problemas. El conocimiento de la estadstica y la
probabilidad puede ser una herramienta til para ayudar a los cientficos e ingenieros a disear
nuevos productos y sistemas, a perfeccionar los existentes y a disear, desarrollar y mejorar los
procesos de produccin.
Las aplicaciones de la estadstica en el mundo real no solo se aplican al azar, este campo
adems de ser muy viable resulta de gran ayuda en el campo laboral.
4
4. Objetivos
Principal:
Secundarios:
5
5. Marco terico
La estadstica es una disciplina que disea los procedimientos para la obtencin de los
datos, como asimismo proporciona las herramientas necesarias que permiten extraer la
informacin.
Se deben obtener ciertos parmetros que son necesarios para poder analizar la informacin
tales como:
b. Mediana: es una medida tendencial donde la muestra se divide en dos partes iguales.
c. Moda: es la observacin que se presenta con mayor frecuencia en la muestra.
d. Desviacin Estndar: es una medida de dispersin con respecto al valor promedio.
(2)
( ) (4)
6
Figura 1: Representacin grfica del anlisis de Curtosis.
Fuente: www.aulafacil.com/cursoestadistica.
( ) (5)
h. Rango: es una medida de variabilidad, que se define como la diferencia entre las
observaciones ms grande y la ms pequea.
(6)
7
Una forma de presentar un grupo de observaciones, es a travs de tablas de distribucin de
frecuencias. La estructura de estas tablas depende de la cantidad y tipo de variable que se est
analizando. Donde se puede observar las siguientes frecuencias:
(7)
Donde el rango se define como la diferencia entre el lmite superior y el lmite inferior.
b) Criterio de Sturges: es una regla prctica, donde la cantidad de intervalos depende del
nmero de datos (n). La amplitud del intervalo est dada por:
(8)
c) Criterio de Kaiser: la cantidad de intervalo se define por la raz cuadrada de los nmeros de
datos (n). La amplitud del intervalo est dada por:
(9)
Para analizar los datos, la distribucin normal es una de las distribuciones ms usadas e
importantes; que se ha vuelto una herramienta indispensable en cualquier rama de la ciencia,
industria e ingeniera.
8
Figura 3: Representacin grfica de la Distribucin Normal
(10)
Una prueba de bondad de ajuste tiene por objetivo determinar si los datos a analizar se
ajustan a una determinada distribucin, que puede estar especificada como una hiptesis simple.
Existen dos procedimientos conocidos para realizar esta prueba de bondad, ya sea la grfica de
probabilidad o bien la distribucin de Chi-cuadrada.
(11)
Luego, se debe calcular los grados de libertad () que son el nmero de clases
variables independientes que existen. Donde son los parmetros desconocidos calculados.
(12)
Para finalizar la prueba de chi- cuadrado, se debe buscar el valor de chi- cuadrado con
ciertos grados de libertad en la tabla y determinar su valor de probabilidad; cuyo valor es el
responsable de determinar la aceptacin de la hiptesis inicial una vez comparada con los grados
de libertad y nivel de confianza de la hiptesis.
9
6. Procedimiento
INVERMASA, en su gestin requiere que la estructura del presente anlisis siga una
lgica como la siguiente:
El primer paso, fue filtrar los datos del archivo Base de datos 2013_2.xlsx, con el fin de
trabajar solo con los de inters: camiones vacos. Para ello, se utiliz la herramienta Datos
y filtro y se seleccion a continuacin la columna load la cual, contena los datos de
SULPHUR y EMPTY, que representan los camiones con carga y vacos
respectivamente: de este modo, se indic mediante la herramienta filtro que solo se
mostraran los datos correspondientes a EMPTY. A continuacin se hizo un recuento de
los datos (ctrl++), para constatar que se contaba con 1035 valores de camiones
vacos.
Luego, se copi y peg los valores de la columna Fuel Rate, en otra hoja de clculo del
libro de EXCEL para aplicar un anlisis estadstico al consumo de combustible de los
camiones vacos. Para ello, nuevamente, se utiliz la herramienta Datos y luego se
seleccion Anlisis de datos y Estadstica descriptiva, se seleccion los datos de la
10
columna Fuel Rate y se indic un nivel de confianza del 95%. De este modo, se obtuvo
un anlisis de estadstica preliminar que entreg la media, error tpico, mediana, moda,
desviacin estndar, varianza de la muestra, curtosis, coeficiente de asimetra, rango,
valores mnimo y mximo, suma, cuenta y nivel de confianza de los datos analizados.
A continuacin, se calcul la amplitud del intervalo, para analizar posteriormente los datos
2
por la prueba de bondad y ajuste de X . Para ello, se utilizaron tres criterios: Criterio
Grupal, de Sturges y de Kaiser. Los valores del tamao del intervalo segn cada criterio,
se calcularon mediante las frmulas (7), (8) y (9) respectivamente, sealadas en el marco
terico y conocido el rango y nmero total de datos (n) de Fuel Rate.
Posteriormente, se construy una tabla en la cual las columnas 1, 2 y 3, corresponden al
valor mnimo, marca de clase y valor mximo del intervalo respectivamente, para cada uno
de los tres criterios. El valor mnimo del primer intervalo, se obtuvo del valor mnimo
entregado por el anlisis de estadstica preliminar, luego, en la columna 3, se calcul el
valor mximo del intervalo, considerando el tamao de este segn cada criterio, mediante
la frmula: =(valor mnimo + amplitud de intervalo) .
De igual modo, en la columna 2 se calcul la marca de clase del intervalo mediante:
=(valor mnimo intervalo + valor mximo intervalo)/2. Finalmente, en la primera
columna para calcular los valores mnimos, a partir del segundo intervalo se utiliz:
=(valor mximo intervalo anterior + amplitud del intervalo);y se arrastr la frmula de
cada columna, para completar la tabla hasta llegar al valor mximo de los datos (descrito
por el anlisis estadstico).
A partir de la tabla anterior, se construy un histograma para cada criterio. As, se
seleccion la pestaa Datos y la seccin anlisis de datos , junto a la herramienta
histograma: se utiliz todos los datos de Fuel Rate filtrados (EMPTY) como rango de
entrada, los valores mximos de la tabla sealada en el punto anterior como rango de
clase y un porcentaje acumulado para crear el grfico. De este modo, EXCEL cre el
histograma, junto a una tabla que sealaba la clase, frecuencia y %acumulado de cada
intervalo. Para completar la construccin del histograma, fue necesario, cambiar el ancho
del intervalo del histograma, para que las barras de este quedarn juntas (y no separadas
como lo hizo automticamente EXCEL): para ello, al hacer click con el botn derecho del
mouse sobre el grfico, se seleccion dar formato a serie de datos y opcin de serie
donde se modific el ancho del intervalo a cero. Finalmente, en la tabla creada por EXCEL
al construir el histograma, se reemplaz los valores de la columna Clase por los valores
de Marca de clase calculados en el punto anterior, para ello se copiaron los valores de
una tabla a otra.
Luego, se realiz la normalizacin de los valores de la tabla construida junto al histograma
(Clase, frecuencia y % acumulado). Para ello, se utiliz la funcin normalizacin:
=NORMALIZACION(marca de clase, media, desv_estndar). Los valores de media y
desviacin estndar se fijaron mediante F4, ya que estos valores corresponden a los
entregados por el anlisis de estadstica preliminar y se seleccion el valor de marca de
clase de cada intervalo para completar la frmula.
A continuacin, se aplic la funcin de distribucin de probabilidad a los datos mediante la
funcin: =DISTR.NORMAL(marca de clase, media, desv_estndar, falso). De igual
modo que en el punto anterior, se fij con F4 los valores de media y desviacin estndar y
se utilizaron los valores de marca de clase de cada intervalo de la tabla del histograma.
2
Para realizar el anlisis de bondad y ajuste de X , se copi en una nueva hoja de clculo
los valores del anlisis de estadstica preliminar y se construy una nueva tabla con los
valores mnimos y mximos de los intervalos, segn cada criterio. A continuacin, en las
11
siguientes columnas, se normalizaron dichos datos por medio de la funcin:
=NORMALIZACION(valor mnimo o mximo del intervalo, media, desviacin
estndar). Nuevamente, se fijaron los valores de la media y desviacin estndar mediante
F4. Las columnas en la que se normaliz el valor mnimo y mximo del intervalo se
denominaron Y1 y Y2 respectivamente, para cada criterio.
Luego, se calcul el rea (probabilidad del dato) con la funcin:
=(DISTR.NORM.ESTAND.N(valor Y1 o Y2 respectivamente, verdadero))*100, para
obtener el rea 1 y rea 2, segn Y1 e Y2 respectivamente.
2
Como se seal en el marco terico, el valor de X se calcula a partir de la frecuencia
observada (Oi) y la frecuencia esperada (Ei). Por ello, para obtener el valor de la
frecuencia esperada se rest los valores de rea 2 y rea 1, mediante: =rea2-rea1.
Posteriormente se copi en una columna adyacente los valores de frecuencia para cada
criterio, obtenida de la tabla del histograma respectivo. Con ellas, se calcul el valor de la
frecuencia esperada (Ei), mediante: =(frecuencia intervalo / frecuencia total)*100,
nuevamente, se utiliz F4 para fijar el valor de la frecuencia total.
2
De este modo, se obtuvo el valor de X para cada intervalo mediante la frmula:
=((Frecuencia observada Frecuencia esperada)^2)/Frecuencia esperada.
Finalmente, se aplic la funcin SUMA, en una celda adyacente, a los valores calculados
2 2
de X de cada intervalo, para obtener el valor de X calculado
Para determinar si los datos siguen una distribucin normal, se hizo la prueba de Chi
inverso al 95% y 5% respectivamente, considerando los grados de libertad de cada criterio,
segn la funcin: =PRUEBA.CHI.INV(%, grados de libertad). Finalmente, se compar el
2
valor de X calculado, con el obtenido mediante la prueba de chi inverso, para cada criterio.
12
7. Resultados
Tal como se seal en la seccin anterior, se trabaj con la base de datos Base de datos
2013_2.xlsx, a la cual se aplic un filtro para trabajar solamente con los datos de consumo de
combustible (Fuel Rate) de los camiones vacos (EMPTY). A dichos valores se les aplic un
anlisis estadstico, los parmetros obtenidos (mediante la herramienta estadstica descriptiva) se
resumen en la siguiente tabla:
Anlisis estadstico
Media 11,68
Error tpico 0,01
Mediana 11,86
Moda 12,03
Desviacin estndar 1,03
Varianza de la muestra 1,05
Curtosis -0,18
Coeficiente de asimetra -0,55
Rango 7,40
Mnimo 9,05
Mximo 16,45
Suma 117168,01
Cuenta 10035,00
Nivel de confianza (95,0%) 0,02
Tabla 1: Estadstica descriptiva. Anlisis estadstico, aplicado a los datos Fuel Rate de
los camiones vacos.
Rango 7, 4
Amplitud .Intervalo 0, 74
10 10
Tabla 2: Amplitud de intervalos, calculados para los criterios Grupal, de Sturges y Kaiser
respectivamente. Los valores de rango y nmero total de datos (n) se obtuvieron del anlisis
estadstico de la Tabla 1.
Determinado el valor del intervalo para el criterio grupal, se construy una tabla con los
valores mnimos, marca de clase y mximos de cada intervalo, con las frmulas descritas en la
seccin procedimientos. La tabla que se obtuvo, se muestra a continuacin:
13
Min Marca de clase Max
9,05 9,42 9,79
9,79 10,16 10,53
10,53 10,9 11,27
11,27 11,64 12,01
12,01 12,38 12,75
12,75 13,12 13,49
13,49 13,86 14,23
14,23 14,6 14,97
14,97 15,34 15,71
15,71 16,08 16,45
Tabla 3: Intervalos. Valores mnimos (Min) y mximos (Max) de los Intervalos obtenidos
para los datos de consumo de combustible segn el criterio grupal, junto con sus respectivas
marcas de clases.
3000 100,00%
2500 80,00%
2000 Frecuencia
60,00%
1500 % acumulado
1000 40,00%
500 20,00%
0 0,00%
Clase
14
Clase Frecuencia % acumulado Normalizacin Distribucin normal
9,42 701 6,99% -2,20 0,03
10,16 770 14,66% -1,48 0,13
10,90 1628 30,88% -0,76 0,29
11,64 2568 56,47% -0,04 0,39
12,38 3101 87,37% 0,69 0,31
13,12 1149 98,82% 1,41 0,14
13,86 115 99,97% 2,13 0,04
14,60 2 99,99% 2,85 0,01
15,34 0 99,99% 3,57 0,00
16,08 1 100,00% 4,29 0,00
Tabla 4: Frecuencia, % acumulado, normalizacin y distribucin normal para cada intervalo, segn
Criterio Grupal.
2
Posteriormente, se realiz el anlisis de Bondad y Ajuste de X , siguiendo los pasos
detallados en la seccin Procedimientos. Las hiptesis planteadas para el anlisis son:
Hiptesis nula H0: Los datos siguen una distribucin normal, X=N (11,68; 1,03)
Hiptesis alternativa H1: Los datos no siguen una distribucin normal, XN (11,68; 1,03)
2
Min Max Y1 Y2 rea 1 rea 2 Oi Frecuencia Ei X
9,05 9,79 -2,56 -1,84 0,52 3,30 2,77 701 6,99 2,54
9,79 10,53 -1,84 -1,12 3,30 13,19 9,90 770 7,67 0,64
10,53 11,27 -1,12 -0,40 13,19 34,61 21,42 1628 16,22 1,66
11,27 12,01 -0,40 0,33 34,61 62,77 28,15 2568 25,59 0,26
12,01 12,75 0,33 1,05 62,77 85,25 22,48 3101 30,90 2,29
12,75 13,49 1,05 1,77 85,25 96,15 10,90 1149 11,45 0,03
13,49 14,23 1,77 2,49 96,15 99,36 3,21 115 1,15 3,71
14,23 14,97 2,49 3,21 99,36 99,93 0,57 2 0,02 15,32
14,97 15,71 3,21 3,93 99,93 100,00 0,06 0 0,00 0,00
15,71 16,45 3,93 4,65 100,00 100,00 0,00 1 0,01 0,00
Tabla 5: Clculos de frecuencias observadas (Oi), frecuencia esperada (Ei) y Chi cuadrado
2
(X ) para cada intervalo del criterio Grupal. Min y Max, representan los valores mnimos y mximos
de cada intervalo, respectivamente; Y1 e Y2 son las respectivas normalizaciones.
15
2 2
Los valores de la columna de X de la Tabla 5, se sumaron para obtener el valor de X
calculado. Adems, se realiz una prueba de Chi inverso, mediante la funcin PRUEBA.CHI.INV,
para estimar los lmites inferior y superior con un nivel de significancia del 95% y 5%
respectivamente. Los valores obtenidos, tanto para el criterio Grupal, como de Sturges y Kaiser se
detallan en la siguiente tabla:
2 2 2
Criterio X Grados de libertad X inverso (95%) X inverso (5%)
calculado Lmite inferior Lmite superior
Grupal 26,46 9 3,33 16,92
Sturges 25,24 13 5,89 22,36
Kaiser 19,69 99 77,05 123,23
2
Tabla 6: X calculado y lmites inferior y superior, asociado a cada criterio.
2
Tabla 7: Conclusin del Anlisis de bondad y ajuste de X , para cada criterio.
16
8. Anlisis de resultados
El anlisis estadstico preliminar entreg una media y desviacin estndar de 11.68, 1.03,
respectivamente, lo que indica que el promedio de los datos estn dispersos entre los valores
(11.68-1.03=10.65) y (11.68+1.03=12.71) respecto al promedio. Esto, se condice con el valor de la
varianza de la muestra, 1.05, el cual al ser bastante menor respecto al promedio, indica que la
dispersin de los datos no es considerable. Por otro lado, el coeficiente de asimetra, -0.55, indica
que los datos presentan una distribucin asimtrica hacia la izquierda, lo que indica que la moda es
mayor que la mediana y esta mayor que la media, lo cual, se refleja en sus valores de orden
descendente: 12.03, 11.86 y 11.68 respectivamente, tal como se observa en la Figura 6;
Respecto al valor de curtosis, -0.18, este indicara que los datos, describen una curva platicurtica,
es decir, ms achatada respecto a una curva de distribucin normal. Por lo tanto, el conjunto de
datos estudiado en el anlisis estadstico preliminar, no presentaran una distribucin normal, ya
que la curva no es simtrica al eje que pasa por la media y no coinciden los valores de media,
moda y mediana, ambas condiciones de una distribucin normal
Figura 6: Asimetra hacia la izquierda de los datos de combustible, descrita por el valor del
coeficiente de asimetra menor a cero. Imagen modificada de:
http://eae0213.wikispaces.com/clase+4.III
Debido a lo anterior, se debi aplicar una transformacin a los datos, mediante el proceso
de normalizacin, de modo de ajustar dichos datos a una media cero y varianza uno, con el fin de
17
analizar cul de los tres criterios de tamao de intervalo se ajusta mejor a una distribucin normal
2
estndar, mediante un anlisis de bondad y ajuste de X .
2
El anlisis de X permiti calcular un valor de chi cuadrado para cada criterio, que al ser
contrastado con los valores lmites que entreg la prueba de chi inverso, con un 95% y 5% de
significancia indican que los criterios Grupal (con 9 grados de libertad) y de Sturges (con 13
2
grados de libertad) deben ser rechazados, ya que el valor de X : 26.46 y 25.24, respectivamente,
son mayores que los limites calculados por la prueba chi inverso y por lo tanto, el ajuste es malo.
2
Sin embargo, el valor de X calculado por medio del criterio de Kaiser (99 grados de libertad):
19.69, es menor que los lmites inferior (77.05) y superior (123.23) calculados con un 95 % y 5% de
significancia, respectivamente, por lo que el ajuste es bueno y no es posible rechazar la hiptesis
nula, H0, en este caso dado que los datos, no entregan suficiente evidencia para rechazar la
hiptesis.
De este modo, de lo anterior, se deduce que el criterio de Kaiser (tambin llamado raz de
n) cumple la distribucin normal con un 95% y 5% de significancia. Es decir, los datos de
combustible analizados bajo este criterio, cumplen con las caractersticas de la distribucin normal,
las cuales son:
18
9. Conclusiones
2
A partir del anlisis de bondad y ajuste de X , se concluye que los valores registrados de
consumo de combustible de los camiones vacos de la flota en operacin, registran un
comportamiento que se ajusta a la distribucin normal, bajo el criterio de raz de n (Kaiser), con un
95% y 5% de significancia.
Dado que en la industria, la productividad es un proceso importante para lograr las metas
de la empresa, se requiere optimizar procesos y aumentar en control de calidad, de mantenimiento
y costos; por lo que el anlisis estadstico es fundamental para elegir una medida.
19
10. Bibliografa
http://www.aulafacil.com/CursoEstadistica/Lecc-9-est.htm
http://www.itescam.edu.mx/principal/sylabus/pdb/recursos/r99940.PDF
http://www.demre.cl/text/doctecnicos/p2009/estadistica_descriptiva.pdf
20
Anexos
Criterio de Sturges:
Rango 7, 4
Amplitud .Intervalo 0,53
1 3, 22*log(n) 1 3, 22*log(10035)
Criterio de Kaiser:
Rango 7, 4
Amplitud .Intervalo 0,07
n 10035
Valores mnimos, mximos y marca de clase de intervalos
Criterio de Sturges:
21
Criterio de Kaiser:
Tabla 2: Intervalos. Valores mnimos (Min) y mximos (Max) de los Intervalos obtenidos
para los datos de consumo de combustible segn el criterio de Kaiser, junto con sus respectivas
marcas de clases. Se muestran los primeros 14 intervalos, ya que segn este criterio se obtienen
100 intervalos, como se muestra en el archivo Excel.
Histogramas
Criterio de Sturges
2000 100,00%
1500 80,00% Frecuencia
60,00%
1000 40,00% % acumulado
500 20,00%
0 0,00%
Clase
22
Criterio de Kaiser
% acumulado
Frecuencia
350,00 100,00%
300,00 80,00%
250,00
200,00 60,00%
150,00 40,00%
100,00 20,00% %
50,00
0,00 0,00% acumulado
10,42
11,08
11,75
12,41
13,08
13,74
14,41
15,07
15,74
16,41
9,09
9,75
Clase
Criterio de Sturges
23
Criterio de Kaiser
Tabla 4: Anlisis de Chi cuadrado, bajo el criterio de Kaiser. Se ilustran los primero datos, de un
total de 100.
24