Anda di halaman 1dari 17

ANALISIS DESCRIPTIVO DE DATOS

El contenido de esta guía práctica tiene como objetivo, entre otros, ilustrar el potencial
estadístico del análisis descriptivo de datos. Se muestran solo algunas estrategias para lograr
entender el comportamiento probabilístico de datos vitales de un proceso. Otras herramientas
las puedes obtener de la bibliografía especializada en el tema.

Para desarrollar esta actividad, debes replicar los pasos aquí descritos sobre un conjunto de
datos, reales, que deberás recolectar en tú campo de interés, basados en experiencias
desarrolladas por grupos de investigación.

Los análisis se harán en dos etapas:

Etapa 1. Se analizan los datos tal y como son obtenidos, de cualquier manera, de la fuente
original. Es lo que se denomina “Información Bruta”, “Información de primera mano”,
“Información inicial”, “Datos Originales”, etc. Son diversas maneras de etiquetarlos.
Indistintamente del nombre dado a esta información, lo cierto es que la misma puede estar
contaminada, o tal vez no, por diferentes fuentes de error: Mala calibración de los instrumentos
de medición, percepción del observador, causas fortuitas o casuales, o variaciones por causas
especiales, entre otras, que de alguna manera perturban la verdadera tendencia de los datos y
pueden confundir en la identificación objetiva del comportamiento del proceso. Muchos
investigadores, ingenieros, gerentes, administradores y expertos de diversas áreas del saber
analizan la información vital de sus procesos como en esta etapa, sin percatarse que la misma
se puede encontrar viciada y presentar datos atípicos. Lo correcto es realizar, previo a cualquier
análisis estadístico, una depuración seria y responsable de la información de tal manera que se
garantice que los datos finales (etapa 2) para analizar estadísticamente presenten una tendencia
típica, inconfundible que describa el verdadero comportamiento del proceso. Existen varias
técnicas de depuración de la información, aquí se detallará una de ellas que produce resultados
adecuados y que en la práctica es muy confiable. Lo que no debe hacerse es eliminar datos por
corazonadas o al azar, supuestamente atípicos, sin un criterio objetivo, científico que produzca
alta confianza y credibilidad.

Nota importante: No todos los procesos, fenómenos, experiencias experimentales o no


experimentales, investigaciones, están sujetos a la depuración de los datos que estos arrojen,
esa es una decisión que deberá tomar el dueño de dicho proceso o fenómeno basándose en su
experiencia, en el conocimiento, la responsabilidad y seriedad que como experto pueda
conducirlo a la mejor descripción del comportamiento de sus variables o características de
calidad. Solo así, soportará que el análisis inferencial, posterior al descriptivo, sea altamente
confiable.

Etapa 2. A partir de aquí comienza tú trabajo práctico. Dada la información que pretendes
analizar descriptivamente, deberás primero depurarla. De esta manera obtendrás “la

ESTADÍSTICA APLICADA
Información Depurada”, es decir los datos que en realidad te permitirán describir el real
comportamiento de tus variables relevantes. Contar con los datos típicos, te garantizará alta
confiabilidad tanto en el análisis estadístico descriptivo así como del inferencial.

Una técnica efectiva, entre otras, para depurar la información se basa en restar y sumar dos
veces la desviación típica de la media aritmética de la variable en cuestión. Matemáticamente
es lo siguiente:

a) Se estima el valor promedio o esperanza de la variable X de interés, basado en los datos

de una muestra representativa de tamaño n, aplicando la fórmula

b) Se estima la desviación estándar o típica de la variable X de interés, que resulta de


aplicar la raíz cuadrada a la varianza, sobre una muestra aleatoria y representativa de

tamaño n, aplicando la fórmula . Tanto la media como la


desviación se pueden obtener de manera sencilla y rápida en cualquier calculadora de
bolsillo o mediante algún software de aplicación como el Excel o Estadístico. Si se tratan
de datos agrupados en clases, las fórmulas cambian ligeramente como se observará
más adelante en el desarrollo de esta guía.

c) Se obtiene el intervalo y se eliminan todos los datos que queden por


fuera del mismo; con los datos seleccionados dentro del intervalo, se vuelve a estimar
y S y se obtiene nuevamente el intervalo donde se aplica la misma
eliminación de los datos que queden por fuera del mismo. Esta operación se repite
tantas veces como sea posible hasta que todos los datos queden dentro del intervalo
estimado. Dicha información final está lista para los análisis estadísticos pertinentes,
toda vez que ella está formada por datos típicos del proceso. Te recomiendo que hagas
un análisis reflexivo sobre la información eliminada y determines las posibles causas,
factores, que motivaron tales datos alejados de su media y posiblemente tenderían a
inflar la desviación típica o estándar.

Con esos datos depurados comienza tú trabajo práctico, el cual consiste en replicar los análisis
aquí aplicados. Los detalles están dados durante el desarrollo de la ETAPA 2.

En otras palabras tú trabajo comienza a partir de la etapa 2, sin embargo es importante, a


manera ilustrativa, que en esta muestra se aborde el análisis descriptivo desde la etapa 1 para
que se comparen los resultados de los diversos estadísticos y gráficas y así puedas apreciar la
importancia de la técnica de depuración de la información.

ESTADÍSTICA APLICADA
Etapa 1.
A continuación se evaluarán los aspectos descriptivos de interés sobre un conjunto de datos
suministrados por el Departamento de Producción de una empresa fabricante de óxido de
azufre, materia prima básica en la industria farmacéutica y otras, que permitirá tomar decisiones
trascendentales en la adquisición de nueva maquinaria, especialización de operadores,
formación de la mano de obra, etc., y que redunde en el mejoramiento continuo en el proceso
de producción de esta materia prima. Para entender el comportamiento de la variable
producción diaria de óxido de azufre, es necesario estimar algunas medidas de tendencia central
y de dispersión que permitan determinar la dinámica diaria de este producto. Solo así se
facilitará la toma de decisiones que beneficien a todo el conglomerado.

Los siguientes datos corresponden a 80 mediciones de la emisión diaria (toneladas) de óxido de


azufre de una planta industrial:
15.8 26.4 17.3 11.2 23.9 24.8 18.7 13.9 9.0 13.2
22.7 9.8 6.2 14.7 17.5 26.1 12.8 28.6 17.6 23.7
26.8 22.7 18.0 20.5 11.0 20.9 15.5 19.4 16.7 10.7
19.1 15.2 22.9 26.6 20.4 21.4 19.2 21.6 16.9 19.0
18.5 23.0 24.6 20.1 16.2 18.0 7.7 13.5 23.5 14.5
14.4 29.6 19.4 17.0 20.8 24.3 22.5 24.6 18.4 18.1
8.3 21.9 12.3 22.3 13.3 11.8 19.3 20.0 25.7 31.8
25.9 10.5 15.9 27.5 18.1 17.9 9.4 24.1 20.1 28.5

Organización de Datos.

a) Datos no agrupados.
b) Datos agrupados en clases, intervalos de clase.

a) Datos no agrupados: su análisis consiste en tomar los datos “puros”, sin ningún tipo de
orden o reacomodo.

b) Datos Agrupados en clases: consiste en crear una arquitectura de un grupo masivo de


datos que permita la fácil comprensión de los mismos y su comportamiento en función de
estimadores muestrales.

Estadísticos descriptivos de interés.

a) Medidas de tendencia central: media aritmética, mediana, moda, semisuma de los


extremos.
b) Medidas de dispersión: varianza, desviación típica, amplitud (rango), coeficiente de
variación.

ESTADÍSTICA APLICADA
c) Medidas de posición: cuartiles, deciles y percentiles.
¿Cómo organizar datos en intervalos de clases?

1. Obtener el rango de datos.


2. Determinar el número de intervalos.
3. Calcular la longitud de los intervalos.
4. Construir la tabla de distribución de frecuencias.
5. Estimar los estadísticos descriptivos de interés.
6. Elaborar gráficas descriptivas: histograma, polígono de frecuencias u otras.
7. Concluir respecto a los resultados obtenidos.

¿Por qué organizar los datos en una tabla de distribución de frecuencias?

Representa un resumen de la información cuya exposición resulta ordenada, refrescante a la


vista de todos, más fácil para observar tendencias, facilita los cálculos de los estadísticos
descriptivos, mejora la percepción que se tiene sobre la tendencia de los datos y por
consiguiente del comportamiento del proceso o fenómeno en estudio. No solo se trata de
“embellecer” la presentación de los datos sino de mostrar al usuario menos acucioso una clara
tendencia del comportamiento más ajustado o cercano a la realidad del mismo. De eso se trata
el análisis descriptivo, en primera instancia, darle herramientas al experto para retratar con la
mayor objetividad posible el verdadero estado de su proceso o fenómeno en cuestión.

Tomando como referencia los datos adjuntos, emisión diaria de óxido de azufre:

1. Rango:
2. Número de intervalos:

3. Longitud de los intervalos:


4. Tabla de distribución de frecuencias:

Tabla 1. DISTRIBUCIÓN DE FRECUENCIAS PARA EL OXIDO DE AZUFRE (SO)


INTERVALO MARCA FRECUENCIA FRECUENCIA FRECUENCIA FRECUENCIA REL.
DE CLASE (Xi) ABS. REL. (%) ACUMULADA ACUMULADA (%)
(fi) (fri) (Fi) (Fri)
6.2 - 10.2 8.2 6 7.5 6 7.5
10.2 - 14.2 12.2 11 13.75 17 21.25
14.2 - 18.2 16.2 19 23.75 36 45.00
18.2 - 22.2 20.2 19 23.75 55 68.75
22.2 - 26.2 24.2 17 21.25 72 90.00
26.2 - 30.2 28.2 7 8.75 79 98.75
30.2 - 34.2 32.2 1 1.25 80 100
80 100

ESTADÍSTICA APLICADA
*Tabla 2. OTRA TABLA de distribución de Frecuencias para el SO.
INTERVALO MARCA FRECUENCIA FRECUENCIA FRECUENCIA FRECUENCIA REL.
DE CLASE (Xi) ABS. REL. (%) ACUMULADA ACUMULADA (%)
(fi) (fri) (Fi) (Fri)
6.2 - 9.2 7.7 4 5.00 4 5.00
9.2 - 12.2 10.7 7 8.75 11 13.75
12.2 - 15.2 13.7 10 12.50 21 26.25
15.2 - 18.2 16.7 15 18.75 36 45.00
18.2 - 21.2 19.7 16 20.00 52 65.00
21.2 - 24.2 22.7 13 16.25 65 81.25
24.2 - 27.2 25.7 10 12.50 75 93.75
27.2 - 30.2 28.7 4 5.00 79 98.75
30.2 - 33.2 31.7 1 1.25 80 100
80 100

*Tabla 3. OTRA TABLA de distribución de Frecuencias para el SO.


INTERVALO MARCA FRE CUENCIA F RECUENCIA FRECUENCIA FRECUENCIA REL.
DE CLASE (Xi) ABS. REL. (%) ACUMULADA ACUMULADA (%)
(fi) (fri) (Fi) (Fri)
6.2 - 11.2 8.7 10 12.50 10 12.50
11.2 - 16.2 13.7 15 18.75 25 31.25
16.2 - 21.2 18.7 27 33.75 52 65.00
21.2 - 26.2 23.7 20 25.00 72 90.00
26.2 - 31.2 28.7 7 8.75 79 98.75
31.2 - 36.2 33.7 1 1.25 80 100
80 100

*DISTRIBUCIONES VARIAS, ENTRE OTRAS.

Las tablas 2 y 3 solo pretenden mostrarte que elaborar una tabla de distribución de frecuencias
no obedece a un criterio único sino a una dinámica en la que cada quién desea colocar su sello
personal. Sin embargo, tú, como futuro experto, requieres de una metodología científica que
justifique la elaboración de una tabla con características de arquitectura válidas y con
credibilidad a los usuarios finales. Más adelante te explicaré detalles para su elaboración.
5. Estimar los estadísticos descriptivos de interés:

ESTADÍSTICA APLICADA
• Previamente quiero mostrarte los estadísticos calculados con los 80 datos sin ningún
arreglo:
Tabla 4. ESTADÍSTICOS DESCRIPTIVOS DE LOS DATOS SIN ARREGLO ALGUNO.
VARIABLE MEDIA MEDIANA DESVIACIÓN C.V. (%) MÍNIMO MÁXIMO
OXIDO 18.9 19.1 5.7 29.93 6.2 31.8
TON/DIA

• Se estimarán los estadísticos descriptivos con base a la tabla 1 de distribución de


frecuencia, aquí mostrada.

LA MEDIA.

De donde los Xi y fi son las marcas de clase y sus respectivas frecuencias simples.

LA MEDIANA.

Ubicación o posición, ¿en cuál intervalo se encuentra?:


El intervalo que contiene la mediana, será aquel cuya frecuencia acumulada (Fi) sea la inmediata
superior o igual a su posición.
De acuerdo a este criterio, la mediana está ubicada dentro del intervalo de clase 18.2 - 22.2.

Luego,

Donde es el límite inferior real del intervalo o clase que contiene a la mediana; es la
frecuencia acumulada anterior al intervalo que contiene a la mediana; corresponde a la
frecuencia simple o absoluta del intervalo que contiene a la mediana y es la longitud de clase.

LA MODA.

ESTADÍSTICA APLICADA
Ubicación o posición, ¿en cuál intervalo se encuentra?: al observar la columna de frecuencias
simples (fi), el intervalo que contiene la moda, será aquel con mayor frecuencia.
De acuerdo a este criterio, la moda está ubicada dentro de los intervalos de clases 14.2 - 18.2 y
18.2 - 22.2. Esto sugiere que la distribución de la producción de óxido de azufre es bimodal.

Una de ellas es:

Donde Li es el límite inferior real del intervalo o clase que contiene a la moda; d1 es la diferencia,
absoluta, de la clase modal y la premodal; d2 es la diferencia, absoluta, de la clase modal y la
postmodal y c es la longitud de clase.

LA SEMISUMA DE LOS EXTREMOS.

Observa que una vez estimadas la media, mediana, moda y semisuma de los extremos los valores
son aproximadamente iguales a 19.0. Esto es un indicador de simetría alrededor de la media en
la información, lo que resulta favorable al momento de interpretar el comportamiento del
proceso o fenómeno.

LA VARIANZA.

Siendo los y las marcas de clase y sus respectivas frecuencias simples y la media
aritmética.

LA DESVIACIÓN TÍPICA O ESTANDAR.

EL COEFICIENTE DE VARIACIÓN.

ESTADÍSTICA APLICADA
Esta medida de dispersión o variabilidad indica que aproximadamente el 30.26% de los datos se
alejan de la media. En términos coloquiales, el 30.26% de los datos pueden ser potenciales
valores atípicos. Para este ejemplo en cuestión, considero que la variabilidad es muy alta
tratándose de que es una empresa que debería producir de manera consistente cierta cantidad
de óxido de azufre con la menor dispersión posible. En general, cada proceso o fenómeno en
estudio presenta su propia variabilidad (causas comunes de variación), grande o pequeña, la cual
se debe estimar un gran número de veces a fin de determinar su punto de equilibrio y poder
inferir que en efecto su varianza, desviación típica, coeficiente de variación o

cualquier otra medida de dispersión es la correcta. Por supuesto, lo deseable es tener procesos
productivos simétricos y con poca variabilidad, lo que se traduce en pocas pérdidas. Para ello
deberán realizarse inversiones económicas de parte de los dueños del proceso, que logren
minimizar las variaciones por causas comunes y erradicar las variaciones por causas especiales.

A continuación se muestra en la tabla 5 un resumen de los estadísticos descriptivos para los


datos “puros”, sin ningún ordenamiento y para los agrupados en intervalos de clases.

Tabla 5. ESTADÍSTICOS DESCRIPTIVOS DATOS NO AGRUPADOS Y AGRUPADOS.


DATOS VARIABLE MEDIA MEDIANA DESVIACIÓN C.V. (%) MÍNIMO MÁXIMO
No OXIDO 18.9 19.1 5.7 29.93 6.2 31.8
agrupados TON/DIA
Agrupados OXIDO 19.0 19.0 5.8 30.26 6.2 31.8
en clases. TON/DIA

6. Elaborar gráficas descriptivas: histograma, polígono de frecuencias u otras.

GRÁFICO 1. EL HISTOGRAMA.

ESTADÍSTICA APLICADA
GRÁFICO 2. TORTA (PIE CHART).

7. Concluir respecto a los resultados obtenidos. Algunas conclusiones, entre otras, son: De
la tabla 5, puede concluirse que los estadísticos descriptivos estimados por ambos
métodos son muy similares, lo que hace presumir que la organización de la información
en una tabla de distribución de frecuencias con intervalos de clases, no solo se traduce en
una mejor presentación de la información sino que la esencia de la misma se conserva muy
a pesar que en este diseño los 80 datos están representados por apenas siete marcas de
clases con su respectiva frecuencia. Inclusive, tomando en cuenta que en esta etapa 1 aún
los datos no han sido depurados. Los gráficos 1 y 2 son indicadores de la tendencia en la
producción de óxido de azufre. La mayoría de los datos están alrededor de la media, 19
toneladas diarias, lo que sugiere que una buena proporción de la producción diaria es
fácilmente predecible con una tendencia cercana al 50% de ocurrencia. En el gráfico 2,
observa que la suma de las proporciones entre 14.2 y 26.2 toneladas diarias reúne hasta
el 68.9% lo que ratifica el comentario anterior.

Es importante que al desarrollar la etapa 2 establezcas comparaciones con los resultados


obtenidos en la etapa 1, con ello entenderás, en mayor grado, la calidad del análisis y aplaudirás
la decisión, acertada, de haber utilizado cualquier técnica de depuración de la información.
Recuerda que los datos muestrales deben ser los más representativos de la población y deben
simular el verdadero comportamiento de tus variables de interés y que redundarán en una
mejoría sustancial y significativa sobre tú proceso, bien sea de manufactura o servicio.

ETAPA 2.
A partir de aquí comienza tú trabajo práctico con los datos recolectados directamente del
campo de aplicación. La información antes de ser analizada deberá ser documentada siguiendo
un instructivo facilitado por el docente. La redacción, distribución, herramientas

ESTADÍSTICA APLICADA
computacionales, presentación de resultados, estilo y conclusiones es libre. Lo obligatorio es
aplicar los análisis descriptivos desarrollados en este material. Puedes comparar los resultados
obtenidos en esta etapa con la etapa anterior y notarás la diferencia, a veces poca o mucha,
dependiendo de la naturaleza de la información.

Los siguientes datos corresponden a 80 mediciones de la emisión diaria (toneladas) de óxido de


azufre de una planta industrial:
15.8 26.4 17.3 11.2 23.9 24.8 18.7 13.9 9.0 13.2

22.7 9.8 6.2 14.7 17.5 26.1 12.8 28.6 17.6 23.7

26.8 22.7 18.0 20.5 11.0 20.9 15.5 19.4 16.7 10.7

19.1 15.2 22.9 26.6 20.4 21.4 19.2 21.6 16.9 19.0

18.5 23.0 24.6 20.1 16.2 18.0 7.7 13.5 23.5 14.5

14.4 29.6 19.4 17.0 20.8 24.3 22.5 24.6 18.4 18.1

8.3 21.9 12.3 22.3 13.3 11.8 19.3 20.0 25.7 31.8

25.9 10.5 15.9 27.5 18.1 17.9 9.4 24.1 20.1 28.5

Se procederá a la primera depuración de los mismos. De los datos se obtiene que:

Y el primer intervalo será . Serán eliminados


los datos que estén fuera del intervalo: 6.2 y 31.8 son los primeros eliminados. Los estimadores
de los 78 datos restantes son lo que genera un segundo intervalo:

. Serán eliminados los datos que estén


fuera del intervalo: solo se eliminó el 7.7. Los estimadores de los 77 datos restantes son
lo que genera un tercer intervalo:
. Serán eliminados los datos que estén fuera de este intervalo: 8.3 y 29.6
son los eliminados. Los estimadores de los 75 datos restantes son lo que
genera un cuarto intervalo: . Serán
eliminados los datos que estén fuera de este intervalo: No resultó eliminado ningún dato, todos
están contenidos y por lo tanto la información está depurada y lista para ser analizada.

La información restante queda conformada por 75 datos:

ESTADÍSTICA APLICADA
15.8 26.4 17.3 11.2 23.9 24.8 18.7 13.9 9.0 13.2

22.7 9.8 6.2 14.7 17.5 26.1 12.8 28.6 17.6 23.7

26.8 22.7 18.0 20.5 11.0 20.9 15.5 19.4 16.7 10.7

19.1 15.2 22.9 26.6 20.4 21.4 19.2 21.6 16.9 19.0

18.5 23.0 24.6 20.1 16.2 18.0 7.7 13.5 23.5 14.5

14.4 29.6 19.4 17.0 20.8 24.3 22.5 24.6 18.4 18.1

8.3 21.9 12.3 22.3 13.3 11.8 19.3 20.0 25.7 31.8

25.9 10.5 15.9 27.5 18.1 17.9 9.4 24.1 20.1 28.5

Los datos marcados en rojo son los eliminados. Un análisis, supuesto, de estos datos puede ser
el siguiente: Es posible que las bajas producciones se deban a desperfectos de equipos,
maquinarias o mantenimiento de los mismos; tal vez se produjo una operación morrocoy de
parte del personal de producción por algún problema laboral con el sindicato, etc. En tanto que
las altas producciones, 29.6 y 31.8, pudieron ocurrir por un alto pedido de algún cliente y la
compañía se vio en la necesidad de satisfacer dicha demanda. Cualesquiera sean las razones,
factores o causas que motivaron estas producciones atípicas, las mismas no representan el
comportamiento regular en la producción de óxido de azufre de esta empresa.

Nota: Se repetirán algunos aspectos teóricos ya discutidos en la etapa 1 con el fin de mantener tú
atención para mejor entendimiento.

Organización de Datos.

a) Datos no agrupados.
b) Datos agrupados en clases, intervalos de clase.

a) Datos no agrupados: su análisis consiste en tomar los datos “puros”, sin ningún tipo de
orden o reacomodo.
b) Datos Agrupados en clases: consiste en crear una arquitectura de un grupo masivo de
datos que permita la fácil comprensión de los mismos y su comportamiento en función de
estimadores muestrales.

Estadísticos descriptivos de interés.

a) Medidas de tendencia central: Media Aritmética, Mediana, moda, Semisuma de los


extremos.

ESTADÍSTICA APLICADA
b) Medidas de dispersión: Varianza, Desviación Típica, Amplitud (rango), Coeficiente
de Variación.

¿Cómo organizar datos en intervalos de clases?

1. Obtener el rango de datos.


2. Determinar el número de intervalos.
3. Calcular la longitud de los intervalos.
4. Construir la tabla de distribución de frecuencias.
5. Estimar los estadísticos descriptivos de interés.
6. Elaborar gráficas descriptivas: histograma, polígono de frecuencias y ojiva u otras.
7. Concluir respecto a los resultados obtenidos.

¿Por qué organizar los datos en una tabla de distribución de frecuencias?

Representa un resumen de la información cuya exposición resulta ordenada, refrescante a la


vista de todos, más fácil para observar tendencias, facilita los cálculos de los estadísticos
descriptivos, mejora la percepción que se tiene sobre la tendencia de los datos y por
consiguiente del comportamiento del proceso o fenómeno en estudio. No solo se trata de
“embellecer” la presentación de los datos sino de mostrar al usuario menos acucioso una clara
tendencia del comportamiento más ajustado o cercano a la realidad del mismo. De eso se trata
el análisis descriptivo, en primera instancia, darle herramientas al experto para retratar con la
mayor objetividad posible el verdadero estado de su proceso o fenómeno en cuestión.

Tomando como referencia los datos depurados, emisión diaria de óxido de azufre:

1. Rango:
2. Número de intervalos:

3. Longitud de los intervalos:


4. Tabla de distribución de frecuencias:

Tabla 6. DISTRIBUCIÓN DE FRECUENCIAS PARA EL OXIDO DE AZUFRE (SO)


INTERVALO MARCA FRECUENCIA FRECUENCIA FRECUENCIA FRECUENCIA REL.
DE CLASE (Xi) ABS. REL. (%) ACUMULADA ACUMULADA (%)
(fi) (fri) (Fi) (Fri)
8.5 - 11.5 10 7 9.3 7 9.3
11.5 - 14.5 13 9 12.0 16 21.3

ESTADÍSTICA APLICADA
14.5 - 17.5 16 11 14.7 27 36.0
17.5 - 20.5 19 20 26.7 47 62.7
20.5 - 23.5 22 12 16.0 59 78.7
23.5 - 26.5 25 11 14.7 70 93.3
26.5 - 29.5 28 5 6.7 75 100
75 100

Algunas explicaciones importantes acerca de la construcción de una tabla de distribución de


frecuencias para datos agrupados en clases: Una vez aplicados los pasos del 1 al 3 para generar
el número de intervalos de clases y su longitud, se debe armar cada intervalo. Puedes comenzar
desde el menor de los datos y sumar la longitud obtenida en el numeral 3 a cada límite, de esta
manera obtendrás límites reales de clase, el límite superior es el límite inferior de la clase
siguiente, hasta completar el número total de intervalos de clase según el numeral 2. Puedes
comenzar unas décimas antes del menor de los datos y repetir lo mismo con la longitud de cada
clase o podrías hacer lo que se hizo aquí, comenzar 0.5 antes del menor de los datos y sumar la
longitud como en los casos anteriores. Cualquiera sea tú estilo, lo importante es que toda la
información disponible esté contenida entre el límite inferior de la primera clase y el límite
superior de la última clase, no te puedes dar el lujo de dejar información por fuera.

La marca de clase viene dada por la siguiente formula: donde son el


límite inferior y superior de la clase i, puedes ver que la marca de clase es el punto medio de
cada clase, se considera el representante de cada intervalo de clase. La frecuencia simple o
absoluta representa el número de datos contenidos dentro de cada clase, se trata de un
conteo; en este ejemplo el intervalo de clase (8.5 - 11.5) contiene 7 datos de producción de
óxido de azufre, el intervalo (17.5 - 20.5) contiene 20 datos de producción, el intervalo (26.5 -
29.5) que representa las máximas producciones diarias de óxido de azufre contiene 5 datos, es
decir en 5 días de los 80 días en que se desarrolló el período de observaciones, hubo
producciones entre 26.5 y 29.5 toneladas por día, etc. La frecuencia indica el tipo de unidad que
se observa, unidades producidas, estudiantes, naranjas, personas, etc.; en nuestro ejemplo la
frecuencia representa producción por día, es decir la frecuencia es días observados. La
frecuencia relativa simple representa el cociente entre el número de datos, frecuencia

simple, de un intervalo y el número de datos o tamaño de la muestra, esta expresión


representa la proporción de días en que se produjo cierta emisión de óxido En el ejemplo
desarrollado indica la proporción de días en que la producción de óxido
de azufre sea de 14.5 a 17.5 toneladas por día. , representa la proporción
de días en que se obtiene una producción de óxido de azufre entre 17.5 y 20.5 toneladas. De las
columnas de frecuencia simple y relativa se puede extraer información valiosa para fines
predictivos y otras tendencias, en este caso puntual observa que ambas frecuencias aumentan
hasta el intervalo (17.5 - 20.5) y luego comienzan a disminuir; la mayor frecuencia se registra en
este intervalo, todo esto tiene una lectura importante. Según lo anterior la media debe estar
dentro de este intervalo. La frecuencia acumulada simple o absoluta , puede expresarse así

ESTADÍSTICA APLICADA
donde son la frecuencia simple y la frecuencia acumulada
anterior a la frecuencia acumulada buscada, respectivamente. Se trata solo de una sencilla suma,
por ejemplo si deseas obtener la frecuencia acumulada de la clase 5 es decir
o también
. Este valor indica que hubo 59 días, datos, en que la producción
de óxido de azufre fue menor o igual a 23.5 toneladas. Por último la frecuencia relativa

acumulada se calcula de manera similar a la frecuencia relativa simple, y expresa


el porcentaje acumulado de valores menores o iguales en la muestra a cierto límite superior de
alguna clase i. Si se toma nuevamente la clase 5, entonces significa que el
78.7% de los días observados tuvieron una producción de óxido de azufre menor o igual a 23.5
toneladas o también que en el 78.7% de los días observados la producción de óxido de azufre
fue inferior o igual a 23.5 toneladas.

5. Estimar los estadísticos descriptivos de interés:

• Previamente quiero mostrarte los estadísticos calculados con los 75 datos sin ningún
arreglo:
Tabla 7. ESTADÍSTICOS DESCRIPTIVOS DE LOS DATOS SIN ARREGLO ALGUNO.
VARIABLE MEDIA MEDIANA DESVIACIÓN C.V. (%) MÍNIMO MÁXIMO
OXIDO 19.0 19.1 4.99 26.23 9.0 28.6
TON/DIA

La moda no fue estimada debido a que esta medida es muy inestable en el muestreo, lo que
significa que puede cambiar drásticamente cuando se alteran algunas condiciones de muestreo.
Es la medida descriptiva más débil. La media y la mediana, particularmente la media, son
medidas más representativas en el comportamiento de la tendencia central. A medida que la
distribución de los datos tiende a la simetría, la media resulta en la mejor medida de tendencia
central

• Se estimarán los estadísticos descriptivos con base a la tabla 6 de distribución de


frecuencias.

LA MEDIA.

De donde los son las marcas de clase y sus respectivas frecuencias simples.

LA MEDIANA.

ESTADÍSTICA APLICADA
Ubicación o posición, ¿en cuál intervalo se encuentra?:
El intervalo que contiene la mediana, será aquel cuya frecuencia acumulada sea la inmediata
superior o igual a su posición.
De acuerdo a este criterio, la mediana está ubicada dentro del intervalo de clase .

Luego,

Donde es el límite inferior real del intervalo o clase que contiene a la mediana; es la
frecuencia acumulada anterior al intervalo que contiene a la mediana; corresponde a la
frecuencia simple o absoluta del intervalo que contiene a la mediana y es la longitud del
intervalo de clase.

LA MODA.

Ubicación o posición, ¿en cuál intervalo se encuentra?: Al observar la columna de frecuencias


simples , el intervalo que contiene la moda, será aquel con mayor frecuencia.
De acuerdo a este criterio, la moda está ubicada dentro del intervalo de clases . Esto
sugiere que la distribución de la producción de óxido de azufre es unimodal.

Donde es el límite inferior real del intervalo o clase que contiene a la moda; es la diferencia
absoluta de la clase modal y la premodal; es la diferencia absoluta de la clase modal y la
postmodal y es la longitud de clase.

LA SEMISUMA DE LOS EXTREMOS.

Observa que una vez estimadas la media, mediana, moda y semisuma de los extremos los valores
son aproximadamente iguales a 19.0. Esto es un indicador de simetría alrededor de la media en
la información, lo que resulta favorable al momento de interpretar el comportamiento del
proceso o fenómeno.

ESTADÍSTICA APLICADA
LA VARIANZA.

Siendo los y las marcas de clase y sus respectivas frecuencias simples y la media
aritmética.

LA DESVIACIÓN TÍPICA O ESTANDAR.

EL COEFICIENTE DE VARIACIÓN.

Esta medida de dispersión o variabilidad indica que aproximadamente el 26.84% de los datos se
alejan de la media. En términos coloquiales, el 26.84% de los datos pueden ser potenciales
valores atípicos, aún depurados los datos. Para este ejemplo en cuestión, considero que la
variabilidad sigue siendo un tanto alta tratándose de que es una empresa que debería producir
de manera consistente cierta cantidad de óxido de azufre con la menor dispersión posible, habrá
que determinar los factores que producen esa alta variabilidad, lo que escapa a la estadística y
se convierte en un problema de ingeniería o administración del proceso. En general, cada
proceso o fenómeno en estudio presenta su propia variabilidad (causas comunes de variación),
grande o pequeña, la cual se debe estimar un gran número de veces a fin de determinar su punto
de equilibrio y poder inferir que en efecto su varianza, desviación típica, coeficiente de variación
o cualquier otra medida de dispersión es la correcta. Por supuesto, lo deseable es tener procesos
productivos simétricos y con poca variabilidad, lo que se traduce en pocas pérdidas. Para ello
deberán realizarse inversiones económicas de parte de los dueños del proceso, que logren
minimizar las variaciones por causas comunes y erradicar las variaciones por causas especiales.

A continuación se muestra en la tabla 8 un resumen de los estadísticos descriptivos para los


datos “puros”, sin ningún ordenamiento, y para los agrupados en intervalos de clases.

Tabla 8. ESTADÍSTICOS DESCRIPTIVOS DATOS NO AGRUPADOS Y AGRUPADOS.


DATOS VARIABLE MEDIA MEDIANA DESVIACIÓN C.V. (%) MÍNIMO MÁXIMO
No OXIDO 19.0 19.1 4.99 26.23 9.0 28.6
agrupados TON/DIA

ESTADÍSTICA APLICADA
Agrupados OXIDO 19.0 19.1 5.1 26.84 9.0 28.6
en clases. TON/DIA
6. Elaborar gráficas descriptivas: histograma, polígono de frecuencias u otras.

GRÁFICO 3. EL HISTOGRAMA.

7. Concluir respecto a los resultados obtenidos. Algunas conclusiones, entre otras, son:
Los estimadores de tendencia central, la media, mediana y moda resultaron muy
parecidos, lo que permite inferir que la distribución probabilística de la producción de
óxido de azufre por día es normal con media 19.0 y varianza 5.12. De la tabla 8 puede
concluirse que los estadísticos descriptivos estimados por ambos métodos son muy
similares, una vez depurados los datos, lo que hace presumir que la organización de la
información en una tabla de distribución de frecuencias con intervalos de clases, no solo
se traduce en una mejor presentación de la información sino que la esencia de la misma
se conserva muy a pesar que en este diseño los 75 datos están representados por apenas
siete marcas de clases con su respectiva frecuencia. El gráfico 3 indica una alta
proporción de datos alrededor de la media, lo que es muy importante ya que facilita la
predicción en la producción diaria del producto y te permitirá proyectar los resultados
con fines de planificación de la mano de obra, inversión económica, predicción y otras
ventajas que produce el conocer más a fondo el comportamiento de tus variables de
interés.

ESTADÍSTICA APLICADA

Anda mungkin juga menyukai