Anda di halaman 1dari 38

UNIDAD TEMATICA 1.

ESTADÍSTICA DESCRIPTIVA
INTRODUCCIÓN

Actualmente la estadística está visiblemente presente en el mundo que nos rodea, por
ejemplo, en las gráficas y tablas de los medios de comunicación, pero es mucho más que
números apilados y gráficas bonitas. La estadística es una ciencia que se ocupa de los
métodos y procedimientos para el estudio de los datos, es decir, para recogerlos, clasificarlos,
resumirlos y analizarlos. La estadística es una de las herramientas más utilizadas en la
investigación científica. Se dice que es el lenguaje universal de la ciencia, tanto en sus ramas
físicas como en las sociales.

Por este motivo, la estadística es una ciencia auxiliar en el estudio de otras ciencias, como la
ingeniería, la medicina, la sociología, la psicología, la economía, etcétera. Los gobiernos, el
mercado internacional y otras instituciones basan sus decisiones en el análisis de los datos
que le proporciona la estadística.

El objetivo de la estadística es hacer una inferencia –a partir de la información contenida en


una muestra– con base en un conjunto de datos de tamaño considerablemente grande
llamado población.

Si bien su estudio formal parece reciente, en realidad desde los inicios de la civilización se
han empleado “estadísticas” rudimentarias –símbolos grabados en pieles, rocas, palos de
madera y paredes de cuevas– para contar la cantidad de personas, animales o cosas. Ya en
tiempos tan antiguos como el año 3,000 a. C., los babilonios usaban pequeñas tablillas de
arcilla para recopilar datos sobre la producción agrícola. Hoy en día utilizamos sofisticados
programas de computación para analizar los datos y métodos bien estructurados para la
recolectarlos.

Como usuarios potenciales de la estadística, deberíamos ser capaces de dominar los


métodos de la estadística, ya sea para realizar el análisis de datos y la toma de decisiones
que requiere nuestra profesión o para comprender el lenguaje utilizado frecuentemente en
los medios de comunicación y así comprender el mundo que nos rodea.

El concepto de estadística

En forma intuitiva trabajamos todos los días con la estadística, desde que nos levantamos
cuando abrimos la llave del agua caliente para bañarnos y vamos regulando su temperatura
hasta que encontramos el punto exacto de cómo nos gusta, al sintonizar tu estación de radio
favorita, si miras el partido entre Guadalajara y el América en la televisión, si lees el periódico
o una revista, eres el blanco de un bombardeo de diversas figuras conocidas como
estadísticas. Tú puedes escuchar que la tienda departamental Soriana tiene la lechuga a 2
pesos, que Liverpool ofrece un descuento de 25%, que el Chicharito Hernández anotó 2
goles, que la bolsa de valores bajó dos puntos o que el Sol, Luís Miguel vendió un millón de
discos.
Estos ejemplos representan cada uno datos de estadística y, a menudo presentamos la
información estadística en gráficas y en forma numérica, y con ello podemos representar
una gran cantidad de información.
Estadística: Es el conjunto de técnicas que se emplean en la recolección, organización,
análisis e interpretación de datos.
Cuando hacemos una investigación acerca de un problema, el primer paso consiste en recolectar
datos relevantes, organizarlos de alguna manera y representarlos gráficamente, solo después de
esto podemos estar en posibilidad de analizarlos e interpretarlos y de esta manera sean útiles para
realizar la toma de decisiones.

El estudio de la estadística generalmente se divide en dos categorías,


las cuales son:
1) Estadística descriptiva, y
2) Estadística inferencial

Estadística Descriptiva:
Es el conjunto de métodos para organizar, resumir y presentar los datos de manera
informativa.

Ejemplo: En un sondeo de opinión sobre el futbol, se preguntó si conocían a Maradona y, se


encontró que 89% de las personas encuestadas lo conocían. El valor estadístico “89” describe el
porcentaje de cuántas personas encuestadas lo conocían de cada 100 que contestaron la
pregunta.

Estadística inferencial:
Conjunto de métodos utilizados para conocer (inferir) algo acerca de una población,
basándose en una muestra.

En el estudio de la estadística dos conceptos que tienen mucha importancia son la población y la
muestra porque de ello depende la interpretación que hagamos de la información que manejemos

Población: Es el conjunto de todos los posibles individuos,


objetos o medidas de interés.

Muestra: Una porción, o parte de la población de interés.


Para deducir algo acerca de una población, por razones de tiempo y costo casi siempre tomamos
una muestra de ella.

Un parámetro es una medida descriptiva de la población, por lo general se denotan con letras
griegas.

Un estadístico es una medida descriptiva de una muestra y se denota con letras romanas.

La diferencia entre un parámetro y un estadístico es importante cuando se usa la estadística


inferencial.

Tipos de variables
Una variable estadística es cada una de las características o cualidades que posee en los
individuos de una población.

Las variables cualitativas se refieren a características o cualidades que no pueden


ser medidas con números.

Ejemplos:

 Género 
  La afiliación religiosa 

 La afiliación política 
 Tipo de automóvil, 

 El estado de nacimiento 
 El color de ojos 
Estos datos se deben convertir a valores numéricos antes de que se trabaje con ellos. En este tipo
de datos nos interesa conocer cuántos o la proporción de ellos que tiene dicha característica, esta
información por lo general la presentamos en tablas o en gráficas de barras.

Una variable cuantitativa es la que se expresa mediante un número.

Ejemplos:
  El saldo de una cuenta de cheques 

 Las edades de un grupo de alumnos 
  La duración de una vela 

 El número de hijos en una familia 
 Número de operaciones comerciales que realiza una empresa 

Un dato cuantitativo se puede encontrar en cualquier disciplina; ingeniería, psicología, contabilidad,


economía, publicidad, etc.

Los datos de características cuantitativas se clasifican a su vez en:

Una variable discreta es aquella que toma valores aislados, es decir no admite valor
es intermedios entre dos valor es específicos. Por lo general son el resultado de un
conteo

Ejemplos
 El número de hermanos de 5 amigos: 2, 1, 0, 3.
 El número de habitaciones en un a casa.
 El número de alumnos inscritos en el curso de estadística.

Una variable continua es aquella que puede tomar valores comprendidos entre dos
números (intervalo) .Por lo general, las variables continuas resultan de la medición.

Ejemplos

 La presión a la que se encuentra inflada una llanta.


 La cantidad de producto contenida en un paquete de cereales
 El volumen de líquido contenido en un recipiente
Niveles de medición

Son el conjunto de datos estadísticos se obtienen mediante un proceso que comprende


la observación o medición de conceptos.

Ejemplos:

  Los ingresos anuales de una comunidad. 


  La calificación de los exámenes. 
 La cantidad de café por taza despachada por
una máquina vendedora. 
  La resistencia a la rotura de fibras plástico. 
 Porcentaje de azúcar en los cereales 

Las variables pueden corresponder a cuatro niveles de


medición:

1) Nominal: hace referencia a datos que sólo pueden clasificarse en categorías; existen sólo
conteos; no existe orden particular para los grupos. Ejemplo: color de ojos.

2) Ordinal: corresponde a aquellos datos que se pueden agrupar en categorías y “ordenarlas”


según algún tipo de gradación.
Ejemplo; nivel de dolor, nivel de preferencia.

3) De Intervalo: incluye todas las características de la escala ordinal, pero además la distancia
entre valores es constante pues los valores que toma este tipo de variables corresponde al
orden de los números naturales.
Ejemplo: número de hijos.

4) De Razón: tiene las características de la escala de intervalo, pero se agrega un punto cero
absoluto tal que significa ausencia del atributo y la razón o cociente de dos números es
significativo pudiéndose aplicarles todo tipo de instrumental matemático.
Ejemplo: ingreso familiar.
ESTADÍSTICA DESCRIPTIVA

Durante el estudio de la estadística descriptiva concretamente vamos a

a) Recolectar datos
b) Organizar los datos
c) Elegir la presentación de los datos
d) Realizar una descripción de los datos

Recolección de datos

La recolección de datos es la primera etapa de la estadística descriptiva. Se dice que los datos son
la materia prima de las investigaciones científicas y que aparecen siempre que se toman medidas
o se registran observaciones. Los datos pueden ser pesos y estaturas de estudiantes,
calificaciones, velocidades que alcanzan los carros deportivos en los primeros segundos,
observaciones del comportamiento de un ratón ante un nuevo medicamento, etcétera.
La mayoría de los estudios estadísticos se realizan sobre muestras debido al alto costo que tendría
el estudio de toda la población. Por ejemplo, interrogar a toda una población resultaría
prácticamente imposible y muy costoso, por lo cual conviene más trabajar con muestras no tan
grandes, pero sí cuidadosamente seleccionadas. Otro ejemplo: probar un nuevo medicamento
conlleva riesgos, por lo tanto no pueden utilizarse muestras numerosas de humanos, sino
pequeñas muestras rigurosamente cuidadas y controladas

Tipos de muestras

El tipo de muestra que resulta de interés principal para los especialistas en estadística es aquél
que es verdaderamente representativo de la población a partir de la cual se selecciona la
muestra. Es de vital importancia obtener buenos datos, ya que las inferencias se basan en las
estadísticas obtenidas a partir de éstos.

Los métodos que se usan para recolectar datos son


a) Encuesta
b) Experimento
c) Censo

En la encuesta los datos se obtienen al seleccionar algunos individuos de la población de interés.

En el experimento los datos se obtienen de un proceso diseñado exclusivamente con ese fin, por
ejemplo, los resultados de laboratorio obtenidos utilizando ratas o experimentos de simulación
relacionados con el estudio de la población.

El censo es un estudio estadístico realizado a toda la población.

En México el Instituto Nacional de Estadística y Geografía (INEGI) se encarga, entre otras


actividades, de realizar los censos poblacionales del país. El censo es generalmente muy costoso
y a veces imposible de realizar, por ello los especialistas toman muestras representativas –finitas
o infinitas– de la población. Esto requiere elegir procedimientos adecuados para
seleccionar elementos de una población que constituye una muestra.
La muestra debe ser aleatoria. Al menos existen cuatro diseños de muestras comúnmente
utilizados:

1) Muestreo aleatorio simple


2) Muestreo sistemático
3) Muestreo estratificado
4) Muestreo por conglomerado

Ahora investiga en qué consiste cada uno de ellos.

La recopilación de los datos estadísticos tomados directamente de las encuestas y de los


experimentos no tiene mucho sentido o da muy poca información acerca de la muestra cuando
éstos se presentan desorganizados. Actualmente la recolección de datos estadísticos sobre
situaciones que afectan a nuestras vidas se ha incrementado tanto en el mundo, que sería
imposible mantenerse al día si no fuera por la presentación de la información en una forma dirigida
o resumida.

Organización de Datos

Si se nos presenta un listado numeroso de datos –obtenidos por alguno de los métodos antes
mencionados– y están desordenados, su lectura no nos dirá mucho y se dificultará interpretarlos.
Así pues, resulta conveniente ordenarlos.

En estadística se consideran grupos de datos agrupados y no agrupados. Cuando la muestra es


“pequeña” no es necesario agruparlos, se pueden calcular los estadísticos y dar conclusiones
directamente del listado una vez ordenados los datos. En cambio, para muestras “grandes” es
necesario agruparlos en intervalos (se recomienda que el número de intervalos de clase sea igual
o mayor que 5, pero menor que 25, con esto se garantiza que las medidas que se obtengan a partir
de este método sean representativas).

Presentación de datos organizados.

Esta etapa de la estadística es necesaria para poder leer y describir fácilmente la información. Hay
tres formas de presentación de los datos recopilados y organizados: escrita, cuadros o tablas y
gráfica.
En la forma escrita se puede presentar la información como descripción, históricamente, como
informe o como resumen.
La presentación por medio de tablas tiene propósitos generales o específicos, vía la exposición
detallada de la información.
El último caso se emplea para adquirir un vasto conocimiento en un corto periodo, pero solo da un
valor aproximado de los hechos. Las diferentes graficas reciben nombres como histogramas,
polígonos, ojivas, diagramas de puntos, diagramas de líneas, diagramas de pastel,
pictogramas, diagramas de barras, etc.

Análisis de los datos presentados.

Los métodos empleados para analizar datos estadísticos son variados, desde la simple
observación de los datos hasta métodos complicados.
Los métodos matemáticos básicos aplicados y usados en un análisis estadístico son: análisis
estadístico simple, inducción estadística, análisis de series de tiempo, análisis de relaciones, etc.
Análisis estadístico simple.- Tiene dos tipos: paramétrico o no paramétrico; el primero de los
cuales se divide a su vez en descriptivo o probabilístico.

Inducción estadística.- Puede ser por medio del muestreo.

Análisis de series de tiempo.- Sirve para medir los cambios en los negocios y las actividades
económicas.

Análisis de relaciones.- Se aplica entre dos o más conjuntos de datos por ejemplo regresión
simple, múltiple, determinante, etc.

Interpretación de los datos analizados.


La interpretación se basa en el tipo de análisis aplicado y, específicamente, en los resultados
arrojados por el análisis.

La interpretación bien efectuada conducirá a conclusiones validas del estudio. Estas conclusiones
a su vez nos permitirán tomar decisiones correctas.

Ejemplo:
Si el propietario de una empresa desea tener éxito en su toma de decisiones, su gerente debe ser
capaz de tratar sistemáticamente con la incertidumbre misma, mediante evaluaciones y
aplicaciones cuidadosas de métodos estadísticos pertinentes a las actividades de la empresa. Así
en el área de ventas el método de presentación más conveniente sería por medio de gráficas y
tablas; en el área de investigación de mercados un método de análisis eficiente seria el muestreo
por medio de encuestas; en el área de producción un método de análisis adecuado sería el control
de calidad, etc.
La estadística permite a la gerencia el conocimiento y análisis de datos referentes a fenómenos o
hechos que se desenvuelven fuera de la empresa, pero cuyo conocimiento es fundamental para
ésta, en consonancia con una conducta racional de la misma en el ámbito económico en que se
halla incrustada.
Las empresas necesitan informes sobre producción, sobre cotizaciones de divisas extranjeras,
sobre población, sobre distribución de los ingresos de los residentes en sus zonas geográficas de
mercado… Es fácil comprender que un industrial necesita apropiarse de ciertas materias primas y
necesita conocer sus precios en moneda nacional o extranjera, y tener una idea lo más clara
posible de su probable evolución; debe conocer los precios de venta de la competencia, la parte
del mercado total del que dispone, cuales son las características más apreciadas de sus productos,
la composición social y económica de su clientela, los consumidores en potencia de sus productos
y las causas por las que no son efectivos, todo lo cual implica consultar estadísticas hechas por
otros o hacerlas por sí mismos.
Se puede hacer uso también de la estadística para necesidades básicas, para cálculos importantes
que serán utilizados en la toma de decisiones a través de herramientas como la estadística
inferencial con los métodos de análisis pertinentes.

Abuso de la estadística.

También es posible el mal uso de los datos estadísticos, originados por supuestos falsos, sesgo
del usuario, indicación falsa de relación, comparación impropia, errores de operaciones
matemáticas, datos inadecuados, etc.
Datos no agrupados y datos agrupados

Medidas de tendencia central y de dispersión

Los datos no agrupados, son el conjunto de observaciones que se presentan en su forma original
tal y como fueron recolectados y no proporcionan mucha información hasta que los procesamos
de alguna forma.

Estos datos pueden pertenecer a la población o ser una muestra de alguna población.

Para comprender mejor estos conceptos a continuación se incluyen ejemplos de datos no


agrupados.

Los siguientes datos son los sueldos mensuales (en miles) de los 12 empleados que tiene una
compañía
$3.00 $4.00 $5.00 $8.00
$2.00 $7.00 $3.00 $2.00
$4.00 $6.00 $2.00 $8.00

Las siguientes observaciones son los datos en milímetros, que se obtuvieron como resultado de
la medición de tornillos en un proceso de fabricación.
11 2 3 4 5 8 8 2 6 9

Cuando manejamos datos es importante saber de dónde provienen, si de una población o de una
muestra, recordemos que provienen de una población cuando estamos hablando del total de
datos que queremos analizar y de una muestra cuando los datos son tan solo una parte de ella.

Para nuestros ejemplos anteriores los datos de los sueldos representan una población ya que nos
habla del total de los sueldos de los trabajadores de una compañía, mientras que las medidas de
los tornillos corresponden a una muestra ya que tan solo medimos un subconjunto de ellos.

Recuerda.
Un parámetro es una medida descriptiva de la población, por lo general se denota con letras
griegas.
Un estadístico es una medida descriptiva de una muestra y se denota con letras romanas.
En las siguientes páginas se describen las principales medidas de tendencia central y de
dispersión con sus ejemplos y la solución de los mismos.

Medidas de tendencia central

Las medidas de tendencia central se utilizan para representar a través de un solo valor una
serie de datos, son valores alrededor de los cuáles tienden a agruparse las observaciones.

Media
La media, es la suma de todos los valores dividida entre el número de valores, también se le
conoce como promedio.

La media de una muestra y de una población se calcula de la misma manera, su significado es


el mismo y sólo difieren en la notación que usamos.

Analicemos el siguiente ejemplo. Calculemos la media de los sueldos mensuales (en miles) de
los 12 trabajadores de la compañía, los datos son:
$3.00 $4.00 $5.00 $8.00
$2.00 $7.00 $3.00 $2.00
$4.00 $6.00 $2.00 $8.00

Como ya sabemos que corresponden a una población debemos utilizar la siguiente expresión,

El significado que tiene el valor 4.5 es que el valor medio de los sueldos por hora de los 12
trabajadores de la compañía es decir de $4.5
Veamos el ejemplo 2.
Para el caso de los tornillos definimos que correspondían a una muestra ya que sólo son una
parte de ellos por lo que para calcular el valor medio tenemos que utilizar la siguiente expresión:

Utilizando los datos arrojados de las medidas de los tornillos,

El significado del valor 5.8 que arrojó el cálculo representa el valor medio que tienen los tornillos
que medimos en el proceso de producción.

Propiedades:
 La media aritmética viene expresada en las mismas unidades que la variable. 

 En su cálculo intervienen todos los valores de la distribución. 
 Es el centro de gravedad de toda la distribución, representando a todos los valores
 observados. 

 Es única. 
 Su principal inconveniente es que se ve afectada por los valores extremadamente grandes o
pequeños de la distribución. 

Mediana
Para el caso de mediana, es el valor que divide en dos partes iguales (punto medio) a un conjunto
de datos después de que se ordenan de mayor a menor o de menor a mayor.

Se denota como Md y representa lo mismo para la población que para la muestra, su cálculo es
igual, cabe resaltar que:

  -Si el número de valores es impar, la mediana es el valor medio del arreglo. 


 -Si el número de valores es par, la mediana será el promedio de los dos valores
centrales. 

Ejemplo 1 de mediana.
Si tenemos el siguiente conjunto de datos 1, 3, 2, 5, 7, 9, 3, 8, 8, 7, 6

Primero los ordenamos de mayor a menor o de menor a mayor, es indistinto ya que el resultado
es el mismo.
1, 2, 3, 3, 5, 6, 7, 7, 8, 8, 9

Como podemos observar son 11 datos y por lo tanto es un número impar, por lo que la mediana
(Md) será el valor medio del arreglo, en nuestro caso es el 6, que es el punto medio que divide al
conjunto de datos en dos partes iguales; cinco datos a cada lado del valor central conforme al
siguiente arreglo.

1, 2, 3, 3, 5, 6, 7, 7, 8, 8, 9

Por lo tanto la mediana es igual a 6 ó Md=6


Ahora veamos el ejemplo 2 de mediana:
Si tenemos el siguiente conjunto de datos 1, 3, 2, 5, 7, 3, 8, 8, 7, 6
Primero los ordenamos de mayor a menor ó de menor a mayor; la forma en que decidas hacerlo
es indistinto ya que el resultado es el mismo.

1, 2, 3, 3, 5, 6, 7, 7, 8, 8,

Como podemos observar son 10 datos que es un número par, por lo que la mediana (Md) será
el valor medio del arreglo. En este caso debemos tomar los dos valores centrales que son el 5 y
6, y obtener su promedio que es 5.5 el cual es el punto medio entre 5 y 6 que divide al conjunto
de datos en dos partes iguales; cinco datos a cada lado del valor central.

1, 2, 3, 3, 5, 5.5, 6, 7, 7, 8, 8, 9

Por lo tanto la mediana es igual a 5.5 o Md= (5+6)/2=5.5

Moda

La moda es el valor que aparece con mayor frecuencia en una serie de datos.

Se denota como Mo y representa lo mismo para la población que para la muestra y su cálculo es
igual. Decimos que la moda es única o unimodal cuando solo un dato es el que aparece más
veces.

Ejemplo 3:

Dado el siguiente conjunto de datos:


1, 2, 3, 5, 6, 7, 7, 8, 9

La moda está representada por el 7 ya que es el valor que aparece en más ocasiones, 2 veces
y se representaría de la siguiente forma Decimos que es bimodal cuando dos datos son lo que
aparecen más veces y en igual cantidad.

Para ayudarte a comprenderlo, te mostramos el siguiente ejemplo. Dado el siguiente conjunto


de datos:
1, 2, 3, 3, 5, 6, 7, 7, 8, 9

La moda está representada por los datos 3 y 7 que son los que aparecen más veces y en igual
cantidad, 2 veces cada uno y queda representado de la siguiente manera

Decimos que es multimodal cuando más de dos datos son los que aparecen más veces y en
igual cantidad.

Dado el siguiente conjunto de datos:


1 , 2, 3, 3, 3, 5, 5, 5, 6, 7, 7, 8, 9, 9, 9

La moda está representada por los datos 3, 5 y 9 que son los que aparecen más veces y en
igual cantidad, 3 veces cada uno.
Sin embargo puede no existir moda cuando ningún dato se repite en más de una ocasión.

Dado el siguiente conjunto de datos: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10

No existe moda ya que ni un dato aparece en más de una ocasión por lo tanto Mo no existe, hay
que tener cuidado de no representar la moda de la siguiente forma Mo=0, cuando no existe ya
que esta expresión me está indicando que el valor que más se repite es el 0.

Medidas de dispersión

En el análisis estadístico es importante conocer la variabilidad de las observaciones alrededor de


su valor central. La variabilidad se mide de dos maneras: como distancia entre observaciones
seleccionadas o bien como desviaciones promedio de las observaciones individuales respecto a
un valor central.

Rango

Es la diferencia entre las medidas mayor y menor de un conjunto de datos.

Se denota con la literal R y representa lo mismo para la población que para la muestra y su cálculo
es exactamente igual

Rango (R)= dato mayor – dato menor

Dado el siguiente conjunto de datos: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10

El rango queda determinado por 9 que es la diferencia entre 10 y 1

R=10-1=9

Desviación media

Es el promedio de los valores absolutos de las desviaciones con respecto de la media.


Para su aplicación, analicemos el siguiente ejemplo.
Las siguientes observaciones son los datos en milímetros, que se obtuvieron como resultado de
la medición de tornillos en un proceso de fabricación.

11, 2, 3, 4

Determine e interprete la desviación media.


La desviación media es el promedio según el cual las observaciones individuales se desvían
respecto de la media, para obtener la desviación media tenemos que conocer la media del
conjunto de datos

La desviación media entonces es:

Por lo tanto la desviación media es de 3 milímetros, lo que significa que tiene una variación de 3
milímetros con respecto de la media que es de 5 milímetros.

Varianza

Es el promedio del cuadrado de desviaciones alrededor de la media para un conjunto de números.


A continuación se muestra el siguiente ejemplo. Veamos en qué consiste.

Una fábrica realizó una producción especial de 4 tornillos de las siguientes medidas 2, 4, 6 y 8
milímetros, para un modelo prototipo de un aparato de comunicación. ¿Determine cuál es la
varianza en milímetros de estos tornillos?
Solución
Lo que se nos pide calcular es la varianza, en este caso las observaciones que representan la
medida en milímetros de una población de tornillos, además se encuentran desagrupados (lista),
para determinar la desviación media tenemos que calcular primero el valor medio de los datos y
luego calculamos la varianza

2  4  6  8 20
  5
4 4
Para calcular la desviación media absoluta lo podemos realizar en de la siguiente forma:
N _
  Xi  X 

2 2 2 2
2 i 1   2  5  4  5  6  5  8  5  32   12  12  32 9  1  1  9
  N  4  4  4 5

La varianza para este conjunto de datos es de 5 milímetros.

Ejemplo:
Los siguientes datos representan las ventas en litros de gasolina que se hicieron en el lapso de
una hora, en una máquina de una estación de servicio de la franquicia PEMEX en la ciudad de
México. 15, 12, 13, 16, 15.5, 14.5, 13.5, 12.5 ¿Determine la varianza del combustible vendido en
ese lapso de tiempo?
Solución:

_ 12  12.5  13  13.5  14.5  15  15.5  16


X  14
8
Para calcular la varianza lo podemos realizar en una tabla y posteriormente aplicar la formula.

DATOS  _  _ 2
XX  X  X 
   
   
12 12 – 14 = -2 4
12.5 12.5 – 14 = -1.5 2.25
13 13 – 14 = -1 1
13.5 13.5 – 14 = -0.5 0.25
14.5 14.5 – 14 = 0.5 0.25
15 15 – 14 = 1 1
15.5 15.5 – 14 = 1.5 2.25
16 16 – 14 = 2 4
N=8 15
n  _ 2
X  X 
 i 
i  1  15
s2  n1  7  2.1429 Es la varianza, para este conjunto de datos.

Desviación estándar o típica

Es la raíz cuadrada de la varianza que es la media aritmética de las desviaciones cuadradas de


los datos respecto a la media.

Ejemplo:

Una fábrica realizó una producción especial de 4 tornillos de las siguientes medidas 2, 4, 6 y 8
milímetros, para un modelo prototipo de un aparato de comunicación. ¿Determine cuál es la
varianza en milímetros de estos tornillos?

Solución
Lo que se nos pide calcular es la desviación estándar, en este caso las observaciones representan
la medida en milímetros de una población de tornillos, además se encuentran desagrupados (lista),
para determinar la desviación estándar tenemos que calcular primero el valor medio de los datos,
calculamos la varianza y de esta obtenemos la raíz cuadrada la cual es el valor de la desviación
estándar.

2  4  6  8 20
  5
4 4

Para calcular la varianza lo podemos realizar de la siguiente forma:


N _
  i  X 
X
2 2 2 2 2 2 2 2
 2  i 1    2  5  4  5  6  5  8  5   3   1  1  3  9  1  1  9  5
N 4 4 4

La varianza para este conjunto de datos es de 5 milímetros. Y obteniendo la raíz cuadrada de este
valor se obtiene como resultado 2.2361 que es la desviación estándar de los datos, lo cual nos
indica que los valores se encuentran alejados del centro en esa proporción
Medidas de dispersión relativas

Hay ocasiones en las que deseamos comparar la relación que existe de dos o más medidas de
dispersión para un conjunto de datos. Por ejemplo, la desviación estándar de la distribución de
horas de sueño, en relación con la desviación estándar de la distribución del consumo de tazas
de café. Esto es imposible porque no podemos comparar directamente estos valores dado que
sus unidades son diferentes entonces, el coeficiente de variación es útil cuando se desea
comparar la diversificación de dos o más conjuntos de datos en relación con el nivel general de
los valores y por lo tanto con la media de cada conjunto.

Coeficiente de variación
El coeficiente de variación (CV) se define como la proporción que hay entre la desviación estándar
y la media de un conjunto de datos y su resultado se expresa en porcentaje.

Las expresiones siguientes nos permiten determinar el coeficiente de variación para una
población o una muestra.

Ejemplo
La compañía Minera de Guerrero, S. A. de C. V., al cierre de sus actividades mensuales obtuvo
los siguientes datos: la producción media de oro para la mina norte fue de 200 kilogramos con
una desviación estándar de 5 kilogramos por día, mientras que para la mina sur la producción
media fue de 150 kilogramos con una desviación de 4 kilogramos por día. Obtener el coeficiente
de variación.

Solución:
Si hacemos una comparación absoluta la variabilidad del nivel de producción fue mayor para la
mina norte, a causa de una mayor desviación estándar, pero si lo que queremos evaluar es el
nivel de producción lo que tenemos que comparar son los respectivos coeficientes de variación.

Para la mina norte: Para la mina sur:


 5  4 
CV   100 2.5% CV   100 2.6667%
 200  150
Datos Agrupados

Los datos agrupados son aquellos datos que podemos organizar o agrupar en una tabla de
distribución de frecuencias y que nos proporcionan información adicional.

A continuación te mostramos un ejemplo:


Los datos en milímetros que se obtuvieron como resultado de la medición de tornillos en un
proceso de fabricación, se pueden agrupar en una distribución de frecuencia simple quedando
como se muestra:

DATOS (mm) FRECUENCIA


2 7
3 3
4 5
5 4
6 3
7 1
8 3
9 2
11 2
30

Aquí podemos observar que el tornillo de 2 milímetros aparece 7 veces, el de 3 milímetros


aparece 3 veces, el de 4 aparece 5 veces así sucesivamente hasta llegar al de 11 milímetros que
aparece 2 veces y en total tenemos que el número de observaciones que se hicieron fueron de
30, lo cual no podíamos concluir cuando estos datos se encontraban desagrupados.

Distribución de frecuencias por clases

Cuando se tiene una gran cantidad de datos numéricos es muy útil distribuirlos o agruparlos en
una distribución de frecuencias por clases o categorías y determinar el número de individuos que
pertenecen a cada una de ellas (frecuencia). El número de clases se representa con la letra
“k“

Existen diferentes métodos para encontrar el número de clases, de acuerdo con los expertos
estas no deben de ser menores a 5 ni mayores a 20. Si son menores que 5 no se estarían
verificando muchas particularidades de ella y si por el contrario fuesen más de 20 también se
estaría perdiendo información relevante.

Un método más preciso es aplicar la regla de Sturgers indica que el valor k se obtiene mediante
la ecuación:

k  1  3.3log( n)

Si tomamos los datos en milímetros que se obtuvieron como resultado de la medición de tornillos
en un proceso de fabricación y que está representada en la anterior distribución de frecuencias.

Como observamos n = 30 y aplicando la formula obtenemos el siguiente resultado


k  1  3.3log( n)
k  1  3.3log( 30)
k  1  (3.3)(1.48)
k  1  4.87
k  5.87  6

El valor de k que se obtuvo es de 5.87, esto equivale a que se tuvieron 5 clases y la fracción de
otra, para resolver generalmente redondeamos al valor entero siguiente que para este caso es 6
clases.

Ancho de clase
Es la diferencia entre el límite superior y el límite inferior de una clase.

Intervalo de clase. Los intervalos de clase usados en la distribución de frecuencias deben


ser iguales.
Determinamos un intervalo de clase sugerido usando la fórmula:

𝑟𝑎𝑛𝑔𝑜
Intervalo de clase =
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒𝑠 i  DM  Dm
k
Donde:
DM= dato mayor
Dm= dato menor
k= número de clases

Para nuestro ejemplo de la medición de tornillos en milímetros el intervalo queda representado


11  2 9
por: i    1.50  2 en forma aproximada.
6 6
Considerando los datos de la Tabla, la distribución de frecuencias que representa los datos que
se obtuvieron como resultado de la medición de tornillos en milímetros de en un proceso de
fabricación, la agrupación en una tabla de distribución de frecuencias por clase queda
representada de la siguiente forma (Tabla B). Si observamos en nuestra tabla de distribución de
frecuencias el valor 2 que es el dato menor lo utilizamos como el primer dato de nuestra
agrupación por clases, la segunda clase estará representada por el valor de 2 más el valor del
intervalo el cual es 2, por lo que el valor es 4. Para la tercera clase es 4+2=6 y así sucesivamente
hasta terminar con la última clase como se observa en la tabla:
Tabla B
No. de clase Clase Frecuencia absoluta
1 2 a 3 10
2 4 a 5 9
3 6 a 7 4
4 8 a 9 5
5 10 a 11 2
6 12 a 13 0
30

Para reforzar este importante tema que se usa mucho en Estadística, en la Tabla C se expone
otro ejemplo pero con datos distintos a lo que se ha estado manejando.

De este modo, cuando ya tenemos construida la tabla para una distribución de frecuencias que
tiene clases del mismo tamaño, el intervalo de clase se puede obtener considerando el límite
inferior de una clase menos el límite inferior de la clase anterior; para la siguiente distribución de
frecuencias se determina de la siguiente forma:

i  18  13  5
i  33  28  5
i  23  18  5
i  13  8  5
Tabla C
Número de
Clase Frecuencia
clase
1 8 a 12 1
2 13 a 17 12
3 18 a 22 10
4 23 a 27 5
5 28 a 32 1
6 33 a 37 1
Total 30

Límite de clase
Cuando tenemos una distribución de frecuencias a la cual subdividimos en clases, a las fronteras
entre ellas, se le llama límites de clase los cuales se denominan, límite inferior de clase y límite
superior de clase. En la siguiente tabla el límite inferior de la primera clase es 8 y el límite superior
de la primera clase es 12. Para la cuarta clase el límite inferior es 23 y el límite superior 27.

Número de
Clase Frecuencia
clase
1 8 a 12 1
2 13 a 17 12
3 18 a 22 10
4 23 a 27 5
5 28 a 32 1
6 33 a 37 1
Total 30
Dado que los datos con los que vamos a trabajar son continuos, es necesario obtener los límites
reales de clase que son el límite real inferior y el límite real superior los cuales se obtienen
promediando el límite superior de una clase más el límite inferior de la clase siguiente entre dos.
Para la clase No. 1 el límite real superior queda determinado por LRS  (12+13)/2=12.5
El límite real inferior se obtiene restando al límite real superior el valor del intervalo

Número de Límite real inferior Límite real


Clase Frecuencia
clase de clase superior de clase
1 8 a 12 1 7.5 12.5
2 13 a 17 12 12.5 17.5
3 18 a 22 10 17.5 22.5
4 23 a 27 5 22.5 27.5
5 28 a 32 1 27.5 32.5
6 33 a 37 1 32.5 37.5
Total 30
Para la clase No. 2 el límite real superior queda determinado por LRS  (17+18)/2=17.5
Aquí podemos observar que el límite real superior para una clase es el límite real inferior para la
siguiente, otro punto importante es que al valor inicial debemos restarle el mismo valor que le
adicionamos al límite superior, y al valor superior de la última clase también tenemos que sumarle
la misma cantidad.

Marca de clase
La marca de clase es el valor central de la misma que se obtiene al sumar el límite real inferior
más el límite real superior entre dos
Para la clase No. 1 MC=(7.5+12.5)/2=10

La marca de clase es el valor más representativo de la clase.

Número de Marca de Clase


Clase Frecuencia
clase MC
1 8 a 12 1 10
2 13 a 17 12 15
3 18 a 22 10 20
4 23 a 27 5 25
5 28 a 32 1 30
6 33 a 37 1 35
Total 30
Frecuencia absoluta
La frecuencia absoluta es el número de veces que aparece en la muestra dicho valor de la
variable.

Número de
Clase Frecuencia
clase
1 8 a 12 1
2 13 a 17 12
3 18 a 22 10
4 23 a 27 5
5 28 a 32 1
6 33 a 37 1
Total 30

Frecuencia relativa
La frecuencia relativa de una clase se obtiene dividiendo la frecuencia de clase entre la frecuencia
total.

Frecuencia
Horas de estudio Frecuencia relativa
absoluta (f)
8-12 1 1/30=.0333
13-17 12 12/30=.400
18-22 10 10/30=.333
23-27 5 5/30=.1667
28-32 1 1/30=.0333
33-37 1 1/30=.0333
Total 30 30/30=1

Tabla de presentación de datos.

Frecuencia Frecuencia Límite Límite Marca de


Horas de Frecuencia
acumulada relativa real real clase
estudio absoluta ( f )
fa fr inferior superior
8-12 1 1 1/30=.0333 7.5 12.5 10
13-17 12 13 12/30=.400 12.5 17.5 15
18-22 10 23 10/30=.333 17.5 22.5 20
23-27 5 28 5/30=.1667 22.5 27.5 25
28-32 1 29 1/30=.0333 27.5 32.5 30
33-37 1 30 1/30=.0333 32.5 37.5 35
Total 30 30/30=1
Medidas de tendencia central

Son el conjunto de valores alrededor de los cuales las observaciones tienden a agruparse, y
permiten ubicar lo que en algún sentido pudiera llamarse el centro de un conjunto de datos.

Dentro de las medidas de tendencia central más comúnmente usadas encontramos a la media
aritmética, la mediana, la moda.

Cuando se mide una característica de una población esta se define como parámetro y se
representa habitualmente con una letra del alfabeto griego. Así mismo cuando se mide una
característica de una muestra se denomina estadístico la cual se representa con una letra del
alfabeto latino.

Media aritmética

Para el cálculo de la media cuando los datos se encuentran agrupados en una distribución de
frecuencia por clase, debemos considerar que la marca de clase es el valor más representativo
de la clase.

Por lo tanto la media aritmética de una población se representa con la letra µ (mu), y la media
aritmética de una muestra se representa con (equis barra).

Las expresiones para encontrar la media son:

Observamos que el cálculo para la media cuando los datos corresponden a una población y a
una muestra se realiza de la misma forma.
Ejemplo
Determine la media para el siguiente conjunto de datos:

Número de Marca de clase


Clase Frecuencia
clase MC
1 8 a 12 1 10
2 13 a 17 12 15
3 18 a 22 10 20
4 23 a 27 5 25
5 28 a 32 1 30
6 33 a 37 1 35
Total 30

Una forma fácil de encontrar la media consiste en multiplicar la marca de clase por la frecuencia
y aplicar la expresión que definimos para calcular la media.

Número de clase Frecuencia Marca de clase (f)(MC)


Clase
(f) MC
1 8 a 12 1 10 10
2 13 a 17 12 15 180
3 18 a 22 10 20 200
4 23 a 27 5 25 125
5 28 a 32 1 30 30
6 33 a 37 1 35 35
Total 30 580

 fMC 580
 x1
 19.33
N 30

Con lo cual podemos concluir que la media se encuentra en la tercera clase.

Mediana
La mediana es el valor central que divide en dos subgrupos a un conjunto de datos ordenados en
forma ascendente o descendente, y se representa con Md. En donde el 50% de los datos es
menor a la mediana y el otro 50% de los datos es mayor a la mediana.

Para determinar la mediana cuando los datos se encuentran agrupados en una distribución de
frecuencias por clase, está se encuentra en la clase cuya frecuencia acumulada es igual o excede
a la mitad total de observaciones (n/2). Y se realiza mediante la expresión siguiente:

n  Donde:
  faA  Md = Mediana.
M d  LRI  2 i LRI = Límite real inferior de la clase que contiene a la mediana.
 fc 
  faA = Frecuencia acumulada anterior a la clase que contiene a la mediana.
  fc = frecuencia de clase que contiene a la mediana.
i = intervalo.
Determine la mediana de la siguiente distribución de frecuencias.

Número de clase Clase Frecuencia (f)


1 8 a 12 1
2 13 a 17 12
3 18 a 22 10
4 23 a 27 5
5 28 a 32 1
6 33 a 37 1
Total 30

Solución
La metodología nos indica que la mediana se encuentra en la clase cuya frecuencia
acumulada es igual o excede a la mitad total de observaciones, entonces lo primero que
debemos calcular es la frecuencia acumulada agregando una columna adicional donde
colocamos este valor.

Número de clase Clase Frecuencia (f) Frecuencia


acumulada (fa)
1 8 a 1 12 1
2 13 a 12 17 13
3 18 a 10 22 23
4 23 a 5 27 28
5 28 a 1 32 29
6 33 a 1 37 30
30
Observando la tabla anterior, la clase que contiene a la mediana es la clase número tres
dado que la frecuencia acumulada es 23 cuyo valor excede a la mitad del total de
observaciones “n que es 30.
Así la fórmula que nos permite establecer el valor de la mediana es:
n 
  faA 
M d  LRI  2 i
 fc 
 
 
Acorde con esta expresión también necesitamos del límite inferior real de clase, que, como
sabemos es límite superior de la clase más el límite inferior de la siguiente entre dos
17 18
Para la clase tres el límite real inferior se calcula (LRI) LRI   17.5
2
El intervalo realizando la diferencia del límite inferior de clase siguiente menos el límite
inferior de la clase anterior i 18 13  5
Número de Clase Frecuencia Frecuencia Límite real Límite real Marca de
clase (f) acumulada (fa) inferior de clase superior de clase
clase (MC)

1 8 a 12 1 1 7.5 12.5 10
2 13 a 17 12 13 12.5 17.5 15
3 18 a 22 10 23 17.5 22.5 20
4 23 a 27 5 28 22.5 27.5 25
5 28 a 32 1 29 27.5 32.5 30
6 33 a 37 1 30 32.5 37.5 35
30

Con estos datos podemos aplicar la fórmula expuesta anteriormente.

 30 
  13 
Md  17.5  2  5
 10 
 
 
 15 13 
Md  17.5   5
 10 
 2
Md  17.5   5
 10 
Md  17.5 1
Md  18.5

El valor de la mediana por lo tanto es 18.5

Moda

La moda es el dato que se repite un mayor número de veces, cuando un único dato se repite un
número de veces decimos que es unimodal, cuando dos datos se repiten en igual número de
veces decimos que es bimodal y cuando más de dos datos se repiten igual número de veces
decimos que es multimodal. Si ningún dato se repite entonces no hay moda.

En una distribución de frecuencias simple o agrupada por clases, la moda se encuentra en la


clase o en el dato que contiene el mayor número de observaciones, cuando los datos se
encuentran agrupados por clases, la marca de clase es el dato más representativo de ella.
Ejemplo 11
Para el siguiente conjunto de datos determine la moda
Número de Clase Frecuencia (f) Frecuencia Límite real Límite real Marca de
clase acumulada (fa) inferior de superior de clase
clase clase (MC)
1 8 a 12 1 1 7.5 12.5 10
2 13 a 17 12 13 12.5 17.5 15
3 18 a 22 10 23 17.5 22.5 20
4 23 a 27 5 28 22.5 27.5 25
5 28 a 32 1 29 27.5 32.5 30
6 33 a 37 1 30 32.5 37.5 35
30

Solución
Observando la tabla anterior, la moda se encuentra en la clase de 13 a 17, en la que se encuentra
el mayor número de observaciones, y la marca de clase que es 15 como el valor representativo.
En este caso decimos que es unimodal.

Si dos clases tienen el mismo número de observaciones será bimodal y si tres clases o más tienen
igual número de observaciones entonces será multimodal.

Medidas de dispersión

En esta ocasión y considerando el tema que le corresponde a esta Unidad Temática abordaremos
las principales medidas de dispersión que se calculan en estadística. A continuación se presenta
en qué consiste cada una de ellas con sus respectivos ejemplos. Iniciemos.

Dispersión
Las medidas de variabilidad o de dispersión son el conjunto de valores que permiten establecer
que tan alejados o aproximados se encuentran los datos del valor central.

Un valor grande en una medida de dispersión nos indica que el dato se encuentra muy alejado del
valor central, por el contrario si el valor en una medida de dispersión es muy pequeño nos indica
que el valor se encuentra muy cercano al valor central.

Relación con las medidas de tendencia central


Las medidas de tendencia central son el conjunto de valores alrededor de los cuales las
observaciones tienden a agruparse, y permiten ubicar lo que en algún sentido pudiera llamarse el
centro de un conjunto de datos y las medidas de dispersión ubican que tan alejados están estos
datos del centro
Amplitud de rango o recorrido

La amplitud de rango o recorrido es la diferencia que existe entre el dato más grande y el más
pequeño de un conjunto de datos.
El cálculo se hace de la misma forma para una población o para una muestra, la diferencia radica
en que si los datos se encuentran agrupados o no están agrupados. Las siguientes expresiones
nos permiten determinar la amplitud de rango o recorrido.

Datos agrupados
R  LSF  LII
R = Recorrido o Rango.
LSF = Límite superior de la clase más alta.
LII = Límite inferior de la clase más baja.

Ejemplo
Determine la amplitud de rango o recorrido de la siguiente distribución de frecuencias.

Número de Frecuencia
Clase
clase (f)
1 8 a 12 1
2 13 a 17 12
3 18 a 22 10
4 23 a 27 5
5 28 a 32 1
6 33 a 37 1
Total 30

Solución
Lo que se nos pide calcular es la amplitud de rango o recorrido de esta distribución de frecuencias
pero no nos indican si corresponde al total de los datos o a una muestra, para este caso no es
relevante debido a que se calcula de la misma manera, además se encuentran agrupados, para
determinar la amplitud de rango o recorrido solamente tenemos que buscar el límite real superior
de la última clase y el límite real inferior de la primer clase y aplicar la formula, R  LSF  LII el
límite real superior de la última clase es 37, mientras que el límite inferior de la primer clase es 8,
sustituyendo en la formula tenemos R  37  8  29 podemos concluir que entre el dato mayor y el
dato menor hay una diferencia de 29 unidades.
Varianza

Podemos observar que la varianza para una población y una muestra solo difiere entre el número
de datos que utilizamos para calcularla
Determine la varianza para el siguiente conjunto de datos:

Número de clase Clase Frecuencia


1 8 a 12 1
2 13 a 17 12
3 18 a 22 10
4 23 a 27 5
5 28 a 32 1
6 33 a 37 1
Total 30

Una forma fácil de encontrar la varianza es mediante una tabla en donde realicemos las
operaciones previas y posteriormente utilizar la fórmula correspondiente:

Número de clase Marca de (f)(MC)


Frecuencia
Clase Clase
(f)
MC
1 8 a 12 1 10 10 87.5 87.05
2 13 a 17 12 15 180 18.75 224.99
3 18 a 22 10 20 200 0.45 4.49
4 23 a 27 5 25 125 32.15 160.74
5 28 a 32 1 30 30 113.85 113.85
6 33 a 37 1 35 35 245.55 245.55
Total 30 580 836.67
Desviación estándar

La desviación estándar es la raíz cuadrada de la varianza por lo tanto queda expresada de la


siguiente forma:

Por tanto

Medida de asimetría

Decimos que una distribución es simétrica cuando su mediana, su moda y su media aritmética
coinciden.

Decimos que una distribución es asimétrica a la derecha si las frecuencias (absolutas o relativas)
descienden más lentamente por la derecha que por la izquierda.

Si las frecuencias descienden más lentamente por la izquierda que por la derecha diremos que
la distribución es asimétrica a la izquierda.

Existen varias medidas de la asimetría de una distribución de frecuencias.

Una de ellas es el Coeficiente de Asimetría de Pearson:

Donde:

Sk=Coeficiente de sesgo o asimetría


μ=Media
Md=Mediana
σ=Desviación estándar
Su valor es cero cuando la distribución es simétrica, positivo (mayor que cero) cuando existe
asimetría a la derecha y negativo (menor que cero) cuando existe asimetría a la izquierda.

Medida de apuntamiento o curtosis

Miden la mayor o menor cantidad de datos que se agrupan en torno a la moda. Se definen 3 tipos
de distribuciones según su grado de curtosis:

Distribución mesocúrtica: Presenta un grado de concentración medio alrededor de los valores


centrales de la variable (el mismo que presenta una distribución normal).

Distribución leptocúrtica: Presenta un elevado grado de concentración alrededor de los


valores centrales de la variable.

Distribución platicúrtica: Presenta un reducido grado de concentración alrededor de los


valores centrales de la variable.
Teorema de Chebyshev: Establece que por menos 1-(1/k2) valores caerán dentro de ( ±) k
desviaciones estándar de la media, cualquiera que sea la forma de la distribución de frecuencias

Regla empírica: Establece que para una distribución de frecuencias simétrica de campana, cerca
de 68% de las observaciones estará dentro de más menos una desviación estándar ( ±1σ) de la
media (μ); cerca de 95% de las observaciones estará dentro demás menos dos desviaciones
estándar de la media (±2σ) de la media (μ); alrededor de 99.7% estará dentro de más menos tres
desviaciones estándar de la media (±3σ) de la media (μ). Esta regla solo se puede aplicar cuando
los datos están normalmente distribuidos, es decir, que la gráfica es simétrica.

Medidas de dispersión relativas


Hay ocasiones en las que deseamos comparar la relación que existe de dos o más medidas de
dispersión para un conjunto de datos. Por ejemplo, la desviación estándar de la distribución de
horas de sueño, en relación con la desviación estándar de la distribución del consumo de tazas
de café. Esto es prácticamente imposible, porque no podemos comparar directamente estos
valores dado que sus unidades son diferentes, entonces, el coeficiente de variación es útil cuando
se desea comparar la diversificación de dos o más conjuntos de datos en relación con el nivel
general de los valores y por lo tanto con la media de cada conjunto.

Coeficiente de variación
El coeficiente de variación (CV) se define como la proporción que hay entre la desviación estándar
y la media de un conjunto de datos y su resultado se expresa en porcentaje.

Las expresiones siguientes nos permiten determinar el coeficiente de variación para una
población o una muestra.

Ejemplo
La compañía Minera de Guerrero, S. A. de C. V., al cierre de sus actividades mensuales obtuvo
los siguientes datos:
La producción media de oro para la mina norte fue de 200 kilogramos con una desviación
estándar de 5 kilogramos por día, mientras que para la mina sur la producción media fue de 150
kilogramos con una desviación de 4 kilogramos por día.

Solución:
Si hacemos una comparación absoluta la variabilidad del nivel de producción fue mayor para la
mina norte, a causa de una mayor desviación estándar, pero si lo que queremos evaluar es el
nivel de producción lo que tenemos que comparar son los respectivos coeficientes de variación.

Para la mina norte: Para la mina sur:


 5  4 
CV   100 2.5% CV   100 2.6667%
 200  150

Con relación al nivel promedio de producción de cada mina podemos concluir que la mina del
sur tuvo una mayor variabilidad en la producción que la mina del norte.

Representación gráfica de las distribuciones de frecuencia

Histograma
El histograma es una gráfica de barras, que se utiliza para representar datos agrupados en donde
cada clase se representa por una barra y estas se muestran en forma continua en el eje de
horizontal partiendo del límite real inferior de la primera clase hasta el límite real superior de esa
clase, que a su vez es el inicio de la siguiente clase y así sucesivamente para todas las clases
de la tabla de datos.

Ejemplo
La siguiente tabla representa las horas de estudio utilizadas por los alumnos de la materia de
probabilidad y estadística y la frecuencia representa los casos encontrados.

La construcción de esta tabla de datos agrupados ya la explicamos anteriormente, y está


compuesta por seis clases, con un intervalo de 5 unidades.

Tabla de presentación de datos.


Frecuencia Frecuencia Límite real Límite real Marca de
Horas de Frecuencia
acumulada relativa inferior superior clase
estudio absoluta (f)
fa fr
8-12 1 1 1/30=.0333 7.5 12.5 10
13-17 12 13 12/30=.400 12.5 17.5 15
18-22 10 23 10/30=.333 17.5 22.5 20
23-27 5 28 5/30=.1667 22.5 27.5 25
28-32 1 29 1/30=.0333 27.5 32.5 30
33-37 1 30 1/30=.0333 32.5 37.5 35
Total 30 30/30=1

Para este conjunto de datos agrupados en la gráfica:


La primera clase inicia en 7.5 y termina en 12.5 con una frecuencia de 1 (barra café)
La segunda clase inicia en 12.5 y termina en 17.5 con una frecuencia de 12 (barra rosa) La
tercera clase inicia en 17.5 y termina en 22.5 con una frecuencia de 10 (barra azul) La cuarta
clase inicia en 22.5 y termina en 27.5 con una frecuencia de 5 (barra verde) La quinta clase
inicia en 27.5 y termina en 32.5 con una frecuencia de 1(barra café)
La sexta clase que inicia en 32.5 y termina en 37.5 con una frecuencia de 1 (barra café)
Polígono de frecuencia

El polígono de frecuencia se obtiene al unir el punto medio de cada clase por medio de una línea
continua y se puede construir sobre un histograma como se muestra en la siguiente gráfica el
cual debe de iniciar en el punto medio de la clase anterior a la que tenemos con una frecuencia
cero y termina en la clase posterior a la final con una frecuencia igual a cero.

Ojiva
Se construye sobre un polígono de frecuencia acumulada y resulta al unir el límite inferior de la
primera clase con el punto más alto en el límite inferior de la siguiente clase conforme se muestra
en la siguiente imagen.
Otros tipos de gráficas

Gráficas de pastel
Es un círculo que se encuentra dividido en segmentos, y el tamaño de cada segmento varía de
acuerdo con el porcentaje de cada categoría

Ejemplo
La siguiente tabla muestra el tipo y la cantidad de habitantes que ocupan un edificio que se
encuentra en la Ciudad de México.

Tipo de habitantes Cantidad


Hombres 50
Mujeres 45
Niños 15
Niñas 25

Podemos observar que el segmento de los hombres está compuesto por 50 personas que
representan el 37% de la población que ocupa el edificio, el segmento de las mujeres está
compuesto por 45 personas que ocupan el 33% de la población, el segmento de los niños está
compuesto por 15 personas que representan el 11% mientras que la niñas son 25 que
representan el 19%.

Anda mungkin juga menyukai