ESTADÍSTICA DESCRIPTIVA
INTRODUCCIÓN
Actualmente la estadística está visiblemente presente en el mundo que nos rodea, por
ejemplo, en las gráficas y tablas de los medios de comunicación, pero es mucho más que
números apilados y gráficas bonitas. La estadística es una ciencia que se ocupa de los
métodos y procedimientos para el estudio de los datos, es decir, para recogerlos, clasificarlos,
resumirlos y analizarlos. La estadística es una de las herramientas más utilizadas en la
investigación científica. Se dice que es el lenguaje universal de la ciencia, tanto en sus ramas
físicas como en las sociales.
Por este motivo, la estadística es una ciencia auxiliar en el estudio de otras ciencias, como la
ingeniería, la medicina, la sociología, la psicología, la economía, etcétera. Los gobiernos, el
mercado internacional y otras instituciones basan sus decisiones en el análisis de los datos
que le proporciona la estadística.
Si bien su estudio formal parece reciente, en realidad desde los inicios de la civilización se
han empleado “estadísticas” rudimentarias –símbolos grabados en pieles, rocas, palos de
madera y paredes de cuevas– para contar la cantidad de personas, animales o cosas. Ya en
tiempos tan antiguos como el año 3,000 a. C., los babilonios usaban pequeñas tablillas de
arcilla para recopilar datos sobre la producción agrícola. Hoy en día utilizamos sofisticados
programas de computación para analizar los datos y métodos bien estructurados para la
recolectarlos.
El concepto de estadística
En forma intuitiva trabajamos todos los días con la estadística, desde que nos levantamos
cuando abrimos la llave del agua caliente para bañarnos y vamos regulando su temperatura
hasta que encontramos el punto exacto de cómo nos gusta, al sintonizar tu estación de radio
favorita, si miras el partido entre Guadalajara y el América en la televisión, si lees el periódico
o una revista, eres el blanco de un bombardeo de diversas figuras conocidas como
estadísticas. Tú puedes escuchar que la tienda departamental Soriana tiene la lechuga a 2
pesos, que Liverpool ofrece un descuento de 25%, que el Chicharito Hernández anotó 2
goles, que la bolsa de valores bajó dos puntos o que el Sol, Luís Miguel vendió un millón de
discos.
Estos ejemplos representan cada uno datos de estadística y, a menudo presentamos la
información estadística en gráficas y en forma numérica, y con ello podemos representar
una gran cantidad de información.
Estadística: Es el conjunto de técnicas que se emplean en la recolección, organización,
análisis e interpretación de datos.
Cuando hacemos una investigación acerca de un problema, el primer paso consiste en recolectar
datos relevantes, organizarlos de alguna manera y representarlos gráficamente, solo después de
esto podemos estar en posibilidad de analizarlos e interpretarlos y de esta manera sean útiles para
realizar la toma de decisiones.
Estadística Descriptiva:
Es el conjunto de métodos para organizar, resumir y presentar los datos de manera
informativa.
Estadística inferencial:
Conjunto de métodos utilizados para conocer (inferir) algo acerca de una población,
basándose en una muestra.
En el estudio de la estadística dos conceptos que tienen mucha importancia son la población y la
muestra porque de ello depende la interpretación que hagamos de la información que manejemos
Un parámetro es una medida descriptiva de la población, por lo general se denotan con letras
griegas.
Un estadístico es una medida descriptiva de una muestra y se denota con letras romanas.
Tipos de variables
Una variable estadística es cada una de las características o cualidades que posee en los
individuos de una población.
Ejemplos:
Género
La afiliación religiosa
La afiliación política
Tipo de automóvil,
El estado de nacimiento
El color de ojos
Estos datos se deben convertir a valores numéricos antes de que se trabaje con ellos. En este tipo
de datos nos interesa conocer cuántos o la proporción de ellos que tiene dicha característica, esta
información por lo general la presentamos en tablas o en gráficas de barras.
Ejemplos:
El saldo de una cuenta de cheques
Las edades de un grupo de alumnos
La duración de una vela
El número de hijos en una familia
Número de operaciones comerciales que realiza una empresa
Una variable discreta es aquella que toma valores aislados, es decir no admite valor
es intermedios entre dos valor es específicos. Por lo general son el resultado de un
conteo
Ejemplos
El número de hermanos de 5 amigos: 2, 1, 0, 3.
El número de habitaciones en un a casa.
El número de alumnos inscritos en el curso de estadística.
Una variable continua es aquella que puede tomar valores comprendidos entre dos
números (intervalo) .Por lo general, las variables continuas resultan de la medición.
Ejemplos
Ejemplos:
1) Nominal: hace referencia a datos que sólo pueden clasificarse en categorías; existen sólo
conteos; no existe orden particular para los grupos. Ejemplo: color de ojos.
3) De Intervalo: incluye todas las características de la escala ordinal, pero además la distancia
entre valores es constante pues los valores que toma este tipo de variables corresponde al
orden de los números naturales.
Ejemplo: número de hijos.
4) De Razón: tiene las características de la escala de intervalo, pero se agrega un punto cero
absoluto tal que significa ausencia del atributo y la razón o cociente de dos números es
significativo pudiéndose aplicarles todo tipo de instrumental matemático.
Ejemplo: ingreso familiar.
ESTADÍSTICA DESCRIPTIVA
a) Recolectar datos
b) Organizar los datos
c) Elegir la presentación de los datos
d) Realizar una descripción de los datos
Recolección de datos
La recolección de datos es la primera etapa de la estadística descriptiva. Se dice que los datos son
la materia prima de las investigaciones científicas y que aparecen siempre que se toman medidas
o se registran observaciones. Los datos pueden ser pesos y estaturas de estudiantes,
calificaciones, velocidades que alcanzan los carros deportivos en los primeros segundos,
observaciones del comportamiento de un ratón ante un nuevo medicamento, etcétera.
La mayoría de los estudios estadísticos se realizan sobre muestras debido al alto costo que tendría
el estudio de toda la población. Por ejemplo, interrogar a toda una población resultaría
prácticamente imposible y muy costoso, por lo cual conviene más trabajar con muestras no tan
grandes, pero sí cuidadosamente seleccionadas. Otro ejemplo: probar un nuevo medicamento
conlleva riesgos, por lo tanto no pueden utilizarse muestras numerosas de humanos, sino
pequeñas muestras rigurosamente cuidadas y controladas
Tipos de muestras
El tipo de muestra que resulta de interés principal para los especialistas en estadística es aquél
que es verdaderamente representativo de la población a partir de la cual se selecciona la
muestra. Es de vital importancia obtener buenos datos, ya que las inferencias se basan en las
estadísticas obtenidas a partir de éstos.
En el experimento los datos se obtienen de un proceso diseñado exclusivamente con ese fin, por
ejemplo, los resultados de laboratorio obtenidos utilizando ratas o experimentos de simulación
relacionados con el estudio de la población.
Organización de Datos
Si se nos presenta un listado numeroso de datos –obtenidos por alguno de los métodos antes
mencionados– y están desordenados, su lectura no nos dirá mucho y se dificultará interpretarlos.
Así pues, resulta conveniente ordenarlos.
Esta etapa de la estadística es necesaria para poder leer y describir fácilmente la información. Hay
tres formas de presentación de los datos recopilados y organizados: escrita, cuadros o tablas y
gráfica.
En la forma escrita se puede presentar la información como descripción, históricamente, como
informe o como resumen.
La presentación por medio de tablas tiene propósitos generales o específicos, vía la exposición
detallada de la información.
El último caso se emplea para adquirir un vasto conocimiento en un corto periodo, pero solo da un
valor aproximado de los hechos. Las diferentes graficas reciben nombres como histogramas,
polígonos, ojivas, diagramas de puntos, diagramas de líneas, diagramas de pastel,
pictogramas, diagramas de barras, etc.
Los métodos empleados para analizar datos estadísticos son variados, desde la simple
observación de los datos hasta métodos complicados.
Los métodos matemáticos básicos aplicados y usados en un análisis estadístico son: análisis
estadístico simple, inducción estadística, análisis de series de tiempo, análisis de relaciones, etc.
Análisis estadístico simple.- Tiene dos tipos: paramétrico o no paramétrico; el primero de los
cuales se divide a su vez en descriptivo o probabilístico.
Análisis de series de tiempo.- Sirve para medir los cambios en los negocios y las actividades
económicas.
Análisis de relaciones.- Se aplica entre dos o más conjuntos de datos por ejemplo regresión
simple, múltiple, determinante, etc.
La interpretación bien efectuada conducirá a conclusiones validas del estudio. Estas conclusiones
a su vez nos permitirán tomar decisiones correctas.
Ejemplo:
Si el propietario de una empresa desea tener éxito en su toma de decisiones, su gerente debe ser
capaz de tratar sistemáticamente con la incertidumbre misma, mediante evaluaciones y
aplicaciones cuidadosas de métodos estadísticos pertinentes a las actividades de la empresa. Así
en el área de ventas el método de presentación más conveniente sería por medio de gráficas y
tablas; en el área de investigación de mercados un método de análisis eficiente seria el muestreo
por medio de encuestas; en el área de producción un método de análisis adecuado sería el control
de calidad, etc.
La estadística permite a la gerencia el conocimiento y análisis de datos referentes a fenómenos o
hechos que se desenvuelven fuera de la empresa, pero cuyo conocimiento es fundamental para
ésta, en consonancia con una conducta racional de la misma en el ámbito económico en que se
halla incrustada.
Las empresas necesitan informes sobre producción, sobre cotizaciones de divisas extranjeras,
sobre población, sobre distribución de los ingresos de los residentes en sus zonas geográficas de
mercado… Es fácil comprender que un industrial necesita apropiarse de ciertas materias primas y
necesita conocer sus precios en moneda nacional o extranjera, y tener una idea lo más clara
posible de su probable evolución; debe conocer los precios de venta de la competencia, la parte
del mercado total del que dispone, cuales son las características más apreciadas de sus productos,
la composición social y económica de su clientela, los consumidores en potencia de sus productos
y las causas por las que no son efectivos, todo lo cual implica consultar estadísticas hechas por
otros o hacerlas por sí mismos.
Se puede hacer uso también de la estadística para necesidades básicas, para cálculos importantes
que serán utilizados en la toma de decisiones a través de herramientas como la estadística
inferencial con los métodos de análisis pertinentes.
Abuso de la estadística.
También es posible el mal uso de los datos estadísticos, originados por supuestos falsos, sesgo
del usuario, indicación falsa de relación, comparación impropia, errores de operaciones
matemáticas, datos inadecuados, etc.
Datos no agrupados y datos agrupados
Los datos no agrupados, son el conjunto de observaciones que se presentan en su forma original
tal y como fueron recolectados y no proporcionan mucha información hasta que los procesamos
de alguna forma.
Estos datos pueden pertenecer a la población o ser una muestra de alguna población.
Los siguientes datos son los sueldos mensuales (en miles) de los 12 empleados que tiene una
compañía
$3.00 $4.00 $5.00 $8.00
$2.00 $7.00 $3.00 $2.00
$4.00 $6.00 $2.00 $8.00
Las siguientes observaciones son los datos en milímetros, que se obtuvieron como resultado de
la medición de tornillos en un proceso de fabricación.
11 2 3 4 5 8 8 2 6 9
Cuando manejamos datos es importante saber de dónde provienen, si de una población o de una
muestra, recordemos que provienen de una población cuando estamos hablando del total de
datos que queremos analizar y de una muestra cuando los datos son tan solo una parte de ella.
Para nuestros ejemplos anteriores los datos de los sueldos representan una población ya que nos
habla del total de los sueldos de los trabajadores de una compañía, mientras que las medidas de
los tornillos corresponden a una muestra ya que tan solo medimos un subconjunto de ellos.
Recuerda.
Un parámetro es una medida descriptiva de la población, por lo general se denota con letras
griegas.
Un estadístico es una medida descriptiva de una muestra y se denota con letras romanas.
En las siguientes páginas se describen las principales medidas de tendencia central y de
dispersión con sus ejemplos y la solución de los mismos.
Las medidas de tendencia central se utilizan para representar a través de un solo valor una
serie de datos, son valores alrededor de los cuáles tienden a agruparse las observaciones.
Media
La media, es la suma de todos los valores dividida entre el número de valores, también se le
conoce como promedio.
Analicemos el siguiente ejemplo. Calculemos la media de los sueldos mensuales (en miles) de
los 12 trabajadores de la compañía, los datos son:
$3.00 $4.00 $5.00 $8.00
$2.00 $7.00 $3.00 $2.00
$4.00 $6.00 $2.00 $8.00
Como ya sabemos que corresponden a una población debemos utilizar la siguiente expresión,
El significado que tiene el valor 4.5 es que el valor medio de los sueldos por hora de los 12
trabajadores de la compañía es decir de $4.5
Veamos el ejemplo 2.
Para el caso de los tornillos definimos que correspondían a una muestra ya que sólo son una
parte de ellos por lo que para calcular el valor medio tenemos que utilizar la siguiente expresión:
El significado del valor 5.8 que arrojó el cálculo representa el valor medio que tienen los tornillos
que medimos en el proceso de producción.
Propiedades:
La media aritmética viene expresada en las mismas unidades que la variable.
En su cálculo intervienen todos los valores de la distribución.
Es el centro de gravedad de toda la distribución, representando a todos los valores
observados.
Es única.
Su principal inconveniente es que se ve afectada por los valores extremadamente grandes o
pequeños de la distribución.
Mediana
Para el caso de mediana, es el valor que divide en dos partes iguales (punto medio) a un conjunto
de datos después de que se ordenan de mayor a menor o de menor a mayor.
Se denota como Md y representa lo mismo para la población que para la muestra, su cálculo es
igual, cabe resaltar que:
Ejemplo 1 de mediana.
Si tenemos el siguiente conjunto de datos 1, 3, 2, 5, 7, 9, 3, 8, 8, 7, 6
Primero los ordenamos de mayor a menor o de menor a mayor, es indistinto ya que el resultado
es el mismo.
1, 2, 3, 3, 5, 6, 7, 7, 8, 8, 9
Como podemos observar son 11 datos y por lo tanto es un número impar, por lo que la mediana
(Md) será el valor medio del arreglo, en nuestro caso es el 6, que es el punto medio que divide al
conjunto de datos en dos partes iguales; cinco datos a cada lado del valor central conforme al
siguiente arreglo.
1, 2, 3, 3, 5, 6, 7, 7, 8, 8, 9
1, 2, 3, 3, 5, 6, 7, 7, 8, 8,
Como podemos observar son 10 datos que es un número par, por lo que la mediana (Md) será
el valor medio del arreglo. En este caso debemos tomar los dos valores centrales que son el 5 y
6, y obtener su promedio que es 5.5 el cual es el punto medio entre 5 y 6 que divide al conjunto
de datos en dos partes iguales; cinco datos a cada lado del valor central.
1, 2, 3, 3, 5, 5.5, 6, 7, 7, 8, 8, 9
Moda
La moda es el valor que aparece con mayor frecuencia en una serie de datos.
Se denota como Mo y representa lo mismo para la población que para la muestra y su cálculo es
igual. Decimos que la moda es única o unimodal cuando solo un dato es el que aparece más
veces.
Ejemplo 3:
La moda está representada por el 7 ya que es el valor que aparece en más ocasiones, 2 veces
y se representaría de la siguiente forma Decimos que es bimodal cuando dos datos son lo que
aparecen más veces y en igual cantidad.
La moda está representada por los datos 3 y 7 que son los que aparecen más veces y en igual
cantidad, 2 veces cada uno y queda representado de la siguiente manera
Decimos que es multimodal cuando más de dos datos son los que aparecen más veces y en
igual cantidad.
La moda está representada por los datos 3, 5 y 9 que son los que aparecen más veces y en
igual cantidad, 3 veces cada uno.
Sin embargo puede no existir moda cuando ningún dato se repite en más de una ocasión.
No existe moda ya que ni un dato aparece en más de una ocasión por lo tanto Mo no existe, hay
que tener cuidado de no representar la moda de la siguiente forma Mo=0, cuando no existe ya
que esta expresión me está indicando que el valor que más se repite es el 0.
Medidas de dispersión
Rango
Se denota con la literal R y representa lo mismo para la población que para la muestra y su cálculo
es exactamente igual
R=10-1=9
Desviación media
11, 2, 3, 4
Por lo tanto la desviación media es de 3 milímetros, lo que significa que tiene una variación de 3
milímetros con respecto de la media que es de 5 milímetros.
Varianza
Una fábrica realizó una producción especial de 4 tornillos de las siguientes medidas 2, 4, 6 y 8
milímetros, para un modelo prototipo de un aparato de comunicación. ¿Determine cuál es la
varianza en milímetros de estos tornillos?
Solución
Lo que se nos pide calcular es la varianza, en este caso las observaciones que representan la
medida en milímetros de una población de tornillos, además se encuentran desagrupados (lista),
para determinar la desviación media tenemos que calcular primero el valor medio de los datos y
luego calculamos la varianza
2 4 6 8 20
5
4 4
Para calcular la desviación media absoluta lo podemos realizar en de la siguiente forma:
N _
Xi X
2 2 2 2
2 i 1 2 5 4 5 6 5 8 5 32 12 12 32 9 1 1 9
N 4 4 4 5
Ejemplo:
Los siguientes datos representan las ventas en litros de gasolina que se hicieron en el lapso de
una hora, en una máquina de una estación de servicio de la franquicia PEMEX en la ciudad de
México. 15, 12, 13, 16, 15.5, 14.5, 13.5, 12.5 ¿Determine la varianza del combustible vendido en
ese lapso de tiempo?
Solución:
DATOS _ _ 2
XX X X
12 12 – 14 = -2 4
12.5 12.5 – 14 = -1.5 2.25
13 13 – 14 = -1 1
13.5 13.5 – 14 = -0.5 0.25
14.5 14.5 – 14 = 0.5 0.25
15 15 – 14 = 1 1
15.5 15.5 – 14 = 1.5 2.25
16 16 – 14 = 2 4
N=8 15
n _ 2
X X
i
i 1 15
s2 n1 7 2.1429 Es la varianza, para este conjunto de datos.
Ejemplo:
Una fábrica realizó una producción especial de 4 tornillos de las siguientes medidas 2, 4, 6 y 8
milímetros, para un modelo prototipo de un aparato de comunicación. ¿Determine cuál es la
varianza en milímetros de estos tornillos?
Solución
Lo que se nos pide calcular es la desviación estándar, en este caso las observaciones representan
la medida en milímetros de una población de tornillos, además se encuentran desagrupados (lista),
para determinar la desviación estándar tenemos que calcular primero el valor medio de los datos,
calculamos la varianza y de esta obtenemos la raíz cuadrada la cual es el valor de la desviación
estándar.
2 4 6 8 20
5
4 4
La varianza para este conjunto de datos es de 5 milímetros. Y obteniendo la raíz cuadrada de este
valor se obtiene como resultado 2.2361 que es la desviación estándar de los datos, lo cual nos
indica que los valores se encuentran alejados del centro en esa proporción
Medidas de dispersión relativas
Hay ocasiones en las que deseamos comparar la relación que existe de dos o más medidas de
dispersión para un conjunto de datos. Por ejemplo, la desviación estándar de la distribución de
horas de sueño, en relación con la desviación estándar de la distribución del consumo de tazas
de café. Esto es imposible porque no podemos comparar directamente estos valores dado que
sus unidades son diferentes entonces, el coeficiente de variación es útil cuando se desea
comparar la diversificación de dos o más conjuntos de datos en relación con el nivel general de
los valores y por lo tanto con la media de cada conjunto.
Coeficiente de variación
El coeficiente de variación (CV) se define como la proporción que hay entre la desviación estándar
y la media de un conjunto de datos y su resultado se expresa en porcentaje.
Las expresiones siguientes nos permiten determinar el coeficiente de variación para una
población o una muestra.
Ejemplo
La compañía Minera de Guerrero, S. A. de C. V., al cierre de sus actividades mensuales obtuvo
los siguientes datos: la producción media de oro para la mina norte fue de 200 kilogramos con
una desviación estándar de 5 kilogramos por día, mientras que para la mina sur la producción
media fue de 150 kilogramos con una desviación de 4 kilogramos por día. Obtener el coeficiente
de variación.
Solución:
Si hacemos una comparación absoluta la variabilidad del nivel de producción fue mayor para la
mina norte, a causa de una mayor desviación estándar, pero si lo que queremos evaluar es el
nivel de producción lo que tenemos que comparar son los respectivos coeficientes de variación.
Los datos agrupados son aquellos datos que podemos organizar o agrupar en una tabla de
distribución de frecuencias y que nos proporcionan información adicional.
Cuando se tiene una gran cantidad de datos numéricos es muy útil distribuirlos o agruparlos en
una distribución de frecuencias por clases o categorías y determinar el número de individuos que
pertenecen a cada una de ellas (frecuencia). El número de clases se representa con la letra
“k“
Existen diferentes métodos para encontrar el número de clases, de acuerdo con los expertos
estas no deben de ser menores a 5 ni mayores a 20. Si son menores que 5 no se estarían
verificando muchas particularidades de ella y si por el contrario fuesen más de 20 también se
estaría perdiendo información relevante.
Un método más preciso es aplicar la regla de Sturgers indica que el valor k se obtiene mediante
la ecuación:
k 1 3.3log( n)
Si tomamos los datos en milímetros que se obtuvieron como resultado de la medición de tornillos
en un proceso de fabricación y que está representada en la anterior distribución de frecuencias.
El valor de k que se obtuvo es de 5.87, esto equivale a que se tuvieron 5 clases y la fracción de
otra, para resolver generalmente redondeamos al valor entero siguiente que para este caso es 6
clases.
Ancho de clase
Es la diferencia entre el límite superior y el límite inferior de una clase.
𝑟𝑎𝑛𝑔𝑜
Intervalo de clase =
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒𝑠 i DM Dm
k
Donde:
DM= dato mayor
Dm= dato menor
k= número de clases
Para reforzar este importante tema que se usa mucho en Estadística, en la Tabla C se expone
otro ejemplo pero con datos distintos a lo que se ha estado manejando.
De este modo, cuando ya tenemos construida la tabla para una distribución de frecuencias que
tiene clases del mismo tamaño, el intervalo de clase se puede obtener considerando el límite
inferior de una clase menos el límite inferior de la clase anterior; para la siguiente distribución de
frecuencias se determina de la siguiente forma:
i 18 13 5
i 33 28 5
i 23 18 5
i 13 8 5
Tabla C
Número de
Clase Frecuencia
clase
1 8 a 12 1
2 13 a 17 12
3 18 a 22 10
4 23 a 27 5
5 28 a 32 1
6 33 a 37 1
Total 30
Límite de clase
Cuando tenemos una distribución de frecuencias a la cual subdividimos en clases, a las fronteras
entre ellas, se le llama límites de clase los cuales se denominan, límite inferior de clase y límite
superior de clase. En la siguiente tabla el límite inferior de la primera clase es 8 y el límite superior
de la primera clase es 12. Para la cuarta clase el límite inferior es 23 y el límite superior 27.
Número de
Clase Frecuencia
clase
1 8 a 12 1
2 13 a 17 12
3 18 a 22 10
4 23 a 27 5
5 28 a 32 1
6 33 a 37 1
Total 30
Dado que los datos con los que vamos a trabajar son continuos, es necesario obtener los límites
reales de clase que son el límite real inferior y el límite real superior los cuales se obtienen
promediando el límite superior de una clase más el límite inferior de la clase siguiente entre dos.
Para la clase No. 1 el límite real superior queda determinado por LRS (12+13)/2=12.5
El límite real inferior se obtiene restando al límite real superior el valor del intervalo
Marca de clase
La marca de clase es el valor central de la misma que se obtiene al sumar el límite real inferior
más el límite real superior entre dos
Para la clase No. 1 MC=(7.5+12.5)/2=10
Número de
Clase Frecuencia
clase
1 8 a 12 1
2 13 a 17 12
3 18 a 22 10
4 23 a 27 5
5 28 a 32 1
6 33 a 37 1
Total 30
Frecuencia relativa
La frecuencia relativa de una clase se obtiene dividiendo la frecuencia de clase entre la frecuencia
total.
Frecuencia
Horas de estudio Frecuencia relativa
absoluta (f)
8-12 1 1/30=.0333
13-17 12 12/30=.400
18-22 10 10/30=.333
23-27 5 5/30=.1667
28-32 1 1/30=.0333
33-37 1 1/30=.0333
Total 30 30/30=1
Son el conjunto de valores alrededor de los cuales las observaciones tienden a agruparse, y
permiten ubicar lo que en algún sentido pudiera llamarse el centro de un conjunto de datos.
Dentro de las medidas de tendencia central más comúnmente usadas encontramos a la media
aritmética, la mediana, la moda.
Cuando se mide una característica de una población esta se define como parámetro y se
representa habitualmente con una letra del alfabeto griego. Así mismo cuando se mide una
característica de una muestra se denomina estadístico la cual se representa con una letra del
alfabeto latino.
Media aritmética
Para el cálculo de la media cuando los datos se encuentran agrupados en una distribución de
frecuencia por clase, debemos considerar que la marca de clase es el valor más representativo
de la clase.
Por lo tanto la media aritmética de una población se representa con la letra µ (mu), y la media
aritmética de una muestra se representa con (equis barra).
Observamos que el cálculo para la media cuando los datos corresponden a una población y a
una muestra se realiza de la misma forma.
Ejemplo
Determine la media para el siguiente conjunto de datos:
Una forma fácil de encontrar la media consiste en multiplicar la marca de clase por la frecuencia
y aplicar la expresión que definimos para calcular la media.
fMC 580
x1
19.33
N 30
Mediana
La mediana es el valor central que divide en dos subgrupos a un conjunto de datos ordenados en
forma ascendente o descendente, y se representa con Md. En donde el 50% de los datos es
menor a la mediana y el otro 50% de los datos es mayor a la mediana.
Para determinar la mediana cuando los datos se encuentran agrupados en una distribución de
frecuencias por clase, está se encuentra en la clase cuya frecuencia acumulada es igual o excede
a la mitad total de observaciones (n/2). Y se realiza mediante la expresión siguiente:
n Donde:
faA Md = Mediana.
M d LRI 2 i LRI = Límite real inferior de la clase que contiene a la mediana.
fc
faA = Frecuencia acumulada anterior a la clase que contiene a la mediana.
fc = frecuencia de clase que contiene a la mediana.
i = intervalo.
Determine la mediana de la siguiente distribución de frecuencias.
Solución
La metodología nos indica que la mediana se encuentra en la clase cuya frecuencia
acumulada es igual o excede a la mitad total de observaciones, entonces lo primero que
debemos calcular es la frecuencia acumulada agregando una columna adicional donde
colocamos este valor.
1 8 a 12 1 1 7.5 12.5 10
2 13 a 17 12 13 12.5 17.5 15
3 18 a 22 10 23 17.5 22.5 20
4 23 a 27 5 28 22.5 27.5 25
5 28 a 32 1 29 27.5 32.5 30
6 33 a 37 1 30 32.5 37.5 35
30
30
13
Md 17.5 2 5
10
15 13
Md 17.5 5
10
2
Md 17.5 5
10
Md 17.5 1
Md 18.5
Moda
La moda es el dato que se repite un mayor número de veces, cuando un único dato se repite un
número de veces decimos que es unimodal, cuando dos datos se repiten en igual número de
veces decimos que es bimodal y cuando más de dos datos se repiten igual número de veces
decimos que es multimodal. Si ningún dato se repite entonces no hay moda.
Solución
Observando la tabla anterior, la moda se encuentra en la clase de 13 a 17, en la que se encuentra
el mayor número de observaciones, y la marca de clase que es 15 como el valor representativo.
En este caso decimos que es unimodal.
Si dos clases tienen el mismo número de observaciones será bimodal y si tres clases o más tienen
igual número de observaciones entonces será multimodal.
Medidas de dispersión
En esta ocasión y considerando el tema que le corresponde a esta Unidad Temática abordaremos
las principales medidas de dispersión que se calculan en estadística. A continuación se presenta
en qué consiste cada una de ellas con sus respectivos ejemplos. Iniciemos.
Dispersión
Las medidas de variabilidad o de dispersión son el conjunto de valores que permiten establecer
que tan alejados o aproximados se encuentran los datos del valor central.
Un valor grande en una medida de dispersión nos indica que el dato se encuentra muy alejado del
valor central, por el contrario si el valor en una medida de dispersión es muy pequeño nos indica
que el valor se encuentra muy cercano al valor central.
La amplitud de rango o recorrido es la diferencia que existe entre el dato más grande y el más
pequeño de un conjunto de datos.
El cálculo se hace de la misma forma para una población o para una muestra, la diferencia radica
en que si los datos se encuentran agrupados o no están agrupados. Las siguientes expresiones
nos permiten determinar la amplitud de rango o recorrido.
Datos agrupados
R LSF LII
R = Recorrido o Rango.
LSF = Límite superior de la clase más alta.
LII = Límite inferior de la clase más baja.
Ejemplo
Determine la amplitud de rango o recorrido de la siguiente distribución de frecuencias.
Número de Frecuencia
Clase
clase (f)
1 8 a 12 1
2 13 a 17 12
3 18 a 22 10
4 23 a 27 5
5 28 a 32 1
6 33 a 37 1
Total 30
Solución
Lo que se nos pide calcular es la amplitud de rango o recorrido de esta distribución de frecuencias
pero no nos indican si corresponde al total de los datos o a una muestra, para este caso no es
relevante debido a que se calcula de la misma manera, además se encuentran agrupados, para
determinar la amplitud de rango o recorrido solamente tenemos que buscar el límite real superior
de la última clase y el límite real inferior de la primer clase y aplicar la formula, R LSF LII el
límite real superior de la última clase es 37, mientras que el límite inferior de la primer clase es 8,
sustituyendo en la formula tenemos R 37 8 29 podemos concluir que entre el dato mayor y el
dato menor hay una diferencia de 29 unidades.
Varianza
Podemos observar que la varianza para una población y una muestra solo difiere entre el número
de datos que utilizamos para calcularla
Determine la varianza para el siguiente conjunto de datos:
Una forma fácil de encontrar la varianza es mediante una tabla en donde realicemos las
operaciones previas y posteriormente utilizar la fórmula correspondiente:
Por tanto
Medida de asimetría
Decimos que una distribución es simétrica cuando su mediana, su moda y su media aritmética
coinciden.
Decimos que una distribución es asimétrica a la derecha si las frecuencias (absolutas o relativas)
descienden más lentamente por la derecha que por la izquierda.
Si las frecuencias descienden más lentamente por la izquierda que por la derecha diremos que
la distribución es asimétrica a la izquierda.
Donde:
Miden la mayor o menor cantidad de datos que se agrupan en torno a la moda. Se definen 3 tipos
de distribuciones según su grado de curtosis:
Regla empírica: Establece que para una distribución de frecuencias simétrica de campana, cerca
de 68% de las observaciones estará dentro de más menos una desviación estándar ( ±1σ) de la
media (μ); cerca de 95% de las observaciones estará dentro demás menos dos desviaciones
estándar de la media (±2σ) de la media (μ); alrededor de 99.7% estará dentro de más menos tres
desviaciones estándar de la media (±3σ) de la media (μ). Esta regla solo se puede aplicar cuando
los datos están normalmente distribuidos, es decir, que la gráfica es simétrica.
Coeficiente de variación
El coeficiente de variación (CV) se define como la proporción que hay entre la desviación estándar
y la media de un conjunto de datos y su resultado se expresa en porcentaje.
Las expresiones siguientes nos permiten determinar el coeficiente de variación para una
población o una muestra.
Ejemplo
La compañía Minera de Guerrero, S. A. de C. V., al cierre de sus actividades mensuales obtuvo
los siguientes datos:
La producción media de oro para la mina norte fue de 200 kilogramos con una desviación
estándar de 5 kilogramos por día, mientras que para la mina sur la producción media fue de 150
kilogramos con una desviación de 4 kilogramos por día.
Solución:
Si hacemos una comparación absoluta la variabilidad del nivel de producción fue mayor para la
mina norte, a causa de una mayor desviación estándar, pero si lo que queremos evaluar es el
nivel de producción lo que tenemos que comparar son los respectivos coeficientes de variación.
Con relación al nivel promedio de producción de cada mina podemos concluir que la mina del
sur tuvo una mayor variabilidad en la producción que la mina del norte.
Histograma
El histograma es una gráfica de barras, que se utiliza para representar datos agrupados en donde
cada clase se representa por una barra y estas se muestran en forma continua en el eje de
horizontal partiendo del límite real inferior de la primera clase hasta el límite real superior de esa
clase, que a su vez es el inicio de la siguiente clase y así sucesivamente para todas las clases
de la tabla de datos.
Ejemplo
La siguiente tabla representa las horas de estudio utilizadas por los alumnos de la materia de
probabilidad y estadística y la frecuencia representa los casos encontrados.
El polígono de frecuencia se obtiene al unir el punto medio de cada clase por medio de una línea
continua y se puede construir sobre un histograma como se muestra en la siguiente gráfica el
cual debe de iniciar en el punto medio de la clase anterior a la que tenemos con una frecuencia
cero y termina en la clase posterior a la final con una frecuencia igual a cero.
Ojiva
Se construye sobre un polígono de frecuencia acumulada y resulta al unir el límite inferior de la
primera clase con el punto más alto en el límite inferior de la siguiente clase conforme se muestra
en la siguiente imagen.
Otros tipos de gráficas
Gráficas de pastel
Es un círculo que se encuentra dividido en segmentos, y el tamaño de cada segmento varía de
acuerdo con el porcentaje de cada categoría
Ejemplo
La siguiente tabla muestra el tipo y la cantidad de habitantes que ocupan un edificio que se
encuentra en la Ciudad de México.
Podemos observar que el segmento de los hombres está compuesto por 50 personas que
representan el 37% de la población que ocupa el edificio, el segmento de las mujeres está
compuesto por 45 personas que ocupan el 33% de la población, el segmento de los niños está
compuesto por 15 personas que representan el 11% mientras que la niñas son 25 que
representan el 19%.