MEDIDAS DESCRIPTIVAS
A. MEDIDAS DE POSICIÓN
1. Media aritmética
2. Mediana
3. Moda
4. Cuantiles
B. MEDIDAS DE DISPERSIÓN
I. Medidas de dispersión absolutas
1. Desviación típica
2. Varianza
INTRODUCCIÓN
La naturaleza de los datos permite, en muchos casos, cierto tipo de análisis a partir de los gráficos de la distribución.
Sin embargo, también es necesario considerar resúmenes numéricos que permitan tener una mejor idea de la manera
como los datos están distribuidos a lo largo de la recta. Estas características numéricas se llaman estadígrafos.
Algunas de estas medidas dependen de todas las observaciones y son muy sensibles a las fluctuaciones de éstas;
otras sin embargo, no dependen de todas las observaciones, siendo resistentes ante los cambios de los valores
extremos.
La mayor parte de los conjuntos de datos muestran a agruparse alrededor de un valor central. Estos valores, que de
alguna manera tipifican al conjunto, se llaman medidas de posición. Entre estas medidas se tiene: la media
aritmética, la mediana, la moda y los cuantiles.
Además de las medidas de tendencia central están las medidas que indican la dispersión que se produce en torno de
la media de los datos. Entre estas medidas se tiene: la varianza, la desviación estándar, el coeficiente de
variación.
La manera como están distribuidos los datos de un conjunto puede resumirse en lo que se llama la asimetría y el
apuntamiento de la curva que los describe.
Simbología:
Tamaño
Media aritmética
(número de datos)
Muestra n x : media muestral
Población N : media poblacional
n
a. Datos no agrupados
x x2 ... xn x i
x 1 i 1
n n
Se lee así: la media es igual a “la suma de las x’s dividido por n”.
Ejemplo: La siguiente tabla muestra el número de reclamos y quejas presentadas por clientes de una tienda
a lo largo de una semana. Si se elige al azar un día de la semana ¿cuántos reclamos se espera tener?
x i
8 10 5 12 10 15 60
x i 1
10 reclamos
n 6 6
Interpretación: Se espera que los clientes de esta tienda realicen 10 reclamos por día.
y n y 2 n 2 ... y m n m y n
i 1
i i
y 1 1 ; yi : marca de clase i
n n
Ejemplo: La distribución de frecuencias siguiente, representa los puntajes obtenidos en una evaluación del
desempeño, aplicado al personal técnico de una empresa. Si se elige al azar un técnico ¿Qué puntaje se
espera que tenga en su evaluación de desempeño?
Interpretación: Se espera que el técnico elegido al azar tenga un puntaje de 26.3 en su evaluación de
desempeño.
Desventajas:
1. Puede verse afectada por los valores extremos.
2. Si la muestra es grande y los datos no están agrupados, su cálculo es tedioso.
3. Si los datos están agrupados en clases con extremos abiertos, no es posible calcular la media
Nota: La media aritmética como estadígrafo de posición de una distribución, proporciona una idea de la posición
de los valores alrededor de la media, La media es un promedio, por tanto no significa:
i) Que todos los valores observados resultan ahora ser iguales.
ii) Que la media se ubica exactamente en el centro de la distribución, excepto si la distribución es simétrica.
Entonces, la media aritmética en general no divide a la distribución.
Ejercicio: En una pequeña empresa de 10 trabajadores se hizo una prueba de razonamiento y otra de habilidad.
Se obtuvieron las siguientes calificaciones.
Razonamiento 48 38 65 56 16 55 28 62 32 48
Habilidad 36 18 54 47 21 56 68 70 72 38
¿En cuál prueba se espera que tengan mayores resultados los trabajadores?
a. Datos no agrupados:
Me = xn 1 / 2
Ejemplo: Los siguientes datos se refieren al número de clientes atendidos durante los últimos 9 días en una
tienda. 14, 12, 7, 17, 10, 13, 15, 10, 12
Me
Primero se ordenan los datos:
7, 10, 10, 12, 12 13, 14, 15, 17
Interpretación: Durante 5 días se atendieron a menos de 12 clientes y durante 5 días se atendieron a más de
12 clientes.
a.2 Número Par de datos, la mediana es igual al promedio de los valores centrales
xn / 2 xn / 2 1
Me =
2
Ejemplo: 14, 26, 12, 20, 25, 26, 34, 36, 10
10 12 14 20 25 26 34 36
Para determinar el intervalo mediano se debe calcular el valor de n/2 y ubicar en la columna de frecuencias
acumuladas la frecuencia que supera al valor de n/2, en ese lugar se ubicará el intervalo mediano.
Ejemplo: La tabla siguiente muestra la experiencia profesional (años) del personal técnico que labora en una
empresa.
Experiencia
N° de técnicos
profesional Ni 35 16
(años)
(ni) Me 7 4 10.2
años
24
0 - 3 4 4
3 - 7 12 16
Interpretación: El 50% de los profesionales técnicos que
7 - 11 24 40 laboran en esta empresa tienen una experiencia laboral
11 - 15 16 56 igual o menor a 10 años 2 meses. El otro 50% de los
15 - 19 10 66 profesionales tiene una experiencia laboral igual o
19 - 23 4 70 mayor a 10 años y 2 meses.
Total 70
Ventajas
La mediana es más recomendable que la media aritmética, cuando:
1. La mediana no está afectada por los valores extremos como sucede con la media.
2. Se puede determinar para datos cualitativos, susceptibles de ordenarse de acuerdo a rangos, calificaciones o
categorías.
Desventajas
1. Como valor central, se debe ordenar primero la serie de datos.
2. Para una serie amplia de datos no agrupados, el proceso de ordenamiento de los datos demanda tiempo y
usualmente provoca equivocaciones.
a. Datos no agrupados
- El conjunto: 2, 2, 5, 7, 9, 9, 9, 10, 10, 11, 13 tiene la moda Mo = 9.
- El conjunto: 2, 3, 4, 4, 4, 5, 5, 7, 7, 7, 9 tiene dos modas, 4 y 7; es una distribución “bimodal”
- El conjunto: 3, 5, 8, 10, 12, 16, 18 no tiene moda.
1
Mo l i c
1 2
donde:
1 : frecuencia de la clase modal menos la frecuencia de la clase anterior
2 : frecuencia de la clase modal menos la frecuencia de la clase siguiente
Ejemplo: La tabla siguiente muestra los errores de facturación durante un mes, en una empresa
comercializadora.
Errores de
Días
facturación 6
0–3 6 Mo 3 4 5.4
6 4
3–7 12
7 – 11 8 Interpretación: Durante un mes, el número más frecuente de
11 – 15 3 errores de facturación en esta empresa comercializadora es de 5.
15 – 19 1
Total 30
Desventajas
1. No tiene un uso tan frecuente como la media.
2. Muchas veces no existe moda (distribución amodal)
3. En otros casos la distribución tiene varias modas, lo que dificulta su interpretación.
x = Me = Mo
Mo < Me < x
x < Me < Mo
4. LOS CUANTILES
Cuando los valores ordenados de una variable han de ser divididos en grupos homogéneos en cuanto al tamaño,
se suelen utilizar los cuantiles.
Los cuantiles más usados en el análisis estadístico son: cuartiles, deciles y percentiles. Los cuantiles se usan
frecuentemente para describir el comportamiento de una población. Los valores se dan a menudo en tanto por
ciento.
a. Datos no agrupados
Percentiles
Un percentil da información acerca de cómo se distribuyen los valores sobre el intervalo, desde el menor hasta el
mayor. El percentil se define como sigue:
El p-ésimo percentil es un valor tal que por lo menos p por ciento de las observaciones son
menores o iguales que este valor y por lo menos (100 – p) por ciento de las observaciones
son mayores o iguales que este valor.
Si i es entero, el p-ésimo percentil es el promedio de los valores de los datos ubicados en los lugares i e i+1
Ejemplo: Se tienen los siguientes valores 27, 25, 20, 15, 30, 34, 28 y 25. Encuentre el percentil 50 y 85
Se ordena: 15 20 25 25 27 28 30 34
Para calcular el percentil 50
p 50
Se calcula i n = 8 4
100 100
15 20 25 25 27 28 30 34
P50
P40 = (25 + 27) / 2 = 26
p 85
Se calcula i n = 8 6.8 7
100 100 P85
15 20 25 25 27 28 30 34
Cuartiles
Con frecuencia se dividen los datos en cuatro partes, cada una con aproximadamente la cuarta parte, o el 25%
de las observaciones. A los puntos de división se les llama Cuartiles y se definen como sigue.
( p / 100)n N i 1
Pp li c
ni
Donde:
[li – ls) : el intervalo que contiene dicho percentil
c : la amplitud del intervalo
ni : frecuencia del intervalo
Ni-1 : frecuencia acumulada antes del intervalo
Ejemplo: Los siguientes datos es el número de piezas fabricadas por 110 de trabajadores en una semana.
a. ¿Cuál es la cantidad de piezas como máximo que fabrica el 25% de trabajadores con menor producción?
b. ¿Cuál es la cantidad de piezas como mínimo que fabrica el 25% de trabajadores con mayor producción?
Nº de piezas Nº de
Ni
fabricadas trabajadores
20 – 25 5 5
25 – 30 7 12
30 – 35 9 21
35 – 40 14 35 P25
40 – 45 20 55
45 – 50 26 81
50 – 55 18 99 P75
55 – 60 11 110
Total 110
p 25
Calculamos n = 110 27.5
100 100
27.5 21
P25 35 5 43.1
14
El 25% de trabajadores con menor producción fabrican como máximo 43.1 piezas.
p 75
Calculamos n = 110 82.5
100 100
82.5 81
P75 50 5 50.4
18
El 25% de trabajadores con mayor producción fabrican como mínimo 43.1 piezas.
B. MEDIDAS DE DISPERSIÓN:
Las medidas de posición central son los valores que de una manera condensada representan una serie de datos,
pero realmente no son suficientes para caracterizar una distribución de frecuencia. Para describir una distribución
de frecuencia o serie de datos es necesario, por lo menos otra medida que indique la dispersión o variabilidad
de los datos, es decir, su alejamiento de las medidas de posición central. Estas medidas de posición central no
tienen ningún valor si no se conoce como se acercan o se alejan esos valores con respecto al promedio, en otras
palabras es conocer cómo se dispersan o varían esos valores con respecto al promedio de una distribución de
frecuencia.
La dispersión o variabilidad se entiende como el hecho de que los valores de una serie difieran uno de otro, es
decir, como se están dispersando o distribuyendo en la distribución. De acuerdo con esto es necesario encontrar
una medida que indique hasta qué punto los valores de una variable están dispersos en relación con el valor
típico. Las medidas de variabilidad son números que expresan la forma en que los valores de una serie de datos
cambian alrededor de una medida de posición central la cual por lo general es la media aritmética.
Se llama Variación o Dispersión de los datos, el grado en que los valores de una distribución o serie numérica
tienden a acercarse o alejarse alrededor de un promedio. Cuando la dispersión es baja indica que la serie de
valores es relativamente homogénea mientras que una variabilidad alta indica una serie de valores heterogénea.
Cuando los valores observados de una serie están muy concentrados alrededor del promedio, se dice que ese
promedio es o será muy representativo; pero si están muy dispersos con relación al promedio, es decir muy
esparcidos con respecto al promedio, entonces ese promedio es poco representativo de la serie o distribución,
puesto que no representan adecuadamente los datos individuales de esa distribución. Es importante obtener una
medida que indique hasta qué punto las observaciones de una serie de valores están variando en relación con el
valor típico de la serie.
a) Datos no agrupados
n xi2 xi
n
(x
2
x) 2
s
i
s i 1
n(n 1)
n 1
Es importante recordar que cuando se trabaja con la fórmula para datos no agrupados y se trata de una
muestra se utilizará como denominador n1, para corregir el sesgo, pero si en la muestra n 50, entonces
se utilizará n, simplemente.
(y y ) 2 ni y n 2
s
i
n 1
y 2
i ni
n
i i
s
n 1
2. VARIANZA
Es otra de las variaciones absolutas y la misma se define como el cuadrado de la desviación típica; viene
expresada con las mismas letras de la desviación típica pero elevada al cuadrado, así S y . Las fórmulas
2 2
para calcular la varianza son las mismas utilizadas por la desviación típica, exceptuando las respectivas raíces,
las cuales desaparecen al estar elevados el primer miembro al cuadrado.
yn
y n
2
2 i i
i i
s2 n
n 1
Ejemplo: El técnico responsable del funcionamiento de una empaquetadora automática, la ajustó en principio,
para 450 gr. Media hora después del principio de la producción se apartaron 10 paquetes para verificar su peso.
Los resultados son:
Solución:
n xi2 xi
Para calcular la desviación típica utilizaremos la siguiente fórmula: 2
s
n(n 1)
n = 7; x i 3144 ; x 2
i 1412140
Reemplazando:
71412140 3144
2
s 2.41gr
7(7 1)
Ejemplo: Calcular la varianza y la desviación estándar de la resistencia a la tensión, en libras por pulgada
cuadrada (psi), de 80 muestras de una nueva aleación de aluminio y litio.
Resistencia a la
tensión yi ni yi ni yi2 yi2ni
(psi)
70 – 90 80 2 160 6400 12800
90 – 110 100 3 300 10000 30000
110 – 130 120 6 720 14400 86400
130 – 150 140 14 1960 19600 274400
150 – 170 160 22 3520 25600 563200
170 – 190 180 17 3060 32400 550800
190 - 210 200 10 2000 40000 400000
210 – 230 220 4 880 48400 193600
230 – 250 240 2 480 57600 115200
80 13080 254400 2226400
y n 2
13080 2
y 2
i ni
n
i i
2226400
80
s 33.13 psi
n 80
Las medidas de dispersión relativas permiten comparar grupos de series distintas en cuanto a su variación,
independientemente de las unidades en que se midan las diferentes características en consideración.
Generalmente las medidas de dispersión relativas se expresan en porcentajes, facilitando así el estudio con
medidas procedentes de otras series de valores. La dispersión relativa viene a ser igual a la dispersión absoluta
dividida entre el promedio.
Existen varias medidas de dispersión relativa, pero, la más usada es el coeficiente de variación de Pearson, este
es un índice de variabilidad sin dimensiones, lo que permite la comparación entre diferentes distribuciones de
frecuencias, medidas en diferentes unidades. El coeficiente de variación de Pearson se designa con las letras CV.
La fórmula matemática es:
s
CV 100
x
Ejemplo: Un fabricante de tubos de televisión dispone de dos tipos de tubos, A y B. Los tubos tienen una duración
media de 1495 h. y 1875 h. respectivamente. Las desviaciones típicas son 280 para A y 310 para B. Determinar
qué tubo presenta mayor dispersión absoluta y cuál presente mayor dispersión relativa.
Podemos decir directamente que el tipo B presenta mayor dispersión absoluta, ya que la desviación típica es una
medida de dispersión.
Para ver la dispersión relativa debemos calcular el Coeficiente de Variación de Pearson (CV):
Por tanto, será el tubo A el que presente mayor dispersión relativa en su duración.
Coeficiente de Asimetría: En estadística se dice que una distribución de datos es simétrica si se le puede doblar
a lo largo de un eje vertical de una manera tal que coincidan los dos lados de la distribución. Las distribuciones que
no tienen simetría con respecto al eje vertical se les llama sesgada o asimétrica. Una distribución sesgada a la
derecha tiene una cola prolongada del lado derecho de la distribución y una cola más corta del lado izquierdo de la
misma; esta asimetría se le denomina positiva, cuando la cola de la distribución del lado izquierdo es más larga que
la del lado derecho, entonces la asimetría es negativa.
En una distribución simétrica la media, la mediana y la moda son iguales. La simetría se mide por medio del
coeficiente de asimetría. Una distribución simétrica tiene un coeficiente de asimetría igual a cero.
Cuando una distribución de frecuencia es asimétrica, la media, la mediana y la moda se alejan una de otra, es
decir, las tres medidas de posición son diferente; mientras más se separe la media de la moda, mayor es la
asimetría. Si la distribución de frecuencia es asimétricamente negativa, la cola de la curva de distribución se
encuentra hacia los valores más pequeños de la escala de las X y si la distribución es asimétricamente positiva la
cola de la distribución se ubica hacia los valores más grandes de la escala de las X.
Karl Pearson un estudioso de la estadística designo el coeficiente de asimetría con las letras SK y determinó la
fórmula para su cálculo, al cual se le denominó primer coeficiente de asimetría de Pearson
( X Mo)
SK1
S
Se tiene otro coeficiente de asimetría utilizando la mediana que se le denomina segundo coeficiente de asimetría
de Pearson, este es más preciso que el primero
3( X Md )
SK 2
S
Arthur Bowley otro estudioso de la estadística determinó que el coeficiente de asimetría se podía calcular por medio
de los cuartiles y utilizó el coeficiente de asimetría por medio de cuartiles (SKq), y la fórmula es
Q1 Q3 2Q2
SK q
Q3 Q1
En donde, Q1, Q2 y Q3 son los cuartiles 1, 2 y 3 respectivamente. El valor de SK q varía entre 1 y 1; según
Bowley una distribución de frecuencia con un coeficiente de asimetría igual a 0.1, se considera como ligeramente
asimétrica y con un valor mayor 0.3 se le considera marcadamente asimétrica.
Si en una serie de valores la X Me Mo, entonces la distribución de frecuencia presenta una curva asimétrica
positiva; si la X =Me = Mo = 0, la curva de la distribución es simétrica; y si la distribución presenta una curva en
la que el Mo Me X , entonces se dice que la curva de la distribución asimétrica negativa.
Sí la curva de una distribución de frecuencia es sesgada, la media tratará de ubicarse hacia el extremo o lado
opuesto, de la serie de valores, donde se concentran los datos. Es bueno hacer referencia que en una asimetría
positiva la X Me y en una asimetría negativa la X Me.
Algunos investigadores como Arthur Bowley determinaron que si se aplica el SK q y ese coeficiente de asimetría
obtenido es menor que 0.3 (sin considera el signo) se puede afirmar que la curva de la distribución es ligeramente
asimétrica, en caso contrario la curva de la distribución sería marcadamente asimétrica.
Otros investigadores utilizan el coeficiente de asimetría según los momentos (SK m) para tales efectos, pero no
existe criterio en cual ha de ser el coeficiente especifico que marque él límite entre ligera y marcadamente.
Sin embargo, en este estudio se considerará que un coeficiente de asimetría según los momentos comprendido
entre 0.30 SK 0.30, sería un buen límite para considerar una curva de distribución como ligeramente
asimétrica, de lo contrario sería marcadamente asimétrica. El SK es el coeficiente de asimetría de mayor precisión
y confiabilidad, puesto que este, utiliza para su cálculo todos los valores de la serie de datos.
Es bueno afirmar que cuando el coeficiente de asimetría de una curva de distribución es marcadamente asimétrico
no se puede utilizar la media aritmética como medida de tendencia central, puesto que esta es afectada altamente
por los valores extremos de una serie de datos, en su lugar es recomendable utilizar la mediana como medida de
posición.
observar en forma general el comportamiento de una serie de datos en una distribución de frecuencia. Por medio
de la Kurtosis se determinará si la distribución de frecuencia es demasiado puntiaguda, normal o muy achatada.
El grado de apuntamiento o altura de una curva de distribución se determina por medio del coeficiente de Kurtosis,
el cual se calcula utilizando el momento cuatro de una serie de valores con respecto a su media aritmética. La
Kurtosis se designa con la letra K y la fórmula de cálculo es:
Mesocúrticas.- Es aquella curva de una distribución de frecuencia que no es ni muy alta ni muy achatada, es la
llamada curva normal.
La curva Mesocúrtica tiene un coeficiente de Kurtosis igual a tres, es decir, K = 0.263
Leptocúrtica.- Es aquella curva de la distribución que presenta un apuntamiento o altura relativamente más alta
que la curva Mesocúrtica, en esta los datos se encuentran más concentrados alrededor del máximo valor. El
coeficiente de Kurtosis para curva Leptocúrtica es mayor de tres, es decir, K 0.263
Platicúrtica.- Es la curva de una distribución de frecuencia que presenta un achatamiento más pronunciado que la
Mesocúrtica, encontrándose los datos más dispersos alrededor del máximo valor de la distribución. En esta curva
el coeficiente de Kurtosis es menor de tres, es decir, K 0.263
Ejemplo: El jefe en control industrial de una empresa somete a un test de fiabilidad 100 dispositivos electrónicos
idénticos y anota su duración (tiempo hasta el fallo en horas). La recogida de datos lleva a la distribución de
frecuencias siguiente:
3( X Md ) 3(456 377.778)
SK 2 0.663
S 353.927
El coeficiente de asimetría nos indica que el tiempo de duración de los dispositivos sigue una distribución
marcadamente positiva; es decir que el tiempo de duración de los dispositivos está por debajo del tiempo
esperado.
El coeficiente de Kurtosis nos indica que el tiempo de duración de los dispositivos sigue una distribución
leptocúrtica o apuntada; es decir que el tiempo de duración de los dispositivos están muy cerca del
tiempo promedio.
REFERENCIAS BIBLIOGRÁFICAS
- ANDERSON D., SWEENEY D., WILLIANS T.: Estadística para Administración y Economía. 1era Ed.
International Thomson. Editores, S.A. México. 1999.
- BERENSON M., LEVINE D.: Estadística Básica en Administración: conceptos y aplicaciones. 6ta Ed.
Printice Hall Hispanoamericana S.A. México 1996.
- DEVORE J.: Probabilidad y estadística para ingeniería y ciencias. 4ta. Ed. International Thomson
Editores, S.A. México. 1998
- MENDENHALL W., TERRY S.: Probabilidad y estadística para ingeniería y ciencias. 4ta Ed. Printice
Hall Hispanoamericana S.A. México. 1997.