Anda di halaman 1dari 31

Asignatura: Matemáticas

Curso: 1º Medicina
Tema: Estadística Descriptiva

1.- Estadística Descriptiva.

Un estudio descriptivo es aquel que se hace con el objeto de recoger, analizar y resumir la
información de las variables (DATOS) obtenidos de un conjunto de individuos (muestra o
población finita), sin intención de generalizar resultados sobre la población. Como ya hemos
visto con anterioridad, estas variables pueden ser cualitativas o cuantitativas, y dependiendo de
su naturaleza así será el tratamiento que realicemos sobre los datos obtenidos.

No debemos menospreciar la importancia de la estadística descriptiva. Tengamos en cuenta


que cualquier estudio estadístico complejo se inicia con la recolección de información, y la toma
de decisiones previas al estudio en torno a la naturaleza y número de los datos recopilados va
a condicionarnos el resto de la investigación. Con objeto de aclarar este apartado hemos
introducido un anexo (ver apartado III) que desarrolla el tema del Análisis Exploratorio de Datos
(AED).

Desde otro punto de vista, es innegable que la mayoría de los parámetros poblacionales
(estimables sólo a través de estudios inferenciales) tienen su homólogo muestral, que
constituirá el valor de referencia para la estimación. De hecho vemos que muchos de los
coeficientes descriptivos muestrales se convierten en poblacionales con sólo sustituir las
frecuencias por probabilidades.

En resumen: el análisis descriptivo es una parte inseparable de cualquier análisis estadístico,


que puede tener continuidad en forma de análisis inferencial, cuando los datos manejados
proceden de muestras representativas de la población.

En este primer tema de estadística descriptiva abordaremos los estudios unidimensionales de


variables tanto cualitativas como cuantitativas. Aprenderemos a recopilar la información en
tablas de frecuencia y representaciones gráficas, así como a resumirla en forma de estadísticos
de posición y dispersión (representación paramétrica).

2.- La organización de la información.

Los datos constituyen la materia prima de la Estadística. Se obtienen datos al realizar cualquier
tipo de prueba, experimento, valoración, medición, observación, etc.

Tras la observación y recogida de los datos se hace necesario la organización y resumen de


éstos, de forma adecuada y útil, para posibilitar su posterior estudio estadístico. El primer
inconveniente que trata de resolver la estadística es como representar los datos de modo que
sea sencillo el trabajar con ellos y nos dé una idea clara de las cualidades generales del
conjunto.

Cuando el número de datos es pequeño podemos asumir el trabajar con todos ellos, pero si las
necesidades de exactitud nos obligan a trabajar con un número elevado de datos se hace
preciso condensar la información y mostrarla gráficamente. Esto último lo conseguimos
mediante tablas, histogramas, polígonos de frecuencia, pictogramas, gráficas tendenciosas,
etc.

Evidentemente, dependiendo de la naturaleza del carácter estudiado así será el modo de


representar los datos. Como sabemos los datos se clasifican en función de su naturaleza en

1
dos grandes bloques: cualitativos y cuantitativos, los cuales a su vez se pueden segregar en
otros subtipos. Para sistematizar nuestro tema vamos a analizar en primer lugar como se
describen las variables cualitativas y cuantitativas, y luego abordaremos el estudio de los
estadísticos resumen (posición central, posición, dispersión y simetría).

3.- Tabla de Frecuencias.

Llamamos tabla de distribución de frecuencias a la tabla que contiene las distintas clases o
atributos y las frecuencias correspondientes a cada una de ellas. La frecuencia se puede
expresar como una magnitud absoluta o relativa, sin o con acumulación. De este modo
tenemos:

• Frecuencia absoluta: Llamaremos así al número de repeticiones que presenta una


observación. Se representa por fi o ni. La suma de todas las frecuencias absolutas nos
da el valor del tamaño muestral (n).
• Frecuencia absoluta acumulada: es la suma de las frecuencias absolutas de todas
las clases menores o iguales a una dada. La última frecuencia absoluta acumulada es
igual al nº de casos (n):
F1 = f1
F2 = f1 + f 2
F3 = f1 + f 2 + f3
....
Fn = f1 + f 2 + f3 + ... + f n = n

• Frecuencia relativa (absoluta): Es la frecuencia absoluta dividida por el número total


de datos, se suele expresar en tanto por uno, siendo su valor –iésimo. La
representaremos por hi. La suma de todas las frecuencias relativas, siempre debe ser
igual a la unidad.
k
f
hi = i
n

i= 1
hi = n

• Frecuencia relativa acumulada: Es el resultado de dividir cada frecuencia absoluta


acumulada por el número total de datos, se la suele representar con la notación: Hi.
También se puede calcular como la suma de las frecuencias relativas de todas las
clases menores o iguales a una dada.

H1 = h1
H 2 = h1 + h2
H 3 = h1 + h2 + h3
....
H n = h1 + h2 + h3 + ... + hn = 1

• Frecuencia relativa porcentual: Algunas veces resulta interesante representar las


frecuencias relativas de cada una de las clases en forma porcentual. La suma de todas
ellas ha de ser 100%.
k
%i = hi ⋅ 100 ∑i= 1
%i = 100%

2
4.- Representaciones Gráficas.

A veces el resumen de los datos en forma tabulada se debe acompañar de alguna


representación gráfica que contribuya a la compresión de la distribución de los datos. En
estadística la máxima: “vale más una imagen que mil palabras” podría traducirse como “vale
más una gráfica que una larga tabla”.

Las representaciones gráficas deben cumplir su propósito con sencillez, de modo que un
simple vistazo permita transmitir la máxima cantidad de información posible.

Existen diversos tipos de representaciones gráficas, y según el tipo de carácter (variable) que
estemos estudiando, usaremos una representación gráfica u otra.

Recuerda que cuando nos encontramos con información basada en gráficos estadísticos
hemos de tener en cuenta:

• La escala de los ejes coordenados cuando los hay.


• Si no existen ejes, la información numérica debe aparecer en el gráfico y guardar la
correspondiente proporción con el dato numérico.

4.1.- Diagrama de Barras. Es un gráfico sobre ejes cartesianos en el que distribuimos en el eje
X o eje de abscisa las modalidades si el carácter es cualitativo o los valores si la variable es no
agrupada (cuantitativa discreta). Sobre ellos se levantan barras o rectángulos de igual base
(que no se solapen) cuya altura sea proporcional a sus frecuencias. También se suelen utilizar
para series cronológicas y pueden, asimismo, representarse horizontalmente, intercambiando
los ejes.

4.2.- Histograma. Se utiliza con variables agrupadas en intervalos (cuantitativa continua),


representando en el eje X los intervalos de clase y levantando rectángulos contiguos de base la
longitud de los distintos intervalos y de altura tal que el área sea proporcional a las frecuencias
representadas. En el histograma la superficie de cada barra es proporcional a la frecuencia de
los valores representados. Solo en el caso de que todas las amplitudes de las clases sean
iguales podemos asociar las frecuencias a las alturas, en lugar de a la superficie.

3
Cuando se realizan representaciones correspondientes a edades de población, cambiamos el
eje Y por el eje X para obtener las llamadas pirámides de población, que no son más que 2
histogramas a izquierda y derecha, para hombres y mujeres. Veamos un ejemplo:

4.3.- Polígonos de Frecuencias: Son gráficos lineales que se utilizan en el caso de una
variable cuantitativa (discreta o continua). Para realizar estos polígonos unimos los puntos
medios de las bases superiores del diagrama de barras o del histograma según la variable sea
agrupada o no agrupada.

Un caso particular de aplicación de los histogramas y los polígonos de frecuencias es el


climograma, que representa la marcha anual de las temperaturas y de las lluvias medias, sobre
un mismo sistema de coordenadas. Veamos un ejemplo:

En el caso de representar las frecuencias acumuladas de una variable no agrupada se unen los
puntos medios de las bases superiores del diagrama de barras, y si la variable es agrupada se
unen los vértices superiores derechos de los rectángulos.

4.4.- Diagrama de sectores: Son gráficos en los que a cada valor o modalidad se reasigna un
sector circular de área proporcional a la frecuencia que representan. Se utilizan si el carácter es
cualitativo o cuantitativo discreto no agrupado.

4
Para construirlos lo más sencillo es insertar una columna en la tabla de frecuencias en la que
multiplicamos por 360º la columna de frecuencia relativa, o por 3,6 las frecuencias relativas %.

4.5.- Pictogramas: Son gráficos con dibujos alusivos al carácter que se está estudiando y cuyo
tamaño es proporcional a la frecuencia que representan; dicha frecuencia se suele representar.
En el siguiente ejemplo hemos representado el número de partidos ganados, perdidos o
empatados de un equipo.

A veces se recurre a indicar la frecuencia con un mayor


número de dibujos y no con uno de mayor tamaño.

4.6.- Cartogramas: Son gráficos realizados sobre mapas, en los que aparecen indicados sobre
las distintas zonas cantidades o colores de acuerdo con el carácter que representan. En el
siguiente cartograma observamos la prevalencia de enfermedades pulmonares contraídas por
causas laborales en el mundo.

5
Ya que conocemos los distintos tipos de representación gráfica de los datos, y cuáles son las
magnitudes que debemos recoger en las tablas de distribución de frecuencias vamos a estudiar
cómo tratar cada uno de los tipos variables.

5.- Variable cualitativa. Atributo.

Las variables cualitativas, que por regla general se denominan atributos (aunque sabemos que
esta definición no sería del todo correcta) se agrupan en modalidades que incluyen los posibles
resultados que puede tomar el carácter. Estas modalidades equivalen a los sucesos recogidos
en el espacio muestral (si nos referimos al supuesto en términos probabilísticos).

Son ejemplos de variables cualitativas:

• Nominal Dicotómica: Si se ha padecido o no el sarampión; el género (masculino o


femenino) de un paciente; Rh de un paciente.
• Nominal Politómica: Raza de un sujeto; grupo sanguíneo; estado civil.
• Ordinal: grados de desnutrición, respuesta a un tratamiento, nivel socioeconómico,
intensidad de consumo de alcohol, días de la semana, meses del año, escalas de Killip
o Apgar, grado de acuerdo o de desacuerdo con una afirmación.

Para representar los datos cualitativos podemos agruparlos en función de las categorías
posibles: 2 (dicotómicos), 3 o más (independientes). Cada uno de los grupos tiene asociada
una marca que corresponde a la categoría.

Por regla general con los datos-atributos no tiene sentido realizar operaciones, de modo que
podemos usar el nombre de la categoría como marca de la clase. Pero si queremos hacer
algún tipo de operación es preciso asociar a cada clase un número, que al ser totalmente
arbitrario tendrá posibilidades operacionales muy limitadas.

Veamos a través de ejemplos como condensar la información de una variable cualitativa.

5.1.- Variable Nominal Dicotómica.

Ejercicio 1.- Para llevar a cabo un estudio sobre la cantidad de niños y niñas que nacen en
Andalucía se recopilan los datos de los hospitales con sala de maternidad de las ocho
provincias, llegando a los siguientes resultados: Hembras (44356) y Varones (43834). Elabora
una tabla de frecuencias que resuma los datos, y añade un gráfico que colabore en su
comprensión.

Clase fi hi %i Fi Hi Sectores
Hembras 44356 0,5030 50,3% 44356 0,50 181,07
Varones 43834 0,4970 49,7% 88190 1 178,93
TOTAL 88190 1 100,0% 360

6
5.2.- Variable Nominal Politómica.

Ejercicio 2.- En un congreso científico se ha preguntado a los 40 oradores en qué idioma


quieren llevar a cabo su ponencia. Los resultados obtenidos son los mostrados en la siguiente
tabla:

Elabora una tabla de frecuencias que resuma los datos, y añade un gráfico que colabore en su
comprensión.

La tabla de frecuencias asociada al conjunto de datos es:

Clase fi hi %i Fi Hi Sectores
Alemán 5 0,125 12,5% 5 0,125 45
Español 9 0,225 22,5% 14 0,35 81
Inglés 11 0,275 27,5% 25 0,625 99
Francés 13 0,325 32,5% 38 0,95 117
Ruso 2 0,05 5,0% 40 1 18
TOTAL 40 1 100,0% 360

El gráfico que podemos asociar es un diagrama de sectores. En la tabla hemos incluido una
columna en la que se indican los grados que posee cada sector, para facilitar su dibujo si lo
hacemos con un transportador de ángulos.

5.3.- Variable Ordinal.

Ejercicio 3.- Con el fin de agilizar el servicio de asistencia en puerta por parte de los servicios
sanitarios se decide dividir las asistencias en tres grandes grupos en función de su gravedad:
asistencias de casos leves, moderados y graves. Para poder destinar salas y personal de forma
adecuada se contabilizan los casos de los últimos meses y se les pide a los servicios sanitarios
que los cualifiquen según la escala. Los resultados son:

• casos leves: 12256


• casos moderados: 4322
• casos graves: 745

Elabora una tabla de frecuencias que resuma los datos, y añade un gráfico que colabore en su
comprensión.

7
La tabla de frecuencias asociada al conjunto de datos es:

Clase fi hi %i Fi Hi Sectores
Leves 12256 0,7075 70,7% 12256 0,71 254,70
Moderados 4322 0,2495 24,9% 16578 0,96 89,82
Graves 745 0,0430 4,3% 17323 1,00 15,48
TOTAL 17323 1 100,0% 360

Esta vez optamos por una representación en anillo en lugar de cómo sectores circulares:

6.- Variable Cuantitativa.

Aquellas variables que se describen con valores numéricos reciben el nombre de variables
cuantitativas. Dentro de estas encontramos dos grandes grupos:

6.1.- Variable Cuantitativa Discreta.

Son aquellas variables que solo pueden tomar valores concretos, usualmente valores enteros.
Son ejemplos de este tipo de este tipo de variables: el número de hijos por parejas, el número
de días de hospitalización después de una apendicectomía, los minutos dedicados a la
elaboración de la historia de un paciente en consulta primaria, etc.

El procedimiento para la tabulación y representación gráfica de los datos es muy parecido al


que hemos planteado para el caso de variables cualitativas. Dado que los datos son discretos
cada uno de ellos constituye una categoría. A cada dato se le asocia el número de veces que
aparece (frecuencia absoluta f) y también podemos asociarle una frecuencia relativa h. Además
se introducen medidas como: la frecuencia absoluta acumulada (F) y la frecuencia relativa
acumulada (H). Estas frecuencias acumuladas cobran mayor sentido en las variables
cuantitativas que en las cualitativas ordinales, ya que aquí el orden depende de los propios
datos y no de las asignaciones hechas por el observador.

En cuanto a la representación gráfica se recurre al diagrama de barras y al polígono de


frecuencias.

8
Ejercicio 4.- Se han entrevistado a 150 parejas de distintas edades y se les ha preguntado por
el número de hijos que tienen. Los datos se recogen en la siguiente tabla:

Nº de hijos
fi hi %i Fi Hi H(%)i
xi
0 46 0,3367 30,67% 46 0,3367 33,67%
1 55 0,3667 36,67% 101 0,6734 67,34%
2 17 0,1133 11,33% 118 0,7867 78,67%
3 21 0,1400 14,00% 139 0,9267 92,67%
4 o más 11 0,0733 7,33% 150 0,1000 100%
TOTAL 150 1 100% 1

El gráfico corresponde al diagrama de


barras de las frecuencias absolutas. En
el podemos apreciar que la mayor parte
de los datos se acumulan entre los
valores 0 y 1. Esta gráfica contrastaría
claramente con la que le
correspondería al mismo estudio
realizado en el primer tercio del siglo
XX, donde el número de hijos como
media era mayor. Este tipo de
relaciones dan pie estudios más
concretos, e incluso a buscar los
agentes causantes de esta disminución
de natalidad.
También podemos asociar a este mismo estudio un polígono de frecuencias como
representación gráfica del conjunto de datos.

Hemos de aclarar que en aquellos casos en los que al considerar cada dato discreto como una
categoría, el número de grupos que aparezca sea demasiado elevado es práctica común reunir
los datos en grupos que reciben el nombre de clases.

Por ejemplo, imaginemos que estamos evaluando el número de veces como media que una
persona jubilada acude a los servicios de atención primaria (variable discreta). Un vistazo a los
datos nos indica que el rango oscila entre 0 y 114 visitas en un año. Es evidente que el número
de entradas si tomamos los datos uno a uno es excesiva, de modo que se opta por agrupar los
datos en paquetes: [0 – 15); [15 – 30); … ; [105 – 120).

6.2.- Variable Cuantitativa Continua.

Dado que la mayor parte de las variables físicas que se analizan se mueven en un continuo
dentro de unos valores límite, este suele ser el caso más general que se encuentran los
científicos que pretenden llevar a cabo un análisis estadístico de los datos. (NOTA: En el caso
de las investigaciones sociales suelen abundar las funciones discretas).

9
Son ejemplos de variables continuas: el peso de un individuo adulto, su nivel de glucemia, su
temperatura corporal, etc. Pero, ¿realmente somos capaces de darle cualquier valor a la
variable?. La respuesta es que no.

Cuando medimos una variable continua hemos de recurrir a un patrón para poder comparar el
valor mostrado por el sujeto con el patrón (unidad). Dependiendo de la exactitud que muestre el
patrón así será la exactitud máxima que podemos dar en la medida. Por tanto, aunque los
datos sean continuos el último término equivalen a una colección de valores discretos.

No debemos olvidar que cuando los datos son reunidos en clases se pierde parte de la
información en aras de obtener una mayor simplicidad de análisis. Por eso hemos de ser muy
cuidadosos a la hora de resumir la información. En general se recomienda un número de clases
entre 5 y 20.

Es evidente que el primer paso es calcular el número de intervalos y la amplitud de los mismos
para poder agrupar los datos.

6.2.1.- Reglas para calcular el número de intervalos

Para gustos, los colores….. Podríamos hacer mención a este dicho para indicar la gran
variedad de fórmulas y principios que se aplican en este punto. Lo que nunca debemos olvidar
es que nos movemos a lo largo de un segmento cuyos extremos debemos evitar:

Una sóla clases


Poco trabajo y tiempo
Totalmente resumidos
Escasa inf ormación

Muchos datos sueltos


Mucho trabajo y tiempo
Poco resumidos
Mucha inf ormación

Debemos elegir un número de clases que nos permita un trabajo cómodo y rápido, pero no tan
pocas que impliquen demasiada concentración y pérdida de la información. Recuerda que cada
vez que un dato es incluido en una clase (caja) dejamos de conocerlo y se convierte en “uno
más” dentro de la clase, con lo que sólo sabemos de él que su valor está entre el límite inferior
y superior de la clase que lo aloja.

En cuanto al tamaño de las clases, siempre que nos sea posible se optará por clases de
tamaño homogéneo y que sean simétricas. Esto nos va a facilitar las operaciones de cálculo de
medianas y otras medidas de posición. Pero en ocasiones nos vemos abocados a usar clases
de tamaños distintos porque, o bien no es factible o, nos deja los datos acumulados en una
parte de la tabla: (edades a las que ocurren accidentes de tráfico, niveles de exposición a un
agente perjudicial, etc.). En estos últimos supuestos debemos ser cuidadosos a la hora de
elegir las fórmulas adecuadas para el cálculo de las medidas de posición.

El criterio final de la distribución se deja en manos del analista, pero son muchos los métodos
matemáticos de los que disponemos para el cálculo del número de clases y su amplitud. La
tabla siguiente muestra el número de intervalos sugeridos por tres reglas para valores (n) de
datos entre 10 y 300. Las reglas proponen que se tome la parte entera (lo significamos con [ ])
de:

10
Fórmula amplitud de
Regla Fórmula nº de intervalos
las clases
Dixon y Kronmal(1965) L = [ 10 ⋅ log10 n ] n ∈ ( 50 − 100 )
Velleman (1976) L =  2 n  n ∈ ( 10 − 50 )
L = [ 1 + log 2 n ] n ∈ ( 100 − 300 ) Rango
c=
L
Sturges (1926) O bien, la fórmula:

L = 1 + 3,3 ⋅ log(n)
NOTA: A menudo la parte entera se redondea al alza para evitar dejar datos de la muestra
fuera de la última clase.

Los intervalos quedan representados por un dato que recibe el nombre de marca de la clase y
que puede ser cualquiera de las medidas de posición central que analizaremos más adelante,
siendo la más común la media aritmética.

Para evitar confusiones con aquellos datos que coincidan con un extremo de los intervalos se
toma como criterio que los intervalos son cerrados por la izquierda y abiertos por la derecha
(algunos autores y textos usan justo el criterio contrario). De modo que si un dato coincide con
el extremo de dos intervalos encadenados se asocia al intervalo de marca mayor. Sucesión de
intervalos encajados.

Una vez que hemos dividido el conjunto de datos en clases podemos llevar a cabo el estudio
de las frecuencias y representar los valores gráficamente en un histograma o en un polígono de
frecuencias.

Ejercicio 5.- En la siguiente tabla se recogen los valores de las estaturas de alumnos y
alumnas de una clase.

169 / 181 / 165 / 155 / 170 / 169 / 168 / 175 / 172 / 183 / 186 / 181 / 163 / 176 / 169
161 / 173 / 181 / 176 / 153 / 178 / 174 / 165 / 176 / 173 / 164 / 170 / 157 / 174 / 185

Usa el criterio de Sturges para determinar el número de intervalos y su amplitud, y agrupa los
datos en esos intervalos. Luego completa la tabla de frecuencias y representa los datos en un
Histograma. Empecemos calculando en número de clases, el rango y la amplitud:

L = 1 + 3,3 ⋅ log(30) = 5,87 ≈ 6


R = 186 − 153 = 33
33
c= = 5,5
6
Estaturas
mi fi hi %i Fi Hi H(%)i
xi
[153 - 158,5) 155,75 3 0,1000 10,00 % 3 0,1000 10,00%
[158,5 - 164) 161,25 3 0,1000 10,00 % 6 0,2000 20,00%
[164 - 169,5) 166,75 6 0,2000 20,00 % 12 0,4000 40,00%
[169,5 - 175) 172,25 8 0,2667 26,67 % 20 0,6667 66,67%
[175 – 180,5) 177,75 4 0,1333 13,33 % 24 0,8000 80,00%
[180,5 - 186) 183,25 6 0,2000 20,00 % 30 1,0000 100,00%
TOTAL 30 1 100%

11
Nota: el último número aunque entraría en la siguiente clase lo consideramos dentro de la
última.

El resumen gráfico de los datos se lleva


a cabo mediante un Histograma, aunque
también podemos usar un polígono de
frecuencias.

7.- Resumen de los datos.

Cuando hemos reunido un conjunto de datos, es necesario condensarlos para que aparezcan
claramente las características principales de dicho conjunto. Si debemos comparar dos o más
conjuntos, la condensación es aún más necesaria. Por eso es importante que dispongamos de
medidas cuantitativas para representar adecuadamente los datos y poder compararlos más
fácilmente. Estas medidas nos proporcionan, en forma concisa, un resumen de la información
obtenida.

Como hemos visto, las tablas y las gráficas bien hechas, pueden ser de ayuda considerable al
hacer que grandes cantidades de datos, de otra forma confusos, den a conocer los secretos
que ocultan cuando están desorganizados. Ahora daremos un paso más al resumir la
información de forma que todo el conjunto de datos inicial pueda ser condensado en un par de
cifras, usualmente la media y la desviación estándar.

7.1.- Medidas de Centralización.

Las medidas de tendencia central son valores alrededor de los que las observaciones tienden a
agruparse, y permiten ubicar lo que en algún sentido pudiera llamarse el “centro” de un
conjunto de datos. La tendencia central se refiere al punto medio de una distribución.

Cuando se estudia una variable, habitualmente interesa saber en qué lugar se encuentran
ubicados sus valores. Esta noción de un valor que represente una característica de 'centro' de
una población, es uno de los primeros elementos de información que se busca establecer para
describirla.

No hay duda que la medida de Tendencia Central que se encuentra con más frecuencia, y es la
más conocida, es la media llamada con más propiedad Media Aritmética (en la práctica
cotidiana se conoce simplemente como el promedio). También se emplean con frecuencia la
Mediana y la Moda.

7.1.1.- Media Aritmética.

La media aritmética de un conjunto de observaciones es una medida de posición que se


conoce comúnmente como promedio. Si se ha realizado una investigación sobre una
variable discreta donde se han medido n unidades experimentales respecto a una
característica determinada, la media aritmética se calcula como la suma de todos los valores
que toma la característica en estudio dividida por el número total de unidades experimentales
observadas.

12
Si disponemos de datos agrupados con su
Si disponemos de datos sin agrupar la
frecuencia correspondiente la definimos
definimos como:
como:
n n

∑ xi ∑ xi ⋅ fi
x= i= 1
x= i= 1
n n
Ejercicio 6.- Si tenemos la siguiente distribución, se pide hallar la media aritmética, de los
siguientes datos expresados en kg (ver tabla).

La manera más simple de calcular la media aritmética es calcular los valores de cada dato por
su frecuencia en una nueva columna, y sumarla en la fila de los totales. Este sumatorio entre el
valor total de datos nos da la media aritmética.

∑ xi ⋅ fi
601
x= i= 1
= = 60,1kg
n 10

En el caso de que el estudio se lleve a cabo sobre una variable continua (x i), que habremos
agrupado en clases, para calcular el valor de la media aritmética es preciso usar un valor de
representación de la clase que denominamos Marca de la Clase (mi) y que se calcula como la
media aritmética de los valores extremos de cada intervalo.

Si disponemos de datos agrupados en clases


la media aritmética se calcula como:
n n

∑ mi ∑ mi ⋅ fi
x= i= 1
x= i= 1
n o n
En general, la media aritmética obtenida a partir de las marcas de clase mi, diferirá de la media
obtenida con los valores reales, xi. Es decir, habrá una pérdida de precisión que será tanto
mayor cuanto mayor sea la diferencia entre los valores reales y las marcas de clase, o sea,
cuanto mayor sea la amplitud de las clases o intervalos ci.

Ejercicio 7.- En la siguiente tabla de frecuencias se indica el valor de la marca de la clase y de


las frecuencias absolutas de cada clase. Calcule el valor de la media aritmética.

Usando el mismo principio planteado con el ejercicio anterior de establecer una columna sobre
la que hacer los cálculos del sumatorio llegamos a:

13
n

∑ mi ⋅ fi
5040
x= i= 1
= = 38,18
n 132

Ventajas: Es de fácil cálculo e interpretación sencilla. Es la más utilizada y es útil en muchos


desarrollos matemáticos. Tiene en cuenta todos los datos de la muestra.

Desventajas: La principal desventaja que presenta la media aritmética es que se ve muy


afectada por los valores extremos. Cuando alguno de los valores extremos son
desproporcionados respecto al resto de los datos el valor de la media se afecta alejándose del
valor real, es decir, dejando de ser representativa del conjunto de los datos. Por este motivo se
evita el empleo de la media aritmética como medida de la posición central en las distribuciones
muy asimétricas.

NOTA: A veces estos datos desproporcionados son el resultado de errores de medida, pero no
podemos despreciarlos sin más. Más adelante veremos un criterio que nos permitirá eliminar
estos datos a través del diagrama bloxplot.

Además, encontramos el problema, en las distribuciones discretas, de que el valor de la media


aritmética puede no pertenecer al conjunto de valores propios de la variable. Por ejemplo, al
estudiar el número de hijos por pareja nos sale una media de 2,3 hijos, lo cual no tiene sentido
en tanto en cuanto no es posible tener una fracción de un hijo.

Y en las distribuciones continuas la desventaja, como hemos visto, es que su valor depende de
la forma en la que hagamos las divisiones por intervalos. A menor número de clases, más
concentración de los datos y más pérdida de información. Incluso surge el problema de la
imposibilidad de calcular la media cuando alguno de los intervalos extremos carece de límite
superior o inferior.

7.1.2.1.- Propiedades de la media.

1º Proposición: La media aritmética tiene la propiedad de equilibrar las desviaciones positivas


y negativas de los datos de una distribución respecto a ella, de modo que para los datos sin
agrupar por intervalos se cumple que:

∑ ( x − x) = 0
i= 1
i

De modo que la media aritmética actúa como un centro de gravedad de la distribución. Esta
característica de la media aritmética es la que nos obliga a tomar valor absoluto o cuadrados
cuando estudiamos la desviación de la distribución.

14
Demostración:

∑ ( x − x)
i= 1
i = ( x1 − x ) + ( x2 − x ) + ( x3 − x ) + ... + ( xn − x ) =
n
= ( x1 + x2 + x3 + ... + xn ) − nx = ∑i= 1
xi − nx =

= nx − nx = 0

Este resultado nos indica que el error cometido al aproximar un valor cualquiera de la variable,
por ejemplo x1, mediante el valor central, es compensado por los demás errores:

n
x1 − x = ∑ ( x − x)
i= 2
i

2º Proposición (König): Para cualquier posible valor k que consideremos como candidato a
medida central, la media aritmética lo mejora en el sentido de reducir los mínimos cuadrados,
es decir:

n n

∑ ( xi − x ) ∑ ( x − k)
2 2
< i con k ≠ x
i= 1 i= 1

Demostración: Vamos a demostrar que usando k el valor que se obtiene en el sumatorio de


los mínimos cuadrados siempre es mayor que si usamos el valor de la media aritmética:

n Sumando y n n

∑ ( x − k) ∑ (x − k+ x − x) = ∑ (x − x + x − k) =
2 2 2
i      →
restando la media
i i
i= 1 i= 1 i= 1
n Aplicando el n

∑  ( x − x ) − ( k − x )  ∑  ( x − x ) − 2 ( xi − x ) ( k − x ) + ( k − x )  =
2 2 2
     →
Binomio de Newton

i= 1
i
i= 1
i

n n n n

∑ ( xi − x ) − 2 ∑ ( xi − x ) ( k − x ) + ∑ ( k − x ) > ∑ ( x − x)
2 2 2
i
i= 1 i= 1 i= 1 i= 1
1 4243 1 4243
=0 n⋅ ( k − x ) > 0
2

Esta proposición es otra manera de decir que el valor de la media aritmética es el valor de ϕ
que hace mínima la expresión:

∑ (x −φ)
2
i ⋅ fi
i= 1

Precisamente este mínimo será la varianza de la variable X, medida de dispersión que veremos
más adelante, y además podremos comprobar que esta propiedad es la que garantiza la
bondad de la media aritmética como medida de representación.

15
3º Proposición (Linealidad de la media aritmética):

• Traslación: Si a cada valor de la variable X se le suma un valor b, obtenemos una


nueva variable Y = X + b, cuya media es la media de X mas k.

Y= X+b ⇒ y= x+ b

• Homotecia: Si a cada valor de la variable X se le multiplica por un valor a, obtenemos


una nueva variable Y, cuya media es la misma que la de X multiplicada por el valor a.

Y = aX ⇒ y = ax
Estas dos proposiciones se agrupan en una sola conocida como linealidad de la media
aritmética, que queda resumida como:

Y = aX + b ⇒ y = ax + b

Demostración:

n n n n n

∑ yi fi ∑ ( axi + b ) fi ∑ ( axi fi + bfi ) a ∑ xi fi b∑ f i


y= i= 1
= i= 1
= i= 1
= i= 1
+ i= 1
n n n n n
n

∑ fi = n bn
 
i= 1
 → ax + = ax + b
n
A partir de aquí se describe el siguiente corolario:

Corolario: Si una variable es transformación lineal de otra variable (suma de un número y


multiplicación por otro), la media aritmética de la 1ª variable sigue la misma transformación
lineal con respecto a la media aritmética de la 2ª variable, siendo yi = axi + b, donde a y b son
números reales.

Ejercicio 8.- Utiliza la propiedad de linealidad para calcular la media de la siguiente


distribución, usando como referencia el valor más centrado.

xi fi yi yi· fi
38432 4 -2 -8
38434 8 -1 -8
38436 4 0 0
38438 3 1 3
38440 8 2 16
TOTAL 27 3

xi − 38436
yi =
Efectuamos el cambio de variable: 2
tomando como nueva variable el valor
más centrado. De este modo llegamos a la columna de las y i. Y usamos esta nueva variable
para el cálculo de la media de la y, y desde ella la media de la x.

16
n

∑ yi ⋅ fi
3
y= i= 1
= = 0,11
n 27
Y desde este valor despejamos el valor de la x media:
x − 38436
y= ⇒ x = 2 y + 38436
2
x = 2 ⋅ ( 0,11) + 38436 = 38436,22

7.1.2.2.- Otras medias.

• Media Aritmética Ponderada: En ocasiones no todos los valores de la variable tienen


el mismo peso. Esta importancia que asignamos a cada variable, es independiente de
la frecuencia absoluta que tenga. Será como un aumento del valor de esa variable, en
tantas veces como consideremos su peso.

Es la media aritmética que se utiliza cuando a cada valor de la variable (x i) se le otorga


una ponderación o peso distinto de la frecuencia o repetición. Para poder calcularla se
tendrá que tener en cuenta las ponderaciones de cada uno de los valores que tenga la
variable (wi). Se la suele representar como:

∑ xi ⋅ wi ⋅ fi
xw = i= 1
n

∑ i= 1
wi ⋅ fi

Ejercicio 9.- Un estudiante realiza 3 exámenes de complejidad creciente, obteniendo los


siguientes resultados: 5, 8 y 7. El primer examen lo hizo en ½ hora, el segundo en 1 hora y el
tercero en hora y media, por lo que se les atribuye una ponderación de 1, 2 y 3
respectivamente. Se pide calcular la nota media como media aritmética y como media
ponderada.
n

∑ xi ⋅ fi
20
x= i= 1
= = 6,67
n 3
n

∑ xi ⋅ wi ⋅ fi
42
xw = i= 1
n
= = 7
6
∑ i= 1
wi ⋅ fi

• Media geométrica: Es la raíz N-ésima del producto de los valores de la variable


elevado cada uno de ellos a su frecuencia absoluta. Se representa como:

n
xg = n
x1f1 ⋅ x2f2 ⋅ x3f3 ⋅ ... ⋅ xnfn = n ∏ xifi
i= 1

17
La media geométrica sólo es relevante si todos los números son positivos. Si uno de
ellos es 0, entonces el resultado es 0. Además, si hay un número negativo (o una
cantidad impar de ellos) entonces la media geométrica es, o bien negativa o bien
inexistente en los números reales.

Aunque el principal inconveniente que nos encontramos suele ser la complejidad de los
cálculos cuando los hacemos con calculadora. En los casos de distribuciones amplias
podemos simplificar las operaciones recurriendo a los logaritmos:

( )
1
xg = x1f1 ⋅ x2f2 ⋅ x3f3 ⋅ ... ⋅ xnfn n
 Tomando
  log→

( )
1
log xg = log x1f1 ⋅ x2f2 ⋅ x3f3 ⋅ ... ⋅ xnfn n
=
1
n
(
⋅ log x1f1 ⋅ x2f2 ⋅ x3f3 ⋅ ... ⋅ xnfn = )
1
n
(
⋅ log x1f1 + log x2f2 + log x3f3 + ... + log xnfn = )
1 n
fi ⋅ log xi
n
⋅ ( f1 log x1 + f 2 log x2 + f3 log x3 + ... + f n log xn ) = ∑
i= 1 n

De donde:

n
f i ⋅ log xi
xg = ant log ∑
i= 1 n

En otras palabras, el logaritmo de la media geométrica es la media aritmética de los logaritmos


de los valores de la variable. El problema se presenta cuando algún valor es 0 ó negativo y
exponente de la raíz par ya que no exista raíz par de un número negativo.

Suele utilizarse cuando los valores de la variable siguen una progresión geométrica. También
para promediar porcentajes, tasas, nº índices, etc. siempre que nos vengan dados en
porcentajes.

Ejercicio 10.- Calcula la media geométrica de la siguiente distribución. Utiliza el método que
prefieras, pero recuerda que cuando los valores son muy grandes la calculadora no tiene
capacidad de cálculo suficiente.

xi fi log xi fi· log xi


2 2 0,3010 0,6021
3 4 0,4771 1,9085
5 5 0,6990 3,4949
7 3 0,8451 2,5353
8 3 0,9031 2,7093
11 2 1,0414 2,0828
14 1 1,1461 1,1461
16 1 1,2041 1,2041
TOTAL 21 15,6830

18
n
fi ⋅ log xi 15,6830
xg = ant log ∑ = ant log = 5,5822
i= 1 n 21
Ejercicio 11.- Hallar la media geométrica de la siguiente distribución:

xi fi log xi fi· log xi


100 10 2,0000 20,0000
120 5 2,0792 10,3959
125 4 2,0969 8,3876
140 3 2,1461 6,4384
TOTAL 22 45,2219

n
fi ⋅ log xi 45,2219
xg = ant log ∑ = ant log = 113,64
i= 1 n 22
Ejercicio 12.- Hallar la media geométrica de la siguiente distribución:

xi fi yi log xi fi· log xi yi log xi fi· log xi


-4 2 1 0,0000 0,0000 6 0,7782 1,5563
-2 4 3 0,4771 1,9085 8 0,9031 3,6124
0 3 5 0,6990 2,0969 10 1,0000 3,0000
3 2 8 0,9031 1,8062 13 1,1139 2,2279
TOTAL 11 5,8116 10,3965

Como vemos en estas condiciones no es factible el cálculo de la media geométrica, ya que los
logaritmos del 0 o de los números negativos no se pueden calcular. ¿Podemos aplicar las
condiciones de linealidad?. Consideramos una variable y que se calcula sumando 5 a la x.

fi ⋅ log xi
n
5,8116
y g = ant log ∑ = ant log = 3,3754
i= 1 n 11
xg = 3,3754 − 5 = − 1,6246

Si esto es cierto valdría para cualquier valor que le sumáramos a x, probemos con un 10:

n
fi ⋅ log xi 10,3965
y g = ant log ∑ = ant log = 8,8133
i= 1 n 11
xg = 8,8133 − 10 = − 1,1867

Como vemos el valor es parecido pero no igual, por lo tanto la media geométrica no sigue las
proposiciones de la linealidad y no podemos usarla en los casos en los que aparecen datos
negativos o nulos.

• Media Armónica: Es la inversa de la media aritmética de las inversas de los valores de


la variable, responde a la siguiente expresión:

19
n n
H= =
n
fi f1 f 2 f3 f

i= 1 xi
+ +
x1 x2 x3
+ ... + n
xn
Se utiliza para promediar velocidades, tiempos, rendimiento, etc. (cuando influyen los
valores pequeños). Su problema en que cuando algún valor de la variable es 0 o
próximo a cero no se puede calcular.

Ejercicio 13.- Calcular la media armónica de la siguiente distribución. Para poder hallarla, es
necesario que calculemos el inverso de x y el inverso de la frecuencia por lo que ampliaremos
la tabla con 2 columnas adicionales:

xi fi 1/xi fi/xi
100 10 0,0100 0,1000
120 5 0,0083 0,0417
125 4 0,0080 0,0320
140 3 0,0071 0,0214
TOTAL 22 0,1951

n 22
H= n
= = 112,76
fi 0,1951
∑i= 1 xi

• Media Cuadrática (MQ o RMS: root mean square): Es la raíz cuadrada de la media
de los valores de la variable al cuadrado es decir :

∑ xi2 ⋅ fi
xRMS = xi2 = i= 1
n
A veces la variable toma valores positivos y negativos, como ocurre, por ejemplo, en
los errores de medida. En tal caso se puede estar interesado en obtener un promedio
que no recoja los efectos del signo. Este problema se resuelve, mediante la
denominada media cuadrática. Consiste en elevar al cuadrado todas las observaciones
(así los signos negativos desaparecen), en obtener después su media aritmética y en
extraer, finalmente, la raíz cuadrada de dicha media para volver a la unidad de medida
original.

El valor de la media cuadrática es mayor que el de las otras medias.

Ejercicio 14.- Calcula la media cuadrática de la siguiente distribución discreta.

xi fi x2i x2i·fi
-4 2 16 32
-2 4 4 16
0 3 0 0
3 2 9 18
TOTAL 11 66

20
66
xRMS = = 2,45
11

• Media generalizada: Es una abstracción que se alcanza combinando los distintos tipos
de media vistos hasta el momento.

 1 n m
 m ⋅ ∑ xi si m ≠ 0
 n i= 1
x( m ) = 
 n
n ∏ x
 i si m = 0
i= 1

En donde el parámetro m indica si la media es:

• cuadrática con m = 2
• aritmética, con m = 1
• geométrica con m = 0
• armónica con m = -1

Obsérvese que para valores de m ≤0 la expresión sólo tiene sentido si todos los xi ≥ 0.

NOTA: Entre la media aritmética la media geométrica y media armónica se da siempre la


siguiente relación:
H ≤ xg ≤ x

Ejercicio 15.- Calcule la media aritmética, geométrica y armónica de la siguiente distribución, y


compruebe la relación propuesta entre ellas.

xi fi xi· fi fi log xi fi/xi


4 3 12 1,8062 0,7500
7 6 42 5,0706 0,8571
12 8 96 8,6334 0,6667
19 5 95 6,3938 0,2632
TOTAL 22 245 21,9040 2,5370

∑ xi ⋅ fi
245
x= i= 1
= = 11,14
n 22
n
f ⋅ log xi 21,9040
xg = ant log ∑ i = ant log = 9,9000
i= 1 n 22
n 22
H= n = = 8,6717
fi 2,5370
∑i= 1 x
i

H ≤ xg ≤ x
Como vemos se cumple la relación:
21
7.1.2.- Mediana.

La mediana o valor mediano será el valor de la variable que separa en dos grupos (50% a cada
lado) los valores de las variables, ordenadas de menor a mayor. Por tanto es una cantidad que
nos indica orden dentro de la ordenación y equivale al percentil 50.

Cuando se trata de variables discretas, el cálculo de la mediana depende del número total de
datos que compongan la muestra (n):

• Cuando n es impar, el punto central coincide con un dato, que tomaremos como valor
de la mediana.
M e = x n+ 1 
 
 2 

• Cuando n es par, el punto central es el espacio entre dos datos, por lo que la mediana
se calcula como media aritmética de esos dos valores centrales.
x n  + x n 
   + 1
Me =  2 2 

2
El cálculo de la mediana se facilita mucho si disponemos de la columna de las frecuencias
acumuladas.

Ejercicio 16- Determina el valor de la mediana en las siguientes distribuciones de variables


discretas:

El número total de datos es impar, por lo tanto hemos de buscar el


dato (27+1/2)=14. Si miramos la columna de las F, vemos que el dato
en la posición 14 es un 9, que se corresponde con el valor de la
mediana.

El número total de datos es par, por lo tanto hemos de buscar el dato


(32/2)=16 y el siguiente (el 17). Si miramos la columna de las F,
vemos que el dato en la posición 16 es un 5, y el que está en la
posición 17 es un 7. Por lo tanto, la mediana es 6.

En el caso de las variables continuas, cuando la distribución viene ordenada en intervalos,


también construiremos la columna de las frecuencias acumuladas para determinar cuál es el
intervalo que contiene al dato central. Una vez fijado el intervalo podemos hacer una
aproximación al valor de la mediana indicando el intervalo, o su marca de clase, como
referencia. Aunque disponemos de una fórmula que permite ajustar el valor de la mediana en
función de la dispersión de los datos en las clases adyacentes al intervalo de la mediana. La
fórmula es:

22
n
− Fi − 1
M e = Li + 2 ⋅ ci
fi

Donde: Me mediana
Li límite inferior del intervalo que contiene a la mediana
n número total de datos que compone la muestra
Fi-1 frecuencia acumulada del intervalo anterior al que contiene la mediana
fi frecuencia absoluta del intervalo que contiene la mediana
ci amplitud del intervalo que contiene la mediana

NOTAS:

• La diferencia que podríamos apreciar al calcular la media con los datos secuenciados
uno a uno, en lugar de acumulados en clases, se debe al hecho de que al formar las
clases se pierde parte de la información, en concreto la forma en la que se distribuyen
los datos dentro de cada una de las clases. Al igual que en la media aritmética, a
mayor amplitud de las clases, más pérdida de información.
• La fórmula funciona mejor en los casos en los que la amplitud de la clase es siempre la
misma para todos los intervalos.

La fórmula se corresponde a la siguiente construcción geométrica:

Ejercicio 17.- Determina el valor de la mediana en la siguiente distribución continua:

xi mi fi Fi
[9,5 – 9,7) 9,6 5 5
[9,7 – 9,9) 9,8 5 10
[9,9 – 10,1) 10,0 6 16
[10,1 – 10,3) 10,2 3 19
[10,3 – 10,5) 10,4 4 23
[10,5 – 10,7) 10,6 1 24
TOTAL 24

Como el número total de datos es 24 tenemos que buscar el dato 12 (la mitad, en este caso al
ser una distribución continua no hay que tener en cuenta el siguiente). Vemos que el dato 12
pertenece al intervalo [9,9 – 10,1). Ahora aplicamos la fórmula:

23
n
− Fi − 1 12 − 10
M e = Li + 2 ⋅ ci = 9,9 + ⋅ 0,2 = 9,97
fi 6
Es fácil apreciar que la fórmula de la mediana es una forma compacta de llevar a cabo una
regla de tres (interpolación). Aplicándolo a este mismo caso nos quedaría:

6444 0,2
474444 8
9,9 M e ( x) 10,1 6 → 0,2
 2
10 12 16  → → M e = 9,9 + ⋅ 0,2 = 9,97
1424 3  2 → x 6
2
1442443 
6

7.1.2.1.- Propiedades de la mediana como parámetro estadístico.

Entre las ventajas tenemos:

• El ser menos sensible que la media a oscilaciones de los valores de la variable. Un


error de transcripción en la serie del ejemplo anterior en, pongamos por caso, el último
número, deja a la mediana inalterada.
• Como se ha comentado, puede calcularse para datos agrupados en intervalos, incluso
cuando alguno de ellos no está acotado, a diferencia de lo que ocurre con la media
aritmética.
• No se ve afectada por la dispersión. De hecho, es más representativa que la media
aritmética cuando la población es bastante heterogénea. Un ejemplo típico es cuando
se resume la información sobre los salarios de una empresa. Hay unos pocos salarios
muy altos que elevan la media aritmética haciendo que pierda representatividad
respecto al grueso de la población. Sin embargo, alguien con el salario "mediano"
sabría que hay tanta gente que gana más dinero que él, como que gana menos.

Sus principales inconvenientes son que en el caso de datos agrupados en intervalos, su valor
varía en función de la amplitud de estos. Por otra parte, no se presta a cálculos algebraicos tan
bien como la media aritmética.

Ejercicio 18.- Demuestra que la mediana es el valor que hace mínima la expresión:


i= 1
xi − k

Es equivalente a la proposición de König, pero usando como medida de la dispersión los


valores absolutos. Si esto es así podemos plantear que:

n n


i= 1
xi − M e < ∑
i= 1
xi − k k ≠ Me

Demostración:

n n n


i= 1
xi − M e = ∑
i= 1
xi − M e − k + k = ∑ ( x − k) + ( k − M )
i= 1
i e

Por la propiedad aditiva del valor absoluto:

24
n n n

∑ ( xi − k ) + ( k −
i= 1
Me ) < ∑
i= 1
xi − k + ∑ k − Me
i= 1
14243
>0
Y como k es distinto de la mediana se cumple la proposición siempre.

7.1.3.- Moda.

La moda es el valor de la variable que tenga mayor frecuencia absoluta, la que más se repite,
es la única medida de centralización que tiene sentido estudiar en una variable cualitativa, pues
no precisa la realización de ningún cálculo.

Por su propia definición, la moda no es única, pues puede haber dos o más valores de la
variable que tengan la misma frecuencia siendo esta máxima. En cuyo caso tendremos una
distribución bimodal o polimodal según el caso. Por lo general llamaremos moda absoluta al
valor que posea una frecuencia más elevada, y denominaremos modas relativas a aquellos
otros valores que sin ser los más grandes si representan un máximo respecto a su entorno.

Por lo tanto el cálculo de la moda en distribuciones discretas o cualitativas no precisa de una


explicación mayor; veamos algún ejemplo:

Ejercicio 19.- Indica la moda de las siguientes distribuciones:

La moda es 12 (distribución unimodal) La moda es 5 y 8 (distribución bimodal)

Sin embargo, debemos detenernos un poco en el cálculo de la moda para distribuciones


cuantitativas continuas. Para empezar debemos distinguir entre la situación de coincidencia de
amplitud de las clases o la no coincidencia.

• Moda en variables continuas con amplitudes de clases iguales: Apoyándonos en el


siguiente gráfico podemos llegar a la determinación de la expresión para la moda que
es:

25
fi − fi− 1
M o = Li + ⋅ ci
( fi − fi+ 1 ) + ( f i − f i− 1 )

Alternativamente se puede usar la expresión (recomendada en los textos de estadística para


LADE):

fi+ 1
M o = Li + ⋅ ci
fi+ 1 + f i− 1

Donde: Mo moda
Li límite inferior del intervalo modal
fi-1 frecuencia absoluta del intervalo anterior al modal
fi frecuencia absoluta del intervalo modal
fi+1 frecuencia absoluta del intervalo posterior al modal
ci amplitud del intervalo que contiene la mediana

Ejercicio 20.- Determina la moda de las siguientes distribuciones continuas con la misma
amplitud de clases:

xi mi fi
[9,5 – 9,7) 9,6 5
[9,7 – 9,9) 9,8 5
[9,9 – 10,1) 10,0 6
[10,1 – 10,3) 10,2 3
[10,3 – 10,5) 10,4 4
[10,5 – 10,7) 10,6 1
TOTAL 24

Vemos que el intervalo que mayor frecuencia tiene es [9,9 – 10,1); éste es el intervalo modal.
Aplicamos la fórmula:

fi − fi− 1 1
M o = Li + ⋅ ci = 9,9 + ⋅ 0,2 = 9,95
( fi − f i + 1 ) + ( f i − f i − 1 ) 1+ 3

fi+ 1 3
M o = Li + ⋅ ci = 9,9 + ⋅ 0,2 = 9,98
fi+ 1 + fi− 1 3+ 5

26
xi mi fi
[2 – 3) 2,5 2
[3 – 4) 3,5 3
[4 – 5) 4,5 7
[5 – 6) 5,5 3
[6 – 7) 6,5 6
[7 – 8) 7,5 5
[8 – 9) 8,5 3
TOTAL 24

El intervalo modal absoluto es [4 – 5), y el valor de la moda si aplicamos las formulas son:

fi − fi− 1 4
M o = Li + ⋅ ci = 4 + ⋅ 1 = 4,5
( fi − f i + 1 ) + ( f i − f i − 1 ) 4+ 4

fi + 1 3
M o = Li + ⋅ ci = 4 + ⋅ 1 = 4,5
fi+ 1 + fi− 1 3+ 3
También podemos calcular la moda relativa, usando la misma fórmula. El intervalo modal
relativo es [6 – 7), de modo que nos queda:

fi − fi− 1 3
M o = Li + ⋅ ci = 6 + ⋅ 1 = 6,75
( fi − f i + 1 ) + ( f i − f i − 1 ) 1+ 3

fi+ 1 5
M o = Li + ⋅ ci = 6 + ⋅ 1 = 6,625
f i + 1 + fi − 1 3+ 5

• Moda en variables continuas con amplitudes de clases distintas: En este caso el


intervalo modal absoluto será aquel que alcance un mayor valor de altura de
histograma (A = f/c); y los intervalos modales relativos serán aquellos que alcancen
máximos en su entorno. La fórmula que empleamos es:

fi − fi− 1
M o = Li + ⋅ ci
( fi − fi+ 1 ) + ( f i − f i− 1 )

Y alternativamente, esta fórmula, donde el intervalo modal es el que alcanza una mayor
altura. Nota: Puede no coincidir con el intervalo modal, ya que vamos a dividir la
frecuencia por la amplitud.

Ai + 1
M o = Li + ⋅ ci
Ai + 1 + Ai − 1

27
Ejercicio 21.- Determina el valor de la moda en la siguiente distribución continua de intervalos
de clase distintos.

Altura de
xi mi fi histograma
fi/ci
[0 – 25) 12,5 20 0,8
[25 – 50) 37,5 140 5,6
[50 – 100) 75 80 1,6
[100 – 150) 125 40 0,8
[150 – 200) 175 20 0,4
TOTAL 300

Vemos que el intervalo que mayor altura de histograma tiene es [25 – 50); éste es el intervalo
modal absoluto, y no existen intervalos modales relativos. Aplicamos la fórmula:

fi − fi− 1 120
M o = Li + ⋅ ci = 25 + ⋅ 25 = 41,67
( fi − f i + 1 ) + ( f i − f i − 1 ) 120 + 60

Ai + 1 1,6
M o = Li + ⋅ ci = 25 + ⋅ 25 = 41,67
Ai + 1 + Ai − 1 1,6 + 0,8

Altura de
xi mi fi histograma
fi/ci
[2 – 3) 2,5 1 1
[3 – 7) 5 6 1,5
[7 – 9) 8 12 6
[9 – 14) 11,5 8 1,6
[14 – 20) 17 6 1
[20 – 30) 25 4 0,4
TOTAL 37

Aplicando las fórmulas descritas llegamos a:

fi − fi− 1 6
M o = Li + ⋅ ci = 7 + ⋅ 2 = 8,2
( fi − f i + 1 ) + ( f i − f i − 1 ) 6+ 4

Ai + 1 1,6
M o = Li + ⋅ ci = 7 + ⋅ 2 = 8,032
Ai + 1 + Ai − 1 1,6 + 1,5
7.1.4.- Relación empírica entre media aritmética, mediana y moda.

A modo de resumen podemos decir que:

• La media aritmética es la medida de centralización más utilizada y su exactitud se debe


a que tiene en cuenta a todos los datos de la distribución. Es el dato de centralización
que menos se afecta al modificar la muestra, pero debe ser aplicado a distribuciones

28
con un cierto (elevado) grado de simetría. Su principal ventaja es que actúa de
estimador de la media poblacional. Siempre que podamos vamos a usarlo.
• La mediana se usa en los casos en los que la media aritmética no puede ser empleada
(usualmente casos de elevada asimetría). Su ventaja es que no se afecta por valores
extremos.
• La moda es la medida de centralización que menos información aporta, su ventaja es la
rapidez con la que se calcula, y el hecho de que es la única medida de centralización
aplicable a las variables cualitativas. Tampoco se afecta por los valores extremos.

En distribuciones totalmente simétricas, la media, la mediana y la moda coinciden,


localizándose en un mismo valor. En cambio, en distribuciones moderadamente asimétricas, la
siguiente relación se mantiene aproximadamente:

x − Mo = 3⋅ ( x − Me )

En la figura observamos las posiciones relativas de la media, la mediana y la moda para curvas
de frecuencias asimétricas a derecha e izquierda respectivamente. Y vemos que para curvas
simétricas (centro) los tres valores coinciden.

Ejercicio 22.- Calcule la media aritmética, mediana y moda de la distribución:

1,2,4,7,9,9,9,11,13,14,17,21,34

Vuelva a calcular los tres parámetros incorporando los datos extremos -1 y 47, comente los
resultados en lo que se refiere a la estabilidad de las medidas obtenidas.

29
n n

∑ xi ⋅ fi
150 ∑ xi ⋅ fi
196
x= i= 1
= = 11,54 x= i= 1
= = 13,07
n 13 n 15
Me = 9 Me = 9
Mo = 9 Mo = 9
Podemos observar que la media aritmética es el parámetro que se afecta al incorporar datos
extremos, en este caso, al incorporar uno por cada lado, ni la mediana ni la media se han visto
afectadas.

7.2.- Medidas de Posición no centralizada.

Además de las medidas de centralización a menudo se hace necesario determinar el dato que
deja un cierto % de los datos por delante o por detrás de él, o bien los datos que dividen la
distribución en k partes iguales (los llamados cuantiles de orden k). Sin ir más lejos la mediana
es un cuantil de orden 2 que divide a la distribución en dos partes iguales.

De entre todos los cuantiles, los más importantes son:

• Cuartiles: que dividen a la distribución en cuatro partes iguales.


• Deciles: que dividen la distribución en diez partes iguales.
• Percentiles: que dividen la distribución en cien partes iguales.

No vamos a aprender una fórmula para cada tipo de cuantil, sino que, en lo posible, vamos a
buscar siempre el percentil correspondiente, y aplicaremos la fórmula del percentil. En la
siguiente tabla se recogen las relaciones entre los principales cuantiles.

Mediana Me
Cuartiles q1 q2 q3
Deciles d1 d2 d3 d4 d5 d6 d7 d8 d9
Percentiles p10 p20 p25 p30 p40 p50 p60 p70 p75 p80 p90

Veamos cómo se calculan los cuantiles en el caso de distribuciones discretas y continuas.

• Cálculo de cuantiles en distribuciones discretas: Se emplea la misma forma de


cálculo que con la mediana, sólo que esta vez para buscar el p r se busca el dato que
se aloja en la posición (r/100)·n (con n el número de datos).

Ejercicio 23.- Determina los cuantiles indicados en la siguiente distribución discreta:

xi fi Fi
1 2 2
2 4 6
3 7 13
4 12 25
5 9 34
6 4 38
7 3 41
8 2 43
TOTAL 43

30
buscamos el dato:
25 Corresponde a
⋅ 43
q1 = p25      → 10,75  (mirarenla columna
100
  F→)
3
buscamos el dato
40 Corresponde a
⋅ 43
d 4 = p40      → 17,2  (mirarenla columna
100
  F→)
4
buscamos el dato
85 Corresponde a
⋅ 43
p85      → 36,55       → 6
100 ( mirar en la columna F )

• Cálculo de cuantiles en distribuciones continuas: Se emplea la misma forma de


cálculo que con la mediana, empleando la siguiente fórmula:

r
⋅ n − Fi− 1
pr = Li + 100 ⋅ ci
fi

Donde: pr percentil (r)


Li límite inferior del intervalo que contiene al percentil
n número total de datos que compone la muestra
Fi-1 frecuencia acumulada del intervalo anterior al que contiene al percentil
fi frecuencia absoluta del intervalo que contiene al percentil
ci amplitud del intervalo que contiene al percentil

Ejercicio 24.- Determina los cuantiles indicados para la siguiente distribución continua:

xi fi Fi
[2 – 3) 4 4
[3 – 7) 6 10
[7 – 12) 12 22
[12 – 21) 8 30
[21 – 25) 6 36
[25 – 30) 4 40
[30 – 50) 3 43
TOTAL 43

Buscamos el intervalo
75
que contiene al dato
75
⋅ 43= 32,25
⋅ 43 − 30
q3 = p75       → 21 +
100 100 ⋅ 4 = 22,5
6
Buscamos el intervalo
35
que contiene al dato
35
⋅ 43= 15,05
⋅ 43 − 10
p35       → 7 +
100 100 ⋅ 5 = 9,10
12

31

Anda mungkin juga menyukai