Anda di halaman 1dari 22

ESTADÍSTICA DESCRIPTIVA

Definiciones básicas

La Estadística es la ciencia que trata de la elaboración y la aplicación de métodos destinados a


coleccionar, representar, resumir y analizar datos, así como a realizar inferencias a partir de ellos. En
particular, se llama Estadística Descriptiva a la rama de la Estadística que tiene como objetivo el
desarrollo de herramientas destinadas a obtener muestras, presentar en forma resumida los datos
recogidos y determinar algunas medidas características. La Estadística Inferencial es el conjunto de
técnicas que permiten, mediante el uso del cálculo de probabilidades, realizar inferencias relativas a
todo un colectivo a partir del estudio de muestras extraídas del mismo.

Se llama población al colectivo que tenemos interés en estudiar. En las ciencias sociales los
colectivos suelen ser conjuntos de personas pero, en general, el término población se usa para referirse
a conjuntos de cualquier tipo (tornillos, vacas, rockeros, etc). Las poblaciones pueden ser finitas, como
el conjunto de los utreranos, o infinitas, como el conjunto de puntos del intervalo ( 3 , 7 ) . Cada uno
de los elementos pertenecientes a la población se llama unidad muestral o individuo. Llamamos
muestra a un subconjunto de la población de cuyo estudio esperamos obtener la información que
queremos. Se llama tamaño muestral al número de elementos que la componen. Se representa por
n . Las muestras deben elegirse con cuidado para que sean lo más representativas que sea posible. Hay
toda una rama de la Estadística dedicada exclusivamente a establecer métodos de extracción de
muestras. Por ejemplo, para estudiar la seguridad de sus automóviles, un fabricante elige al azar
algunos de los que salen de la cadena de montaje para someterlos a pruebas de todo tipo. De los
resultados obtenidos con esos pocos automóviles (esa es la muestra) pueden obtenerse conclusiones
válidas para el conjunto de todos los que fabrica (esa es la población).

Se denomina carácter a cada una de las cualidades que nos interesa conocer de los individuos
de una población. Así, de los alumnos del IES Ruiz Gijón nos puede interesar conocer los caracteres
“estatura”, “edad”, “número de horas que dedica a estudiar”, “color del pelo”, “aficiones deportivas”,
etc. Hay dos tipos de caracteres. Se llaman cualitativos los que no pueden ser descritos
numéricamente (como el estado civil, el color de los ojos, etc) . También se denominan atributos , y
las distintas formas que pueden presentar se llaman modalidades. Por ejemplo, el atributo “estado
civil” tiene las modalidades “soltero”, “casado”, “separado”, “divorciado”, “pareja de hecho”, etc. En

1
general, si se denota por M un atributo que estemos estudiando, sus k diferentes modalidades se

representan por m1 , m 2 , m3 ,  , m k .

Por otra parte, se llaman cuantitativos a los caracteres que se describen numéricamente (como la
altura de un estudiante, el total de goles marcados en los partidos de una jornada de la liga de fútbol,
etc). También se llaman variables. Si una variable se ha denotado por X , los diferentes valores de

ella observados en la muestra se representan x1 , x 2 , x3 ,  .

Ejemplo: Se ha preguntado a quince alumnos elegidos al azar en este Instituto cuántos euros
llevaban encima. Las respuestas han sido 3 , 5 , 5 , 1 , 9 , 5 , 7 , 3 , 4 , 4 , 7 , 9 , 9 , 1
y 5.

En este caso n = 15 , y si representamos por X la variable “euros en el bolsillo” , sería


x1 = 3 , x2 = 5 , x3 = 5 ,  , x13 = 9 , x14 = 1 y x15 = 5 .

Una variable se llama discreta cuando sólo puede tomar un número finito de valores distintos.
La variable del ejemplo anterior es discreta, como los son las variables “número de miembros de una
familia” y “número de suspensos de un alumno”. Una variable es continua cuando, aunque sea
teóricamente, puede tomar cualquier valor comprendido entre dos de los observados en la muestra.
Así, la variable “peso de un estudiante” es continua. También los son las variables “altura de un recién
nacido” y “contenido de azúcar de un merengue”. El esquema siguiente resume lo antgerior:

 Cualitativo o atributo
  Discreta
Carácter Cuantitativo o variable
 
 Continua

Organización de los datos


Cuando se investiga un carácter de una población a través de una muestra, obtenemos un
conjunto más o menos extenso de datos. Nos enfrentamos a una masa de información que nos obliga a
actuar para reducirlos de alguna manera y así captar hechos que pueden estar ocultos. Esa
organización de los datos puede hacerse numéricamente o gráficamente.

Resúmenes numéricos.

Cuando una muestra es muy pequeña y los valores observados apenas se repiten diremos
que es una muestra de tipo I . Este tipo de muestra no necesita ser resumida. Si la muestra
consta de pocos valores distintos pero que aparecen repetidos varias veces, diremos que es una

2
muestra de tipo II . El ejemplo anterior, el de los euros que tenían encima los alumnos, es un
caso de este tipo II. Observemos que el valor 3 ha aparecido dos veces, el 5 , cuatro veces,
el 1 , dos veces, el 9 , tres veces, el 7 , dos veces y el 4 , dos veces. Así que en realidad la
variable sólo toma seis valores distintos ( 1 , 3 , 4 , 5 , 7 y 9 ) que se van repitiendo. Pues
bien, el número de veces que se repite un valor de la variable en la muestra se llama
frecuencia absoluta de dicho valor. Por ejemplo, la frecuencia absoluta del valor 5 es 4 , y
la del valor 9 es 3. En general, si una variable X toma los k valores distintos
x1 , x 2 , x3 ,  , x k , las veces que se repite el valor xi , o sea, su frecuencia absoluta, se

representa por ni . Si el tamaño de la muestra es n se cumple, evidentemente:


n1 + n 2 + n3 +  + n k = n .

Con los valores xi ordenados normalmente de menor a mayor, y sus frecuencias

absolutas, se construye la llamada tabla o distribución de frecuencias absolutas , que


resume los datos muestrales :

X ni
x1 n1

x2 n2

x3 n3

… …
xk nk

Además de la frecuencia absoluta, es interesante asociar a cada valor xi de una variable

(o a cada modalidad mi de un atributo) otras magnitudes. Lamamos frecuencia relativa

del valor xi de una variable (o de la modalidad mi de un atributo) al cociente entre su

ni
frecuencia absoluta y el tamaño de la muestra. Se representa por f i . Por lo tanto: f i = .
n
La suma de todas las frecuencias relativas es 1 . Si se multiplica por 100 una frecuencia
relativa, se obtiene el porcentaje correspondiente, representado por p i . La suma de todos

los porcentajes es el 100% . Llamamos frecuencia absoluta acumulada del valor xi ( o de

3
la modalidad mi ) a la suma de todas las frecuencias absolutas de los valores anteriores a él

con la de él mismo. Se representa por N i . Por tanto: N i = n1 + n 2 + n3 +  + ni . La

frecuencia relativa acumulada del valor xi ( o de la modalidad mi ) se define de modo

similar y se representa por Fi . Es decir: Fi = f 1 + f 2 + f 3 +  + f i . También puede

hablarse del porcentaje acumulado Pi , que se define de modo semejante. Con esos valores
se puede construir una tabla muy completa de frecuencias y porcentajes, como se indica a
continuación:

X ni Ni fi Fi pi Pi

x1 n1 N1 f1 F1 p1 P1

x2 n2 N2 f2 F2 p2 P2

x3 n3 N3 f3 F3 p3 P3

… … … … … … …
xk nk Nk fk Fk pk Pk

Para atributos, en la primera columna se colocan las diferentes modalidades mi en


estudio, y las restantes columnas son idénticas a las que aparecen aquí.

Ejemplo: Se han seleccionado al azar 150 familias utreranas, y se les ha preguntado cuántos
hijos tienen. Las respuestas han sido las siguientes:

0 0 0 1 1 6 5 1 0 0 5 0 0 0 0 0 1 1 1 1 1 1 5 4 4 4 3
3 4 4 0

0 0 3 0 1 2 2 2 2 2 2 2 3 2 2 2 2 2 3 2 3 3 2 1 2 2 2
2 2 3 3

2 3 2 3 0 0 0 0 1 1 1 2 1 1 1 0 0 2 2 2 2 3 2 1 1 2 2
2 2 2 2

4
3 2 2 2 2 2 1 1 1 1 2 2 2 2 2 2 1 3 3 3 3 3 3 3 3 3 3
3 2 2 2

2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2

Se trata de una típica muestra de tipo II , porque la variable X = “números de hijos”


sólo toma los valores 0 , 1 , 2 , 3 , 4 , 5 y 6 , aunque repetidos cada uno varias veces. La
tabla de frecuencias y porcentajes completa para esta muestra es la siguiente:

X ni Ni fi Fi pi Pi

0 20 20 0.1333 0.1333 13.33% 13.33%


1 35 55 0.2333 0.3666 23.33% 36.66%
2 62 117 0.4133 0.7800 41.33% 78%
3 24 141 0.1600 0.9400 16% 94%
4 5 146 0.0333 0.9733 3.33% 97.33%
5 3 149 0.0200 0.9933 2% 99.33%
6 1 150 0.0066 1 0.66% 100%
n = 150

Cuando se estudian variables, sobre todo contínuas, nos encontramos muchas veces las
llamadas muestras de tipo III , que se caracterizan por ser de gran tamaño y/o porque se
observan muchos valores distintos de la variable. Para resumir los datos, se agrupan en k
intervalos de clase , que no son más que intervalos semiabiertos de la recta real de la forma
( Li −1 , Li ] , con 1 ≤ i ≤ k . El número Li −1 se llama límite inferior del intervalo de clase

, y Li es el límite superior del intervalo. Aunque no es obligatorio, sí es recomendable que


todos los intervalos tengan la misma anchura.

A la anchura de un intervalo se la llama amplitud . La amplitud del intervalo


( Li −1 , Li ] se representa por a i y, evidentemente, es a i = Li − Li −1 . No se recomienda usar

menos de cinco intervalos para resumir los datos, ni más de quince. De todos modos, es el
investigador el que establece líbremente la cantidad k de intervalos que quiere usar. Una vez
decidido k , hay que decidir la amplitud que tendrán los intervalos. También eso es cosa del

5
investigador. De todos modos, una fórmula que suele aplicarse para determinar la amplitud a

 x max − x min 
, si deseamos que sea la misma para todos los intervalos, es la siguiente: a =   +1
 k 
. El corchete indica que, después de hacer la división, debemos eliminar los decimales, si es
que los hay. Por otro lado, x max es el mayor valor que aparece en la muestra y x min es el más
pequeño.

En cualquier caso, lo importante es que todos lo datos muestrales se encuentren


incluidos en alguno de los intervalos. Una vez que se ha hecho el recuento y se han
contabilizado los datos muestrales que caen en cada intervalo, es fácil obtener las frecuencias
absolutas, relativas, etc , de los mismos. El punto central de un intervalo se llama marca de
clase . Viene a ser como su representante. Si el intervalo es ( Li −1 , Li ] , se lo denota por xi ,

Li −1 + Li
y naturalmente vale: xi = .
2

Las tablas de frecuencias y porcentajes para las muestras de tipo III tienen el aspecto
siguiente:

marca
( Li −1 , Li ] ni Ni fi Fi pi Pi
s
( L0 , L1 ] x1 n1 N1 f1 F1 p1 P1

( L1 , L2 ] x2 n2 N2 f2 F2 p2 P2

( L2 , L3 ] x3 n3 N3 f3 F3 p3 P3

… … … … … … … …
( Lk −1 , Lk ] xk nk Nk fk Fk pk Pk

Es muy corriente usar intervalos de la forma [ Li −1 , Li ) . Eso no cambia nada de lo


explicado hasta ahora. También es muy común que el primer y el último intervalos no se

6
especifiquen claramente, lo que acarrea algunos problemas a la hora de calcular medidas
estadísticas que veremos más adelante.

Ejemplo : Las calificaciones obtenidas por 40 alumnos en un exámen de Lengua Inglesa han
sido las siguientes:

66 77 76 50 81 69 75 73 84 62

65 71 93 54 70 55 86 63 84 76

80 88 78 69 77 75 52 60 68 71

84 70 89 78 87 98 80 76 55 65

Los vamos a grupar en 5 intervalos de igual amplitud. La amplitud común de todos


ellos la calculamos usando la fórmula indicada:

x − x min   98 − 50 
a =  max  +1=   + 1 = [ 9.6 ] + 1 = 9 + 1 = 10 .
 k   5 

Ahora sólo queda elegir el límite inferior del primer intervalo de clase, que suele tomarse
muy próximo al valor más pequeño que aparece en la muestra, que es el 50 . Así que
tomaremos L0 = 49 . Por lo tanto el primer intervalo será ( 49 , 59 ] , el segundo, ( 59 , 69 ] ,
etc. Ahora sólo nos falta ir anotando qué datos de los recogidos en la muestra entran en cada
uno de los intervalos. Por ejemplo, en ( 49 , 59 ] hay 5 datos, en ( 59 , 69 ] hay 9 datos, etc.
Ya podemos construir la tabla de frecuencias (para abreviar, no mostraremos la columnas
correspondientes a los porcentajes):

marca
( Li −1 , Li ] ni Ni fi Fi
s
( 49 , 59 ] 54 5 5 0.125 0.125
( 59 , 69 ] 64 9 14 0.225 0.35
( 69 , 79 ] 74 14 28 0.35 0.70
( 79 , 89 ] 84 10 38 0.25 0.95
( 89 , 99 ] 94 2 40 0.05 1

7
n = 40

Agrupar los datos en intervalos permite estudiarlos mejor, pero supone una pérdida de
información. Desde el momento en que se hace la agrupación se acepta la llamada hipótesis de
uniformidad.

Resúmenes gráficos.

Las representaciones gráficas permiten captar sin esfuerzo las principales carácterísticas de un
conjunto de datos. Las muestras de tipo I no se resumen gráficamente. Para las de tipo II , las
representaciones más usadas son los diagramas de barras y los diagramas de sectores . El
diagrama de barras se obtiene marcando en uno de los ejes de coordenadas los distintos valores que
toma la variable (o las diferentes modalidades de un atributo), y trazando a continuación barras
verticales u horizontales (según el eje que hayamos elegido antes) del tamaño de las frecuencias
correspondientes.

Ejemplo : Se ha preguntado a catorce sevillanos por sus creencias religiosas. El resultado ha sido el
siguiente:

ateo católico católico protestante ateo


católico católico musulmán ateo ateo
católico católico católico musulmán

En este caso el carácter “creencias religiosas” es un atributo. Después de hacer el recuento para
determinar las frecuencias absolutas de cada modalidad, se obtiene el diagrama de barras siguiente:

Creencias religiosas
Creencias ni
8
católico 7 7
protestante 1 6
5
musulmán 2 4
ateo 4 3
2
1
n = 14 0
católico protestante musulmán ateo

8
El diagrama anterior se ha realizado con Excel. ¡Cuando se hacen a mano, las barras se dibujan
más delgadas para ahorrar tinta! Se construye igual en el caso de frecuencias acumuladas. Si unimos
mediante un polígono los centros de las bases superiores de cada barra, se obtienen los llamados
polígonos de frecuencias . El gráfico siguiente corresponde al ejemplo de la encuesta sobre el número
de hijos de las familias utreranas, y aclara cómo se hace:

70

60

50

40

30

20

10

0
0 1 2 3 4 5 6
Núm ero de hijos

Los diagramas de sectores son círculos que se dividen en sectores circulares asociados a cada
valor de la variable o modalidad del atributo, de manera que el ángulo central de cada sector sea
proporcional a la frecuencia absoluta correspondiente. Esos ángulos centrales se calculan mediante
una sencilla regla de tres. Basta tener en cuenta que los 360 grados del círculo se corresponden con el
tamaño total de la muestra, n . En el ejemplo de las creencias religiosas, a los católicos les
correspondería un sector con ángulo central:
360 grados − − − − − 14
 ⇒ x = 180 grados
x grados − − − − − 7 

De manera similar se obtienen los otros ángulos centrales. Basta con transportarlos al círculo
para obtener el resultado siguiente (hemos añadido el dato de los porcentajes para reforzar la
información que da el diagrama):

9
ateo
29%

católico
50%

musulmán
14%

protestante
7%

En el caso de muestras de tipo III , que sólo se pueden dar al estudiar variables, la representación
más usada es el histograma . Vamos a suponer que todos los intervalos de clase en los que se han
agrupado los datos son de la misma amplitud (si la amplitud es distinta la construcción es más
compleja, y no la consideraremos aquí). En el eje de abscisas se marcan los intervalos de clase y,
tomándolos como base, se levantan rectángulos adosados que tengan como altura las correspondientes
frecuencias. Las frecuencias pueden ser las absolutas, las relativas o las acumuladas, según nos
interese. También cabe representar polígonos de frecuencias. En este caso hay que hacer una
precisión. Si los polígonos son de frecuencias no acumuladas, se dibujan como explicamos
anteriormente. Pero si queremos represesentar el polígono correspondiente a un histograma de
frecuencias acumuladas , los segmentos van uniendo los extremos derechos de las bases superiores de
los rectángulos y, además, se comienza con uno que parte del límite inferior del primer intervalo de
clase.

Ejemplo.
Se ha hecho una encuesta entre fumadores para saber cuántos cigarrillos fuman al día. Después
de entrevistar a 41 fumadores , las respuestas dadas se han agrupado en los intervalos que aparecen el
tabla de frecuencias siguiente. Al lado aparece el histograma de frecuencias acumuladas y el polígono
de frecuencias absolutas, y debajo figura el histograma de frecuencias absolutas acumuladas y el
polígono de frecuencias absolutasn acumuladas:
N
Cigarrillos i i

0 - 5 3 3
5 - 10 8 11

10 - 15 18 29

15 - 20 12 41
n = 41
10
0 5 10 15 20
0 5 10 15 20

Otras representaciones gráficas, como los pictogramas , los cartogramas , etc., son de uso
frecuente en las ciencias sociales, y pueden estudiarse en cualquier libro de texto.

Medidas o parámetros estadísticos

Una vez resumidos en tablas los datos de una muestra, llega la hora de determinar las llamadas
medidas o parámetros estadísticos. Éstas no son más que valores que nos dan información sobre los
patrones de comportamiento de la muestra. Hay cuatro tipos de medidas estadísticas: de
centralización, de dispersión, de posición y de forma.

A) Medidas de centralización.

Las medias

Consideremos una muestra de tipo I x1 , x 2 , x3 ,  , x n , de tamaño n ,


correspondiente a una variable. Se llama media aritmética de esos valores al número:

11
n

x + x 2 + x3 +  + x n
∑ xi
i =1
X= 1 =
n n

Si la muestra de tamaño n es de tipo II , de manera que constan k valores distintos de la

variable, x1 , x 2 , x 3 ,  , x k , con frecuencias absolutas n1 , n 2 , n3 ,  , n k , la media


aritmética es:

x1 ⋅ n1 + x 2 ⋅ n 2 + x3 ⋅ n3 +  + x k ⋅ n k
∑ ( x i ⋅ ni )
i =1
X= =
n n

Por último, si la muestra es de tamaño n y de tipo III, y se ha resumido en k intervalos de

clase, la media se obtiene de forma idéntica a la anterior, pero siendo las xi las correspondientes
marcas de clase. Para los atributos no se usa esta medida. Hay que señalar que la media aritmética no
tiene por qué ser uno de los valores que han aparecido en la muestra.

Ejemplo. La media aritmética de la muestra 7 , 3 , 5 , 5 , 1 , 8 , 9 es:

7 + 3 + 5 + 5 +1+ 8 + 9
X= = 5.428
7

Ejemplo. La media de la muestra de tipo II que aparece resumida en la tabla de frecuencias dada, es:

X ni

0 7
1 4
3 8 0 ⋅ 7 + 1 ⋅ 4 + 3 ⋅ 8 + 5 ⋅ 0 + 9 ⋅ 12
X= = 4.387
5 0 31

9 12
n = 31

( Li −1 , Li ]
marca
Ejemplo. La media de la muestra de tipo III que está resumida en la tabla siguiente, es:
ni
s
(0,5] 2.5 12
( 5 , 10 ] 7.5 8
( 10 , 20 ] 15 5 2.5 ⋅ 12 + 7.5 ⋅ 8 + 15 ⋅ 5 + 24 ⋅ 11
X= = 11.9
( 20 , 28 ] 24 11 36
12
n = 36
La media arimética tiene algunas propiedades que conviene destacar:

a) La media arimética sólo se aplica a variables.

b) La media aritmética no es, en general, uno de los valores muestrales.

c) La media aritmética no se puede calcular para muestras agrupadas en intervalos


cuando, por el motivo que sea, no es posible obtener la marca de clase de alguno de
ellos.

d) Si a todos los valores de una variable X se les suma una constante a , se obtienen
valores de una nueva variable Y , cumpliéndose entonces: Y = X + a .

e) Si a todos los valores de una variable X se los multiplica por una constante a , se
obtiene valores de una nueva variable Y, cumpliéndose entonces: Y = a ⋅ X .

f) La media aritmética es muy sensible a la presencia en la muestra de algún dato que


esté muy separado de la masa principal. Por ejemplo, para la muestra 4 , 2 , 2 ,

1 , 4 , 1 , 2 , 70 , 4 es X = 10 . Si no tenemos en cuenta el valor 70 , la

media sería X = 2.5 , que es un valor mucha más razonable. Por eso, si una
muestra contiene algún valor fuera de lo común la media aritmética vale de poco, a
menos que ese valor no sea tenido en cuenta.

Las calculadoras científicas permiten calcular rápidamente la media arítmética y otros


parámetros. Para ello es necesario tener activado el modo estadístico .

Con frecuencia los valores recogidos en una muestra no tienen la misma “importancia”. Un caso
típico es el que se da con las notas. Es muy corriente que los profesores valoren más unos exámenes
que otros, y por eso le dan más peso a unos que a otros en la calificación final. Se habla entonces de

13
media ponderada . En general, si a el valor xi de una muestra de tamaño n se le asigna un peso

wi , se llama media ponderada a:

x ⋅ w + x 2 ⋅ w2 + x3 ⋅ w3 +  + x n ⋅ wn
∑ ( xi ⋅ wi )
i =1
Xp = 1 1 =
w1 + w2 + w3 +  + wn n
∑ wi
i =1

Ejemplo. Un examen consta de tres partes, un test, una parte teórica y otra de ejercicios. El profesor
le asigna una importancia del 20% al test, de un 30% a la teoría y de un 50% a los ejercicios. Si un
alumno ha obtenido un 4 en el test, un 3 en la teoría y un 7 en los ejercicios, la nota final del

4 ⋅ 20 +3 ⋅ 30 +7 ⋅ 50
examen sería la media ponderada: Xp = =5.2 . De no
20 +30 +50
haber ponderado, la nota media sería 4.67 . ¡Suspenso!

Hay otra medias muy usadas en diferentes ámbitos científicos que conviene conocer. Para una

muestra de tamaño n y tipo I , x1 , x 2 , x 3 ,  , x n , se definen del modo siguiente:

Media geométrica: X G = n x1 ⋅ x 2 ⋅ x3 ⋅  ⋅ x n

n
XH =
Media armónica: 1 1 1 1
+ + + +
x1 x 2 x3 xn

x12 + x 22 + x32 +  + x n2
Media cuadrática: XC =
n

Como curiosidad, se cumple la relación: x min ≤ X H ≤ X G ≤ X ≤ X C ≤ x max

La mediana

Otra medida de centralización de gran importancia por su significado y sus aplicaciones, sólo
aplicable a variables, es la mediana . Para obtenerla hay que ordenar la muestra de menor a mayor (o
de mayor a menor) . Una vez ordenada la muestra, se llama mediana, y se representa por Me , a un
número tal que hay tantos valores muestrales por debajo de él como por encima de él. Puede decirse
que es el número que divide a la muestra ordenada en dos mitades.

14
Si la muestra es de tipo I y el tamaño muestral n es un número impar, la mediana es
precisamente el valor muestral que ocupa la posición central. Si n es par, la mediana es la media
aritmética de los dos valores centrales.

Así, para obtener la mediana de la muestra 7 , 8 , 8 , 5 , 1 , 9 , 7 , 6 , 6


debemos empezar ordenándola: 1 , 5 , 6 , 6 , 7 , 7 , 8 , 8 , 9 . La mediana es
Me = 7 . Igualmente, para determinar la mediana de la muestra 9 , 3 , 8 , 1 , 1 , 7 , 6
, 6 , 5 , 5 , empezamos ordenándola: 1 , 1 , 3 , 5 , 5 , 6 , 6 , 7 , 8 , 9
. En este caso no hay un único valor central, sino dos, el 5 y el 6 , por eso la mediana es

5+6
Me = = 5.5 .
2
Si la muestra es de tipo II , para obtener la mediana la tabla de frecuencias debe contener

n
necesariamente la columna de las frecuencias absolutas acumuladas. Se empieza calculando . La
2

mediana es entonces el primer valor muestral xi cuya frecuencia absoluta acumulada N i supera a

n
. Si casualmente ocurre que hay un valor xi cuya frecuencia absoluta acumulada N i coincide
2

n
justamente con , la mediana es entonces la media aritmética entre ese valor y el siguiente, o sea,
2

xi + x i +1
Me = .
2

Ejemplo. Después de preguntar a 91 gaditanos cuántos vehículos a motor hay en sus casas, se han
resumido las respuestas en la tabla de fecuencias siguiente, en la que X es la variable “número de
vehículos a motor”:

X ni Ni

0 20 20 n 91
En este caso = = 45.5 . Como el valor x 2 = 1 de la
2 2
1 35 55
variable tiene frecuencia absoluta acumulada 55 , y es el
2 18 73
primero cuya frecuencia absoluta acumulada supera el valor
3 12 85
45.5 , se deduce que Me = 1 .
4 6 91
n = 91

15
Ejemplo. Tras recoger 88 datos relativos a una variable X , se han resumido en la tabla siguiente.
A su lado aparece el cálculo de la mediana:

X ni Ni
n 88
En este caso = = 44 . Si observamos la tabla
1 10 10 2 2
3 20 30 vemos que el valor x3 = 4 de la variable tiene
4 14 44
casualmente frecuencia absoluta acumulada 44. Por
7 26 70
8 10 80 x3 + x 4 4 + 7
eso la mediana es Me = = = 5. 5 .
2 2
9 8 88
n = 88

Por último, veamos como se obtiene la mediana cuando la muestra es de tipo III . La primera
manera de hacerlo es gráficamente, siendo acosejable usar un papel milimetrado para no cometer un
error demasiado grande. Se representa el polígono de frecuencias absolutas acumuladas. Se marca en

n
el eje de ordenadas el número . Entonces la mediana es el punto del eje de abscisas que se
2

n
corresponde con en dicho polígono.
2

La segunda manera de hallar la mediana es analítica. Para empezar, se mira cuál es el intervalo

n
de clase ( Li −1 , Li ] cuya frecuencia absoluta acumulada N i supera por primera vez el valor (a
2
ese intervalo se le suele llamar intervalo mediano) . Entonces la mediana viene dada por:
n
− N i −1
Me = Li −1 + 2 ⋅a
ni

16
Ejemplo. Se ha medido la altura, en centímetros, de 15 estudiantes y los resultados se han agrupado
en intervalos de clase, como aparece en la tabla siguiente, junto a la que se explica el modo de obtener
la mediana:
n 15
Como = = 7.5 , el intervalo mediano es (170,180] porque su
2 2
Alturas ni Ni frecuencia absoluta acumulada, 10 , es la primera que está por encima
(160,170] 4 4 de 7.5 . Por lo tanto:
(170,180] 6 10 7.5 − 4
Me = 170 + ⋅ 10 = 175.83 cm
(180,190] 2 12 6
(190,200] 3 15 Eso quiere decir que la mitad de los estudiantes miden menos de
175.83 cm y la otra mitad mide más.
n = 15

La mediana es una medida estadística robusta, porque no le afecta la presencia de algún valor
muestral fuera de lo común. Recordemos que en esos casos no era recomendable usar la media
aritmética. Igualmente, cuando alguno de los intervalos de clase no está bien definido, la mediana es la
medida de centralización que debe utilizarse. Es muy importante tener claro que la mediana no tiene
por qué ser uno de los valores observados en la muestra.

La moda

Se llama moda al valor de la variable o la modalidad de un atributo que más veces se repite en
una muestra, es decir, el de mayor frecuencia absoluta. Se representa por Mo y es muy fácil de
calcular. Así, en el ejemplo de las creencias religiosas, la moda es la modalidad “católico” . En el
ejemplo de la posesión de vehículos a motor entre los gaditanos, la moda es Mo = 1 . Eso quiere decir
que la mayoría de la gente tiene sólo un vehículo. Por supuesto puede haber más de una moda en un
muestra.

Si la muestra es de tipo III , el cálculo de la moda o modas es más complejo. En primer lugar se

señala el intervalo (o intervalos) de clase ( Li −1 , Li ] que tiene más frecuencia absoluta (se lo conoce
como intervalo modal). Entonces la moda viene dada por:
ni − ni −1
Mo = Li −1 + ⋅a
2ni − ni −1 − ni +1

17
Por ejemplo, para el caso de la muestra de alturas de estudiantes el intervalo modal es (170,180]

6−4
, y por lo tanto la moda será: Mo = 170 + ⋅ 10 = 173.33 cm .
2⋅6 − 4 − 2

B) Medidas de dispersión

Consideremos las muestras de notas obtenidas por cinco alumnos en Historia y Matemáticas:
4 , 5 , 5 , 5 , 6 y 1 , 1 , 5 , 9 , 9 . Es inmediato comprobar que la media aritmética
en ambos casos es 5 . Pero es evidente que el comportamiento que se observa en las dos asignaturas
es muy distinto. Parece natural introducir algunas medidas estadísticas que nos permitan medir el
grado de alejamiento de los datos respecto a la media. Son las medidas de dispersión.

Se llama varianza de una variable al promedio de los cuadrados de las desviaciones de los

valores muestrales respecto de la media aritmética X . Se representa por S 2 . Para una muestra de

tipo I , x1 , x 2 , x3 ,  , x n , se tiene:

2 2 2
( x1 − X ) + ( x 2 − X ) + ( x3 − X ) +  + ( x n − X ) 2 ∑ ( xi − X ) 2
i =1
S2 = =
n n

Para muestras de tipos II y III , la varianza es:

( x − X ) 2 ⋅ n1 + ( x 2 − X ) 2 ⋅ n 2 + ( x3 − X ) 2 ⋅ n3 +  + ( x k − X ) 2 ⋅ n k
∑ ( xi − X ) 2 ⋅ ni
i =1
S2 = 1 =
n n

A la raíz cuadrada de la varianza se la llama desviación típica , y se representa por S . La


ventaja de la desviación típica es que se mide con la misma unidad con que se mide la variable. Es

decir, si la variable se mide en cm, la varianza se mediría en cm 2 , mientras que la desviación típica se
mediría en cm. Lo importante es tener presente que cuanto más grande es la varianza o la desviación
típica, más dispersos y alejados están los datos repecto a la media. Las calculadoras científicas

permiten calcular directamente S . En ellas la desviación típica se suele representar por σ n .

Ejemplo. Vamos a obtener la varianza y la desviación típica de las notas en Historia y Matemáticas.

Recordemos que en ambos casos la media aritmética era X = 5 :

18
( 4 − 5) 2 + (5 − 5) 2 + (5 − 5) 2 + (5 − 5) 2 + (6 − 5) 2
Historia: S2 = = 0.4 y
5

S = S 2 = 0.4 = 0.632

(1 − 5) 2 + (1 − 5) 2 + (5 − 5) 2 + (9 − 5) 2 + (9 − 5) 2
Matemáticas: S2 = = 12.8 y
5

S = S 2 = 12.8 = 3.577

Los resultados confirman, como era de esperar, que las notas en Matemáticas están más
dispersas.

Ejemplo. Se han pesado 430 magdalenas de entre las que fabrica una determinada empresa. Los
valores obtenidos se han tabulado usando seis intervalos de clase dando lugar a la tabla de frecuencias
siguiente. Vamos a determinar la media, la mediana, la moda, la varianza y la desviación típica de la
variable X = “peso en gramos de las magdalenas” :

Peso ( X ) Marcas ( xi ) ni Ni

(25,30] 27.5 73 73
(30,35] 32.5 80 153
(35,40] 37.5 67 220
(40,45] 42.5 98 318
(45,50] 47.5 44 362
(50,55] 52.5 68 430

n = 430

Media:

27.5 ⋅ 73 + 32.5 ⋅ 80 + 37.5 ⋅ 67 + 42.5 ⋅ 98 + 47.5 ⋅ 44 + 52.5 ⋅ 68 16945


X= = = 39.4 gramos
430 430

n 430
Mediana: Como = = 215 , el intervalo mediano es el (35,40] , luego:
2 2

19
n
− N i −1
2 215 − 153
Me = Li −1 + ⋅ a = 35 + ⋅ 5 = 39.62 gramos
ni 67

Moda: El intervalo modal es el (40,45] , luego:


ni − ni −1 98 − 67
Mo = Li −1 + ⋅ a = 40 + ⋅ 5 = 41.82 gramos
2ni − ni −1 − ni +1 2 ⋅ 98 − 67 − 44

Por lo tanto, la magdalenas pesan 39.4 gramos de promedio, la mitad pesa menos de 39.62
gramos y la otra mitad pesa más, y el peso más frecuente entre las magdalenas es 41.82 gramos.

Varianza:

( 27.5 − 39.4) 2 ⋅ 73 + (32.5 − 39.4) 2 ⋅ 80 +  + (47.5 − 39.4) 2 ⋅ 44 + (52.5 − 39.4) 2 ⋅ 68


S2 = = 69.5 gramos 2
430

Desviación típica: S = S 2 = 69.5 = 8.33 gramos

Otras medida de dispersión es el rango , que mide la separación que hay entre el valor más

grande de la variable y el más pequeño, y se representa por R . se tiene pues: R = x max − x min
.

El rango de la variable X del problema anterior es R = 55 − 25 = 30 gramos . El problema del


rango es que es demasiado sensible a la presencia en la muestra de algún valor excepcional. Por eso en
Estadística se usa más el llamado rango intercuartílico que definiremos más adelante. Por último,
hay que destacar especialmente el coeficiente de variación de Pearson , denotado CV , y que se

S
define así: CV = ⋅ 100% .
X
Tiene la gran ventaja de ser adimensional, lo que lo hace la mejor herramienta para comparar el
grado de dispersión de dos muestras, aunque una recoja el peso de unas magdalenas y la otra la
longitud de los tornillos que vende una ferretería. A mayor coeficiente de variación, mas alejamiento y
dispersión respecto de los valores centrales presenta la muestra.

Para la variable X del ejemplo de las magdalenas, el coeficiente de variación es

8.33 3.577
CV = ⋅ 100% = 21.14% . El de las notas en Matemáticas CV = ⋅ 100% = 71.54% , lo que
39.4 5
prueba que los pesos de las magdalenas están mas condensados en torno a la media que las notas en
Matemáticas.

20
C) Medidas de posición

Se trata de una generalización del concepto de mediana. Para obtenerlas es necesario


tener ordenada la muestra de menor a mayor. Como sabemos, la mediana dividía a la muestra
en dos mitades. Pues bien, se llama percentil de orden r , y se representa por Pr , al número
que tiene a su izquierda el r % de los valores muestrales. Por ejemplo, la mediana sería el percentil

50 , o sea , Me = P50 . Unos percentiles particulares son los llamados deciles. Se representan por D1 ,

D2 , ... y D9 , y no son más que los percentiles P10 , P20 , ... , P90 , respectivamente.

Otros casos particulares de percentiles son los llamados cuartiles , que se denotan
Q1 , Q2 y Q3 , y son precisamente los percentiles 25 , 50 y 75 . Obsérvese que el segundo cuartil

n
también es la mediana. El cálculo de los percentiles es similar al de la mediana, pero sustituyendo
2

r⋅n
en todo lo explicado por . En particular para variables agrupadas en intervalos de clase se
100

r⋅n
señala el intervalo ( Li −1 , Li ] cuya frecuencia acumulada supera por primera vez el valor .
100
Entonces el percentil de orden r se determina así:

r⋅n
− N i −1
Pr = Li −1 + 100 ⋅a
ni

Como ejemplo, vamos a calcular el percentil 30 en el caso de las magdalenas. Como

r ⋅ n 30 ⋅ 430
= = 129 , el intervalo que contiene a P30 es el (30,35] , al ser el primero cuya
100 100
frecuencia absoluta acumulada supera por primera vez a 129 , por lo que

129 − 73
P30 = 30 + ⋅ 5 = 33.5 gramos . Por lo tanto, el 30% de las magdalenas pesa menos de 33.5
80

r ⋅ n 75 ⋅ 430
gramos. Hallemos ahora el tercer cuartil , Q3 , o sea, P75 . Al ser = = 322.5 , Q3
100 100

21
322.5 − 318
está en el intervalo (45,50] , y vale: Q3 = P75 = 45 + ⋅ 5 = 45.51 gramos . Así pues, el
44
75% de las magdalenas pesa menos de 45.51 gramos.

Entre el cuartil primero Q1 y el cuartil tercero Q3 se encuentra el 50% central de la muestra.


Fuera de esos valores se encuentran los más pequeños y los más grandes datos muestrales.
Precisamente a la distancia que separa esos cuartiles se la llama rango intercuartílico , que es una
medida de dispersión más robusta que el rango ordinario. Se representa por IQR y vale:
IQR = Q3 − Q1 . Se usa mucho en las aplicaciones de la estadística, fundamentalmente para descubrir
outliers , o sea, valores raros por ser exageradamente anormales. Con más presición, diremos que un
valor observado en una muestra es un outlier cuando no pertenece al llamado intervalo de detección ,

3 3
que es ( Q1 − ⋅ IQR , Q3 + ⋅ IQR ) .
2 2

22

Anda mungkin juga menyukai