Conceptos previos
Frecuencias
Tablas estadsticas
Cualitativa
Cuantitativa discreta
Cuantitativa continua
Tablas estadsticas:
Definiciones previas:
Carcter: Es el elemento objeto de estudio, que puede ser la altura, el sexo, nmero de
hijos, color de pelo, etc.
Cada una de las posibilidades de los caracteres se llama modalidad, en el caso de ser
numrica se llamar valor.
Cuando se hace un estudio estadstico a cada uno de los caracteres se les denomina
variable estadstica, normalmente se las suele notar por una letra mayscula. Estas
variables se pueden clasificar en:
Continuas: Los valores que toma la variable pueden ser cualquier real en un
intervalo determinado. Ejemplo: Altura, peso, ect.
Frecuencias:
Definimos:
Tablas estadsticas:
Una tabla estadstica sirve para presentar de forma ordenada las distribuciones de
frecuencias. Su forma general es la siguiente:
Frecuencia Frecuencia
Frecuencia Frecuencia
Modalidad Porcentaje Absoluta Relativa
Absoluta Relativa
Acumulada Acumulada
Departamento de Matemticas Profesor: Roberto Medina P.
ci, xi ni pi=100 fi
Modalidad ni fi pi
Estudiante 522,6 0,1380 13,80%
Percibiendo una pensin de jubilacin
712,3 0,1882 18,82%
o unos ingresos de prejubilacin
Labores del hogar 1.480,00 0,3910 39,10%
Incapacitado permanente 265,9 0,0702 7,02%
Percibiendo una pensin distinta de la
525,3 0,1388 13,88%
jubilacin o prejubilacin
Otras situaciones 279,5 0,0738 7,38%
3785,6 1 100,00%
FUENTE: IEA. Explotacin de la Encuesta de Poblacin Activa del INE (Metodologa
2005)
Una tabla estadstica sirve para presentar de forma ordenada las distribuciones de
frecuencias. Su forma general es la siguiente:
Frecuencia Frecuencia
Frecuencia Frecuencia
Modalidad Porcentaje Absoluta Relativa
Absoluta Relativa
Acumulada Acumulada
ci, xi ni pi=100 fi
Ejemplo:
1,1,1,2,3,4,4,2,0,0,0,1,2,1,0,1,0,2,3,1,0,0,0,1,1,2,3,3,2,1,1,1,0,0,0,3,0,1,1,3
Ahora contamos, ordenamos los datos y construimos la tabla estadstica.
xi ni fi pi Ni Fi
0 12 0,3 30% 12 0,3
1 14 0,35 35% 26 0,65
2 6 0,15 15% 32 0,8
3 6 0,15 15% 38 0,95
4 2 0,05 5% 40 1
40 1 100%
Una variable cuantitativa continua puede tomar todos los valores reales comprendidos entre
un valor inicial y un final. Estos valores los vamos a agrupar en intervalos de la forma
( l i , l i+1 ]. Diremos que x pertenece al intervalo ( l i , l i+1 ] si , como se puede
observar el intervalo que hemos tomado es semicerrado por la derecha, normalmente los
intervalos suelen ser semicerrados para tomar todos los valores posibles y evitar que un
mismo valor pueda entrar en dos intervalos distintos.
Llamaremos amplitud de un intervalo ( ai ) a la distancia existente entre sus extremos, es
decir, ai = l i+1 - l i. Para el clculo de medidas de centralizacin y dispersin ser necesario
usar un representante de cada intervalo, a ese representante lo llamaremos marca de clase y
La tabla de frecuencias para una variable cuantitativa continua tiene la siguiente estructura:
Marca de F. F. Rel.
Modalidad F. Absoluta Porcentaje F. Abs. Acumu.
clase Relativa Acumu.
( l i , l i+1 ] xi ni pi=100 fi
4. Vamos a considerar intervalos con igual amplitud, y sta ser . Puede que el
valor que hemos determinado sea un nmero poco esttico y sea ms til
redondearlos, por ejemplo supongamos que a = 15.12654 tomaramos a = 15,
anlogamente podemos hacer lo mismo con x menor o xmayor.
Representaciones Grficas
Diagrama de barras.
En una empresa se desea conocer el color de ojos de sus empleados, se observa a los 50
empleados y se obtienen los siguientes resultados:
Dos empresas estudian el estado civil de sus empleados con el siguiente resultado:
El procedimiento a seguir es similar al del caso cualitativo, con la salvedad de que ahora
podremos obtener tambin diagramas de barras acumulados, cosa que no era posible
determinar en el caso cualitativo.
N Residentes Viviendas
1 persona 444.390
2 personas 551.618
3 personas 477.622
4 personas 573.254
5 personas 244.544
6 personas 81.973
7 personas 26.793
8 personas 9.989
9 personas 3.712
10 o ms personas 3.284
Departamento de Matemticas Profesor: Roberto Medina P.
Viviendas
N Residentes
acumuladas
1 persona 444.390
2 personas 996.008
3 personas 1.473.630
4 personas 2.046.884
5 personas 2.291.428
6 personas 2.373.401
7 personas 2.400.194
8 personas 2.410.183
9 personas 2.413.895
10 o ms personas 2.417.179
Diagrama de sectores.
Se toma un crculo y se divide en tantos sectores como clases tengamos, siendo el arco del crculo proporcional a las
frecuencias absolutas (tambin lo podemos hacer con las frecuencias relativas o porcentajes)
Para determinar el arco circular que corresponde a cada clase relacionamos el total de observaciones con los 360
Ejemplo
Los resultados en la primera evaluacin de un curso de Bachillerato son los siguientes:
Polgono de frecuencias
Se obtiene uniendo con segmento los puntos de coordenadas (xi,ni) en el caso en que
tomemos las frecuencias absolutas, si fuesen las relativas cambiaramos ni por f i.
N Residentes Viviendas
1 persona 444.390
2 personas 551.618
3 personas 477.622
4 personas 573.254
5 personas 244.544
6 personas 81.973
7 personas 26.793
8 personas 9.989
9 personas 3.712
10 o ms personas 3.284
Departamento de Matemticas Profesor: Roberto Medina P.
Poligonal acumulada.
Viviendas
N Residentes
acumuladas
1 persona 444.390
2 personas 996.008
3 personas 1.473.630
4 personas 2.046.884
5 personas 2.291.428
6 personas 2.373.401
7 personas 2.400.194
8 personas 2.410.183
9 personas 2.413.895
10 o ms
2.417.179
personas
Pictograma
Son grficos con dibujos alusivos al carcter que se est estudiando y cuyo tamao es
proporcional a las frecuencias que representan.
Tomemos el Padrn Municipal de Habitantes a 1 de Enero de 2005, podemos hacer una
representacin grfica de los habitantes de cada una de las 8 provincias de Andaluca. Una
imagen alusiva ser la figura de una persona, cuyo tamao estar relacionado con el
nmero de habitantes de cada provincia.
El pictograma correspondiente es el que sigue:
Departamento de Matemticas Profesor: Roberto Medina P.
Histograma
Una variable continua puede tomar todos los valores comprendidos en un rango. Para
clasificar los datos se cogen intervalos, a ser posible, de amplitud constante. Una vez
ordenados los datos en una tabla podremos construir una grfica que represente esos datos.
La representacin son rectngulos cuya rea es proporcional a la frecuencia de cada
modalidad, en el caso de que los intervalos que se tomen sean iguales, las alturas de los
rectngulos se pueden tomar iguales a las frecuencias correspondientes.
1. Histograma con intervalos constantes
La esperanza de vida de un hombre al nacer viene dada por la tabla que se adjunta,
como se observa los intervalos en que se divide son de amplitud constante, entonces
se puede representar el histograma correspondiente tomando
Esperanza de
Periodo
vida
[1951,1956) 58,60
[1956,1960) 63,75
[1961,1966) 66,51
[1966,1971) 67,67
[1971,1976) 68,42
[1976,1981) 69,69
[1981,1986) 71,97
[1986,1991) 72,58
[1991,1996) 73,19
[1996,2000] 74,20
Cartograma.
Departamento de Matemticas Profesor: Roberto Medina P.
Sobre un mapa se representa cada modalidad del carcter objeto de estudio con un color. Se
acompaa de una leyenda que nos pemita interpretar el significado de los colores.
El cartograma nos permite tanto conocer los valores que toma un carcter en un momento
dado como observar su evolucin comparando temporalmente sus modalidadas.
Medidas descriptivas:
Departamento de Matemticas Profesor: Roberto Medina P.
Introduccin
El estudio de una variable estadstica comienza con la obtencin de datos, bien sondeando
la poblacin o tomando una muestra. El siguiente paso en el proceso es la ordenacin de
datos elaborando la tabla correspondiente. Trabajar con una tabla es complejo y tedioso por
lo que es ms conveniente la introduccin de nuevos parmetros que nos permitan resumir
la informacin que contienen esas tablas.
El objetivio que se persigue es la sintetizacin de la informacin que nos aportan los datos
con la menor prdida posible. Vamos a agrupar los parmetros en tres grupos dependiendo
de su funcin.
Medidas de centralizacin.
Con ellas pretendemos condensar los distintos valores de la variable en uno slo que
los resuma.
Medidas de posicin.
Una vez ordenados los datos de menor a mayor ser necesario identificar la posicin
de los valores.
Medidas de dispersin.
Las medidas de centralizacin nos condensan los datos en uno slo pero no nos
aportan informacin ninguna sobre la concentracin o dispersin de los datos, habr
pues que introducir medidas que palien esta carencia.
Nota:La determinacin de estas medidas no tiene sentido para variables cualitativas pues
no es posible realizar operaciones con sus modalidades.
Medidas de Centralizacion
Media Aritmtica
Media Geomtrica
Media Armnica
Mediana
Moda
Media aritmtica
La media aritmtica es la suma de todos los valores de la variable, ponderada por sus
frecuencias absolutas o relativas segn convenga.
Dada una poblacin o muestra con k elementos su media aritmtica se determina:
Propiedades:
En su clculo intervienen todos los datos.
Departamento de Matemticas Profesor: Roberto Medina P.
Demostracin:
CAMBIO DE ORIGEN EN LOS DATOS
Si se produce un cambio de escala en los valores, ste afecta en igual medida a la media.
Consideremos k observaciones de una variable estadstica x1,x2,...,xk, si aplicamos un
cambio de escala (a) los nuevos valores que tenemos sern ax1, ax2,...,axk, calculemos la
media de estos nuevos valores
La nueva media es .
Media geomtrica.
Dada una poblacin o muestra con n elementos distintos, se llama media geomtrica de
esos elementos a la raiz n-sima de su producto, es decir, .
Propiedades:
Media armnica.
donde n1 + n2 +...+ nk = n.
Hay una relacin entre las tres medias
La mediana
Departamento de Matemticas Profesor: Roberto Medina P.
Sean x1,x2,...,xk k datos, llamaremos mediana al valor que ocupa el lugar central de esos
datos una vez ordenados de menor a mayor.
Se pueden distinguir dos casos:
Habr dos candidatos a mediana, los datos que ocupan los lugares y . En
ese caso la mediana ser la media aritmtica de los dos valores centrales.
En el caso en que los datos estn agrupados en intervalos la mediana estar en uno de los
intervalos. Una vez identificado el intervalo al que pertenece la mediana habr que
determinar (aproximar) el valor que se corresponde con la mediana, para ello
interpolaremos.
Propiedades:
No le afectan las observaciones extremas.
Es fcil de calcular
Es siempre un valor de la variable.
La mediana divide el rea total del histograma en dos iguales
Demostracin:
Determinacin de la frmula de la mediana para datos agrupados en intervalos
Sean x1,x2,...,xk k datos, llamaremos mediana al valor que ocupa el lugar central de esos
datos una vez ordenados de menor a mayor.
Una vez identificado el intervalo al que pertenece la mediana habr que determinar
(aproximar) el valor que se corresponde con la mediana, para ello interpolaremos.
Departamento de Matemticas Profesor: Roberto Medina P.
Fjate en la figura, en el intervalo (li-1 , li] se encuentra la mediana, que dejar la mitad de los
datos a su izquierda. Si observamos los tringulos ABC y AB'C', nos damos cuentas que
La Moda
Dado un conjunto de datos estadsticos llamaremos moda al valor que ms ocurre. Si los
datos son valores discretos los podemos identificar en una tabla estadstica como aquel
valor con mayor frecuencia. Puede darse el caso de que una variable tenga varias modas.
Propiedades
Medidas descriptivas
Medidas de Posicin
Centiles
Deciles
Cuartiles
Centiles o Percentiles.
En una variable discreta se define el percentil de orden k (Pk), como la observacin que deja
por debajo (una vez ordenados) el k% de los datos.
En el caso de variable continua, Pk se encontrar en un intervalo (li-1 , li] y dejar por debajo
Deciles
Cuartiles
Los cuartiles son los valores de la variable que dividen los datos en cuatro partes, por su
puesto, una vez ordenados de menor a mayor.
Los cuartiles son:
1. Q1 primer cuartil o cuartil inferior, hay un cuarto de los datos menores que l, dicho
de otro modo el 25% de los datos son menores. Coincide con P25.
2. Q2 segundo cuartil o cuartil intermedio, el 50% de los datos son menores que l.
Coincide con la mediana, D5 y P50.
3. Q3 tercer cuartil o cuartil superior, deja el 75% de los datos de debajo. Coincide con
P75.
supere el 25% de los datos, esta observacin ocupar el lugar donde n es el total
de observaciones y E representa la parte entera. Q2 coincide con la Mediana por tanto al
donde k=1,2,3.
Medidas de Dispersin
Departamento de Matemticas Profesor: Roberto Medina P.
Introduccin
Rango
Desviacin media
Varianza
Desviacin tpica
Coeficiente de variacin
Medidas de dispersin.
Con las medidas de centralizacin y posicin podemos conocer los valores centrales de un
conjunto de datos y la distribucin de stos. Uno de los objetivos de las medidas de
tendencia central es la de sintetizar la informacin de los datos, pero estas medidas por s
solas no bastan para ver su grado de significacin, vemoslo con un ejemplo.
La media para el primer grupo es menos representativa que para el segundo. Hemos visto
un ejemplo, bastante exagerado para comprobar que las medidas de tendencia central
necesitan un complemento, una medida que nos permita otorgar mayor o menor
representatividad estas medidas.
Rango o Recorrido.
Propiedades.
Es fcil de calcular y sus unidades son las mismas que las de la variable.
Slo usa las unidades extremas.
Se puede ver afectada por observaciones anmalas.
Con cada observacin nueva el rango puede aumentar o permanecer invariante, pero
nunca disminuir.
Al usar slo dos datos no es una medida fiable.
Rango intercuartlico.
Departamento de Matemticas Profesor: Roberto Medina P.
Las propiedades aplicables al rango lo son tambin al rango intercuartlico con la salvedad
de que es una medida menos sensible a anomalas, nos da el rango de valores en el que se
encuentra el 50% central de los datos.
Desviacin media
Las medidas de dispersin como el rango o el rango intercuartlico son poco significativas y
slo se apoyan en dos datos, sera conveniente tener una medida de la dispersin de los
datos respecto a la media (valor en el que se resumen todos los datos) y en la que
tomsemos informacin de todas la observaciones.
Una medida para conocer la dispersin de los datos sera ver que errores se comenten al dar
la media en lugar del autntico valor, en el valor i-simo cometeramos un error .
Si sumamos todas las desviaciones
.
Se compensan las desviaciones positivas y negativas, por lo no podemos conocer la
desviacin. Para corregir ese problema podemos considerar todos los errores que
calculemos como positivos, para ello basta con tomar el valor absoluto, si adems
consideramos la media de esos errores obtenemos la desviacin media.
donde n1 + n2 +...+ nk = n.
Propiedades
Nos da la media de la dispersin de los datos.
Intervienen para su clculo todos los datos.
Cada vez que insertemos un dato nuevo se modificar.
Al intervenir un valor absoluto los clculos son complicados.
A mayor concentracin de los datos entorno a la media menor ser su valor.
DM es no negativa
DM=0 si y slo si todos los valores son coincidentes.
Departamento de Matemticas Profesor: Roberto Medina P.
Varianza
donde n1 + n2 +...+ nk = n.
Propiedades
Como sumamos cuadrados la varianza siempre es positiva y ser nula cuando todos
los valores de la variable sean coincidentes y por tanto iguales a la varianza.
Al elevar al cuadrado elevamos la unidad de medida de las observaciones al
cuadrado.
Al elevarse al cuadrado las desviaciones aquellos valores ms alejados de la media
afectarn mucho a la varianza.
Es invariante ante cambios de origen (Demostracin).
Si se produce un cambio de escala la nueva varianza es igual a la anterior
multiplicada por el cuadrado del cambio (Demostracin).
Si se produce simultneamente un cambio de origen y escala en los datos, slo el
cambio de escala afectar a la varianza (Demostracin).
Departamento de Matemticas Profesor: Roberto Medina P.
Demostracin:
Desviacin tpica
Con la varianza se elevan al cuadrado las unidades de medida, sera interesante tener una
medida de dispersin con las mismas unidades de la media y los datos, esto lo podemos
conseguir haciendo la raz cuadrada positiva de la varianza, a la que llamaremos desviacin
tpica.
Propiedades
Demostracin:
Hay casos en los que tenemos que comparar poblaciones en las que las unidades de medida
son distintas, o que an teniendo la misma unidad de medida difieren en sus magnitudes.
Esta situacin se nos presenta cuando tenemos que comparar la dispersin del peso y la
altura en los alumnos de un centro educativo o si queremos comparar la dispersin el las
alturas de una poblacin de caballos y otra de ratones.
Para los casos anteriores necesitamos una medida de la dispersin en la que no influyan las
unidades, sera conveniente tener una medida adimensional.
Cuando la media est muy prxima al cero afecta mucho al coeficiente, aumentando
mucho su valor.
Mientras menor sea el coeficiente ms representativa es la media.
Es invariante ante cambios de escala (Demostracin).
El Coeficiente de variacin no es invariante ante cambios de origen(Demostracin).
Demostracion:
Medidas de Forma
Asimetra
Apuntamiento
Coeficiente de asimetra
Adems de conocer las medidas de tendencia central y dispersin sera conveniente conocer
cmo estn distribuidos dos datos en torno a las medidas de tendencia central.
Una distribucin de frecuencias puede ser simtrica o asimtrica. Para saber si es simtrica
tenemos que tomar una referencia, es decir, ver respecto a qu es simtrica, nosotros vamos
a estudiar la simetra respecto a la media, para ello usaremos el siguiente coeficiente de
simetra:
Propiedades
Coeficiente de apuntamiento
La otra medida de forma que vamos a considerar es el apuntamiento, al igual que con la
simetra hemos de tomar una referencia para ver si la distribucin de los datos es apuntada
o no.
Esa referencia ser la distribucin normal, distinguiremos tres casos que la distribucin sea
ms picuda que la normal, igual a ella o ms aplastada. Para poder comparar las
distribuciones con la normal podemos tomar el estadstico
La distribucin normal toma para a4 el valor 3, por tanto podemos hacer dos cosas tomar
este estadstico y clasificar el apuntamiento en funcin de que su valor sea mayor, igual o
menor que 3, o bien hacer una correccin para que el centro de referencia est en cero. Con
esta premisa se define el coeficiente de aplastamiento de Fisher (curtosis) como