Anda di halaman 1dari 29

Departamento de Matemticas Profesor: Roberto Medina P.

Trabajando la Estadstica (parte 1)


Fuente: http://www.ematematicas.net/estadistica/

Conceptos previos
Frecuencias
Tablas estadsticas
Cualitativa
Cuantitativa discreta
Cuantitativa continua

Tablas estadsticas:

Definiciones previas:

Poblacin: Es el conjunto de elementos sobre el que se realiza un estudio. La poblacin


puede ser finita o infinita, pudiendo ser objeto de estudio personas, animales, cosas, etc.

Individuo: Llamaremos individuo a cada uno de los elementos de la poblacin.

Muestra: Es un subconjunto representativo de la poblacin. En el caso de poblaciones


infinitas o finitas con una gran cantidad de individuos, en lugar de realizar un estudio sobre
la poblacin (puede ser imposible o inviable), se toma una muestra con la premisa de que
los elementos tomados estn en la misma proporcin que en el conjunto de partida.

Carcter: Es el elemento objeto de estudio, que puede ser la altura, el sexo, nmero de
hijos, color de pelo, etc.

Cada una de las posibilidades de los caracteres se llama modalidad, en el caso de ser
numrica se llamar valor.

Cuando se hace un estudio estadstico a cada uno de los caracteres se les denomina
variable estadstica, normalmente se las suele notar por una letra mayscula. Estas
variables se pueden clasificar en:

Cualitativas: si la modalidad objeto de estudio no es cuantificable, es decir, no se puede


medir numricamente. Ejemplos de caracteres cualitativos pueden ser color de pelo,
provincias de Andaluca, aficiones, profesin, etc.

Cuantitativas: si la modalidad objeto de estudio es cuantificable, es decir, se pueden medir


numricamente.

Dentro de las variables cuantitativas podemos distinguir entre:

Discretas: La variable puede tomar valores puntuales. Ejemplo: Talla de pantaln,


nmero de hermanos, habitantes de una ciudad, etc.
Departamento de Matemticas Profesor: Roberto Medina P.

Continuas: Los valores que toma la variable pueden ser cualquier real en un
intervalo determinado. Ejemplo: Altura, peso, ect.

Frecuencias:

Definimos:

La Frecuencia absoluta de una clase como el nmero de observaciones que


presenta esa clase. As, si consideramos la clase i-sima ci , notaremos por ni a su
nmero de ocurrencias.
La Frecuencia relativa de una clase como el cociente entre la frecuencia absoluta y
el total de observaciones. As, si consideramos la clase i-sima ci, su frecuencia

relativa se determina por


El tanto por ciento de ocurrencia de una clase como pi=100 fi, ntese que la
frecuencia relativa es el tanto por uno.

En el caso de variable cuantitativa podemos definir:

La Frecuencia absoluta acumulada como el nmero de ocurrencias que hay hasta


una determinada clase (una vez ordenados los valores) y lo notaremos por Ni.

La Frecuencia relativa acumulada como el tanto por uno de los elementos de la


poblacin que estn en alguna de las clases y que presentan una modalidad inferior
o igual a ci. Notaremos la frecuencia relativa acumulada por Fi.

Llamaremos distribucin de frecuencias al conjunto de clases junto a las frecuencias


correspondientes a cada una de ellas.

Tablas estadsticas:

Una tabla estadstica sirve para presentar de forma ordenada las distribuciones de
frecuencias. Su forma general es la siguiente:

Frecuencia Frecuencia
Frecuencia Frecuencia
Modalidad Porcentaje Absoluta Relativa
Absoluta Relativa
Acumulada Acumulada
Departamento de Matemticas Profesor: Roberto Medina P.

ci, xi ni pi=100 fi

Tabla para variable cualitativa


En el caso de variable cualitativa no se pueden calcular las frecuencias acumuladas pues no
es posible establecer un orden en las clases dentro de la modalidad.Colocamos en la tabla
aquellos valores que son independientes del lugar en que se pongan las modalidades.

Calculemos la tabla de frecuencias para una variable cualitativa.

Inactivos por tipos de inactividad declarada (miles de personas).

Modalidad ni fi pi
Estudiante 522,6 0,1380 13,80%
Percibiendo una pensin de jubilacin
712,3 0,1882 18,82%
o unos ingresos de prejubilacin
Labores del hogar 1.480,00 0,3910 39,10%
Incapacitado permanente 265,9 0,0702 7,02%
Percibiendo una pensin distinta de la
525,3 0,1388 13,88%
jubilacin o prejubilacin
Otras situaciones 279,5 0,0738 7,38%
3785,6 1 100,00%
FUENTE: IEA. Explotacin de la Encuesta de Poblacin Activa del INE (Metodologa
2005)

Una tabla estadstica sirve para presentar de forma ordenada las distribuciones de
frecuencias. Su forma general es la siguiente:

Frecuencia Frecuencia
Frecuencia Frecuencia
Modalidad Porcentaje Absoluta Relativa
Absoluta Relativa
Acumulada Acumulada

ci, xi ni pi=100 fi

Tabla para variable cuantitativa discreta

Ejemplo:

En un centro de Educacin secundara se pregunta a 40 alumnos por el nmero de hermanos


que tienen, el resultado es el siguiente:
Departamento de Matemticas Profesor: Roberto Medina P.

1,1,1,2,3,4,4,2,0,0,0,1,2,1,0,1,0,2,3,1,0,0,0,1,1,2,3,3,2,1,1,1,0,0,0,3,0,1,1,3
Ahora contamos, ordenamos los datos y construimos la tabla estadstica.

1. En la primara columa de la tabla colocaremos los distintos caracteres de la


modalidad objeto de estudio ordenados de menor a mayor (esto ser posible
en los caracteres cuantitativos), en nuestro caso el nmero de hermanos.
2. En la columna siguiente ponemos la frecuencia absoluta de cada carcter
(contamos el nmero de veces que aparece cada valor). La suma de las
frecuencias absolutas debe coincidir con el total de datos procesados.
3. La tercera columna estar formada por las frecuencias relativas, cada
frecuencia relativa se obtiene dividiendo la frecuencia absoluta
correspondiente por el total de datos. La suma de todas las frecuencias
relativas debe ser 1.
4. En ocasiones se comprenden mejor los datos relativos dados en por ciento,
para ello creamos una nueva columna en la que multiplicaremos las
frecuencias relativas por 100, as tendremos el porcentaje de datos que se
corresponden con dada modalidad.
5. Finalmente crearemos dos columnas en las que reflejaremos las frecuencias
absolutas y relativas acumuladas.

En nuestro ejemplo la tabla queda como sigue:

xi ni fi pi Ni Fi
0 12 0,3 30% 12 0,3
1 14 0,35 35% 26 0,65
2 6 0,15 15% 32 0,8
3 6 0,15 15% 38 0,95
4 2 0,05 5% 40 1
40 1 100%

Tabla para variable cuantitativa continua

Una variable cuantitativa continua puede tomar todos los valores reales comprendidos entre
un valor inicial y un final. Estos valores los vamos a agrupar en intervalos de la forma
( l i , l i+1 ]. Diremos que x pertenece al intervalo ( l i , l i+1 ] si , como se puede
observar el intervalo que hemos tomado es semicerrado por la derecha, normalmente los
intervalos suelen ser semicerrados para tomar todos los valores posibles y evitar que un
mismo valor pueda entrar en dos intervalos distintos.
Llamaremos amplitud de un intervalo ( ai ) a la distancia existente entre sus extremos, es
decir, ai = l i+1 - l i. Para el clculo de medidas de centralizacin y dispersin ser necesario
usar un representante de cada intervalo, a ese representante lo llamaremos marca de clase y

ser el punto medio del intervalo, esto es, .


Departamento de Matemticas Profesor: Roberto Medina P.

La tabla de frecuencias para una variable cuantitativa continua tiene la siguiente estructura:

Marca de F. F. Rel.
Modalidad F. Absoluta Porcentaje F. Abs. Acumu.
clase Relativa Acumu.
( l i , l i+1 ] xi ni pi=100 fi

Eleccin de intervalos para variables continuas


A la hora de seleccionar los intervalos para las variables continuas, se plantean varios
problemas como son el nmero de intervalos a elegir y sus tamaos.

El nmero de intervalos, k, a utilizar no est determinado de forma fija y por tanto


tomaremos un k que nos permita trabajar cmodamente y ver bien la estructura de los
datos; Como referencia nosotros tomaremos una de los siguientes valores aproximados:

1. Si n es pequeo tomaremos como nmero de intervalos


2. Si en cambio n es grande tomaremos

Por ejemplo si el nmero de observaciones que tenemos es n=100, un buen criterio es


agrupar las observaciones en intervalos. Sin embargo si tenemos
n=1.000.000, ser mas razonable elegir intervalos, que

Cmo determinamos los intervalos?

1. Tomemos el conjunto de datos y lo ordenamos de menor a mayor.


2. Consideremos el rango de los datos, es decir, la diferencia entre el valor menor y
mayor R = xmayor - x menor
3. Determinamos k usando una de las dos frmulas anteriormente expuesta, en funcin
del nmero de datos.

4. Vamos a considerar intervalos con igual amplitud, y sta ser . Puede que el
valor que hemos determinado sea un nmero poco esttico y sea ms til
redondearlos, por ejemplo supongamos que a = 15.12654 tomaramos a = 15,
anlogamente podemos hacer lo mismo con x menor o xmayor.

Determinamos los extremos de los intervalos


o l 0 = x menor o l 0 = x menor(redondeado).
o l1= l0+ a
o En general l i = l i-1 + a
Departamento de Matemticas Profesor: Roberto Medina P.

Representaciones Grficas

Tras la recogida de datos, su ordenacin y cuantificacin, es til la representacin grfica,


sta nos permite con un simple vistazo obtener informacin relevante de la poblacin o la
muestra.
Hay distintos tipos de representacin de datos, dependiendo de qu tipo de carcter estemos
estudiando (cualitativo, cuantitativo discreto o continuo) e incluso dentro de un tipo hay
representaciones que resumen mejor un determinado concepto que otro.
En el siguiente cuadro resumiremos los distintos tipos de representacin grfica y a qu tipo
de carcter se aplica.

Grfica Tipo de datos


Diagrama de sectores Caracteres cualitativos y cuantitativos
Diagrama de barras Caracteres cualitativos y cuantitavos discretos
Diagrama de barras acumulado Caracteres cuantitativos discretos
Histograma Caracteres cuantitativos continuos
Poligonal de frecuencias Caracteres cuantitativos discretos y continuos
Pictograma Caracteres cualitativos y cuantitativos
Cartograma Caracteres cualitativos y cuantitativos

Diagrama de barras.

Para realizar esta representacin tomamos el primer cuadrante de un sistema de


coordenadas donde el eje de abscisas se corresponder con las modalidades y el de
ordenada con las frecuencias, stas pueden ser absolutas o relativas.
Veamos con un ejemplo como queda.

En una empresa se desea conocer el color de ojos de sus empleados, se observa a los 50
empleados y se obtienen los siguientes resultados:

El diagrama de barras asociado es:

Color ojos Empleados


Negros 14
Marrones 24
Verdes 4
Azules 8
Departamento de Matemticas Profesor: Roberto Medina P.

En otras ocasiones tenemos los datos de dos variables y queremos representarlos en un


mismo diagrama de barras para compararlos, lo ms probable es que no haya el mismo
nmero de observaciones en cada una de ellas, por lo que no sera acertado representar el
diagrama de barras con las frecuencias absolutas, en este caso las frecuencias relativas son
ms adecuadas para su representacin.

Dos empresas estudian el estado civil de sus empleados con el siguiente resultado:

Diagrama de barras para variables cuantitativas discretas

El procedimiento a seguir es similar al del caso cualitativo, con la salvedad de que ahora
podremos obtener tambin diagramas de barras acumulados, cosa que no era posible
determinar en el caso cualitativo.

Consideremos el nmero de habitantes por vivienda en Andalucia en 2001,segn el


Instituto Andaluz de Estadstica.
La variable nmero de habitantes es cuantitativa por tanto podemos ordenar sus
modalidades y realizar un estudio acumulado.

N Residentes Viviendas
1 persona 444.390
2 personas 551.618
3 personas 477.622
4 personas 573.254
5 personas 244.544
6 personas 81.973
7 personas 26.793
8 personas 9.989
9 personas 3.712
10 o ms personas 3.284
Departamento de Matemticas Profesor: Roberto Medina P.

Viviendas
N Residentes
acumuladas
1 persona 444.390
2 personas 996.008
3 personas 1.473.630
4 personas 2.046.884
5 personas 2.291.428
6 personas 2.373.401
7 personas 2.400.194
8 personas 2.410.183
9 personas 2.413.895
10 o ms personas 2.417.179

Diagrama de sectores.

Se toma un crculo y se divide en tantos sectores como clases tengamos, siendo el arco del crculo proporcional a las
frecuencias absolutas (tambin lo podemos hacer con las frecuencias relativas o porcentajes)
Para determinar el arco circular que corresponde a cada clase relacionamos el total de observaciones con los 360

grados de la circunferencia. Los grados de cada clase vendrn dados por .

Ejemplo
Los resultados en la primera evaluacin de un curso de Bachillerato son los siguientes:

aprobados 1 suspenso 2 suspensos 3 suspensos 4 o ms


7 9 8 5 3

Fuentes de contaminacin acstica en Andaluca


Departamento de Matemticas Profesor: Roberto Medina P.

Fuente: Consejera de Medio Ambiente

Polgono de frecuencias

Se obtiene uniendo con segmento los puntos de coordenadas (xi,ni) en el caso en que
tomemos las frecuencias absolutas, si fuesen las relativas cambiaramos ni por f i.

El nmero de habitantes por vivienda en Andalucia en 2001,segn el Instituto Andaluz de


Estadstica, es el que se adjunta en la tabla, vamos a representar un poligono de frecuencias.

N Residentes Viviendas
1 persona 444.390
2 personas 551.618
3 personas 477.622
4 personas 573.254
5 personas 244.544
6 personas 81.973
7 personas 26.793
8 personas 9.989
9 personas 3.712
10 o ms personas 3.284
Departamento de Matemticas Profesor: Roberto Medina P.

Por otro lado, al tratarse de un caracter cuantitativo podemos ordenar los


datos y realizar una representacin de los datos acumulados, en este caso
tomamos Ni en lugar de ni

Poligonal acumulada.
Viviendas
N Residentes
acumuladas
1 persona 444.390
2 personas 996.008
3 personas 1.473.630
4 personas 2.046.884
5 personas 2.291.428
6 personas 2.373.401
7 personas 2.400.194
8 personas 2.410.183
9 personas 2.413.895
10 o ms
2.417.179
personas

Pictograma

Son grficos con dibujos alusivos al carcter que se est estudiando y cuyo tamao es
proporcional a las frecuencias que representan.
Tomemos el Padrn Municipal de Habitantes a 1 de Enero de 2005, podemos hacer una
representacin grfica de los habitantes de cada una de las 8 provincias de Andaluca. Una
imagen alusiva ser la figura de una persona, cuyo tamao estar relacionado con el
nmero de habitantes de cada provincia.
El pictograma correspondiente es el que sigue:
Departamento de Matemticas Profesor: Roberto Medina P.

Histograma
Una variable continua puede tomar todos los valores comprendidos en un rango. Para
clasificar los datos se cogen intervalos, a ser posible, de amplitud constante. Una vez
ordenados los datos en una tabla podremos construir una grfica que represente esos datos.
La representacin son rectngulos cuya rea es proporcional a la frecuencia de cada
modalidad, en el caso de que los intervalos que se tomen sean iguales, las alturas de los
rectngulos se pueden tomar iguales a las frecuencias correspondientes.
1. Histograma con intervalos constantes
La esperanza de vida de un hombre al nacer viene dada por la tabla que se adjunta,
como se observa los intervalos en que se divide son de amplitud constante, entonces
se puede representar el histograma correspondiente tomando

Esperanza de
Periodo
vida
[1951,1956) 58,60
[1956,1960) 63,75
[1961,1966) 66,51
[1966,1971) 67,67
[1971,1976) 68,42
[1976,1981) 69,69
[1981,1986) 71,97
[1986,1991) 72,58
[1991,1996) 73,19
[1996,2000] 74,20

Tambin se puede construir el histograma de las frecuencias acumuladas

Cartograma.
Departamento de Matemticas Profesor: Roberto Medina P.

Sobre un mapa se representa cada modalidad del carcter objeto de estudio con un color. Se
acompaa de una leyenda que nos pemita interpretar el significado de los colores.

El cartograma nos permite tanto conocer los valores que toma un carcter en un momento
dado como observar su evolucin comparando temporalmente sus modalidadas.

En el ejemplo se observa la tasa de natalidad en Andalucia a mediados de los aos 70 y 90

Fuente: Instituto de Estadstica deAndalucia (I.E.A.)

Medidas descriptivas:
Departamento de Matemticas Profesor: Roberto Medina P.

Introduccin

El estudio de una variable estadstica comienza con la obtencin de datos, bien sondeando
la poblacin o tomando una muestra. El siguiente paso en el proceso es la ordenacin de
datos elaborando la tabla correspondiente. Trabajar con una tabla es complejo y tedioso por
lo que es ms conveniente la introduccin de nuevos parmetros que nos permitan resumir
la informacin que contienen esas tablas.

El objetivio que se persigue es la sintetizacin de la informacin que nos aportan los datos
con la menor prdida posible. Vamos a agrupar los parmetros en tres grupos dependiendo
de su funcin.

Medidas de centralizacin.
Con ellas pretendemos condensar los distintos valores de la variable en uno slo que
los resuma.

Medidas de posicin.
Una vez ordenados los datos de menor a mayor ser necesario identificar la posicin
de los valores.
Medidas de dispersin.
Las medidas de centralizacin nos condensan los datos en uno slo pero no nos
aportan informacin ninguna sobre la concentracin o dispersin de los datos, habr
pues que introducir medidas que palien esta carencia.

Nota:La determinacin de estas medidas no tiene sentido para variables cualitativas pues
no es posible realizar operaciones con sus modalidades.

Medidas de Centralizacion
Media Aritmtica
Media Geomtrica
Media Armnica
Mediana
Moda

Media aritmtica

La media aritmtica es la suma de todos los valores de la variable, ponderada por sus
frecuencias absolutas o relativas segn convenga.
Dada una poblacin o muestra con k elementos su media aritmtica se determina:

Propiedades:
En su clculo intervienen todos los datos.
Departamento de Matemticas Profesor: Roberto Medina P.

Es sensible a observaciones anmalas ( valores extremos), por lo que puede ser


desvirtuada por esos valores.
Si se produce un cambio de origen, ste afecta a la media en la misma medida en
que se produce el cambio.(Demostracin)
Si se produce un cambio de escala en los valores, ste afecta en igual medida a la
media.(Demostracin)
Si se produce simultneamente un cambio de origen y escala en los datos, stos
afectan en igual medida a la media.(Demostracin)
Un inconveniente de la media aritmtica es que podemos obtener valores que no
pertenezca al espectro de valores posibles. Por ejemplo, si estudiamos el nmero de
hijos puede salir como media , que no es un valor posible dentro del conjunto
de datos.

Hay una relacin entre las tres medias:

Demostracin:
CAMBIO DE ORIGEN EN LOS DATOS

Si se produce un cambio de origen, ste afecta a la media en la misma medida en que se


produce el cambio.
Consideremos k observaciones de una variable estadstica x1,x2,...,xk, si aplicamos un
cambio de origen (b) los nuevos valores que tenemos sern x1+b, x2+b,..., xk+b, calculemos
la media de estos nuevos valores

CAMBIO DE ESCALA EN LOS DATOS

Si se produce un cambio de escala en los valores, ste afecta en igual medida a la media.
Consideremos k observaciones de una variable estadstica x1,x2,...,xk, si aplicamos un
cambio de escala (a) los nuevos valores que tenemos sern ax1, ax2,...,axk, calculemos la
media de estos nuevos valores

CAMBIO DE ORIGEN Y ESCALA EN LOS DATOS


Departamento de Matemticas Profesor: Roberto Medina P.

Si se produce simultneamente un cambio de origen y escala en los datos, stos afectan en


igual medida a la media. Consideremos k observaciones de una variable estadstica
x1,x2,...,xk, si aplicamos un cambio de escala (a) y origen (b) los nuevos valores que
tenemos sern ax1+b, ax2+b,...,axk+b.

La nueva media es .

Media geomtrica.

Dada una poblacin o muestra con n elementos distintos, se llama media geomtrica de
esos elementos a la raiz n-sima de su producto, es decir, .

En general, cuando se repiten los datos, la frmela de la media geomtrica queda:


donde n1 + n2 +...+ nk = n.

Propiedades:

No es til si algn valor es nulo.


No es posible su clculo cuando hay un nmero par de datos y el radicando es
negativo.

Hay una relacin entre las tres medias

Media armnica.

Dada una poblacin o muestra de n elementos distintos, su media armnica se determina a


travs de:

El caso general viene dado por la siguiente frmula:

donde n1 + n2 +...+ nk = n.
Hay una relacin entre las tres medias

La mediana
Departamento de Matemticas Profesor: Roberto Medina P.

Sean x1,x2,...,xk k datos, llamaremos mediana al valor que ocupa el lugar central de esos
datos una vez ordenados de menor a mayor.
Se pueden distinguir dos casos:

Hay nmero impar de datos.


La mediana ser el valor que ocupe el lugar (k+1) / 2 .
Hay un nmero par de datos.

Habr dos candidatos a mediana, los datos que ocupan los lugares y . En
ese caso la mediana ser la media aritmtica de los dos valores centrales.

En el caso en que los datos estn agrupados en intervalos la mediana estar en uno de los
intervalos. Una vez identificado el intervalo al que pertenece la mediana habr que
determinar (aproximar) el valor que se corresponde con la mediana, para ello
interpolaremos.

El resultado de la interpolacin es la frmula para el clculo de la mediana (Demostracin):

Propiedades:
No le afectan las observaciones extremas.
Es fcil de calcular
Es siempre un valor de la variable.
La mediana divide el rea total del histograma en dos iguales

Demostracin:
Determinacin de la frmula de la mediana para datos agrupados en intervalos

Sean x1,x2,...,xk k datos, llamaremos mediana al valor que ocupa el lugar central de esos
datos una vez ordenados de menor a mayor.

Una vez identificado el intervalo al que pertenece la mediana habr que determinar
(aproximar) el valor que se corresponde con la mediana, para ello interpolaremos.
Departamento de Matemticas Profesor: Roberto Medina P.

Fjate en la figura, en el intervalo (li-1 , li] se encuentra la mediana, que dejar la mitad de los
datos a su izquierda. Si observamos los tringulos ABC y AB'C', nos damos cuentas que

son semejantes y aplicando el teorema de Thales podemos afirmar que


El segmento B'C' se corresponde con ni = Ni - Ni-1, frecuencia absoluta del intervalo.
AB' es la amplitud del intervalo a i = li - li-1
BC es n/2 - Ni-1
AB es Me - li-1
Sustituimos en la igualdad y queda:

despejando Me queda la frmula para el clculo de la mediana:

La Moda

Dado un conjunto de datos estadsticos llamaremos moda al valor que ms ocurre. Si los
datos son valores discretos los podemos identificar en una tabla estadstica como aquel
valor con mayor frecuencia. Puede darse el caso de que una variable tenga varias modas.

En el caso de variables continuas, los datos vendrn agrupados en intervalos, en nuestra


tabla de valores podremos identificar el intervalo modal. Para concretar ms podemos
estimar el valor puntual al que atribuimos la moda a travs de la siguiente frmula:
Departamento de Matemticas Profesor: Roberto Medina P.

Propiedades

Es muy fcil de calcular.


Puede no ser nica.
En caso de ser nica se dice que la distribucin es unimodal.
Departamento de Matemticas Profesor: Roberto Medina P.

Trabajando la Estadstica (parte 2)


Fuente: http://www.ematematicas.net/estadistica/

Medidas descriptivas

Medidas de Posicin
Centiles
Deciles
Cuartiles

Centiles o Percentiles.

En una variable discreta se define el percentil de orden k (Pk), como la observacin que deja
por debajo (una vez ordenados) el k% de los datos.

Pk dejar por debajo de l observaciones, donde n es el total de los datos. Para


determinar Pk basta con hallar el lugar en el que se encuentra y buscarlo.

En el caso de variable continua, Pk se encontrar en un intervalo (li-1 , li] y dejar por debajo

de l , si recordamos la Mediana deja n / 2 observaciones por debajo, la frmula de

Pk se determina con el mismo razonamiento, cambiando n / 2 por queda:

Deciles

Llamaremos deciles a aquellos valores que dividen el conjunto de datos en diez


subconjuntos iguales. Los notaremos con Di y tendremos 9 deciles que coinciden con los
percentiles 10,20,30,40,50,60,70,80,90.

As Di = P10i donde i = 1,2,...,9.

Di dejar por debajo de l observaciones, donde n es el total de los datos, para


determinar Di basta con hallar el lugar en el que se encuentra y buscarlo.
Departamento de Matemticas Profesor: Roberto Medina P.

En el caso de variables continuas el razonamiento es igual que el caso de los percentiles,


quedando la frmula de clculo:

Cuartiles

Los cuartiles son los valores de la variable que dividen los datos en cuatro partes, por su
puesto, una vez ordenados de menor a mayor.
Los cuartiles son:
1. Q1 primer cuartil o cuartil inferior, hay un cuarto de los datos menores que l, dicho
de otro modo el 25% de los datos son menores. Coincide con P25.
2. Q2 segundo cuartil o cuartil intermedio, el 50% de los datos son menores que l.
Coincide con la mediana, D5 y P50.
3. Q3 tercer cuartil o cuartil superior, deja el 75% de los datos de debajo. Coincide con
P75.

En el caso de variables discretas para obtener Q1buscamos la primera observacin que

supere el 25% de los datos, esta observacin ocupar el lugar donde n es el total
de observaciones y E representa la parte entera. Q2 coincide con la Mediana por tanto al

calcular la mediana lo estamos calculando y Q3 ocupar el lugar .


En el caso en que tengamos una variable continua, como conocemos la relacin existente
entre los percentiles y los cuartiles la frmula a usar ser una adaptacin:

donde k=1,2,3.

Medidas de Dispersin
Departamento de Matemticas Profesor: Roberto Medina P.

Introduccin
Rango
Desviacin media
Varianza
Desviacin tpica
Coeficiente de variacin

Medidas de dispersin.

Con las medidas de centralizacin y posicin podemos conocer los valores centrales de un
conjunto de datos y la distribucin de stos. Uno de los objetivos de las medidas de
tendencia central es la de sintetizar la informacin de los datos, pero estas medidas por s
solas no bastan para ver su grado de significacin, vemoslo con un ejemplo.

Consideremos las notas de dos grupos de 50 alumnos, en el primero 25 alumnos obtienen


un 10 y 25 un 4, en el segundo los 50 alumnos obtienen un 7. Si calculamos la media en
ambos conjuntos es la misma (7), si slo nos fijamos en la media podemos afirmar que los
dos grupos de alumnos son bastantes buenos, pero lo cierto es que en el primer grupo hay
25 alumnos que han obtenido una nota excelente y 25 con mala nota, mientras que en el
segundo todos los alumnos han sacado una buena nota.

La media para el primer grupo es menos representativa que para el segundo. Hemos visto
un ejemplo, bastante exagerado para comprobar que las medidas de tendencia central
necesitan un complemento, una medida que nos permita otorgar mayor o menor
representatividad estas medidas.

Rango o Recorrido.

Es la diferencia entre el mayor valor de la variable y el menor.

Propiedades.

Es fcil de calcular y sus unidades son las mismas que las de la variable.
Slo usa las unidades extremas.
Se puede ver afectada por observaciones anmalas.
Con cada observacin nueva el rango puede aumentar o permanecer invariante, pero
nunca disminuir.
Al usar slo dos datos no es una medida fiable.

Rango intercuartlico.
Departamento de Matemticas Profesor: Roberto Medina P.

Viene dado por la diferencia entre el cuartil superior e inferior.

Las propiedades aplicables al rango lo son tambin al rango intercuartlico con la salvedad
de que es una medida menos sensible a anomalas, nos da el rango de valores en el que se
encuentra el 50% central de los datos.

Desviacin media

Las medidas de dispersin como el rango o el rango intercuartlico son poco significativas y
slo se apoyan en dos datos, sera conveniente tener una medida de la dispersin de los
datos respecto a la media (valor en el que se resumen todos los datos) y en la que
tomsemos informacin de todas la observaciones.
Una medida para conocer la dispersin de los datos sera ver que errores se comenten al dar
la media en lugar del autntico valor, en el valor i-simo cometeramos un error .
Si sumamos todas las desviaciones

.
Se compensan las desviaciones positivas y negativas, por lo no podemos conocer la
desviacin. Para corregir ese problema podemos considerar todos los errores que
calculemos como positivos, para ello basta con tomar el valor absoluto, si adems
consideramos la media de esos errores obtenemos la desviacin media.

Definimos la desviacin media como

donde n1 + n2 +...+ nk = n.

Propiedades
Nos da la media de la dispersin de los datos.
Intervienen para su clculo todos los datos.
Cada vez que insertemos un dato nuevo se modificar.
Al intervenir un valor absoluto los clculos son complicados.
A mayor concentracin de los datos entorno a la media menor ser su valor.
DM es no negativa
DM=0 si y slo si todos los valores son coincidentes.
Departamento de Matemticas Profesor: Roberto Medina P.

Varianza

La desviacin media es una medida de dispersin de datos correcta pero presenta un


inconveniente y es la complejidad de manipulacin al intervenir valores absolutos. Sera
conveniente encontrar otra medida que no presente el problema inicial (que no se
compensen las dispersiones negativas con las positivas) y cuyo manejo se ms sencillo.
Otra forma de evitar la compensacin de dispersiones es elevar al cuadrado la diferencia y
es ms sencillo trabajar con cuadrados que con valores absolutos, teniendo en cuenta esta
consideracin introduciremos el concepto de varianza.
Definimos la varianza como la media de los cuadrados de las desviaciones respecto a la
media.

donde n1 + n2 +...+ nk = n.

Si desarrollamos los cuadrados podemos obtener otra expresin de la varianza

Propiedades

Como sumamos cuadrados la varianza siempre es positiva y ser nula cuando todos
los valores de la variable sean coincidentes y por tanto iguales a la varianza.
Al elevar al cuadrado elevamos la unidad de medida de las observaciones al
cuadrado.
Al elevarse al cuadrado las desviaciones aquellos valores ms alejados de la media
afectarn mucho a la varianza.
Es invariante ante cambios de origen (Demostracin).
Si se produce un cambio de escala la nueva varianza es igual a la anterior
multiplicada por el cuadrado del cambio (Demostracin).
Si se produce simultneamente un cambio de origen y escala en los datos, slo el
cambio de escala afectar a la varianza (Demostracin).
Departamento de Matemticas Profesor: Roberto Medina P.

Demostracin:

CAMBIO DE ORIGEN EN LOS DATOS

La varianza es invariante ante cambios de origen.


Consideremos k observaciones de una variable estadstica x1,x2,...,xk, si aplicamos un
cambio de origen (b) los nuevos valores que tenemos sern x1+b, x2+b,..., xk+b, calculemos
la varianza de estos nuevos valores

CAMBIO DE ESCALA EN LOS DATOS

Si se produce un cambio de escala la nueva varianza es igual a la anterior multiplicada por


el cuadrado del cambio.

Consideremos k observaciones de una variable estadstica x1,x2,...,xk, si aplicamos un


cambio de escala (a) los nuevos valores que tenemos sern ax1, ax2,...,axk, calculemos la
varianza de estos nuevos valores

CAMBIO DE ORIGEN Y ESCALA EN LOS DATOS

Si se produce simultneamente un cambio de origen y escala en los datos, slo el cambio de


escala afectar a la varianza. Consideremos k observaciones de una variable estadstica
x1,x2,...,xk, si aplicamos un cambio de escala (a) y origen (b) los nuevos valores que
tenemos sern ax1+b, ax2+b,...,axk+b.
Departamento de Matemticas Profesor: Roberto Medina P.

Desviacin tpica

Con la varianza se elevan al cuadrado las unidades de medida, sera interesante tener una
medida de dispersin con las mismas unidades de la media y los datos, esto lo podemos
conseguir haciendo la raz cuadrada positiva de la varianza, a la que llamaremos desviacin
tpica.

Propiedades

Tiene la misma unidad que los datos y que la media.


Siempre es positiva, ser cero si y slo si todos los datos son coincidentes.
Es la medida de dispersin ms usada.
Es invariante ante cambios de origen (Demostracin).
Si se produce un cambio de escala la nueva desviacin tpica es igual a la anterior
multiplicada por el cambio (Demostracin).
Si se produce simultneamente un cambio de origen y escala en los datos, slo el
cambio de escala afectar a la desviacin tpica (Demostracin).

Demostracin:

CAMBIO DE ORIGEN EN LOS DATOS

Es invariante ante cambios de origen.


Consideremos k observaciones de una variable estadstica x1,x2,...,xk, si aplicamos un
cambio de origen (b) los nuevos valores que tenemos sern x1+b, x2+b,..., xk+b, calculemos
la desviacin tpica de estos nuevos valores

(*) probado para la varianza

CAMBIO DE ESCALA EN LOS DATOS

Si se produce un cambio de escala la nueva desviacin tpica es igual a la anterior


multiplicada por el cambio.

Consideremos k observaciones de una variable estadstica x1,x2,...,xk, si aplicamos un


cambio de escala (a) los nuevos valores que tenemos sern ax1, ax2,...,axk, calculemos la
varianza de estos nuevos valores

(*) probado para la varianza.


Departamento de Matemticas Profesor: Roberto Medina P.

CAMBIO DE ORIGEN Y ESCALA EN LOS DATOS

Si se produce simultneamente un cambio de origen y escala en los datos, slo el cambio de


escala afectar a la desviacin tpica.

Consideremos k observaciones de una variable estadstica x1,x2,...,xk, si aplicamos un


cambio de escala (a) y origen (b) los nuevos valores que tenemos sern ax1+b,
ax2+b,...,axk+b.

Coeficiente de variacin de Pearson

Hay casos en los que tenemos que comparar poblaciones en las que las unidades de medida
son distintas, o que an teniendo la misma unidad de medida difieren en sus magnitudes.
Esta situacin se nos presenta cuando tenemos que comparar la dispersin del peso y la
altura en los alumnos de un centro educativo o si queremos comparar la dispersin el las
alturas de una poblacin de caballos y otra de ratones.
Para los casos anteriores necesitamos una medida de la dispersin en la que no influyan las
unidades, sera conveniente tener una medida adimensional.

Definimos el coeficiente de variacin de Pearson como:


Propiedades

Cuando la media est muy prxima al cero afecta mucho al coeficiente, aumentando
mucho su valor.
Mientras menor sea el coeficiente ms representativa es la media.
Es invariante ante cambios de escala (Demostracin).
El Coeficiente de variacin no es invariante ante cambios de origen(Demostracin).

Demostracion:

CAMBIO DE ESCALA EN LOS DATOS

El Coeficiente de Variacin es invariante ante cambios de escala.

Consideremos k observaciones de una variable estadstica x1,x2,...,xk, si aplicamos un


cambio de escala (a) los nuevos valores que tenemos sern ax1, ax2,...,axk, recordemos que
un cambio de escala afecta tanto a la media como a la desviacin tpica , multiplicndose
Departamento de Matemticas Profesor: Roberto Medina P.

por el cambio, as queda pues:

CAMBIO DE ORIGEN EN LOS DATOS

El Coeficiente de Variacin no es invariante ante cambios de origen

Consideremos k observaciones de una variable estadstica x1,x2,...,xk, si aplicamos un


cambio de origen (b) los nuevos valores que tenemos sern x1+b, x2+b,..., xk+b

Medidas de Forma
Asimetra
Apuntamiento

Coeficiente de asimetra

Adems de conocer las medidas de tendencia central y dispersin sera conveniente conocer
cmo estn distribuidos dos datos en torno a las medidas de tendencia central.
Una distribucin de frecuencias puede ser simtrica o asimtrica. Para saber si es simtrica
tenemos que tomar una referencia, es decir, ver respecto a qu es simtrica, nosotros vamos
a estudiar la simetra respecto a la media, para ello usaremos el siguiente coeficiente de
simetra:

Si a3 = 0 diremos que la distribucin es simtrica, en ese caso las desviaciones a la


derecha y a la izquierda de la media se compensan.

Si a3 < 0 entonces las frecuencias mayores estn a la


izquierda de la media por lo que queda la cola a la derecha, diremos que la
distribucin est sesgada a la izquierda o que es asimtrica negativa.

Si a3 > 0 entonces las frecuencias mayores estn a la


derecha de la media por lo que queda la cola a la izquierda, diremos que la
distribucin est sesgada a la derecha o que es asimtrica positiva.
Departamento de Matemticas Profesor: Roberto Medina P.

Propiedades

No depende de las unidades de medida de las variables.


Es invariante ante el cambio de escalas

Coeficiente de apuntamiento

La otra medida de forma que vamos a considerar es el apuntamiento, al igual que con la
simetra hemos de tomar una referencia para ver si la distribucin de los datos es apuntada
o no.

Esa referencia ser la distribucin normal, distinguiremos tres casos que la distribucin sea
ms picuda que la normal, igual a ella o ms aplastada. Para poder comparar las
distribuciones con la normal podemos tomar el estadstico

La distribucin normal toma para a4 el valor 3, por tanto podemos hacer dos cosas tomar
este estadstico y clasificar el apuntamiento en funcin de que su valor sea mayor, igual o
menor que 3, o bien hacer una correccin para que el centro de referencia est en cero. Con
esta premisa se define el coeficiente de aplastamiento de Fisher (curtosis) como

Teniendo en cuenta el coeficiente de aplastamiento de Fisher podemos decir que:

Si la distribucin se llama Leptocrtica, las frecuencias son ms apuntadas


que la normal.
Si la distribucin se llama Mesocrtica, la distribucin tiene el mismo
apuntamiento que la normal.
Si se denomina Platicrtica , es menos apuntada que la normal.

Platicrtica Mesocrtica Leptocrtica


Departamento de Matemticas Profesor: Roberto Medina P.

Anda mungkin juga menyukai