Anda di halaman 1dari 33

Medidas Estadísticas

• Medidas de Centralización: Nos sirven para ver sobre que


valores se concentra la variable.
• Medidas de Dispersión: Cuantifican la concentración o no
concentración de los datos. También nos van a dar una idea
sobre la representatividad de las medidas centrales, a mayor
dispersión menor representatividad.
• Medidas de Localización: Útiles para encontrar
determinados valores importantes, para una “clasificación”
de los elementos del colectivo de datos.
• Medidas de Forma: Sirven para ver si la distribución tiene
el mismo comportamiento por encima y por debajo de los
valores centrales. Comparan la forma de la distribución con
la forma de la distribución Normal, que es la distribución
que se toma como referencia.
MEDIDAS REPRESENTATIVAS DE UN
CONJUNTO DE DATOS ESTADÍSTICOS
Medidas de Centralización
Media aritmética: La media aritmética de una variable se
define como la suma ponderada de los valores de la variable
por sus frecuencias relativas:
n n
fi
x = ∑ xi hi = ∑ xi
i =1 i =1 n
xi representa el valor de la variable o en su caso la marca de
clase.
Ventajas y Desventajas
• Única, fácil cálculo y tiene en cuenta todos los valores.
• Con valores extremos no es representativa.
• No se puede calcular para caracteres cualitativos o
intervalos no acotados.
• Depende de la división en intervalos en el caso de variables continuas.
• En estudios relacionados con propósitos estadísticos y de inferencia
suele ser más apta.
Ejemplo
Calcular la media aritmética en los siguientes datos

li-1 - li ni xi xi ni
li-1 - li ni
0 - 10 1 5 5 -19 -19
0 - 10 1
10 - 20 2 10 - 20 2 15 30 -9 -18
20 - 30 4 20 - 30 4 25 100 +1 +4
30 - 40 3 30 - 40 3 35 105 +11 +33
n=10

Solución

La media aritmética es:

Se puede comprobar sumando los elementos de la última


columna que:
Propiedades:
• M[k.X] = k.M[X], k:constante
• M[k±X] = k ± M[X]
• Para cualquier posible valor k que consideremos como
candidato a medida central, , lo mejora en el sentido de
los mínimos cuadrados, es decir:

• Dados r grupos con n1, n2, ..., nr observaciones y siendo


, , . . , las respectivas medias de cada uno de ellos.
Entonces la media global es

• Linealidad
Ejemplo
Xi ni
Calcular la media de la siguiente distribución. 38432 4
38434 8
38436 4
38438 3
Si efectuamos un cambio de variable 38440 8
x i − 38436
yi =
2
tomando como nueva variable el valor más centrado, tendremos::

xi ni yi yi ni
38432 4 (38432 - 38436)/2 = -2 -8
38434 8 (38434 - 38436)/2 = -1 -8
38436 4 (38436 - 38436)/2 = 0 0
38438 3 (38438 - 38436)/2 = 1 3
38440 8 (38440 - 38436)/2 = 2 16
n = 27 3
Medidas de Centralización
Mediana: La mediana es el valor central de la variable, es
decir, supuesta una muestra ordenada en orden creciente o
decreciente, es el valor que divide en dos partes a dicha
muestra. Para calcular la mediana debemos tener en cuenta
si la variable es discreta o continua.

Ventajas
• Representativa para datos en escala ordinal.
• Influenciada por valores centrales y es insensible a los
valores extremos u “outliers ”.
• No tiene en cuenta todas las observaciones.
• Depende de la posición relativa de los datos, no de sus
valores.
• Es función de los intervalos escogidos.
Propiedades
• Si una población está formada por 2 subpoblaciones de
medianas Med1 y Med2, sólo se puede afirmar que la mediana,
Med, de la población está comprendida entre Med1 y Med2.

• La suma de las diferencias de los valores absolutos de n


puntuaciones respecto a su mediana es menor o igual que
cualquier otro valor.
A.- Cálculo de la mediana (caso discreto):

Tendremos en cuenta el tamaño de la muestra


Ejemplo:
B.- Cálculo de la mediana (caso continuo):

n n − N i.−1
N i −1 ≤ < N i ⇒ Me = Li −1 +
2 • ai
2
N −Ni i −1

Ejemplo:

Intervalo mediano
Figura: Cálculo geométrico de la mediana
Medidas de Centralización
Moda: La moda es el valor de la variable que tenga mayor
frecuencia absoluta, la que más se repite, es la única medida
de centralización que tiene sentido estudiar en una variable
cualitativa, pues no precisa la realización de ningún cálculo.

Ventajas y Desventajas
• Pueden existir varias modas (distrib.
bimodales, trimodales,...)
• No tiene en cuenta todas las
observaciones.
• Es menos representativa que la media.
• Se puede calcular para características
cualitativas y cuantitativas.
• Es función de los intervalos elegidos a través de su
amplitud, número y límites de los mismos.
• Aunque el primero o el último de los intervalos no posean
extremos inferior o superior respectivamente, la moda
puede ser calculada.
Figura: Cálculo geométrico de la moda
A.- Cálculo de la moda (caso discreto):

Tendremos en cuenta el valor con mayor frecuencia.


Ejemplo:

Distribución de 100 familias según número de hijos

X: nº hijos fi hi %
0 15 15/100 15
Mayor
Moda 1 31 31/100 31 frecuencia
2 50 50/100 50
3 2 2/100 2
>4 2 2/100 2
B.- Cálculo de la moda (caso continuo)

n −n
Mo = L + (n − ) + (n − ) • a
i −1
i i −1
i
n i n
i −1 i i +1

ni-1 < ni > ni+1

Intervalo modal
Relación entre media, mediana y moda
• En el caso de distribuciones unimodales, la mediana está con
frecuencia comprendida entre la media y la moda (incluso más
cerca de la media).
• En distribuciones que presentan cierta inclinación, es más
aconsejable el uso de la mediana. Sin embargo en estudios
relacionados con propósitos estadísticos y de inferencia suele
ser más apta la media.

Media < Mediana < Moda Moda < Mediana < Media
Observación:
Para distribuciones unimodales moderadamente asimétricas
(sesgadas) tenemos las siguientes tres relaciones empíricas entre
la media, moda y mediana (válidas tanto para datos aislados
como para datos agrupados por clases):
Medidas de Localización
Cuantiles: Son medidas de localización que dividen a la
serie estadística en grupos particulares
percentil

deja a su izquierda, a lo más, deja a su derecha, al menos, el


el k% de las observaciones (1-k)% de las observaciones
Tipos:
Cuartiles: Q1 = X0,25 , Q2 = X0,50 , Q3 = X0,75

Deciles: D1 = X0,1 , D2 = X0,2 ,…, D9 = X0,9

Percentiles: P1 = X0,01 , P2 = X0,02 ,…, D99 = X0,99


Medidas de Localización
Cuartiles: Caso Discreto
Posición:
(n+1)/4
Qi = xi +f*( xi+1 – xi)

Ejemplo: n = 12
111222334567

Posición: 13/4=3.25 Q1 = 1+ 0.25(2-1) = 1.25


Ejemplo
Medidas de Localización
Cuartiles, Deciles y Percentiles: Caso continuo

kn
N i −1 ≤ < Ni ⇒
4

kn − N i −1
k •n
N i −1 ≤ < Ni ⇒ d k = Li −1 + 10 • ai
10 N i − N i −1
k •n −
N i −1 ≤
kn
< Ni ⇒ 100 N i −1 •
p =L i −1
+
− ai
100 k
N i N i −1
Medidas de Localización
Ejemplo:
Cuartiles, Deciles y Percentiles: Caso continuo

Intervalo cuartílico
para Q1

1(50)
6< = 12.5 < 16 ⇒ i = 2
4
Ejercicios
1. Supóngase que un estudiante tiene las siguientes notas en cuatro cursos
matriculados un cuatrimestre: 67, 82, 90, 71. El número de créditos que
vale cada curso es, respectivamente: 3, 2, 2, 4. Calcule un promedio
adecuado.

2. Los siguientes datos representan los gastos diarios por impresión de


fotocopias de dos estudiantes que realizaron en 8 sesiones de clases.
¿cuál es el promedio por gastos de fotocopias?
3. ¿En cuál de las siguientes situaciones, la muestra es más
homogénea?
20
50

40
15

Frecuencia
Frecuencia
30

10

20

5
10

0 0
0 ,00 2,0 0 4 ,0 0 6,0 0 8 ,00 10 ,00 0,0 0 2 ,00 4,0 0 6 ,00 8 ,0 0 1 0,0 0
A C

* 25

20
Frecuencia

15

10

0
-2 ,00 0,0 0 2,0 0 4 ,00 6,0 0 8,00 1 0 ,0 0

B
4. Según la distribución de las notas (en una escala de 1 a 10), ¿cómo
crees que es la prueba A?
a. Fácil *
b. Normal, ni fácil ni difícil
c. Difícil

A B

1 00 80

80

60
Frecuencia

Frecuencia
60

40

40

20

20

0 0
2,0 0 3,0 0 4 ,00 5 ,00 6 ,00 7 ,00 8 ,0 0 9,0 0 1 ,0 0 2 ,00 3,0 0 4,0 0 5 ,00 6 ,00 7,0 0 8 ,0 0
A B
5. La tabla presentada a continuación representa el consumo de energía
eléctrica de 80 usuarios en el primer mes del 2005:
Consumo Número de
(Kwh) usuarios
5 – 25 04
25 – 45 06
45 – 65 14
65 – 85 26
85 – 105 14
105 – 125 08
125 – 145 06
145 – 165 02
Total 80

a) Construya el histograma de la variable consumo y la ojiva ascendente.


b) Examine la centralidad de la distribución con un promedio adecuado.
c) ¿Qué porcentaje de usuarios consume entre 50 y 150 Kwh?
d) ¿Qué nivel mínimo tiene el 25% de los usuarios con mayor consumo?
Solución con SPSS
Case Summariesa

li ls fi Yi
1 5 25 4 15
2 25 45 6 35
3 45 65 14 55
4 65 85 26 75
5 85 105 14 95
6 105 125 8 115
7 125 145 6 135
8 145 165 2 155
a. Limited to first 100 cases.

Statistics

Yi
N Valid 80
Missing 0
Mean 79.50
Median 78.00a
Mode 75
Percentiles 25 58.00b
50 78.00
75 100.45
a. Calculated from grouped data.
b. Percentiles are calculated from grouped data.
Solución con Casio fx-9860

Elementos de cálculo para Me

Elementos de cálculo para Mo


ESTADÍSTICOS DE LOCALIZACIÓN
(POSICIÓN NO CENTRAL)
Ejercicios: Responder usando cuantiles.
– El 5% de los productos elaborados tiene un peso
demasiado bajo. ¿Qué peso se considera
“demasiado bajo”? • Percentil 5 o cuantil 0,05

– ¿Qué peso es superado sólo por el 25% de los


artículos?
• Percentil 75

– El colesterol se distribuye simétricamente en la


población. Se considera patológico los valores
extremos. El 90% de los individuos son normales
¿Entre qué valores se encuentran los individuos
normales?
• Entre el percentil 5 y el 95

– ¿Entre qué valores se encuentran la mitad de los


individuos “más normales” de una población?
• Entre el cuartil 1º y 3º

Anda mungkin juga menyukai