ÍNDICE
ESTADÍSTICA DESCRIPTIVA
1. Población y Muestra 4
2. Variables estadísticas 4
3. Frecuencias 5
4. Distribuciones 7
5. Representación gráfica 11
5.1 De caracteres cuantitativos 11
5.1.1 De variables estadísticas discretas sin agrupar
5.1.1.1 Diagrama de barras 11
5.1.1.2 Polígono de frecuencias 12
5.1.1.3 Diagrama de frecuencias acumuladas 12
5.1.2 De variables estadísticas discretas con valores 14
agrupados en intervalos
5.1.2.1 Histograma 14
5.1.2.2 Polígono de frecuencias 14
5.1.2.3 Polígono de frecuencias acumuladas 15
5.2 De caracteres cualitativos 17
5.2.1 Diagramas de sectores 17
5.2.2 Pictogramas 18
5.2.3 Cartogramas 18
6. Medidas de posición o centralización 18
6.1 Media aritmética 19
6.2 Moda 21
6.3 Mediana 21
6.4 Cuantiles 25
7. Medidas de dispersión. 29
7.1 Rango o recorrido 29
En una empresa se manejan muchos datos sobre ventas, inventarios, personal, gastos,
clientes, equipos, etc. Todos estos datos han de ser interpretados de alguna forma, tarea que
requiere presentar los números de manera que su mensaje aparezca claramente.
Para poder usar los datos con fines concretos debemos resumirlos y describirlos; esta
tarea corresponde a la estadística descriptiva. El análisis de los datos combina resúmenes
numéricos con representaciones gráficas.
1. POBLACIÓN y MUESTRA
Población es un conjunto de elementos de los cuales nos interesa estudiar alguna
característica común. El estudio que se haga servirá para conocer y describir a esa población.
Estos números son los diferentes valores que toma una variable estadística.
2. VARIABLES ESTADÍSTICAS
Variable estadística cuantitativa es una aplicación que asigna a cada elemento de la
población un número real, que es el valor de la característica cuantitativa que estamos
estudiando.
E = población→R
En general, todas las magnitudes, relacionadas con el espacio, con el tiempo, con la
masa o bien las combinaciones de estos elementos son variables estadísticas continuas.
3. FRECUENCIAS
Sea una población de N elementos, de la cual estudiamos el carácter X que presenta las
modalidades x1 , x 2 ,......, x k . Para cada modalidad x i se define:
modalidad x i . o alguna de las anteriores (para lo cual tienen que estar ordenadas
i
previamente), es decir, N i = ∑ n j . Se tiene que N k = N .
j =1
X ni X fi
La tabla (1) formada por la variable junto con sus respectivas
x1 n1 x1 f1
frecuencias absolutas se denomina distribución de
x2 n2 x2 f2
frecuencias absolutas.
. .
. .
. .
. . k
xk nk
n1 + n 2 + ... + n=
k ∑ n=
i =1
i N xk fk
1
N
Tabla 2
Tabla 1 La tabla (2), formada por los valores de la variable junto con
sus respectivas frecuencias relativas, se denomina distribución de
frecuencias relativas.
X Fi
k k
n
∑ f i = ∑ i = f1 + ... + f k = 1
X Ni
x1 F1
x1 N1 =i 1 =i 1 n
x2 F2
x2 N2
. .
. . i . .
. . ∑n
j=1
j = N i , y se verifica N k = N
xk Fk = 1
xk Nk = N
Tabla 4
Tabla 3 La tabla (3) es la distribución de frecuencias absolutas
acumuladas.
Ni
Fi = , y se verifica Fk = 1 .
N
También es frecuente usar una tabla llamada sumario estadístico, en la que aparecen los
valores de la variable junto con los valores de los distintos tipos de frecuencia.
EJEMPLO 3:
El número de hectáreas radiadas por día, en un total de 90 días han sido:
0, 1, 1, 0, 1, 2, 2, 1, 0, 2, 3, 2, 0, 1, 1, 0, 1, 1, 4, 0, 1, 1, 0, 3, 0, 0, 1, 3, 1, 0, 1, 2, 2, 1, 3, 1, 1, 0,
0, 1, 1, 3, 0, 0, 1, 1, 0, 2, 2, 3, 0, 1, 2, 2, 1, 0, 1, 2, 2, 4, 1, 0, 4, 5, 0, 2, 2, 0, 0, 1, 1, 0, 1, 1, 0, 0,
1, 1, 0, 1, 1, 0, 1, 1, 1,1, 1, 1, 1, 1.
Obtener la distribución de frecuencias absolutas y la de frecuencias absolutas
acumuladas.
Solución:
Distribución de frecuencias:
xi ni xi Ni
0 26 0 26
1 40 1 66
2 14 2 80
3 6 3 86
4 3 4 89
5 1 5 90
Total 90 Total 90
4. DISTRIBUCIONES
Los intervalos serán todos de la misma amplitud procurando que los datos se distribuyan
más o menos homogéneamente a lo largo de todo el recorrido, de forma que no haya ninguna
clase con muchos elementos (más del 30%) ni varias clases con pocos o ningún elemento
(menos del 5%).
A los extremos del intervalo se les llama límites de clase (superior e inferior). Estos se
deben tomar de forma que se solapen los intervalos, es decir, que el extremo superior de uno
sea el inferior del siguiente.
Para evitar la ambigüedad que suponen los valores de la variable que coincidan con
algún extremo, se pueden seguir dos criterios:
Se llama marca de clase (xi) al punto medio del intervalo de clase ei-1- ei. En todos los
cálculos se opera como si la marca de clase tuviera la frecuencia absoluta de todo su intervalo.
La marca de clase se obtiene sumando los límites superior e inferior de clase y
( e i −1 + e i )
dividiendo por 2, es decir, x i = .
2
Tamaño de clase o amplitud de clase "a" es la diferencia entre los límites de clase.
ek − e0
a= La distribución de frecuencias quedaría así:
k
[e0 , e1 ] x1 n1 f1 F1 N1
( e1 , e2 ] x2 n2 f2 F2 N2
( ei−1 , ei ] xi ni fi Fi Ni
( ek −1 , ek ] xk nk fk 1 N
Designamos por (ni) al número de observaciones que quedan dentro del intervalo ( ei−1 , ei ] .
EJEMPLO 4:
Los precios de 95 ordenadores en diciembre de 2014, dados en euros, son los
siguientes:
3000 1200 740 1750 3409 580 840 1700 2300 715
3910 545 1380 815 565 3000 890 1580 800 3650
2240 1975 1745 3030 2350 3700 735 990 800 930
915 1100 1280 1163 1410 2050 3600 1260 1600 735
4260 1500 1000 1000 1600 1900 2150 2495 3200 850
540 2900 4500 3600 1035 1520 2495 1357 750 715
2775 2540 1470 395 3900 995 2200 900 1500 1500
1995 2650 1335 885 360 2100 2400 1200 1335 3310
600 755 500 990 765 1020 630 1555 640 950
630 1500 2300 3500 1825
Obtener una distribución de frecuencias agrupadas.
Solución:
El más caro es 4500 y el más barato 360, luego el recorrido es 4500-360 = 4140.
Con el criterio, k igual al entero próximo a: 1 + 3.3 ⋅ log10 (95) ≈ 7.6 , elegimos 7
DISTRIBUCIÓN DE FRECUENCIAS
INTERVALO MARCA ABSOLUTA ABSOLUTA RELATIVA RELATIVA
DE CLASE ACUMULADA ACUMULADA
e i −1 − e i xi ni Ni fi Fi
5. REPRESENTACIÓN GRÁFICA
Una buena representación gráfica, junto con las tablas de frecuencias anteriormente citadas,
permiten captar rápidamente las características de la muestra, así como resumir y analizar los
datos.
Según sean los datos, las gráficas se pueden clasificar en:
• De Caracteres Cuantitativos.
• Variable estadística discreta sin agrupar. Diagrama de barras. Polígonos de
frecuencias. Diagrama de frecuencias acumuladas.
• De Caracteres Cualitativos.
• Diagrama de barras. Diagrama de sectores. Pictogramas. Cartogramas
DIAGRAMA DE BARRAS
POLÍGONO DE FRECUENCIAS
Es una línea que se obtiene uniendo los extremos superiores de las barras en el diagrama
de barras.
16 1
14 0,9
0,8
12
0,7
10 0,6
8 0,5
6 0,4
0,3
4
0,2
2 0,1
0 0
25
20
15
10
0
x
i
Se trata de poder observar la acumulación de frecuencias hasta un valor determinado de
la variable; por ello, es muy útil para calcular percentiles de una forma gráfica.
35
30
25
20
15
10
0
0 1 2 3 4 5
Por tanto, los rectángulos tienen que solaparse (variable agrupada en intervalos) y el
área de cada rectángulo será proporcional a la frecuencia (ni o fi) del intervalo. En cuyo caso
las alturas son proporcionales a las frecuencias, y será el cociente entre la frecuencia y la
amplitud del intervalo.
ni fi
ai a
i
n f
i i
ei-1 ei e e
i-1 i
POLÍGONO DE FRECUENCIAS
El polígono de frecuencias es una línea que se obtiene uniendo los puntos medios de las
bases superiores (los techos) de cada rectángulo en el histograma. De forma que empiece y
Es muy útil para calcular percentiles de una forma gráfica. El gráfico se obtiene al unir
mediante una poligonal los puntos (ei, Ni) o (ei, Fi).
30
900 - 1500 1200 26 53
25
1500 - 2100 1800 14 67
frecuencias absolutas
20
0 1 2 3 4 5
Sumas = 95 Precio
(X 1000)
Pol¡gono de frecuencias
30
25
20
Frecuencia absoluta
15
10
0 1 2 3 4 5
(X 1000)
Precio
100
80
Frecuencias acumuladas
60
40
20
0 1 2 3 4 5
(X 1000)
Precio
DIAGRAMAS DE BARRAS
Se representan en el eje de abscisas los distintos caracteres cualitativos y se levantan
sobre ellos rectángulos de bases iguales que no tienen que estar solapados y cuyas alturas serán
las correspondientes a la frecuencia absoluta de cada carácter.
Químicas
Filosofia
Matemáticas
Económicas
DIAGRAMA DE SECTORES
En un círculo se asigna un sector circular a cada uno de los caracteres cualitativos,
siendo la amplitud del sector proporcional a la frecuencia relativas o absolutas del carácter.
Químicas
Económicas 15%
30%
Matemát.
15%
Derecho Filosofía
13% 27%
CARTOGRAMA
Es la representación sobre mapas del carácter estudiado. Usualmente las distintas
modalidades que adopta este carácter se representan con colores de distinta intensidad o
distintas tramas; como ejemplo podemos observar el cartograma elaborado por el Instituto de
Estadística de la Comunidad de Madrid. Consejería de Economía y Consumo sobre “la renta
per cápita del año 2004 en la Comunidad de Madrid”.
n1x1 n 2 x 2 ... n k x k 1 k k
X n i x i fi x i
N N i 1 i 1
f i = frecuencias relativas.
n i = frecuencias absolutas.
N = número total de la población o muestra.
PROPIEDADES:
k k k k
(x i X) fi x i fi X fi X X fi X X 0
i 1 i 1 i 1 i 1
N N N k
() 2 (xi ) (1) = 0 x 0 x
i i N = X
i 1 i 1 i 1 i 1
N
Y en efecto, es mínimo: () 2 2N 0
i 1
3) Si se suma una constante “a” a los N valores de la variable, la media queda aumentada
en dicho valor “a”.
k k
a + X =∑ ( a + x i )f i =a + ∑ x i f i =a + X
=i 1 =i 1
4) Si se multiplican todos los valores de la variable estadística X por una constante “b”,
la media queda multiplicada por la constante “b”.
k k
=bX
=i 1 =i 1
∑= ∑ x ifi bX
bx i f i b=
Podemos concluir que para una nueva variable Y=a+bX se cumple que Y= a + bX .
5) La media aritmética está comprendida entre el valor máximo y el valor mínimo del
conjunto de datos.
Es más representativa cuanto mayor sea la concentración de los valores alrededor suyo y más
simétrica sea la distribución.
Nota:
Cuando no todos los datos tienen la misma importancia con respecto del resto, se le
asigna los llamados pesos o ponderaciones, se le llama media aritmética ponderada.
k
x1w1 + x 2 w 2 + ... + x k w k ∑x w i i
=X = i =1
w1 + w 2 + ... + w k k
∑w
i =1
i
En las agrupadas, definimos la clase o intervalo modal como la que tiene mayor
frecuencia.
NOTA: Algunas distribuciones pueden presentar varias modas. Cada moda corresponde a un
máximo absoluto del diagrama de barras o histograma.
La moda tiene la ventaja de ser fácil su cálculo, pero tiene el inconveniente de que dos muestras
con datos muy parecidos pueden tener modas muy distintas.
Es importante observar que al agrupar en intervalos perdemos información acerca del auténtico
valor modal.
6.3 Mediana, M, es el valor de la variable que ocupa el lugar central de los valores de
la variable una vez que éstos han sido ordenados en sentido creciente. Por tanto, la mediana M
es un valor de la variable tal que el 50% de los datos son inferiores y el otro 50% de los datos
son superiores.
La mediana es un valor M tal que F(M)=1/2, se define así como raíz de una ecuación.
Cálculo de la mediana.
En primer lugar ordenamos los datos de menor a mayor.
a) Si los datos no están agrupados en intervalos, en general, no tiene solución, puesto que la
función F(x) varía por saltos:
F(x)
1/2
1/2
M x
EJEMPLO:
Sea la variable estadística X= {5, 1, 5, 2, 4, 2, 3, 6, 5}, entonces X= {1, 2, 2, 3, 4, 5, 5,
5, 6,}, resultando el término central M=4.
1
2) Si uno de los valores xi corresponde a F( x i ) = (lo que ocurre solamente si el total
2
N de la población es par) la mediana está indeterminada entre los valores xi y xi+1. El intervalo
(xi, xi+1) se denomina mediano, o bien llamamos mediana al punto medio de dicho intervalo.
F(x)
1/2
x xM x
i i+1
x N +1 si N es impar
2
M=
1
x N + x N si N es par
2 2
+1
2
INTERVALO xi ni Ni
e0 --- e1 x1 n1 N1
e1 --- e2 x2 n2 N2
N
1) coincide con uno de los recogidos en la columna de frecuencias acumuladas, por
2
ejemplo Ni, en este caso la mediana es ei.
N
2) está entre Ni-1 y Ni. La mediana se encontrará en el intervalo ( ei-1 , ei ) .
2
La mediana será =
M e i-1 + h y por interpolación lineal se obtiene h.
ni 10 5 6 1 1
Ni 10 15 21 22 23 23
k
n i x i 138000
=X ∑ =
i =1 N
=
23
6000 media aritmética.
N 23
= = 11.5 ⇒ N1 = 10 < 11.5 < 15 = N 2 luego la mediana es x2=4000 y la moda corresponde
2 2
a n1=10 que es 2000.
¿Cuál de los tres valores anteriores describe mejor los sueldos percibidos por los empleados
de ésta fábrica?
6.4. Cuantiles
Cuantil de orden α es un valor de la variable estadística que deja a su izquierda
una parte α de la población y a la derecha una parte 1- α de la población.
Los más utilizados son los cuartiles Q1, Q2 y Q3 que dejan a su izquierda 1/4, 1/2 y
3/4 de la población respectivamente.
Los deciles D1, D2, …, D9 dejan a su izquierda 1/10, 2/10, ..., 9/10 de la población
respectivamente.
Los percentiles P1, P2, ........, P99 dejan a su izquierda 1/100, 2/100, .... 99/100 de la
población respectivamente.
En el caso de que los datos estén agrupados en intervalos, el cálculo se realiza de forma
semejante a como se realiza para la mediana, pero todo referido al intervalo que contenga el
valor de la frecuencia αN , según sea el cuantil a calcular.
Gráfico 6.4 =
P ei −1 +
( αN − Ni−1 ) a .
α
ni
EJEMPLO 6.4:
Los precios de 95 ordenadores en diciembre de 2014, dados en euros, son los
siguientes:
3000 1200 740 1750 3409 580 840 1700 2300 715
3910 545 1380 815 565 3000 890 1580 800 3650
2240 1975 1745 3030 2350 3700 735 990 800 930
915 1100 1280 1163 1410 2050 3600 1260 1600 735
4260 1500 1000 1000 1600 1900 2150 2495 3200 850
540 2900 4500 3600 1035 1520 2495 1357 750 715
2775 2540 1470 395 3900 995 2200 900 1500 1500
1995 2650 1335 885 360 2100 2400 1200 1335 3310
600 755 500 990 765 1020 630 1555 640 950
630 1500 2300 3500 1825
Se pide:
a) Cuartiles.
b) Segundo decil.
c) Percentil ochenta y seis.
d) ¿Para un precio de 3000€ que posición ocupa en la distribución?
Solución:
53
47.5
27
900 M 1500
23.75 71.25
0 67
900
300 M
Q 1500
900 2100 Q 2700
1 3
23.75 −=
0 23.75 ↔ h 71.25 − 67= 4.25 ↔ h
27 − 0 = 27 ↔ 600 78 − 67 =11 ↔ 600
23.75 4.25
=h = 600 527.777 =h = 600 231.818
27 11
⇒ Q1= 300 + h= 300 + 527.777= 827.777 Q=
3 2100 + =
h 2100 + 231.818
= 2331.818
El segundo cuartil es la mediana = 1373.077€.
b) Al segundo decil le corresponde la
27
frecuencia acumulada
19 27
2N 95
= = 19 0
10 5
19 −=
0 19 ←
→h 300
h
900
D2
27 −
= 0 27 ←
→ 600
19 ⋅ 600
D 2= 300 + h= 300 + = 722.22 84
27
81.7 6
c) Al percentil ochenta y seis le corresponde la
78
86N 86 ⋅ 95
frecuencia acumulada = = 81.7
100 100 h
2700 P86 3300
(81.7 − 78) ⋅ 600
= 2700 + =
P86 h 2700 + = 3070
6
d) Se plantea el problema reciproco del anterior
(3000 − 2700) ⋅ 6
N i = 78 + k = 78 + = 81 Sobre el
600
total representa aproximadamente el percentil 85. 84
Ni 6
k
78
http://asignaturas.topografia.upm.es/matematicas/videos/Percentil.wmv
http://asignaturas.topografia.upm.es/matematicas/videos/Percentil.mp4
EJEMPLO:
Si consideramos 8 alumnos con calificación de 10 y 8 alumnos con un cero; la media
aritmética será 5. Si los 16 alumnos tienen un 5, la media también será cinco, sin embargo, las
dos situaciones son claramente distintas y la media es más representativa en el segundo caso,
al estar los valores concentrados en un único valor. La diferencia entre uno y otro caso se pone
de manifiesto con las medidas de dispersión.
EJEMPLO:
Si las observaciones son: 8, 3, 5, 7, 1, 1, 8, el recorrido es 8-1=7.
Es una medida muy sencilla de calcular, pero, poco robusta, pues solo tiene en cuenta
los valores extremos. Para evitar la influencia en el rango de los datos con valores extremos,
suele ser frecuente utilizar el rango o recorrido intercuartílico.
= Q3 − Q1
IQR
Su cálculo es muy sencillo, y es una medida muy robusta en el sentido de no estar
influenciada por la presencia de valores extremos.
Del ejemplo 6.4, sabemos que Q3 = 2331.818 y Q1 = 827.777 , por tanto, IQR=1514.041.
Es fácil observar que el recorrido intercuartílico contiene el 50% de las observaciones centrales.
7.3. Varianza
1 k
( ) ( )
k
∑ ∑
2 2
x=
σ2
i − X = n i x i − X fi
=N i 1 =i 1
x i = valores que toma la variable o marca de clase.
fi = frecuencias relativas.
n i = frecuencias absolutas.
N = número total de elementos de la población o muestra.
Propiedades de la varianza
1) La varianza es siempre positiva o nula.
2) Si se multiplican todos los valores de la variable por una constante “a”, la varianza queda
multiplicada por la constante “a2”.
Si y = ax entonces:
( ) ( )
k k
∑ yi − Y f i =
a 2 ∑ x i − X fi =
2 2
σ 2y = a 2 σ2x
=i 1 =i 1
( ) ( ) ( )
k k k
σ2y =∑ yi − Y f i =∑ (b + x i ) − (b + X) f i =∑ x i − X f i =σ2x
2 2 2
=i 1 =i 1 =i 1
Podemos concluir que para una nueva variable Y=aX+b se cumple que σ2y = a 2 σ2x .
∑( ) ∑( )
k k k
∑x f
2 2 2
=
σ 2x xi − X=
fi x i2 f i − 2x i Xf i + X =
fi 2
i i −X
=i 1 =i 1 i =1
∑x n 2
i i k
∑x f
2 2
=
σ
2
x
i =1
−=
X 2
i i −X
N i =1
N N 2 N k (x i − X) 2 n i k
(x i − X) 2 n i
S = 2
N −1
σ , es decir: =
2
S2
−1
N=
=
σ ∑ N = ∑
N −1 i 1= i 1 N −1
∑ ( x i − X) 2 fi ∑x f
2
σ = + (σ 2 ) = + o bien, σ = + 2
i i −X
i =1 i =1
Tiene la ventaja sobre la varianza de que está medida en las mismas unidades que la
variable.
Es independiente de la unidad que se utilice, pues no tiene unidades y por tanto nos
permite comparar la dispersión de dos distribuciones que tengan unidades diferentes, o que
tengan medias muy distintas.
Tiene el inconveniente de no estar definido para distribuciones con media cero. Además,
cuando la media se aproxima a cero el coeficiente de variación tiende a infinito.
EJEMPLO 7:
Con los datos del ejemplo 5.2, calcular:
a) Varianza y desviación típica.
b) Varianza y desviación típica muestral.
c) Coeficiente de variación de Pearson.
Solución:
xi ni xi ni Ni x 2i x 2i n i
0 26 0 26 0 0
1 40 40 66 1 40
2 14 28 80 4 56
3 6 18 86 9 54
4 3 12 89 16 48
5 1 5 90 25 25
Sumas 90 103 223
1 5
Media: x = ∑ x i n i = 103 = 114
1
a) .
N i=0 90
103
2
1 5
Varianza: σ = ∑ x i2 n i − X =
1
223 − = 11680
2 2
.
N i=0 90 90
N 90
b) Varianza muestral; S2 = σ 2 = 1.1680 = 1.1811
N −1 89
N 90
Desviación típica muestral; S = σ= 1. 0807 = 1. 0867
N −1 89
σ 1.0807
c) =
Coeficiente de variación; CV = = 0.9443
X 1.1444
7.8. Momentos
Se llama momento de orden r respecto al valor "c", a la cantidad:
k k
ni
∑ (x
i =1
i − c) r fi = ∑ ( x i − c) r
i =1 N
, donde r es un entero positivo.
k k
µ r = ∑ ( x i − X) r fi = ∑ ( x i − m1 ) r fi =
i =1 i =1
r
r
µ=
r ∑ (−1) j m
j
r− j m1j
j= 0
2 2 2
En particular: µ 2= m 2 − m1m1 + m12= m 2 − m12 ,resultado ya conocido.
0 1 2
µ 3 = m3 − 3m2 m1 + 2 m13
µ 4 = m4 − 4 m3 m1 + 6 m12 m2 − 3m14
8. CARACTERÍSTICAS DE FORMA
Además de la tendencia central y de la dispersión, se puede tratar de caracterizar la
forma de una distribución mediante índices que determinen la asimetría y el apuntamiento de
la distribución.
Me = X
• Si la distribución es simétrica y unimodal, la mediana, media y moda coinciden.
M=
e X= M o
Mo ≤ Me ≤ X .
X ≤ Me ≤ Mo .
∑(x )
k 3
− X fi
µ3 i
g= = i =1
σ3 σ3
1
k
Si la muestra es simétrica respecto de la media, entonces ∑ (x
i =1
i − X) 3 = 0 ; mientras que esta
suma será mayor en valor absoluto cuanto más asimétricos son los datos.
∑(x )
k 4
− X fi
µ4 i
g2 = − 3= i =1
−3.
σ4 σ4
EJEMPLO: 8
Con los datos del ejemplo 5.2, calcular:
a) Coeficiente de asimetría.
e i−1 ei xi ni ni xi n i x 3i n i x 4i
300 900 600 27 16200 5832.106 34992.108
900 1500 1200 26 31200 44928.106 539136.108
1500 2100 1800 14 25200 81648.106 1469664.108
2100 2700 2400 11 26400 152064.106 3649536.108
2700 3300 3000 6 18000 162000.106 4860000.108
3300 3900 3600 8 28800 373248.106 13436928.108
3900 4500 4200 3 12600 222264.106 9335088.108
∑n x i
2
i
m=
1 X= 1667.368, m=
2
i =1
= 3857684.21, y ahora,
N
7 7
∑ n i x 3i ∑ n i x i4
=m3 i=
1 =i 1
10968252630=
y m 4 = 3507930947.104
N N
µ3
y como σ = 1038.06 el coeficiente de asimetría es: g= = 0.842755>0 (sesgada a la dch)
σ3
1
µ4
g2 = − 3= 62.1042>0 (más apuntada que la normal)
σ4
Los valores atípicos o erróneos, por ser inusualmente grandes o pequeños, en general
son atribuibles a una de las siguientes causas:
El problema que se nos presenta es decidir si un determinado dato, con un valor poco
común, puede ser utilizado, o por el contrario lo hemos de rechazar. La respuesta no es fácil,
ya que, si rechazamos datos de forma inadecuada, podemos perder información valiosa y, por
el contrario, si los aceptamos, pueden variar los resultados de forma que nuestras conclusiones
sean erróneas. En la actualidad existe gran multitud de procedimientos que nos facilitan el tomar
una decisión sobre la depuración de datos.
Donde xmín y xmáx son los valores mínimo y máximo del conjunto de datos.
Todo dato que esté fuera del intervalo [LI, LS] será considerado como posible dato atípico,
anómalo o Outlier y corresponde a un dato que debería ser estudiado.
EJEMPLO 9:
En el conjunto de datos, 23.39, 23.45, 23.47, 23.47, 23.50, 23.50, 23.58, el valor de la mediana
es M=23.47, la media 23.48, el primer cuartil Q1=23.45, el tercer cuartil Q3=23.50 y los valores
de los datos máximo y mínimo son respectivamente 23.39 y 23.58.
Q3+1.5(Q3-Q1)=23.575,
por tanto LS=23.575.
1,5
0,5
0
23,35 23,4 23,45 23,5 23,55 23,6
En este gráfico hemos de observar que LS es menor que algunas observaciones; estas
observaciones corresponden a puntos atípicos. La media es mayor que la mediana y, por tanto,
es asimétrica hacia la derecha.
http://asignaturas.topografia.upm.es/matematicas/videos/variable_estadistica.wmv
http://asignaturas.topografia.upm.es/matematicas/videos/variable_estadistica.mp4