Anda di halaman 1dari 23

Estadstica - 2

o
de Qumicas - UNIVERSIDAD DE OVIEDO 1
ESTAD

ISTICA
Objetivo y Etapas de la Metodologa Estadstica
La Estadstica es la ciencia que se ocupa del estudio de los experimentos aleatorios.
Se entiende por experimento aleatorio el hacer, medir u observar algo bajo
ciertas condiciones, conduciendo a un resultado que no puede predecirse de antemano.
(En contraposicion al experimento aleatorio, el experimento determinstico sera aquel
que conducira a un resultado predecible antes de realizar tal experimento).
No obstante, no todos los experimentos que estan caracterizados por la imposibilidad
de predecir su resultado son susceptibles de ser tratados por la Estadstica, ya que
se requiere ademas que los experimentos satisfagan ciertas condiciones de regularidad
estadstica (a las que nos referiremos en la introduccion del Calculo de Probabilidades).
El objetivo ultimo de la Estadstica es obtener conclusiones acerca del compor-
tamiento del experimento aleatorio, sobre la base de lo datos que proporciona la reali-
zacion reiterada del mismo.
Se dene tambien la Estadstica como el estudio de la recopilacion, organizacion,
analisis e interpretacion de los datos provenientes de las realizaciones experimentales
consideradas.
Teniendo en cuenta la nalidad de la Estadstica, las etapas de la metodologa
estadstica pueden esquematizarse como sigue:
1. Planteamiento del problema: Especicacion del tipo de conclusiones que quieren
extraerse sobre el experimento aleatorio que se estudia.
2. Planicacion o dise no del experimento aleatorio: Establecimiento de la forma de
llevar a cabo el experimento aleatorio en funcion de las conclusiones que quieran
extraerse y buscando que estas sean lo mas ables posible.
3. Seleccion de la muestra: Eleccion del procedimiento por el que va a obtenerse la
sucesion de realizaciones experimentales que van a servir de base para la extraccion
de conclusiones.
4. Realizacion del experimento aleatorio: Observaci on de los resultados de la sucesion
de realizaciones experimentales.
Tras estar cuatro etapas previas, imprescindibles en la practica aunque obviadas en
muchos de los estudios teoricos, se obtienen los datos muestrales, que constituyen
la informacion sobre la que basaremos las conclusiones que se extraigan acerca del
experimento.
Una vez que se dispone de los datos muestrales, las etapas siguientes son las que
conguran la segunda denicion de Estadstica a la que nos hemos referido:
Estadstica - 2
o
de Qumicas - UNIVERSIDAD DE OVIEDO 2
5. Recopilacion de los datos: Recogida y anotacion de los datos provenientes de la
observacion de las realizaciones experimentales.
6. Organizacion de los datos: Presentacion adecuada de de los datos para su analisis
e interpretaci on posteriores.
7. Analisis de los datos: Extraccion de la informacion relevante contenida en los
datos, a traves de medidas que resumen dicha informacion (y motivadas por el
tipo de conclusiones a las que quiera llegarse).
8. Interpretacion de los resultados del analisis de los datos: Extraccion de conclu-
siones sobre el comportamiento general del experimento aleatorio a partir del
comportamiento parcial reejado en los datos disponibles.
La formalizacion de estas cuatro ultimas etapas de la metodologa incluye conceptos,
resultados y procedimientos que conforman el estudio de la Estadstica. Las tres partes
fundamentales de este estudio son:
Estadstica Descriptiva
Se ocupa del estudio de conceptos, resultados y tecnicas para la recopilacion, orga-
nizacion o presentacion y analisis de los datos. Su objetivo es describir la informacion
contenida en los datos, sin pretender extrapolar de esa descripcion parcial una de-
scripcion del comportamiento global del experimento.
Estadstica Inferencial
Se ocupa del estudio de conceptos, resultados y tecnicas para la interpretacion de
los datos. En resumen, su objetivo es aprovechar la informacion contenida en los datos
para extraer conclusiones sobre el comportamiento global del experimento (es decir,
adopta un razonamiento inductivo).
Como esta extraccion de conclusiones se lleva a cabo en condiciones de desconoci-
miento sobre el comportamiento global del experimento, las conclusiones son suscep-
tibles de error. En este punto, la Estadstica aporta la posibilidad de cuanticar el
error (o, alternativamente, la incertidumbre, la informacion, la conanza, etc.) asociado
a una conclusion.
Calculo de Probabilidades
Se ocupa del estudio de conceptos y resultados que van a ser las herramientas
matematicas imprescindibles para formalizar adecuadamente los conceptos, resultados
y tecnicas inferenciales. El Calculo de Probabilidades esta guiado por un razonamiento
deductivo, de manera que a partir de la suposicion de que el experimento tiene cierto
comportamiento global puede deducirse si ciertos comportamientos parciales son mas
o menos verosmiles (crebles).
Estadstica - 2
o
de Qumicas - UNIVERSIDAD DE OVIEDO 3
ESTAD

ISTICA DESCRIPTIVA
En lo que sigue supondremos que el experimento aleatorio considerado consiste en
observar o medir una o varias caractersticas sobre los elementos de un conjunto bien
denido.
Elementos de la Estadstica Descriptiva:
terminologa y notaciones
Llamamos poblacion al conjunto o coleccion de elementos sobre los que va(n) a ob-
servarse la(s) caracterstica(s), e individuos a los elementos del mismo. La naturaleza
de poblaciones e individuos, puede ser real (la poblacion de las piezas producidas en
una fabrica, la poblacion de las reacciones qumicas en un laboratorio que usan cierto
compuesto, etc.) o conceptual (p.e., la poblacion de los n umeros enteros). El n umero
de individuos que integran la poblacion recibe el nombre de tama no poblacional, y
se denotara por N.
Entendemos por variable estadstica la magnitud cuyos valores son las distin-
tas modalidades, aspectos o mediciones numericas que la caracterstica puede tomar
para los individuos de la poblacion en la que se observa. Si se observa una unica carac-
terstica, nos referiremos a ella como variable estadstica unidimensional, mientras que
si se observan simult aneamente dos caractersticas sobre cada individuo, hablaremos de
variable estadstica bidimensional. En general, cuando se observan simultaneamente r
caractersticas, se habla de variables estadsticas r-dimensionales.
En la practica, los datos experimentales disponibles para las Etapas 6-8 de la meto-
dologa estadstica, provienen de la observacion de una o varias caractersticas sobre
algunos individuos seleccionados de la poblacion. Esta seleccion suele obedecer a una
de las dos razones siguientes: o bien la poblacion considerada es muy grande y la
observaci on de la(s) caractersticas(s) sobre todos sus individuos resulta inviable o muy
costosa (en terminos economicos y de consumo de tiempo), o bien la observaci on de la(s)
caracterstica(s) sobre cada individuo resulta muy compleja o es de tipo destructivo
en cuyo caso se restringe tal observaci on a un n umero reducido de individuos de la
poblacion.
Se denomina muestra de individuos a una sucesion de individuos seleccionados
para la observaci on sobre ellos de la variable considerada. Se denomina muestra
de observaciones a la secuencia de los valores correspondientes a una variable
sobre una muestra de individuos. Siempre que no haya lugar a confusion, el termino
muestra se aplica indistintamente para referirse a muestras de individuos y a muestras
de observaciones. Las muestras de individuos mas sencillas son aquellas que se obtienen
seleccionando al azar (con o sin reposicion) individuos de la poblacion. El n umero
de individuos (repetidos o no) que integran la muestra recibe el nombre de tama no
muestral, y se denotara por n).
Estadstica - 2
o
de Qumicas - UNIVERSIDAD DE OVIEDO 4
Un tipo especial de muestra, llamado censo, es el que se obtiene seleccionando sin
reposicion todos los individuos de la poblacion.
Se llama dato cada valor de la variable observada sobre un individuo de la mues-
tra.
Sobre la base de estos terminos, el objetivo nal de la Estadstica consistira en
obtener conclusiones sobre ciertos rasgos de interes de la variable en la poblacion a
partir de los rasgos de interes de la variable en la muestra, seg un el esquema de la
gura siguiente:
P
O
B
L
A
C
I

N
M
U
E
S
T
R
A
rasgos de la
poblacin
rasgos de la
muest ra
SELECCI N DE
LA MUESTRA
EXTRACCI N DE
CONCLUSI ONES
Figura 1. Esquema del Objetivo de la Estadstica
ESTAD

ISTICA DESCRIPTIVA PARA


VARIABLES ESTAD

ISTICAS UNIDIMENSIONALES
Tipos de variables estadsticas unidimensionales
Para las variables estadsticas suelen considerarse dos clasicaciones: seg un la nat-
uraleza de los valores de la variable, o seg un su posible rango.
En relacion con la clasicacion de acuerdo con la naturaleza de los valores de la
variable, la versi on mas general de esta clasicacion distingue dos tipos de variables:
variables cuantitativas: cuyos valores pueden expresarse en una escala numerica;
variables cualitativas: cuyos valores no pueden expresarse en una escala
numerica.
Estadstica - 2
o
de Qumicas - UNIVERSIDAD DE OVIEDO 5
En relacion con la clasicacion de acuerdo con el rango de los valores de la variable,
se distinguen dos tipos de variables:
variables discretas: cuando toma valores aislados (es decir, un n umero nito
o innito numerable de posibles valores distintos, como ocurre, p.e., con los re-
cuentos);
variables continuas: cuando, en principio, la variable podra tomar valores
en un conjunto que contiene un intervalo con extremos diferentes (es decir, una
innidad no numerable de posibles valores distintos aunque, en la practica, y
debido a los mecanismos de medicion disponibles y a las unidades de medida
que puedan apreciarse, no se distingan de hecho mas que valores aislados, como
ocurre, p.e., con las alturas o los instantes de tiempo).
Recopilacion de datos muestrales unidimensionales
La primera etapa de la metodologa estadstica, es la de la recogida y anotacion de los
datos correspondientes a la observaci on de la variable considerada sobre los individuos
de la muestra seleccionada.
Esta recopilacion de datos se lleva a cabo anotando el valor de la variable en cada
uno de los individuos de la muestra.
Organizacion de datos muestrales unidimensionales
Una vez que los datos muestrales se han recopilado, se procede a la organizacion
de los mismos para sus posterior analisis. Para ello se consideran las distribuciones de
frecuencias, que pueden basarse en diferentes nociones de frecuencia. En funcion del
analisis que quiera llevarse a cabo, las distintas nociones son mas o menos utiles.
Supongamos que se considera una variable estadstica X que, observada sobre una
muestra de tama no n, toma k valores (modalidades, versiones, o valoraciones numericas)
distintos, x
1
, x
2
, . . . , x
k
:
Distribuciones de frecuencias
Cualquiera que sea i {1, 2, . . . , k}, la frecuencia absoluta del valor x
i
es el
n umero de individuos de la muestra para los que X toma el valor x
i
. Notacion:
n
i
(tambien se emplea n(x
i
)).
Claramente, las frecuencias absolutas cumplen que:
n
i
N, 0 n
i
n, n
1
+n
2
+. . . , n
k
= n.
Cualquiera que sea i {1, 2, . . . , k}, la frecuencia relativa del valor x
i
es la
proporcion de individuos de la muestra para los que X toma el valor x
i
. Notacion:
f
i
(tambien se emplea f(x
i
)).
Estadstica - 2
o
de Qumicas - UNIVERSIDAD DE OVIEDO 6
Las frecuencias relativas cumplen que:
f
i
Q, 0 f
i
1, f
1
+f
2
+. . . , f
k
= 1.
En muchos estudios en diversos campos (y especialmente en algunas representa-
ciones y programas de ordenador), en lugar de considerar proporciones se opta
por los porcentajes. En este sentido, cualquiera que sea i {1, 2, . . . , k}, el
porcentaje asociado al valor x
i
es el n umero de individuos por cada cien en la
muestra para los que X toma el valor x
i
. Los porcentajes se obtienen de las
frecuencias relativas multiplicando estas por 100.
Los dos conceptos precedentes tienen sentido tanto para variables cuantitativas como
para variables cualitativas, y es la forma mas natural e inmediata de organizar los datos
muestrales. Es evidente que, conocido el tama no muestral n, es indistinto conocer las
frecuencias relativas o las absolutas, puesto que estan conectadas por las relaciones:
f
i
=
n
i
n
, n
i
= n f
i
, i = 1, 2, . . . , k.
Los dos conceptos siguientes solo son aplicables para variables cuantitativas (aunque,
desde una perspectiva formal tambien podran establecerse para variables cualitativas
ordinales). La justicacion para introducir estas nuevas nociones es que sirven de base
para la formalizacion y determinacion de ciertas medidas del Analisis de Datos (mas
concretamente, los cuantiles).
Supongamos, sin perdida de generalidad, que los k valores distintos, x
1
, x
2
, . . . , x
k
de X en la muestra estan ordenados en sentido creciente, es decir, x
1
< x
2
< . . . < x
k
:
Cualquiera que sea i {1, 2, . . . , k}, la frecuencia acumulada absoluta del
valor x
i
es el n umero de individuos de la muestra para los que X toma valor
inferior o igual a x
i
. Notacion: N
i
(tambien se emplea N(x
i
)).
Las frecuencias acumuladas absolutas satisfacen que:
N
i
N, 0 N
i1
N
i
n, N
k
= n.
Cualquiera que sea i {1, 2, . . . , k}, la frecuencia acumulada relativa del
valor x
i
es la proporcion de individuos de la muestra para los que X toma valor
inferior o igual a x
i
. Notacion: F
i
(tambien se emplea F(x
i
)).
Las frecuencias acumuladas absolutas satisfacen que:
F
i
Q, 0 F
i1
F
i
1, F
k
= 1.
Es evidente que, conocido el tama no muestral n, es indistinto conocer las frecuencias
relativas, las absolutas, las acumuladas relativas o las acumuladas absolutas, puesto que
estan conectadas por las relaciones siguientes:
N
i
= n
1
+. . . +n
i
= n f
1
+. . . +n f
i
= n F
i
, i = 1, 2, . . . , k,
Estadstica - 2
o
de Qumicas - UNIVERSIDAD DE OVIEDO 7
F
i
= f
1
+. . . +f
i
=
n
1
+. . . +n
i
n
=
N
i
n
, i = 1, 2, . . . , k,
n
1
= N
1
= n F
1
= n f
1
, n
i
= N
i
N
i1
= n F
i
n F
i1
= n f
i
, i = 2, . . . , k,
f
1
= F
1
=
N
1
n
=
n
1
n
, f
i
= F
i
F
i1
=
N
i
N
i1
n
=
n
i
n
, i = 2, . . . , k.
Se denomina distribucion de frecuencias de una variable estadstica X
en una muestra a la sucesion de los distintos valores de la variable estadstica en la
muestra junto con sus correspondientes frecuencias en esa muestra.
Para una variable y una muestra jadas pueden determinarse al menos dos dis-
tribuciones de frecuencias (las absolutas y las relativas) y, si se trata de una variable
cuantitativa, se puede hablar de cuatro distribuciones de frecuencias (absolutas, relati-
vas, acumuladas absolutas y acumuladas relativas).
En forma analoga, tiene sentido hablar tambien de la distribucion de porcentajes
de una variable en una muestra.
Representaciones tabulares de las distribuciones
Las distribuciones de frecuencias suelen presentarse a traves de representaciones
tabulares o gracas. Las representaciones tabulares en el caso unidimensional
consisten en disponer de forma horizontal (o vertical) una tabla con dos las (respecti-
vamente, dos columnas) de modo que en la primera aparezcan los valores de la variable
y en la segunda se recojan las frecuencias correspondientes.
x
i
x
1
x
2
. . . x
k
n
i
n
1
n
2
. . . n
k
x
i
f
i
x
1
f
1
x
2
f
2
.
.
.
.
.
.
x
k
f
k
Las tablas pueden adaptarse y completarse para representar las distintas distribu-
ciones de frecuencias de una variable en una muestra, o para representar varias de estas
distribuciones simultaneamente como, por ejemplo:
x
i
x
1
x
2
. . . x
k
n
i
n
1
n
2
. . . n
k
f
i
f
1
f
2
. . . f
k
F
i
F
1
F
2
. . . F
k
Estadstica - 2
o
de Qumicas - UNIVERSIDAD DE OVIEDO 8
Representaciones gr

aficas m

as usuales de distribuciones
Las representaciones gracas dependen del tipo de variable que se este estu-
diando.
Las representaciones gracas mas utilizadas con el n de dar una primera impresion
visual del comportamiento de una variable en una muestra son: el diagrama de barras,
el diagrama de sectores y el histograma.
Para el diagrama de barras se consideran dos ejes coordenados, represent andose
sobre el eje de abscisas los distintos valores de la variable estadstica en la muestra
y en el de ordenadas las frecuencias (habitualmente relativas) correspondientes.
Sobre cada punto asociado a un valor de la variable en la muestra se levanta una
barra con altura igual a la frecuencia de tal valor. En ocasiones se prescinde del
eje de ordenadas, y en su lugar se incluyen los valores de las frecuencias (a menudo
expresados en terminos de porcentajes) sobre las barras.
Las escalas de los dos ejes no suelen coincidir (maxime teniendo en cuenta que el
rango de las frecuencias relativas es el intervalo [0, 1] y el de valores de la variable
es generalmente mas amplio) y el eje de ordenadas no necesariamente tiene que
pasar por el origen de coordenadas.
En el caso en que la variable considerada sea cualitativa, el diagrama de barras
tambien puede aplicarse. En esta situacion los valores de la variable suelen repre-
sentarse en el eje de abscisas por puntos o intervalos manteniendose una distancia
constante entre cada dos valores consecutivos.
Si, por ejemplo, la distribucion de frecuencias absolutas viene dada por:
x
i
2 1 0 1 4 5
n
i
2 3 5 7 2 1
entonces la distribucion de frecuencias relativas es la siguiente:
x
i
2 1 0 1 4 5
f
i
0.10 0.15 0.25 0.35 0.1 0.05
de forma que su diagrama de barras es el que aparece en la Figura 2.
Para el diagrama de sectores se considera un crculo dividido en tantos sec-
tores como valores distintos toma la variable en la muestra. Cada valor se repre-
senta entonces por un sector con area (y, por tanto, con arco) proporcional a la
frecuencia de dicho valor. Los diferentes valores se distinguen mediante diferentes
colores o tramas.
Estadstica - 2
o
de Qumicas - UNIVERSIDAD DE OVIEDO 9
0,0
0,2
0,4
0,6
0,8
1,0
-2 -1 0 1 2 3 4 5
Figura 2. Diagrama de barras para la distribucion de frecuencias anterior
Si, por ejemplo, la distribucion de frecuencias absolutas viene dada por:
x
i
Partido A Partido B Partido C Partido D
n
i
27 43 15 6
entonces la distribucion de frecuencias relativas es la siguiente:
x
i
Partido A Partido B Partido C Partido D
f
i
0.30 0.47 0.16 0.07
de forma que el diagrama de sectores correspondiente es el que aparece en la
Figura 3.
Figura 3. Diagrama de sectores para los datos anteriores
En el caso de variables continuas con un n umero elevado de modalidades la repre-
sentacion gracas mas utilizada con el n de visualizar facilmente la distribucion de
frecuencias de una variable en una muestra es el histograma.
Estadstica - 2
o
de Qumicas - UNIVERSIDAD DE OVIEDO 10
El histograma esta inspirado en una idea similar a la del diagrama de barras,
aunque teniendo en cuenta que las amplitudes de los intervalos en que se suelen
agrupar los datos en variables continuas no necesariamente coinciden, y que ese
aspecto debe quedar reejado en la representacion graca. Para el histograma se
consideran dos ejes coordenados, represent andose sobre el eje de abscisas los dis-
tintos intervalos de la agrupacion. Sobre cada intervalo, se levanta un rectangulo
con area igual a la frecuencia relativa de ese intervalo (es decir, con altura igual
al cociente [frecuencia relativa]/[amplitud]).
Como en el diagrama de barras, las escalas de los dos ejes no suelen coincidir y el
eje de ordenadas no necesariamente tiene que pasar por el origen de coordenadas.
Si, por ejemplo, la distribucion de frecuencias absolutas viene dada por:
I
i
[2, 0] (0, 3] (3, 4] (4, 8]
n
i
3 6 7 4
entonces la distribucion de frecuencias relativas f
i
y la sucesion de cocientes f
i
/a
i
(con a
i
= amplitud del i-esimo valor de intervalo) es la siguiente:
I
i
[2, 0] (0, 3] (3, 4] (4, 8]
f
i
0.15 0.3 0.35 0.2
f
i
/a
i
0.075 0.1 0.35 0.05
de forma que el histograma correspondiente es el que aparece en la Figura 4.
0,0
0,2
0,4
0,6
0,8
1,0
-2 -1 0 1 2 3 4 5 6 7 8
Figura 4. Histograma para la distribucion de frecuencias anterior
La representaci

on de la funci

on de distribuci

on emp

rica esta asociada


al manejo de las distribuciones acumuladas y se basa en la denicion de esta funcion,
que se establece como sigue:
Sea X una variable estadstica cuantitativa, que en una muestra toma k valores
distintos x
1
, x
2
, . . . , x
k
, que supondremos denotados en sentido creciente (es decir, x
1
<
x
2
< . . . < x
k
), con frecuencias relativas respectivas f
1
, f
2
, . . . , f
k
.
Estadstica - 2
o
de Qumicas - UNIVERSIDAD DE OVIEDO 11
Se dene la funcion de distribucion emprica de X en la muestra como la
aplicacion F : R R tal que para todo x R:
F(x) =
_
proporcion de individuos de la muestra para los que X toma valores x

.
Esta funcion esta claramente vinculada a la distribucion de frecuencias acumuladas
relativas. Mas concretamente, se cumple que cualquiera que sea i {1, 2, . . . , k}:
F(x
i
) = F
i
.
Para proceder a la representaci on graca de la funcion F, vamos a analizar como vendra
denida para los restantes valores en R, en funcion de las frecuencias relativas y de las
acumuladas relativas (que supondremos conocidas).
Como hemos admitido que
x
1
< x
2
< . . . < x
k
y se dene
f
i
=
_
proporcion de individuos de la muestra para los que X = x
i

,
se concluye que:
Si x (, x
1
):
F(x) = 0,
ya que en este caso no hay individuos en la muestra para los que X x.
Si x [x
i1
, x
i
) (con i {2, . . . , k}):
F(x) = F
i1
= f
1
+. . . +f
i1
,
ya que los individuos en la muestra para los que X x son aquellos para los que
X toma uno de los valores x
1
o . . . o x
i1
(que son los unicos valores de la variable
en la muestra inferiores o iguales a cualquier x [x
i1
, x
i
)).
Si x [x
k
, +):
F(x) = 1,
ya que en este caso todos los individuos en la muestra satisfacen que X x.
En resumen, la expresion general de la funcion de distribucion emprica es la si-
guiente:
F(x) =
_

_
0 si x < x
1
F
1
= f
1
si x
1
x < x
2
F
2
= f
1
+f
2
si x
2
x < x
3
.
.
.
.
.
.
F
k1
= f
1
+. . . +f
k1
si x
k2
x < x
k1
1 si x x
k
.
Estadstica - 2
o
de Qumicas - UNIVERSIDAD DE OVIEDO 12
0 20 40 60 80 100 120 140 160 180 200
1
.
.
.
F
i1
.
.
.
F
2
F
1
x
1
x
2
x
3
. . . x
i1
x
i
. . . x
k
Figura 5. Funcion de distribucion emprica de una variable en una muestra
y la representaci on graca general de la funcion de distribucion emprica es la que
aparece en la Figura 5.
Como se nalamos anteriormente, conocido el tama no muestral n, es indistinto cono-
cer las frecuencias relativas o las absolutas (acumuladas o no), y tambien ocurre lo
mismo con la funcion de distribucion emprica. En otras palabras, la funcion de dis-
tribucion emprica caracteriza de forma unica la distribucion de frecuencias relativas de
una variable en una muestra.
Para ilustrar esta ultima armacion supongamos que la funcion de distribucion
emprica de una variable estadstica X en cierta muestra es la representada en la Figura
6.
0 20 40 60 80 100 120 140 160 180 200
1
0.71
0.38
0.14
1 1 5 6
Figura 6. Ejemplo de funcion de distribucion emprica de una variable X en cierta muestra
La expresion de esta funcion es la siguiente:
F(x) =
_

_
0 si x < 1
0.14 si 1 x < 1
0.38 si 1 x < 5
0.71 si 5 x < 8
1 si x 8.
Estadstica - 2
o
de Qumicas - UNIVERSIDAD DE OVIEDO 13
A la vista de la construccion de la funcion de distribucion en la situacion generica,
los distintos valores de la variable en la muestra seran los puntos en los que la funcion
de distribucion emprica cambia de valor, es decir:
x
1
= 1, x
2
= 1, x
3
= 5, x
4
= 8.
Ademas:
F
1
= F(x
1
) = 0.14, F
2
= F(x
2
) = 0.38, F
3
= F(x
3
) = 0.71, F
4
= F(x
4
) = 1,
de donde se tiene que la distribucion de frecuencias acumuladas relativas viene dada
por:
x
i
1 1 5 8
F
i
0.14 0.38 0.71 1
y, por lo tanto, la distribucion de frecuencias relativas es la siguiente:
x
i
1 1 5 8
f
i
0.14 0.24 0.33 0.29
Resulta evidente a partir de la representaci on graca de la funcion de distribucion
emprica en el caso general, que dicha funcion satisface siempre las propiedades siguien-
tes:
Prop. 1. lim
x
F(x) = 1.
Prop. 2. lim
x
F(x) = 0.
Prop. 3. F es no decreciente, es decir:
x, y R, con x < y F(x) F(y).
Prop. 4. F es continua por la derecha en todos los puntos de R, es decir, cualquiera que
sea x
0
R se cumple que
F(x
0
+) = lim
xx
+
0
F(x) = lim
xx
0
, x>x
0
F(x) = F(x
0
)),
y unicamente es discontinua por la izquierda (y, por lo tanto, discontinua) en los
puntos correspondientes a los distintos valores que la variable toma en la muestra.
Prop. 5. F es una funcion escalonada (es decir, es constante entre cada dos puntos de
discontinuidad consecutivos).
Las cinco propiedades anteriores caracterizan a la funcion de distribucion emprica
(y, en consecuencia, a la distribucion de frecuencias asociada). En otras palabras,
para cualquier funcion que satisfaga Prop. 1-Prop. 5, puede construirse una variable
estadstica cuya funcion de distribucion emprica coincida con la dada.
Estadstica - 2
o
de Qumicas - UNIVERSIDAD DE OVIEDO 14
Observaci on: Como acabamos de indicar, F(x
0
+) = F(x
0
) =
_
proporcion de individ-
uos de la muestra para los que X x
0

. Por otro lado, a partir de la representacion


graca en la Figura 7, puede deducirse que:
F(x
0
) = lim
xx

0
F(x) = lim
xx
0
, x<x
0
F(x)
=
_
proporcion de individuos de la muestra para los que X < x
0

.
A partir de este resultado y de la Propiedad 4 pueden determinarse en funcion de F
las proporciones de individuos de la muestra para los que X que toma valores en un
intervalo cualquiera que se especique. Concretamente, para todo a, b R con a < b:

_
proporcion de individuos de la muestra para los que X (, a] = F(a)

_
proporcion de individuos de la muestra para los que X (, a) = F(a)

_
proporcion de individuos de la muestra para los que X (a, +) = 1 F(a)

_
proporcion de individuos de la muestra para los que X [a, +) = 1 F(a)

_
proporcion de individuos de la muestra para los que X (a, b] = F(b) F(a)

_
proporcion de individuos de la muestra para los que X [a, b] = F(b) F(a)

_
proporcion de individuos de la muestra para los que X (a, b) = F(b) F(a)

_
proporcion de individuos de la muestra para los que X [a, b) = F(b) F(a)

.
Analisis de datos unidimensionales
El Analisis de Datos tiene por nalidad extraer de estos la informacion relevante,
teniendo en cuenta que esta informacion va a servir de base habitualmente para la
interpretacion posterior de los datos. Cuando se manejan datos unidimensionales, la
informacion mas relevante suele ser la relativa a ciertas medidas representativas de la
distribucion de frecuencias. Entre estas medidas, las mas utiles suelen ser:
Las medidas de tendencia central.
Las medidas de posicion.
Las medidas de dispersion.
las medidas de forma.
Medidas de tendencia central
Se trata de medidas correspondientes a valores en torno a los que oscilan las ob-
servaciones de la variable en la muestra. Las tres medidas de tendencia central mas
utilizadas son: media, mediana y moda.
Estadstica - 2
o
de Qumicas - UNIVERSIDAD DE OVIEDO 15
La media de una variable estadstica en una muestra (o, mas propiamente, la
media de su distribucion de frecuencias) se dene como la media aritmetica de los
datos muestrales. Es decir, si X es una variable (necesariamente cuantitativa) que en
una muestra de n individuos ha dado lugar a los n datos muestrales d
1
, d
2
, . . . , d
n
, la
media de X es el n umero real que denotaremos por X dado por:
X =
d
1
+d
2
+. . . +d
n
n
.
Como diferentes datos muestrales pueden tomar el mismo valor, la denicion prece-
dente puede expresarse alternativamente en terminos de los valores distintos de la vari-
able en la muestra. De esta manera, si X es una variable cuantitativa que en una
muestra de n individuos toma k valores distintos x
1
, x
2
, . . . , x
k
, con frecuencias absolu-
tas (o relativas) respectivas n
1
, n
2
, . . . , n
k
(o, respectivamente f
1
, f
2
, . . . , f
k
), entonces:
X =
x
1
n
1
+x
2
n
2
+. . . +x
k
n
k
n
=
1
n
k

i=1
x
i
n
i
,
X = x
1
f
1
+x
2
f
2
+. . . +x
k
f
k
=
k

i=1
x
i
f
i
.
Si, por ejemplo, la distribucion de frecuencias absolutas de X en una muestra de 20
individuos viene dada por:
x
i
2 1 0 1 4 5
n
i
2 3 5 7 2 1
entonces:
X =
2 2 1 3 + 0 5 + 1 7 + 4 2 + 5 1
20
=
13
20
= 0.65.
La media de una distribucion de frecuencias satisface las propiedades siguientes:
Prop. 1. Si X es una variable estadstica que en una muestra toma k valores distintos
x
1
, x
2
, . . . , x
k
, con frecuencias relativas respectivas f
1
, f
2
, . . . , f
k
, y g : R R es
una aplicacion cualquiera, entonces la media de la variable estadstica Y = g(X)
puede hallarse a partir de la distribucion de X por la expresion:
Y = g(X) =
k

i=1
g(x
i
) f
i
.
(Esta propiedad indica que para hallar la media una variable Y que es funcion
de otra X, no es necesario hallar la distribucion de frecuencias de Y para deter-
minar su media, sino que esta puede expresarse en terminos de la distribucion de
frecuencias de la variable X. La utilidad principal de esta propiedad es la de que
sirve de base para la demostracion de otras propiedades).
Estadstica - 2
o
de Qumicas - UNIVERSIDAD DE OVIEDO 16
Prop. 2. Si X es una variable estadstica que en una muestra tiene distribucion de fre-
cuencias degenerada en el valor c R (es decir, que en todos los individuos de la
muestra el valor de X es igual a c), entonces X = c. Esta propiedad se expresa
usualmente como sigue:
c = c.
Prop. 3. Cualquiera que sea c R y la variable estadstica X, se cumple que:
c X = c X.
Prop. 4. Cualquiera que sea c R y la variable estadstica X, se cumple que:
X +c = X +c.
Prop. 5. Si X es una variable estadstica y g : R R, h : R R son dos aplicaciones cua-
lesquiera, entonces la media de la variable estadstica Y = g(X) +h(X) satisface
que:
g(X) +h(X) = g(X) +h(X).
Finalmente, las dos ultimas propiedades formalizan el hecho de que la media de
una distribucion de frecuencias puede interpretarse como una medida de su tendencia
central.
Prop. 6. Sea X es una variable estadstica que en una muestra toma k valores distintos
x
1
, x
2
, . . . , x
k
, con frecuencias relativas respectivas f
1
, f
2
, . . . , f
k
. Si se dene la
funcion
G : R R t.q. c R : G(c) = (X c)
2
=
k

i=1
(x
i
c)
2
f
i
.
La funcion G admite mnimo absoluto en el punto c = X.
(La interpretacion de esta propiedad es la siguiente: la media es el punto que
menos dista -en media de los cuadrados de las distancias eucldeas- de los valores
de la variable en la muestra).
La mediana de una variable estadstica en una muestra (o, mas propiamente,
la mediana de su distribucion de frecuencias) puede denirse de dos formas equiva-
lentes). Aunque la segunda de estas deniciones es conceptualmente mas compleja que
la primera, permitira la extension de la nocion de mediana a medidas de posicion (los
cuantiles).
Estadstica - 2
o
de Qumicas - UNIVERSIDAD DE OVIEDO 17
La primera definici

on de mediana, formaliza la idea de que es una medida de


posicion intermedia. As, si X es una variable estadstica (necesariamente cuantitativa)
que en una muestra de n individuos ha dado lugar a los n datos muestrales d
1
, d
2
, . . . , d
n
,
que supondremos denotados siguiendo su ordenacion en sentido creciente (es decir,
d
1
d
2
. . . d
n
), se dene la mediana de la distribucion de X como sigue:
si n es impar, la mediana es unica y viene dada por el valor del dato que ocupa
la posicion central en la sucesion creciente de los datos, es decir, el valor:
Me(X) = dn+1
2
.
si n es par, la mediana no necesariamente es unica y viene dada por el valor o
valores comprendidos entre los dos datos que ocupan las posiciones centrales en
la sucesion creciente de los mismos, es decir:
Me(X) = cualquier valor entre d
n
2
y d
n
2
+1
(incluyendo estos).
Si n es par, la mediana sera unica si y solo si los dos datos que ocupan las posiciones
centrales coinciden.
Para ilustrar la aplicacion de esta denicion, podemos considerar de nuevo la dis-
tribucion de frecuencias
x
i
2 1 0 1 4 5
n
i
2 3 5 7 2 1
a la que le correspondera la siguiente sucesion de datos ordenados en sentido creciente:
d
1
= d
2
= 2, d
3
= d
4
= d
5
= 1, d
6
= d
7
= d
8
= d
9
= d
10
= 0,
d
11
= d
12
= d
13
= d
14
= d
15
= d
16
= d
17
= 1, d
18
= d
19
= 4, d
20
= 5.
Como n = 20 es par, tendremos que:
Me(X) = cualquier valor en el intervalo [d
10
, d
11
] = cualquier valor en [0, 1].
Observaci on: En ocasiones, en el caso de existencia de varias medianas para una
distribucion, se necesita elegir una de ellas como representante de las demas. En tales
situaciones suele optarse por el punto medio del intervalo determinado por las medianas,
si bien se trata de un simple convenio y no de la denicion de mediana para ese caso,
que incluira todos los valores del intervalo.
La segunda definici

on de mediana, formaliza la idea de que es una medida que


deja a cada lado al menos la mitad de los datos muestrales. As, si X es una variable
estadstica que en una muestra tiene la funcion de distribucion emprica F, se dene la
mediana de la distribucion de frecuencias de X como el valor o los valores Me(X) que
cumplen que:
Estadstica - 2
o
de Qumicas - UNIVERSIDAD DE OVIEDO 18
_
proporcion de individuos de la muestra para los que X Me(X)

0.5 (C.1),
_
proporcion de individuos de la muestra para los que X Me(X)

0.5 (C.2).
Las dos condiciones precedentes pueden expresarse en terminos de la funcion de
distribucion emprica. Concretamente se dene la mediana de la distribucion de fre-
cuencias de X como el valor o los valores de Me(X) que satisfacen la doble desigualdad
siguiente:
F(Me(X)) 0.5 F(Me(X)).
Para determinar la(s) mediana(s) a partir de la funcion de distribucion emprica, se
aplica la siguiente:
Regla de determinaci

on pr

actica de la mediana de X a partir de F:


[CASO 1] Si x R t.q. F(x) = 0.5, entonces: la mediana es unica y coincide con
el menor valor de X en el que la funcion de distribucion emprica es estrictamente
superior a 0.5.
[CASO 2] Si x R t.q. F(x) = 0.5, entonces: la mediana no es unica y sera
mediana cualquier valor real cuya funcion de distribucion emprica sea igual a
0.5, as como el menor valor de X en el que la funcion de distribucion emprica es
estrictamente superior a 0.5.
Esta regla puede exponerse alternativamente como sigue:
[CASO 1] Si i {1, 2, . . . , k} t.q. F
i
= 0.5, entonces: la mediana es unica y
coincide con el menor valor x
i
de X para el que F
i
> 0.5 (es decir, Me(X) = x
1
si F
1
> 0.5, = x
i
si F
i1
< 0.5 < F
i
, i {2, . . . , k}).
[CASO 2] Si i {1, 2, . . . , k1} t.q. F
i
= 0.5, entonces: la mediana es cualquier
valor en el intervalo [x
i
, x
i+1
].
Para ilustrar la aplicacion de esta segunda denicion sobre el ejemplo de la dis-
tribucion de frecuencias
x
i
2 1 0 1 4 5
n
i
2 3 5 7 2 1
basta con determinar la correspondiente distribucion de frecuencias acumuladas relati-
vas:
x
i
2 1 0 1 4 5
F
i
0.1 0.25 0.5 0.85 0.95 1
Como nos encontramos en una situacion del tipo del CASO 2, ya que F
3
= 0.5, la
aplicacion de la regla anterior indica que, como ya vimos al aplicar la denicion primera:
Me(X) = cualquier valor en el intervalo [x
3
, x
4
] = cualquier valor en el intervalo [0, 1].
Estadstica - 2
o
de Qumicas - UNIVERSIDAD DE OVIEDO 19
La mediana de una distribucion de frecuencias satisface las propiedades siguientes:
Prop. 1. Si X es una variable estadstica que en una muestra tiene distribucion de fre-
cuencias degenerada en el valor c R, entonces Me(X) = c. Esta propiedad se
expresa usualmente como Me(c) = c.
Prop. 2. Cualquiera que sea c R y la variable estadstica X, se cumple que:
Me(c X) = c Me(X).
Prop. 3. Cualquiera que sea c R y la variable estadstica X, se cumple que:
Me(X +c) = Me(X) +c.
La moda de una variable estadstica en una muestra (o, mas propiamente, la moda
de su distribucion de frecuencias) se dene como el valor o los valores de la variable
en la muestra, Mo(X), que aparecen con mayor frecuencia entre los datos muestrales.
Esta medida es calculable para cualquier tipo de variable estadstica y su determinacion
practica es inmediata.
Si, por ejemplo, la distribucion de frecuencias absolutas de X en una muestra de 20
individuos viene dada por:
x
i
2 1 0 1 4 5
n
i
2 3 5 7 2 1
entonces:
Mo(X) = 1.
Una distribucion de frecuencias se denomina unimodal, si admite moda unica, bi-
modal si admite dos y, en general, multimodal si admite varias modas.
La moda de una distribucion de frecuencias satisface las propiedades siguientes:
Prop. 1. Si X es una variable estadstica que en una muestra tiene distribucion de fre-
cuencias degenerada en el valor c R, entonces Mo(X) = c. Esta propiedad se
expresa usualmente como Mo(c) = c.
Prop. 2. Cualquiera que sea c R y la variable estadstica X, se cumple que:
Mo(c X) = c Mo(X).
Prop. 3. Cualquiera que sea c R y la variable estadstica X, se cumple que:
Mo(X +c) = Mo(X) +c.
Estadstica - 2
o
de Qumicas - UNIVERSIDAD DE OVIEDO 20
Medidas de posici

on
Son medidas que generalizan el concepto de mediana, en el sentido de que dejan
a ambos lados al menos ciertas proporciones (no necesariamente la mitad, como en el
caso de la mediana) prejadas de datos muestrales.
Mas concretamente, si X es una variable estadstica cuantitativa que en una muestra
tiene la funcion de distribucion emprica F, jada una proporcion 0, 1), se dene el
cuantil de orden de la distribucion de frecuencias de X como el valor o los valores
C

(X) que cumplen que:


_
proporcion de individuos de la muestra para los que X C

(X)

1 (C.1),
_
[proporcion de individuos de la muestra para los que X C

(X)

(C.2).
Las dos condiciones precedentes pueden expresarse en terminos de la funcion de
distribucion emprica. Concretamente se dene el cuantil de orden de la distribucion
de frecuencias de X como el valor o los valores C

(X) que satisfacen la doble desigualdad


siguiente:
F(C

(X)) F(C

(X)).
Al igual que para la mediana, para determinar el(los) cuantil(es) a partir de la
funcion de distribucion emprica, se aplica la regla siguiente:
Regla de determinaci

on pr

actica del cuantil de orden de X a partir


de F:
[CASO 1] Si i {1, 2, . . . , k} t.q. F
i
= , entonces: la mediana es unica y
coincide con el menor valor x
i
de X para el que F
i
> (es decir, C

(X) = x
1
si
F
1
> , = x
i
si F
i1
< < F
i
, i {2, . . . , k}).
[CASO 2] Si i {1, 2, . . . , k 1} t.q. F
i
= , entonces: la mediana es cualquier
valor en el intervalo [x
i
, x
i+1
].
Para ilustrar la aplicacion de esta denicion para hallar el cuantil de orden 0.75
sobre el ejemplo de la distribucion de frecuencias
x
i
2 1 0 1 4 5
n
i
2 3 5 7 2 1
recordamos que la correspondiente distribucion de frecuencias acumuladas relativas
viene dada por:
x
i
2 1 0 1 4 5
F
i
0.1 0.25 0.5 0.85 0.95 1
Estadstica - 2
o
de Qumicas - UNIVERSIDAD DE OVIEDO 21
Como nos encontramos en una situacion del tipo del CASO 1, ya que F
3
= 0.5 <
75/100 < 0.85 = F
4
, la aplicacion de la regla anterior indica que, como ya vimos al
aplicar la denicion primera:
C
0.75
(X) = x
4
= 1.
Como casos particulares de cuantiles, se consideran los cuartiles, los deciles y los
percentiles (estos ultimos los mas empleados en la practica).
Se dene el cuartil de orden r {1, 2, 3} de la distribucion de frecuencias de X
e una muestra como el valor Q
r
(X) = C
r/4
(X).
Se dene el decil de orden r {1, 2, . . . , 9} de la distribucion de frecuencias de X
e una muestra como el valor D
r
(X) = C
r/10
(X).
Se dene el percentil de orden r {1, 2, . . . , 99} de la distribucion de frecuencias
de X e una muestra como el valor P
r
(X) = C
r/100
(X).
A menudo, no solo interesa determinar los percentiles de un orden perjado, sino
que jado un valor puede interesar saber para que orden es un posible percentil. Se
dene el rango percentil de un valor x
0
en una distribucion de frecuencias muestral
de X como el r {1, 2, . . . , 99} tal que P
r
(X) = x
0
.
Medidas de dispersi

on
Se trata de medidas que cuantican el grado de variabilidad, variaci on o dispersion
de los datos muestrales de variables cuantitativas. Dentro de las medidas de dispersion
podemos distinguir dos tipos:
el de las medidas que hacen referencia a una medida de tendencia central (es
decir, miden el grado de dispersion de los datos muestrales con respecto a alguna
medida de tendencia centra -usualmente media o mediana-);
el de las medidas que no hacen referencia a medidas de tendencia central, sino que
cuantican la dispersion de todos los datos (o algunos especialmente relevantes)
con respecto a los demas (o ciertos otros).
La varianza de una variable estadstica en una muestra (o, mas propiamente, la
varianza de su distribucion de frecuencias) se dene como la media aritmetica de los
cuadrados de las distancias eucldeas entre cada uno de los datos muestrales y la media.
Es decir, si X es una variable (necesariamente cuantitativa) que en una muestra de n
individuos ha dado lugar a los n datos muestrales d
1
, d
2
, . . . , d
n
, la varianza de X es el
n umero real que denotaremos indistintamente por Var(X) y por S
2
X
. dado por:
Var(X) =
(d
1
X)
2
+ (d
2
X)
2
+. . . + (d
n
X)
2
n
,
es decir:
Var(X) = (X X)
2
=
k

i=1
(x
i
X)
2
f
i
.
Estadstica - 2
o
de Qumicas - UNIVERSIDAD DE OVIEDO 22
Si, por ejemplo, la distribucion de frecuencias absolutas de X en una muestra de 20
individuos viene dada por:
x
i
2 1 0 1 4 5
n
i
2 3 5 7 2 1
entonces, como X = 0.65:
Var(X) =
1
20
_
(2 0.65)
2
2 + (1 0.65)
2
3 + (0 0.65)
2
5
+(1 0.65)
2
7 + (4 0.65)
2
2 + (5 0.65)
2
1

=
66.55
20
= 3.3275.
La varianza de una distribucion de frecuencias satisface las propiedades siguientes:
Prop. 1. Var(X) 0.
Prop. 2. Var(X) = 0 si y solo si X es una variable estadstica que en la muestra tiene
distribucion de frecuencias degenerada en un valor c R (es decir, una variable
estadstica unicamente puede tener dispersion nula si toma el mismo valor en
todos los individuos de la muestra).
Prop. 3. Cualquiera que sea c R y la variable estadstica X, se cumple que:
Var(c X) = c
2
Var(X)
(es decir, si los valores de la variable sufren un cambio de escala, la dispersion
se modica pero a traves del cuadrado del factor de escala).
Prop. 4. Cualquiera que sea c R y la variable estadstica X, se cumple que:
Var(X +c) = Var(X)
(es decir, si los valores de la variable sufren una traslacion, como la media se
traslada en forma analoga la dispersion no se modica).
Prop. 5. La varianza de una variable admite la expresion alternativa siguiente:
Var(X) = X
2
(X)
2
=
k

i=1
x
2
i
f
i

_
k

i=1
xf
i
_
2
.
Estadstica - 2
o
de Qumicas - UNIVERSIDAD DE OVIEDO 23
La varianza presenta el inconveniente de que los valores extremos de la variable
tienen una enorme inuencia en su valor, pero las ventajas de su uso son demasiado
claras como para que este inconveniente vaya en detrimento de su empleo. Ademas, ese
inconveniente puede subsanarse en parte reemplazando la descripcion de la dispersion
mediante la varianza por su descripcion a traves de la raz cuadrada positiva de la
varianza, que tiene las mismas unidades que la variable. De este modo:
La desviacion tpica de una variable estadstica en una muestra (o, mas propi-
amente, la desviacion tpica de su distribucion de frecuencias) se dene como la raz
cuadrada de su varianza, es decir, como el valor:
S
X
=

_
k

i=1
(x
i
X)
2
f
i
.
Asimismo, cuando se comparar dos variables de ordenes de magnitud, escalas de
medida muy diferentes o unidades muy diversas, puede interesar dar una medida de la
dispersion relativizada. Una posible medida para esta comparacion es la siguiente:
El coeciente de variacion de Pearson de una variable estadstica en una
muestra se dene como el cociente:
CV (X) =
S
X
X
=
_

k
i=1
(x
i
X)
2
f
i
X
.
Dentro de las medidas de dispersion que se denen sin referencia a una medida de
tendencia central. las mas empleadas son las siguientes:
El recorrido de una variable estadstica (necesariamente cuantitativa) en una mues-
tra se dene como la diferencia entre el mayor y el menor valor de la variable en la
muestra, es decir, con la notacion usual considerada hasta el momento, la diferencia
x
k
x
1
.
El recorrido intercuartlico de una variable estadstica (necesariamente cuanti-
tativa) en una muestra se dene como la diferencia entre el quartil de orden 3 y el de
orden 1 de la variable en la muestra, es decir, la diferencia Q
3
(X) Q
1
(X).
Las ventajas del recorrido intercuartlico frente al recorrido son: que ofrece una
vision de la dispersion menos inuenciada por los valores muy extremos.