August 5, 2016
Universidad de la Sabana
Facultad de Medicina
Maestra en Epidemiologa
Por: Lina Angelica Buitrago Reyes
Introducci
on
Tal como lo hemos dicho, las variables cuantitativas pueden ser descritas en
terminos de medidas de tendencia central, variabilidad, localizacion y forma.
En particular, las medidas de variabilidad son aquellas que miden la dispersion
de los datos, es decir, nos dicen que tan parecidos o que tan diferentes son entre
si los valores observados. Las medidas de variabilidad se hacen necesarias, pues
una medida de tendencia central sola, podra enga
narnos facilmente en el caso
en el que los datos sean muy variables. En esta unidad analizaremos diversas
medidas de variabilidad, concentrados en una de las mas utilizadas, la varianza,
la cual mide la distancia entre cada dato y el promedio, tambien veremos como
calcular, en el caso en que exista una particion, como calcular el porcentaje de
variabilidad debido a la diferencia entre los grupos (intravarianza) o dentro de
los grupos (intervarianza).
Objetivos
Apropiarse del concepto de variabilidad
Distinguir las diferentes medidas de variabilidad, sabiendo cual es mas
apropiada seg
un sea el caso
Analizar y aplicar las diferentes propiedades de la varianza
Competencias
En este m
odulo el estudiante distinguira a que tipos de variables es posible
calcular medidas de variabilidad, cuales son las existentes, como interpretarlas
y cu
ales son sus propiedades.
1
Conceptos preliminares
Tal como se ha dicho en la introduccion y como su nombre lo indica, la las medidas de variabilidad miden que tan diferentes son los datos entre si. Pensemos
en principio en un conjunto de datos en los cuales para todos los n individuos
se tiene la misma medici
on, xi = k, i = 1, 2, ..., n, en este caso, M (X) = x
=k
y por lo tanto la distancia entre cada dato y la media es cero, xi x
= 0. Esto
nos indica que una forma de medir la variabilidad de un conjunto de datos es
tomando la distancia de cada dato con la media y finalmente haciendo su suma:
n
X
(xi x
)
i=1
Sin embargo, el resultado de dicha suma es siempre cero, por lo que se decidio
elevar al cuadrado cada uno de los sumandos, (xi x
)2 , llegando as a lo que
llamamos varianza.
Ejercicio:
Pn
i=1 (xi
x
) = 0
La varianza muestral
1X
(xi x
)2
n i=1
V (x) = S 2 =
Ejemplo:
2009)
Conjunto
I
II
II
50
45
3
50
50
97
50
55
10
50
47
105
50
53
35
50
50
50
S2
0
13.6
1853.6
Para cu
al de los tres conjuntos la media resulta ser una buena representacion
de los datos?, para cu
al la peor?, por que?
5.1
Propiedades
1. V (x) 0
2. V (k) = 0
n
X
(xi + k M (x + k))2
i=1
n
X
(xi + k (
x + k))2
i=1
n
X
(xi x
)2
i=1
=V (x)
4. V (kx) = k 2 V (x)
Ejercicios:
Verifique las propiedades 2 y 4 y con base en estas resuelva: V (k1 + k2 x).
En el hospital universitario se midio el n
umero de das de hospitalizacion
para los pacientes que ingresan por enfermedad respiratoria aguda durante
un mes, en total ingresaron 65 pacientes, con un promedio de 5 das y una
varianza de 40 das2 . Se estima que el costo de la hospitalizacion es de
500.000 pesos b
asicos mas 150.000 por da, calcule la media y la varianza
de los costos de hospitalizacion de estos 65 pacientes.
Datos agrupados: En algunas ocasiones, no disponemos de la totalidad de los
datos, por ejemplo, en el ejercicio anterios, no sabemos los das de hospitalizacion
de cada paciente, sino que conocemos las frecuencias para cada uno de los das,
en esos casos, tambien es posible calcular las diferentes medidas descriptivas.
En este caso, los datos disponibles sera de la forma:
yi
y1
..
.
ni
n1
..
.
hi
h1
..
.
ym
nm
hm
y = M (y) =
m
V (y) =
con n =
Pm
j=1
1X
yi n i
n j=1
1X
(yi y)ni
n j=1
ni .
3
Ejercicio:
ativa.
Descomposici
on de la varianza
La descomposici
on de la varianza se calcula cuando se tienen grupos dentro de
la poblaci
on o la muestra estudiada (que conforman una particion) y se busca
determinar si la variabilidad de la variable estudiada se debe mas a las diferencias
entre los grupos (intervarianza) o dentro de los grupos (intravarianza).
Partici
on: Sea un conjunto, A1 , A2 , ..., Al subconjuntos de , la coleccion
de conjuntos A1 , A2 , ..., Al conforman una particion de si satisfacen:
Sl
j=1 Ai =
Ai Aj = para todo i 6= j
Ahora supongamos que A1 , A2 , ..., Al conforman una particion de la poblacion
o de la muestra que estamos estudiando, x
1 , x
2 , ..., x
l son los promedios de la
variable de interes, S12 , S22 , ..., Sl2 son las varianzas muestrales de la variable para
A1 , A2 , ..., Al respectivamente, as:
m
V (x) =
1X
1X 2
Sj nj +
(
xj x
T )2 nj
n j=1
n j=1
= M (V ) + V (M )
2
= Sw
+ Sb2
Pm
2
Con x
T = j=1 x
=
j nj la media total, Sw
P
m
1
2
2
Sb = n j=1 (
xj x
T ) nj la inter varianza.
1
n
Pm
j=1
Ejercicio: C
omo se podra calcular el porcentaje de varianza debido a las
diferencias entre los grupos?, como se interpretara dicho porcentaje?.
7
7.1
7.2
Coeficiente de variaci
on
Bibliografa
1. Bar
on F.J. Bioestadstica. Universidad de Malaga.
http://www.bioestadistica.uma.es/baron/bioestadistica.pdf
2. Soto O, Franco D. Fundamentos conceptuales de estadstica. Universidad
Nacional de Colombia. Notas de clase.