Anda di halaman 1dari 41

Mtodos Estadsticos

Medidas de
Dispersin
Prof. Wilver Rodrguez Lpez

Las medidas de dispersin o variabilidad

Son tiles porque:


Permiten juzgar la confiabilidad de la
medida de tendencia central.
Los datos demasiados dispersos tienen
un comportamiento especial.
Es posible comparar dispersin de
diversas muestras.

AMPLITUD TOTAL: A RANGO: R


Se obtiene de la diferencia entre el dato mayor y
el dato menor.
Ejemplo:
Los siguientes datos representan los pesos de 10
pacientes. Calcule el rango.
60, 58, 80, 70, 75, 55, 76, 60, 68, 70
Amplitud Total Rango = 80 - 55 = 25
Interpretacin
La diferencia entre el paciente con mayor peso y el paciente con
menor peso es 25 kilos.

Clculo a partir de datos agrupados


Se utiliza la siguiente formula:
Amplitud Total o Rango = ( Ls - Li ) + 1
Si los intervalos son nominales.
Amplitud Total o Rango = ( Ls - Li )
Si los intervalos son reales
donde:
Ls : Limite superior de la ltima clase
L
i : Limite inferior de la primera clase

Ejemplo:
La distribucin de frecuencias siguiente representa las estancia
hospitalaria(das) de una muestra de pacientes. Calcule e
interprete el rango
Rango = (20 - 1) + 1
R = 20

Interpretacin: la diferencia de das entre el paciente que ms


das hospitalarios y el paciente con menos das hospitalarios es
de 20 das.

Ventajas
fcil de calcular
fcil de entender e interpretar
Desventajas
slo considera los valores extremos
no toma en cuenta ni el nmero de datos ni el
valor de stos
no es posible de calcular en tablas con extremos
abiertos.

LA VARIANZA
Es una medida de dispersin e indica la
desviacin promedio con respecto a la media
aritmtica
a) Clculos a partir de datos no agrupados.
para una muestra
n

(X x )
i 1

n 1

para un poblacin
N

(X )
i 1

Ejemplo:
La siguiente informacin se refiere a los das
hospitalizacin de 6 pacientes en un centro de salud:
8, 10, 5, 12, 10, 15. Calcule la varianza.
Elaboramos un cuadro de la forma siguiente

Xi x

Xi x

8 - 10 = 2

10
5

10 - 10 = 0
5 - 10 = 5

12

12 - 10 = 2

25
4

10

10 - 10 = 0
15 - 10 = 5

0
25

Xi x 0

2
Xi x 58

15

X 60

de

4
0

60
x
6
x 10

Xi x

58

(X i x )

n 1

58
2

11
,
6
das
S 6 1
2

LA DESVIACION ESTANDAR
Es la raz cuadrada de la varianza, sea poblacional o
muestral.
a) Clculos a partir de datos no agrupados

Para la muestra

S s2

(Xi x)

i 1

n 1

Para la poblacin

(Xi )

i 1

Ejemplo:
En relacin al ejemplo anterior. Calcular la desviacin
estndar de los siguientes das hospitalarios:
8, 10, 5, 12, 10, 15
Ya sabemos por el ejemplo anterior que S2 = 11,6 das2.
Entonces:

S 11,6 das 2
S 3,4 das

Si la distribucin es simtrica se cumple los siguientes porcentajes

-3
+3

-2

68.3 %
95.5 %
99.7 %

+2

El coeficiente de variacin
Es una medida de variabilidad relativa de los datos,
permite comparar la variabilidad de dos o ms conjuntos
de datos expresados en unidades diferentes (peso; kg. y
libras).
a) Calculos a partir de datos no agrupados
Para la muestra:
Para la poblacin:

CV

s
x

100

CV
100

Ejemplo:
A continuacin se presentan los pesos en dos grupos de pacientes
Cul de los grupos tiene un peso ms estable?.

I grupo
40,70,60,48,52,65,58

II grupo
70,35,150,140,82,110,140,120

Calculamos la media y desviacin estndar para


cada uno de los grados

Grupo I
n

Xi

i 1

393

56,14
7

Xi x

Xi x

40

-16,14

70
60

13,86
3,86

260,50
192,10

48

-8,14

14,90
66,26

52

-4,14

17,14

65

8,86
1,86

78,50
3,46

58

X 393

Xi x 0 Xi x

632,86

Si Xi x 632,86
2

2
(
X

x
)
i

i 1

n 1

632,86
10,27
7 1

S
CV 100
x
10,27
CV
100 18,29
56,14

Grupo II

Xi

i 1

847

105,87
8

Xi x

Xi x

70

-35,87

1286,6569

35

-70,87

5022,5569

150

44,13

1947,4569

140

34,13

1164,8569

82

-23,87

569,7769

110

4,13

17,0569

140

34,13

1164,8569

120

14,13

199,6569

X 847

Xi x 0,04

Xi x

11372,88

Si Xi x 2 11372 ,88
i 1

( Xi x )

i 1

n 1

S
CV 100
x

11372 ,88

40,30
8 1

40,30
CV
100 30,06
105,87

El II grupo presenta una mayor variabilidad en sus


pesos que el I grupo.

CONSIDERACIONES
SI:
C.V 33%

La distribucin se puede considerar


aproximadamente simtrica.

C.V 33%

La distribucin puede ser asimtrica

positiva o negativa.

09/12/16

Medidas Forma:
Curvas simtricas:
Cuando al trazar una lnea el
rea se divide en dos partes
iguales.

Curvas asimtricas o
sesgadas: Concentrados en
el extremo inferior o superior
del eje horizontal.
La cola indica el tipo de
sesgo.

Coeficiente de Simetra de Pearson


p = 3 (X - Me)
p<0
Asimetra a la izquierda
X<Me<Mo

S
p=0
Simtrica
X=Me=Mo

p>0
Asimetra a la derecha
Mo<Me<X

Coeficiente de Curtosis
Refleja el grado de agudeza.
(a) Leptocrtica (concentracin al centro)
(b) Mesocrtica (distribuidos simtricamente)
(c) Platicrtica (aplanada).

DESVIACIN ESTANDAR

( f i xi )
f i xi
n
n 1
2

S
Donde:

fi: frecuencias absolutas simples


Xi: puntos medios de los intervalos de clase

Ejemplo:
Calcular la desviacin estndar de la siguiente
distribucin de frecuencias:

N de
Das
Hospitala
Xi
rios
2 - 4
3
5 - 7
6
8 - 10
9
11 - 13
12
14 - 16
15
17 - 19
18

fi
4
10
15
30
5
1

Xi*fi
12
60
135
360
75
18

Xi2*fi
36
360
1215
4320
1125
324

DESVIACIN ESTANDAR
(660)2
7380
65
S
65 1

S 3.25

USO DE LAS DIFERENTES


MEDIDAS DE DISPERSION
La desviacin estndar se emplea cuando
tambin es apropiado el uso de la media,
es decir, con distribuciones simtricas(no
sesgadas) de datos numricos.
Percentiles y rango intercuartilicos se
emplean, cuando la distribucin no es
simtrica(sesgada) y es apropiado el uso
de la mediana.

USO DE LAS DIFERENTES


MEDIDAS DE DISPERSION
El rango es una medida apropiada para
datos numricos cuando el propsito es
enfatizar valores extremos.
El coeficiente de variacin es til cuando
la intencin es comparar dos
distribuciones numricas medidas en
escalas diferentes.

El Boxplot (Diagrama de Caja)


Al igual que el histograma y el grfico de
Tallo y Hoja permite tener una idea visual
de la distribucin de los datos (simetra y
variabilidad)
Permite detectar outliers (valores
extremos).
Permite comparar la media y la
variabilidad de varios grupos (alternativa
grfica a pruebas estadsticas)

Boxplot: Procedimiento
1. Dibujar una caja cuyo lmite inferior ser
Q1 y el superior Q3. Dentro de la caja
trazar una lnea que localice la mediana.
2. Calcular el rango intercuartlico:
R.I. (Q) = RIQ = Q3 Q1
3. Dibujar un bigote del borde inferior de
la caja hasta Q1-1.5xRIQ .

Boxplot: Procedimiento
5. Dibujar otrobigote del borde
superior de la caja hasta
Q3+1.5xRIQ .
6. Dibujar cualquier observacin que
se ubique fueras de los bigotes
(estos sern los outliers).

BoxPlot: Ejemplo

50

Datos

40
30
20
10
0

OTRA ALTERNATIVA DE
ANALIZAR LA DISPERSIN DE
UN CONJUNTO DE DATOS:
GRFICO DE TALLO - HOJAS

Grfico de Tallo - Hoja


Un diagrama de tallos y hojas consiste en una serie de
hileras horizontales de nmeros. El nmero utilizado
para designar una hilera es un tallo y el resto de
nmeros en la hilera se denominan hojas.

Se tienen los siguientes datos permetro ceflico (cm)


de recin nacidos, que constituye una muestra
obtenida de una poblacin de recin nacidos:
33.1

33.4

33.6

33.7

33.7

33.8

33.9

34.0

34.1

34.2

34.2

34.2

34.2

34.2

34.3

34.3

34.5

34.5

34.6

34.6

34.6

34.7

34.7

34.8

34.9

35.1

35.1

35.2

35.2

35.3

35.6

35.8

36.0

36.1

36.5

Para la clasificacin de datos, se deben


identificar los valores entre los cuales se
encuentra la distribucin, es decir, el dato
menor y el dato mayor.
33.1
34.1
34.5
34.9
36.0

33.4
34.2
34.5
35.1
36.1

33.6
34.2
34.6
35.1
36.5

33.7
34.2
34.6
35.2

Dato menor: 33.1cm


Dato mayor: 36.5cm

33.7
34.2
34.6
35.2

33.8
34.2
34.7
35.3

33.9
34.3
34.7
35.6

34.0
34.3
34.8
35.8

Se deben identificar los tallos -los nmeros que van


a designar las hileras- los cuales deben contener a
todos los valores de la distribucin (del 33.1 al 36.5).
La eleccin de los tallos depende de la unidad con la
que se quiera trabajar: enteros, dcimas,
centsimas... En el caso del ejemplo, los datos estn
dados indicando dcimas por lo que trabajar con
tallos enteros es la opcin ms precisa y cmoda.
Los tallos seran entonces: 33, 34, 35 y 36.

Sin embargo, no se puede realizar un diagrama de


tallos y hojas con menos de 5 tallos. Por lo tanto, los
tallos propuestos se deben dividir (desdoblar) en una
especie de intervalo, produciendo el doble. La divisin
del tallo debe distinguirse visualmente:
33.1
34.1
34.5
34.9
36.0

33.4
34.2
34.5
35.1
36.1

33.6
34.2
34.6
35.1
36.5

33.7
34.2
34.6
35.2

33.7
34.2
34.6
35.2

33.8
34.2
34.7
35.3

33.9
34.3
34.7
35.6

34.0
34.3
34.8
35.8

Seguidamente, se realiza el proceso de clasificacin


en s. Todos los datos, dependiendo de su valor, se
colocan a lado de su respectivo tallo. En el ejemplo,
los datos cuyo valor se encuentre entre 33.0 y 33.4
se deben colocar en la hilera del tallo 33*. Se debe
indicar el valor decimal exacto de cada dato a la
derecha del tallo. En el ejemplo hay 2 valores entre
33.0 y 33.4. Para clasificar el primero (33.1) se
agrega al diagrama de tallos y hojas de la siguiente
manera:
33* 1

Para clasificar el segundo dato que corresponde a este


tallo (33.4):
33* 14

Lo mismo se realiza con cada tallo y lo


valores que le correspondan:
En la hilera del tallo 33. se debe colocar los
nmeros 67789, correspondientes a los
valores 33.6, 33.7, 33.7, 33.8, 33.8 y 33.9.
A la hilera del tallo 34* se debe colocar
012222233 correspondientes a los valores
que se encuentran entre 34.0 y 34.4.
etc.

Al clasificar todos los valores en sus tallos


respectivos, se obtiene el diagrama:

Anlisis de la distribucin usando Tallos y Hojas


Las principales caractersticas de la
distribucin que se observan fcilmente
en el diagrama de tallos y hojas son:

Hay 35 observaciones.
El dato menor es 33.1cm.
El dato mayor es 36.5cm.
El rango de los valores observados es de
3.4cm
(dato mayor dato menor).

De los 35 datos, 18 estn alrededor de


34cm.
Los casos mayores a 36cm son pocos.
La distribucin de los datos es asimtrica:
distribucin heterognea.