Anda di halaman 1dari 104

ANALISIS CUANTITATIVO

Y CUALITATIVO.
UNIDAD 1: ESTADSTICA DESCRIPTIVA

Profesor: Esteban Montero A.


Profesor: Jaime Opazo C.

estebanmonteroalvarez@gmail.com

DEFINICIN
La Bioestadstica es el conjunto de mtodos
necesarios para recoger, clasificar,
representar y resumir datos, deducir las leyes
que rigen esos fenmenos, as como para
hacer inferencias (extraer consecuencias)
cientficas a partir de ellos.

La Bioestadstica es la Ciencia de la
Sistematizacin, recogida, ordenacin y
presentacin de los datos referentes a un
fenmeno que presenta variabilidad o
incertidumbre para su estudio metdico, con
objeto de
deducir las leyes que rigen esos fenmenos,

y poder de esa forma hacer


previsiones sobre los mismos, tomar
decisiones u obtener
conclusiones.

DESCRIPTIVA

PROBABILIDAD

INFERENCIA

Tipos de muestreo
Muestra aleatoria

Simple
Sistemtica

PROBABILSTICO

Estraticada
Por conglomerados
Muestra intencional
NO PROBABILSTICO

Sujetos voluntarios
Sujetos expertos
Bola de nieve
Por cuotas

Imagen disponible en: http://www.shsu.edu/mgt_ves/mgt481/lesson9/sld014.htm

Seleccin aleatoria sistemtica de


una
muestra de tamao 6
1

El 1 seleccionado al azar

10

2
7

3
6
4

11
13

17
16

12

14

1
5

El 2 seleccionado estar a
30/6 = 5 lugares del 1
El 3 seleccionado estar a
5 lugares del 2 etc

Seleccionar cada K , donde K= Tamao poblacin/tamao de muestra

Muestra aleatoria estratificada


Estrato 1

Estrato 2

Total de submuestras aleatorias simples = Muestra

Muestras por Estratificacin


Supone que el universo o poblacin
puede desagregarse en sub poblaciones
menores, homogneos internamente pero
heterogneos entre s (Estratos).
Cada uno de estos estratos se toma como un universo
particular, y sobre cada uno de ellos se selecciona una
m.a.

Ejemplo
Interesa estudiar las actitudes polticas
de los estudiantes de una universidad.
Se podra subdividir en estratos de
acuerdo con el tipo de estudios que
cursen, suponiendo que estas actitudes
van a ser diferentes entre quienes
siguen:

Ingeniera, Letras, Medicina u otras carreras.

Muestra aleatoria por conglomerados

Imagen disponible en: http://www.universoformulas.com/estadistica/inferencia/muestreo-conglomerados/

Muestras por conglomerados


Es adecuada cuando el universo o la poblacin
que se requiere estudiar se encuentra
subdividido en universos o poblaciones menores
de caractersticas similares al del universo o
poblacin total.


El conglomerado ms uLlizado en la invesLgacin es un conglomerado
geogrco. Por ejemplo, un invesLgador desea estudiar el rendimiento
acadmico de los estudiantes de enseanza media en SanLago.

Puede dividir a toda la poblacin (poblacin de SanLago en diferentes
conglomerados (Ciudades).
Luego, el invesLgador selecciona una serie de conglomerados en funcin de su
invesLgacin, a travs de un muestreo aleatorio simple o sistemLco.
Luego, de los conglomerados seleccionados (ciudades seleccionadas al azar) el
invesLgador puede incluir a todos los estudiantes de enseanza media como
sujetos o seleccionar un nmero de sujetos de cada conglomerado a travs de
un muestreo aleatorio simple o sistemLco.
Lo ms importante sobre esta tcnica de muestreo es dar a todos los
conglomerados iguales posibilidades de ser seleccionados.

Muestra de Sujetos Voluntarios


Se uLliza muy frecuente en Ciencias Sociales y
Ciencias de la Conducta.
En estudios en laboratorio se procura que los sujetos sean
homogneos en variables como: edad, sexo, inteligencia, para
que los efectos o resultados obedezcan a condiciones que
fueron someLdos y no a las diferencias individuales.

Muestreo por cuotas

Muestreo por cuotas


En este Lpo de muestreo se jan unas "cuotas" que
consisten en un nmero de individuos que renen
determinadas caractersLcas, por ejemplo: 30 mujeres
de entre 25 a 40 aos y residentes en SanLago.
Una vez determinada la cuota, se eligen los primeros
que se encuentren que cumplan esas caractersLcas.
Este mtodo se utiliza mucho en las encuestas de
opinin.

Muestreo bola de nieve

Muestreo bola de nieve


Se localiza a algunos individuos, los cuales conducen a
otros, y estos a otros, y as hasta conseguir una muestra
suficiente.
Este Lpo de muestra se emplea muy frecuentemente
cuando se hacen estudios con poblaciones
"marginales (sectas, determinados Lpos de enfermos,
etc..)

Muestra de Sujetos Expertos

Muestra de Sujetos Expertos


Interesa mucho la opinin de sujetos
expertos
en un tema.
Son frecuentes en estudios cualitativos y
exploratorios.

Tamao de Muestra
La determinacin del tamao de muestra en una
invesLgacin depende del objeLvo de ella.
En el caso que se requiera estimar un parmetro ser
necesario denir el mximo error estndar dispuesto a
cometer y la conanza del intervalo.
En el caso de realizar inferencia a travs de pruebas de
hiptesis es necesario denir la potencia de la prueba , el
nivel de significacin , la diferencia mxima entre el valor
esLmado y el verdadero valor del parmetro.

Determinacin de tamaos de muestra


para disLntos d cuando p=0.5.
p
0.5
0.5
0.5
0.5
0.5
0.5
0.5

d
0.02
0.03
0.04
0.05
0.07
0.1
0.2

n
2401
1067
600
384
196
96
24

Poblacin, muestra,
variables,
presentacin
ordenada de datos

Disponible en: http://www.universoformulas.com/estadistica/inferencia/muestreo-discrecional/

Disponible en: http://estadisticaparaadministracion.blogspot.com/2011/10/poblacion-y-muestra-parametro-y.html

Poblacin y muestra

Poblacin (population) es el conjunto sobre el que estamos


interesados en obtener conclusiones (hacer inferencia).
Normalmente es demasiado grande para poder abarcarlo.

Muestra (sample) es un subconjunto suyo al que tenemos acceso


y sobre el que realmente hacemos las observaciones (mediciones)
Debera ser representativo

Variables
Una variable es una caracterstica observable que vara entre los diferentes
individuos de una poblacin.

Individuos o elementos: personas u objetos que contienen cierta


informacin que se desea estudiar.
Por ejemplo, en los individuos de nuestra poblacin,
es variable:
El grupo sanguneo
{A, B, AB, O} Var. Cualitativa

Su nivel de felicidad declarado


{Deprimido, Normal, Muy Feliz} Var. Ordinal

El nmero de hijos
{0,1,2,3,...} Var. Numrica discreta

La altura
{162 ; 174; ...} Var. Numrica continua

Tipos de variables

Cualitativas
Evita la cuantificacin y se centra en la cualidad que se revela
Nominales: Si sus valores no se pueden ordenar
Sexo, Grupo Sanguneo, Religin, Nacionalidad, Fumar (S/No)

Ordinales: Si sus valores se pueden ordenar


Mejora a un tratamiento, Grado de satisfaccin, Intensidad del dolor

Cuantitativas o Numricas
Se reduce a medir variables en funcin de una magnitud o cantidad determinada.
Discretas: Si toma valores enteros
Nmero de hijos, Nmero de cigarrillos, Num. de cumpleaos

Continuas: Si entre dos valores, son posibles infinitos valores intermedios.


Altura, Presin intraocular, Dosis de medicamento administrado, edad

Relacin entre Escalas


Variables Cuantitativas

Variables Cualitativas

Presentacin ordenada de datos


7

Gnero

Frec.

Hombre

6
5
4
3

Mujer

2
1
0
Hombre

Mujer

Las tablas de frecuencias y las representaciones grficas son


dos maneras equivalentes de presentar la informacin. Las
dos exponen ordenadamente la informacin recogida en una
muestra.

TABLAS

Frecuencias relativas
Frecuencias Absolutas

Nivel Educacional |

Frecuencias acumuladas

Freq.

Percent

Cum.!

--------------------+-----------------------------------!
BAJO (< 8 aos) |

204

23.53

23.53!

MEDIO (8 - 12 aos) |

490

56.52

80.05!

ALTO (>12 aos) |

173

19.95

100.00!

--------------------+-----------------------------------!
Total |

867

100.00!

Tablas de doble entradas


tabulation of nedu by sexo
Sexo
Nivel Educacional | masculino

femenino |

Total

--------------------+----------------------+---------BAJO (< 8 aos) |


MEDIO (8 - 12 aos) |
ALTO (>12 aos) |

76

128 |

204

216

274 |

490

64

109 |

173

--------------------+----------------------+---------Total

356

511 |

867

Tablas de frecuencia

Exponen la informacin recogida en la muestra, de forma que no se pierda nada


de informacin (o poca).
Frecuencias absolutas: Contabilizan el nmero de individuos de cada
modalidad
Frecuencias relativas (porcentajes): dem, pero dividido por el total
Frecuencias acumuladas: Esta frecuencia se expresa como proporcin o
porcentaje del total.
* Frecuencias acumuladas absolutas y
* Frecuencias acumuladas relativas.

SEXO DE LA ENCUESTA XTR REALIZADA A 1517 PERSONAS EN


SANTIAGO, AO ZZ

Sexo

Hombre
Mujer
Total

Frecuencia
Absoluta

Frecuencia
Relativa

Frecuencia Frecuencia
Acumulada Acumulada
Absoluta
Relativa

636

41.9

636

41.9

881

58.1

1517

100.0

1517

100.0

---------------- ----------------

NIVEL DE FELICIDAD DE LA ENCUESTA XTR REALIZADA A 1517


PERSONAS EN SANTIAGO, AO ZZ
Nivel de Felicidad

Muy Feliz
Bastante Feliz
Poco Feliz
No contesta
Total

Frecuencia
Absoluta

Frecuencia
Relativa

Frecuencia
Acumulada
Absoluta

Frecuencia
Acumulada
Relativa

467

30.78

467

30.78

872

57.48

1339

88.26

165

10.88

1504

99.14

13

0.86

1517

100.00

1517

100.00

----------------

----------------

NMERO DE HIJOS QUE PRESENTABAN LAS PERSONAS DE LA


ENCUESTA XTR REALIZADA A 1517 PERSONAS EN SANTIAGO,
AO ZZ
N de hijos

0
1
2
3
4
5
6
7
8 ms
No contesta
Total

Frecuencia
Absoluta

Frecuencia
Relativa

Frecuencia
Acumulada
Absoluta

Frecuencia
Acumulada
Relativa

419

27.62

419

27.62

255

16.81

674

44.43

375

24.72

1049

69.15

215

14.17

1264

83.32

127

8.37

1391

91.69

54

3.60

1445

95.29

24

1.58

1469

96.87

23

1.52

1492

98.39

17

1.12

1509

99.51

0.53

1517

100.04

1517

100.04

----------------

----------------

Ejemplo
Nmero de hijos

Cuntos individuos tienen


menos de 2 hijos?
frec. indiv. sin hijos
+
frec. indiv. con 1 hijo
= 419 + 255
= 674 individuos

Qu porcentaje de individuos
tiene 6 hijos o menos?
97,3%

0
1
2
3
4
5
6
7
Ocho+
Total

Frec.
419
255
375
215
127
54
24
23
17
1509

Porcent.
(vlido)
27,8
16,9
24,9
14,2
8,4
3,6
1,6
1,5
1,1
100,0

Porcent.
acum.
27,8
44,7
69,5
83,8
92,2
95,8
97,3
98,9
100,0

Grficos

Grficos para v. cualitativas

Diagramas de barras
Alturas proporcionales a las frecuencias (abs. o rel.)
Se pueden aplicar tambin a variables discretas

Diagramas de sectores (tortas)


No usarlo con variables ordinales.
El rea de cada sector es proporcional a su frecuencia
(abs. o rel.)

Pictogramas
Fciles de entender.
El rea de cada modalidad debe ser proporcional a la
frecuencia. De los dos, cul es incorrecto?.

Grficos diferenciales para variables numricas


419
400

300

Recuento

Son diferentes en funcin de que las


variables sean discretas o continuas. Son
vlidos para frec. absolutas o relativas.

375

255
215
200

127
100

54

Diagramas barras para v. discretas

24

Se deja un hueco entre barras para indicar los


valores que no son posibles

23

17

7 Ocho o ms

Nmero de hijos

250

Histogramas para v. continuas


Recuento

El rea que hay bajo el histograma entre dos


puntos cualesquiera indica la cantidad
(porcentaje o frecuencia) de individuos en el
intervalo.

200

150

100

50

20

40

60

Edad del encuestado

80

100

Diagrama de caja o Box plot

80

Ls= Q3 + RIC x 1,5

EDAD
60

Q3= 75%
Mediana= 50%

RIC= 50%
datos

40

Q1= 25%

20

Li= Q1 RIC x 1,5


Atpico

Diagramas integrales

Cada uno de los anteriores diagramas tiene su correspondiente diagrama integral. Se


realizan a partir de las frecuencias acumuladas. Indican, para cada valor de la variable, la
cantidad (frecuencia) de individuos que poseen un valor inferior o igual al mismo.

Polgono (frecuencia)

Ojivas

Grficos
Diagrama de sectores o tortas
Diagramas de barras
Variables cualitativas
Histograma
Diagrama de caja o box plot
Variables cuantitativas

ESTADIGRAFOS

Parmetros y estadsticos

Parmetro: Es una cantidad numrica calculada sobre


una poblacin
La altura media de los individuos de un pas

Estadstico: dem (cambiar poblacin por muestra)


La altura media de los que estamos en esta sala
Si un estadstico se usa para aproximar un parmetro
tambin se le suele llamar estimador.

Normalmente nos interesa conocer un parmetro, pero por la


dificultad que conlleva estudiar a *TODA* la poblacin,
calculamos un estimador sobre una muestra y confiamos en
que sean prximos.

Resumen sobre estadsticos


Posicin
Dividen un conjunto ordenado de datos en grupos con la
misma cantidad de individuos.
Cuantiles, percentiles, cuartiles, deciles,...

Centralizacin
Indican valores con respecto a los que los datos parecen
agruparse.
Media, mediana y moda

Dispersin
Indican la mayor o menor concentracin de los datos con
respecto a las medidas de centralizacin.
Desviacin tpica, coeficiente de variacin, rango, varianza

Forma
Asimetra
Apuntamiento o curtosis

Estadsticos de posicin
Se define el cuantil de orden como un valor de la variable por debajo
del cual se encuentra una frecuencia acumulada .
Casos particulares son los percentiles, cuartiles, deciles, quintiles,...

Estadsticos de posicin
Percentil divide a la muestra en 100 grupos con
frecuencias similares.
La mediana es el percentil 50
El percentil de orden 15 deja por debajo al 15% de las
observaciones. Por encima queda el 85%

Cuartiles: Dividen a la muestra en 4 grupos con


frecuencias similares.
Primer cuartil = Percentil 25 = Cuantil 0,25
Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana
Tercer cuartil = Percentil 75 = cuantil 0,75

Ejemplos
El 5% de los recin nacidos tiene un peso demasiado bajo.
Qu peso se considera demasiado bajo?
Percentil 5 o cuantil 0,05

Qu peso es superado slo por el 25% de los individuos?


Percentil 75

El colesterol se distribuye simtricamente en la poblacin. Se


considera patolgico los valores extremos. El 90% de los
individuos son normales Entre qu valores se encuentran los
individuos normales?
Entre el percentil 5 y el 95

Entre qu valores se encuentran la mitad de los individuos


ms normales de una poblacin?
Entre el cuartil 1 y 3

Ejemplo
Qu peso no llega a alcanzar el 25%
de los individuos?
Primer cuartil = percentil 25 = 60 Kg.

50%

Qu peso es superado por el 25% de


los individuos?
Tercer cuartil= percentil 75= 80 kg.

Entre qu valores se encuentra el 50%


de los individuos con un peso ms
normal?
Entre el primer y tercer cuartil = entre 60
y 80 kg.
Estadsticos
PESO
Percentiles

25
50
75

60,00
70,00
80,00

Ejemplo
Nmero de aos de escolarizacin

3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Total

Frecuencia
5
5
6
12
25
68
56
73
85
461
130
175
73
194
43
45
22
30
1508

Porcentaje
,3
,3
,4
,8
1,7
4,5
3,7
4,8
5,6
30,6
8,6
11,6
4,8
12,9
2,9
3,0
1,5
2,0
100,0

Porcentaje
acumulado
,3
,7
1,1
1,9
3,5
8,0
11,7
16,6
22,2
52,8
61,4
73,0
77,9
90,7
93,6
96,6
98,0
100,0

20%?

90%?

Estadsticos
Nmero de aos de escolarizacin
N
Vlidos
1508
Perdidos
0
Media
12,90
Mediana
12,00
Moda
12
Percentiles 10
9,00
20
11,00
25
12,00
30
12,00
40
12,00
50
12,00
60
13,00
70
14,00
75
15,00
80
16,00
90
16,00

Centralizacin
Son medidas que buscan posiciones (valores) con respecto a los
cuales los datos muestran tendencia a agruparse.
Media: Es la media aritmtica (promedio) de los valores de una
variable. Suma de los valores dividido por el tamao muestral.
Media de 2,2,3,7 es (2+2+3+7)/4=3,5
Conveniente cuando los datos se concentran simtricamente con
respecto a ese valor. Muy sensible a valores extremos.
Centro de gravedad de los datos
Mediana: Es un valor que divide a las observaciones en dos grupos
con el mismo nmero de individuos (percentil 50). Si el nmero de
datos es par, se elige la media de los dos datos centrales.
Mediana de 1,2,4,5,6,6,8 es 5
Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5
Es conveniente cuando los datos son asimtricos. No es sensible
a valores extremos.
Mediana de 1,2,4,5,6,6,800 es 5. La media es 117,7!

Moda: Es el/los valor/es donde la distribucin de frecuencia alcanza


un mximo.

Altura mediana

Medidas de dispersin
Miden el grado de dispersin (variabilidad) de los
datos, independientemente de su causa.
Amplitud o Rango:
La diferencia entre las observacines extremas.
2,1,4,3,8,4. El rango es 8-1=7
Es muy sensible a los valores extremos.

Rango intercuartlico:
Es la distancia entre el primer y tercer cuartil.
Rango intercuartlico = P75 - P25
Parecida al rango, pero eliminando las observaciones ms extremas
inferiores y superiores.
No es tan sensible a valores extremos.

Varianza S2: Mide el promedio de


las desviaciones al cuadrado de las
observaciones con respecto a la media.

1
2
S = ( xi x )
n i
2

Es sensible a valores extremos (alejados de la media).


Sus unidades son el cuadrado de las de la variable.

Desviacin tpica
Es la raz cuadrada de la
varianza
Tiene las misma
dimensionalidad (unidades)
que la variable.

S= S

50

40

30

20

A una distancia de una desv. tpica de


la media tendremos 68%
observaciones.

10

Desv. tp. = 568,43


Media = 2023
N = 407,00

0
30
3.
0
90
2.
0
50
2.
0
10
2.
0
70
1.
0
30
1.

0
90

0
50

A una distancia de dos desv. tpica de


la media tendremos 95%
observaciones.

Peso recin nacidos en partos gemelares

Coeficiente de variacin
Es la razn entre la desviacin tpica y la media.

S
CV =
x

Mide la desviacin tpica en forma de


qu tamao tiene con respecto a la media
Tambin se la denomina variabilidad relativa.
Es frecuente mostrarla en porcentajes
Si la media es 80 y la desviacin tpica 20 entonces CV=20/80=0,25=25%
(variabilidad relativa)

Es Interesante para comparar la variabilidad de diferentes variables.


Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos presentan
ms dispersin en peso que en altura.

No debe usarse cuando la variable presenta valores negativos o donde


el valor 0 sea una cantidad fijada arbitrariamente
Por ejemplo 0C 0F

Asimetra o Sesgo

Una distribucin es simtrica si la


mitad izquierda de su distribucin
es la imagen especular de su
mitad derecha.

En las distribuciones simtricas


media y mediana coinciden. Si
slo hay una moda tambin
coincide

La asimetra es positiva o negativa


en funcin de a qu lado se
encuentra la cola de la
distribucin.

La media tiende a desplazarse


hacia las valores extremos (colas).

Las discrepancias entre las


medidas de centralizacin son
indicacin de asimetra.

Estadsticos para detectar asimetra


Hay diferentes estadsticos que
sirven para detectar asimetra.
Basado en diferencia entre
estadsticos de tendencia central.
Basado en la diferencia entre el 1
y 2 cuartiles y 2 y 3.
Basados en desviaciones con
signo respecto a la media.

Distribucin simtrica
asimetra nula.

Apuntamiento o curtosis
160

140

La curtosis nos indica el grado de apuntamiento


(aplastamiento) de una distribucin con respecto a la
distribucin normal o gaussiana.

120

100

Platicrtica: curtosis < 0


Frecuencia

80

Mesocrtica: curtosis = 0

60

40
45 48 51 54 57 60 63 66 69 72 75 78 81 84

Leptocrtica: curtosis > 0

Platicrtica
300

400

300
200

200

100

100

Frecuencia

Frecuencia

Los grficos que observamos


poseen la misma media y
desviacin tpica, pero con
diferente grado de apuntamiento.

0
3

27
16

37
32

47
42

Leptocrtica

57
52

67
62

77
72

87
82

97
92

108

102 138

0
27

37
32

45
41

Mesocrtica

53
49

61
57

69
65

77
73

85
81

93
89

99

PRESENTACIN
ORDENADA DE DATOS

PRESENTACIN DE DATOS
Los datos o informacin en estadstica se presentan mediante tablas y
grficos.
Los datos deben estar bien presentados y ordenados y debe existir
coherencia en la informacin.
Para los grficos se sugiere:
- sencillos
- No requieren informacin adicional (autoexplicativos)
- Indicar significado de los ejes.

PRESENTACIN DE DATOS
Tambin las tablas y grficos deben llevar un ttulo claro donde en general
se especifica:
- Que se presenta en la tabla (edad, PA, etc)
- Como se clasifica la informacin
- Donde y cuando obtuvo la informacin (hospital Y, ao X)
- A veces se indica la fuente o procedencia de los datos

Respecto de los grficos: Existe un criterio o gua denominado regla de


los de altura

De lo contrario se
maximizan o minimizan
los datos (se
sobreestiman o se
subestiman)

75%

100%

Tablas de distribucin de frecuencias


Caso de variables cualitativas o categricas
(atributos)
Para construirlas se requiere identificar las distintas
categoras o atributos y luego registrar el nmero de veces (la
frecuencia) que cada categora ocurre.
La representacin grfica para las variables cualitativas se
realiza preferentemente mediante el diagrama de barras
(simples) y el diagrama de sectores (grfico circular o de
torta)
* Barras = valores absolutos o %
* Sectores= %

Esquema:
Estado de salud de un grupo
de pacientes clnica
Alemana, ao 2004.
N de
pacientes
o el % de
pacientes

*
Bueno Regular Malo
* Al menos la mitad de la
barra

Estado de salud

Estado de salud de un grupo


de pacientes clnica
Alemana, ao 2004.
100% = 360
Regular
%

%
Bueno
%

Malo

X% = Y

A veces para apreciar el espacio

Eje truncado

Diagrama de Pareto = jerarquizado (barras)

Caso de variables cuantitativas o numricas

Se recomienda diferenciar entre variables cuantitativas


discretas y continuas

Ejemplo para una variable cuantitativa discreta:


Nmero de mdicos que trabajan en 30 clnicas
de santiago, ao 2002.

N de
mdicos

Frecuencia
N de clnicas

10,0

20,0

12

40,0

23,3

6,7

Total

30

100,0

Debe notarse que en este tipo de tablas no existe perdida


de informacin. Es posible reproducir los datos
originales:
1,1,1,2,2,2,2,2,2,,5,5

Datos originales

Cuando hay intervalos


hay perdida de
informacin.

Nmero de mdicos que trabajan en 30


clnicas de santiago, ao 2002.
Frecuencias

12

N de
clnicas o %
de clnicas

9
6
3

N de
mdicos

Variable cuantitativa continua


En este caso es posible que la variable asuma una gran cantidad de
valores diferentes. Es mejor agruparla en clases o intervalos.

Cmo se construye 1 tabla con clases e intervalos?


1.- Determinar el rango o campo de variacin de los datos:
diferencia entre el dato mayor y el menor
2.- determinar el nmero de clases o intervalos: Este nmero es
flexible; se sugiere de 5 a 15 y depende de factores tales como la
cantidad de datos y de su dispersin o variabilidad.
Para el nmero de clases:
-Se puede obtener X ensayo.
- Puede estar indicado.
-- Aplicar regla de Sturgers para en N mnimo de clases (se puede
adecuar)

N de clases= 1 + 3,322 log n

N de datos que se
requiere agrupar

3.- Determinar la amplitud o tamao de clase. En general


consideramos amplitud comn dentro de una tabla y en tal
caso:
Amplitud= Rango / n de clases
4.- Hacer la tabla propiamente tal, anotando las clases de
manera adecuada y luego registrando el n de datos
(mediante recuento, conteo o tarjas) pertenecientes a cada
clase con lo que se determina las frecuencias absolutas o
simplemente frecuencias de cada clase.

Ejemplo: Los siguientes datos corresponden a la estatura en


centmetros (aproximada al entero mas cercano) de 55 alumnos
del curso H, registrada en abril de 2003.
162 153 167 172 181 197 177 176 159 184 163 179 165 185 152 166 173 172 178 173 165 183 154 164 166 178 178 143 174 185 163 165 186 155 171 175 152 161 158 172 167 173 189 174 179 172 164 190 135 145 170 167 159 191 - 178
1.- Determinar el rango 197 135 = 62
2.- n de clases o intervalos
n de clases= 1 + 3,322 log n
1 + 3,322 Log 55
6,781484854 6,8

6 o 7 clases

3.- Amplitud o tamao


Con 6 clases

Con 7 clases

A= Rango/n de clases

A= Rango/n de clases

62/6

62/7

10,3 10

8,8571 8,9 9

Tenemos 6 clases de amplitud comn 10


135 144
145 154
155 164
165 174
175 184
185 - 194

No alcanz. Considerar 7
clases (volver a paso 3)

Con 7 clases y una amplitud de 9


Clase (Estatura alumnos)

Recuento

Frecuencias

135 143

II

144 152

III

153 161

IIIIIII

162 170

IIIIIIIIIIIIII

14

171 179

IIIIIIIIIIIIIIIIIII

19

180 188

IIIIII

189 197

IIII

TOTAL

55

Algunos comentarios:
1.- Se gana en presentacin
2.- Se pierde informacin. No es posible reproducir los datos originales.

MODA
Para datos originales o series simples
Variable que tiene mayor frecuencia
Puede ocurrir que no exista, o si existe, no ser nica
a.- 47, 54, 68, 52, 59: No existe moda
b.- 38, 43, 49, 43, 57, 49, 50, 43: moda=43
c.- 83, 88, 81, 76, 81, 94, 97, 90, 93, 90: Moda= 81 y 90

MODA
Para datos agrupados en clases o intervalos
La moda est ubicada en la clase modal, que es aquella clase que
tiene mayor frecuencia. Luego se aplica la frmula:

Moda= Li +

d1

d1+d2
Li= Lmite real inferior (de la clase modal)
d1= Diferencia entre la frecuencia de la clase modal y la frecuencia
de la clase premodal
d2= Diferencia entre la frecuencia de la clase modal y la frecuencia
de la clase post modal
C= Amplitud de clase

MEDIANA
Para datos originales o series simples
Es un valor nico que divide a un conjunto de datos en 2 partes
iguales de tal manera que el nmero de datos menores o iguales
que la mediana es igual al nmero de datos menores que ella.
Corresponde al valor central cuando el nmero de datos es impar, y
al promedio aritmtico de los 2 valores centrales cuando el nmero
de datos es par.
Equivalentemente la ubicacin o posicin de los 2 valores centrales
correspondiente a la mediana se determina por la frmula de
posicionamiento:

Posicionamiento= n + 1
2

MEDIANA
Ejemplo: Determinar la mediana para:
a.- 48, 45, 40, 57, 59 = 40, 45, 48, 57, 59 (n=5)
Posicionamiento= (n+1)/2 = (5 + 1)/2 = 3
Mediana= 48
b.- La edad de 8 personas es:
13, 18, 14, 16, 10, 23, 21, 11 = 10, 11, 13, 14, 16, 18, 21, 23 (n=8)
Posicionamiento= (8 + 1)/ 2 = 4,5
(14 + 16)/2
Mediana= 15

MEDIANA
Para datos agrupados en clases o intervalos
La mediana se ubica en la clase mediana. Es aquella clase
cuya frecuencia absoluta acumulada iguala o supera a n/2 o
50% (mitad de los datos). Luego se aplica la frmula:

Mediana= Li + n/2 Fi-1


fi

Li= Lmite real inferior de la clase mediana (se saca con las frecuencias
acumuladas, la que iguale o supere a n/2 o 50%.
Fi-1= Frecuencia acumulada absoluta de la clase anterior a la clase
mediana
fi= Frecuencia de la clase mediana
C= Amplitud

CUARTILES, DECILES, PERCENTILES


Para datos originales o series simples
Son medidas anlogas a la mediana que dividen a un conjunto
ordenado de datos en 4, 10 o 100 partes iguales, respectivamente.
Ntese que habr 3 cuartiles, 9 deciles, 99 percentiles.

Q1

Q2
25%

25%
P25

Q3
25%

Med
D5
P50

1
25%

P75

CUARTILES, DECILES, PERCENTILES


Posicionamiento Cuantil = (n + 1) k
100
Posicionamiento Q1=P25= (n + 1) 25
100

Posicionamiento Q3=P75= (n + 1) 75
100

= (n + 1)
4

3 (n + 1)
4

P = Valor entero de la posicin + valor fraccin posicin (diferencia (P+1)-P)

CUARTILES, DECILES, PERCENTILES


Para datos agrupados en clases o intervalos

Cuantil =

Li +

kn/100 Fi-1

fi
k= Percentil k
Li= Lmite real inferior de la clase percentil k (se saca con las frecuencias
acumuladas, la que iguale o supere a k%.
Fi-1= Frecuencia acumulada absoluta de la clase anterior a la clase percentil
fi= Frecuencia de la clase percentil
C= Amplitud

MEDIA
Para datos originales o series simples
Punto en donde se encuentra el centro de gravedad de los datos o
equilibrio

Media = Xi
n
Ejemplo: La presin sistlica de 10 personas es: 120, 130, 141, 126,
134, 128, 136, 132, 140, 143 mmHg
Entonces, la presin media o promedio es:
X= 1330/10
X= 133 mmHg

MEDIA
Para datos agrupados en clases o intervalos
En este caso, se supone que los datos incluidos quedan
representados por las marcas de clase.
En estas condiciones, la media o promedio para la muestra queda
definida:

Media = Xifi
n
Xi= Marca de clase o distintos valores de la variable
fi= Respectivas frecuencias

RANGO
Para datos originales o series simples
Diferencia entre el valor mximo y el valor mnimo

Para datos agrupados en clases o intervalos


Diferencia entre el lmite real superior de la clase mayor y el lmite real
inferior de la clase mas baja.

VARIANZA
Varianza = Xi -

( Xi)
n

n-1
Xi = Sumatoria de las variables al cuadrado
Xi = Sumatoria de las variables
n = n de datos

VARIANZA

Varianza = (Xi X)
n-1

Xi= frecuencia absoluta o marca de clase


X= Media o promedio

Desviacin Estandar =

Xi -

( Xi)

n-1

DESVIACIN ESTANDAR

Desviacin Estandar =

(Xi X)
n-1

Desviacin Estandar =

Varianza

ASIMETRA O SESGO

Sesgo = X - Mo
S

X= Promedio
Mo= Moda
S= Desviacin Estandar

APUNTAMIENTO O CURTOSIS

Curtosis = P75 P25


2(P90 P10)

Platicrtica: curtosis < 0


Mesocrtica: curtosis = 0
Leptocrtica: curtosis > 0

Consultas.....

Anda mungkin juga menyukai