Y CUALITATIVO.
UNIDAD 1: ESTADSTICA DESCRIPTIVA
estebanmonteroalvarez@gmail.com
DEFINICIN
La Bioestadstica es el conjunto de mtodos
necesarios para recoger, clasificar,
representar y resumir datos, deducir las leyes
que rigen esos fenmenos, as como para
hacer inferencias (extraer consecuencias)
cientficas a partir de ellos.
La Bioestadstica es la Ciencia de la
Sistematizacin, recogida, ordenacin y
presentacin de los datos referentes a un
fenmeno que presenta variabilidad o
incertidumbre para su estudio metdico, con
objeto de
deducir las leyes que rigen esos fenmenos,
DESCRIPTIVA
PROBABILIDAD
INFERENCIA
Tipos de muestreo
Muestra aleatoria
Simple
Sistemtica
PROBABILSTICO
Estraticada
Por
conglomerados
Muestra intencional
NO
PROBABILSTICO
Sujetos
voluntarios
Sujetos
expertos
Bola
de
nieve
Por
cuotas
El 1 seleccionado al azar
10
2
7
3
6
4
11
13
17
16
12
14
1
5
El 2 seleccionado estar a
30/6 = 5 lugares del 1
El 3 seleccionado estar a
5 lugares del 2 etc
Estrato 2
Ejemplo
Interesa estudiar las actitudes polticas
de los estudiantes de una universidad.
Se podra subdividir en estratos de
acuerdo con el tipo de estudios que
cursen, suponiendo que estas actitudes
van a ser diferentes entre quienes
siguen:
El
conglomerado
ms
uLlizado
en
la
invesLgacin
es
un
conglomerado
geogrco.
Por
ejemplo,
un
invesLgador
desea
estudiar
el
rendimiento
acadmico
de
los
estudiantes
de
enseanza
media
en
SanLago.
Puede
dividir
a
toda
la
poblacin
(poblacin
de
SanLago
en
diferentes
conglomerados
(Ciudades).
Luego,
el
invesLgador
selecciona
una
serie
de
conglomerados
en
funcin
de
su
invesLgacin,
a
travs
de
un
muestreo
aleatorio
simple
o
sistemLco.
Luego,
de
los
conglomerados
seleccionados
(ciudades
seleccionadas
al
azar)
el
invesLgador
puede
incluir
a
todos
los
estudiantes
de
enseanza
media
como
sujetos
o
seleccionar
un
nmero
de
sujetos
de
cada
conglomerado
a
travs
de
un
muestreo
aleatorio
simple
o
sistemLco.
Lo
ms
importante
sobre
esta
tcnica
de
muestreo
es
dar
a
todos
los
conglomerados
iguales
posibilidades
de
ser
seleccionados.
Tamao de Muestra
La
determinacin
del
tamao
de
muestra
en
una
invesLgacin
depende
del
objeLvo
de
ella.
En
el
caso
que
se
requiera
estimar
un
parmetro
ser
necesario
denir
el
mximo
error
estndar
dispuesto
a
cometer
y
la
conanza
del
intervalo.
En
el
caso
de
realizar
inferencia
a
travs
de
pruebas
de
hiptesis
es
necesario
denir
la
potencia
de
la
prueba
,
el
nivel
de
significacin
,
la
diferencia
mxima
entre
el
valor
esLmado
y
el
verdadero
valor
del
parmetro.
d
0.02
0.03
0.04
0.05
0.07
0.1
0.2
n
2401
1067
600
384
196
96
24
Poblacin, muestra,
variables,
presentacin
ordenada de datos
Poblacin y muestra
Variables
Una variable es una caracterstica observable que vara entre los diferentes
individuos de una poblacin.
El nmero de hijos
{0,1,2,3,...} Var. Numrica discreta
La altura
{162 ; 174; ...} Var. Numrica continua
Tipos de variables
Cualitativas
Evita la cuantificacin y se centra en la cualidad que se revela
Nominales: Si sus valores no se pueden ordenar
Sexo, Grupo Sanguneo, Religin, Nacionalidad, Fumar (S/No)
Cuantitativas o Numricas
Se reduce a medir variables en funcin de una magnitud o cantidad determinada.
Discretas: Si toma valores enteros
Nmero de hijos, Nmero de cigarrillos, Num. de cumpleaos
Variables Cualitativas
Gnero
Frec.
Hombre
6
5
4
3
Mujer
2
1
0
Hombre
Mujer
TABLAS
Frecuencias relativas
Frecuencias Absolutas
Nivel Educacional |
Frecuencias acumuladas
Freq.
Percent
Cum.!
--------------------+-----------------------------------!
BAJO (< 8 aos) |
204
23.53
23.53!
MEDIO (8 - 12 aos) |
490
56.52
80.05!
173
19.95
100.00!
--------------------+-----------------------------------!
Total |
867
100.00!
femenino |
Total
76
128 |
204
216
274 |
490
64
109 |
173
--------------------+----------------------+---------Total
356
511 |
867
Tablas de frecuencia
Sexo
Hombre
Mujer
Total
Frecuencia
Absoluta
Frecuencia
Relativa
Frecuencia Frecuencia
Acumulada Acumulada
Absoluta
Relativa
636
41.9
636
41.9
881
58.1
1517
100.0
1517
100.0
---------------- ----------------
Muy Feliz
Bastante Feliz
Poco Feliz
No contesta
Total
Frecuencia
Absoluta
Frecuencia
Relativa
Frecuencia
Acumulada
Absoluta
Frecuencia
Acumulada
Relativa
467
30.78
467
30.78
872
57.48
1339
88.26
165
10.88
1504
99.14
13
0.86
1517
100.00
1517
100.00
----------------
----------------
0
1
2
3
4
5
6
7
8 ms
No contesta
Total
Frecuencia
Absoluta
Frecuencia
Relativa
Frecuencia
Acumulada
Absoluta
Frecuencia
Acumulada
Relativa
419
27.62
419
27.62
255
16.81
674
44.43
375
24.72
1049
69.15
215
14.17
1264
83.32
127
8.37
1391
91.69
54
3.60
1445
95.29
24
1.58
1469
96.87
23
1.52
1492
98.39
17
1.12
1509
99.51
0.53
1517
100.04
1517
100.04
----------------
----------------
Ejemplo
Nmero de hijos
Qu porcentaje de individuos
tiene 6 hijos o menos?
97,3%
0
1
2
3
4
5
6
7
Ocho+
Total
Frec.
419
255
375
215
127
54
24
23
17
1509
Porcent.
(vlido)
27,8
16,9
24,9
14,2
8,4
3,6
1,6
1,5
1,1
100,0
Porcent.
acum.
27,8
44,7
69,5
83,8
92,2
95,8
97,3
98,9
100,0
Grficos
Diagramas de barras
Alturas proporcionales a las frecuencias (abs. o rel.)
Se pueden aplicar tambin a variables discretas
Pictogramas
Fciles de entender.
El rea de cada modalidad debe ser proporcional a la
frecuencia. De los dos, cul es incorrecto?.
300
Recuento
375
255
215
200
127
100
54
24
23
17
7 Ocho o ms
Nmero de hijos
250
200
150
100
50
20
40
60
80
100
80
EDAD
60
Q3= 75%
Mediana= 50%
RIC= 50%
datos
40
Q1= 25%
20
Diagramas integrales
Polgono (frecuencia)
Ojivas
Grficos
Diagrama de sectores o tortas
Diagramas de barras
Variables cualitativas
Histograma
Diagrama de caja o box plot
Variables cuantitativas
ESTADIGRAFOS
Parmetros y estadsticos
Centralizacin
Indican valores con respecto a los que los datos parecen
agruparse.
Media, mediana y moda
Dispersin
Indican la mayor o menor concentracin de los datos con
respecto a las medidas de centralizacin.
Desviacin tpica, coeficiente de variacin, rango, varianza
Forma
Asimetra
Apuntamiento o curtosis
Estadsticos de posicin
Se define el cuantil de orden como un valor de la variable por debajo
del cual se encuentra una frecuencia acumulada .
Casos particulares son los percentiles, cuartiles, deciles, quintiles,...
Estadsticos de posicin
Percentil divide a la muestra en 100 grupos con
frecuencias similares.
La mediana es el percentil 50
El percentil de orden 15 deja por debajo al 15% de las
observaciones. Por encima queda el 85%
Ejemplos
El 5% de los recin nacidos tiene un peso demasiado bajo.
Qu peso se considera demasiado bajo?
Percentil 5 o cuantil 0,05
Ejemplo
Qu peso no llega a alcanzar el 25%
de los individuos?
Primer cuartil = percentil 25 = 60 Kg.
50%
25
50
75
60,00
70,00
80,00
Ejemplo
Nmero de aos de escolarizacin
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Total
Frecuencia
5
5
6
12
25
68
56
73
85
461
130
175
73
194
43
45
22
30
1508
Porcentaje
,3
,3
,4
,8
1,7
4,5
3,7
4,8
5,6
30,6
8,6
11,6
4,8
12,9
2,9
3,0
1,5
2,0
100,0
Porcentaje
acumulado
,3
,7
1,1
1,9
3,5
8,0
11,7
16,6
22,2
52,8
61,4
73,0
77,9
90,7
93,6
96,6
98,0
100,0
20%?
90%?
Estadsticos
Nmero de aos de escolarizacin
N
Vlidos
1508
Perdidos
0
Media
12,90
Mediana
12,00
Moda
12
Percentiles 10
9,00
20
11,00
25
12,00
30
12,00
40
12,00
50
12,00
60
13,00
70
14,00
75
15,00
80
16,00
90
16,00
Centralizacin
Son medidas que buscan posiciones (valores) con respecto a los
cuales los datos muestran tendencia a agruparse.
Media: Es la media aritmtica (promedio) de los valores de una
variable. Suma de los valores dividido por el tamao muestral.
Media de 2,2,3,7 es (2+2+3+7)/4=3,5
Conveniente cuando los datos se concentran simtricamente con
respecto a ese valor. Muy sensible a valores extremos.
Centro de gravedad de los datos
Mediana: Es un valor que divide a las observaciones en dos grupos
con el mismo nmero de individuos (percentil 50). Si el nmero de
datos es par, se elige la media de los dos datos centrales.
Mediana de 1,2,4,5,6,6,8 es 5
Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5
Es conveniente cuando los datos son asimtricos. No es sensible
a valores extremos.
Mediana de 1,2,4,5,6,6,800 es 5. La media es 117,7!
Altura mediana
Medidas de dispersin
Miden el grado de dispersin (variabilidad) de los
datos, independientemente de su causa.
Amplitud o Rango:
La diferencia entre las observacines extremas.
2,1,4,3,8,4. El rango es 8-1=7
Es muy sensible a los valores extremos.
Rango intercuartlico:
Es la distancia entre el primer y tercer cuartil.
Rango intercuartlico = P75 - P25
Parecida al rango, pero eliminando las observaciones ms extremas
inferiores y superiores.
No es tan sensible a valores extremos.
1
2
S = ( xi x )
n i
2
Desviacin tpica
Es la raz cuadrada de la
varianza
Tiene las misma
dimensionalidad (unidades)
que la variable.
S= S
50
40
30
20
10
0
30
3.
0
90
2.
0
50
2.
0
10
2.
0
70
1.
0
30
1.
0
90
0
50
Coeficiente de variacin
Es la razn entre la desviacin tpica y la media.
S
CV =
x
Asimetra o Sesgo
Distribucin simtrica
asimetra nula.
Apuntamiento o curtosis
160
140
120
100
80
Mesocrtica: curtosis = 0
60
40
45 48 51 54 57 60 63 66 69 72 75 78 81 84
Platicrtica
300
400
300
200
200
100
100
Frecuencia
Frecuencia
0
3
27
16
37
32
47
42
Leptocrtica
57
52
67
62
77
72
87
82
97
92
108
102 138
0
27
37
32
45
41
Mesocrtica
53
49
61
57
69
65
77
73
85
81
93
89
99
PRESENTACIN
ORDENADA DE DATOS
PRESENTACIN DE DATOS
Los datos o informacin en estadstica se presentan mediante tablas y
grficos.
Los datos deben estar bien presentados y ordenados y debe existir
coherencia en la informacin.
Para los grficos se sugiere:
- sencillos
- No requieren informacin adicional (autoexplicativos)
- Indicar significado de los ejes.
PRESENTACIN DE DATOS
Tambin las tablas y grficos deben llevar un ttulo claro donde en general
se especifica:
- Que se presenta en la tabla (edad, PA, etc)
- Como se clasifica la informacin
- Donde y cuando obtuvo la informacin (hospital Y, ao X)
- A veces se indica la fuente o procedencia de los datos
De lo contrario se
maximizan o minimizan
los datos (se
sobreestiman o se
subestiman)
75%
100%
Esquema:
Estado de salud de un grupo
de pacientes clnica
Alemana, ao 2004.
N de
pacientes
o el % de
pacientes
*
Bueno Regular Malo
* Al menos la mitad de la
barra
Estado de salud
%
Bueno
%
Malo
X% = Y
Eje truncado
N de
mdicos
Frecuencia
N de clnicas
10,0
20,0
12
40,0
23,3
6,7
Total
30
100,0
Datos originales
12
N de
clnicas o %
de clnicas
9
6
3
N de
mdicos
N de datos que se
requiere agrupar
6 o 7 clases
Con 7 clases
A= Rango/n de clases
A= Rango/n de clases
62/6
62/7
10,3 10
8,8571 8,9 9
No alcanz. Considerar 7
clases (volver a paso 3)
Recuento
Frecuencias
135 143
II
144 152
III
153 161
IIIIIII
162 170
IIIIIIIIIIIIII
14
171 179
IIIIIIIIIIIIIIIIIII
19
180 188
IIIIII
189 197
IIII
TOTAL
55
Algunos comentarios:
1.- Se gana en presentacin
2.- Se pierde informacin. No es posible reproducir los datos originales.
MODA
Para datos originales o series simples
Variable que tiene mayor frecuencia
Puede ocurrir que no exista, o si existe, no ser nica
a.- 47, 54, 68, 52, 59: No existe moda
b.- 38, 43, 49, 43, 57, 49, 50, 43: moda=43
c.- 83, 88, 81, 76, 81, 94, 97, 90, 93, 90: Moda= 81 y 90
MODA
Para datos agrupados en clases o intervalos
La moda est ubicada en la clase modal, que es aquella clase que
tiene mayor frecuencia. Luego se aplica la frmula:
Moda= Li +
d1
d1+d2
Li= Lmite real inferior (de la clase modal)
d1= Diferencia entre la frecuencia de la clase modal y la frecuencia
de la clase premodal
d2= Diferencia entre la frecuencia de la clase modal y la frecuencia
de la clase post modal
C= Amplitud de clase
MEDIANA
Para datos originales o series simples
Es un valor nico que divide a un conjunto de datos en 2 partes
iguales de tal manera que el nmero de datos menores o iguales
que la mediana es igual al nmero de datos menores que ella.
Corresponde al valor central cuando el nmero de datos es impar, y
al promedio aritmtico de los 2 valores centrales cuando el nmero
de datos es par.
Equivalentemente la ubicacin o posicin de los 2 valores centrales
correspondiente a la mediana se determina por la frmula de
posicionamiento:
Posicionamiento= n + 1
2
MEDIANA
Ejemplo: Determinar la mediana para:
a.- 48, 45, 40, 57, 59 = 40, 45, 48, 57, 59 (n=5)
Posicionamiento= (n+1)/2 = (5 + 1)/2 = 3
Mediana= 48
b.- La edad de 8 personas es:
13, 18, 14, 16, 10, 23, 21, 11 = 10, 11, 13, 14, 16, 18, 21, 23 (n=8)
Posicionamiento= (8 + 1)/ 2 = 4,5
(14 + 16)/2
Mediana= 15
MEDIANA
Para datos agrupados en clases o intervalos
La mediana se ubica en la clase mediana. Es aquella clase
cuya frecuencia absoluta acumulada iguala o supera a n/2 o
50% (mitad de los datos). Luego se aplica la frmula:
Li= Lmite real inferior de la clase mediana (se saca con las frecuencias
acumuladas, la que iguale o supere a n/2 o 50%.
Fi-1= Frecuencia acumulada absoluta de la clase anterior a la clase
mediana
fi= Frecuencia de la clase mediana
C= Amplitud
Q1
Q2
25%
25%
P25
Q3
25%
Med
D5
P50
1
25%
P75
Posicionamiento Q3=P75= (n + 1) 75
100
= (n + 1)
4
3 (n + 1)
4
Cuantil =
Li +
kn/100 Fi-1
fi
k= Percentil k
Li= Lmite real inferior de la clase percentil k (se saca con las frecuencias
acumuladas, la que iguale o supere a k%.
Fi-1= Frecuencia acumulada absoluta de la clase anterior a la clase percentil
fi= Frecuencia de la clase percentil
C= Amplitud
MEDIA
Para datos originales o series simples
Punto en donde se encuentra el centro de gravedad de los datos o
equilibrio
Media = Xi
n
Ejemplo: La presin sistlica de 10 personas es: 120, 130, 141, 126,
134, 128, 136, 132, 140, 143 mmHg
Entonces, la presin media o promedio es:
X= 1330/10
X= 133 mmHg
MEDIA
Para datos agrupados en clases o intervalos
En este caso, se supone que los datos incluidos quedan
representados por las marcas de clase.
En estas condiciones, la media o promedio para la muestra queda
definida:
Media = Xifi
n
Xi= Marca de clase o distintos valores de la variable
fi= Respectivas frecuencias
RANGO
Para datos originales o series simples
Diferencia entre el valor mximo y el valor mnimo
VARIANZA
Varianza = Xi -
( Xi)
n
n-1
Xi = Sumatoria de las variables al cuadrado
Xi = Sumatoria de las variables
n = n de datos
VARIANZA
Varianza = (Xi X)
n-1
Desviacin Estandar =
Xi -
( Xi)
n-1
DESVIACIN ESTANDAR
Desviacin Estandar =
(Xi X)
n-1
Desviacin Estandar =
Varianza
ASIMETRA O SESGO
Sesgo = X - Mo
S
X= Promedio
Mo= Moda
S= Desviacin Estandar
APUNTAMIENTO O CURTOSIS
Consultas.....