ERSIDAD
D CATÓLIICA DE CÓRDOBA
C A
FACULT
TAD DE M
MEDICINNA
CARRER
RA DE NUTRICIÓ
N ÓN
EST
TADÍS
STICA
A Y BIIOEST
TADÍSSTICA
Dra
a. Sonia A
A. Pou
Lic. Grraciela F
F. Scruzzzi
Año
o 2013
UNIVERSIDAD CATÓLICA DE CÓRDOBA
FACULTAD DE MEDICINA
NUTRICIÓN
ESTADÍSTICA Y BIOESTADÍSTICA
AÑO 2013
PLANTEL DOCENTE
OBJETIVOS GENERALES
1
OBJETIVOS ESPECÍFICOS
2
completan con el análisis de problemas reales o potenciales en el campo de la
Salud y la Nutrición, para que el estudiante compruebe por sí mismo lo que le
aporta la teoría estudiada, actuando el docente como facilitador y guía en el
proceso de aprendizaje.
CONTENIDOS PROGRAMÁTICOS
3
MÓDULO 3: PROBABILIDAD
4
poblaciones para la diferencia de medias en muestras independientes y
dependientes. Generalización a más de dos poblaciones. Introducción al análisis
de la varianza. Aplicaciones en el área de la Nutrición.
5
METODOLOGÍA
6
TRABAJOS PRÁCTICOS
Se prevé además: a) hacer uso del aula virtual de esta asignatura para
conducir trabajos prácticos adicionales, y b) organizar una actividad práctica en
sala de cómputos, para presentar a los alumnos un software de análisis
estadístico.
7
• Trabajos prácticos integradores (2), en el marco del Proyecto de
Proyección Social con Vinculación Curricular antes mencionado;
• Actividades evaluables en aula virtual;
• Coloquio integrador, solo para los alumnos en condiciones de acceder a
la promoción.
8
CALENDARIO DE ACTIVIDADES
BIBLIOGRAFIA SUGERIDA
9
10
ESTADÍSTICA Y
BIOESTADÍSTICA
MÓDULO 1
INTRODUCCIÓN
A LA
ESTADÍSTICA
11
12
INTRODUCCIÓN
13
La estadística puede ser definida como la disciplina que se ocupa de los
métodos y procedimientos para recoger, clasificar, resumir, presentar y analizar
datos, así como de realizar inferencias a partir de ellos, con la finalidad
de ayudar en la toma de decisiones
en presencia de incertidumbre y variabilidad.2‐4
Ilustremos este concepto con dos ejemplos. Obsérvese a partir de ellos que no
siempre el concepto de población hace alusión a una población de personas.
La palabra representativo implica el diseño de una buena muestra que refleje las
características esenciales de la población de la cual se obtuvo.7
15
determinada de tanques de agua para cada barrio de la localidad, identificados
a partir de datos censales de las viviendas, disponibles a nivel municipal.
Así, estas muestras podrían definirse como:
a) n sujetos mayores de 18 años que residan en la ciudad de Mendoza en el año
2010.
b) n tanques de agua de la localidad X en un periodo determinado.
APLICACIONES DE LA ESTADÍSTICA
Para ilustrar de manera práctica lo hasta aquí mencionado, cabe señalar algunos
problemas que resuelve la estadística1:
RAMAS DE LA ESTADÍSTICA
Una vez obtenida una muestra de una población, el investigador querrá usar la
información de la muestra para llegar a algún tipo de conclusión (hacer una
inferencia de cierto tipo) acerca de la población. Las técnicas para hacer una
generalización en toda la población a partir de una muestra se ubican dentro de
la rama de la estadística llamada estadística inferencial.2 Así, apoyándose en el
cálculo de probabilidades y a partir de datos muestrales, efectúa estimaciones,
predicciones u otras generalizaciones sobre un conjunto mayor de datos.3
17
CIENCIA Y CONOCIMIENTO CIENTÍFICO
18
El método científico se basa en dos tipos de razonamientos para el
establecimiento de la veracidad o no de los enunciados: el deductivo (a partir de
algo general se conduce a lo particular) y el inductivo (a partir de observaciones
particulares de ciertos fenómenos se intentan deducir reglas generales).
En el caso de la investigación empírica se utilizan ambos tipos de razonamiento
siguiendo un ciclo deductivo‐inductivo: la estadística descriptiva se utiliza para
sintetizar y resumir datos transformándolos en información; luego esta
información es procesada a través de modelos y utilizada para adaptar el
modelo a la realidad estudiada, con lo que convertimos la información en
conocimiento científico de esa realidad.1 Vemos que esta segunda etapa, la
inferencial, es inductiva porque se proyecta de lo específico (muestra) hacia lo
general (población).7
20
Las etapas hasta aquí descriptas pertenecen al proceso de investigación
científica. Si consultamos la bibliografía especializada veremos que se habla
también, más específicamente, del proceso o método estadístico. Este,
acompaña al anterior y puede ser sistematizado también en etapas que le son
propias y que están íntimamente ligadas a las ya mencionadas.
Siguiendo al autor Peña1, se enuncian a continuación las etapas básicas del
proceso o método estadístico y sus características principales. Cabe destacar
que esto se expone a modo de introducción en el tema, pero muchos de los
conceptos aquí volcados serán abordados y profundizados en módulos más
avanzados de la materia.
21
PLANIFICACIÓN DEL DISEÑO METODOLÓGICO
22
BIBLIOGRAFÍA - MÓDULO 1
2. Devore JL. Probabilidad y Estadística para ingeniería y ciencias. 6ta ed. México, D.F:
International Thompson Ed.; 2005.
3. Ríus Díaz F, Barón Lopez FJ, Sánchez Font E, Parras Guijosa L. Bioestadística:
Métodos y Aplicaciones. Facultad de Medicina, Universidad de Málaga. Disponible en
:http://www.bioestadistica.uma.es/libro/
23
24
ESTADÍSTICA Y
BIOESTADÍSTICA
MÓDULO 2
LA ESTADÍSTICA
DESCRIPTIVA
25
26
INTRODUCCIÓN AL ANÁLISIS ESTADÍSTICO: METODOLOGÍAS DESCRIPTIVAS
27
conjunto de datos (numéricos o categóricos) acerca de la\s variable\s de
interés, los cuales, en etapas posteriores serán sometidos a los análisis
pertinentes.
Enunciamos a continuación qué se entiende por dato:
Los datos son el resultado de las observaciones efectuadas sobre una unidad
de observación o experimental, respecto de una o más variables.
CLASIFICACIÓN DE VARIABLES
29
2. Variables cuantitativas: son aquellas que adoptan valores numéricos. Estas a
su vez pueden clasificarse como:
‐ Discretas: toman únicamente valores enteros; corresponden en general
a un conteo.2 Ej: número de comidas al día, número de hijos, cantidad de veces
que consume lácteos por día.
‐ Continuas: pueden tomar infinitos valores en un intervalo que resultan
de efectuar mediciones. Corresponden a medir magnitudes continuas,2 es decir
que surgen de mediciones que pueden adoptar números decimales. Ej: talla y
peso al nacer, tiempo de cocción, temperatura de una cámara frigorífica.
Ocurre a veces que una variable cuantitativa continua por naturaleza ha sido
discretizada o categorizada. Un ejemplo del primer caso sería cuando por
cuestiones que conciernen a la precisión de un aparato de medición, por
ejemplo de longitud, la regla no ofrezca unidades de medición en decimales, o
cuando la variable tiempo se expresa en años, aunque por naturaleza es una
variable de tipo continua que puede adoptar infinitos valores (años, meses,
semanas, días, horas, segundos). En el segundo caso, podemos decir que la
variable índice de masa corporal fue categorizada cuando se expresa como bajo,
normal o sobrepeso, aunque es por naturaleza una variable cuantitativa
continua (kg/m2).
ESCALAS DE MEDICIÓN
30
4. Escalas de razones: posee las propiedades de la escala de intervalo pero el
punto de origen o punto cero representa el cero absoluto, o sea la ausencia de
lo que se estudia.8 Ej: peso, talla, longitud en general.
31
De esta manera, si
ni = frecuencia absoluta de un valor o modalidad de X
n = número total de observaciones
ni
entonces fi =
n
32
Tabla 2. Distribución de frecuencias para la cantidad de unidades vendidas de cierto
producto por día en una cadena de supermercados
Frecuencia Frecuencia
Cantidad absoluta (ni) relativa (fi)
0 40 0,44
1 26 0,29
2 14 0,16
3 6 0,07
4 3 0,03
5 0 0,00
6 1 0,01
TOTAL 90 1
82 85 86 87 87 89 89 90 91 91
92 93 94 95 95 95 95 95 97 98
99 99 100 100 101 101 103 103 103 104
105 105 106 107 107 107 109 110 110 111
33
intervalos a construir debemos realizar la diferencia entre el mayor y el menor
valor de la serie de datos, lo cual se denomina rango, y dividirlo por el número
deseado de intervalos. Se sugiere tomar no menos de 5 ni más de 20 intervalos
y emplear el mayor número de intervalos cuanto mayor es el tamaño (n) de
nuestra muestra.1‐2
‐ El primer intervalo siempre debe contener al menor valor de la serie de datos a
agrupar, y el último intervalo al mayor valor registrado.
‐ Las fronteras de un intervalo se denominan límites de clase o intervalo, y el
promedio entre los límites superior e inferior recibe el nombre de marca de
clase (punto medio del intervalo).9 Se deben seleccionar los límites de clase que
definen los intervalos de manera que cada observación se clasifique sin
ambigüedad en una sola clase o intervalo.2
Siguiendo con el ejemplo 1, vemos que el mayor valor que toma la variable peso
es 111 y el menor 82, por lo tanto el rango es 111 ‐ 82 = 29. Suponiendo que
queremos dividir la serie de datos en 6 intervalos, se calcula 29/6 = 4,8 por lo
cual establecemos que la longitud de cada intervalo será aproximadamente de 5
kg.
Luego, para establecer la frecuencia absoluta de cada intervalo se cuentan los
valores de la variable que caen en cada uno de ellos, y se calcula la frecuencia
relativa para cada intervalo (dividiendo cada ni por 40, que es el valor de n en
este caso), como se muestra en la tabla 3.
Tabla 3. Distribución del peso (en kg) de adultos masculino al momento del ingreso en
un programa de control del sobrepeso. Frecuencias absoluta y relativa.
Frecuencia Frecuencia
Pesos (kg) absoluta (ni) relativa (fi)
82‐86 3 0,075
87‐91 7 0,175
92‐96 8 0,200
97‐101 8 0,200
102‐106 7 0,175
107‐111 7 0,175
TOTAL 40 1
Observando la información que nos brinda esta tabla podemos decir, por
ejemplo, que de los 40 adultos masculinos 16 tuvieron un peso entre 92 y 101
kg, lo cual representa un 40% de la muestra, mientras que menos del 10% de los
sujetos registraron un peso inferior a 87 kg, y casi un 20% superó los 106 kg.
34
La frecuencia acumulada para un valor dado de la variable
es la suma de las frecuencias (absolutas o relativas) de los valores
menores o iguales al valor que se está considerando.10
Tabla 4. Distribución del peso (en kg) de adultos masculino al momento del ingreso en
un programa de control del sobrepeso. Frecuencias absoluta, relativa y acumuladas.
Frecuencia Frecuencia Frecuencia Frecuencia
Pesos (kg) absoluta absoluta relativa relativa
(ni) acumulada (Ni) (fi) acumulada (Fi)
82‐86 3 3 0,075 0,075
87‐91 7 10 0,175 0,250
92‐96 8 18 0,200 0,450
97‐101 8 26 0,200 0,650
102‐106 7 33 0,175 0,825
107‐111 7 40 0,175 1
TOTAL 40 ‐ 1 ‐
• Título: debe informar de manera clara y breve acerca de las variables que
ilustra, el grupo de estudio, lugar y tiempo de la investigación.
35
• Matriz o molde: es el encabezamiento de columnas y filas que la
componen. Deben estar claramente rotuladas, indicando las categorías
de análisis y, si correspondiere, las unidades de medición.8
• Cuerpo: consta de las celdas de entrecruzamiento de columnas y filas.
• Totales: para la sumatoria de las cifras contenidas en el cuerpo de la
tabla se habilitan las celdas denominadas marginales, en los límites
inferior y/o derecho de la tabla.
• Fuente: si los datos no son propios, es decir, si se trabaja con datos
provenientes de una fuente secundaria de información, esta debe
consignarse al pie de la tabla.
GRÁFICOS
36
Ejemplo 2: Diagrama de barras para una variable cualitativa.
37
Ejemplo 4. Diagrama de barras proporcionales para una variable cualitativa.
Cabe destacar aquí que, cuando los tamaños de las poblaciones representadas
son diferentes, es conveniente utilizar las frecuencias relativas, ya que en otro
caso podrían resultar engañosas.7
38
GRÁFICOS PARA VARIABLES CUANTITATIVAS DISCRETAS:
39
‐ Gráfico a escalones: permite ilustrar la distribución de frecuencias absolutas o
relativas acumuladas. Sobre el eje horizontal se representan los distintos valores
posibles (enteros) de la variable y sobre el eje vertical la frecuencia acumulada
(absoluta o relativa) correspondiente a cada una de esos valores. Cada valor de
la variable experimenta un salto de magnitud igual a su frecuencia absoluta o
relativa representada.
Nro de consultas
40
Ejemplo 9. Histograma para una variable cuantitativa continua.
Distribución de frecuencias relativas del peso (en kg) de adultos masculino al momento
del ingreso en un programa de control del sobrepeso. Río Cuarto, año 2010.
‐ Polígono de frecuencias: consiste en unir mediante líneas rectas los puntos del
histograma que corresponden a las marcas de clase.7 Si se representan las
frecuencias acumuladas el gráfico se denomina polígono de frecuencias
acumuladas.
Distribución de frecuencias relativas del peso (en kg) de adultos masculino al momento
del ingreso en un programa de control del sobrepeso. Río Cuarto, año 2010.
41
DESCRIPCIÓN DE DATOS BASADA EN MEDIDAS NUMÉRICAS :
MEDIDAS RESUMEN DE TENDENCIA CENTRAL Y DE DISPERSIÓN
En términos generales podemos decir que estas medidas indican el valor medio
de los datos. Las más frecuentemente empleadas son las que presentamos a
continuación: media, mediana y moda. También se describirán otras de interés
como los cuantiles, cuartiles y percentiles.
LA MEDIA
Supóngase que un conjunto de datos es de la forma x1, x2, …, xn, donde cada xi
es un número para la observación i y n es el tamaño de la muestra.3
42
La media muestral ( X ) de un conjunto de datos x1, x2, …, xn está dada por:
x1 + x 2 + ... + x n
X =
n
25 + 32 + 22 + 21 + 25 + 30 + 45 + 50 + 27 + 28 + 25
X =
11
X = 30
X =
∑ x .n
i i
43
Ejemplo 12. Supongamos que la siguiente tabla resume la información recabada
por el dueño de un comercio acerca del número de ausencias que registraron
sus empleados en un periodo determinado:
Frecuencia
Nro absoluta (ni)
2 1
3 5
4 3
5 0
6 2
TOTAL 11
Para facilitar este cálculo puede ser útil construir una tabla de cálculo como la
que sigue:
Frecuencia xi . ni
xi absoluta (ni)
2 1 2
3 5 15
4 3 12
5 0 0
6 2 12
TOTAL 11 ∑ xi .ni = 41
Así,
2 ⋅1 + 3 ⋅ 5 + 4 ⋅ 3 + 5 ⋅ 0 + 6 ⋅ 2
X = = 41/11 = 3,7
11
X =
∑ m .n i i
n
donde mi representa la marca de clase o punto medio del intervalo
ni la correspondiente frecuencia absoluta del intervalo
n el tamaño muestral
44
Ejemplo 13. Retomando un caso ya presentado anteriormente, supongamos
que se desea calcular el peso medio a partir de la correspondiente tabla de
distribución de frecuencias:
Distribución del peso (en kg) de adultos masculino al momento del ingreso en un
programa de control del sobrepeso.
Frecuencia
Pesos (kg) absoluta (ni)
82‐86 3
87‐91 7
92‐96 8
97‐101 8
102‐106 7
107‐111 7
TOTAL 40
Luego, X =
∑ m .n i i
3910
X = = 97,7
40
45
LA MEDIANA
Siendo ahora n = 12, es decir un número par, entonces debemos calcular n/2= 6.
Esto nos indica que el centro del conjunto de datos está entre los valores
ordenados en sexto y séptimo lugar. Luego:
9,7 + 10,4
Me = = 10,05
2
Frecuencia Frecuencia
Nro de controles absoluta (ni) absoluta acumulada (Ni)
0 5 5
1 11 16
2 35 51
3 2 53
4 2 55
5 1 56
TOTAL 56 ‐
47
N i −1 = primera frecuencia absoluta acumulada ( N i ) que no supera a n / 2
ni = frecuencia absoluta del intervalo que contiene al valor n / 2 (en columna N i )
ai = amplitud de dicho intervalo ( ai = límite superior – límite inferior)
Frecuencia Frecuencia
Edad (años) absoluta (ni) absoluta acumulada (Ni)
15‐29 28 28
30‐44 32 60
45‐59 35 78
60‐74 5 100
TOTAL 100 ‐
Frecuencia Frecuencia
Edad (años) absoluta (ni) absoluta acumulada (Ni)
15‐29 28 N i −1 Æ 28
Linf Æ30‐44 ni Æ32 60 Æ Ni que
incluye a 50
45‐59 35 78
60‐74 5 100
TOTAL 100 ‐
n / 2 = 100/2 = 50 N i −1 = 28 ai = 44 – 30 = 14
Linf = 30 ni = 32
(100 / 2) − 28
Luego, Me = 30 + ⋅ 14 = 39,6 ≅ 40
32
48
LA MODA
Es decir que esta medida de posición muestra hacia qué valor tienden los datos
a agruparse.9 Con respecto a la moda cabe destacar que:
‐ corresponde al valor o modalidad de la variable más frecuente, lo cual se
observa a partir de su frecuencia en el conjunto de observaciones, pero no es la
frecuencia en sí misma.
‐ pueden existir más de un valor modal. En tal caso decimos que la variable
presenta una distribución bimodal (con dos modas) ó multimodal.
‐ es la única medida de tendencia central aplicable a variables de tipo
categóricas.
50 55 55 60 61 61 61
52 55 55 55 55 60 60
50 50 51 55 61 61 62
53 54 55 55 60 63 63
En este caso se puede observar que el valor que más se repite es 55. Decimos
que la Mo es 55, lo cual indica que la cantidad de raciones que más
frecuentemente se entregan en el comedor es de 55.
49
‐ Cálculo de la moda muestral para datos discretos agrupados (sin intervalos) ó
categóricos
50
‐ Cálculo de la moda muestral para datos continuos o discretos agrupados en
intervalos
Aquí, el intervalo o clase modal es 150‐159 cm, por lo que la Mo será su marca
de clase, es decir, 154,5 cm.
Se concluye que la talla más frecuente en la población aborigen estudiada es
154,5 cm.
Figura 1. Distribución de dos poblaciones con igual media y distinta variabilidad de los datos.
Figura 2. Formas de una distribución: A. Asimétrica con sesgo negativo (sesgada a la izquierda);
B. Simétrica; C. Asimétrica con sesgo positivo (sesgada a la derecha).
52
Si la distribución de la población tiene un sesgo positivo o negativo, como se
observa en la figura anterior, entonces la media es distinta de la mediana y la
moda en esa población.
53
CUANTIL
54
Calculamos p ⋅ n = 0,25 ⋅ 56 = 14
( p.n) − N i −1
Cuantil p = Linf + ⋅ ai
ni
siendo:
p = cuantil que se desea investigar
n = número total de datos
Linf = límite inferior del intervalo cuya frecuencia acumulada absoluta ( N i ) incluye
el valor de p ⋅ n .
N i −1 = primera frecuencia absoluta acumulada ( N i ) que no supera a p ⋅ n.
ni = frecuencia absoluta del intervalo que contiene al valor p ⋅ n (en columna N i )
ai = amplitud de dicho intervalo ( ai = límite superior – límite inferior)
Ejemplo 21. Supongamos que se desea calcular el cuantil 0,50 para el siguiente
conjunto de datos, correspondiente a la variable peso tomada en una muestra
de 40 mujeres:
Frecuencia Frecuencia
Peso (kg) absoluta (ni) absoluta acumulada (Ni)
45‐49 7 7
50‐54 9 16
55‐59 10 26
60‐64 8 34
65‐69 5 39
70‐74 1 40
TOTAL 40 ‐
55
Considerando la fórmula correspondiente tenemos:
Frecuencia Frecuencia
Peso (kg) absoluta (ni) absoluta acumulada (Ni)
45‐49 7 7
50‐54 9 N i −1 Æ 16
Linf Æ55‐59 ni Æ10 26Æ Ni que
incluye a 20
60‐64 8 34
65‐69 5 39
70‐74 1 40
TOTAL 40 ‐
p ⋅ n = 0,50 ⋅ 40 = 20 N i −1 = 16 ai = 59 – 55 = 4
Linf = 55 ni = 10
(0,50.n) − N i −1
Luego, Cuantil0,50 = Linf + ⋅ ai
ni
20 − 16
Entonces Cuantil0.50 = 55 + ⋅ 4 = 56,6
10
Se concluye que el 50% de las mujeres registraron un peso inferior o igual a 56,6
kg, mientras que la mitad restante presentó un peso igual o superior a 56,6 kg.
PERCENTIL
56
‐ Cálculo de percentiles para datos discretos agrupados (sin intervalos)
p⋅n
( ) − N i −1
Percentil p = Linf + 100 ⋅ ai
ni
siendo:
p =percentil que se desea investigar
n = número total de datos
Linf = el límite inferior del intervalo cuya frecuencia acumulada absoluta ( N i ) incluye
p⋅n
el valor de
100
p⋅n
N i −1 = primera frecuencia absoluta acumulada ( N i ) que no supera a
100
p⋅n
ni = frecuencia absoluta del intervalo que contiene al valor (en columna N i )
100
ai = amplitud de dicho intervalo ( ai = límite superior – límite inferior)
Entonces,
30 ⋅ n
( ) − N i −1
Percentil30 = Linf + 100 ⋅ ai
ni
57
12 − 7
Percentil30 = 50 + ⋅ 4 = 50,5
40
Se concluye que el 30% de las mujeres registraron un peso inferior o igual a 50,5
kg, mientras que el 70% restante presentó un peso igual o superior a dicho
valor.
CUARTILES
Q1 Q2 Q3
¼ ¼ ¼ ¼
Vemos que:
Q1= es el valor que deja por debajo de él al 25% de los datos y por encima al
75%.
Q2= es el valor que deja por debajo de él al 50% de los datos y por encima al
50% restante (es decir, equivale al valor de la mediana).
Q3= es el valor que deja por debajo de él al 75% de los datos y por encima al
25%.
n
para el primer cuartil (Q1); luego buscar el valor de Ni que incluye a n/4. El
4
valor de la variable que corresponda al Ni encontrado será el valor de Q1.
58
2⋅n 2⋅n
para el segundo cuartil (Q2); luego buscar el valor de Ni que incluye a .
4 4
El valor de la variable que corresponda al Ni encontrado será el valor de Q2.
3⋅ n 3⋅ n
para el tercer cuartil (Q3); luego buscar el valor de Ni que incluye a . El
4 4
valor de la variable que corresponda al Ni encontrado será el valor de Q3.
Frecuencia
Nro. de consultas Frecuencia absoluta
odontológicas absoluta (ni) acumulada (Ni)
0 28 28
1 20 48
2 30 78
3 52 130
4 40 170
5 30 200
Total 200 ‐
n
= 50; luego el valor de Ni que incluye a 50 es 78. Entonces, Q1= 2
4
2⋅n
= 100; luego el valor de Ni que incluye a 100 es 130. Entonces, Q2= 3
4
3⋅ n
= 150; luego el valor de Ni que incluye a 150 es 170. Entonces, Q3= 4
4
Se concluye que:
‐ un 25% o menos de los sujetos encuestados realizaron 2 consultas anuales al
odontólogo o menos, y un 75% 2 o más consultas.
‐ el 50% o menos de los sujetos encuestados realizaron 3 o menos consultas
anuales al odontólogo, y el 50% restante 3 o más consultas.
‐ un 75% o menos de los sujetos encuestados realizaron hasta 4 consultas
anuales al odontólogo, y un 25% realizaron 4 o más consultas.
59
Q⋅n
( ) − N i −1
Cuartil Q = Linf + 4 ⋅ ai
ni
siendo:
Q= cuartil que se desea investigar (1, 2 ó 3, según sea el caso)
n = número total de datos
Linf = el límite inferior del intervalo cuya frecuencia acumulada absoluta ( N i ) incluye
Q⋅n
el valor de
4
Q⋅n
N i −1 = primera frecuencia absoluta acumulada ( N i ) que no supera a
4
Q⋅n
ni = frecuencia absoluta del intervalo que contiene al valor (en columna N i )
4
ai = amplitud de dicho intervalo ( ai = límite superior – límite inferior)
60
MEDIDAS DE VARIABILIDAD O DISPERSIÓN
S 2
=
∑ (x i −X )2
n −1
S = S2
entonces S=
∑ (x i −X )2
n −1
61
Ejemplo 23. Dada la variable cantidad de seminarios de capacitación dictados al
año por equipos de salud dependientes del Ministerio de Salud de una
determinada provincia, se obtuvieron los siguientes datos:
2, 4, 6, 4, 7, 4, 7, 8, 10, 9
X = 6,1 n= 10
Luego,
∑(x −X) = (2‐6,1) + (4‐6,1) + (6‐6,1) + (4‐6,1) + (7‐6,1) + (4‐6,1) + (7‐6,1) + (8‐6,1) + (10‐6,1) +(9‐6,1)
i
2 2 2 2 2 2 2 2 2 2 2
= 58,9
Entonces: S2 =
∑ (x i −X )2
=
58,9
= 6,54
n −1 10 − 1
y el valor de S es S = S2
= 6,54 = 2,56 ≅ 3
62
‐ Cálculo de la varianza y desviación estándar muestral para datos discretos
agrupados (sin intervalos)
S 2
=
∑ n (x
i i −X )2
n −1
S=
∑ n (x i i −X )2
n −1
Siguiendo el ejemplo anterior (23), suponiendo que los datos se nos presentan
ahora de modo agrupado:
Frecuencia
Cantidad de seminarios absoluta (ni)
2 1
4 3
6 1
7 2
8 1
9 1
10 1
TOTAL 10
63
La siguiente tabla de cálculo los facilitará la aplicación de la fórmula:
Cant.
Frecuencia | xi − X | (x i −X )
2
(
ni ⋅ x i − X )2
absoluta (ni)
2 1 4,1 16,81 16,81
4 3 2,1 4,41 13,23
6 1 0,1 0,01 0,01
7 2 0,9 0,81 1,62
8 1 1,9 3,61 3,61
9 1 2,9 8,41 8,41
10 1 3,9 15,21 15,21
TOTAL 10
∑ ( )2
ni ⋅ x i − X = 58,9
Luego, S 2
=
∑ n (x i i −X )2
n −1
58,9
S2 = = 6,54
10 − 1
Entonces S = 6,54
S = 2,56 ≅ 3
Se concluye que la mayoría de los equipos de salud dictaron entre 3,1 y 9,1
seminarios, con un promedio de 6,1 seminarios anuales.
Así, S 2
=
∑ n (m i i −X )2
y S=
∑ n (m
i i −X )2
n −1 n −1
64
Supongamos que los datos trabajados en el ejemplo 23 se presenten de modo
agrupado en intervalos, con X = 6,1 :
Marca Frecuencia
de clase absoluta
Cant. ( mi ) (ni) | mi − X | (m i−X )
2
(
ni ⋅ mi − X ) 2
Luego, S 2
=
∑ n (m
i i −X )2
=
63,7
=7
n −1 10 − 1
y S=
∑ n (mi i −X )2
=
63,7
= 2,64
n −1 10 − 1
Se concluye que la mayoría de los equipos de salud dictaron entre 3,5 y 8,7
seminarios al año ( X ± S = 6,1 ± 2,64) .
RANGO O RECORRIDO
R = x max − x min
65
301 303 305 310 315 316 317 320
R= 320 – 301 = 19
Es decir que permite conocer entre cuáles valores de una serie de datos se halla
el 50% central, considerando que Q1 deja por debajo el 25% de las
observaciones y Q3 deja por encina el 25%.8
Esta medida presenta la ventaja de que no es afectada por la presencia de
observaciones relativamente grandes.9
Su cálculo sería:
RI = Q3 – Q1
RI = 4 – 2 = 2
66
COEFICIENTE DE VARIACIÓN
S
CV = ⋅ 100
X
Luego,
0,13
a) Talla: CV = ⋅100 = 8,84%
1,47
3
b) Peso: CV = ⋅100 = 4,47%
67
Los resultados obtenidos indican que, en este caso, el peso es más homogéneo
que la estatura. O lo que es lo mismo, que el peso presenta menor variabilidad
que la estatura.
67
BIBLIOGRAFÍA - MÓDULO 2
3. Devore JL. Probabilidad y Estadística para ingeniería y ciencias. 6ta ed. México, D.F:
International Thompson Ed.; 2005.
7. Ríus Díaz F, Barón Lopez FJ, Sánchez Font E, Parras Guijosa L. Bioestadística:
Métodos y Aplicaciones. Facultad de Medicina, Universidad de Málaga. Disponible en
http://www.bioestadistica.uma.es/libro/
11. Di Rienzo JA, Casanoves F, Gonzalez LA et al. Estadística para las Ciencias
Agropecuarias. 6ta ed. Córdoba: Ed. Brujas.2005.
68
ESTADÍSTICA Y
BIOESTADÍSTICA
MÓDULO 3
PROBABILIDAD
69
70
INTRODUCCIÓN
Así, para el experimento aleatorio “lanzar una moneda”, los resultados posibles
serán sacar cara (C) o cruz (X). El espacio muestral en este ejemplo será:
Ω1 = {C, X}
71
Obsérvese que, si lo analizamos desde la teoría de los conjuntos, cada conjunto
Ω puede descomponerse en determinada cantidad de elementos que lo
componen: 2 elementos para Ω1 y 4 para Ω2.
72
Puede observarse que A y B no tienen elementos en común, y por ende, son
eventos mutuamente excluyentes.
DEFINICIONES DE PROBABILIDAD
Esta definición se aplica a los casos en que el espacio muestral es finito (posee un
número definido de elementos) y en que todos los resultados del experimento son
igualmente posibles (es decir, son equiprobables).
A = {(F,F), (M,M)}
73
Podemos decir que la probabilidad de que ambos mellizos tengan el mismo sexo
es de 0,5.
74
Axioma 2: P(Ω) = 1
Axioma 3: Si A1, A2, A3, ... forman una sucesión de eventos mutuamente
excluyentes, entonces: P(A1 U A2 U A3 U ...) = ∑ P(Ai)
75
Considérese que A U B significa que, al efectuar un experimento, aparece el
evento A o el evento B o ambos (A B), donde el término "o" indica la operación
matemática de la suma.2
Otro resultado útil esta dado por la relación entre la probabilidad de un evento
y su complemento (es decir aquel evento que ocurre siempre que no lo hace A).6
Si A es un evento complementario de A, entonces:
P(A) = 1 – P( A )
76
Adviértase que el espacio muestral Ω = A U A . El resultado se infiere de
considerar que A y A son dos eventos mutuamente excluyentes, y que P(Ω) =
1, como lo enuncia el axioma correspondiente.
P( A ∩ B)
P( A B) =
P( B)
Ejemplo 5. Supongamos que se lanza un dado una vez. Se definen los siguientes
eventos A y B, y se desea determinar la probabilidad de A dado que ocurrió el
evento B.
A: Observación de un 1.
B: Observación de un número impar.
77
El espacio muestral correspondiente a este experimento sería:
Ω = {1, 2, 3, 4, 5, 6}
Luego:
P ( A ∩ B ) 0,17
P( A B) = = = 0,34
P( B) 0,50
P( A B) = P( A)
P( B A) = P( B)
P( A ∩ B) = P( A) ⋅ P( B)
Ω = {1, 2, 3, 4, 5, 6}
78
Para decidir si A y B son independientes debemos analizar si satisfacen las
condiciones anteriores. Vemos que:
P(A) = 3/6 = 0,50 P(B) = 3/6 = 0,50
Como A ∩ B = ; P( A B) = 0, entonces resulta evidente que P( A B) ≠ P( A) .
Tampoco se cumple la igualdad: P( A ∩ B) = P( A) ⋅ P( B) , dado que A ∩ B = 0 y el
producto de las probabilidades del evento A y B = 0,50 . 0,50 = 0,25.
Decimos entonces que los eventos A y B son eventos dependientes.
P ( A ∩ B ) = P( A) ⋅ P ( B )
P ( A ∩ B ) = P( A) ⋅ P ( B )
79
TEOREMA DE BAYES
Si A1,A2, ...,An son n eventos mutuamente excluyentes, de los cuales uno debe
ocurrir, es decir que ∑ (Ai) = 1, entonces
P ( Ai ) ⋅ P ( B Ai )
P ( Ai B ) =
P ( Ai ) ⋅ P ( B Ai ) + P ( A j ) ⋅ P ( B A j )
Si se elige un paciente al azar, el espacio muestral para este caso sería la unión
de los sucesos Ai= {que el paciente consuma café} y Aj= {que el paciente no
consuma café}. Se deduce del enunciado las probabilidades para estas dos
alternativas:
P (Ai ) = 0,45
P (Aj ) = 0,55
Sabíamos que:
P ( B Ai )
= 0,90
P( B A j )
= 0,05
80
P( Ai ) ⋅ P( B Ai )
P( Ai B) =
P( Ai ) ⋅ P( B Ai ) + P( A j ) ⋅ P( B A j )
Luego,
0,45 ⋅ 0,90
P( Ai B) =
0,45 ⋅ 0,90 + 0,55 ⋅ 0,05
P( Ai B) = 0,94
Diremos que una variable aleatoria es discreta si el número de valores que puede
tomar es contable (ya sea finito o infinito), y si estos corresponden a números
enteros positivos.5 Estas variables corresponden a experimentos en lo que se cuenta
el número de veces que ha ocurrido un suceso.6 Por ejemplo: número de latas
vencidas, número de personas con cierta patología, número de lotes dañados,
cantidad de células infectadas, etc.
Diremos que una variable aleatoria es continua si puede tomar cualquier valor en un
intervalo. Por ejemplo, el peso de una persona, el tiempo de duración de un suceso,
etc.6
81
El espacio muestral de este experimento será:
CCC = 3
CCN = 2
CNC = 2
NCC = 2
CNN = 1
NNC = 1
NCN = 1
NNN = 0
82
P 0,4
0,3
0,2
0,1
0
0 1 2 3
83
Siguiendo con el ejemplo anterior (Ejemplo 9), se representa en la siguiente tabla los
posibles valores de la variable aleatoria X= número de unidades contaminadas, la
distribución de probabilidad de la variable en la segunda columna y la función de
distribución acumulada F(x) en la tercera:
x p(x) F(x)
0 0,125 0,125
1 0,375 0,500
2 0,375 0,875
3 0,125 1
Vemos que esta función F(x) acumula probabilidades de una manera semejante
a la columna de las frecuencias acumuladas en una tabla de frecuencias.
Así, siendo que la variable X toma los valores posibles x0 ≤ x1 ≤ x2 ≤ x3, la función de
distribución acumulada viene definida por:
Supongamos ahora que representamos las medidas obtenidas para una variable
continua (longitud, tiempo, peso, etc) en un histograma; es razonable admitir y se ha
84
comprobado que
q tomand do más y más
m observvaciones (d disminuyen ndo indefin
nidamentee
el an
ncho de cada intervalo) el histo
ograma ten nderá a unaa curva suaave que de
escribirá ell
6
comportamien nto de la vaariable estu
udiada.
Figu
ura 2. Histo
ograma y función
f de densidad
La fu
unción f(x)), cuya gráfica es la curva
c límitte mencion
nada, repreesenta la función
f dee
denssidad de prrobabilidadd para una variable aleatoria co
ontinua X, d
de modo que
q el áreaa
5
urva es siempre igual a uno. Así,
total bajo la cu A la probabilidad dee cualquier intervalo
o
6
venddrá dada por el área que
q f(x) en ncierra en ese
e intervaalo.
85
ESPERANZA MATEMÁTICA Y VARIANZA DE UNA VARIABLE ALEATORIA
E(x) = ∑ xi . p(xi)
donde x1, x2, ..., xn son los posibles valores de la variable, y sus probabilidades
están representadas por el término p(xi).
86
DISTRIBUCIONES DE PROBABILIDAD
DISTRIBUCIÓN BINOMIAL:
87
los n ensayos, y el interés está en determinar la probabilidad de obtener exactamente
X = x éxitos durante los n ensayos.5
88
son independientes. Si se sabe que la probabilidad de fumar es igual a 0,25 entonces,
¿cuál será la probabilidad de que 7 de los 10 adultos sean fumadores?
n!
⋅ p x (1 − p )
n− x
P( x) =
(n − x)! x!
10!
⋅ 0,25 7 (1 − 0,25 )
10 − 7
P (7 ) =
(10 − 7 )!7!
3628800
P (7 ) = ⋅ 0,000061 ⋅ 0,422
30240
P(7) = 0,0031
DISTRIBUCIÓN POISSON:
Se dice que una variable aleatoria X tiene una distribución de probabilidad de Poisson
si y solo sí
λx
P ( x) = ⋅ e−λ x = 0, 1, 2, ...; λ > 0
x!
89
siendo P(x) la probabilidad de X = x éxitos, λ la media de la distribución (es decir, el
número promedio de ocurrencia del evento), x el número de éxitos por unidad (de
tiempo, espacio, etc.), y e= 2,71828 el valor de la constante matemática e.
E[X] =λ V[X] = λ
Ejemplo 11. Supóngase que el número de niños que llegan a un centro de vacunación
registra una frecuencia promedio de 3 niños por hora. En una hora determinada,
calcule la probabilidad de que lleguen exactamente dos niños.
El enunciado planteado nos permite establecer que λ = 3 niños por hora, y que x = 2
niños por hora. Sabemos que e es una constante matemática igual a 2,72. Luego,
λx
P( x) = ⋅ e−λ
x!
3 2 −3
P(2) = ⋅ e = 0,2240
2!
90
DISTRIBUCIONES DE PROBABILIDAD PARA VARIABLES CONTINUAS
DISTRIBUCIÓN NORMAL:
91
• El parám
metro med dia (µ) indiica el centro y la varrianza (σ2) la dispersiión o
os datos alrededor de
variabiliidad de lo d μ. La distancia deel centro a los
puntos de inflexióón de la currva es preccisamente σ2.
• Como toda curva de distrib bución de densidad de probab bilidad, el área
total bajo la curva normal ess igual a 1.
• Se ha co
omprobado o que, en toda
t bución norrmal, en el intervalo:
distrib
o μ ± 1 σ se encuentra
e e 68,2% de
el e las obserrvaciones
o μ ± 2 σ se encuentra
e e 95,4% de
el e las obserrvaciones
o μ ± 3 σ se encuentra
e e 99,7% de
el e las obserrvaciones
Por ejemplo,
e supongamo u población se conoce que la variable edad
os que en una e tiene
una distribucióón normal con
c μ=25 años
a y σ 5 años. Podeemos afirm mar entonces que
apro
oximadameente el 68% % de los ind
dividuos dee esa poblaación tieneen entre 20
0 y 30
añoss (μ ± 1 σ, o sea 25 ± 5), el 95% entre 15 y 35 años (μ
μ ± 2 σ, o ssea 25 ± 2*
*5= 25 ±
10), y el 99,7%
% entre 10 y 40 años (μ ± 3 σ, o sea
s 25 ± 3**5= 25 ± 15 5).
92
variable aleatoria normal estándar z. Para ello se debe aplicar un procedimiento
llamado estandarización, el cual implica la aplicación de la siguiente fórmula:
X −µ
Z=
σ
93
Veamos a continuación distintos ejemplos de su aplicación. En general, se pueden
presentar tres situaciones:
94
Ejemplo 12. La variable X= tiempo de cocción de un determinado alimento se
distribuye normalmente con media μ= 8 minutos y varianza σ2= 4 minutos. Esto
se denota X ~ N(8, 4). Dado que σ2= 4 minutos, entonces se deduce que σ= 2.
Se desea conocer:
Veamos los pasos a seguir para la resolución de cada una de las situaciones
planteadas:
8,6 − 8
Z= = 0,3
2
9,5 − 8
Z= = 0,75
2
La P(Z > 0,75) representa un área a la derecha de la curva normal estándar. Dado que,
como se mencionó anteriormente, la Tabla presenta probabilidades acumuladas
desde ‐∞ hasta el valor buscado de la variable Z (o sea arrastra el área bajo la curva
que se encuentra a su izquierda), y sabiendo que el área total bajo la curva es igual a
1, se procede a realizar el siguiente cálculo:
Nótese que 0,77337 es la probabilidad acumulada que aparece en Tabla para z1=0,75.
Así, la probabilidad de que el tiempo de cocción sea mayor a 9,5 minutos es de 0,23.
6−8 10 − 8
Z1 = = −1 Z2 = =1
2 2
96
DISTRIBUCIÓN CHI-CUADRADO:
χ 2 = z12 + z 22 + ... + z n2
esta tabla acumula valores de probabilidad hacia la izquierda del valor buscado.
Ejemplo 13. Dada una variable X con distribución χ y 13 grados de libertad. ¿Cuál es
2
97
Para el ejemplo planteado, decimos entonces que la probabilidad de que X asuma
valores menores o iguales a 22,4 es de 0,95.
DISTRIBUCIÓN T DE STUDENT:
Esta variable T tiene una distribución conocida como distribución T de Student con
n‐1 grados de libertad. La misma se caracteriza por un único parámetro conocido
como grados de libertad (correspondiente al número de observaciones de la muestra
menos 1),4 y por presentar forma simétrica con mayor dispersión que la distribución
normal estándar. Cuando el n es mayor o igual a 100 la distribución T de Student se
aproxima a la normal.6
De todo lo expuesto se deduce que es un modelo particularmente útil cuando
queremos calcular probabilidades respecto de una variable aleatoria continua,
cuando el tamaño muestra es relativamente pequeño (n <100) y se desconoce la
varianza poblacional.
Para el cálculo de probabilidades también en este caso contamos con información ya
tabulada en la denominada “Tabla T” ó “Tabla de Cuantiles de la Distribución T”, la
cual también acumula valores de probabilidad hacia la izquierda del punto
seleccionado. Se ingresa a la misma con los grados de libertad (n‐1). Los valores en el
cuerpo de la tabla son los valores de la variable t. En el margen superior e inferior
figuran las probabilidades correspondientes para valores t positivos (en tal caso, se
observan las probabilidades arriba) o negativos (se buscan las P abajo),
respectivamente.
98
Ejemplo 14. Dada una variable aleatoria con distribución t de Student con 11 grados
de libertad, se desea calcular la P(t ≤ ‐ 0,697).
99
BIBLIOGRAFÍA - MÓDULO 3
8. Ríus Díaz F, Barón Lopez FJ, Sánchez Font E, Parras Guijosa L. Bioestadística:
Métodos y Aplicaciones. Facultad de Medicina, Universidad de Málaga. Disponible en
http://www.bioestadistica.uma.es/libro/
100
ESTADÍSTICA Y
BIOESTADÍSTICA
MÓDULO 4
INTRODUCCIÓN
A LA INFERENCIA
ESTADÍSTICA
101
102
INFERENCIA ESTADÍSTICA Y MUESTREO
Para el estudio de una o más características de una población dada (de tamaño
N) muchas veces es inviable obtener información de todos los elementos que la
componen, por cuestiones económicas o de tiempo. La selección de un
subconjunto representativo de elementos, es decir de una muestra
representativa (de tamaño n), mediante un procedimiento de muestreo
apropiado garantiza resultados similares a los que se obtendrían del estudio
exhaustivo de todos los elementos de la población, pero obtenidos con mayor
rapidez y menor costo.
Población Muestra
N elementos n elementos
TIPOS DE MUESTREO
103
garantiza la representatividad de la población, permitiendo efectuar
inferencias confiables.
2. No Probabilísticos: mediante técnicas no aleatorias se obtienen muestras
no necesariamente representativas de una población. En este caso, no
todos los integrantes de la población tuvieron la misma chance de ser
elegidos.
MUESTREOS PROBABILÍSTICOS
MUESTREO ESTRATIFICADO
104
estratificado a aquel en que los elementos de la población se dividen en clases
o estratos2 (ej. sexos, niveles socioeconómicos, razas, grupos de edades, etc.).
La muestra se toma escogiendo aleatoriamente un número de elementos
dentro de cada estrato de modo de garantizar la presencia adecuada de cada
estrato en la muestra, tal como se presenta en la población.
Existen dos criterios básicos para dividir el tamaño total de la muestra entre los
estratos:2
1. Proporcionalmente al tamaño relativo del estrato en la población. Por
ejemplo, si en la población hay 55% mujeres y 45% varones,
mantendremos esta proporción en la muestra.
2. Proporcionalmente a la variabilidad del estrato: si conocemos la varianza
(variabilidad) de la característica a estudiar en cada estrato, los estratos
más variables deberán estar más representados.
MUESTREO SISTEMÁTICO
105
por un elemento seleccionado al azar. 5 En este ejemplo, si la población es de
tamaño 50 y la muestra de 10, entonces N/n = 5, debiéndose seleccionarse de la
lista de afiliados 10 sujetos de 5 en 5, comenzando por un sujeto cuyo número
se obtuvo al azar (ejemplo, por sorteo o por tabla de números aleatorios).
Es importante destacar que cuando el criterio de ordenación de los elementos
en la lista es tal que los elementos más parecidos tienden a estar más cercanos,
el muestreo sistemático suele ser más preciso que el aleatorio simple, ya que
recorre la población de un modo más uniforme.5
MUESTREOS NO PROBABILÍSTICOS
La teoría del muestreo estudia la relación entre una población y las muestras
tomadas de ellas. Por ejemplo, para la estimación de magnitudes desconocidas
de una población tales como media y varianza, llamadas parámetros de la
población, se utilizan las características numéricas de la muestra, llamadas
estadísticos o estimadores.6
106
Así, un estadístico o estimador es una medida usada para describir una
característica de la muestra, mientras que un parámetro es una medida
empleada para describir una característica a nivel de la población. En otras
palabras, estos conceptos pueden ser definidos como sigue:
107
DISTRIBUCIÓN DE LA MEDIA EN EL MUESTREO. TEOREMA CENTRAL
DEL LÍMITE
S
EE =
n
108
PROCEDIMIENTOS DE ESTIMACIÓN DE PARÁMETROS: PUNTUAL Y POR
INTERVALOS
ESTIMACIÓN PUNTUAL
Consiste en estimar un intervalo [a, b] dentro del cual se espera, con una cierta
probabilidad o grado de confianza especificado, que se encuentre el verdadero
valor del parámetro θ. Esto se puede simbolizar:
P(a ≤ θ ≤ b) = 1 – α
109
El denominado grado de confianza (1‐α) es en general arbitrario, lo establece el
investigador, pero en general se utilizan valores de 0,90 (del 90%), 0,95 (95%) ó
0,99 (99%). Es necesario notar que para un grado de confianza del 90%, α=0,10;
para 95%, α=0,05, y para una confianza del 99%, α= 0,01. Cabe destacar
también que el límite inferior “a” corresponde al cuantil α/2, y el límite superior
“b” al cuantil (1‐α/2) de la distribución de la variable en estudio, con parámetro
desconocido θ, como se verá a continuación.
110
1. Se establece el nivel de confianza con el que se desea trabajar (90%, 95% ó
99%).
2. Se obtienen los cuantiles α/2, y (1‐α/2), según el nivel de confianza
establecido:
σ σ
X + zα / 2 ≤ µ ≤ X + z (1−α / 2 ) Si se conoce la varianza poblacional
n n
S S
X + tα / 2 ≤ µ ≤ X + t (1−α / 2 ) Si se desconoce la varianza poblacional
n n
111
n= 90 X = 9 hs/semana σ2= 16 hs/semana2 σ= 4 hs/semana
4 4
9 − 2,57 ≤ µ ≤ 9 + 2,57
90 90
9 − 1,08 ≤ µ ≤ 9 + 1,08
7,92 ≤ µ ≤ 10,08
112
0,975) para una t con n‐1 grados de libertad (o sea, 8 en este caso) de la tabla
de distribución t, encontrándose que:
S S
X + tα / 2 ≤ µ ≤ X + t (1−α / 2)
n n
4 4
55 − 2,30 ≤ µ ≤ 55 + 2,30
9 9
55 − 3,059 ≤ µ ≤ 55 + 3,059
51,9 ≤ µ ≤ 58,05
El intervalo de confianza [LI; LS] se define entonces como [51,9; 58,05], con α=
0,05.
Decimos entonces que el verdadero valor medio de ingesta de vitamina C se
encuentra entre 51,9 y 58,05 mg/día, con un 95% de confianza.
S 2 (n − 1) S 2 (n − 1)
≤σ 2 ≤
χ (2n −1);(1−α / 2 ) χ (2n −1);(α / 2 )
113
Donde S2= varianza muestral
n= tamaño muestral
σ2= varianza poblacional (parámetro desconocido)
χ (2n−1);(1−α / 2 ) = valor de una variable chi‐cuadrado con n‐1 grados de libertad,
correspondiente al cuantil 1‐α/2.
χ (2n−1);(α / 2 ) = valor de una variable chi‐cuadrado con n‐1 grados de libertad,
correspondiente al cuantil α/2.
α = 0,10, 0,05 ó 0,01 según trabajemos con una confianza del 90, 95 ó 99%,
respectivamente.
49(22 − 1) 49(22 − 1)
≤σ 2 ≤
35,48 10,28
29 ≤ σ 2 ≤ 100
114
Entonces, el intervalo buscado sería [29; 100] con un α=0,05. Esto significa que,
con un 95% de confianza, la varianza poblacional del peso de los caramelos
registrado por la máquina empacadora, se encuentra entre 29 y 100 gramos2.
115
BIBLIOGRAFÍA - MÓDULO 4
1. Andrade DF, Ogliari PJ. Estatística para as ciências agrárias e biológicas, com noçoes
de experimentaçao. Florianópolis: Ed. Da UFSC, 2007.
5. Ríus Díaz F, Barón Lopez FJ, Sánchez Font E, Parras Guijosa L. Bioestadística:
Métodos y Aplicaciones. Facultad de Medicina, Universidad de Málaga. Disponible en
http://www.bioestadistica.uma.es/libro/
116
ESTADÍSTICA Y
BIOESTADÍSTICA
MÓDULO 5
LA ESTADÍSTICA
INFERENCIAL
117
118
PRUEBA DE HIPÓTESIS
Si bien muchas veces una investigación persigue fines descriptivos, otras veces
pretende verificar la veracidad de una afirmación sobre alguna característica
poblacional. Esas afirmaciones, referidas a un parámetro poblacional, son
consideradas hipótesis estadísticas, las cuales necesitan ser verificadas a partir
del contraste o comparación de las predicciones del investigador con los datos
de una muestra. El procedimiento mediante el cual se investiga la verdad o
falsedad de una hipótesis estadística se denomina, en la Inferencia Estadística,
Prueba de Hipótesis (también llamado Contraste o Test de Hipótesis).
En términos generales, toda Prueba de Hipótesis implica, en cualquier
investigación, la existencia de dos supuestos o hipótesis implícitas,
denominadas hipótesis nula e hipótesis alternativa, que de alguna manera
reflejarán esa idea a priori que tiene el investigador y que pretende contrastar
con la “realidad”. De la misma manera aparecen, implícitamente, diferentes
tipos de errores que se pueden cometer durante el procedimiento.1
Todo esto será abordado con mayor detalle a continuación.
119
Es importante destacar que la hipótesis H0 nunca se considera probada, aunque
puede ser rechazada por los datos.3 En otras palabras, el investigador se
propone verificar si debe rechazar o no su hipótesis nula, a la luz de los datos de
la muestra.
Si la hipótesis nula es falsa (se rechaza H0), deberá existir otra hipótesis que sea
verdadera.1 Esta hipótesis recibe el nombre de hipótesis alternativa y se
simboliza como H1. La misma representa el supuesto (hipótesis) que será
admitido cuando H0 sea rechazada. Normalmente se formula como la negación
o caso contrario de H0 (aunque esto no es necesariamente así).
En una prueba de hipótesis, la hipótesis alternativa para el parámetro media
puede plantearse de una de las siguientes formas (a, b ó c):
‐ Para contrastes de hipótesis respecto de una población:
H1: μ1≠μ2
120
bilateral se intentará probar si, en base a los datos que se recaben de una
muestra en cada comunidad, estamos en condiciones de rechazar la H0.
Si supusiéramos que la comunidad A presenta una talla media inferior a la de la
comunidad B, la hipótesis alternativa a formular sería H1: μ1<μ2, siendo en tal
caso la prueba unilateral.
POTENCIA DE UN TEST
NIVEL DE SIGNIFICACIÓN
121
REGLAS DE DECISIÓN ESTADÍSTICA
Para decidir si cierta hipótesis nula (H0) debe ser rechazada o no a la vista de los
datos suministrados por una muestra de la población, es necesario establecer
un criterio que especifique a partir de qué valor del estadístico muestral se
tomará la decisión de rechazar H0. En términos generales, se deberá: a)
establecer un valor crítico (teórico) que determinará una región de rechazo y
una región de no rechazo de la hipótesis nula1; b) definir un estadístico
relacionado con la hipótesis que deseamos contrastar, denominado estadístico
de contraste.5 La región de rechazo de H0 se establece fijando el nivel de
significación con el cual se desea trabajar y en función de la hipótesis alternativa
formulada (uni o bilateral). Así, la hipótesis alternativa determina la localización
de la región de rechazo de H0 (ver Figura 1), y el nivel de significación α
determina el tamaño de dicha región.1
x* = α x* = 1‐α
122
En estadística es común denominar al valor del estadístico del contraste
calculado sobre la muestra como valor observado (lo simbolizaremos como
Xobs) y a los extremos de la región crítica, como valores teóricos o críticos (los
simbolizaremos como Xteo ó x*).5
Como regla de decisión general se establecerá que si el estadístico de contraste
cae en la región de rechazo (o sea si toma un valor observado fuera de los
valores críticos establecidos) se rechaza la hipótesis nula H0.1
Según se trate de pruebas con hipótesis alternativa uni o bilateral, esto se aplica
específicamente de la siguiente manera:
Siendo Xobs= valor observado (valor del estadístico de contraste) y Xteo= valor
teórico o crítico (para un α predeterminado), podemos establecer las siguientes
reglas de decisión:
• En pruebas bilaterales:
Si Xobs ≤ Xteo_1 ó Xobs ≥ Xteo_2 se rechaza H0
Si Xteo_1 < Xobs < Xteo_2 no se rechaza H0
3. Establecimiento del nivel de significación (α) para la prueba, para delimitar las
regiones de rechazo y no rechazo de H0. El valor crítico que defina los límites de
ambas regiones se obtiene de la tabla de distribución correspondiente, para el
123
valor α definido y en función de la hipótesis alternativa (dependiendo de si es
bilateral o unilateral, derecha o izquierda).
H0: μ = μ0
124
• Prueba de hipótesis para la media poblacional con varianza poblacional
conocida
• Prueba de hipótesis para la media poblacional con varianza poblacional
desconocida
5. Comparación del valor del estadístico Z con el o los valores críticos (Zteo)
establecidos. Observación de si el estadístico Z calculado cae en zona de rechazo
125
de H0 o no, y aplicación en consecuencia, de la regla de decisión
correspondiente:
Para H1: μ≠μ0 , si Z ≤ Zteo_1 ó Z ≥ Zteo_2 se rechaza H0.
Para H1: μ>μ0 , si Z ≥ Zteo se rechaza H0.
Para H1: μ<μ0 , si Z ≤ Zteo se rechaza H0.
Casos contrarios, no se rechaza H0.
Resolución:
A partir de este supuesto las hipótesis nulas y alternativas serán:
H0: μ = 20 H1: μ<20
X − µ0
Z=
σ
n
19,9 − 20
Z= = −1,41
0,20
8
126
Dado que Z > Zteo no se rechaza H0, con un nivel de significancia del 5%.
En consecuencia, con una confianza del 95%, concluimos que diciendo que la
máquina envasadora de granos está funcionando adecuadamente, dado que
efectivamente produce bolsas de peso medio de 20 kg.
X − µ0
t=
S
n
127
3. Establecimiento del nivel de significación (α) para la prueba (α=0,10, 0,05 ó
0,01). En función de esto y de la H1 planteada, se buscará el/los valores críticos
que definan los límites de las regiones de rechazo y no rechazo de H0. Para ello
se recurre en este caso a la Tabla de Cuantiles de la Distribución t de Student.
Los puntos críticos o teóricos (tteo) a buscar en tabla, de acuerdo al tipo de
hipótesis alternativa establecida, corresponderán a los cuantiles:
Para una hipótesis bilateral: α/2 y 1‐(α/2)
Para una hipótesis unilateral derecha: 1‐α
Para una hipótesis unilateral izquierda: α
5. Comparación del valor del estadístico t con el o los valores teóricos (tteo)
establecidos. Observación de si el estadístico t calculado cae en zona de rechazo
de H0 o no, y aplicación en consecuencia, de la regla de decisión
correspondiente:
Se desea extraer una conclusión al respecto, con un nivel de confianza del 95%.
Resolución:
En primer lugar, enunciamos las hipótesis estadísticas:
H0: μ = 800 Cal/hora H1: μ ≠ 800 Cal/hora
128
Dado que se desconoce la varianza poblacional, el estadístico a seleccionar
presenta una distribución t de Student con n‐1 grados de libertad.
Comparamos el valor del estadístico t obtenido con el o los valores teóricos (tteo)
establecidos.
χ2 =
(n − 1) ⋅ S 2
σ 02
130
Para una hipótesis bilateral: α/2 y 1‐(α/2)
Para una hipótesis unilateral derecha: 1‐α
Para una hipótesis unilateral izquierda: α
5. Comparación del valor del estadístico χ 2 con el o los valores teóricos ( χ 2 teo)
establecidos. Observación de si el estadístico χ 2 calculado cae en zona de
rechazo de H0 o no, y aplicación en consecuencia, de la regla de decisión
apropiada:
Para H1: σ2≠ σ02, si χ 2 ≤ χ 2 teo_1 ó χ 2 ≥ χ 2 teo_2 se rechaza H0.
Para H1: σ2> σ02 , si χ 2 ≥ χ 2 teo se rechaza H0.
Para H1: σ2< σ02, si χ 2 ≤ χ 2 teo se rechaza H0.
Casos contrarios, no se rechaza H0.
Resolución:
Las hipótesis a contrastar son:
H0: σ2= 6,25 gramos2 H1: σ2 > 6,25 gramos2
χ2 =
(n − 1) ⋅ S 2 = (10 − 1) ⋅ 6,5 = 9,36
σ 02 6,25
131
χ 2 teo = 14,68
132
de observación) antes y después de un tratamiento dietoterápico, y a la
segunda situación correspondería un estudio en pares de gemelos.
MUESTRAS INDEPENDIENTES:
H0: μ1 = μ2 ó H0: μ1 ‐ μ2 = 0
Cabe aclarar que en casos como este (comparación de dos poblaciones), las
hipótesis nula y alternativa pueden plantearse también en función de una
diferencia de medias:
H0) μ1 ‐ μ2 = 0
H1) μ1 ‐ μ2 ≠ 0; μ1 ‐ μ2 > 0; ó μ1 ‐ μ2 < 0
133
X1 − X 2
Z=
σ 12 σ 22
+
n1 n2
5. Comparación del valor del estadístico Z con el o los valores críticos (Zteo)
establecidos. Observación de si el estadístico Z calculado cae en zona de rechazo
de H0 o no, y aplicación en consecuencia, de la regla de decisión
correspondiente:
Para H1: μ≠μ0 , si Z ≤ Zteo_1 ó Z ≥ Zteo_2 se rechaza H0.
Para H1: μ>μ0 , si Z ≥ Zteo se rechaza H0.
Para H1: μ<μ0 , si Z ≤ Zteo se rechaza H0.
Casos contrarios, no se rechaza H0.
134
Se conocía con anterioridad las varianzas poblacionales σ21= 39,4 g2 y σ22= 63,8
g2. Se desea saber si existe diferencia o no entre las medias de aumento de peso
en ambas especies, con un nivel de confianza del 90%.
Resolución:
Las hipótesis H0 y H1 a contrastar son las siguientes:
H0: μ1 = μ2
H1: μ1≠μ2
X1 − X 2
Z=
σ 12 σ 22
+
n1 n2
Para poder aplicar esta fórmula es necesario efectuar el cálculo de las medias
muestrales en función de los datos provistos:
X 1 = 46,34 g
X 2 = 52,64 g
Zteo_1 = ‐1,645
Zteo_2 = 1,645
135
Se realiza a continuación el cálculo del estadístico Z mencionado:
X1 − X 2 46,34 − 52,64
Z= = = −1,96
σ 2
σ 2
39,4 63,8
+
1
+ 2
n1 n2 10 10
Luego, comparamos el valor del estadístico Z con los valores críticos (Zteo)
establecidos.
136
Prueba de Diferencia entre Varianzas:
5. Comparación del valor del estadístico F con los valores teóricos (F teo)
establecidos. Observación de si el estadístico F calculado cae en zona de rechazo
de H0 o no, y aplicación en consecuencia, de la regla de decisión
correspondiente:
Si F ≤ F teo_1 ó F ≥ F teo_2 se rechaza H0, asumiendo en consecuencia que las
varianzas son diferentes. En el caso contrario, no se rechaza H0, y se concluye
entonces que las varianzas poblacionales son iguales.
137
utilizado. En este caso el estadístico, bajo hipótesis nula, sigue una distribución t
de Student con n1+n2 – 2 grados de libertad, donde n1 es el número de
observaciones de la muestra de la población 1, n2 el número de observaciones
de la muestra de la población 2, y S21 y S22 son sus respectivas varianzas
muestrales:
t=
(X 1 − X2)
(n1 − 1)S12 + (n2 − 1)S 22 1 1
+
n1 + n 2 − 2 n1 n 2
¿Se puede afirmar, con un 95% de confianza, que el contenido medio de calcio
de ambos yogures es diferente?
Resolución:
En primer lugar será necesario verificar si las varianzas poblacionales,
desconocidas, son semejantes o no, mediante la prueba de Diferencia entre
Varianzas:
Dado
H0: σ2A = σ2B
H1: σ2A ≠ σ2B
138
Con un α=0,05, los valores críticos (F teo) correspondientes a los cuantiles α/2 (o
sea 0,05/2= 0,025) y 1‐(α/2) (o sea 1‐0,025= 0,975) en la Tabla de Cuantiles de la
Distribución F son:
F teo_1= 0,2256
F teo_2= 4,4333
H0: μA = μB
H1: μA≠μB
El estadístico de contraste, dado que las varianzas son iguales (en virtud del
resultado del test F antes realizado) es el siguiente:
t=
(X A − XB)
(n A − 1)S A2 + (n B − 1)S B2 1 1
+
n A + nB − 2 n A nB
t=
(139 − 128) = 7,47
(9 − 1)11,6 + (9 − 1)7,9 1 + 1
9+9−2 9 9
139
Gráficamente tenemos:
t=
(X 1 − X2)
S 12 S 22
+
n1 n2
el cual tiene una distribución t de Student con v grados de libertad, los cuales se
calculan de acuerdo a la siguiente ecuación:
2
S12 S 22
n + n
1 2
v= −2
(S 1
2
/ n1 ) (n
2
1 (
− 1) + S 22 / n 2 ) (n
2
2 − 1)
140
Estos son los grados de libertad con los cuales se deberá ingresar a la Tabla de
Cuantiles de la Distribución t de Student para la búsqueda de los puntos o
valores teóricos, siguiendo la misma metodología hasta aquí presentada.
Resolución:
Se realiza primeramente, la prueba de Diferencia entre Varianzas:
Siendo
H0: σ2A = σ2B
H1: σ2A ≠ σ2B
S12 1
F= 2
= = 0,04
S 2 25
Con un α=0,05, los valores críticos (F teo) correspondientes a los cuantiles α/2 y
1‐(α/2) en la Tabla de Cuantiles de la Distribución F son:
F teo_1= 0,248
F teo_2= 4,026
141
Las hipótesis respecto a la media a contrastar serían:
t=
(X 1 − X2)
=
(24 − 20 ) = 2,48
S 12 S 22 1 25
+ +
n1 n2 10 10
el cual tiene una distribución t de Student con v grados de libertad, los cuales se
calcularán de acuerdo a la siguiente ecuación:
2
S12 S 22
n + n
1 2
v= −2
(S 1
2
/ n1 ) (n
2
1 (
− 1) + S 22 / n 2 ) (n
2
2 − 1)
2
1 25
+
10 10
v= − 2 = 7,73
(1 / 10)2 (10 − 1) + (25 / 10)2 (10 − 1)
Gráficamente tenemos:
142
Comparando el valor del estadístico t calculado y los valores teóricos, vemos
que se ubica en la región de rechazo de H0 (dado que t > Tteo_2).
Así, se concluye que las medias de las determinaciones bioquímicas en ambos
laboratorios no son iguales, con un nivel de confianza del 95%.
MUESTRAS DEPENDIENTES
143
Paciente Hg antes (A) Hg después (B) Diferencia
(D = A – B)
1 13,6 11,4 2,2
2 13,6 12,5 1,1
3 14,7 14,6 0,1
4 12,1 13,0 ‐0,9
5 12,3 11,7 0,6
6 13,2 10,3 2,9
7 11,0 9,8 1,2
8 12,4 10,4 2,0
Resolución:
1. Establecimiento de las hipótesis H0 y H1:
Dado que suponemos que el contenido de Hg disminuiría tras la realización de
una dieta vegetariana, las hipótesis serían:
D
t=
SD
n
144
el cual sigue una distribución t de Student con n‐1 grados de libertad, siendo D
la media muestral de las diferencias entre los valores A y B, y SD el desvío
estándar de esas diferencias, para n pares de valores.
tteo = 1,895
5. Comparación del valor del estadístico t con el valor teórico (t teo), para
observar si cae o no dentro de la zona de rechazo de H0.
A partir de esto, concluimos que μA > μB, indicando que los niveles de Hg
disminuirán tras la administración de la dieta hipocalórica vegetariana, con un
95% de confianza.
145
GENERALIZACIÓN A MÁS DE DOS POBLACIONES: INTRODUCCIÓN AL
ANÁLISIS DE LA VARIANZA
146
Se pretende aquí simplemente presentar los fundamentos y aplicaciones de
esta metodología estadística a modo introductorio, pero el desarrollo de este
análisis puede ser profundizado con la bibliografía complementaria que será
sugerida por el docente.
147
BIBLIOGRAFÍA - MÓDULO 5
2. Barón López FJ, Téllez Montiel F. Apuntes de Bioestadística: Tercer ciclo en Ciencias
de la Salud y Medicina. Universidad de Málaga: 2004. Disponible en
http://www.bioestadistica.uma.es/baron/
5. Ríus Díaz F, Barón Lopez FJ, Sánchez Font E, Parras Guijosa L. Bioestadística:
Métodos y Aplicaciones. Facultad de Medicina, Universidad de Málaga. Disponible en
http://www.bioestadistica.uma.es/libro/
6. Andrade DF, Ogliari PJ. Estatística para as ciências agrárias e biológicas, com noçoes
de experimentaçao. Florianópolis: Ed. Da UFSC, 2007.
148
ESTADÍSTICA Y
BIOESTADÍSTICA
MÓDULO 6
ANÁLISIS DE
RELACIONES
149
150
ANÁLISIS DE VARIABLES CATEGÓRICAS
TABLAS DE CONTINGENCIA
151
Tabla 2. Ejemplo de tabla de contingencia tipo Tabla de 2x2.
Obesidad Infantil
Diabetes gestacional Si No Total
Si 25 12 37
No 13 34 47
Total 38 46 84
PRUEBA CHI-CUADRADO
χ =∑
2
fe
donde
fo = frecuencia observada de elementos en cada celda de la tabla de
contingencia
fe = frecuencia esperada de elementos en cada celda de la tabla de
contingencia, la cual se calcula multiplicando las frecuencias marginales (el total
de la fila por el total de la columna) sobre el n (total general).
152
Figura 1. Región de rechazo y no rechazo de H0 para una prueba Chi‐cuadrado.
Peso al Nacer
Tipo de Parto Normal Bajo Peso Total
Natural 42 58 100
Cesárea 65 35 100
Total 107 93 200
Estableciendo un nivel de significación de 0,05 ¿se puede suponer que existe tal
asociación? O lo que es lo mismo, ¿es posible afirmar que el peso al nacer y el
tipo de parto son variables independientes?
Resolución:
153
2. Selección y cálculo del estadístico de contraste χ2:
( fo − fe )
2
χ =∑
2
fe
Puede ser útil construir la siguiente tabla de cálculo para presentar las
frecuencias observadas (fo) y esperadas (fe):
Peso al Nacer
Tipo de Parto Normal Bajo Peso Total
fo (fe) fo (fe)
Natural 42 (53,5) 58 (46,5) 100
Cesárea 65 (53,5) 35 (46,5) 100
Total 107 93 200
χ =∑
2 ( f o − f e )2
fe
χ2 =
(42 − 53,5)2 + (58 − 46,5)2 + (65 − 53,5)2 + (35 − 46,5)2 = 10,63
53,5 46,5 53,5 46,5
154
4. Finalmente verificamos si el valor del estadístico pertenece o no a la región
de rechazo de H0. Dado que el valor del estadístico de contraste 10,63 es mayor
que el valor teórico obtenido 3,84, rechazamos H0.
Concluimos que existe asociación entre el peso al nacer y el tipo de parto, con
un 95% de confianza.
ANÁLISIS DE REGRESIÓN
155
ANÁLISIS DE REGRESIÓN LINEAL SIMPLE
Yˆi = a + bxi
donde
Ŷi = valor de la variable Y
Este modelo de regresión puede estudiarse como una extensión del modelo
lineal simple en el que considerábamos una sola variable independiente.5 La
técnica de regresión múltiple se aplica al caso en que la variable respuesta
(dependiente) es de tipo numérica y depende de dos o mas variables
independientes (predictoras o explicativas). Aquí se considera que la variable de
respuesta depende de varias variables, algunas conocidas por el investigador y
otras no. El modelo de regresión múltiple trata de estimar el efecto de las más
importantes, englobando las demás en el término que denominaremos error
aleatorio.5
Como ejemplo podría suponerse que la variable de respuesta frecuencia
cardíaca depende de las variables predictoras intensidad del esfuerzo físico y
edad.
156
ANÁLISIS DE CORRELACIÓN LINEAL
∑ (x i − X )( y i − Y )
r= n −1
∑ (x − X) ∑ (y −Y )
2 2
i i
⋅
n −1 n −1
DIAGRAMAS DE DISPERSIÓN
157
Figura 1. Diagramas de Dispersión para la relación entre dos variables X e Y:
A) Relación lineal positiva; B) Relación lineal negativa; C) Ausencia de relación;
D) Relación No Lineal.
158
BIBLIOGRAFÍA – MÓDULO 6
1. Ríus Díaz F, Barón Lopez FJ, Sánchez Font E, Parras Guijosa L. Bioestadística:
Métodos y Aplicaciones. Facultad de Medicina, Universidad de Málaga. Disponible en
http://www.bioestadistica.uma.es/libro/
3. Barón López FJ, Téllez Montiel F. Apuntes de Bioestadística: Tercer ciclo en Ciencias
de la Salud y Medicina. Universidad de Málaga: 2004. Disponible en
http://www.bioestadistica.uma.es/baron/
4. Andrade DF, Ogliari PJ. Estatística para as ciências agrárias e biológicas, com noçoes
de experimentaçao. Florianópolis: Ed. Da UFSC, 2007.
159
160
ESTADÍSTICA Y
BIOESTADÍSTICA
MÓDULO 7
ESTADÍSTICAS
SANITARIAS Y
NUTRICIONALES
161
162
DEMOGRAFÍA. CONCEPTOS BÁSICOS
163
LA ESTRUCTURA DE LA POBLACIÓN: PIRÁMIDES POBLACIONALES
%
Figura 1. Estructura de la población Argentina en el año 2001.
164
A
B.
En toda pirámide es posible además distinguir dos partes básicas a considerar para
su análisis e interpretación. Estas son:
- La cúspide: parte superior de la pirámide de población, conformada por las
barras correspondientes a los grupos de edad más avanzada. En general
contiene las barras de menor longitud.
165
- La base: parte inferior de la pirámide de población, conformada por las barras
correspondientes a los grupos de edad más joven. En general contiene las
barras de mayor longitud.
Así, una completa lectura de una pirámide poblacional nos brinda información
acerca de:
‐ La distribución comparativa entre los sexos y/o diferentes grupos de edad en una
pirámide. Así, una pirámide con base ancha y una disminución rápida del tamaño de
los grupos de edades a medida que nos aproximamos a la cúspide representa una
población joven. Si se observara por ejemplo, para las edades comprendidas entre 20 a
35 años, mayor longitud de la barra izquierda, se podría afirmar un mayor predominio
de varones en ese grupo de edad.
Algunos ejemplos:
166
Fig
gura 3. Estru
uctura pobla
acional de Estados
E Uniidos, año 20
000.
167
Figura 5: Esstructura po
oblacional de
d Hondurass, año 1998
8.
Ejeemplo de pirrámide de tipo
t expansiiva.
2. Regresiva:
R d base más estrechaa que las barras
de b centtrales y cúspide
relativam
mente anchha (Figura 6). Indica un descen nso de la n natalidad en los
últimos años
a y un previsible
p en
nvejecimien
nto poblacio
onal. Es pro
opia de los países
p
desarrollados.
F
Figura 6. Esstructura po
oblacional de
d Alemania
a, año 2000
0.
Ejeemplo de piirámide de tipo
t regresiiva.
168
3. Estacionariaa: base y centroc de similar tam
maño, y cú úspide reducida
(Figura 7).
7 Refleja una
u reducciión o estan
ncamiento de
d la natalid
dad. Es típica de
los paísees en vías dee desarrollo
o.
Fig
gura 7. Pirám
mide de pobblación mun
ndial estimaada para 20 050.
Ejemplo dee pirámide de
d poblacióón de tipo esstacionaria..
Veeamos a co
ontinuación unos ejemmplos de cóómo integraar los conceeptos hastaa aquí
preseentados para una completa interp
pretación de
e pirámidess poblacionaales.
169
La estructura de la población española en el año 1996, representada en la Figura 8,
muestra una distribución similar en ambos sexos y en los distintos grupos de edades, lo
cual es claramente observable a partir de la forma simétrica de su pirámide. La misma,
es una pirámide de tipo regresiva dado que presenta una base notablemente más
estrecha que las barras correspondientes a las edades centrales, con una disminución
poco acentuada hacia la cúspide. Si observamos comparativamente los escalones de
edades más tempranas y más tardías (base y cúspide de la pirámide), representativos
de los fenómenos de natalidad y mortalidad respectivamente, vemos que la natalidad
fue similar en ambos sexos (barras en los escalones inferiores de igual longitud),
mientras que, la mortalidad en adultos mayores fue superior en la población masculina
(barras en la cúspide de menor longitud en varones que en mujeres). O lo que es lo
mismo: las mujeres presentaron una mayor esperanza de vida.
170
LA DINÁMICA POBLACIONAL: CONCEPTO DE TASA
171
‐ Tasas de Mortalidad específicas según edad (TME): Se refieren a la fuerza de la
mortalidad en las distintas categorías o estratos de edad en los que dividimos la
mortalidad general. Expresa el riesgo de morir en cada uno de los grupos de edad
elegidos para el cálculo. La especificación de la edad y el sexo elimina las diferencias
que podrían deberse a las variaciones en la población con respecto a estas
características, permitiendo comparaciones entre zonas geográficas o períodos.
x
TME = i .1000
Ni
donde
i indica al i‐ésimo grupo de edad
xi= Número de defunciones acaecidas en el i‐ésimo grupo de edad de la población de
un área geográfica dada durante un año dado.
Ni= Población en el i‐ésimo grupo de edad del área geográfica dada durante el mismo
año.
‐ Tasa de Mortalidad Infantil: Esta tasa relaciona las defunciones anuales de niños
menores de 1 año con el número de nacidos vivos registrados en el mismo lugar y
período de tiempo. Se expresan por 1000 nacidos vivos, y su numerador varía de
acuerdo al grupo específico de edades al que hace referencia: la tasa de mortalidad
infantil comprende la mortalidad de menores de un año, la mortalidad neonatal se
refiere a la ocurrida en el transcurso de los primeros 27 días de vida y la postneonatal
a la comprendida desde el fin del período neonatal hasta la edad de un año.
En el estudio de la mortalidad infantil se debe tener en cuenta un conjunto de
172
factores que influyen y determinan el nivel de la misma: biológicos, demográficos,
socio‐económicos, culturales, ambientales, de atención de la salud y geográficos. La
influencia de estos factores difiere según la edad de los menores de un año.
173
ti= Número de defunciones de menores de un año de edad acaecidas en la población
de un área geográfica dada durante un año dado.
N´= Número de nacidos vivos registrados en la población del área geográfica dada
durante el mismo año.
‐ Tasa de Natalidad (TN): Es la relación entre los nacidos vivos de una población y el
total de habitantes de esa población, estimada a mitad del año de estudio.
Se expresa por 1000 habitantes.
N´
TN = .1000
N
donde
N´= Número de nacidos vivos registrados en la población del área geográfica dada
durante un año dado.
N= Población total de la zona geográfica dada en mitad del mismo año.
174
aproximadamente 1.9 defunciones por cada 1000 habitantes.
El número medio anual de nacimientos ocurridos durante el 2008 fue de 20.6 por
cada 1000 habitantes. En ese período, la cantidad de mujeres fallecidas por causas
vinculadas al embarazo, parto y puerperio fue 4.0 por cada 10 000 nacidos vivos.
El número de defunciones de menores de un año acaecidas en Argentina durante el
2008 fue, aproximadamente, 12.5 por cada 1000 nacidos vivos registrados en el
transcurso del mismo año. En dicha población, la cantidad de niños fallecidos en los
primeros 27 días de vida, es decir, por causas de muerte vinculadas con condiciones
congénitas o con la atención de la salud de la madre o el recién nacido (atención del
embarazo, parto y puerperio), fue de 8.3 por cada 1000 nacimientos. En tanto, en el
grupo post‐neonatal (niños entre los 28 y los 365 días de vida) se registraron 4.2
defunciones por cada 1000 nacidos vivos, lo cual suele asociarse a problemas socio‐
ambientales.
175
BIBLIOGRAFÍA – MÓDULO 7
176
UNIVERSIDAD CATÓLICA DE CÓRDOBA
FACULTAD DE MEDICINA
LICENCIATURA EN NUTRICIÓN
ESTADÍSTICA Y BIOESTADÍSTICA
177
178
ESTADÍSTICA Y BIOESTADÍSTICA
TRABAJO PRÁCTICO N° 1
179
determinado se evaluó las características de conservación del producto en los
diferentes lotes. Tras la aplicación de adecuados métodos de la estadística
inferencial se tomó la decisión acerca del conservante que es más conveniente
utilizar.
180
g) Un gastroenterólogo desea estudiar la relación entre enfermedad celíaca
en adultos y antecedentes familiares de la enfermedad en una población
que registró alta incidencia durante el año 2010.
181
182
ESTADÍSTICA Y BIOESTADÍSTICA
TRABAJO PRÁCTICO N° 2
183
3) En un estudio sobre calidad alimentaria se seleccionó una muestra de 60
lotes de producción y se determinó el número de productos de cada lote que
difieren de las normas de calidad establecidas, dando como resultado lo
siguiente:
184
4) En un estudio sobre imagen corporal se obtuvieron los siguientes datos
respecto de las edades (en años) de mujeres encuestadas que refirieron estar
disconformes con su peso:
28, 22, 35, 42, 44, 53, 58, 41, 40, 32, 31, 38, 37, 61, 25, 35
185
6) A continuación se muestran las frecuencias absolutas (ni) para la variable
tiempo de aparición de un síntoma agudo en sujetos con una determinada
patología:
Tiempo (min)
ni
0‐3 2
4‐7 14
8‐11 11
12‐15 8
16‐19 4
20‐23 0
24‐27 1
TOTAL 40
186
ESTADÍSTICA Y BIOESTADÍSTICA
TRABAJO PRÁCTICO N° 3
Calcular:
a) La probabilidad de encontrar bacilos tipo B o C.
b) La probabilidad de encontrar bacilos tipo A o B.
187
c) La probabilidad de encontrar bacilos tipo A y C.
d) La probabilidad de encontrar bacilos tipo C dado que se encontraron bacilos
tipo B.
e) la probabilidad de no encontrar bacilos tipo A.
188
ESTADÍSTICA Y BIOESTADÍSTICA
TRABAJO PRÁCTICO N° 4
Construya los intervalos de confianza de 95% y 99% para el peso medio de los
paquetes de maní. Interprete los resultados.
4) El peso medio, para una muestra de 20 niños de determinada edad, tuvo una
distribución normal con media 26 kg y desviación estándar 2 kg. Se desea
estimar el peso medio en esta población infantil con un 95% de confianza.
189
190
ESTADÍSTICA Y BIOESTADÍSTICA
TRABAJO PRÁCTICO N° 5
1) Todos los sujetos que asisten a cierta institución educativa deben someterse
a un examen médico de control anualmente, lo cual incluye exámenes
bioquímicos. Se toma una muestra de 5 individuos, registrándose los siguientes
valores de colesterol (en mg/dl):
187, 212, 195, 208, 192.
Contrastar que estos cinco datos provienen de una población con media μ=190.
Trabajar con un 95% de confianza.
191
4) Se desea comparar la cantidad de proteínas plasmáticas en pacientes con
cierta enfermedad, antes y después de una intervención médica. Se utilizó una
muestra de 17 pacientes, a partir de la cual se obtuvieron los siguientes
resultados:
192
ESTADÍSTICA Y BIOESTADÍSTICA
TRABAJO PRÁCTICO N° 6
1) A una muestra de 800 personas de ambos sexos se les dio a probar 2 bebidas
y se les pidió que indicaran su preferencia, con los resultados de la siguiente
tabla. ¿Hay asociación con el sexo?
Aparición de diarreas
Lactancia Si No Total
Materna
Exclusiva 10 30 40
Artificial 34 12 46
Mixta 23 11 34
Total 67 53 120
193
194
ESTADÍSTICA Y BIOESTADÍSTICA
TRABAJO PRÁCTICO N° 7
Calcule e interprete:
a) Tasa mortalidad infantil.
b) Tasa mortalidad materna.
c) Tasa bruta de mortalidad.
195