Anda di halaman 1dari 197

UNIVE

ERSIDAD
D CATÓLIICA DE CÓRDOBA
C A
FACULT
TAD DE M
MEDICINNA
CARRER
RA DE NUTRICIÓ
N ÓN

EST
TADÍS
STICA
A Y BIIOEST
TADÍSSTICA

Dra
a. Sonia A
A. Pou
Lic. Grraciela F
F. Scruzzzi

Año
o 2013
UNIVERSIDAD CATÓLICA DE CÓRDOBA
FACULTAD DE MEDICINA
NUTRICIÓN

ESTADÍSTICA Y BIOESTADÍSTICA
AÑO 2013

PLANTEL DOCENTE

Profesora Titular: Sonia Alejandra Pou.


Doctora en Ciencias de la Salud, Licenciada en Nutrición.

Docente Adscripta: Graciela Fabiana Scruzzi


Licenciada en Nutrición.

OBJETIVOS GENERALES

‐ Fortalecer en el alumno su capacidad de discernimiento entre


diferentes metodologías estadísticas para la resolución de situaciones concretas
que impliquen toma de decisiones en la vida profesional.

‐ Brindar al alumno las herramientas necesarias para aplicar


procedimientos estadísticos al tratamiento de datos empíricos de tipo bio‐socio‐
cultural, aportando a la producción de conocimiento científico en el campo de
las Ciencias de la Salud y la Nutrición.

‐ Promover una actitud crítica en la valoración de la bibliografía científica.

1
OBJETIVOS ESPECÍFICOS

‐ Proporcionar una introducción a los fundamentos teóricos y las


aplicaciones prácticas de la Estadística, con especial enfoque en la
Bioestadística.

‐ Brindar las herramientas estadísticas metodológicas básicas para


fortalecer la capacidad de actuación en el campo específico profesional en el
cual se pueda desempeñar el alumno.

‐ Contribuir a la adquisición de los conocimientos básicos para la


actividad científica y la resolución de situaciones prácticas en materia sanitaria y
nutricional, facilitando el proceso de toma de decisiones.

‐ Contribuir a desarrollar la capacidad de interpretación de los resultados


de pruebas de hipótesis, tendiente a la correcta interpretación de resultados
científicos.

SÍNTESIS CONCEPTUAL DE LA ASIGNATURA

La presente materia aborda los conocimientos básicos que los


nutricionistas deben adquirir para: acceder, con idoneidad y actitud crítica, al
conocimiento científico; evaluar la información cuantitativa que como
ciudadanos y profesionales reciben en un mundo donde la estadística juega un
papel creciente; y conocer aspectos metodológicos fundamentales que le
permitan resolver situaciones concretas en su desempeño profesional.

Los contenidos temáticos de la asignatura se estructuran en dos grandes


ejes: la estadística descriptiva y la inferencial. De manera simultánea, cada
núcleo teórico es articulado con sus aplicaciones prácticas, de modo de reforzar
su asimilación. Con este propósito, el estudio teórico y la ejercitación se

2
completan con el análisis de problemas reales o potenciales en el campo de la
Salud y la Nutrición, para que el estudiante compruebe por sí mismo lo que le
aporta la teoría estudiada, actuando el docente como facilitador y guía en el
proceso de aprendizaje.

CONTENIDOS PROGRAMÁTICOS

MÓDULO 1: INTRODUCCIÓN A LA ESTADÍSTICA

El rol de la estadística, su concepto y objetivos. Bioestadística. Conceptos


claves: población, muestra, variable, unidad de observación. Aplicaciones de la
estadística. Ramas de la estadística: estadística descriptiva e inferencial. Ciencia
y conocimiento científico. Estadística y método científico. Tipos y niveles de
investigación. Tipos de estudios en ciencias biomédicas. Etapas de la
investigación científica y proceso estadístico. Planificación del diseño
metodológico. Aplicaciones en el área de las ciencias de la salud y la nutrición.

MÓDULO 2: LA ESTADÍSTICA DESCRIPTIVA

Introducción al análisis estadístico: metodologías descriptivas. Fuente de


información e instrumentos de recolección de datos. Información uni y
multivariada. Conceptos de confiabilidad y validez. Tipos de variables y escalas
de medición. Abordajes cualitativos vs cuantitativos: generalidades. Descripción
de datos basada en métodos gráficos: tablas y gráficos. Descripción de datos
basada en medidas numéricas: medidas resumen de tendencia central y de
dispersión. Noción de variabilidad y sesgo.

3
MÓDULO 3: PROBABILIDAD

Introducción a la Probabilidad. Definiciones de Probabilidad: Clásica,


Frecuencial y Axiomática. Conceptos básicos: espacio muestral y evento
aleatorio. Probabilidad del suceso suma, complemento y producto. Eventos
independientes y probabilidad condicional. Teorema de Bayes. Concepto de
Variable Aleatoria. Funciones de probabilidad de una variable aleatoria.
Esperanza matemática y varianza de una variable aleatoria. Variables aleatorias
discretas y continuas: distribuciones de probabilidad. Distribuciones discretas:
Binomial y Poisson. Distribuciones continuas: Normal, t de Student, Chi‐
cuadrado, F de Fisher o de Snedecor. Aplicaciones en el área de la Salud Pública
y la Nutrición.

MÓDULO 4: INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA

Principios del muestreo. Tipos de muestreo. Métodos de muestreo


probabilístico. Tamaño muestral. Estimación de Parámetros. Estimadores:
concepto y propiedades. Distribución de muestreo de la media. Teorema
Central del Límite. Procedimientos de estimación de parámetros de una variable
aleatoria normal: puntual y por intervalos. Estimación del parámetro media
poblacional. Estimación del parámetro varianza poblacional. Consideraciones
importantes en la interpretación de intervalos de confianza.

MÓDULO 5: LA ESTADÍSTICA INFERENCIAL

Concepto y formulación de hipótesis estadísticas: hipótesis nula y


alternativa. Pruebas de hipótesis, significación y decisión estadística. Error tipo I
y tipo II. Potencia de un test. Prueba de hipótesis en una población referida al
parámetro media y varianza poblacional. Prueba de hipótesis en dos

4
poblaciones para la diferencia de medias en muestras independientes y
dependientes. Generalización a más de dos poblaciones. Introducción al análisis
de la varianza. Aplicaciones en el área de la Nutrición.

MÓDULO 6: ANÁLISIS DE RELACIONES

Análisis para variables categóricas. Construcción de tablas de


contingencia. Prueba Chi‐cuadrado. Test exacto de Fisher. Análisis de Regresión.
Regresión Lineal Simple. Estimación y pruebas de significación de los
parámetros. Generalidades del Análisis de Regresión Lineal Múltiple.
Correlación Lineal Simple.

MÓDULO 7: ESTADÍSTICAS SANITARIAS Y NUTRICIONALES

Concepto de Demografía. Demografía cuantitativa: estructura y dinámica


poblacional. Censos y hechos demográficos. Pirámides poblaciones. Concepto
de Tasa. Clasificación, cálculo e interpretación de tasas. Estadísticas vitales y
nutricionales. Aplicaciones a problemas en el campo de la Nutrición e
interpretación de estadísticas oficiales.

5
METODOLOGÍA

ESTADÍSTICA Y BIOESTADÍSTICA es una asignatura correspondiente al


segundo año de la carrera Licenciatura en Nutrición, de cursado anual,
presencial, representando al alumno una carga horaria de 2 hs semanales. Su
modalidad es teórico‐práctica, dado que se pretende alcanzar una articulación
de sus fundamentos teóricos con su aplicación práctica en la resolución de
problemas concretos relacionados con el campo de la salud y la nutrición.

Como material didáctico de apoyo, el docente empleará para presentar


los contenidos programáticos diapositivas Power Point, empleando este recurso
como disparador y estimulando la permanente participación de los alumnos.

Para acompañar el proceso de aprendizaje se facilitará al alumno un


Apunte de Cátedra y Guía de Trabajos Prácticos.

De manera complementaria se invitará al alumno a matricularse en el


curso virtual correspondiente a esta asignatura. Así, el aula virtual será una
instancia más de interacción docente‐alumno, en la cual el alumno encontrará
un espacio para evacuar dudas y realizar consultas, responder a consignas de
trabajo, participar de foros temáticos, intercambiar información útil con los
demás participantes del curso (alumnos y docentes) y consultar material de
estudio adicional propuesto por el docente.

6
TRABAJOS PRÁCTICOS

A lo largo del ciclo lectivo se trabajará en base a una Guía de Trabajos


Prácticos, de resolución extra‐áulica individual y revisión grupal intra‐áulica, con
el acompañamiento y guía del docente. Esta Guía de Trabajos Prácticos
comprende una serie de ejercicios para cada uno de los módulos de contenidos
teóricos de la materia.

Se prevé además: a) hacer uso del aula virtual de esta asignatura para
conducir trabajos prácticos adicionales, y b) organizar una actividad práctica en
sala de cómputos, para presentar a los alumnos un software de análisis
estadístico.

A modo de integrar los contenidos teóricos abordados, y promover su


aplicación en la resolución de un caso práctico concreto en el campo de la Salud
y Nutrición, se realizarán dos trabajos prácticos evaluables (uno al finalizar cada
semestre), bajo la modalidad de trabajo grupal. Específicamente en el año en
curso, estos trabajos prácticos estarán enmarcados en el Proyecto de
Proyección Social con Vinculación Curricular de la UCC titulado “Promoción de
estilos de vida saludables en la escuela”, bajo la coordinación del cuerpo
docente de esta materia.

CRITERIOS Y FORMAS DE EVALUACIÓN

Como instancias de evaluación del proceso de aprendizaje de los


estudiantes a lo largo del ciclo lectivo se prevé realizar:

• Exámenes parciales (2), con opción a un recuperatorio al finalizar la


materia;

7
• Trabajos prácticos integradores (2), en el marco del Proyecto de
Proyección Social con Vinculación Curricular antes mencionado;
• Actividades evaluables en aula virtual;
• Coloquio integrador, solo para los alumnos en condiciones de acceder a
la promoción.

CONDICIONES PARA OBTENER LA REGULARIDAD

• Asistencia mínima del 80%


• Participación en Proyecto RSU, con Trabajos Prácticos integradores
aprobados
• Aprobar con un mínimo de 4 puntos cada parcial (con opción a 1
recuperatorio)
• Aprobar el 80% de las actividades evaluables en aula virtual.

CONDICIONES PARA OBTENER LA PROMOCIÓN

• Asistencia mínima del 80%


• Participación en Proyecto RSU, con TP evaluables aprobados
• Aprobar con un mínimo de 7 puntos cada parcial (no promediables)
• Aprobar el 100% de las actividades evaluables en aula virtual.
• Aprobar un Coloquio integrador

8
CALENDARIO DE ACTIVIDADES

Inicio de clases (1er semestre): 04/03/2013


Finalización de las clases (1er semestre): 15/06/2013
Entrega de 1er Práctico Evaluable (grupal): 04/06/2013
1er Parcial: 11/06/2013
Inicio de clases (2do semestre): 29/07/2013
Finalización de las clases (2do semestre): 09/11/2013
2do Parcial: 29/10/2013
Entrega del 2do Práctico Evaluable (grupal): 08/10/2013
Recuperatorio y coloquio para acceder a la Promoción: 05/11/2013

BIBLIOGRAFIA SUGERIDA

ƒ Bordón LG. Estadística aplicada a Ciencias de la Salud. Una herramienta


para la Investigación. 5ta ed. Córdoba: LG Bordón Ed. 1999.
ƒ Canavos GC. Probabilidad y Estadística. Aplicaciones y métodos. México,
D.F.: McGraw‐Hill; 1988.
ƒ Devore JL. Probabilidad y Estadística para ingeniería y ciencias. 6ta ed.
México, D.F: International Thompson Ed.; 2005.
ƒ Di Rienzo JA, Casanoves F, Gonzalez LA et al. Estadística para las Ciencias
Agropecuarias. 6ta ed. Córdoba: Ed. Brujas.2005.
ƒ Peña D. Fundamentos de Estadística. Madrid: Alianza Editorial; 2001.
ƒ Ríus Díaz F, Barón Lopez FJ, Sánchez Font E, Parras Guijosa L.
Bioestadística: Métodos y Aplicaciones. Facultad de Medicina,
Universidad de Málaga. Disponible en
http://www.bioestadistica.uma.es/libro/
ƒ Wackerly DD, Mendenhall W, Scheaffer R. Estadística matemática con
aplicaciones. 6ta ed. México, D.F.: International Thompson Ed.; 2002.

9
10
ESTADÍSTICA Y
BIOESTADÍSTICA

MÓDULO 1

INTRODUCCIÓN
A LA
ESTADÍSTICA

11
12
INTRODUCCIÓN

En los últimos años la evolución de la estadística como disciplina ha sido


notable. Esto sin duda se encuentra ligado al hecho de que los avances teóricos
en la materia acompañaron importantes avances tecnológicos, como por
ejemplo la optimización a nivel de software, ampliación de la capacidad de
almacenamiento informático de datos, mejoras en la velocidad de transmisión y
procesamiento de la información, entre otros.
Si bien esto implica grandes ventajas en el campo de las ciencias, tiene también
muchas implicancias en distintos aspectos de la vida cotidiana, donde las
técnicas estadísticas se aplican de manera corriente. A modo de ejemplo
podemos mencionar las encuestas de opinión difundidas en los medios de
comunicación, los estudios de mercado, los ensayos de evaluación sensorial en
la industria alimentaria, las encuestas que miden las tendencias en época de
elecciones, el seguimiento oficial de índices económicos para predecir el
comportamiento de nuestra economía, los estudios de calidad alimentaria
basados en muestreos de la producción alimentaria para evaluar si se ajustan a
las normas, la información presentada a modo de gráficos o tablas en la prensa
escrita, la construcción de tablas de valoración nutricional a partir del
relevamiento de datos antropométricos en poblaciones de interés, el control y
seguimiento de índices socioeconómicos o de salud para evaluar el impacto de
políticas sanitarias o programas nutricionales, etc.
En cada una de estas situaciones prácticas la metodología estadística
desempeñó sin duda un papel importante, aun cuando se persiguen objetivos
muy distintos.
En concordancia con lo expuesto por Peña,1 podemos entonces afirmar que:
a) un conocimiento básico de los métodos estadísticos y una formación en los
conceptos estadísticos básicos es necesario para cualquier ciudadano;
b) en el ámbito profesional, el estudio de la estadística se constituye en una
herramienta indispensable para entender las posibilidades y limitaciones de la
investigación, en definitiva, para desarrollar un pensamiento crítico y objetivo
de la realidad sobre la cual vamos a actuar como profesionales de la nutrición, y
como tales de las ciencias de la salud.

¿QUÉ ES LA ESTADÍSTICA Y CUÁLES SON SUS OBJETIVOS ?

Cuando se piensa en la noción de estadística es frecuente aludir a cuestiones


numéricas que describen un fenómeno o hecho de la realidad. Efectivamente, la
estadística es una ciencia que estudia cómo obtener conclusiones basadas en la
observación de la realidad mediante uso de modelos matemáticos. Actúa como
disciplina puente entre los modelos matemáticos y los fenómenos reales.1 En un
sentido más amplio:

13
La estadística puede ser definida como la disciplina que se ocupa de los
métodos y procedimientos para recoger, clasificar, resumir, presentar y analizar
datos, así como de realizar inferencias a partir de ellos, con la finalidad
de ayudar en la toma de decisiones
en presencia de incertidumbre y variabilidad.2‐4

Hablamos de incertidumbre porque una característica intrínseca de los datos


que serán tratados desde la teoría estadística es la no certeza de su
comportamiento. Por su parte, el concepto de variabilidad tiene que ver con las
diferencias observadas que pueden atribuirse a la verdadera diversidad de una
población, debidas a cambios en factores no controlables que influyen sobre él,
de naturaleza azarosa o no, pero desconocidos.

Así, el objetivo último de la estadística consiste en hacer inferencias de una


población con base en la información que contiene una muestra de ésta y
proporcionar una medida de validez de la inferencia.5

En particular, se denomina bioestadística a la aplicación de procedimientos


estadísticos al estudio de los problemas biológicos y de salud, tanto individuales
como grupales y comunitarios.6

CONCEPTOS CLAVES: POBLACIÓN, MUESTRA, VARIABLE

Existen algunos conceptos claves en el “lenguaje estadístico” que intentaremos


definir y ejemplificar a continuación.

Tanto en la práctica profesional como en la vida cotidiana, tratamos de forma


constante con conjuntos de hechos o datos. Una investigación por lo común
tiene que ver con una colección muy bien definida de objetos que forman una
población de interés2 sobre la cual se intentarán sacar conclusiones.

Se denomina población al conjunto total de individuos o elementos acotados


en un tiempo y espacio determinado, que cumplen ciertas propiedades
comunes de interés (características medibles u observables) sobre las cuales se
extraen las conclusiones de estudio.

Ilustremos este concepto con dos ejemplos. Obsérvese a partir de ellos que no
siempre el concepto de población hace alusión a una población de personas.

Ejemplo 1. Supongamos que en un estudio realizado en Mendoza en el año


2010 se propuso conocer si el sobrepeso de un sujeto adulto está relacionado
con su nivel socioeconómico. Tendremos que comenzar definiendo la población
que queremos estudiar: por ejemplo, todos los individuos mayores de 18 años
14
que residan en la ciudad de Mendoza en el año 2010. La población debe quedar
claramente delimitada dado que las conclusiones sólo serán aplicables a esa
población previamente definida.

Ejemplo 2. Se desea determinar el grado de contaminación del agua con un


determinado compuesto en una localidad de la provincia de Córdoba, dado que
se ha observando en un sector de la misma una elevada prevalencia de una
enfermedad cutánea posiblemente asociadas a la exposición a dicho
compuesto, que se sospecha esté siendo vehiculizado mediante el agua de
bebida. En este caso se puede definir como población de estudio: todos los
tanques de agua de la localidad X en un periodo determinado.

En relación al concepto de población es necesario mencionar el de unidad


experimental o de observación.

Una unidad experimental o de observación es el mínimo objeto de estudio


sobre el cual se realiza una observación (se intenta clasificar una categoría) o se
efectúa una medición cuantitativa.

Las unidades experimentales o de observación pueden ser individuos o grupos


de individuos (familias, localidades, viviendas, etc.), o bien elementos o grupos
de elementos, como alimentos o lotes de alimentos producidos, vacas o
tambos, semillas o silos de semillas, células o tejidos, etc.
En los ejemplos 1 y 2 mencionados, se definen como unidades de observación:
un individuo mayor de 18 años que resida en la ciudad de Mendoza en el año
2010, y un tanque de agua de la localidad X en el periodo de interés,
respectivamente.

Generalmente las restricciones de tiempo, dinero y demás recursos insuficientes


hacen poco práctico o imposible levantar datos acerca de toda una población.
Es posible entonces seleccionar un subconjunto de la población, denominado
muestra.

Se denomina muestra al subconjunto, representativo, de unidades de


observación seleccionadas de una población. Las unidades que componen
dicha muestra se conocen con el nombre de unidades muestrales.

La palabra representativo implica el diseño de una buena muestra que refleje las
características esenciales de la población de la cual se obtuvo.7

Siguiendo los ejemplos anteriores, se podría obtener una muestra, debidamente


diseñada, del padrón de votantes (mayores de 18 años) de la ciudad de
Mendoza en el año 2010. En el caso 2 podrían seleccionarse una cantidad

15
determinada de tanques de agua para cada barrio de la localidad, identificados
a partir de datos censales de las viviendas, disponibles a nivel municipal.
Así, estas muestras podrían definirse como:
a) n sujetos mayores de 18 años que residan en la ciudad de Mendoza en el año
2010.
b) n tanques de agua de la localidad X en un periodo determinado.

Frecuentemente, en un estudio de investigación el interés se centra sólo en


ciertas características de los objetos de una población, como ejemplo:
‐ sexo, edad, peso, talla, nivel de instrucción, características
socioeconómicas, presencia/ausencia de enfermedad si se estudian
personas;
‐ temperatura, presión, densidad, color, volumen, procedencia, años de
vida útil, características organolépticas, entre otras, si las unidades de
observación son elementos u objetos.

Una característica puede referirse a una cualidad o poseer naturaleza numérica.

Una variable es cualquier característica cuyo valor o modalidad cambia entre


los objetos de una población.2

En los problemas planteados anteriormente algunas variables de estudio


podrían ser:
peso, talla, edad, sexo, nivel de instrucción e ingresos (Ejemplo 1);
microgramo/litro del compuesto y barrio de procedencia (Ejemplo 2).

APLICACIONES DE LA ESTADÍSTICA

Para ilustrar de manera práctica lo hasta aquí mencionado, cabe señalar algunos
problemas que resuelve la estadística1:

• Descripción de datos: trata de encontrar procedimientos para resumir la


información contenida en los datos. Supongamos que se han realizado
1500 valoraciones antropométricas a niños en edad escolar de una
determinada ciudad. Valiéndose de la estadística se intentará encontrar
los procedimientos adecuados que permitan resumir la información
contenida en los datos relevados.
• Análisis de muestras: suministra las herramientas para elegir una
muestra representativa y poder hacer inferencias respecto a la población
a partir de lo observado en la muestra. Siguiendo el ejemplo anterior,
seguramente por razones técnicas o económicas no sea posible estudiar
todos los niños escolarizados en esa ciudad. Se deberá entonces acudir a
la estadística para la selección de un subgrupo representativo de esa
16
población, es decir una muestra debidamente diseñada. El análisis de la
misma implica la utilización de métodos de inferencia adecuados que
permitirán extraer conclusiones respecto a la población de escolares a
partir de lo observado en la muestra.
• Contrastación de hipótesis: se requiere una metodología estadística que
permita comparar los datos observados con los resultados esperados, de
modo que las conclusiones que se extraigan de la experimentación no
estén invalidadas por factores no controlados. Un objetivo frecuente en
la investigación biomédica es contrastar hipótesis en torno a problemas
como: ¿es una nueva medicina eficaz para una determinada
enfermedad? ¿es un tratamiento mejor que otro?
• Medición de relaciones: permite determinar y medir relaciones entre
variables (físicas, sociales, técnicas, etc.) para responder, en términos
estadísticos, a preguntas como: ¿depende el peso de nacimiento del
estado nutricional materno? ¿cómo se relaciona la obesidad con el nivel
socioeconómico familiar? ¿cuál es la relación entre hipertensión arterial
e ingesta de café?
• Predicción: muchas variables económicas, físicas y de salud‐enfermedad
tiene cierta inercia en su evolución, y aunque sus valores futuros son
desconocidos, el estudio de su historia es informativo para prever su
evolución futura. Valiéndonos de la estadística, la previsión puede
mejorar estudiando la relación entre la variable de interés y otras
variables. Este es el mecanismo que se utiliza para prever, por ejemplo, la
demanda de un producto alimentario en la industria alimentaria, las
tendencias temporales en los índices de salud como herramienta para la
planificación sanitaria, etc.

RAMAS DE LA ESTADÍSTICA

La denominada estadística descriptiva es una rama de la estadística que se


encarga de resumir y presentar la información contenida en un grupo de datos,
valiéndose de métodos descriptivos, como son los métodos de naturaleza
gráfica y el cálculo de medidas numéricas de resumen.

Una vez obtenida una muestra de una población, el investigador querrá usar la
información de la muestra para llegar a algún tipo de conclusión (hacer una
inferencia de cierto tipo) acerca de la población. Las técnicas para hacer una
generalización en toda la población a partir de una muestra se ubican dentro de
la rama de la estadística llamada estadística inferencial.2 Así, apoyándose en el
cálculo de probabilidades y a partir de datos muestrales, efectúa estimaciones,
predicciones u otras generalizaciones sobre un conjunto mayor de datos.3

17
CIENCIA Y CONOCIMIENTO CIENTÍFICO

El término ciencia puede ser definido en función de dos aspectos:


‐ Como proceso, dado que se remite a una actividad humana y social destinada a
“descubrir lo desconocido”. Valiéndose de la investigación científica, se dedica a
la búsqueda del conocimiento, se distingue por su carácter sistemático y dirigido
a un fin determinado.
‐ Como producto es un cuerpo de conocimientos sistematizados, expresados
como enunciados científicos.8

A diferencia del conocimiento habitual, el cual se caracteriza por ser


predominantemente no sistemático, superficial, sensitivo, subjetivo y acrítico, el
conocimiento científico es resultado del proceso de investigación científica,
logrado mediante un método científico, esto es, mediante procedimientos
metódicos con pretensiones de validez, utilizando la reflexión sistemática, los
razonamientos lógicos y respondiendo a una búsqueda intencionada por la cual
se delimita el problema de estudio y se previenen los medios de indagación.6
Una pieza fundamental en la producción de conocimiento científico es la
aplicación adecuada de la teoría estadística.

ESTADÍSTICA Y MÉTODO CIENTÍFICO

Si bien es posible encontrar varias acepciones de método científico, éste se


puede definir como un conjunto de procedimientos sistematizados que regulan
la producción de conocimiento científico, es decir, cuya finalidad es alcanzar un
conocimiento válido y riguroso del objeto de estudio.

Las grandes etapas del método científico son las siguientes:


1. Observación: consiste en la observación metódica y objetiva de los
hechos o fenómenos y teorías preexistentes, lo cual constituyen el marco
de justificación de la investigación.
2. Formulación de hipótesis: a partir de la revisión realizada, se postulan
enunciados hipotéticos, que serán traducidos a hipótesis estadísticas
adecuadas al campo específico de la investigación para que puedan ser
sometidos a evaluación objetiva sobre la base de los resultados de la
investigación.
3. Constatación de hipótesis: consiste en la verificación de las hipótesis
formuladas, es decir, su corroboración o refutación, para finalmente
enriquecer y realimentar el ciclo de generación de nuevo conocimiento
científico. En esta etapa es donde la estadística se convierte en la
herramienta fundamental del método científico.

18
El método científico se basa en dos tipos de razonamientos para el
establecimiento de la veracidad o no de los enunciados: el deductivo (a partir de
algo general se conduce a lo particular) y el inductivo (a partir de observaciones
particulares de ciertos fenómenos se intentan deducir reglas generales).
En el caso de la investigación empírica se utilizan ambos tipos de razonamiento
siguiendo un ciclo deductivo‐inductivo: la estadística descriptiva se utiliza para
sintetizar y resumir datos transformándolos en información; luego esta
información es procesada a través de modelos y utilizada para adaptar el
modelo a la realidad estudiada, con lo que convertimos la información en
conocimiento científico de esa realidad.1 Vemos que esta segunda etapa, la
inferencial, es inductiva porque se proyecta de lo específico (muestra) hacia lo
general (población).7

TIPOS Y NIVELES DE INVESTIGACIÓN . TIPOS DE ESTUDIOS.

Según el criterio de clasificación que se adopte, se han propuestos distintas


clasificaciones de la investigación científica. Haremos mención a dos de ellas:

Tipos de investigación de acuerdo a su objetivo y metodología estadística


propuesta:
‐ Investigación descriptiva: pretende realizar un análisis exploratorio
de los datos (aplicación de la estadística descriptiva).
‐ Investigación analítica: tiene como objetivo el análisis confirmatorio
de los datos (aplicación de la estadística inferencial).

Tipos de investigación de acuerdo a su finalidad de aplicación:


‐ Investigación básica (fundamental o pura): su finalidad es la
producción o avance de conocimientos científicos de tipo téoricos.
Responde frecuentemente a diseños experimentales, llevados a cabo
en laboratorios. Ej: Estudios sobre biología molecular.
‐ Investigación aplicada: orientada a aplicar los conocimientos o
avances generados a partir de la investigación básica para provecho
de la sociedad desde un campo disciplinar concreto. Ej: Investigación
aplicada a las ciencias de la salud, la epidemiología, etc.

Se han postulado también distintos niveles de investigación, en función del


grado de profundidad en la indagación de un problema.6 Estos son:
• Nivel descriptivo: desde un nivel primario de investigación, intenta
realizar una aproximación descriptiva del problema de estudio,
respondiendo a interrogantes como: ¿cuánto? ¿dónde? ¿en quienes?
• Nivel explicativo: en un nivel avanzado de investigación, trata de
responder a las preguntas ¿por qué? (¿por qué ocurre determinado
fenómeno, en qué condiciones?) y ¿cómo? (por ejemplo en la búsqueda
19
de cómo se dan relaciones entre variables de tipo causa‐efecto,
valiéndose de lo que se denomina la inferencia causal).

En relación a las clasificaciones descriptas, haremos una breve mención a


algunos tipos de estudios comúnmente definidos en la investigación aplicada a
las ciencias de la salud:

‐ Estudios observacionales: en este tipo de estudio el investigador mide las


variables de interés, las observa y analiza, pero no interviene, es decir, no
manipula variables. Estos a su vez pueden ser clasificados como estudios
descriptivos, cuando mediante la estadística descriptiva se limitan precisamente
a la descripción de la/s variable/s de interés, ó como estudios analíticos, cuando
además pretenden analizar las relaciones entre variables y extrapolar los
resultados a una población de referencia. Un ejemplo de estos últimos, muy
empleados en el campo de la salud, son los estudios de cohortes, y de tipo caso‐
control, frecuentemente utilizados para identificar factores de riesgo de ciertas
enfermedades.
‐ Estudios experimentales: se caracterizan por la intervención del investigador
en la manipulación de variables, de manera controlada, a los fines de observar
por ejemplo sus efectos o la influencia sobre el comportamiento de otras
variables de interés. En el área de salud se aplican en ciertos estudios de
seguimiento para probar el efecto de nuevos fármacos o tratamientos.

ETAPAS DE LA INVESTIGACIÓN CIENTÍFICA Y PROCESO ESTADÍSTICO

Toda investigación científica sigue un proceso dinámico que puede


sistematizarse en tres grandes etapas operativas: Planificación, Ejecución,
Tratamiento y difusión de datos.8 En forma breve, a modo de repaso, se
mencionan los aspectos principales que definen cada una de estas etapas:

• Etapa de planificación: se define un protocolo de investigación o plan a


seguir, pasando por las fases de selección del problema (identificación,
planteamiento y objetivos), construcción del marco teórico de referencia
y formulación de hipótesis, y planificación del diseño metodológico.
• Etapa de ejecución: se refiere al denominado trabajo de campo que se
realiza para captar la información (recolección de datos mediante
mediciones, encuestas, observaciones directas o indirectas,
experimentos).
• Etapa de tratamiento y difusión de datos: en una primera fase implica el
procesamiento de los datos recabados (codificación para su posterior
análisis) y su presentación (en tablas y gráficos), para luego seguir con el
análisis estadístico de los mismos y su interpretación. La etapa concluye
con la elaboración de un informe final de investigación.

20
Las etapas hasta aquí descriptas pertenecen al proceso de investigación
científica. Si consultamos la bibliografía especializada veremos que se habla
también, más específicamente, del proceso o método estadístico. Este,
acompaña al anterior y puede ser sistematizado también en etapas que le son
propias y que están íntimamente ligadas a las ya mencionadas.
Siguiendo al autor Peña1, se enuncian a continuación las etapas básicas del
proceso o método estadístico y sus características principales. Cabe destacar
que esto se expone a modo de introducción en el tema, pero muchos de los
conceptos aquí volcados serán abordados y profundizados en módulos más
avanzados de la materia.

1) Planteamiento del problema: requiere definir el problema en términos


precisos, indicando claramente la población que se quiere investigar y las
variables que debemos observar (y cómo se medirán).
2) Construcción de un modelo estadístico: en términos generales, los modelos
estadísticos establecen la información que se utilizará en el análisis estadístico
(variables y relación entre ellas) y se definen en función del objetivo que
persiguen (ej. modelos explicativos acerca de la relación entre variables,
modelos dinámicos si se desea investigar la evolución de una variable en el
tiempo, o modelos estáticos si el objetivo es su estudio en un instante
temporal).
3) Recolección de la información muestral: implica medir los valores de las
variables de interés, mediante adecuadas técnicas de muestreo o con un diseño
de experimentos.
4) Depuración de la muestra: aplicar técnicas estadísticas simples para
identificar valores anómalos y eliminar los errores de medición.
5) Estimación de los parámetros: esta fase consiste en utilizar la información
disponible para estimar los valores de ciertas constantes desconocidas de orden
poblacional (denominadas parámetros), así como cuantificar el posible error en
la estimación.
6) Contrastes de hipótesis: una hipótesis se contrasta comparando sus
predicciones con los datos observados; si coinciden, dentro del margen de error
admisible, mantendremos la hipótesis; en caso contrario, la rechazaremos, y
buscaremos nuevas hipótesis capaces de explicar los datos observados.
7) Crítica del modelo: si después del análisis de datos (fase 5 y 6) aceptamos el
modelo como correcto, lo utilizaremos para tomar decisiones o realizar
previsiones de la variable. En caso contrario volveremos a la fase 2 y
reformularemos el modelo, repitiendo el proceso.

21
PLANIFICACIÓN DEL DISEÑO METODOLÓGICO

En la primera etapa de una investigación científica, antes descripta, hemos


mencionado la necesidad de planificación de un adecuado diseño metodológico.
El diseño metodológico es la planificación detallada de cómo van a ser tratadas
las variables de interés. Los elementos que lo componen son:

• Selección del tipo de estudio: de acuerdo a los objetivos que se


persiguen.
• Especificación de la población objetivo (sobre la cual se pretende inferir
los resultados) y definición de la muestra: esto implica precisar
claramente cuál será la población de estudio, su tamaño y composición,
así como cuál será el procedimiento estadístico que se empleará para
muestrear dicha población, definiendo: tipo de muestreo, unidades de
muestreo y observación, y tamaño muestral.
• Selección y definición de las variables de interés: esto es, la
identificación y conceptualización de las variables en términos teóricos
(definición teórica) y operacionales (forma de medición para su estudio).
• Elección de técnicas e instrumentos de recolección de datos:
entendiendo por instrumentos a los medios directos que emplea el
investigador para recolectar y/o registrar la información (ej. formulario
de encuesta, cuestionarios, guía de observación, cámara fotográfica,
balanza, etc), y por técnicas las reglas y operaciones concretas que guían
el uso de los instrumentos.8
• Planificación del tratamiento y análisis de datos: definición del plan de
análisis exploratorio de los datos (metodologías estadísticas descriptivas
a emplear, ej. tablas, gráficos y medidas cuantitativas que resuman la
información) y selección de los procedimientos estadísticos para la
verificación de las hipótesis planteadas.

22
BIBLIOGRAFÍA - MÓDULO 1

1. Peña D. Fundamentos de Estadística. Madrid: Alianza Editorial; 2001.

2. Devore JL. Probabilidad y Estadística para ingeniería y ciencias. 6ta ed. México, D.F:
International Thompson Ed.; 2005.

3. Ríus Díaz F, Barón Lopez FJ, Sánchez Font E, Parras Guijosa L. Bioestadística:
Métodos y Aplicaciones. Facultad de Medicina, Universidad de Málaga. Disponible en
:http://www.bioestadistica.uma.es/libro/

4. Moschetti E, Ferrero S, Palacios G, Ruiz M. Introducción a la Estadística para las


Ciencias de la Vida. Editorial Fundación UNRC; 2000.

5. Wackerly DD, Mendenhall W, Scheaffer R. Estadística matemática con aplicaciones.


6ta ed. México, D.F.: International Thompson Ed.; 2002.

6. Bordón LG. Estadística aplicada a Ciencias de la Salud. Una herramienta para la


Investigación. 5ta ed. Córdoba: LG Bordón Ed. 1999.

7. Canavos GC. Probabilidad y Estadística. Aplicaciones y métodos. México, D.F.:


McGraw‐Hill; 1988.

8. Sabulsky J. Investigación científica en salud‐enfermedad. 2da. Ed. Córdoba: Ed.


Kosmos S.R.L.; 1998.

23
24
ESTADÍSTICA Y
BIOESTADÍSTICA

MÓDULO 2

LA ESTADÍSTICA
DESCRIPTIVA

25
26
INTRODUCCIÓN AL ANÁLISIS ESTADÍSTICO: METODOLOGÍAS DESCRIPTIVAS

En el Módulo 1 hemos visto que el análisis estadístico combina metodologías


descriptivas, las cuales resumen en primera instancia la información contenida
en el conjunto de datos muestrales, con metodologías inferenciales, tendientes
a la generalización de los resultados en toda la población.
Aunque la estadística descriptiva puede resultar más sencilla desde el punto de
vista matemático, el análisis inferencial requiere primeramente describir un
conjunto de datos para poder efectuar la inferencia. La descripción debe ser tal
que el conocimiento de las medidas descriptivas nos permita tener una
apreciación objetiva de ese conjunto de datos.1

Decimos entonces que:

Dado un conjunto de datos de una variable X, la estadística descriptiva estudia


procedimientos para sintetizar la información que contienen.2

Una descripción informativa de cualquier conjunto de datos está dada por la


frecuencia de repetición y forma en que se distribuyen las observaciones en el
conjunto.

Las metodologías descriptivas se dividen en dos áreas:


1. Descripción basada en métodos gráficos y tabular: consiste en representar
un conjunto de datos por medio de técnicas visuales: tablas y gráficos.3
2. Descripción basada en medidas resumen numéricas: búsqueda de valores
numéricos que describan la distribución de frecuencias del conjunto de
mediciones de interés.1 Las medidas resumen más importantes son las de
tendencia central o de posición, que indican el valor medio de los datos, y las
de dispersión, que miden su variabilidad.2 Estos conceptos serán profundizados
más adelante.

FUENTES DE INFORMACIÓN E INSTRUMENTOS DE RECOLECCIÓN DE DATOS

Antes de abordar el tema de la aplicación de metodologías descriptivas al


análisis de datos, es importante mencionar algunos conceptos o cuestiones
relacionadas con la etapa de recolección de la información, a los fines de
garantizar que se trabajará con datos confiables, obtenidos en condiciones
controladas, y acorde a los objetivos y diseño metodológico predefinidos por el
investigador.

En la etapa de recolección de la información de una investigación científica nos


ocuparemos de recabar, mediante técnicas e instrumentos adecuados, un

27
conjunto de datos (numéricos o categóricos) acerca de la\s variable\s de
interés, los cuales, en etapas posteriores serán sometidos a los análisis
pertinentes.
Enunciamos a continuación qué se entiende por dato:

Los datos son el resultado de las observaciones efectuadas sobre una unidad
de observación o experimental, respecto de una o más variables.

Las observaciones resultantes, por ejemplo, respecto de la variable edad,


podrían dar lugar al siguiente conjunto de datos numéricos (años de edad):
x = {19, 40, 18, 22, 38, 39, 39, 44, 18, 59, 76, 20, 45}

Las observaciones efectuadas respecto de la variable región geográfica, podría


generar un conjunto de datos cualitativos (siendo N= región norte; S= región
sur; E= región este; O= región oeste) como el que sigue:
y = {N, N, E, O, S, N, N, E, E, O, O, S, N, E, O, S, S, E}

Un conjunto de datos como los anteriores se denomina univariado, dado que


consisten en observaciones de una sola variable, mientras que los datos
denominados bivariados o multivariados se obtiene cuando se observan de
modo simultáneo dos o más variables, respectivamente.3
Así, un conjunto de datos bivariados podría consistir en un par de características
de un sujeto, por ejemplo peso y talla, pudiendo ser la primera observación o
dato el par (72, 1.68), la segunda (75, 1.81), y así sucesivamente.

La tarea de recopilación de datos conlleva a seleccionar las unidades de


observación (individuos o elementos) sobre los cuales se efectuarán las
mediciones u observaciones pertinentes. Por lo tanto, será necesario definir el
origen o procedencia de los datos a levantar.

Decimos que, de acuerdo su origen la información a recabar puede provenir de:

‐ Fuentes primarias: la información la obtiene el investigador por sí mismo,


mediante observaciones directas, cuestionarios, entrevistas, grabaciones,
fotografías, etc.
‐ Fuentes secundarias: en este caso, la información proviene solamente de
documentos (censos, estadísticas vitales, registros demográficos, historias
clínicas, encuestas oficiales, documentales, revistas y publicaciones periódicas,
etc.).4 Es decir, los datos son obtenidos por terceros y recopilados o revisados
luego por el investigador.

En el caso de recurrir a fuentes primarias de información, y de acuerdo a las


características del estudio, se seleccionarán o elaborarán las técnicas y los
instrumentos necesarios para recopilar la información. Dos conceptos claves
28
que se refieren a las condiciones fundamentales que deben reunir los
instrumentos diseñados o empleados son:

• Confiabilidad: es la precisión del instrumento, reflejada en la consistencia


y estabilidad de los datos recogidos. Esto significa que un instrumento es
confiable si en idénticas condiciones capta siempre la misma
información.4
• Validez: expresa el grado en que mide lo que realmente pretende medir.5

Así, si se efectúan sucesivas mediciones del peso de un alimento con una


balanza, tomadas en condiciones similares, y se obtienen resultados constantes,
decimos que el instrumento es confiable. Sin embargo esto no implica que
también sea válido, es decir que verdaderamente el alimento tenga ese peso. Es
posible, por ejemplo, que la balanza no esté adecuadamente calibrada y se
obtengan pesos estables, siempre iguales, pero que registren sistemáticamente
100 g. de diferencia (por debajo) del peso real. En este caso decimos que los
datos son confiables pero no válidos.

CLASIFICACIÓN DE VARIABLES

Retomando el concepto de variable como característica o propiedad objetiva


(que se mide u observa) con respecto a la cual las unidades de observación de la
población difieren de manera apreciable,6 vemos que dicha característica
medible u observable puede adoptar valores numéricos ó no (expresar
atributos).

Así, la clasificación de las variables de acuerdo a su modalidad es la siguiente:

1. Variables cualitativas o categóricas: son aquellas que están definidas por


medio de categorías o atributos. Es decir, no toman valores numéricos sino que
describen cualidades.2 Estas variables a su vez pueden clasificarse en:
‐ Nominales: cuando sus categorías se pueden listar sin ningún orden o
jerarquización. Ej: sexo (masculino, femenino); estado civil (soltero, casado,
viudo, divorciado); nacionalidad (argentino, italiano, español, otro); hábito de
fumar (fumador, no fumador); tipo de carne consumida (de vaca, de pollo, de
cerdo, otra); diabetes (presencia/ausencia).
‐ Ordinales: aunque sus modalidades son de tipo nominal (expresan
cualidades o atributos), es posible establecer un orden entre ellas.7 Ej: nivel de
instrucción (sin instrucción, primario incompleto, primario completo, secundario
completo, estudios terciarios o universitarios); estado nutricional (bajo peso,
normal, pre‐obesidad, obesidad); grado de hipertensión arterial (leve,
moderada, severa).

29
2. Variables cuantitativas: son aquellas que adoptan valores numéricos. Estas a
su vez pueden clasificarse como:
‐ Discretas: toman únicamente valores enteros; corresponden en general
a un conteo.2 Ej: número de comidas al día, número de hijos, cantidad de veces
que consume lácteos por día.
‐ Continuas: pueden tomar infinitos valores en un intervalo que resultan
de efectuar mediciones. Corresponden a medir magnitudes continuas,2 es decir
que surgen de mediciones que pueden adoptar números decimales. Ej: talla y
peso al nacer, tiempo de cocción, temperatura de una cámara frigorífica.

Ocurre a veces que una variable cuantitativa continua por naturaleza ha sido
discretizada o categorizada. Un ejemplo del primer caso sería cuando por
cuestiones que conciernen a la precisión de un aparato de medición, por
ejemplo de longitud, la regla no ofrezca unidades de medición en decimales, o
cuando la variable tiempo se expresa en años, aunque por naturaleza es una
variable de tipo continua que puede adoptar infinitos valores (años, meses,
semanas, días, horas, segundos). En el segundo caso, podemos decir que la
variable índice de masa corporal fue categorizada cuando se expresa como bajo,
normal o sobrepeso, aunque es por naturaleza una variable cuantitativa
continua (kg/m2).

ESCALAS DE MEDICIÓN

El establecimiento de números, códigos o categorías a las observaciones


efectuadas implica el empleo de una escala apropiada.

Una escala consiste en la enunciación de las posibles alternativas


que ofrece una variable.8

Existen cuatro grandes tipos de escalas de medición:


1. Escalas nominales: aquellas en las que las observaciones se clasifican en
categorías, sin ninguna jerarquización.5, 8 Ej: Para la variable localización de la
vivienda: zona urbana, zona rural.
2. Escalas ordinales: en las que se asigna un orden o jerarquización a las
categorías. Ej: leve, moderada, severa.5
3. Escalas de intervalo: aquellas en las que está definida la distancia que existe
entre dos mediciones5 y que se caracteriza porque el punto de origen (punto
cero) en la escala es arbitrario (es un punto de acuerdo). Esto quiere decir que
se puede especificar si un objeto es mayor o menor que otro en función de las
unidades de diferencia que hay entre ambos, y que el valor cero no implica la
ausencia de lo que se estudia. Ej: escala de coeficiente intelectual, temperatura
(cero grados no implica ausencia de calor).8

30
4. Escalas de razones: posee las propiedades de la escala de intervalo pero el
punto de origen o punto cero representa el cero absoluto, o sea la ausencia de
lo que se estudia.8 Ej: peso, talla, longitud en general.

ABORDAJES CUALITATIVOS VS CUANTITATIVOS: GENERALIDADES

Habiendo introducido los conceptos de variables cualitativas y cuantitativas,


cabe aquí hacer una salvedad. Si se revisa bibliografía actualizada en materia de
metodología de la investigación se encontrará, posiblemente, la distinción entre
investigación cualitativa y cuantitativa. Dicha terminología no hace referencia
al tipo de variables analizadas, sino a la modalidad de abordaje del problema de
estudio en cuestión y al campo de aplicación. Veamos las características
generales de ambos abordajes:
‐ Investigación cuantitativa: tradicionalmente usada en diversos campos de las
ciencias (biológicas, sociológicas, biomédicas, económicas, etc.) pretende
analizar los datos en forma numérica, valiéndose de la estadística para tal fin.
Para ello requiere que las variables estudiadas (cualquiera sea su naturaleza) o
su relación, puedan ser representadas por algún valor o modelo numérico.
‐ Investigación cualitativa: de uso creciente en las ciencias sociales, se orienta al
estudio de las relaciones sociales y el comportamiento humano, empleando
métodos de recolección de datos que no son cuantitativos (entrevistas abiertas
en profundidad, documentos personales, observación participante).

Los contenidos que estamos desarrollando en el presente material responden al


abordaje cuantitativo de la investigación científica.

DESCRIPCIÓN DE DATOS BASADA EN MÉTODOS GRÁFICOS Y TABULAR

FRECUENCIA ABSOLUTA Y RELATIVA

La presentación de un conjunto de datos suele hacerse indicando los valores de


la variable y sus frecuencias de aparición, tanto en términos absolutos como
relativos.2
Si consideramos los datos que consisten en observaciones sobre una variable X
tenemos que:

La frecuencia absoluta (ni) de cualquier valor o modalidad de X es la cantidad


de veces que se presenta ese valor o modalidad en el conjunto de datos.
La frecuencia relativa (fi) de un valor o modalidad es la fracción o proporción
de las veces que se presenta en el conjunto de datos.

31
De esta manera, si
ni = frecuencia absoluta de un valor o modalidad de X
n = número total de observaciones

ni
entonces fi =
n

Supongamos que el conjunto de datos consiste en 200 observaciones para la


variable X= cantidad de comidas al día. Si 70 de esas observaciones registraron
valores correspondientes a 3 comidas al día y 50 a 2 comidas, entonces la ni del
valor 3 es 70 y su fi = 70 / 200 = 0,35, mientras que la ni del valor 2 es 50 y su fi =
50 / 200 = 0,25. Luego, si multiplicamos por 100 una frecuencia relativa
podemos expresarla a modo de porcentaje. En el ejemplo citado, concluiremos
que 35% de los sujetos de la muestra consumen 3 comidas al día, mientras que
un 25% consumen solo 2 comidas diarias.

La distribución de frecuencias puede ser representada mediante una tabla o un


gráfico, a partir de los cuales se pueden hacer evidentes los patrones existentes
en un conjunto de datos, como veremos a continuación.

TABLAS DE DISTRIBUCIÓN DE FRECUENCIAS . FRECUENCIAS ACUMULADAS

Como ilustración, veamos los siguientes casos:

Tabla 1. Distribución de frecuencias según ocupación de mujeres jefas de hogar


Frecuencia Frecuencia
Ocupación absoluta (ni) relativa (fi)
Docente 60 0,43
Empleada de comercio 40 0,29
Empleada doméstica 20 0,14
Profesional 12 0,09
Administrativa 6 0,04
Otro 2 0,01
TOTAL 140 1

32
Tabla 2. Distribución de frecuencias para la cantidad de unidades vendidas de cierto
producto por día en una cadena de supermercados
Frecuencia Frecuencia
Cantidad absoluta (ni) relativa (fi)
0 40 0,44
1 26 0,29
2 14 0,16
3 6 0,07
4 3 0,03
5 0 0,00
6 1 0,01
TOTAL 90 1

La tabla 1 presenta un ejemplo de una distribución de frecuencias para una


variable cualitativa: se indica cada categoría o modalidad de la variable
ocupación y sus frecuencias observadas (absoluta y relativa).

La tabla 2 en cambio presenta la distribución de frecuencias para una variable


cuantitativa discreta, la cantidad de unidades vendidas de cierto producto
alimentario. En este ejemplo vemos que el número de valores posibles de la
variable es pequeño (entre cero y 6), lo cual permite este tipo de
representación, es decir mediante una tabla de frecuencias no agrupadas.

Cuando el número de valores distintos que toma una variable cuantitativa


discreta sea grande, o cuando ésta sea continua, conviene agrupar los datos en
clases o intervalos,2 construyendo lo que se denomina una tabla de frecuencias
agrupadas. El siguiente ejemplo intenta ilustrar el procedimiento para la
construcción de estas tablas:

Ejemplo 1. Supongamos que se registraron los siguientes pesos en kg, de 40


adultos masculinos al ingresar como participantes en un programa de control
del sobrepeso:

82 85 86 87 87 89 89 90 91 91
92 93 94 95 95 95 95 95 97 98
99 99 100 100 101 101 103 103 103 104
105 105 106 107 107 107 109 110 110 111

Se desea establecer un esquema de agrupamiento para este conjunto de datos


y determinar las frecuencias absolutas y relativas.

Algunas consideraciones importantes en relación a la construcción de intervalos


son las siguientes:
‐ Por lo general se sugiere que, siempre que sea posible, se construyan
intervalos de longitud igual. Como regla para determinar la longitud de los

33
intervalos a construir debemos realizar la diferencia entre el mayor y el menor
valor de la serie de datos, lo cual se denomina rango, y dividirlo por el número
deseado de intervalos. Se sugiere tomar no menos de 5 ni más de 20 intervalos
y emplear el mayor número de intervalos cuanto mayor es el tamaño (n) de
nuestra muestra.1‐2
‐ El primer intervalo siempre debe contener al menor valor de la serie de datos a
agrupar, y el último intervalo al mayor valor registrado.
‐ Las fronteras de un intervalo se denominan límites de clase o intervalo, y el
promedio entre los límites superior e inferior recibe el nombre de marca de
clase (punto medio del intervalo).9 Se deben seleccionar los límites de clase que
definen los intervalos de manera que cada observación se clasifique sin
ambigüedad en una sola clase o intervalo.2

Siguiendo con el ejemplo 1, vemos que el mayor valor que toma la variable peso
es 111 y el menor 82, por lo tanto el rango es 111 ‐ 82 = 29. Suponiendo que
queremos dividir la serie de datos en 6 intervalos, se calcula 29/6 = 4,8 por lo
cual establecemos que la longitud de cada intervalo será aproximadamente de 5
kg.
Luego, para establecer la frecuencia absoluta de cada intervalo se cuentan los
valores de la variable que caen en cada uno de ellos, y se calcula la frecuencia
relativa para cada intervalo (dividiendo cada ni por 40, que es el valor de n en
este caso), como se muestra en la tabla 3.

Tabla 3. Distribución del peso (en kg) de adultos masculino al momento del ingreso en
un programa de control del sobrepeso. Frecuencias absoluta y relativa.
Frecuencia Frecuencia
Pesos (kg) absoluta (ni) relativa (fi)
82‐86 3 0,075
87‐91 7 0,175
92‐96 8 0,200
97‐101 8 0,200
102‐106 7 0,175
107‐111 7 0,175
TOTAL 40 1

Observando la información que nos brinda esta tabla podemos decir, por
ejemplo, que de los 40 adultos masculinos 16 tuvieron un peso entre 92 y 101
kg, lo cual representa un 40% de la muestra, mientras que menos del 10% de los
sujetos registraron un peso inferior a 87 kg, y casi un 20% superó los 106 kg.

En el caso de variables cuantitativas (discretas o continuas) ó categóricas


ordinales (no así las nominales) es útil presentar también lo que se denominan
frecuencias acumuladas.

34
La frecuencia acumulada para un valor dado de la variable
es la suma de las frecuencias (absolutas o relativas) de los valores
menores o iguales al valor que se está considerando.10

La tabla anterior se puede completar entonces de la siguiente manera (llámese


ahora Tabla 4):

Tabla 4. Distribución del peso (en kg) de adultos masculino al momento del ingreso en
un programa de control del sobrepeso. Frecuencias absoluta, relativa y acumuladas.
Frecuencia Frecuencia Frecuencia Frecuencia
Pesos (kg) absoluta absoluta relativa relativa
(ni) acumulada (Ni) (fi) acumulada (Fi)
82‐86 3 3 0,075 0,075
87‐91 7 10 0,175 0,250
92‐96 8 18 0,200 0,450
97‐101 8 26 0,200 0,650
102‐106 7 33 0,175 0,825
107‐111 7 40 0,175 1
TOTAL 40 ‐ 1 ‐

A modo de ejemplificar cómo se interpretan las frecuencias acumuladas,


podríamos decir que la proporción de adultos con pesos menores a 92 kg es de
0,25 (lo cual corresponde a 10 sujetos de un total de 40), o lo que es lo mismo,
que un 25% de los adultos registraron pesos menores a 92 kg.

CONSTRUCCIÓN DE TABLAS DE PRESENTACIÓN DE DATOS

La obtención de frecuencias, en primera instancia, permitirá disponer los datos


de manera tabulada y ordenada en la etapa de presentación y difusión de la
información recabada. Se podrán construir tablas de menor o mayor
complejidad, siguiendo siempre un criterio metodológico en su elaboración, de
modo que la información brindada sea completa, clara y permita la aplicación
del análisis estadístico.4

Se denomina tablas de contingencia a aquellas que permiten la


representación o cruce de dos o más variables.

Veamos algunas normas que facilitan la construcción de tablas a incluir en un


informe de investigación, considerando las distintas partes que debe presentar
una tabla, a saber:

• Título: debe informar de manera clara y breve acerca de las variables que
ilustra, el grupo de estudio, lugar y tiempo de la investigación.

35
• Matriz o molde: es el encabezamiento de columnas y filas que la
componen. Deben estar claramente rotuladas, indicando las categorías
de análisis y, si correspondiere, las unidades de medición.8
• Cuerpo: consta de las celdas de entrecruzamiento de columnas y filas.
• Totales: para la sumatoria de las cifras contenidas en el cuerpo de la
tabla se habilitan las celdas denominadas marginales, en los límites
inferior y/o derecho de la tabla.
• Fuente: si los datos no son propios, es decir, si se trabaja con datos
provenientes de una fuente secundaria de información, esta debe
consignarse al pie de la tabla.

En el siguiente ejemplo la matriz aparece sombreada en gris claro, los totales en


gris oscuro y las celdas blancas corresponden al cuerpo de la tabla.

Frecuencia de consumo de bebidas alcohólicas según sexo en adultos


de la ciudad X, Provincia de Bs. As., Argentina. Año 2009.
Consumo de bebidas alcohólicas Hombres Mujeres TOTAL
Cant. % Cant. % Cant. %
Ingesta nula 12 25,0 9 37,5 21 29,2
< 10 vasos por semana 17 35,4 6 25,0 23 31,9
> 10 vasos por semana 19 39,6 9 37,5 28 38,9
TOTAL 48 100 24 100 72 100
Fuente: Estudio sobre factores de riesgo cardiovasculares, Fac. de Medicina, UBA, 2009.

GRÁFICOS

Como se mencionó anteriormente, una distribución de frecuencias puede ser


representada mediante tablas como las expuestas, ó también mediante un
gráfico adecuado, basado en la información contenida en dichas tablas.
Se mencionan a continuación distintos tipos de gráficos frecuentemente
empleados en la etapa descriptiva de una investigación. Se considerará para ello
el tipo de variable para el cual se indica su uso.

GRÁFICOS PARA VARIABLES CUALITATIVAS:

‐ Diagrama de barras: Considerando un sistema de coordenadas cartesianas,


sobre el eje horizontal se representan las distintas categorías de la variable en
estudio y sobre el eje vertical se construye una escala adecuada para
representar la frecuencia (absoluta o relativa) correspondiente a cada una de
estas categorías. Sobre cada categoría de la variable, se levanta una barra o
rectángulo de altura igual a la frecuencia de la categoría en cuestión.10

36
Ejemplo 2: Diagrama de barras para una variable cualitativa.

Nivel de actividad física en adolescentes. San Luis, Argentina, 2012.

En el caso de querer comparar varias poblaciones se pueden emplear otras


modalidades de este tipo de gráfico, como:

‐ Diagramas de barras múltiples o agrupadas: ubica dos o más


rectángulos o barras juntas representando las poblaciones a
comparar, y cada categoría de la variable se indica en el eje de
abscisas, como lo muestra el Ejemplo 3.
‐ Diagramas de barras proporcionales: cada barra representa el total
de observaciones en una población y su área se divide según las
proporciones encontradas en cada categoría de la variable8 (Ejemplo
4).

Ejemplo 3. Diagrama de barras múltiples o agrupadas para una variable


cualitativa.

Distribución porcentual del consumo de bebidas alcohólicas según su tipo, en hombres


y mujeres de la localidad X, Provincia de Córdoba, Argentina, año 2010.

37
Ejemplo 4. Diagrama de barras proporcionales para una variable cualitativa.

Desnutrición intrahospitalaria según sexo en hospitales cabecera del


departamento de Río Primero, Córdoba, Argentina, en el año 2009.

Cabe destacar aquí que, cuando los tamaños de las poblaciones representadas
son diferentes, es conveniente utilizar las frecuencias relativas, ya que en otro
caso podrían resultar engañosas.7

‐ Diagrama de sectores: se construye dividiendo el área de un círculo en


sectores o porciones, de modo que a cada categoría de la variable representada
le corresponde un ángulo proporcional a su frecuencia absoluta o relativa.

Ejemplo 5. Diagrama de sectores para una variable cualitativa.

Tipo principal de abastecimiento de agua de bebida en viviendas


del interior provincial, La Pampa, Argentina, año 2010.

38
GRÁFICOS PARA VARIABLES CUANTITATIVAS DISCRETAS:

‐ Diagrama de barras: es el mismo que hemos descripto para variables


cualitativas. Se utiliza para representar gráficamente la distribución de
frecuencias absolutas o relativas. Como se presenta en el siguiente ejemplo (6)
las barras no deben estar unidas pues, dada la naturaleza discreta de la variable,
entre dos valores no existen valores intermedios.

Ejemplo 6. Diagrama de barras para una variable cuantitativa discreta.

Distribución de la variable número de hijos en la comuna X,


Santa Fe, Argentina. Año 2012.

‐ Gráfico de bastones: representación gráfica similar al diagrama de barras con


la diferencia de que las barras son suplantadas por líneas verticales o bastones
(Ejemplo 7).

Ejemplo 7. Gráfico de bastones para una variable cuantitativa discreta.

Distribución de la variable número de hijos en la comuna X,


Santa Fe, Argentina. Año 2012.

39
‐ Gráfico a escalones: permite ilustrar la distribución de frecuencias absolutas o
relativas acumuladas. Sobre el eje horizontal se representan los distintos valores
posibles (enteros) de la variable y sobre el eje vertical la frecuencia acumulada
(absoluta o relativa) correspondiente a cada una de esos valores. Cada valor de
la variable experimenta un salto de magnitud igual a su frecuencia absoluta o
relativa representada.

Ejemplo 8. Gráfico de escalones para una variable cuantitativa discreta.

Frecuencia relativa acumulada del número de consultas al odontólogo realizadas en un


año en pacientes del Centro de Salud N°8 de la localidad de Las Rosas.
Córdoba, Argentina, 2011‐2012.

Nro de consultas

GRÁFICOS PARA VARIABLES CUANTITATIVAS CONTINUAS:

‐ Histograma: se construye graficando en el eje vertical la frecuencia (absoluta o


relativa) y en el eje horizontal los límites inferiores de cada intervalo.9 Para ello
se emplean rectángulos, cada uno de los cuales representa un intervalo de
agrupación.2 Como se observa en el ejemplo 9, las bases de estos rectángulos
son iguales a la amplitud del intervalo y deben estar unidas dada la naturaleza
continua de la variable representada. Su altura está dada por la frecuencia de
cada intervalo. Dicha representación intenta dar idea de áreas o superficies.

40
Ejemplo 9. Histograma para una variable cuantitativa continua.

Para la construcción del siguiente histograma remítase a los datos presentados


en la tabla 4 del Ejemplo 1.

Distribución de frecuencias relativas del peso (en kg) de adultos masculino al momento
del ingreso en un programa de control del sobrepeso. Río Cuarto, año 2010.

‐ Polígono de frecuencias: consiste en unir mediante líneas rectas los puntos del
histograma que corresponden a las marcas de clase.7 Si se representan las
frecuencias acumuladas el gráfico se denomina polígono de frecuencias
acumuladas.

Ejemplo 10. Polígono de frecuencias para una variable cuantitativa continua.

Distribución de frecuencias relativas del peso (en kg) de adultos masculino al momento
del ingreso en un programa de control del sobrepeso. Río Cuarto, año 2010.

41
DESCRIPCIÓN DE DATOS BASADA EN MEDIDAS NUMÉRICAS :
MEDIDAS RESUMEN DE TENDENCIA CENTRAL Y DE DISPERSIÓN

En la instancia de resumir las particularidades de un conjunto de números el


investigador se interesará en definir cantidades de manera rigurosa para
analizar la información de la muestra y reconocer a partir de ello sus
características más interesantes. Una característica importante de un conjunto
de números es su distribución, y en particular su centro.3 Otra característica de
interés es la variabilidad de los datos en torno a ese valor central.
A continuación se describe la metodología para describir la posición o centro de
un conjunto de datos (cálculo de medidas de tendencia central o posición), y
más adelante los métodos que miden su variabilidad (cálculo de medidas de
dispersión), aplicables fundamentalmente a datos cuantitativos.
En la explicación de ambas metodologías se realiza la distinción para su cálculo a
partir de:
‐ Un conjunto de datos en series simples (es decir, no agrupados)
‐ Datos discretos agrupados (pero sin intervalos)
‐ Datos continuos o discretos agrupados en intervalos de clases

MEDIDAS DE TENDENCIA CENTRAL O POSICIÓN

En términos generales podemos decir que estas medidas indican el valor medio
de los datos. Las más frecuentemente empleadas son las que presentamos a
continuación: media, mediana y moda. También se describirán otras de interés
como los cuantiles, cuartiles y percentiles.

LA MEDIA

La medida de tendencia central que más se usa en estadística es la media,


también llamada media aritmética.

La media de un conjunto de observaciones es una medida de posición que se


conoce comúnmente como promedio.10

La media muestral se denota por X , mientras que la media de una población se


denota mediante la letra griega µ.

‐ Cálculo de la media muestral para datos en series simples

Supóngase que un conjunto de datos es de la forma x1, x2, …, xn, donde cada xi
es un número para la observación i y n es el tamaño de la muestra.3

42
La media muestral ( X ) de un conjunto de datos x1, x2, …, xn está dada por:

x1 + x 2 + ... + x n
X =
n

Esto se puede expresar de manera mas formal como X =


∑x i
donde el
n
numerador representa la sumatoria de las observaciones y el denominador el
número total de observaciones o tamaño muestral (n).

Ejemplo 11: Dado el siguiente conjunto de datos correspondiente a la


información recabada sobre la variable semanas bajo tratamiento médico en
una muestra de 11 enfermos crónicos atendidos en una determinada Institución
de Salud:
25, 32, 22, 21, 25, 30, 45, 50, 27, 28, 25

Se efectúa el cálculo de la media muestral como sigue:

25 + 32 + 22 + 21 + 25 + 30 + 45 + 50 + 27 + 28 + 25
X =
11

X = 30

Concluimos que la media muestral de semanas bajo tratamiento médico es de


30 semanas, o en otras palabras, que el número de semanas promedio de
tratamiento médico en estos pacientes es de 30.

‐ Cálculo de la media muestral para datos discretos agrupados (sin intervalos)

Para un conjunto de datos discretos agrupados, sin intervalos, el cálculo de la


media se efectúa a partir de la siguiente ecuación:

X =
∑ x .n
i i

Siendo xi los distintos valores que toma la variable


ni sus frecuencias absolutas respectivas
n el tamaño muestral (o sea el número total de observaciones)
∑ el símbolo que representa una sumatoria

43
Ejemplo 12. Supongamos que la siguiente tabla resume la información recabada
por el dueño de un comercio acerca del número de ausencias que registraron
sus empleados en un periodo determinado:

Frecuencia
Nro absoluta (ni)
2 1
3 5
4 3
5 0
6 2
TOTAL 11

Para facilitar este cálculo puede ser útil construir una tabla de cálculo como la
que sigue:

Frecuencia xi . ni
xi absoluta (ni)
2 1 2
3 5 15
4 3 12
5 0 0
6 2 12
TOTAL 11 ∑ xi .ni = 41
Así,

2 ⋅1 + 3 ⋅ 5 + 4 ⋅ 3 + 5 ⋅ 0 + 6 ⋅ 2
X = = 41/11 = 3,7
11

Se interpreta que el número de ausencias promedio de los empleados es de


aproximadamente 4.

‐ Cálculo de la media muestral para datos continuos o discretos agrupados en


intervalos

En el caso de variables continuas o discretas que se presentan agrupadas en


intervalos de clase el cálculo de la media está dado por la ecuación:

X =
∑ m .n i i

n
donde mi representa la marca de clase o punto medio del intervalo
ni la correspondiente frecuencia absoluta del intervalo
n el tamaño muestral

44
Ejemplo 13. Retomando un caso ya presentado anteriormente, supongamos
que se desea calcular el peso medio a partir de la correspondiente tabla de
distribución de frecuencias:

Distribución del peso (en kg) de adultos masculino al momento del ingreso en un
programa de control del sobrepeso.
Frecuencia
Pesos (kg) absoluta (ni)
82‐86 3
87‐91 7
92‐96 8
97‐101 8
102‐106 7
107‐111 7
TOTAL 40

Para calcular la media agregamos a la tabla anterior un par de columnas que


facilitará dicha tarea. Recuerde que la marca de clase se calcula como el
promedio (o punto medio) entre los límites de cada intervalo. La columna mi . ni
representa el producto entre su marca de clase y la frecuencia absoluta:

Marca de clase Frecuencia


Pesos (kg) (mi) absoluta (ni) mi . ni
82‐86 84 3 252
87‐91 89 7 623
92‐96 94 8 752
97‐101 99 8 792
102‐106 104 7 728
107‐111 109 7 763
TOTAL ‐ 40 ∑ mi .ni = 3910

Luego, X =
∑ m .n i i

3910
X = = 97,7
40

Concluimos entonces que el peso promedio de los adultos masculino al


momento del ingreso en un programa de control del sobrepeso fue de 97,7 kg.

45
LA MEDIANA

La mediana de un conjunto de observaciones es el valor de la variable que se


encuentra a la mitad del conjunto (ordenado de menor a mayor),
dejando por debajo de este valor al 50% de las observaciones
y por encima a la mitad restante.

Denotaremos como Me a la mediana muestral.

‐ Cálculo de la mediana muestral para datos en series simples

Ordenados los datos de una variable de menor a mayor, la mediana muestral


(Me) es el valor de la observación que se encuentra a la mitad o centro del
conjunto de datos si su tamaño (n) es impar. Si el número de observaciones es
par se considera la Me como el promedio de los valores de las dos
observaciones que se encuentren en la mitad del conjunto ordenado.9

Ejemplo 14. Considere los siguientes datos en relación con la concentración de


un determinado indicador biológico en sangre para una muestra de 11
individuos: 15,2 9,3 7,6 11,9 10,4 9,7
9,4 11,5 16,2 9,4 8,3

La lista de valores ordenados es:


7,6 8,3 9,3 9,4 9,4 9,7 10,4 11,5 11,9 15,2 16,2

Dado que el tamaño muestral es impar (n = 11) la Me resultante corresponde al


valor que se encuentra en el centro del conjunto ordenado, en este ejemplo el
valor 9,7. Esto indica que en el 50% de los individuos registró una concentración
de 9,7 o menos para el indicador biológico estudiado, mientras que la mitad
restante de los individuos presentaron concentraciones en sangre de 9,7 o más.

Si en cambio la misma muestra tuviera un dato más, sea 20,4, quedando el


conjunto de valores ordenado de la siguiente manera:
7,6 8,3 9,3 9,4 9,4 9,7 10,4 11,5 11,9 15,2 16,2 20,4

Siendo ahora n = 12, es decir un número par, entonces debemos calcular n/2= 6.
Esto nos indica que el centro del conjunto de datos está entre los valores
ordenados en sexto y séptimo lugar. Luego:

9,7 + 10,4
Me = = 10,05
2

La Me calculada en este caso para la concentración sanguínea del indicador


biológico en cuestión es de 10,05.
46
‐ Cálculo de la mediana muestral para datos discretos agrupados (sin
intervalos)

En el caso de datos discretos agrupados, sin intervalos, es necesario identificar


el valor que divide a la muestra en dos partes iguales a partir de la información
contenida en la tabla de distribución de frecuencias correspondiente. Para ello
se debe calcular n/2 y ubicar en la tabla la frecuencia absoluta acumulada (en su
respectiva columna Ni) aquella que incluya el valor calculado, como se muestra
en el siguiente ejemplo:

Ejemplo 15. Los siguientes datos se refieren al número de controles durante el


embarazo en mujeres de una determinada población rural:

Frecuencia Frecuencia
Nro de controles absoluta (ni) absoluta acumulada (Ni)
0 5 5
1 11 16
2 35 51
3 2 53
4 2 55
5 1 56
TOTAL 56 ‐

A los fines de conocer cuál es la mediana en este caso, calculamos en primer


lugar n/2 = 56/2 =28

Dado el n/2 calculado, el valor de Ni que incluye a 28 es 51. Luego, el valor de la


variable que corresponde a dicha frecuencia absoluta acumulada es 2.
Entonces, el valor de la Me de la variable en estudio es 2. Esto indica que el 50%
de las mujeres realiza 2 controles o menos durante el embarazo y que, por
ende, el 50% restante realiza 2 controles o más.

‐ Cálculo de la mediana muestral para datos continuos o discretos agrupados


en intervalos

Para datos continuos o discretos agrupados en intervalos se toma como Me el


centro (marca de clase) del intervalo central. La fórmula respectiva para su
cálculo es:
(n / 2) − N i −1
Me = Linf + ⋅ ai
ni
siendo:
n / 2 = número total de datos dividido por 2
Linf = el límite inferior del intervalo cuya frecuencia acumulada absoluta ( N i ) incluye
el valor de n / 2 .

47
N i −1 = primera frecuencia absoluta acumulada ( N i ) que no supera a n / 2
ni = frecuencia absoluta del intervalo que contiene al valor n / 2 (en columna N i )
ai = amplitud de dicho intervalo ( ai = límite superior – límite inferior)

Ejemplo 16. En un estudio sobre ingesta alimentaria se registraron los


siguientes datos para la variable edad al momento de la entrevista:

Frecuencia Frecuencia
Edad (años) absoluta (ni) absoluta acumulada (Ni)
15‐29 28 28
30‐44 32 60
45‐59 35 78
60‐74 5 100
TOTAL 100 ‐

Considerando la fórmula correspondiente para el cálculo de la Me tenemos:

Frecuencia Frecuencia
Edad (años) absoluta (ni) absoluta acumulada (Ni)
15‐29 28 N i −1 Æ 28
Linf Æ30‐44 ni Æ32 60 Æ Ni que
incluye a 50
45‐59 35 78
60‐74 5 100
TOTAL 100 ‐

n / 2 = 100/2 = 50 N i −1 = 28 ai = 44 – 30 = 14
Linf = 30 ni = 32

(100 / 2) − 28
Luego, Me = 30 + ⋅ 14 = 39,6 ≅ 40
32

La edad mediana de los sujetos al momento de la entrevista sobre ingesta


alimentaria fue de aproximadamente 40 años, lo cual indica que el 50% de los
entrevistados tuvo esa edad o menos, y el 50% esa edad o más.

48
LA MODA

La moda de un conjunto de observaciones es el valor o modalidad de la


observación que ocurre con mayor frecuencia en el conjunto.9

Es decir que esta medida de posición muestra hacia qué valor tienden los datos
a agruparse.9 Con respecto a la moda cabe destacar que:
‐ corresponde al valor o modalidad de la variable más frecuente, lo cual se
observa a partir de su frecuencia en el conjunto de observaciones, pero no es la
frecuencia en sí misma.
‐ pueden existir más de un valor modal. En tal caso decimos que la variable
presenta una distribución bimodal (con dos modas) ó multimodal.
‐ es la única medida de tendencia central aplicable a variables de tipo
categóricas.

Denotaremos Mo a la moda muestral.

‐ Cálculo de la moda muestral para datos en series simples

Se debe observar, en el conjunto de datos, cuál es el valor que se registra mayor


número de veces.

Ejemplo 17. Los siguientes datos se refieren al número de raciones alimentarias


entregadas por día en un comedor comunitario en el mes de Junio:

50 55 55 60 61 61 61
52 55 55 55 55 60 60
50 50 51 55 61 61 62
53 54 55 55 60 63 63

En este caso se puede observar que el valor que más se repite es 55. Decimos
que la Mo es 55, lo cual indica que la cantidad de raciones que más
frecuentemente se entregan en el comedor es de 55.

49
‐ Cálculo de la moda muestral para datos discretos agrupados (sin intervalos) ó
categóricos

Es el valor o categoría de la variable que registra la frecuencia absoluta más


elevada.

Ejemplo 18. Las siguientes tablas presentan las distribuciones de frecuencias


para las variables motivo de consulta y número de interconsultas recibidas por
semana, de acuerdo a la información recabada en el Servicio de Nutrición de un
hospital regional ubicado en la localidad de Villa María:

Motivo de consulta Frecuencia absoluta (ni)


Enfermedades gastrointestinales 60
Sobrepeso‐Obesidad 126
Enfermedad cardiovascular 91
Anemia 52
Otros 34
TOTAL 363

Nro de interconsultas Frecuencia absoluta (ni)


0 5
1 12
2 21
3 6
4 4
TOTAL 48

Vemos en este ejemplo que la categoría de la variable Motivo de consulta que


más se repite es Sobrepeso‐Obesidad. Entonces, la moda para esa variable es
Sobrepeso‐Obesidad.
Para la variable Número de interconsultas por semana la Mo = 2, dado que
registra la frecuencia más alta en el conjunto.

Podemos decir entonces que Sobrepeso‐Obesidad es el motivo de consulta más


frecuente en el Servicio de Nutrición de dicho hospital, y que la cantidad de
interconsultas que se realiza con mayor frecuencia es de 2 por semana.

50
‐ Cálculo de la moda muestral para datos continuos o discretos agrupados en
intervalos

En el caso de datos cuantitativos agrupados en intervalos, el intervalo con


frecuencia absoluta o relativa más alta recibirá el nombre de intervalo o clase
modal. La moda estará representada por su marca de clase (mi) o punto medio.

Ejemplo 19. Los siguientes datos corresponden a la talla (cm) en adultos


masculinos de una comunidad aborigen ecuatoriana:

Marca de clase Frecuencia


Talla (cm) (mi) absoluta (ni)
140‐149 144,5 8
150‐159 154,5 15
160‐169 164,5 11
170‐179 174,5 9
TOTAL ‐ 43

Aquí, el intervalo o clase modal es 150‐159 cm, por lo que la Mo será su marca
de clase, es decir, 154,5 cm.
Se concluye que la talla más frecuente en la población aborigen estudiada es
154,5 cm.

INTRODUCCIÓN A LA NOCIÓN DE VARIABILIDAD Y SESGO

La variabilidad es una propiedad inherente a toda variable que se refiere


justamente a su posibilidad de variación, esto es, de tomar valores o
modalidades distintas (ej, entre individuos, en el mismo individuo de una
ocasión a otra, o entre observadores). A modo de ejemplo podemos mencionar
la frecuencia cardíaca o la tensión arterial, los cuales cambian tanto de un
individuo a otro como en el mismo individuo según la actividad que realice, e
incluso es factible que varíen en el registro sucesivo de dos observadores
diferentes.4
Las medidas de tendencia central o posición descriptas hasta aquí nos indican
donde se sitúa un grupo de valores. En cambio, las denominadas medidas de
variabilidad o dispersión nos indican si esos valores están próximos entre sí o si
por el contrario están muy dispersos7 en relación a ese valor central. Es
necesario destacar que ambas mediciones son complementarias, y deben
informarse de manera conjunta para una descripción completa del conjunto de
datos.

Obsérvese el caso en que dos conjuntos de mediciones presenten la misma


medida de tendencia central (ej. la misma media) pero con distribuciones de
frecuencias muy distintas (Figura 1). La diferencia radica en la variabilidad o
51
dispersión de las medidas a cada lado de la media.1 En función de esta
propiedad, diremos que una población es más heterogénea cuando presenta
una mayor variabilidad en torno a su centro (existe mayor dispersión de los
datos), y es más homogénea cuando los datos se muestran de modo más
concentrado (menos dispersos).

Figura 1. Distribución de dos poblaciones con igual media y distinta variabilidad de los datos.

Considerando la forma que adopta la distribución de frecuencias de los valores


de una variable, decimos que una distribución es simétrica cuando las
frecuencias a ambos lados de las medidas de posición se distribuyen de igual
manera. En una distribución simétrica media, mediana y moda tienen el mismo
valor.
En las distribuciones asimétricas en cambio hay valores extremos concentrados
en una dirección de la distribución.10 En estos casos hablamos de distribuciones
sesgadas. Este desvío o sesgo puede observarse hacia la derecha o hacia la
izquierda, según las frecuencias más pequeñas se ubiquen a la derecha o a la
izquierda de la distribución, como lo muestra la siguiente representación
gráfica:

Figura 2. Formas de una distribución: A. Asimétrica con sesgo negativo (sesgada a la izquierda);
B. Simétrica; C. Asimétrica con sesgo positivo (sesgada a la derecha).

A. Asimétrica. B. Simétrica C. Asimétrica.


Sesgo negativo Sesgo positivo

52
Si la distribución de la población tiene un sesgo positivo o negativo, como se
observa en la figura anterior, entonces la media es distinta de la mediana y la
moda en esa población.

ALGUNAS CONSIDERACIONES FINALES PARA LA ELECCIÓN DE LA MEDIDA DE


POSICIÓN ADECUADA

De acuerdo a la forma en que se distribuyen los datos y el tipo de variable en


cuestión, se postulan las siguientes consideraciones para la selección de la
medida de posición que mejor resuma la información contenida en el conjunto
de datos:

‐ La media es la medida de elección cuando la distribución de los datos es


homogénea (esto se deduce de la forma simétrica que adopta la distribución).
La media presenta el inconveniente de que es muy sensible a observaciones
atípicas (valores anormales, muy altos o muy bajos), lo cual puede distorsionar
notablemente el valor promedio. Por esto no se recomienda su uso ante la
existencia de valores extremos (atípicos) en el conjunto de datos.
‐ La mediana es recomendable cuando la distribución sea muy asimétrica (hay
pocos valores muy altos o pocos valores muy bajos), lo que sugiere
heterogeneidad de los datos. Presenta la ventaja de que no se ve alterada por la
presencia de valores atípicos o extremos.9
‐ La moda es la única medida de elección para variables categóricas. Provee
también información útil y complementaria en el caso de variables
cuantitativas, salvo que nos encontremos frente a distribuciones bimodales.
‐ Cuando la distribución es bimodal, ninguna medida de posición provee
información útil, todas pierden representatividad. Se puede interpretar que en
esa población se han considerado en realidad dos distribuciones unimodales,10
producto, por ejemplo, de un error de muestreo.

OTRAS MEDIDAS DE POSICIÓN: CUANTILES, CUARTILES, PERCENTILES

Se ha mencionado que la mediana (poblacional o muestral) divide el conjunto


de datos en dos partes de igual tamaño. Para obtener medidas de localización
más finas, se podrían dividir los datos en más de dos partes.3 Esto es el caso de
medidas de posición como los cuantiles, cuartiles y percentiles. En especial nos
referiremos al cálculo de estas medidas en datos agrupados.

53
CUANTIL

Dada una distribución de frecuencia relativa acumulada, se define un cuantil


como el valor bajo el cual se encuentra una determinada proporción de los
valores de la distribución.9

En otras palabras, el cuantil p es aquel valor observado de la variable, en un


conjunto de datos, tal que el número de valores menores o iguales a él
constituyen la proporción p del número total de observaciones.11

Tomemos como ejemplo el cuantil 0,7. En virtud de lo anterior podemos afirmar


que el cuantil 0,7 es un valor tal de la variable que deja por debajo de él una
proporción de 0,7 del número total de observaciones. Esto significa que dicho
valor de la variable deja por debajo de él al 70% de los datos y por encima al
30%.
Siguiendo el mismo criterio, si nos interesara conocer el cuantil 0,95 estaríamos
buscando el valor de la variable que deja por debajo de él al 95% de los datos, y
por encima al 5%, mientras que si nos interesamos en el cuantil 0,4
observaríamos cuál es el valor que deja por debajo el 40% de los datos y por
encima el 60%.

‐ Cálculo de cuantiles para datos discretos agrupados (sin intervalos)

Para el cálculo de un cuantil p determinado, dado:


p = cuantil que quiero investigar n = total de datos

Se calcula en primer lugar: p⋅n

Luego, debemos buscar en la tabla de frecuencias el valor de Ni (frecuencia


absoluta acumulada) que incluya el valor anterior calculado ( p ⋅ n ). El valor de la
variable que corresponda a dicha Ni será el valor del cuantil buscado.

Ejemplo 20. Dados los siguientes datos acerca de la cantidad de frutas


diariamente consumidas en sujetos adultos, se desea estimar el cuantil 0,25.

Nro de frutas consumidas Frecuencia Frecuencia


por día absoluta (ni) absoluta acumulada (Ni)
0 5 5
1 11 16
2 35 51
3 2 53
4 2 55
5 1 56
Total 56 ‐

54
Calculamos p ⋅ n = 0,25 ⋅ 56 = 14

El valor de Ni que incluye a 14 es 16, y el valor de la variable que corresponde a


dicha frecuencia acumulada es 1. Por ende el cuantil 0,25 = 1.
Concluimos que el 25% de los adultos consumen 1 fruta diaria o menos, y el
75% restante 1 fruta o más por día.

‐ Cálculo de cuantiles para datos continuos o discretos agrupados en intervalos

En el caso de datos agrupados en intervalos el cálculo de cuantiles se realiza a


través de la siguiente fórmula:

( p.n) − N i −1
Cuantil p = Linf + ⋅ ai
ni

siendo:
p = cuantil que se desea investigar
n = número total de datos
Linf = límite inferior del intervalo cuya frecuencia acumulada absoluta ( N i ) incluye
el valor de p ⋅ n .
N i −1 = primera frecuencia absoluta acumulada ( N i ) que no supera a p ⋅ n.
ni = frecuencia absoluta del intervalo que contiene al valor p ⋅ n (en columna N i )
ai = amplitud de dicho intervalo ( ai = límite superior – límite inferior)

Ejemplo 21. Supongamos que se desea calcular el cuantil 0,50 para el siguiente
conjunto de datos, correspondiente a la variable peso tomada en una muestra
de 40 mujeres:

Frecuencia Frecuencia
Peso (kg) absoluta (ni) absoluta acumulada (Ni)
45‐49 7 7
50‐54 9 16
55‐59 10 26
60‐64 8 34
65‐69 5 39
70‐74 1 40
TOTAL 40 ‐

55
Considerando la fórmula correspondiente tenemos:

Frecuencia Frecuencia
Peso (kg) absoluta (ni) absoluta acumulada (Ni)
45‐49 7 7
50‐54 9 N i −1 Æ 16
Linf Æ55‐59 ni Æ10 26Æ Ni que
incluye a 20
60‐64 8 34
65‐69 5 39
70‐74 1 40
TOTAL 40 ‐

p ⋅ n = 0,50 ⋅ 40 = 20 N i −1 = 16 ai = 59 – 55 = 4
Linf = 55 ni = 10

(0,50.n) − N i −1
Luego, Cuantil0,50 = Linf + ⋅ ai
ni

20 − 16
Entonces Cuantil0.50 = 55 + ⋅ 4 = 56,6
10

Se concluye que el 50% de las mujeres registraron un peso inferior o igual a 56,6
kg, mientras que la mitad restante presentó un peso igual o superior a 56,6 kg.

PERCENTIL

Con respecto a los percentiles es común referirse a ellos como sinónimo de


cuantiles. Su diferencia radica en que en el primero se especifica un porcentaje
y en el segundo una proporción.11

En términos generales, los percentiles dividen un conjunto de datos, ordenados


de menor a mayor, en 100 partes iguales.
Se define entonces el percentil k como el valor de un conjunto de datos que
deja por debajo de sí el k % de las observaciones.

Así, por ejemplo, el percentil 99 separa al 1% de las observaciones (por encima)


del 99% restante (por debajo); el percentil 3 corresponde al valor que deja por
debajo al 3% de los datos y al 97% por encima de él; el percentil 10 deja por
debajo al 10% y por encima el 90% de las observaciones, y así según sea el
percentil especificado.

56
‐ Cálculo de percentiles para datos discretos agrupados (sin intervalos)

Para el cálculo de percentiles, se aplican el mismo procedimiento descripto para


el cálculo de cuantiles, solo que al referirnos ahora a porcentajes,
p corresponde al valor del percentil a investigar y p ⋅ n se divide por 100.
Calcularemos entonces p ⋅ n /100, y luego se seguirá la misma forma de cálculo
que se explicó para cuantiles.

‐ Cálculo de percentiles para datos continuos o discretos agrupados en


intervalos

Lo mismo sucede en el caso de datos agrupados en intervalos, debiendo


aplicarse ahora la fórmula de la siguiente manera:

p⋅n
( ) − N i −1
Percentil p = Linf + 100 ⋅ ai
ni

siendo:
p =percentil que se desea investigar
n = número total de datos
Linf = el límite inferior del intervalo cuya frecuencia acumulada absoluta ( N i ) incluye
p⋅n
el valor de
100
p⋅n
N i −1 = primera frecuencia absoluta acumulada ( N i ) que no supera a
100
p⋅n
ni = frecuencia absoluta del intervalo que contiene al valor (en columna N i )
100
ai = amplitud de dicho intervalo ( ai = límite superior – límite inferior)

Siguiendo con el Ejemplo 21 acerca del peso de mujeres, supongamos que se


desea calcular el percentil 30. Siendo en este caso: p = 30 y n=40, el valor de
p⋅n
= 12.
100

Tomando dicho valor de referencia para aplicar la fórmula, tenemos:


Linf = 50 ni = 9
N i −1 = 7 ai = 54 – 50 = 4

Entonces,
30 ⋅ n
( ) − N i −1
Percentil30 = Linf + 100 ⋅ ai
ni

57
12 − 7
Percentil30 = 50 + ⋅ 4 = 50,5
40

Se concluye que el 30% de las mujeres registraron un peso inferior o igual a 50,5
kg, mientras que el 70% restante presentó un peso igual o superior a dicho
valor.

CUARTILES

Los cuartiles son valores de la variable que dividen el conjunto de datos


(ordenados de menor a mayor) en cuatro partes iguales.

Denotaremos los cuartiles con la letra Qi, donde el subíndice i representa el


orden del cuartil (1, 2 ó 3).
Así, como se muestra en la siguiente figura, las observaciones por encima del
tercer cuartil (Q3) corresponden al cuarto superior del conjunto de datos, el
segundo cuartil (Q2) es idéntico a la mediana y el primer cuartil (Q1) separa el
cuarto inferior de los tres cuartos superiores.3

Figura 3. Representación gráfica de un conjunto de datos y su división en cuartiles (Qi)

Q1 Q2 Q3
¼ ¼ ¼ ¼

Vemos que:
Q1= es el valor que deja por debajo de él al 25% de los datos y por encima al
75%.
Q2= es el valor que deja por debajo de él al 50% de los datos y por encima al
50% restante (es decir, equivale al valor de la mediana).
Q3= es el valor que deja por debajo de él al 75% de los datos y por encima al
25%.

‐ Cálculo de cuartiles para datos discretos agrupados (sin intervalos)

Para calcular los diferentes cuartiles (Qi) debemos calcular:

n
para el primer cuartil (Q1); luego buscar el valor de Ni que incluye a n/4. El
4
valor de la variable que corresponda al Ni encontrado será el valor de Q1.

58
2⋅n 2⋅n
para el segundo cuartil (Q2); luego buscar el valor de Ni que incluye a .
4 4
El valor de la variable que corresponda al Ni encontrado será el valor de Q2.

3⋅ n 3⋅ n
para el tercer cuartil (Q3); luego buscar el valor de Ni que incluye a . El
4 4
valor de la variable que corresponda al Ni encontrado será el valor de Q3.

Ejemplo 22. Veamos el siguiente ejemplo, correspondiente a la variable número


de veces que consultó al odontólogo al año, levantada en una encuesta de salud
del adulto realizada en una determinada comunidad:

Frecuencia
Nro. de consultas Frecuencia absoluta
odontológicas absoluta (ni) acumulada (Ni)
0 28 28
1 20 48
2 30 78
3 52 130
4 40 170
5 30 200
Total 200 ‐

n
= 50; luego el valor de Ni que incluye a 50 es 78. Entonces, Q1= 2
4

2⋅n
= 100; luego el valor de Ni que incluye a 100 es 130. Entonces, Q2= 3
4

3⋅ n
= 150; luego el valor de Ni que incluye a 150 es 170. Entonces, Q3= 4
4

Se concluye que:
‐ un 25% o menos de los sujetos encuestados realizaron 2 consultas anuales al
odontólogo o menos, y un 75% 2 o más consultas.
‐ el 50% o menos de los sujetos encuestados realizaron 3 o menos consultas
anuales al odontólogo, y el 50% restante 3 o más consultas.
‐ un 75% o menos de los sujetos encuestados realizaron hasta 4 consultas
anuales al odontólogo, y un 25% realizaron 4 o más consultas.

‐ Cálculo de cuartiles para datos continuos o discretos agrupados en intervalos

Se sigue el mismo procedimiento que en el cálculo de cuantiles, con la siguiente


variación en la fórmula:

59
Q⋅n
( ) − N i −1
Cuartil Q = Linf + 4 ⋅ ai
ni

siendo:
Q= cuartil que se desea investigar (1, 2 ó 3, según sea el caso)
n = número total de datos
Linf = el límite inferior del intervalo cuya frecuencia acumulada absoluta ( N i ) incluye
Q⋅n
el valor de
4
Q⋅n
N i −1 = primera frecuencia absoluta acumulada ( N i ) que no supera a
4
Q⋅n
ni = frecuencia absoluta del intervalo que contiene al valor (en columna N i )
4
ai = amplitud de dicho intervalo ( ai = límite superior – límite inferior)

60
MEDIDAS DE VARIABILIDAD O DISPERSIÓN

Para describir los datos de un conjunto de mediciones de manera adecuada es


preciso, además de indicar el centro de su distribución, definir medidas de la
variabilidad o dispersión de los datos.
Nos referiremos a continuación a las más comúnmente empleadas en
estadística: la varianza y la desviación estándar, luego al rango, rango
intercuartílico y el coeficiente de variación.

VARIANZA Y DESVIACIÓN ESTÁNDAR

En términos generales la varianza y la desviación estándar (también llamada


desvío estándar) tienen que ver con la dispersión (o desviación) de los datos
respecto de la media, lo cual se obtiene restando X de cada una de las
observaciones de la muestra.

La varianza y desviación estándar muestral se denotan por S2 y S,


respectivamente, mientras que la varianza y desviación estándar de una
población se denotan como σ 2 y σ .

‐ Cálculo de la varianza y desviación estándar muestral para datos en series


simples

La varianza muestral (S2) tiene la siguiente expresión:

S 2
=
∑ (x i −X )2
n −1

Donde: xi = distintos valores observados para la variable


X = media muestral
n = total de observaciones

La desviación estándar muestral, representada por S, es igual a la raíz cuadrada


de la varianza:

S = S2

entonces S=
∑ (x i −X )2
n −1

61
Ejemplo 23. Dada la variable cantidad de seminarios de capacitación dictados al
año por equipos de salud dependientes del Ministerio de Salud de una
determinada provincia, se obtuvieron los siguientes datos:

2, 4, 6, 4, 7, 4, 7, 8, 10, 9

Se desea conocer la varianza y desviación estándar de esta muestra.


Se observa que el tamaño de la muestra (n) es 10 y se calcula el valor de la
media muestral:

X = 6,1 n= 10

Luego,

∑(x −X) = (2‐6,1) + (4‐6,1) + (6‐6,1) + (4‐6,1) + (7‐6,1) + (4‐6,1) + (7‐6,1) + (8‐6,1) + (10‐6,1) +(9‐6,1)
i
2 2 2 2 2 2 2 2 2 2 2

= 58,9

Entonces: S2 =
∑ (x i −X )2
=
58,9
= 6,54
n −1 10 − 1

y el valor de S es S = S2
= 6,54 = 2,56 ≅ 3

La varianza nos indica cuánto distan, en promedio, los valores de la variable de


su media, expresado esto al cuadrado. Para una interpretación más sencilla se
utiliza la desviación estándar.
En este caso decimos que la varianza muestral es 6,54 seminarios al cuadrado
dictados al año por los equipos de salud. Basándonos en el valor de S calculado,
en cambio, podemos decir que el promedio ( X ) de la cantidad de seminarios
dictados es de 6 al año y que la mayoría de los equipos de salud dictaron entre 3
y 9 seminarios. Esto se deduce de calcular X ± 1 desvío estándar (o sea 6 ± 3 en
este ejemplo).

62
‐ Cálculo de la varianza y desviación estándar muestral para datos discretos
agrupados (sin intervalos)

Para datos discretos agrupados sin intervalos, se puede calcular la varianza


muestral mediante la aplicación de la siguiente fórmula:

S 2
=
∑ n (x
i i −X )2
n −1

Siendo ni = la frecuencia absoluta de cada observación


xi = los distintos valores observados para la variable
X = la media muestral
n = el total de observaciones

La desviación estándar muestral como se mencionó anteriormente, también


para esta situación, es la raíz cuadrada de S 2 :

S=
∑ n (x i i −X )2
n −1

Siguiendo el ejemplo anterior (23), suponiendo que los datos se nos presentan
ahora de modo agrupado:

Frecuencia
Cantidad de seminarios absoluta (ni)
2 1
4 3
6 1
7 2
8 1
9 1
10 1
TOTAL 10

Sabemos que: X = 6,1 y n= 10

63
La siguiente tabla de cálculo los facilitará la aplicación de la fórmula:

Cant.
Frecuencia | xi − X | (x i −X )
2
(
ni ⋅ x i − X )2

absoluta (ni)
2 1 4,1 16,81 16,81
4 3 2,1 4,41 13,23
6 1 0,1 0,01 0,01
7 2 0,9 0,81 1,62
8 1 1,9 3,61 3,61
9 1 2,9 8,41 8,41
10 1 3,9 15,21 15,21
TOTAL 10
∑ ( )2
ni ⋅ x i − X = 58,9

Luego, S 2
=
∑ n (x i i −X )2
n −1

58,9
S2 = = 6,54
10 − 1

Entonces S = 6,54
S = 2,56 ≅ 3

Se concluye que la mayoría de los equipos de salud dictaron entre 3,1 y 9,1
seminarios, con un promedio de 6,1 seminarios anuales.

‐ Cálculo de la varianza y desviación estándar muestral para datos continuos o


discretos agrupados en intervalos

Para calcular S 2 y S en el caso de tener datos agrupados en intervalos la única


diferencia con respecto a las fórmulas anteriores presentadas es que en las
mismas se reemplaza xi por la marca de clase (punto medio del intervalo),
denotada por mi .

Así, S 2
=
∑ n (m i i −X )2
y S=
∑ n (m
i i −X )2
n −1 n −1

Siendo ni = la frecuencia absoluta de cada observación


mi = la marca de clase
X = la media muestral
n = el total de observaciones

64
Supongamos que los datos trabajados en el ejemplo 23 se presenten de modo
agrupado en intervalos, con X = 6,1 :

Marca Frecuencia
de clase absoluta
Cant. ( mi ) (ni) | mi − X | (m i−X )
2
(
ni ⋅ mi − X ) 2

2‐4 3 4 3,1 9,61 38,44


5‐7 6 3 0,1 0,01 0,03
8‐10 9 3 2,9 8,41 25,23
TOTAL 10
∑ ( ) 2
ni ⋅ mi − X =63,7

Luego, S 2
=
∑ n (m
i i −X )2
=
63,7
=7
n −1 10 − 1

y S=
∑ n (mi i −X )2
=
63,7
= 2,64
n −1 10 − 1

Se concluye que la mayoría de los equipos de salud dictaron entre 3,5 y 8,7
seminarios al año ( X ± S = 6,1 ± 2,64) .

RANGO O RECORRIDO

El rango o recorrido (R) de las observaciones


en un conjunto de datos es la diferencia entre
el valor más grande ( xmax ) y el más pequeño ( x min ) del conjunto.

Su cálculo se puede expresar de la siguiente manera:

R = x max − x min

Por su simplicidad, el rango proporciona una rápida indicación de la variabilidad


entre las observaciones de un conjunto de datos,9 pero debe usarse con
precaución en el caso de conjuntos de datos muy grandes o que contengan
algunas observaciones extremas.

Ejemplo 24. Se tomó una muestra correspondiente a la cantidad de botellas


producidas por día en una planta de una marca comercial de bebidas
saborizadas durante un periodo determinado:

65
301 303 305 310 315 316 317 320

Así, el valor del rango para esta muestra es:

R= 320 – 301 = 19

Es decir que la diferencia entre la mayor y menor cantidad de bebidas


saborizadas producidas diariamente en la planta es de 19 botellas.

RANGO O RECORRIDO INTERCUARTÍLICO

El rango o recorrido intercuartílico (RI) refleja la variabilidad de las


observaciones comprendidas entre los cuartiles primero (Q1) y tercero (Q3) en
el conjunto de datos.9

Es decir que permite conocer entre cuáles valores de una serie de datos se halla
el 50% central, considerando que Q1 deja por debajo el 25% de las
observaciones y Q3 deja por encina el 25%.8
Esta medida presenta la ventaja de que no es afectada por la presencia de
observaciones relativamente grandes.9

Su cálculo sería:
RI = Q3 – Q1

Recuerde que para la aplicación de esta fórmula debe retomarse lo explicado


para cálculo de cuartiles según se trate de datos agrupados con o sin intervalos.

Retomando el Ejemplo 22, sobre número de consultas al odontólogo al año,


donde el Q3 calculado fue 4 y el Q1 fue 2, tenemos:

RI = 4 – 2 = 2

Es decir que el 50% central de los encuestados registró entre 4 y 2 consultas


anuales, lo que representa 2 unidades de variabilidad en torno al centro de la
distribución para la variable en cuestión. En otras palabras, el intervalo
abarcado por el 50% de las observaciones centrales es de 2 unidades de la
variable estudiada.

66
COEFICIENTE DE VARIACIÓN

Se denomina coeficiente de variación (CV) al cociente entre la desviación


estándar (S) y la media muestral ( X ), multiplicado por 100:

S
CV = ⋅ 100
X

El CV es una medida relativa de variabilidad. Permite comparar la variabilidad u


homogeneidad de distintos grupos de datos, aun cuando estos presenten
diferentes unidades de medición o se refieran a distintas variables.

Ejemplo 25. Se desea conocer el CV para las siguientes variables


antropométricas registradas a partir de una determinada muestra:

a) Talla (en m), la cual presentó una X = 1,47 m y un S = 0,13 m


b) Peso (en kg), el cual obtuvo una X = 67 kg y un S = 3 kg

Luego,

0,13
a) Talla: CV = ⋅100 = 8,84%
1,47
3
b) Peso: CV = ⋅100 = 4,47%
67

Los resultados obtenidos indican que, en este caso, el peso es más homogéneo
que la estatura. O lo que es lo mismo, que el peso presenta menor variabilidad
que la estatura.

67
BIBLIOGRAFÍA - MÓDULO 2

1. Wackerly DD, Mendenhall W, Scheaffer R. Estadística matemática con aplicaciones.


6ta ed. México, D.F.: International Thompson Ed.; 2002.

2. Peña D. Fundamentos de Estadística. Madrid: Alianza Editorial; 2001.

3. Devore JL. Probabilidad y Estadística para ingeniería y ciencias. 6ta ed. México, D.F:
International Thompson Ed.; 2005.

4. Sabulsky J. Investigación científica en salud‐enfermedad. 2da. Ed. Córdoba: Ed.


Kosmos S.R.L.; 1998.

5. Beaglehole R, Bonita R, Kjellstrom T. Epidemiología básica. Washington, D.C.: OPS;


1994.

6. Moschetti E, Ferrero S, Palacios G, Ruiz M. Introducción a la Estadística para las


Ciencias de la Vida. Editorial Fundación UNRC; 2000.

7. Ríus Díaz F, Barón Lopez FJ, Sánchez Font E, Parras Guijosa L. Bioestadística:
Métodos y Aplicaciones. Facultad de Medicina, Universidad de Málaga. Disponible en
http://www.bioestadistica.uma.es/libro/

8. Bordón LG. Estadística aplicada a Ciencias de la Salud. Una herramienta para la


Investigación. 5ta ed. Córdoba: LG Bordón Ed. 1999.

9. Canavos GC. Probabilidad y Estadística. Aplicaciones y métodos. México, D.F.:


McGraw‐Hill; 1988.

10. Blanch N, Joekes S. Curso de Estadística aplicada a la Investigación. Departamento


de Educación a Distancia, Facultad de Ciencias Económicas, UNC. 8va. Ed. Córdoba:
UNC; 2005.

11. Di Rienzo JA, Casanoves F, Gonzalez LA et al. Estadística para las Ciencias
Agropecuarias. 6ta ed. Córdoba: Ed. Brujas.2005.

68
ESTADÍSTICA Y
BIOESTADÍSTICA

MÓDULO 3

PROBABILIDAD

69
70
INTRODUCCIÓN

En general el término probabilidad es asociado, en la vida cotidiana, a una


medida de nuestra confianza o posibilidad de ocurrencia de un evento futuro.1‐2
En estadística podemos decir que la probabilidad nos brinda las herramientas
para el estudio de fenómenos aleatorios, es decir, aquellos cuyos resultados no
se pueden predecir con certeza.
En este módulo intentaremos precisar e interpretar su concepto, entender
cómo se mide e ilustrar el uso de la probabilidad en la inferencia estadística.

ALGUNAS NOCIONES BÁSICAS EN PROBABILIDAD

Antes de definir formalmente la probabilidad es necesario introducir algunas


nociones básicas relacionadas, como lo son el concepto de experimento
aleatorio, evento aleatorio y espacio muestral.

En primer lugar diremos que un experimento es el proceso mediante el cual se


lleva a cabo una observación.1 Entonces,

Un experimento aleatorio es un proceso cuyo resultado no se puede predecir.3

Se pueden mencionar como ejemplos el lanzamiento de un dado o una moneda,


el cálculo de la cantidad de bacterias/cc en una porción de alimento procesado,
entre otros.1

Cuando se efectúa un experimento se puede obtener uno o varios resultados


posibles.

El conjunto de todos los resultados posibles de un experimento aleatorio se


denomina espacio muestral. Lo denotaremos con Ω (omega).

Así, para el experimento aleatorio “lanzar una moneda”, los resultados posibles
serán sacar cara (C) o cruz (X). El espacio muestral en este ejemplo será:
Ω1 = {C, X}

Si el experimento consistiera en “lanzar dos monedas”, el espacio muestral


asociado sería ahora:
Ω2 = {(C,C), (X,X), (C,X), (X,C)}

71
Obsérvese que, si lo analizamos desde la teoría de los conjuntos, cada conjunto
Ω puede descomponerse en determinada cantidad de elementos que lo
componen: 2 elementos para Ω1 y 4 para Ω2.

Cada uno de los elementos del conjunto Ω se denomina punto muestral.

La cantidad de elementos o puntos muestrales que conforman un Ω puede


calcularse como r n, siendo n las repeticiones de un determinado experimento y
r el número de resultados posibles. En el caso anterior, para Ω1 el número de
puntos muestrales será 21 = 2, y para Ω2 será 22 = 4.

Sobre un experimento aleatorio se pueden definir a su vez diferentes eventos


aleatorios.

Dado un espacio muestral Ω, se llama evento a cualquier subconjunto de Ω.


Se utilizará para denotar un evento una letra mayúscula (A, B, C, etc).

Así, podríamos decir que un evento es un conjunto (incluido en Ω) formado por


algunos de los resultados posibles de un experimento aleatorio.
Por ejemplo para el experimento de lanzar dos monedas, antes mencionado,
algunos eventos relacionados serían:

A: Observación de dos caras.


B: Observación de una cara y una cruz.

Se denominan eventos mutuamente excluyentes a aquellos que no pueden


darse simultáneamente.

En otras palabras, decimos que dos eventos A y B de un espacio muestral Ω son


mutuamente excluyentes si no contienen elementos en común, o sea si la
intersección de A y B es un conjunto vacío.4 En símbolos: A B =

Por ejemplo, dado los eventos A y B mencionados, para el lanzamiento de dos


dados:
A= {CC} y B= {(CX), (XC)}

72
Puede observarse que A y B no tienen elementos en común, y por ende, son
eventos mutuamente excluyentes.

DEFINICIONES DE PROBABILIDAD

La definición formal de probabilidad se enuncia, en el campo de la Estadística,


desde tres enfoques:
• Definición clásica de probabilidad
• Definición frecuencial de probabilidad
• Definición axiomática de probabilidad

DEFINICIÓN CLÁSICA DE PROBABILIDAD:

La probabilidad de que ocurra un evento A, denotada como P(A), es igual a la


cantidad de resultados favorables (m) a dicho evento, sobre el total de
resultados posibles (n) del experimento en cuestión. En símbolos: P(A) = m / n

Esta definición se aplica a los casos en que el espacio muestral es finito (posee un
número definido de elementos) y en que todos los resultados del experimento son
igualmente posibles (es decir, son equiprobables).

Ejemplo 1. Supongamos que observamos el sexo de nacimiento en una pareja de


mellizos. Se define el evento A: “Ambos mellizos tienen el mismo sexo”.
Denotaremos como F al sexo femenino y M al masculino.
El espacio muestral Ω para este experimento estaría conformado por los
siguientes 4 resultados posibles:

Ω = {(F,M), (M,F), (F,F), (M,M)}

Por otra parte, el evento A de interés posee dos puntos muestrales:

A = {(F,F), (M,M)}

Luego, P(A) = resultados favorables al evento A / resultados posibles en Ω


= 2 / 4 = 0,5

73
Podemos decir que la probabilidad de que ambos mellizos tengan el mismo sexo
es de 0,5.

DEFINICIÓN FRECUENCIAL DE PROBABILIDAD:

En muchas situaciones prácticas, los posibles resultados de un experimento no


son igualmente probables. En ese caso, no es correcto estimar la probabilidad
mediante la definición clásica. En su lugar, se emplea la interpretación de la
probabilidad como una frecuencia relativa.
Esta definición descansa en la idea de que si un experimento se efectúa y se
repite muchas veces, bajo las mismas condiciones, la probabilidad de un evento
en particular puede asimilarse a la frecuencia relativa.2,5 De hecho, la
experiencia indica que la frecuencia relativa tiende a estabilizarse para grandes
valores de n.
El concepto frecuencial de probabilidad puede ser enunciado entonces como
sigue:

Si A es un evento y nA es el número de veces que A ocurre en N repeticiones


independientes del experimento, la probabilidad del evento A, se define como
nA/N para un N lo suficientemente grande.4 En símbolos: P(A) = nA/N

Ejemplo 2. Considérese la observación de las cualidades organolépticas de un


alimento en una fábrica un experimento aleatorio. Se define el siguiente evento:
A = “Observar un alimento con cualidades organolépticas adecuadas”.
Si se observan 1000 alimentos (se repite 1000 veces el experimento, o sea
N=1000), bajo condiciones uniformes, y se encuentran 900 alimentos con
adecuadas cualidades organolépticas (nA = 900), se dice que la probabilidad de
observar un alimento con cualidades organolépticas adecuadas está dada por:

P(A) = 900/1000 = 0,90

DEFINICIÓN AXIOMÁTICA DE PROBABILIDAD:

La definición axiomática de probabilidad sólo establece las condiciones


(axiomas) que debe cumplir una probabilidad. Así, para cada evento A en un
determinado espacio muestral Ω, asignamos un número denominado
probabilidad de A, al cual denotaremos como P(A), de tal manera que se
cumplen los siguientes axiomas: 1
Axioma 1: P(A) ≥ 0

74
Axioma 2: P(Ω) = 1
Axioma 3: Si A1, A2, A3, ... forman una sucesión de eventos mutuamente
excluyentes, entonces: P(A1 U A2 U A3 U ...) = ∑ P(Ai)

El símbolo U implica la unión o suma de eventos.

De estos tres axiomas se deduce algunas características importantes de la


probabilidad, como las que siguen:
• La probabilidad es un número entre cero y uno,
• La probabilidad de Ω (total de resultados posibles) es siempre uno.
• Si no hay ningún resultado en común entre dos eventos A1 y A2, la
probabilidad de que ocurra A1 o A2 es igual a la probabilidad de que
ocurra A1 más la probabilidad de que ocurra A2.6

A continuación se demuestran algunas derivaciones de la aplicación de los


axiomas enunciados.

PROBABILIDAD DEL SUCESO SUMA, COMPLEMENTO Y PRODUCTO

En probabilidad es posible enunciar algunas leyes que permiten determinar, por


ejemplo, las probabilidades de las uniones o intersecciones de eventos. Se
presenta a continuación el cálculo del suceso suma, complemento y producto,
basado en dichas leyes o reglas de probabilidades.

PROBABILIDAD DEL SUCESO SUMA

Sea Ω un espacio muestral que contiene a dos eventos cualquiera A y B,


entonces la probabilidad de la suma de estos dos eventos es:
P(A U B) = P(A) + P(B) – P(A B)
Esta fórmula se aplica a eventos no mutuamente excluyentes (es decir, que
presentan elementos en común).

En el caso de calcular la probabilidad de la suma para dos eventos mutuamente


excluyentes, donde A B = (o sea toma valor cero), la fórmula a aplicar se
reduce a:
P(A U B) = P(A) + P(B)

75
Considérese que A U B significa que, al efectuar un experimento, aparece el
evento A o el evento B o ambos (A B), donde el término "o" indica la operación
matemática de la suma.2

Ejemplo 3. En un ejercicio de promoción de una nueva bebida se ofrece a un


sujeto dos vasos con diferente contenido (bebida 1 y 2, denotadas como B1 y
B2). Si debe elegir una bebida al azar en dos oportunidades, ¿cuál es la
probabilidad de que elija la primera vez o la segunda o ambas la bebida 2?

A este ejemplo corresponde el siguiente espacio muestral Ω:

Ω= { (B1,B1); (B1,B2); (B2,B1); (B2,B2) }

Lo que se pide en el enunciado es la probabilidad de la unión de los eventos A y


B, los cuales se definen como:

A: Elegir la bebida 2 (B2) la primera vez


B: Elegir la bebida 2 (B2) la segunda vez

Estos eventos no son mutuamente excluyentes, luego la probabilidad de la


unión será igual a la suma de las probabilidades de A y B menos la probabilidad
de la intersección. Entonces:

P(A U B) = P(A) + P(B) – P(A B)


P(A U B) = 2/4 + 2/4 – 1/4
P(A U B) = 0,75

La probabilidad de que el sujeto elija la primera vez o la segunda o ambas la


bebida 2 es de 0,75.

PROBABILIDAD DEL SUCESO COMPLEMENTO

Otro resultado útil esta dado por la relación entre la probabilidad de un evento
y su complemento (es decir aquel evento que ocurre siempre que no lo hace A).6
Si A es un evento complementario de A, entonces:

P(A) = 1 – P( A )

76
Adviértase que el espacio muestral Ω = A U A . El resultado se infiere de
considerar que A y A son dos eventos mutuamente excluyentes, y que P(Ω) =
1, como lo enuncia el axioma correspondiente.

Ejemplo 4. Se desea calcular la probabilidad de contraer una determinada


enfermedad en una determinada región geográfica, sabiendo que la
probabilidad de no contraerla es de 0,95.
Así, siendo el evento A= {contraer la enfermedad}, entonces su complemento es
A = {no contraer la enfermedad}, con probabilidad conocida P( A ) = 0,95.
Luego,
P(A) = 1 – P( A )
P(A) = 1 – 0,95
P(A) = 0,05

Podemos afirmar que la probabilidad de contraer la enfermedad en esa región


es de 0,05.

PROBABILIDAD DEL SUCESO PRODUCTO

Antes de presentar la probabilidad del suceso producto, es necesario conocer el


concepto de probabilidad condicional y eventos independientes.

PROBABILIDAD CONDICIONAL: La probabilidad condicional de un evento A,


suponiendo que ocurrió el evento B, es igual a:

P( A ∩ B)
P( A B) =
P( B)

siempre y cuando P(B) > 0. El símbolo P ( A B ) se lee: probabilidad de A dado B.1

Ejemplo 5. Supongamos que se lanza un dado una vez. Se definen los siguientes
eventos A y B, y se desea determinar la probabilidad de A dado que ocurrió el
evento B.
A: Observación de un 1.
B: Observación de un número impar.

77
El espacio muestral correspondiente a este experimento sería:
Ω = {1, 2, 3, 4, 5, 6}

A∩ B implica que se observe un 1 y un número impar.

Si observamos el espacio muestral comprobamos que la probabilidad de que


ocurra simultáneamente el evento A y el evento B es 0,17 dado que:
P( A ∩ B) = 1/6 = 0,17

La probabilidad de que ocurra el evento B, o sea de observar un número impar


es: P ( B ) = 3/6 = 0,50

Luego:
P ( A ∩ B ) 0,17
P( A B) = = = 0,34
P( B) 0,50

Concluimos que la probabilidad de que salga un 1, dado que ya se obtuvo un


número impar es 0,34.

EVENTOS INDEPENDIENTES: Se dice que dos eventos A y B son independientes


si cumplen cualquiera de las siguientes condiciones:

P( A B) = P( A)
P( B A) = P( B)
P( A ∩ B) = P( A) ⋅ P( B)

Si no se cumplen, se dice que los eventos son dependientes.1

Ejemplo 6. Considere los siguientes eventos relacionados con el lanzamiento de


un dado:
A: Observación de un número impar.
B: Observación de un número par.

Como se mencionó anteriormente, el espacio muestral Ω para este ejemplo


estaría conformado por los siguientes resultados posibles:

Ω = {1, 2, 3, 4, 5, 6}

78
Para decidir si A y B son independientes debemos analizar si satisfacen las
condiciones anteriores. Vemos que:
P(A) = 3/6 = 0,50 P(B) = 3/6 = 0,50
Como A ∩ B = ; P( A B) = 0, entonces resulta evidente que P( A B) ≠ P( A) .
Tampoco se cumple la igualdad: P( A ∩ B) = P( A) ⋅ P( B) , dado que A ∩ B = 0 y el
producto de las probabilidades del evento A y B = 0,50 . 0,50 = 0,25.
Decimos entonces que los eventos A y B son eventos dependientes.

PROBABILIDAD DEL SUCESO PRODUCTO: A partir de la propiedad multiplicativa


de la probabilidad se enuncia que la probabilidad de la intersección de dos eventos
A y B, si son eventos independientes, es:

P ( A ∩ B ) = P( A) ⋅ P ( B )

Considérese que A B significa que, al efectuar un experimento, aparece el


evento A y el evento B, donde el término "y" indica la intersección.1

Ejemplo 7. Supóngase que el evento A= ocurrencia de la enfermedad A, y el


evento B= ocurrencia de la enfermedad B. Si ambos son eventos independientes
y se conoce que: P(A) = 0,2 P(B) = 0,3

Se desea calcular la probabilidad de ocurrencia de ambas enfermedades


conjuntamente. Esto es, la probabilidad de la intersección: P(A B). Entonces,

P ( A ∩ B ) = P( A) ⋅ P ( B )

P ( A ∩ B ) = 0,2 ⋅ 0,3 = 0,06

La probabilidad de la intersección, o sea de la ocurrencia simultánea de la


enfermedad A y B, es de aproximadamente 0,1.

79
TEOREMA DE BAYES

Si A1,A2, ...,An son n eventos mutuamente excluyentes, de los cuales uno debe
ocurrir, es decir que ∑ (Ai) = 1, entonces

P ( Ai ) ⋅ P ( B Ai )
P ( Ai B ) =
P ( Ai ) ⋅ P ( B Ai ) + P ( A j ) ⋅ P ( B A j )

Se observa que el teorema de Bayes permite calcular la probabilidad condicional


de An dada la ocurrencia de un evento B, teniendo la probabilidad condicional
inversa. En otras palabras, este teorema vincula la probabilidad de A dado B con
la probabilidad de B dado A.
Veamos la aplicación de la fórmula con el siguiente ejemplo.

Ejemplo 8. Existe evidencia científica que sugiere que el consumo frecuente de


café está asociado al desarrollo de cierta patología intestinal. Supóngase que en un
grupo de pacientes bajo estudio se conoce que la proporción de consumidores de
café es de 0,45. ¿Cuál es la probabilidad de que un paciente con la patología
intestinal, seleccionado al azar, sea consumidor frecuente de café? Se sabe
además que la probabilidad de presentar la enfermedad (llámese P del evento B),
dado que se consume café es 0,90 mientras que la probabilidad de presentar la
enfermedad puesto que no se consume café es de 0,05.

Si se elige un paciente al azar, el espacio muestral para este caso sería la unión
de los sucesos Ai= {que el paciente consuma café} y Aj= {que el paciente no
consuma café}. Se deduce del enunciado las probabilidades para estas dos
alternativas:
P (Ai ) = 0,45
P (Aj ) = 0,55
Sabíamos que:
P ( B Ai )
= 0,90
P( B A j )
= 0,05

Se desea determinar la probabilidad de seleccionar un paciente que consuma


café, puesto que presenta la enfermedad intestinal, o sea P ( Ai B) .
Del teorema de Bayes se tiene:

80
P( Ai ) ⋅ P( B Ai )
P( Ai B) =
P( Ai ) ⋅ P( B Ai ) + P( A j ) ⋅ P( B A j )
Luego,
0,45 ⋅ 0,90
P( Ai B) =
0,45 ⋅ 0,90 + 0,55 ⋅ 0,05

P( Ai B) = 0,94

La probabilidad de que un paciente con la patología intestinal de interés,


seleccionado aleatoriamente, sea consumidor frecuente de café es de 0,94.

CONCEPTO DE VARIABLE ALEATORIA

En todo proceso de observación o experimento podemos definir una variable


aleatoria asignando a cada resultado un número.6

Una variable aleatoria es una función que asocia a cada elemento de un


espacio muestral Ω un número real.4

Diremos que una variable aleatoria es discreta si el número de valores que puede
tomar es contable (ya sea finito o infinito), y si estos corresponden a números
enteros positivos.5 Estas variables corresponden a experimentos en lo que se cuenta
el número de veces que ha ocurrido un suceso.6 Por ejemplo: número de latas
vencidas, número de personas con cierta patología, número de lotes dañados,
cantidad de células infectadas, etc.

Diremos que una variable aleatoria es continua si puede tomar cualquier valor en un
intervalo. Por ejemplo, el peso de una persona, el tiempo de duración de un suceso,
etc.6

Ejemplo 9. Supongamos que en un control bromatológico se observa la


contaminación de un determinado producto alimentario, observando tres unidades
del producto en un orden determinado. Así, cada unidad puede estar contaminada
(C) o no contaminada (N).

81
El espacio muestral de este experimento será:

Ω = { (CCC); (CCN); (CNC); (NCC); (CNN); (NNC); (NCN); (NNN)}

Si definimos la variable aleatoria X como el número de unidades contaminadas,


podemos asignar a cada resultado posible un valor numérico:

CCC = 3
CCN = 2
CNC = 2
NCC = 2
CNN = 1
NNC = 1
NCN = 1
NNN = 0

Es decir que la variable aleatoria número de unidades contaminadas puede tomar


valores 0, 1, 2 ó 3, quedando conformado su correspondiente espacio muestral
como sigue:
Ω = { 3, 2, 2, 2, 1, 1, 1, 0}

Asumiendo igual probabilidad para cada punto muestral, tenemos que:

P(X=0) = 1/8 = 0,125


P(X=1) = 3/8 = 0,375
P(X=2) = 3/8 = 0,375
P(X=3) = 1/8 = 0,125

Diremos que se ha construido un modelo de distribución de probabilidad cuando se


especifican los posibles valores de la variable con sus respectivas probabilidades,6
como lo muestra el siguiente gráfico:

82
P 0,4
0,3

0,2

0,1

0
0 1 2 3

Figura 1. Distribución de probabilidad de la variable aleatoria X.

VARIABLES ALEATORIAS DISCRETAS : FUNCIONES DE PROBABILIDAD Y DE


DISTRIBUCIÓN

En general, una variable aleatoria discreta X representa los resultados de un espacio


muestral en forma tal que por P (X= x) se entenderá la probabilidad de que la variable
X tome un valor específico x. De esta forma, al considerar los valores de una variable
aleatoria es posible desarrollar una función matemática que asigne una probabilidad
a cada posible valor x de la variable aleatoria X. Esta función recibe el nombre de
función de probabilidad de la variable aleatoria X.5 Se denota como p(x).

El término más general, distribución de probabilidad, se refiere a la colección de


valores de la variable aleatoria y a la distribución de probabilidades entre estos5,
representada por ejemplo a través de una fórmula, tabla o gráfica, como se muestra
en la Figura 1.

Cualquier distribución de probabilidades discreta debe satisfacer las siguientes


propiedades:1
• 0 ≤ p(x) ≤ 1 para todos los valores x de X
• ∑x p(x) = 1
Esto indica que la p(x) en el caso discreto adopta siempre valores entre 0 y 1, y que la
sumatoria de las probabilidades para todos los valores posibles de x es igual a 1.

Se observa que es posible también la existencia de una función de distribución


acumulada de X, denotada como F(x). Decimos que la función de distribución
acumulada en un valor x es la probabilidad de que la variable aleatoria X tome un
valor menor o igual al valor específico x.

83
Siguiendo con el ejemplo anterior (Ejemplo 9), se representa en la siguiente tabla los
posibles valores de la variable aleatoria X= número de unidades contaminadas, la
distribución de probabilidad de la variable en la segunda columna y la función de
distribución acumulada F(x) en la tercera:

x p(x) F(x)
0 0,125 0,125
1 0,375 0,500
2 0,375 0,875
3 0,125 1

Vemos que esta función F(x) acumula probabilidades de una manera semejante
a la columna de las frecuencias acumuladas en una tabla de frecuencias.
Así, siendo que la variable X toma los valores posibles x0 ≤ x1 ≤ x2 ≤ x3, la función de
distribución acumulada viene definida por:

F(x0) = P (x ≤ x0) = p(x0)


F(x1) = P (x ≤ x1) = p(x0) + p(x1)
F(x2) = P (x ≤ x2) = p(x0) + p(x1) + p(x2)
F(x3) = P (x ≤ x3) = p(x0) + p(x1) + p(x2) + p(x3)

VARIABLES ALEATORIAS CONTINUAS : FUNCIÓN DE DENSIDAD DE PROBABILIDAD

Se ha mencionado en el apartado anterior que en el caso discreto se asignan


probabilidades a todos los valores puntuales de la variable aleatoria. Para el caso
continuo, esto no es posible: la probabilidad de que una variable aleatoria continua
tome un valor específico es cero. Por lo tanto, en variables continuas se debe
visualizar las probabilidades de intervalos en lugar que de puntos en particular.5
La distribución de probabilidad de una variable aleatoria continua X está
caracterizada por una f(x) que recibe el nombre de función de densidad de
probabilidad. Esta función f(x) no es la misma función de probabilidad que para el
caso discreto, dado lo planteado anteriormente (imposibilidad de representar la
probabilidad de X = x como en el caso discreto). Más bien, ésta proporciona un medio
para determinar la probabilidad de un intervalo (a ≤ X ≤ b). 5

Supongamos ahora que representamos las medidas obtenidas para una variable
continua (longitud, tiempo, peso, etc) en un histograma; es razonable admitir y se ha

84
comprobado que
q tomand do más y más
m observvaciones (d disminuyen ndo indefin
nidamentee
el an
ncho de cada intervalo) el histo
ograma ten nderá a unaa curva suaave que de
escribirá ell
6
comportamien nto de la vaariable estu
udiada.

Figu
ura 2. Histo
ograma y función
f de densidad

La fu
unción f(x)), cuya gráfica es la curva
c límitte mencion
nada, repreesenta la función
f dee
denssidad de prrobabilidadd para una variable aleatoria co
ontinua X, d
de modo que
q el áreaa
5
urva es siempre igual a uno. Así,
total bajo la cu A la probabilidad dee cualquier intervalo
o
6
venddrá dada por el área que
q f(x) en ncierra en ese
e intervaalo.

Al iggual que enn el caso de


d una varriable aleattoria discreeta, la función de diistribuciónn
acum mulada de una variable aleatorria continu ua X es la probabilida
p ad de que X tome un n
valor menor o igual a algún valor x específicco. En el caso
c contin
nuo, verem mos que laa
funcción de disstribución acumulada
a a F(x) es el área bajoo la curva de densid dad que see
encu uentra a la izquierda de ese valor (en la re
ecta X de la gráfica, ccomo se ilu
ustra en laa
siguiiente Figurra 3).

Fiigura 3. Distribución dee probabilid


dad acumula
ada para un na variable aleatoria co
ontinua,
ilustrrada como un
u área bajo
o la curva de
d densidad d.

85
ESPERANZA MATEMÁTICA Y VARIANZA DE UNA VARIABLE ALEATORIA

La distribución de una variable aleatoria puede ser descripta mediante medidas


numéricas características (de tendencia central y de dispersión), de manera
análoga a lo ya descripto en el Módulo 2. Entre las medidas de tendencia
central, la más utilizada es la media, (μ), llamada ahora esperanza matemática,
E(x), de la variable aleatoria. Esta a su vez es frecuentemente asociada a una
medida de dispersión, la varianza.

La esperanza o valor esperado de una variable aleatoria es la sumatoria de


cada posible valor de la variable por su probabilidad.
La varianza, en términos generales, representa las desviaciones entre los
valores de la variable aleatoria con respecto a su esperanza (al cuadrado),
multiplicado por su probabilidad.

En el caso de una variable aleatoria discreta, la esperanza está dada por:

E(x) = ∑ xi . p(xi)

donde x1, x2, ..., xn son los posibles valores de la variable, y sus probabilidades
están representadas por el término p(xi).

Como ya fue mencionado, a esta medida de tendencia central se le asocia la


varianza, definida para variables discretas como:

Var(X) = ∑ [xi – E(x)]2 . p(xi)

Para calcular la esperanza y varianza de una variable aleatoria continua se debe


recurrir a un operador matemático conocido como integral y la función de
densidad f(x). Dado que la aplicación de la integral requiere conocimientos más
elevados que los que se pretende para el desarrollo de esta asignatura, no
expondremos el cálculo de estas dos medidas para variables aleatorias
continuas. Sin embargo, es preciso destacar que conceptualmente tienen el
mismo significado que las calculadas para variables aleatorias discretas.

86
DISTRIBUCIONES DE PROBABILIDAD

En el campo de la estadística se han descripto algunas distribuciones específicas de


probabilidad que han demostrado, empíricamente, ser modelos útiles para diversos
problemas prácticos. En tales distribuciones, sus funciones de probabilidad o de
densidad se deducen matemáticamente.5 Así, una distribución teórica presenta
características distintivas; sus probabilidades están dadas por una ley matemática
conocida (una ecuación o función),7 lo cual permitirá adoptarla como modelo para la
resolución de un problema práctico. Esto es de gran utilidad en investigación dado
que, por lo general, los investigadores no conocen la función matemática que
describe a la variable aleatoria que estudian, por lo que suelen proceder a recolectar
datos y a partir de ellos buscar la distribución teórica que mejor describe la o las
variables en estudio, para así poder asignar probabilidad a los eventos de interés a
partir de la misma.

A continuación se presentarán las distribuciones de probabilidad más


frecuentemente utilizadas en el campo de la salud:
• para variables discretas: Binomial y Poisson
• para variables continuas: Normal, t de Studen, Chi‐cuadrado

Para una mejor comprensión de los contenidos a desarrollar es necesario tener


presente que cada una de estas distribuciones teóricas de probabilidad está
caracterizada, de manera general, por una o más cantidades que reciben el nombre
de parámetro de la distribución, el cual puede tomar cualquier valor de un conjunto
dado.5

DISTRIBUCIONES DE PROBABILIDAD PARA VARIABLES DISCRETAS

DISTRIBUCIÓN BINOMIAL:

En salud, como en otras áreas, algunos experimentos consisten en la observación de


una serie de experimentos idénticos e independientes, cada uno de los cuales puede
generar uno de dos resultados1: la ocurrencia (llámese “éxito”) o no ocurrencia
(llámese “fracaso”) de un evento. Por ejemplo, cada una de las n personas
entrevistadas presenta o no hábitos alimentarios saludables, realiza o no actividad
física regular, tiene o no cobertura de salud, contrajo o no contrajo cierta
enfermedad. En estos casos, la variable aleatoria X representa el número de éxitos en

87
los n ensayos, y el interés está en determinar la probabilidad de obtener exactamente
X = x éxitos durante los n ensayos.5

Esta clase de experimentos recibe el nombre de binomiales y sus características se


pueden resumir de la siguiente manera:
1. El experimento consta de un número determinado, n, de ensayos idénticos e
independientes.
2. Cada ensayo tiene dos resultados posibles: éxito ó fracaso.
3. La probabilidad de tener éxito en un ensayo es igual a un valor p y la
probabilidad de un fracaso es igual a q = 1 – p. Estas probabilidades
permanecen constantes de un ensayo a otro.
4. La variable aleatoria bajo estudio es igual al número de éxitos observados en n
ensayos.1

En consecuencia, para determinar si un experimento es binomial es necesario


examinar si reúne las mencionadas características. De ser así, el investigador podrá
seleccionar la distribución binomial para explicar el comportamiento de la variable
discreta bajo estudio.
Así, siendo n el número de ensayos u observaciones, p la probabilidad de éxito (y en
consecuencia 1 – p la probabilidad de fracasos, o sea q), una variable X con
distribución binomial se caracteriza por presentar esperanza (E) y varianza (V) igual a:
E[X] = np V[X] = npq

La distribución binomial se define por los parámetros n y p, y presenta la siguiente


función de probabilidad:
n!
⋅ p x (1 − p )
n− x
P( x) =
( n − x )! x!

Llamamos P(x) a la probabilidad de x éxitos, y x al número de éxitos en la muestra


(para x = 0, 1, 2, ..., n).
La aplicación de esta ecuación permitirá al investigador calcular la probabilidad de
obtener exactamente x éxitos al realizar sus n pruebas aleatorias binomiales.

Veamos el siguiente ejemplo.

Ejemplo 10. Supóngase que se seleccionan aleatoriamente 10 sujetos adultos y se


registra el evento “fuma” o “no fuma”, después de un año de implementación de un
determinado programa anti‐tabaco en una región, asegurándose que las respuestas

88
son independientes. Si se sabe que la probabilidad de fumar es igual a 0,25 entonces,
¿cuál será la probabilidad de que 7 de los 10 adultos sean fumadores?

Del problema planteado podemos extraer los siguientes datos:


x=7 n = 10 p = 0,25

Así, reemplazando los mismos en la ecuación anterior obtenemos:

n!
⋅ p x (1 − p )
n− x
P( x) =
(n − x)! x!

10!
⋅ 0,25 7 (1 − 0,25 )
10 − 7
P (7 ) =
(10 − 7 )!7!

3628800
P (7 ) = ⋅ 0,000061 ⋅ 0,422
30240

P(7) = 0,0031

Se concluye que la probabilidad de que 7 de los 10 adultos sean fumadores es


de 0,0031.

DISTRIBUCIÓN POISSON:

La distribución Poisson a menudo proporciona un buen modelo de la distribución de


probabilidades cuando se observa el número de eventos discretos (de conteo) que se
presentan en un intervalo (de tiempo, espacio, volumen o cualquier otra dimensión
continua). Así, el número de accidentes automovilísticos en una semana, el número
de consultas diarias, el número de nacidos vivos por año, el número de ventas de un
producto alimentario en un intervalo de tiempo, el recuento de glóbulos blancos por
determinado volumen sanguíneo, el número de internaciones en un mes, son
ejemplos de variables aleatorias con una distribución aproximada a la de Poisson.

Se dice que una variable aleatoria X tiene una distribución de probabilidad de Poisson
si y solo sí
λx
P ( x) = ⋅ e−λ x = 0, 1, 2, ...; λ > 0
x!
89
siendo P(x) la probabilidad de X = x éxitos, λ la media de la distribución (es decir, el
número promedio de ocurrencia del evento), x el número de éxitos por unidad (de
tiempo, espacio, etc.), y e= 2,71828 el valor de la constante matemática e.

Se ha demostrado que si se calcula la esperanza E[X] y la varianza V[X] de una variable


aleatoria X con distribución aproximada a la Poisson se obtiene:

E[X] =λ V[X] = λ

Es decir que el valor esperado de la variable y su varianza coinciden.


El parámetro que caracteriza a esta distribución es λ, es decir el número promedio de
ocurrencia del evento aleatorio por unidad.
Cabe destacar que la distribución Poisson ofrece una aproximación excelente a la
función de probabilidad binomial cuando el número de elementos observados (n) es
muy grande y la probabilidad de observar la característica estudiada en cada
elemento es muy pequeña.6

Ejemplo 11. Supóngase que el número de niños que llegan a un centro de vacunación
registra una frecuencia promedio de 3 niños por hora. En una hora determinada,
calcule la probabilidad de que lleguen exactamente dos niños.
El enunciado planteado nos permite establecer que λ = 3 niños por hora, y que x = 2
niños por hora. Sabemos que e es una constante matemática igual a 2,72. Luego,

λx
P( x) = ⋅ e−λ
x!

3 2 −3
P(2) = ⋅ e = 0,2240
2!

La probabilidad de que lleguen exactamente dos niños por hora es de 0,22.

90
DISTRIBUCIONES DE PROBABILIDAD PARA VARIABLES CONTINUAS

DISTRIBUCIÓN NORMAL:

La distribución normal, también llamada distribución Gaussiana, es de particular


interés en el área de las ciencias de la salud ya que gran parte de los fenómenos
biológicos y la mayoría de las variables aleatorias continuas en este campo (ej. peso,
altura, temperatura, etc.) presentan distribuciones de frecuencias que se pueden
aproximar a la distribución teórica normal.
Este modelo de distribución normal, con parámetros μ y σ2, presenta la siguiente
función de densidad:
1  1 2
f ( x) = ⋅ e − ( x − µ ) 
σ 2π  2σ 2 

La representación gráfica de esta función de densidad (Figura 4) es una curva


simétrica que tiene forma de campana, por lo que recibe el nombre de campana de
Gauss.

Figura 4. Distribución normal. Representación gráfica de su función de densidad.

Algunas características propias de la distribución Normal son las siguientes:2,6,8


• Presenta una curva teórica unimodal, lo cual implica que existe un valor
de mayor frecuencia (moda), bien definido. A partir de él, la curva decae
hacia ambos lados con una simetría perfecta. Esta simetría hace que a
valores situados a igual distancia del valor modal, por izquierda y por
derecha de la distribución, les corresponda la misma probabilidad.
• Al ser su forma simétrica, media, mediana y moda coinciden.

91
• El parám
metro med dia (µ) indiica el centro y la varrianza (σ2) la dispersiión o
os datos alrededor de
variabiliidad de lo d μ. La distancia deel centro a los
puntos de inflexióón de la currva es preccisamente σ2.
• Como toda curva de distrib bución de densidad de probab bilidad, el área
total bajo la curva normal ess igual a 1.
• Se ha co
omprobado o que, en toda
t bución norrmal, en el intervalo:
distrib
o μ ± 1 σ se encuentra
e e 68,2% de
el e las obserrvaciones
o μ ± 2 σ se encuentra
e e 95,4% de
el e las obserrvaciones
o μ ± 3 σ se encuentra
e e 99,7% de
el e las obserrvaciones

Esta última prropiedad, de gran aplicación en


e la inferrencia estaadística, puede
ilustrarse gráficamente de
d la siguiente manerra:

Por ejemplo,
e supongamo u población se conoce que la variable edad
os que en una e tiene
una distribucióón normal con
c μ=25 años
a y σ 5 años. Podeemos afirm mar entonces que
apro
oximadameente el 68% % de los ind
dividuos dee esa poblaación tieneen entre 20
0 y 30
añoss (μ ± 1 σ, o sea 25 ± 5), el 95% entre 15 y 35 años (μ
μ ± 2 σ, o ssea 25 ± 2*
*5= 25 ±
10), y el 99,7%
% entre 10 y 40 años (μ ± 3 σ, o sea
s 25 ± 3**5= 25 ± 15 5).

DISTTRIBUCIÓN NORMAL ESTÁNDAR:

Paraa calcular probabilida


p ades en el caso de distribuciones normalees se debe ería aplicarr
la eccuación anntes preseentada, corrrespondie ente a su función dee densidad d. Dada laa
complejidad matemática
m a de la mism
ma, si se qu
uiere cono
ocer la probbabilidad de
d que unaa
variaable normmalmente distribuida
d a tome ciertos valo ores, se p puede simplificar su u
cálcuulo mediante una transforma
t ación de lal variablee aleatoriaa original x en unaa

92
variable aleatoria normal estándar z. Para ello se debe aplicar un procedimiento
llamado estandarización, el cual implica la aplicación de la siguiente fórmula:

X −µ
Z=
σ

donde Z= es la nueva variable estandarizada (obtenida de la transformación)


X = es la variable aleatoria original
μ= es la esperanza (media) de la distribución de la variable X
σ= es el desvío estándar de la distribución de la variable X

La nueva variable Z, obtenida bajo la transformación, presenta una distribución


particular que se conoce con el nombre de distribución normal estandarizada, la cual
se caracteriza por presentar μ= 0 y σ= 1 (Figura 5). Presenta la gran ventaja de que su
función de distribución se encuentra ya tabulada, es decir que se puede recurrir a
tablas (ya existentes) que facilitan el cálculo de probabilidades a partir de ellas.

Uso de la tabla de distribución de probabilidades normales:

Para entrar a la denominada Tabla de Cuantiles de una Distribución Normal Estándar


y buscar las correspondientes probabilidades, debemos en primer lugar transformar
la variable original X en una variable estandarizada Z. Es importante considerar que
esta tabla está construida considerando probabilidades acumuladas desde ‐∞ hasta
un valor particular de la variable Z (a la izquierda del valor deseado).2 En términos
generales, para cada columna de la tabla con valores de la variable z corresponde una
columna con las probabilidades acumuladas buscadas para cada z, o sea P(Z≤z), que
representa el área bajo la curva normal entre ‐∞ y el valor z correspondiente.

Figura 5. Distribución Normal Estandarizada, con μ= 0 y σ= 1

93
Veamos a continuación distintos ejemplos de su aplicación. En general, se pueden
presentar tres situaciones:

a) Que se desee conocer la probabilidad de que un valor aleatorio de X sea menor


que un número x1. En símbolos, esto se denota P(X ≤ x1), ó P(Z < z1) si lo
expresamos en término de la variable ya estandarizada (variable Z).

b) Que se desee encontrar la probabilidad de que un valor aleatorio de X sea mayor


que un número x1. En símbolos: P(X > x1), ó P(Z >z1).

c) Que se desee calcular la probabilidad de que un valor aleatorio de X caiga en un


intervalo (x1, x2). En símbolos: P(x1 < X < x2), ó P(z1 < Z < z2).

94
Ejemplo 12. La variable X= tiempo de cocción de un determinado alimento se
distribuye normalmente con media μ= 8 minutos y varianza σ2= 4 minutos. Esto
se denota X ~ N(8, 4). Dado que σ2= 4 minutos, entonces se deduce que σ= 2.
Se desea conocer:

a) la probabilidad de que el tiempo de cocción sea menor a 8,6 min.


b) la probabilidad de que el tiempo de cocción sea mayor a 9,5 min.
c) la probabilidad de que el tiempo de cocción sea entre 6 y 10 min.

Veamos los pasos a seguir para la resolución de cada una de las situaciones
planteadas:

a) Buscamos la P(X ≤ 8,6).

En primer lugar, se debe proceder a la estandarización de la variable X:


X −µ
Z=
σ

8,6 − 8
Z= = 0,3
2

Habiendo calculado el valor de Z para la X deseada, para conocer la P(X ≤ 8,6), o lo


que es igual la P(Z ≤ 0,3), se debe recurrir a la Tabla de Cuantiles de una Distribución
Normal Estándar y buscar la probabilidad deseada en el cuerpo de la tabla para z1=
0,3. Luego, la probabilidad buscada:

P(Z ≤ 0,3) = 0,62

Se concluye que la probabilidad de que el tiempo de cocción sea menor a 8,6


minutos es de 0,62.
95
b) Buscamos en este caso la P(X > 9,5).

9,5 − 8
Z= = 0,75
2
La P(Z > 0,75) representa un área a la derecha de la curva normal estándar. Dado que,
como se mencionó anteriormente, la Tabla presenta probabilidades acumuladas
desde ‐∞ hasta el valor buscado de la variable Z (o sea arrastra el área bajo la curva
que se encuentra a su izquierda), y sabiendo que el área total bajo la curva es igual a
1, se procede a realizar el siguiente cálculo:

P(Z > 0,75) = 1 – 0,77337 = 0,22663

Nótese que 0,77337 es la probabilidad acumulada que aparece en Tabla para z1=0,75.
Así, la probabilidad de que el tiempo de cocción sea mayor a 9,5 minutos es de 0,23.

c) Finalmente buscamos la P(6 < X < 10).

Debemos estandarizar ambos valores de X:

6−8 10 − 8
Z1 = = −1 Z2 = =1
2 2

Según la Tabla, la probabilidad acumulada para z1 = ‐1 es 0,15866 y para z2 = 1 es


0,84134. Considerando nuevamente que las probabilidades provistas por la Tabla
Normal Estándar son acumuladas desde ‐∞ hasta los valores de interés, debemos
restar a la probabilidad de z2 el valor de probabilidad correspondiente a z1. Así,

P(‐1 < Z < 1) = 0,84134 – 0,15866 = 0,68268

Decimos que la probabilidad de que el tiempo de cocción tome valores entre 6 y 10


es de 0,68.

96
DISTRIBUCIÓN CHI-CUADRADO:

La distribución Chi‐cuadrado ( χ 2 ), también llamada χ 2 de Pearson, es una


herramienta de análisis muy utilizada en la ciencia actual.6 Se la relaciona con la
distribución de la varianza muestral, como se verá en módulos más avanzados de la
materia.
Una manera de definir variables aleatorias chi‐cuadrado es a partir de variables
aleatorias normales estándar.4 Supongamos que generamos n variables aleatorias
independientes normales con media cero y varianza igual a 1, y definimos la siguiente
operación:6

χ 2 = z12 + z 22 + ... + z n2

Es decir, elevamos los n valores generados al cuadrado y los sumamos. Si aplicamos


este procedimiento muchas veces, obtendremos la distribución de una variable que
solo depende del número de sumandos. Esta distribución se denomina χ 2 con n
grados de libertad, la cual presenta forma asimétrica, con esperanza E[ χ 2 ]= n y
varianza Var[ χ 2 ]= 2n.

Para el cálculo de probabilidades en una distribución Chi‐cuadrado se puede


consultar la Tabla de Cuantiles de la Distribución Chi‐Cuadrado. Se ingresa a la misma
por el margen izquierdo a través de los v grados de libertad. Los valores x de la
variable aleatoria X figuran en el cuerpo de la tabla, y en el margen superior se lee la
P( χ ≤ x). Es decir que, al igual que en el caso de la distribución normal estandarizada,
2

esta tabla acumula valores de probabilidad hacia la izquierda del valor buscado.

Ejemplo 13. Dada una variable X con distribución χ y 13 grados de libertad. ¿Cuál es
2

la probabilidad de que x ≤ 22,4?

De acuerdo a este enunciado se extrae la siguiente información:


La P( χ ≤ x) buscada es P( χ ≤22,4)
2 2
v= 13 x ≤22,4

Ingresamos a la Tabla correspondiente por sus grados de libertad v=13, en margen


izquierdo superior. Buscamos en el cuerpo de la Tabla el valor 22,4 siguiendo la línea
correspondiente a v=13. Leemos la P( χ ≤ x) buscada en el encabezado de la columna
2

para ese valor x=22,4. Vemos que la P( χ ≤22,4)= 0,95.


2

97
Para el ejemplo planteado, decimos entonces que la probabilidad de que X asuma
valores menores o iguales a 22,4 es de 0,95.

DISTRIBUCIÓN T DE STUDENT:

Dada una variable X con media μ y varianza poblacional desconocida, se puede


estimar el valor de una variable aleatoria T a partir de los datos de una muestra como
sigue:
 
 
 X −µ
T=
 s 
 
 n 

donde X = media muestral


μ = media poblacional
S = desvío estándar muestral
n = tamaño muestral

Esta variable T tiene una distribución conocida como distribución T de Student con
n‐1 grados de libertad. La misma se caracteriza por un único parámetro conocido
como grados de libertad (correspondiente al número de observaciones de la muestra
menos 1),4 y por presentar forma simétrica con mayor dispersión que la distribución
normal estándar. Cuando el n es mayor o igual a 100 la distribución T de Student se
aproxima a la normal.6
De todo lo expuesto se deduce que es un modelo particularmente útil cuando
queremos calcular probabilidades respecto de una variable aleatoria continua,
cuando el tamaño muestra es relativamente pequeño (n <100) y se desconoce la
varianza poblacional.
Para el cálculo de probabilidades también en este caso contamos con información ya
tabulada en la denominada “Tabla T” ó “Tabla de Cuantiles de la Distribución T”, la
cual también acumula valores de probabilidad hacia la izquierda del punto
seleccionado. Se ingresa a la misma con los grados de libertad (n‐1). Los valores en el
cuerpo de la tabla son los valores de la variable t. En el margen superior e inferior
figuran las probabilidades correspondientes para valores t positivos (en tal caso, se
observan las probabilidades arriba) o negativos (se buscan las P abajo),
respectivamente.

98
Ejemplo 14. Dada una variable aleatoria con distribución t de Student con 11 grados
de libertad, se desea calcular la P(t ≤ ‐ 0,697).

Ingresando a la Tabla T con 11 grados de libertad (por margen izquierdo), buscamos


en el cuerpo de la tabla el valor t correspondiente desplazándonos hacia la derecha
hasta encontrar el valor buscado= ‐ 0,697. Como en este caso nos interesa un valor t
negativo, encontrado el valor 0,697 debemos observar su probabilidad
correspondiente en el margen inferior de la tabla.
Luego, P(t ≤ ‐ 0,697) = 0,25 con 11 grados de libertad.

99
BIBLIOGRAFÍA - MÓDULO 3

1. Wackerly DD, Mendenhall W, Scheaffer R. Estadística matemática con aplicaciones.


6ta ed. México, D.F.: International Thompson Ed.; 2002.

2. Blanch N, Joekes S. Curso de Estadística aplicada a la Investigación. Departamento


de Educación a Distancia, Facultad de Ciencias Económicas, UNC. 8va. Ed. Córdoba:
UNC; 2005.

3. Moschetti E, Ferrero S, Palacios G, Ruiz M. Introducción a la Estadística para las


Ciencias de la Vida. Editorial Fundación UNRC; 2000.

4. Di Rienzo JA, Casanoves F, Gonzalez LA et al. Estadística para las Ciencias


Agropecuarias. 6ta ed. Córdoba: Ed. Brujas.2005.

5. Canavos GC. Probabilidad y Estadística. Aplicaciones y métodos. México, D.F.:


McGraw‐Hill; 1988.

6. Peña D. Fundamentos de Estadística. Madrid: Alianza Editorial; 2001.

7. Bordón LG. Estadística aplicada a Ciencias de la Salud. Una herramienta para la


Investigación. 5ta ed. Córdoba: LG Bordón Ed. 1999.

8. Ríus Díaz F, Barón Lopez FJ, Sánchez Font E, Parras Guijosa L. Bioestadística:
Métodos y Aplicaciones. Facultad de Medicina, Universidad de Málaga. Disponible en
http://www.bioestadistica.uma.es/libro/

100
ESTADÍSTICA Y
BIOESTADÍSTICA

MÓDULO 4

INTRODUCCIÓN
A LA INFERENCIA
ESTADÍSTICA

101
102
INFERENCIA ESTADÍSTICA Y MUESTREO

Para el estudio de una o más características de una población dada (de tamaño
N) muchas veces es inviable obtener información de todos los elementos que la
componen, por cuestiones económicas o de tiempo. La selección de un
subconjunto representativo de elementos, es decir de una muestra
representativa (de tamaño n), mediante un procedimiento de muestreo
apropiado garantiza resultados similares a los que se obtendrían del estudio
exhaustivo de todos los elementos de la población, pero obtenidos con mayor
rapidez y menor costo.

Es así que la inferencia estadística implica extraer conclusiones sobre


características de la población (por ejemplo, sobre medias, proporciones o
varianzas de variables de interés) con base en el estudio de solamente una parte
de la población, o sea, basándonos en una muestra1, como lo ejemplifica la
Figura 1.

Población Muestra
N elementos n elementos

Figura 1. Representación gráfica del proceso de inferencia estadística.

TIPOS DE MUESTREO

El procedimiento mediante el cual algunos elementos de una población se


seleccionan de la población total, a fin de realizar observaciones o medidas
sobre este subgrupo para extraer conclusiones, en general, a nivel poblacional,
se denomina muestreo.

Los tipos de muestreo se clasifican en:


1. Probabilísticos: se basan en la obtención de una muestra aleatoria (al
azar), es decir, en la que todos los elementos de la población tienen la
misma probabilidad de ser seleccionados. Una muestra probabilística

103
garantiza la representatividad de la población, permitiendo efectuar
inferencias confiables.
2. No Probabilísticos: mediante técnicas no aleatorias se obtienen muestras
no necesariamente representativas de una población. En este caso, no
todos los integrantes de la población tuvieron la misma chance de ser
elegidos.

Dentro de esta clasificación, los principales métodos de muestreo son:


• Muestreos probabilísticos: a) aleatorio simple; b) aleatorio estratificado;
c) por conglomerados; d) sistemático.
• Muestreos no probabilísticos: a) por conveniencia; b) por cuotas.

MUESTREOS PROBABILÍSTICOS

MUESTREO ALEATORIO SIMPLE

Decimos que una muestra es aleatoria simple cuando cada elemento de la


población tiene la misma probabilidad de ser elegido, y las observaciones se
realizan con reemplazamiento, de manera que la población es idéntica en todas
las extracciones.2
En términos prácticos, sobre una población finita determinada (de tamaño N
conocido) se realizan extracciones al azar de n elementos, con reemplazo, para
conformar la muestra.
Cuando la población no es demasiado grande, podemos escribir cada uno de los
N números que la representan en una ficha, mezclarlas y seleccionar n de ellas.
Existen también programas de cómputos que generan números aleatorios y
pueden ser utilizados para obtener muestras aleatorias.3 Otro procedimiento
útil para realizar el sorteo es usar una tabla de números aleatorios, las cuales ya
han sido exhaustivamente testeadas y cuya aleatoriedad está garantizada.1
Este método requiere que todos los elementos de la población sean
identificados y enumerados antes de muestrear.4

MUESTREO ESTRATIFICADO

Cuando se tiene información a priori respecto de alguna característica


importante en la población a los fines del estudio conviene tenerla en cuenta,
seleccionando la muestra de modo estratificado. Se denomina muestreo

104
estratificado a aquel en que los elementos de la población se dividen en clases
o estratos2 (ej. sexos, niveles socioeconómicos, razas, grupos de edades, etc.).
La muestra se toma escogiendo aleatoriamente un número de elementos
dentro de cada estrato de modo de garantizar la presencia adecuada de cada
estrato en la muestra, tal como se presenta en la población.
Existen dos criterios básicos para dividir el tamaño total de la muestra entre los
estratos:2
1. Proporcionalmente al tamaño relativo del estrato en la población. Por
ejemplo, si en la población hay 55% mujeres y 45% varones,
mantendremos esta proporción en la muestra.
2. Proporcionalmente a la variabilidad del estrato: si conocemos la varianza
(variabilidad) de la característica a estudiar en cada estrato, los estratos
más variables deberán estar más representados.

MUESTREO POR CONGLOMERADOS

Existen situaciones donde ni el muestreo aleatorio simple ni el estratificado son


aplicables, ya que no disponemos de una lista con el número de elementos de la
población ni en los posibles estratos. En estos casos típicamente los elementos
de la población se encuentran agrupados de manera natural en conglomerados
(grupos internamente heterogéneos), cuyo número sí se conoce. Por ejemplo,
cuando se tiene información de la población distribuida en barrios, o de una
población de niños agrupados por escuelas. Si podemos suponer que cada uno
de estos conglomerados es representativo de la población total respecto a la
variable de estudio, podemos seleccionar algunos de estos conglomerados al
azar y, dentro de ellos, analizar todos los elementos o solo una muestra
aleatoria simple.2

MUESTREO SISTEMÁTICO

Esta metodología de muestreo requiere que la población esté ordenada en listas


o numerada correlativamente. Consiste en seleccionar un número al azar y
tomar para la muestra un sujeto cada esa numeración.
Para comprender el procedimiento de muestreo sistemático supongamos que
se desea obtener una muestra de tamaño n de una lista de N afiliados a una
obra social, ordenada y numerada correlativamente. En primer lugar se dividirá
N/n, obteniéndose un número k. Así, se tomará como muestra los elementos
de la lista que se identifiquen al ir saltando de k elementos en k, comenzando

105
por un elemento seleccionado al azar. 5 En este ejemplo, si la población es de
tamaño 50 y la muestra de 10, entonces N/n = 5, debiéndose seleccionarse de la
lista de afiliados 10 sujetos de 5 en 5, comenzando por un sujeto cuyo número
se obtuvo al azar (ejemplo, por sorteo o por tabla de números aleatorios).
Es importante destacar que cuando el criterio de ordenación de los elementos
en la lista es tal que los elementos más parecidos tienden a estar más cercanos,
el muestreo sistemático suele ser más preciso que el aleatorio simple, ya que
recorre la población de un modo más uniforme.5

MUESTREOS NO PROBABILÍSTICOS

MUESTREO POR CONVENIENCIA

Como su nombre lo indica, el muestreo por conveniencia selecciona elementos


de una población de acuerdo a la conveniencia del investigador.3 Por ejemplo,
seleccionar personas que se ofrezcan como voluntarias para el estudio, o que
presenten una determinada característica (por ejemplo, una enfermedad).

MUESTREO POR CUOTAS

Consiste en seleccionar la muestra considerando algunas características que se


desea presenten los elementos a estudiar. La muestra se conforma
determinando la cantidad (cuota) de elementos con la característica de interés
que será incluida en la muestra. Se utiliza sobre todo en las encuestas de
opinión pública, donde los encuestadores proceden a entrevistar personas hasta
cubrir la cuota fijada, por ejemplo por edades, sin preocuparse por su
representatividad a nivel poblacional.4

TEORÍA DEL MUESTREO. ESTADÍSTICOS Y PARÁMETROS

La teoría del muestreo estudia la relación entre una población y las muestras
tomadas de ellas. Por ejemplo, para la estimación de magnitudes desconocidas
de una población tales como media y varianza, llamadas parámetros de la
población, se utilizan las características numéricas de la muestra, llamadas
estadísticos o estimadores.6

106
Así, un estadístico o estimador es una medida usada para describir una
característica de la muestra, mientras que un parámetro es una medida
empleada para describir una característica a nivel de la población. En otras
palabras, estos conceptos pueden ser definidos como sigue:

Un parámetro (poblacional) es una medida que se calcula teniendo en


cuenta todos los elementos que componen una cierta población.
Un estadístico o estimador (muestral) es una medida que se calcula
teniendo en cuenta solamente los elementos que integran una muestra
determinada.3

Puede decirse que cuando se estiman valores poblacionales a través de una


muestra se está haciendo inferencia.6
La siguiente tabla resume los estadísticos más utilizados para estimar los
parámetros media, varianza y desvío estándar, y la notación comúnmente
empleada:

Tabla 1. Notación para representar parámetros y estadísticos de uso frecuente.

Medida resumen Parámetros Estadísticos o Estimadores


Media μ Ẋ
Varianza σ2 S2
Desvío estándar σ S

PROPIEDADES DE LOS ESTIMADORES

Existen ciertas propiedades que deben cumplir los buenos estimadores:


• Insesgabilidad: implica que no es tendencioso o sesgado, o sea, que el
valor medio que se obtiene de la estimación para diferentes muestras es
igual al parámetro poblacional que deseamos estimar.1, 5
• Eficiencia: esta propiedad dice que un buen estimador es aquel de
mínima dispersión (varianza) con respecto al parámetro estimado.
• Consistencia: cuando el tamaño de la muestra crece arbitrariamente, el
valor del estimado se aproxima al parámetro desconocido.5

107
DISTRIBUCIÓN DE LA MEDIA EN EL MUESTREO. TEOREMA CENTRAL
DEL LÍMITE

Al corresponder un estimador a un valor muestral es esperable que su valor


cambie si se obtienen varias muestras de una misma población.
Consideremos una población de la que se toman muestras con
reemplazamiento de tamaño n, calculando en cada muestra su media. Es de
suponer que si tomamos varias muestras obtendremos varios valores, en
general distintos, de medias muestrales. Si el número de muestras es muy
grande (teóricamente infinito), los valores de las medias tendrán una
distribución que llamaremos distribución muestral de la media en el muestreo.2
Así como, dependiendo de la muestra considerada, los valores de las medias
muestrales varían, también varía la diferencia de cada una de estas medias con
la verdadera media poblacional. Esta variabilidad es conocida como variabilidad
muestral y las diferencias con la media poblacional representan los posibles
errores muestrales.1 Los mismos se denominan también errores estándar (EE) y
pueden ser calculado a partir de la siguiente expresión, siendo S el desvío
estándar muestral y n el tamaño muestral:

S
EE =
n

Es importante mencionar que la distribución de muestreo de un estadístico


depende de la población base y el tamaño de la muestra.2 En relación a esto,
cabe hacer algunas consideraciones:
• Es sabido que si una población sobre la cual deseamos seleccionar una
muestra aleatoria simple tiene una distribución normal con media μ y
varianza σ2, la distribución muestral de las medias también será normal,
para cualquier tamaño de muestra, con media μ y varianza σ2/n.
• Por otra parte, cuando el tamaño de la muestra aumenta,
independientemente de la distribución de la cual está siendo extraída, la
distribución muestral de las medias se aproxima cada vez mas a una
distribución normal, con media igual a la media de la distribución y
varianza decreciente.
• El denominado Teorema Central del Límite nos garantiza que la
distribución muestral de la media puede ser bien representada por la
distribución normal, para muestras grandes.1

108
PROCEDIMIENTOS DE ESTIMACIÓN DE PARÁMETROS: PUNTUAL Y POR
INTERVALOS

Estimación es el nombre técnico para el proceso que consiste en utilizar los


datos de una muestra para aproximar parámetros poblacionales desconocidos,
o, como el propio nombre lo indica, estimar los mismos. Dentro de las diversas
características (parámetros) de una población que pueden ser estimadas, las
más utilizadas son la media (μ) y la varianza (σ2).1
Existen dos procedimientos de estimación de parámetros:
a) La estimación puntual
b) La estimación por intervalos

ESTIMACIÓN PUNTUAL

En la estimación puntual, se utiliza un único valor para la estimación del


parámetro. Como ejemplo de buenos estimadores puntuales, tenemos la media
muestral, que es un estimador de la media poblacional, y la varianza muestral,
estimador de la varianza poblacional.1
Es importante destacar que si se analizan diferentes muestras de una misma
población, se pueden obtener estimadores puntuales distintos para un mismo
parámetro poblacional.

ESTIMACIÓN POR INTERVALOS

Consiste en estimar un intervalo [a, b] dentro del cual se espera, con una cierta
probabilidad o grado de confianza especificado, que se encuentre el verdadero
valor del parámetro θ. Esto se puede simbolizar:
P(a ≤ θ ≤ b) = 1 – α

Siendo a = límite inferior del intervalo


b = límite superior del intervalo
θ = parámetro
1‐α = grado de confianza de la estimación
P(a ≤ θ ≤ b)= probabilidad de que θ se encuentre entre a y b.

109
El denominado grado de confianza (1‐α) es en general arbitrario, lo establece el
investigador, pero en general se utilizan valores de 0,90 (del 90%), 0,95 (95%) ó
0,99 (99%). Es necesario notar que para un grado de confianza del 90%, α=0,10;
para 95%, α=0,05, y para una confianza del 99%, α= 0,01. Cabe destacar
también que el límite inferior “a” corresponde al cuantil α/2, y el límite superior
“b” al cuantil (1‐α/2) de la distribución de la variable en estudio, con parámetro
desconocido θ, como se verá a continuación.

ESTIMACIÓN POR INTERVALOS DEL PARÁMETRO MEDIA POBLACIONAL

Para la estimación por intervalos de la media poblacional pueden darse dos


situaciones:
• Que conozcamos la varianza poblacional y por lo tanto, se pueda
construir el intervalo de confianza a partir de una variable Z. Siendo LI el
límite inferior y LS el límite superior, el intervalo [LI; LS] será LI ≤ µ ≤ LS =
σ σ
X + zα / 2 ≤ µ ≤ X + z (1−α / 2 )
n n
Donde
X = media muestral
zα / 2 = cuantil α/2 de la distribución de la variable Z
σ = desvío estándar poblacional
n = tamaño muestral
µ = media poblacional (parámetro desconocido)
z(1−α / 2) = cuantil (1‐ α/2) de la distribución de la variable Z normal estándar
α = 0,10, 0,05 ó 0,01 según trabajemos con una confianza del 90, 95 ó 99%,
respectivamente.

• Que desconozcamos la varianza poblacional y debamos por ello acudir a


una distribución t, con n‐1 grados de libertad. La ecuación
correspondiente al cálculo del intervalo [LI; LS] en esta situación es, para
LI ≤ µ ≤ LS :
S S
X + tα / 2 ≤ µ ≤ X + t (1−α / 2 )
n n

En base a esto, el procedimiento general para el cálculo de intervalos es el


siguiente:

110
1. Se establece el nivel de confianza con el que se desea trabajar (90%, 95% ó
99%).
2. Se obtienen los cuantiles α/2, y (1‐α/2), según el nivel de confianza
establecido:

Nivel de confianza (1‐α) α α/2 1‐α/2


90% (0,90) 0,10 0,05 0,95
95% (0,95) 0,05 0,025 0,975
99% (0,99) 0,01 0,005 0,995

3. Se busca el valor correspondiente a ambos cuantiles en la tabla de


distribución normal estándar Z si se conoce la varianza poblacional, ó en la tabla
de distribución T (para una t con n‐1 grados de libertad), si no se la conoce.
4. Siendo LI= límite inferior y LS= límite superior se define el intervalo de
confianza [LI; LS] = LI ≤ µ ≤ LS a partir de la aplicación de la fórmula
pertinente:

σ σ
X + zα / 2 ≤ µ ≤ X + z (1−α / 2 ) Si se conoce la varianza poblacional
n n

S S
X + tα / 2 ≤ µ ≤ X + t (1−α / 2 ) Si se desconoce la varianza poblacional
n n

Veamos algunos ejemplos:

Ejemplo 1. Cálculo de intervalo de confianza para la media poblacional, con


varianza poblacional conocida.

En una encuesta sobre hábitos de estudio en universitarias se tomó una


muestra de 90 mujeres que cursaban estudios de nivel superior y se les
preguntó acerca la cantidad de horas dedicadas al estudio por semana. Se
obtuvo una media de 9 horas/semana, conociéndose por encuestas anteriores
que la varianza poblacional es de 16 hs/semana 2.
Se desea calcular el intervalo de confianza para la media poblacional de horas
semanales de estudio, con un 99% de confianza.

Vemos que el ejercicio nos proporciona los siguientes datos:

111
n= 90 X = 9 hs/semana σ2= 16 hs/semana2 σ= 4 hs/semana

Estableciendo un nivel de confianza de 0,99, se obtienen los cuantiles α/2=


0,005 y 1‐α/2= 0,995 de la tabla de distribución Z, dado que se conoce la
varianza poblacional de estudios anteriores. Así,

Z α / 2 = ‐2,57 Z 1−α / 2 = 2,57

Realizando los reemplazos pertinentes en la fórmula para el cálculo del


intervalo:
σ σ
X + zα / 2 ≤ µ ≤ X + z (1−α / 2 )
n n

4 4
9 − 2,57 ≤ µ ≤ 9 + 2,57
90 90

9 − 1,08 ≤ µ ≤ 9 + 1,08

7,92 ≤ µ ≤ 10,08

El intervalo de confianza queda definido como [7,92; 10,08] con un α de 0,01.


Se puede afirmar entonces que, con un 99% de confianza, las mujeres
universitarias estudian entre 8 y 10 horas por semana, aproximadamente.

Ejemplo 2. Cálculo de intervalo de confianza para la media poblacional, con


varianza poblacional desconocida.

La ingesta diaria de vitamina C, para una muestra de 9 individuos de una


determinada comunidad, tuvo una distribución normal con media 55 mg/día y
desviación estándar 4 mg/día. Se desea estimar el porcentaje medio poblacional
con un 95% de confianza.

Para la resolución de este ejercicio contamos con la siguiente información:


n= 9 Ẋ= 55 mg/día S= 4 mg/día

Siendo el nivel de confianza establecido 0,95 y la varianza poblacional


desconocida, se obtendrán los cuantiles correspondientes (α/2= 0,025; 1‐α/2=

112
0,975) para una t con n‐1 grados de libertad (o sea, 8 en este caso) de la tabla
de distribución t, encontrándose que:

tα / 2 = ‐2,30 t1−α / 2 = 2,30

Luego, aplicando la fórmula pertinente:

S S
X + tα / 2 ≤ µ ≤ X + t (1−α / 2)
n n

4 4
55 − 2,30 ≤ µ ≤ 55 + 2,30
9 9

55 − 3,059 ≤ µ ≤ 55 + 3,059

51,9 ≤ µ ≤ 58,05

El intervalo de confianza [LI; LS] se define entonces como [51,9; 58,05], con α=
0,05.
Decimos entonces que el verdadero valor medio de ingesta de vitamina C se
encuentra entre 51,9 y 58,05 mg/día, con un 95% de confianza.

ESTIMACIÓN POR INTERVALOS DEL PARÁMETRO VARIANZA


POBLACIONAL

Si se deseara, por ejemplo, conocer la variabilidad del peso registrado en


instrumentos de medición como una balanza, el parámetro de interés sería la
varianza poblacional, a diferencia de las situaciones anteriores donde nos
interesábamos por la media poblacional de una variable.
Como ya fue mencionado, un estimador puntual de la varianza poblacional es la
varianza muestral S2, a partir del cual se puede calcular el siguiente intervalo de
confianza LI ≤ σ 2 ≤ LS para la varianza de una variable con distribución normal:

S 2 (n − 1) S 2 (n − 1)
≤σ 2 ≤
χ (2n −1);(1−α / 2 ) χ (2n −1);(α / 2 )

113
Donde S2= varianza muestral
n= tamaño muestral
σ2= varianza poblacional (parámetro desconocido)
χ (2n−1);(1−α / 2 ) = valor de una variable chi‐cuadrado con n‐1 grados de libertad,
correspondiente al cuantil 1‐α/2.
χ (2n−1);(α / 2 ) = valor de una variable chi‐cuadrado con n‐1 grados de libertad,
correspondiente al cuantil α/2.
α = 0,10, 0,05 ó 0,01 según trabajemos con una confianza del 90, 95 ó 99%,
respectivamente.

El procedimiento general para el cálculo del intervalo es el mismo que el


explicado para el parámetro media poblacional, solo que en este caso se
recurrirá a tablas de distribución chi‐cuadrado (para una variable χ2 con n‐1
grados de libertad) para la obtención de los cuantiles.

Ejemplo 2. Cálculo de intervalo de confianza para la varianza poblacional.

En una fábrica de alimentos se pretende conocer la variabilidad del peso


registrado en la máquina empacadora de caramelos. Para ello se evalúan el
peso de 22 paquetes de caramelos, encontrándose una varianza de 49 gramos2.
Se desea calcular el intervalo de confianza para la varianza poblacional con un
95% de confianza.
Tenemos entonces la siguiente información:
n= 22 S2= 49 g2 S= 7

Trabajando con un nivel de confianza de 0,95, se obtienen los cuantiles α/2=


0,025 y 1‐α/2= 0,975, de la tabla de chi‐cuadrado, con 21 grados de libertad (n‐
1), siendo:
χ (222−1);(0, 025 ) = 35,48 χ (222−1);(0,975 ) = 10,28
Así,
S 2 (n − 1) S 2 (n − 1)
≤σ ≤
2

χ (2n −1);(1−α / 2 ) χ (2n −1);(α / 2 )

49(22 − 1) 49(22 − 1)
≤σ 2 ≤
35,48 10,28

29 ≤ σ 2 ≤ 100

114
Entonces, el intervalo buscado sería [29; 100] con un α=0,05. Esto significa que,
con un 95% de confianza, la varianza poblacional del peso de los caramelos
registrado por la máquina empacadora, se encuentra entre 29 y 100 gramos2.

115
BIBLIOGRAFÍA - MÓDULO 4

1. Andrade DF, Ogliari PJ. Estatística para as ciências agrárias e biológicas, com noçoes
de experimentaçao. Florianópolis: Ed. Da UFSC, 2007.

2. Peña D. Fundamentos de Estadística. Madrid: Alianza Editorial; 2001.

3. Blanch N, Joekes S. Curso de Estadística aplicada a la Investigación. Departamento


de Educación a Distancia, Facultad de Ciencias Económicas, UNC. 8va. Ed. Córdoba:
UNC; 2005.

4. Bordón LG. Estadística aplicada a Ciencias de la Salud. Una herramienta para la


Investigación. 5ta ed. Córdoba: LG Bordón Ed. 1999.

5. Ríus Díaz F, Barón Lopez FJ, Sánchez Font E, Parras Guijosa L. Bioestadística:
Métodos y Aplicaciones. Facultad de Medicina, Universidad de Málaga. Disponible en
http://www.bioestadistica.uma.es/libro/

6. Moschetti E, Ferrero S, Palacios G, Ruiz M. Introducción a la Estadística para las


Ciencias de la Vida. Editorial Fundación UNRC; 2000.

116
ESTADÍSTICA Y
BIOESTADÍSTICA

MÓDULO 5

LA ESTADÍSTICA
INFERENCIAL

117
118
PRUEBA DE HIPÓTESIS

Si bien muchas veces una investigación persigue fines descriptivos, otras veces
pretende verificar la veracidad de una afirmación sobre alguna característica
poblacional. Esas afirmaciones, referidas a un parámetro poblacional, son
consideradas hipótesis estadísticas, las cuales necesitan ser verificadas a partir
del contraste o comparación de las predicciones del investigador con los datos
de una muestra. El procedimiento mediante el cual se investiga la verdad o
falsedad de una hipótesis estadística se denomina, en la Inferencia Estadística,
Prueba de Hipótesis (también llamado Contraste o Test de Hipótesis).
En términos generales, toda Prueba de Hipótesis implica, en cualquier
investigación, la existencia de dos supuestos o hipótesis implícitas,
denominadas hipótesis nula e hipótesis alternativa, que de alguna manera
reflejarán esa idea a priori que tiene el investigador y que pretende contrastar
con la “realidad”. De la misma manera aparecen, implícitamente, diferentes
tipos de errores que se pueden cometer durante el procedimiento.1
Todo esto será abordado con mayor detalle a continuación.

HIPÓTESIS NULA Y ALTERNATIVA

El primer paso a seguir en una prueba de hipótesis es precisamente, el


planteamiento de hipótesis estadísticas. Esto implica el establecimiento o
formulación de la hipótesis nula y la hipótesis alternativa.
La hipótesis nula, simbolizada como H0, es un supuesto acerca de uno o más
parámetros de la población, cuya veracidad o falsedad se establecerá
estadísticamente usando los datos muestrales como evidencia. Se denomina
nula en el sentido que supone que no existe diferencia real entre el verdadero
valor del parámetro de la población de la que hemos obtenido la muestra y el
valor hipotetizado.1 La hipótesis nula puede interpretarse como aquella que
normalmente sería aceptada mientras los datos no indiquen otra cosa, y suele
formularse como una hipótesis que traduce las ideas de “no hay efecto”, “no
hay relación”, “los resultados en los grupos son similares”.2
En términos estadísticos, la misma se plantea de la siguiente forma (por
ejemplo, para el parámetro media μ en una o dos poblaciones,
respectivamente):
H0: μ=μ0 ó H0: μ1=μ2

119
Es importante destacar que la hipótesis H0 nunca se considera probada, aunque
puede ser rechazada por los datos.3 En otras palabras, el investigador se
propone verificar si debe rechazar o no su hipótesis nula, a la luz de los datos de
la muestra.
Si la hipótesis nula es falsa (se rechaza H0), deberá existir otra hipótesis que sea
verdadera.1 Esta hipótesis recibe el nombre de hipótesis alternativa y se
simboliza como H1. La misma representa el supuesto (hipótesis) que será
admitido cuando H0 sea rechazada. Normalmente se formula como la negación
o caso contrario de H0 (aunque esto no es necesariamente así).
En una prueba de hipótesis, la hipótesis alternativa para el parámetro media
puede plantearse de una de las siguientes formas (a, b ó c):
‐ Para contrastes de hipótesis respecto de una población:

a) H1: μ>μ0 b) H1: μ<μ0 c) H1: μ≠μ0

‐ Para contrastes de hipótesis respecto de dos poblaciones:

a) H1: μ1>μ2 b) H1: μ1<μ2 c) H1: μ1≠μ2

Cuando la hipótesis alternativa es de la forma como la indicada en a) o b) se dice


que la prueba es unilateral o de una cola, y cuando adopta la forma indicada en
c) la prueba es bilateral o de dos colas.4

Ejemplo 1. Supongamos que se realiza un estudio sobre la talla media de los


habitantes de una determinada comunidad A (μ1), la cual se sospecha que
difiere de la talla media de otra comunidad B (μ2). Partiendo de esta suposición
a priori, la hipótesis nula enunciaría que “La talla media de la comunidad A no
difiere de la comunidad B”, lo cual en términos estadísticos se formula como
sigue:
H0: μ1=μ2

En consecuencia, la hipótesis alternativa puede formularse como:

H1: μ1≠μ2

indicando que la talla media en los habitantes de la comunidad A es distinta de


la talla media de la comunidad B. Así, mediante una prueba de hipótesis

120
bilateral se intentará probar si, en base a los datos que se recaben de una
muestra en cada comunidad, estamos en condiciones de rechazar la H0.
Si supusiéramos que la comunidad A presenta una talla media inferior a la de la
comunidad B, la hipótesis alternativa a formular sería H1: μ1<μ2, siendo en tal
caso la prueba unilateral.

ERROR TIPO I Y TIPO II

Al realizar una prueba de hipótesis hay dos tipos de errores posibles:


• Rechazar la hipótesis nula, cuando esta es cierta. A esto se le denomina
error de tipo I. La probabilidad de cometer este error se denota con α.
• No rechazar la hipótesis nula, cuando esta es falsa. Lo denominamos
error tipo II, y a la probabilidad de que ocurra se la denomina β.

POTENCIA DE UN TEST

Un concepto ligado a lo anterior es el de Potencia de un test estadístico. Esta se


define como la función que establece la probabilidad de rechazar la hipótesis
nula cuando es falsa, es decir, la probabilidad de no cometer un error tipo II.
De acuerdo a la definición anterior, la potencia de un test se calcula tomando
1 ‐ β, o sea, uno menos la probabilidad de cometer un error de Tipo II.1

NIVEL DE SIGNIFICACIÓN

Se denomina nivel de significación de una prueba o test de hipótesis a la


probabilidad de cometer un error de tipo I. Esta probabilidad la fija de
antemano el investigador, y se representa con α. Típicamente se elige un valor
pequeño, 0,10 (10%), 0,05 (5%) ó 0,01 (1%). Todo experimento, en su definición
y antes de elegir las muestras, debe llevar descrito cuál es el criterio con el que
rechazaremos una hipótesis. Esto se traduce en prefijar el nivel de significación
del test,2 como veremos a continuación.

121
REGLAS DE DECISIÓN ESTADÍSTICA

Para decidir si cierta hipótesis nula (H0) debe ser rechazada o no a la vista de los
datos suministrados por una muestra de la población, es necesario establecer
un criterio que especifique a partir de qué valor del estadístico muestral se
tomará la decisión de rechazar H0. En términos generales, se deberá: a)
establecer un valor crítico (teórico) que determinará una región de rechazo y
una región de no rechazo de la hipótesis nula1; b) definir un estadístico
relacionado con la hipótesis que deseamos contrastar, denominado estadístico
de contraste.5 La región de rechazo de H0 se establece fijando el nivel de
significación con el cual se desea trabajar y en función de la hipótesis alternativa
formulada (uni o bilateral). Así, la hipótesis alternativa determina la localización
de la región de rechazo de H0 (ver Figura 1), y el nivel de significación α
determina el tamaño de dicha región.1

x1 = α/2 x2= 1‐(α/2)

x* = α x* = 1‐α

Nota: x* es el valor teórico o punto crítico.

Figura 1. Regiones de rechazo y no rechazo de Ho en pruebas de hipótesis unilateral y


bilateral.

Obsérvese que en la prueba bilateral, las zonas de rechazo son dos y


corresponden a α/2 cada una, mientras que en las pruebas unilaterales, el área
de rechazo es una (derecha o izquierda, según el caso) y corresponde a α.

122
En estadística es común denominar al valor del estadístico del contraste
calculado sobre la muestra como valor observado (lo simbolizaremos como
Xobs) y a los extremos de la región crítica, como valores teóricos o críticos (los
simbolizaremos como Xteo ó x*).5
Como regla de decisión general se establecerá que si el estadístico de contraste
cae en la región de rechazo (o sea si toma un valor observado fuera de los
valores críticos establecidos) se rechaza la hipótesis nula H0.1
Según se trate de pruebas con hipótesis alternativa uni o bilateral, esto se aplica
específicamente de la siguiente manera:

Siendo Xobs= valor observado (valor del estadístico de contraste) y Xteo= valor
teórico o crítico (para un α predeterminado), podemos establecer las siguientes
reglas de decisión:

• En pruebas unilateral izquierda:


Si Xobs ≤ Xteo se rechaza H0
Si Xobs > Xteo no se rechaza H0

• En pruebas unilateral derecha:


Si Xobs ≥ Xteo se rechaza H0
Si Xobs < Xteo no se rechaza H0

• En pruebas bilaterales:
Si Xobs ≤ Xteo_1 ó Xobs ≥ Xteo_2 se rechaza H0
Si Xteo_1 < Xobs < Xteo_2 no se rechaza H0

En virtud de todo lo expuesto, el procedimiento general para la realización de


una prueba de hipótesis se puede resumir en los siguientes pasos:

1. Formulación de las hipótesis estadísticas H0 y H1. La hipótesis H1 puede


adoptar forma bilateral o unilateral, derecha o izquierda, según el interés del
investigador.

2. Selección del estadístico de contraste, en función del parámetro involucrado.

3. Establecimiento del nivel de significación (α) para la prueba, para delimitar las
regiones de rechazo y no rechazo de H0. El valor crítico que defina los límites de
ambas regiones se obtiene de la tabla de distribución correspondiente, para el

123
valor α definido y en función de la hipótesis alternativa (dependiendo de si es
bilateral o unilateral, derecha o izquierda).

4. Cálculo del estadístico con los datos de la muestra.

5. Verificación de si el valor del estadístico pertenece o no a la región de rechazo


de H0, comparando su valor con el o los valores críticos establecidos. En
términos generales, la regla de decisión estadística será, finalmente, rechazar la
hipótesis nula si el valor del estadístico se ubica dentro de la zona de rechazo,
caso contrario, no rechazamos H0. 6

PRUEBA DE HIPÓTESIS EN UNA POBLACIÓN REFERIDA AL PARÁMETRO


MEDIA

En una prueba de hipótesis para la media de una variable aleatoria con


distribución normal (en una sola población), la hipótesis nula está dada por:

H0: μ = μ0

donde μ0 es un valor conocido. Así, postulamos que el verdadero valor de la


media poblacional (μ) es igual a un valor de interés del investigador (μ0). En
función de esta H0, el investigador podrá seleccionar una de las siguientes
hipótesis alternativas H1:
a) H1: μ>μ0 (Prueba unilateral derecha)
b) H1: μ<μ0 (Prueba unilateral izquierda)
c) H1: μ≠μ0 (Prueba bilateral)

La H1 postulada en el apartado “a” supone que la media poblacional es mayor a


un valor μ0, mientras que las H1 correspondientes a los apartados “b” y “c”
suponen que μ es menor que μ0 ó diferente a ese valor conocido,
respectivamente.
El estadístico de contraste apropiado para este test de hipótesis sobre el
parámetro media estará basado en la media muestral, y su distribución
dependerá de que la varianza poblacional sea o no conocida.6
Así, para la realización de la prueba de hipótesis se deberán distinguir dos
situaciones:

124
• Prueba de hipótesis para la media poblacional con varianza poblacional
conocida
• Prueba de hipótesis para la media poblacional con varianza poblacional
desconocida

PRUEBA DE HIPÓTESIS PARA LA MEDIA POBLACIONAL CON VARIANZA


POBLACIONAL CONOCIDA

El procedimiento a seguir para la realización de la prueba en este caso, es el


siguiente:

1. Establecimiento de las hipótesis H0 y H1:


H0: μ = μ0 H1: μ≠μ0 ó H1: μ>μ0 ó H1: μ<μ0

2. Selección del estadístico de contraste. En este caso, siendo la varianza


poblacional conocida (y por ende su desvío estándar), este será:
X − µ0
Z=
σ
n
donde n es el tamaño muestral, σ el desvío estándar poblacional, X la media
muestral y μ0 un valor de media conocido en base al cual se enuncia H0.

3. Establecimiento del nivel de significación (α) para la prueba. En general se


trabaja con un α=0,10, 0,05 ó 0,01. En función de esto y de la H1 planteada, se
buscará el/los valores críticos que definan los límites de las regiones de rechazo
y no rechazo de H0. Para ello se recurre a la Tabla de Distribución de Cuantiles
Normal Estándar. Los puntos críticos o teóricos (Zteo) a buscar en tabla, de
acuerdo al tipo de hipótesis alternativa establecida, corresponderán a los
cuantiles:
Para una hipótesis bilateral: α/2 y 1‐(α/2)
Para una hipótesis unilateral derecha: 1‐α
Para una hipótesis unilateral izquierda: α

4. Cálculo del estadístico Z mencionado, aplicando la ecuación presentada.

5. Comparación del valor del estadístico Z con el o los valores críticos (Zteo)
establecidos. Observación de si el estadístico Z calculado cae en zona de rechazo

125
de H0 o no, y aplicación en consecuencia, de la regla de decisión
correspondiente:
Para H1: μ≠μ0 , si Z ≤ Zteo_1 ó Z ≥ Zteo_2 se rechaza H0.
Para H1: μ>μ0 , si Z ≥ Zteo se rechaza H0.
Para H1: μ<μ0 , si Z ≤ Zteo se rechaza H0.
Casos contrarios, no se rechaza H0.

Ejemplo 2. Una máquina envasadora de granos está programada para producir


bolsas con peso medio de 20 kg y desvío poblacional 0,20 kg, lo cual es
controlado periódicamente. Para ello, se tomó una muestra de 8 bolsas, cuyos
pesos (kg) fueron:
20,3 19,8 20,3 19,7 19,8 19,7 19,8 19,8

Se sospecha que la máquina no funciona adecuadamente, dado que estaría


produciendo un peso medio inferior a 20 kg. Para verificar si esto es así, se
trabajará con un 95% de confianza.

Resolución:
A partir de este supuesto las hipótesis nulas y alternativas serán:
H0: μ = 20 H1: μ<20

En función de los datos de la muestra obtenemos una media muestral X =


19,9kg. Por otra parte, del enunciado propuesto se conoce que µ 0 = 20 kg, el
desvío estándar poblacional σ es 0,20 y el tamaño de la muestra n = 8.
Siendo la varianza poblacional conocida, el estadístico de contraste será Z.
Aplicado estos valores a la fórmula de dicho estadístico tenemos:

X − µ0
Z=
σ
n

19,9 − 20
Z= = −1,41
0,20
8

Luego, para un α = 0,05 y una hipótesis alternativa unilateral izquierda,


obtenemos de la tabla de distribución normal el valor teórico Zteo= ‐1,65, el cual
definirá las regiones de rechazo o no de H0 de la siguiente manera:

126
Dado que Z > Zteo no se rechaza H0, con un nivel de significancia del 5%.
En consecuencia, con una confianza del 95%, concluimos que diciendo que la
máquina envasadora de granos está funcionando adecuadamente, dado que
efectivamente produce bolsas de peso medio de 20 kg.

PRUEBA DE HIPÓTESIS PARA LA MEDIA POBLACIONAL CON VARIANZA


POBLACIONAL DESCONOCIDA

Los pasos a seguir son los siguientes:

1. Establecimiento de las hipótesis H0 y H1:


H0: μ = μ0 H1: μ≠μ0 ó H1: μ>μ0 ó H1: μ<μ0

2. Selección del estadístico de contraste. Dado que la varianza poblacional es


desconocida, se estimará a partir de los datos de la muestra y el estadístico de
elección será:

X − µ0
t=
S
n

el cual, bajo H0, presenta un distribución t de Student con n‐1 grados de


libertad, siendo n es el tamaño muestral, S el desvío estándar muestral, X la
media muestral y μ0 un valor de media conocido en base al cual se enuncia H0.

127
3. Establecimiento del nivel de significación (α) para la prueba (α=0,10, 0,05 ó
0,01). En función de esto y de la H1 planteada, se buscará el/los valores críticos
que definan los límites de las regiones de rechazo y no rechazo de H0. Para ello
se recurre en este caso a la Tabla de Cuantiles de la Distribución t de Student.
Los puntos críticos o teóricos (tteo) a buscar en tabla, de acuerdo al tipo de
hipótesis alternativa establecida, corresponderán a los cuantiles:
Para una hipótesis bilateral: α/2 y 1‐(α/2)
Para una hipótesis unilateral derecha: 1‐α
Para una hipótesis unilateral izquierda: α

4. Cálculo del estadístico t mencionado, aplicando la ecuación presentada.

5. Comparación del valor del estadístico t con el o los valores teóricos (tteo)
establecidos. Observación de si el estadístico t calculado cae en zona de rechazo
de H0 o no, y aplicación en consecuencia, de la regla de decisión
correspondiente:

Para H1: μ≠μ0 , si t ≤ t teo_1 ó t ≥ tteo_2 se rechaza H0.


Para H1: μ>μ0 , si t ≥ t teo se rechaza H0.
Para H1: μ<μ0 , si t ≤ t teo se rechaza H0.
Casos contrarios, no se rechaza H0.

Ejemplo 3. Un investigador supone que las Calorías medias requeridas para


cierta actividad aeróbica son 800 Cal/hora. Para evaluar la veracidad de esta
afirmación se seleccionó una muestra de 9 sujetos, en quienes se evaluó
mediante calorimetría indirecta el gasto calórico tras realizar dicho esfuerzo
físico. Se registraron los siguientes valores (Cal/hora):

767,8 764,1 716,8 750,2 756,0


692,5 736,1 746,1 731,4

Se desea extraer una conclusión al respecto, con un nivel de confianza del 95%.

Resolución:
En primer lugar, enunciamos las hipótesis estadísticas:
H0: μ = 800 Cal/hora H1: μ ≠ 800 Cal/hora

128
Dado que se desconoce la varianza poblacional, el estadístico a seleccionar
presenta una distribución t de Student con n‐1 grados de libertad.

Se estimarán a partir de los datos de la muestra, la varianza y media muestral:


S = 24,07 Cal/hora; X = 740,11 Cal/hora.

Estableciendo un nivel de significación α = 0,05 (dado que se pretende trabajar


con un nivel de confianza del 95%) y en función la H1 planteada (bilateral), se
buscarán los valores críticos (que definan los límites de las regiones de rechazo y
no rechazo de H0) en la Tabla de Cuantiles de la Distribución t de Student,
correspondientes a los cuantiles α/2 y 1‐(α/2), entrando con n ‐ 1 = 8 grados de
libertad:
t teo_1 = ‐2,306
t teo_2 = 2,306

Calculamos el estadístico t con los datos disponibles:

X − µ 0 740,11 − 800 − 59,89


t= = = = −7,468
S 24,07 8,02
n 9

Comparamos el valor del estadístico t obtenido con el o los valores teóricos (tteo)
establecidos.

Dado que el estadístico t calculado cae en zona de rechazo de H0, o lo que es lo


mismo, dado que t ≤ t teo_1 , se decide rechazar H0.
Se concluye que, con un 95% de confianza, la suposición del investigador es
incorrecta: las Calorías medias requeridas para la actividad estudiada ≠ 800
Cal/hora.
129
PRUEBA DE HIPÓTESIS EN UNA POBLACIÓN REFERIDA AL PARÁMETRO
VARIANZA

Existen situaciones donde el parámetro de interés es la varianza poblacional


(por ejemplo, estudios sobre la variabilidad en instrumentos de medición).4
Siendo entonces de interés del investigador determinar si la varianza
poblacional σ2 de una variable aleatoria con distribución Normal es distinta de
un valor prefijado σ02 (conocido), las hipótesis a plantear son las siguientes:

H0: σ2= σ02


H1: σ2≠ σ02 ó H1: σ2> σ02 ó H1: σ2 < σ02

En este caso, H1 supone que la varianza poblacional (σ2) es distinta, mayor o


menor que un valor determinado (σ02).
El procedimiento a seguir es el mismo que ya fue presentado para el parámetro
media, solo que el estadístico de contraste a usar en la prueba de hipótesis se
basa en la varianza muestral S2 y se distribuye como χ con n‐1 grados de
2

libertad, como se verá a continuación.

Los pasos de esta prueba de hipótesis serían entonces:

1. Establecimiento de las hipótesis H0 y H1, como se enunció anteriormente.

2. Selección del estadístico de contraste:

χ2 =
(n − 1) ⋅ S 2
σ 02

el cual bajo H0 presenta un distribución chi‐cuadrado ( χ 2 ) con n‐1 grados de


libertad, siendo n es el tamaño muestral, S2 la varianza muestral y σ0 un valor de
varianza conocido en base al cual se enuncia H0.

3. Establecimiento del nivel de significación (α) para la prueba. En función de


esto y de la H1 planteada, se definirán los límites de las regiones de rechazo y no
rechazo de H0. Para ello se buscarán los valores críticos o teóricos en la Tabla de
la Distribución χ 2 . Los puntos críticos o teóricos ( χ 2 teo) a buscar en tabla, de
acuerdo al tipo de hipótesis alternativa establecida, corresponderán a los
cuantiles:

130
Para una hipótesis bilateral: α/2 y 1‐(α/2)
Para una hipótesis unilateral derecha: 1‐α
Para una hipótesis unilateral izquierda: α

4. Cálculo del estadístico χ2 mencionado, aplicando la fórmula


correspondiente.

5. Comparación del valor del estadístico χ 2 con el o los valores teóricos ( χ 2 teo)
establecidos. Observación de si el estadístico χ 2 calculado cae en zona de
rechazo de H0 o no, y aplicación en consecuencia, de la regla de decisión
apropiada:
Para H1: σ2≠ σ02, si χ 2 ≤ χ 2 teo_1 ó χ 2 ≥ χ 2 teo_2 se rechaza H0.
Para H1: σ2> σ02 , si χ 2 ≥ χ 2 teo se rechaza H0.
Para H1: σ2< σ02, si χ 2 ≤ χ 2 teo se rechaza H0.
Casos contrarios, no se rechaza H0.

Ejemplo 4. Un laboratorio desea adquirir una nueva balanza digital lanzada al


mercado, pero sospecha que la misma produce un aumento de la varianza del
peso. La desviación estándar que se obtiene con una balanza tradicional es de
6,25 gramos. Se tomaron 10 balanzas digitales al azar y se obtuvo una varianza
muestral de 6,5 gramos2. Se desea comprobar si la sospecha del laboratorio es
cierta, trabajando con un nivel de confianza del 90%.

Resolución:
Las hipótesis a contrastar son:
H0: σ2= 6,25 gramos2 H1: σ2 > 6,25 gramos2

Dado que el parámetro de interés es la varianza poblacional, el estadístico de


contraste es:

χ2 =
(n − 1) ⋅ S 2 = (10 − 1) ⋅ 6,5 = 9,36
σ 02 6,25

Para un nivel de significación α=0,10 y siendo la H1 planteada unilateral


derecha, se definirán los límites de las regiones de rechazo y no rechazo de H0
en función del valor teórico buscados en la Tabla de la Distribución Chi‐
cuadrado, correspondiente al cuantil 1‐ α (1‐0,10= 0,90), ingresando con n‐1 (o
sea 10‐1= 9) grados de libertad.

131
χ 2 teo = 14,68

Comparando el valor del estadístico χ 2 con el valor teórico ( χ 2 teo) establecido,


se observa que χ 2 cae en zona de no rechazo de H0 ( χ 2 < χ 2 teo ).
Se concluye que, con un 90% de confianza, la nueva balanza digital no produce
un aumento de la varianza del peso medido.

PRUEBA DE HIPÓTESIS EN DOS POBLACIONES REFERIDA AL PARÁMETRO


MEDIA

El procedimiento general hasta aquí presentado para pruebas de hipótesis en


una población (y por ende, a partir de una muestra) es también aplicable a
situaciones en las que se desea realizar una comparación entre dos medias
poblacionales. Dicho en otras palabras, se desea decidir si las medias de dos
poblaciones son semejantes o no. En este caso, será necesario trabajar con los
datos de dos muestras provenientes de dos poblaciones con medias
poblacionales μ1 y μ2. Como primer paso se deberá considerar si las muestras
son independientes o están apareadas (es decir, si son dependientes). Es
necesario entonces diferenciar ambos conceptos:

• Muestras independientes: en estas, los datos de ambas muestras no


están relacionados a ningún factor que pueda confundir (mezclar) el
efecto de los factores bajo estudio. Es decir, hay independencia entre las
observaciones dentro de las muestras.6 Por ejemplo, comparar el
rendimiento de dos variedades distintas de trigo, tomando una muestra
de plantaciones de trigo de la variedad A y otra muestra de la variedad B.
Se considera que ambas muestras son independientes pues se puede
suponer que los resultados de una no interfieren en los resultados de la
otra.
• Muestras dependientes o apareadas: los datos de dos muestras
constituyen datos apareados cuando están relacionados de dos en dos,
según algún criterio que introduzca una influencia marcada entre los
diversos pares de valores.6 Estas muestras dependientes se pueden
generar, en general, por dos situaciones: a) la misma unidad de
observación es medida en dos ocasiones diferentes; b) las mediciones se
obtienen a partir de unidades observacionales relacionadas.4 Un ejemplo
del primer caso sería medir el peso de cada sujeto bajo estudio (unidad

132
de observación) antes y después de un tratamiento dietoterápico, y a la
segunda situación correspondería un estudio en pares de gemelos.

Veremos entonces el procedimiento para la realización de pruebas de


hipótesis para dos medias poblacionales (ó Prueba de Diferencia entre
Medias), según se trate de muestras independientes o apareadas. Como en el
caso de test para una media, aquí también el conocimiento o no de la varianza
poblacional definirá el tipo de estadístico a emplear.

MUESTRAS INDEPENDIENTES:

• PRUEBA DE DIFERENCIA DE MEDIAS CON VARIANZAS POBLACIONALES


CONOCIDAS

Dado dos variables aleatorias independientes con distribuciones normales 1 y 2,


con medias poblacionales μ1 y μ2, respectivamente, y varianzas poblacionales σ21
y σ22 conocidas, los pasos a seguir son los siguientes:

1. Establecimiento de las hipótesis H0 y H1:

H0: μ1 = μ2 ó H0: μ1 ‐ μ2 = 0

La hipótesis alternativa según se trate de una prueba bilateral, unilateral


derecha o izquierda será:
H1: μ1≠μ2 ó H1: μ1 ‐ μ2 ≠ 0
H1: μ1>μ2 ó H1: μ1 ‐ μ2 > 0
H1: μ1<μ2 ó H1: μ1 ‐ μ2 < 0

Cabe aclarar que en casos como este (comparación de dos poblaciones), las
hipótesis nula y alternativa pueden plantearse también en función de una
diferencia de medias:
H0) μ1 ‐ μ2 = 0
H1) μ1 ‐ μ2 ≠ 0; μ1 ‐ μ2 > 0; ó μ1 ‐ μ2 < 0

2. Selección del estadístico de contraste. Siendo las varianzas poblacionales


conocidas, el estadístico a emplear es:

133
X1 − X 2
Z=
σ 12 σ 22
+
n1 n2

donde n1 y n2 son los tamaños muestrales de la muestra 1 y 2 respectivamente,


σ21 y σ22 sus varianzas poblacionales, X 1 la media de la muestra 1 y X 2 la media
de la muestra 2.

3. Establecimiento del nivel de significación (α) para la prueba: α=0,10, 0,05 ó


0,01. Para buscar los valores teóricos que delimiten la zona de rechazo y no
rechazo de H0, en este caso también se recurre a la Tabla de Distribución de
Cuantiles Normal Estándar. Los puntos críticos o teóricos (Zteo) a buscar, de
acuerdo al tipo de hipótesis alternativa establecida, corresponderán a los
cuantiles:
Para una hipótesis bilateral: α/2 y 1‐(α/2)
Para una hipótesis unilateral derecha: 1‐α
Para una hipótesis unilateral izquierda: α

4. Cálculo del estadístico Z mencionado, aplicando la formula anterior.

5. Comparación del valor del estadístico Z con el o los valores críticos (Zteo)
establecidos. Observación de si el estadístico Z calculado cae en zona de rechazo
de H0 o no, y aplicación en consecuencia, de la regla de decisión
correspondiente:
Para H1: μ≠μ0 , si Z ≤ Zteo_1 ó Z ≥ Zteo_2 se rechaza H0.
Para H1: μ>μ0 , si Z ≥ Zteo se rechaza H0.
Para H1: μ<μ0 , si Z ≤ Zteo se rechaza H0.
Casos contrarios, no se rechaza H0.

Ejemplo 5. En un laboratorio se está probando el efecto de un suplemento


nutricional hipercalórico en ratas de dos especies. Se conformaron dos muestras
independientes, de 10 ratas cada una, y se registró el aumento de peso de las
mismas tras la administración de dicho suplemento durante una semana. Los
datos fueron los siguientes:

Aumento de peso (g/semana)


Muestra 1 43,3 46,7 55,6 42,8 46,8 47,9 56,3 43,7 45,7 34,6
Muestra 2 54,9 52,2 42,8 50,0 47,7 52,0 50,8 59,2 45,6 71,2

134
Se conocía con anterioridad las varianzas poblacionales σ21= 39,4 g2 y σ22= 63,8
g2. Se desea saber si existe diferencia o no entre las medias de aumento de peso
en ambas especies, con un nivel de confianza del 90%.

Resolución:
Las hipótesis H0 y H1 a contrastar son las siguientes:

H0: μ1 = μ2
H1: μ1≠μ2

Siendo las varianzas poblacionales conocidas, seleccionamos el siguiente


estadístico de contraste:

X1 − X 2
Z=
σ 12 σ 22
+
n1 n2

donde n1 y n2 son los tamaños muestrales de la muestra 1 y 2 respectivamente,


σ21 y σ22 sus varianzas poblacionales, X 1 la media de la muestra 1 y X 2 la media
de la muestra 2.

Para poder aplicar esta fórmula es necesario efectuar el cálculo de las medias
muestrales en función de los datos provistos:
X 1 = 46,34 g
X 2 = 52,64 g

Estableciendo como nivel de significación para la prueba un α=0,10 y siendo la


H1 planteada bilateral, se buscarán los valores teóricos en la Tabla de
Distribución de Cuantiles Normal Estándar, los cuales delimitarán la zona de
rechazo y no rechazo de H0, correspondiendo a los cuantiles α/2 (o sea 0,10/2=
0,05) y 1‐(α/2) (o sea 1‐0,05= 0,95):

Zteo_1 = ‐1,645
Zteo_2 = 1,645

135
Se realiza a continuación el cálculo del estadístico Z mencionado:

X1 − X 2 46,34 − 52,64
Z= = = −1,96
σ 2
σ 2
39,4 63,8
+
1
+ 2

n1 n2 10 10

Luego, comparamos el valor del estadístico Z con los valores críticos (Zteo)
establecidos.

Como se observa en la figura anterior, dado que el estadístico Z calculado cae


en zona de rechazo de H0 (Z < Zteo_1 ), decidimos rechazar H0.
Esto indica que, con una confianza del 90%, las medias de aumento de peso en
ambas especies de ratas es diferente.

• PRUEBA DE DIFERENCIA DE MEDIAS CON VARIANZAS POBLACIONALES


DESCONOCIDAS

Si se trabaja con dos muestras independientes, provenientes de dos poblaciones


con distribución normal, con medias μ1 y μ2, y varianzas σ21 y σ22 desconocidas,
será necesario verificar si estas varianzas son semejantes o no antes de iniciar la
prueba de hipótesis sobre las medias. Esto se efectúa mediante otro test de
hipótesis de Diferencia entre Varianzas. Luego se sigue la misma secuencia que
venimos presentando.

136
Prueba de Diferencia entre Varianzas:

1. Se establece una hipótesis H0 que planteará la igualdad entre varianzas. La H1


planteará, en cambio, la diferencia entre varianzas:

H0: σ21 = σ22


H1: σ21 ≠ σ22

2. El estadístico de contraste será:


S12
F=
S 22

siendo S21 y S22 las varianzas de la muestra 1 y 2, respectivamente. Este


estadístico se distribuye como una F con n1‐1 y n2‐1 grados de libertad.

3. Estableciendo el nivel de significación como α=0,10, 0,05 ó 0,01, y siendo la


H1 planteada bilateral, se buscarán los valores críticos (F teo) correspondientes a
los cuantiles α/2 y 1‐(α/2) en la Tabla de Cuantiles de la Distribución F.

4. Cálculo del estadístico F presentado.

5. Comparación del valor del estadístico F con los valores teóricos (F teo)
establecidos. Observación de si el estadístico F calculado cae en zona de rechazo
de H0 o no, y aplicación en consecuencia, de la regla de decisión
correspondiente:
Si F ≤ F teo_1 ó F ≥ F teo_2 se rechaza H0, asumiendo en consecuencia que las
varianzas son diferentes. En el caso contrario, no se rechaza H0, y se concluye
entonces que las varianzas poblacionales son iguales.

Prueba de Diferencia entre Medias con Varianzas iguales:

En caso de que el test de diferencia de varianzas indique que las varianzas


poblacionales pueden suponerse iguales, se aplica la siguiente prueba de
hipótesis para diferencia de medias.

El procedimiento para la realización de esta prueba continua siendo el mismo


que el que venimos trabajando, solo que varía el estadístico de contraste a ser

137
utilizado. En este caso el estadístico, bajo hipótesis nula, sigue una distribución t
de Student con n1+n2 – 2 grados de libertad, donde n1 es el número de
observaciones de la muestra de la población 1, n2 el número de observaciones
de la muestra de la población 2, y S21 y S22 son sus respectivas varianzas
muestrales:

t=
(X 1 − X2)
(n1 − 1)S12 + (n2 − 1)S 22 1 1
 + 
n1 + n 2 − 2  n1 n 2 

Ejemplo 6. Un fabricante desea comparar el contenido de calcio (en mg %) de


dos variedades de yogur sometidos a procesos de elaboración distintos. Para
ello se tomaron dos muestras de 9 yogures cada una, a partir de las cuales se
obtuvo la siguiente información:

• Yogur Tipo A: X A = 139 mg; S2A = 11,6 mg2


• Yogur Tipo B: X B = 128 mg; S2B = 7,9 mg2

¿Se puede afirmar, con un 95% de confianza, que el contenido medio de calcio
de ambos yogures es diferente?

Resolución:
En primer lugar será necesario verificar si las varianzas poblacionales,
desconocidas, son semejantes o no, mediante la prueba de Diferencia entre
Varianzas:

Dado
H0: σ2A = σ2B
H1: σ2A ≠ σ2B

el estadístico de contraste será:


S A2 11,6
F= = = 1,47
S B2 7,9
siendo S2A y S2B las varianzas de la muestra A y B, respectivamente. Siendo n1= 9
y n2= 9, este estadístico se distribuye como una F con 9‐1 y 9‐1 grados de
libertad.

138
Con un α=0,05, los valores críticos (F teo) correspondientes a los cuantiles α/2 (o
sea 0,05/2= 0,025) y 1‐(α/2) (o sea 1‐0,025= 0,975) en la Tabla de Cuantiles de la
Distribución F son:
F teo_1= 0,2256
F teo_2= 4,4333

En virtud del valor calculado para el estadístico F= 1,47, vemos que:


Fteo_1 < F < Fteo_2 = 0,2256 < 1,47 < 4,4333.

En consecuencia, dado que F observado cae en la zona de aceptación de H0,


asumiremos que las varianzas son semejantes.

Probado esto, las hipótesis respecto a la media a contrastar serían:

H0: μA = μB
H1: μA≠μB

El estadístico de contraste, dado que las varianzas son iguales (en virtud del
resultado del test F antes realizado) es el siguiente:

t=
(X A − XB)
(n A − 1)S A2 + (n B − 1)S B2 1 1 
 + 
n A + nB − 2  n A nB 

el cual sigue una distribución t de Student con nA+nB – 2 grados de libertad, o


sea 9+9‐2= 16 grados de libertad.
Efectuando los reemplazos pertinentes en la fórmula, tenemos:

t=
(139 − 128) = 7,47
(9 − 1)11,6 + (9 − 1)7,9  1 + 1 
9+9−2 9 9 

Estableciendo un α=0,05, los puntos críticos o teóricos extraídos de la Tabla de


distribución T, correspondientes a los cuantiles α/2 y 1‐(α/2) e ingresando con
nA+nB – 2 = 16 grados de libertad, son:
Tteo_1 = ‐2,12
Tteo_2= 2,12

139
Gráficamente tenemos:

Comparando el valor del estadístico t calculado y los valores teóricos, vemos


que se ubica en la región de rechazo de H0 (dado que t > Tteo_2). Se concluye
entonces que es posible afirmar, con un 95% de confianza, que el contenido
medio de calcio de ambos yogures es diferente.

Prueba de Diferencia entre Medias con Varianzas diferentes:

Si el análisis previo (Test F de diferencia de varianzas) indicó que las varianzas


poblacionales pueden suponerse distintas, el estadístico para la prueba de
diferencias entre dos medias está dado por:

t=
(X 1 − X2)
S 12 S 22
+
n1 n2

el cual tiene una distribución t de Student con v grados de libertad, los cuales se
calculan de acuerdo a la siguiente ecuación:

2
 S12 S 22 
 
n + n 
 1 2 
v= −2
(S 1
2
/ n1 ) (n
2
1 (
− 1) + S 22 / n 2 ) (n
2
2 − 1)

Siendo S21 y S22 las varianzas de la muestra 1 y 2, respectivamente, y n1 y n2 sus


correspondientes tamaños muestrales.

140
Estos son los grados de libertad con los cuales se deberá ingresar a la Tabla de
Cuantiles de la Distribución t de Student para la búsqueda de los puntos o
valores teóricos, siguiendo la misma metodología hasta aquí presentada.

Ejemplo 7. Los resultados de ciertas determinaciones bioquímicas realizadas en


dos laboratorios, en base a dos muestras de tamaño 10, son los siguientes:

Laboratorio 1: X 1= 24 S 1= 1 S21= 1 n1=10


Laboratorio 2: X 2= 20 S 2= 5 S22= 25 n2=10

Se desea determinar si las medias de las determinaciones bioquímicas en


ambos laboratorios son iguales, con un α=0,05.

Resolución:
Se realiza primeramente, la prueba de Diferencia entre Varianzas:

Siendo
H0: σ2A = σ2B
H1: σ2A ≠ σ2B

El estadístico de contraste será:

S12 1
F= 2
= = 0,04
S 2 25

donde S21 y S22 son las varianzas de la muestra del laboratorio 1 y 2,


respectivamente. Este estadístico se distribuye como una F con n1‐1 y n2‐1
grados de libertad (o sea 9 y 9 grados de libertad).

Con un α=0,05, los valores críticos (F teo) correspondientes a los cuantiles α/2 y
1‐(α/2) en la Tabla de Cuantiles de la Distribución F son:
F teo_1= 0,248
F teo_2= 4,026

Dado que el estadístico calculado F = 0,04 cae en la zona de rechazo de H0


(F < F teo_1 ), asumiremos que las varianzas son diferentes.

141
Las hipótesis respecto a la media a contrastar serían:

H0: μ1 = μ2 H1: μ1≠μ2

El estadístico de contraste, dado que hemos comprobado mediante el test


previo que las varianzas son distintas, es el siguiente:

t=
(X 1 − X2)
=
(24 − 20 ) = 2,48
S 12 S 22 1 25
+ +
n1 n2 10 10

el cual tiene una distribución t de Student con v grados de libertad, los cuales se
calcularán de acuerdo a la siguiente ecuación:

2
 S12 S 22 
 
n + n 
 1 2 
v= −2
(S 1
2
/ n1 ) (n
2
1 (
− 1) + S 22 / n 2 ) (n
2
2 − 1)

2
 1 25 
 + 
 10 10 
v= − 2 = 7,73
(1 / 10)2 (10 − 1) + (25 / 10)2 (10 − 1)

Con estos 7 grados de libertad ingresaremos a la Tabla de Cuantiles de la


Distribución t de Student para la búsqueda de los puntos o valores teóricos (con
un α=0,05), correspondientes a los cuantiles α/2 y 1‐(α/2) son:
Tteo_1 = ‐2,36
Tteo_2= 2,36

Gráficamente tenemos:

142
Comparando el valor del estadístico t calculado y los valores teóricos, vemos
que se ubica en la región de rechazo de H0 (dado que t > Tteo_2).
Así, se concluye que las medias de las determinaciones bioquímicas en ambos
laboratorios no son iguales, con un nivel de confianza del 95%.

MUESTRAS DEPENDIENTES

Habiendo introducido previamente el concepto de muestras dependientes,


vamos a presentar este tema a través de un ejemplo. Se verá que el
procedimiento general de esta prueba de hipótesis es el mismo que el hasta
aquí presentado, solo que la variable de interés es la diferencia entre los valores
de cada par observado. Es decir, dado los datos de la muestra A y los de la
muestra B, las diferencias Di = Ai ‐ Bi (siendo i= 1, 2, ..., n) generan un conjunto
de n observaciones, correspondientes a la diferencia entre el valor A y B de cada
par. Esta nueva muestra es la utilizada para la prueba de hipótesis, como
veremos a continuación.

Ejemplo 8. En una clínica dedicada al tratamiento del sobrepeso y obesidad se


desea evaluar si una determinada dieta hipocalórica vegetariana afecta o no los
niveles de hemoglobina (Hg) en sangre de sus pacientes. Para ello, a una
muestra de 8 pacientes que estaban bajo tratamiento estándar, se les
administró esta nueva dieta. Fueron medidos los niveles de Hg antes y después
de esta intervención dietoterápica. Los resultados obtenidos fueron los que se
muestran en la siguiente tabla:

143
Paciente Hg antes (A) Hg después (B) Diferencia
(D = A – B)
1 13,6 11,4 2,2
2 13,6 12,5 1,1
3 14,7 14,6 0,1
4 12,1 13,0 ‐0,9
5 12,3 11,7 0,6
6 13,2 10,3 2,9
7 11,0 9,8 1,2
8 12,4 10,4 2,0

Resolución:
1. Establecimiento de las hipótesis H0 y H1:
Dado que suponemos que el contenido de Hg disminuiría tras la realización de
una dieta vegetariana, las hipótesis serían:

H0) μA = μB H1) μA > μB

Estas mismas hipótesis, planteadas en términos de la diferencia entre las dos


medias μD = μA ‐ μB, puede ser formulada como:

H0) μD = 0 H1) μD > 0

De este modo, pasamos a trabajar ahora con una población de diferencias (D


para cada par de valores), la cual presenta media μD y varianza σ2D
desconocidas.

2. Selección del estadístico de contraste.


Admitiendo que las diferencias siguen una distribución aproximadamente
normal, podemos realizar un test de hipótesis del parámetro media con
varianza poblacional desconocida, cuyo estadístico de contraste es:

D
t=
SD
n

144
el cual sigue una distribución t de Student con n‐1 grados de libertad, siendo D
la media muestral de las diferencias entre los valores A y B, y SD el desvío
estándar de esas diferencias, para n pares de valores.

3. Establecimiento del nivel de significación (α) para la prueba.


Si se establece un nivel de confianza del 95% (α=0,05), para la hipótesis
alternativa planteada, de tipo unilateral derecha, el valor teórico o crítico
corresponde al cuantil 1‐α (o sea 0,95), buscado en Tabla de Distribución t de
Student con n‐1 grados de libertad (o sea 7 en este caso). Así:

tteo = 1,895

4. Cálculo del estadístico de contraste t presentado.


Habiendo calculado D y SD a partir de los datos de la nueva muestra de
D 1,15
“diferencias” D, aplicando la ecuación t = tenemos: t= = 2,655
SD 1,23
n 8

5. Comparación del valor del estadístico t con el valor teórico (t teo), para
observar si cae o no dentro de la zona de rechazo de H0.

Como se observa, el estadístico t calculado cae en zona de rechazo de H0, dado


que 2,655 ≥ 1,895 (o sea t ≥ t teo).

A partir de esto, concluimos que μA > μB, indicando que los niveles de Hg
disminuirán tras la administración de la dieta hipocalórica vegetariana, con un
95% de confianza.

145
GENERALIZACIÓN A MÁS DE DOS POBLACIONES: INTRODUCCIÓN AL
ANÁLISIS DE LA VARIANZA

Hasta ahora hemos aplicado pruebas de hipótesis para el parámetro media en


uno o dos grupos. Sin embargo, existen situaciones en las que se desea
establecer comparaciones entre más de dos medias. En esos casos, es decir,
cuando el número de muestras o grupos a contrastar es mayor que dos se
emplea el análisis de la varianza ó ANOVA. Son ejemplos típicos de aplicación
del ANOVA aquellos estudios donde se desea comparar los resultados de la
aplicación de 3 o más tratamientos, dosis, metodologías, por ejemplo:
• diferentes tratamientos dietoterápicos,
• administración de distintos fármacos o dosis farmacológicas,
• diferentes métodos de enseñanza
• distintas alternativas terapéuticas para una enfermedad, etc.

En cuanto al aspecto metodológico y en términos sencillos podemos decir que


este test descompone la variabilidad total de los datos en dos: la variabilidad
entre los grupos y la variabilidad dentro de los grupos. Así, si las diferencias
entre los grupos (por ejemplo, bajo distintos tratamientos) resultan
relativamente mayores que las fluctuaciones dentro de los grupos, se puede
establecer que el factor de agrupamiento (ej. el tratamiento) se relaciona con
las diferencias entre los grupos.
En general, la hipótesis nula traducirá la idea de que en los diferentes grupos se
obtienen resultados similares (sus medias son iguales), y la hipótesis alternativa
lo negará.5 Si suponemos que la hipótesis nula de la igualdad de medias en los
diferentes grupos es cierta, podríamos decir que todas las observaciones
pueden considerarse que provienen de un único grupo cuya media y
variabilidad es la misma que la de cualquiera de los grupos por separado.5 Caso
contrario, diremos que el tratamiento aplicado a las unidades experimentales
ha modificado a la población de la cual se extrajo la muestra, de tal manera que
ahora, ya no se tiene una sino varias poblaciones.1
Resumiendo, vemos que este análisis nos permite comprobar si existen efectos
de tratamiento, esto es, si un grupo de medias puede considerarse muestreado
aleatoriamente de la misma población o si los tratamientos que han afectado a
cada grupo separadamente han dado como resultado un cambio de estas
medias. Si esto es así, habrá una componente añadida debida a los efectos de
tratamiento y podrá ser detectada por un test F en el ANOVA.1

146
Se pretende aquí simplemente presentar los fundamentos y aplicaciones de
esta metodología estadística a modo introductorio, pero el desarrollo de este
análisis puede ser profundizado con la bibliografía complementaria que será
sugerida por el docente.

147
BIBLIOGRAFÍA - MÓDULO 5

1. Blanch N, Joekes S. Curso de Estadística aplicada a la Investigación. Departamento


de Educación a Distancia, Facultad de Ciencias Económicas, UNC. 8va. Ed. Córdoba:
UNC; 2005.

2. Barón López FJ, Téllez Montiel F. Apuntes de Bioestadística: Tercer ciclo en Ciencias
de la Salud y Medicina. Universidad de Málaga: 2004. Disponible en
http://www.bioestadistica.uma.es/baron/

3. Peña D. Fundamentos de Estadística. Madrid: Alianza Editorial; 2001.

4. Moschetti E, Ferrero S, Palacios G, Ruiz M. Introducción a la Estadística para las


Ciencias de la Vida. Editorial Fundación UNRC; 2000.

5. Ríus Díaz F, Barón Lopez FJ, Sánchez Font E, Parras Guijosa L. Bioestadística:
Métodos y Aplicaciones. Facultad de Medicina, Universidad de Málaga. Disponible en
http://www.bioestadistica.uma.es/libro/

6. Andrade DF, Ogliari PJ. Estatística para as ciências agrárias e biológicas, com noçoes
de experimentaçao. Florianópolis: Ed. Da UFSC, 2007.

148
ESTADÍSTICA Y
BIOESTADÍSTICA

MÓDULO 6

ANÁLISIS DE
RELACIONES

149
150
ANÁLISIS DE VARIABLES CATEGÓRICAS

Hemos visto con anterioridad distintas metodologías de análisis de datos de tipo


cuantitativos, es decir, de naturaleza numérica. Sin embargo, existen muchas
situaciones en las que el interés del investigador puede estar centrado en
analizar la relación que existe entre dos o más variables categóricas. Por
ejemplo, si se desea estudiar si existe asociación entre el nivel de instrucción
materno y la desnutrición, o conocer si la obesidad infantil depende de la
presencia de diabetes gestacional. En casos como estos, la metodología
aplicable al análisis de datos categóricos utiliza a la distribución Chi‐cuadrado
como criterio de test. En general este tipo de prueba estadística consisten en
tomar una muestra y observar si hay diferencia significativa entre las
frecuencias observadas y las frecuencias esperadas para un modelo teórico que
suponga homogeneidad en todas las categorías.1‐2 Se contrasta de este modo la
hipótesis de que las variables son independientes, frente a la hipótesis
alternativa de que una variable se distribuye de modo diferente para diversos
niveles de la otra.3

TABLAS DE CONTINGENCIA

En algunos estudios, es muy frecuente que los datos representen frecuencias


(conteos) de la ocurrencia de determinada característica (por ejemplo,
presencia de cierta enfermedad) que se puede clasificar en categorías de una
variable cualitativa. Estas categorías pueden ser representadas en una tabla,
denominada tabla de contingencia.4 Estas tablas, se caracterizan por tabular el
entrecruzamiento de las frecuencias de variables en sus respectivos niveles o
categorías (Tabla 1 y 2). Cuando la tabla es bidimensional y las variables
representadas tienen solo dos categorías, es una tabla de contingencia
denominada Tabla de 2x2 (Tabla 2).

Tabla 1. Ejemplo de tabla de contingencia.


Nivel de instrucción materno Niño con Niño sin Total
desnutrición desnutrición
Analfabeta o primario incompleto 32 14 46
Primario completo 22 24 46
Secundario completo 13 41 54
Estudios terciarios o Universitarios 8 55 63
Total 75 134 209

151
Tabla 2. Ejemplo de tabla de contingencia tipo Tabla de 2x2.

Obesidad Infantil
Diabetes gestacional Si No Total
Si 25 12 37
No 13 34 47
Total 38 46 84

PRUEBA CHI-CUADRADO

El procedimiento general para esta prueba, partiendo de una tabla de


contingencia, es el siguiente:

1. Formulación de las hipótesis estadísticas H0 y H1. En este tipo de prueba la


hipótesis nula H0 afirma que no existe asociación entre las variables estudiadas,
y la hipótesis alternativa H1 lo contrario.

2. Selección y cálculo del estadístico de contraste. En este caso es el siguiente


estadístico χ2:
( fo − fe )
2

χ =∑
2

fe
donde
fo = frecuencia observada de elementos en cada celda de la tabla de
contingencia
fe = frecuencia esperada de elementos en cada celda de la tabla de
contingencia, la cual se calcula multiplicando las frecuencias marginales (el total
de la fila por el total de la columna) sobre el n (total general).

3. Establecimiento del nivel de significación (α) para delimitar las regiones de


rechazo y no rechazo de H0. La prueba Chi‐cuadrado es siempre de tipo
unilateral derecha, por ende, el valor crítico que define los límites de ambas
regiones corresponde al cuantil 1‐α, el cual se obtiene de la tabla de distribución
Chi‐cuadrado. Se deberá ingresar a la misma con (l ‐ 1) x (c ‐ 1) grados de
libertad, siendo l es el número de líneas y c el número de columnas de la tabla
de contingencia.

152
Figura 1. Región de rechazo y no rechazo de H0 para una prueba Chi‐cuadrado.

4. Verificación de si el valor del estadístico pertenece o no a la región de rechazo


de H0, comparando su valor con el valor crítico establecido. En esta prueba la
regla de decisión estadística será rechazar la hipótesis nula si el valor del
estadístico de contraste es mayor que el valor teórico obtenido de la tabla Chi‐
cuadrado a un nivel de significancia α. Caso contrario, no rechazamos H0.

Veamos este procedimiento con un ejemplo.

Ejemplo 1. Una institución de salud desea conocer si existe asociación entre el


peso al nacer y el tipo de parto. Para ello se tomó una muestra de 200 recién
nacidos. Los datos recabados fueron los siguientes:

Peso al Nacer
Tipo de Parto Normal Bajo Peso Total
Natural 42 58 100
Cesárea 65 35 100
Total 107 93 200

Estableciendo un nivel de significación de 0,05 ¿se puede suponer que existe tal
asociación? O lo que es lo mismo, ¿es posible afirmar que el peso al nacer y el
tipo de parto son variables independientes?

Resolución:

1. Formulación de las hipótesis estadísticas H0 y H1:


H0: No existe asociación entre el peso al nacer y el tipo de parto (son
independientes).
H1: Existe asociación o dependencia entre el peso al nacer y el tipo de parto.

153
2. Selección y cálculo del estadístico de contraste χ2:

( fo − fe )
2

χ =∑
2

fe

Puede ser útil construir la siguiente tabla de cálculo para presentar las
frecuencias observadas (fo) y esperadas (fe):

Peso al Nacer
Tipo de Parto Normal Bajo Peso Total
fo (fe) fo (fe)
Natural 42 (53,5) 58 (46,5) 100
Cesárea 65 (53,5) 35 (46,5) 100
Total 107 93 200

Como vemos, por ejemplo, para calcular la frecuencia esperada de la primera


casilla (parto natural x peso al nacer normal), multiplicamos el total de la línea
(correspondiente a parto natural) por el total de la columna (para peso normal),
dividido el tamaño muestral:
fe = (100 x 107)/200
Lo mismo realizamos para el resto de las casillas de la tabla.

Habiendo calculado las frecuencias esperadas, procedemos a aplicar la fórmula:

χ =∑
2 ( f o − f e )2
fe

χ2 =
(42 − 53,5)2 + (58 − 46,5)2 + (65 − 53,5)2 + (35 − 46,5)2 = 10,63
53,5 46,5 53,5 46,5

3. Estableciendo como nivel de significación un α= 0,05, se delimitan las


regiones de rechazo y no rechazo de H0 de acuerdo al valor crítico buscado en la
tabla de distribución Chi‐cuadrado, correspondiente al cuantil 1‐α= 0,95 y (l ‐ 1)
x (c ‐ 1) grados de libertad. En este caso, los grados de libertad son (2‐1) x (2‐1)=
1, dado que la tabla presenta dos columnas y dos filas.
El valor teórico encontrado es, en este caso, un χ teórico = 3,84
2

154
4. Finalmente verificamos si el valor del estadístico pertenece o no a la región
de rechazo de H0. Dado que el valor del estadístico de contraste 10,63 es mayor
que el valor teórico obtenido 3,84, rechazamos H0.
Concluimos que existe asociación entre el peso al nacer y el tipo de parto, con
un 95% de confianza.

ANÁLISIS DE RELACIONES ENTRE VARIABLES CUANTITATIVAS

Además de la estimación de parámetros y pruebas de hipótesis, existen otras


metodologías estadísticas a las cuales se recurre cuando se desea estudiar la
relación entre más de una variable medida sobre una misma unidad de
observación. Ya hemos visto que, en el caso de datos categóricos, se puede
aplicar la prueba Chi‐cuadrado. En tanto, si se desea conocer los cambios de una
variable cuantitativa en función de las variaciones en otra variable, también
cuantitativa, se puede efectuar un análisis de regresión ó examinar la
correlación entre ambas variables. En términos generales, la principal diferencia
entre ambas metodologías radica en que la primera permite estimar el valor de
una variable conociendo el valor de la otra, mientras que el análisis de
correlación, mide el grado de relación entre las dos variables (su magnitud y
direccionalidad).
A continuación se presentan los fundamentos y aplicaciones de las principales
metodologías de análisis de relaciones entre variables cuantitativas.

ANÁLISIS DE REGRESIÓN

Las técnicas de regresión permiten hacer predicciones sobre los valores de


cierta variable Y (dependiente), a partir de los valores de otra variable X
(independiente), entre las que intuimos que existe una relación.1 Por ejemplo, si
sobre un grupo de pacientes observamos los valores que toman las variables
glucemia postprandial (mg/dl) y gramos de glucosa consumidos. Podemos intuir
que los valores de glucosa en sangre aumentarán en función del aumento de los
gramos de glucosa ingeridos. El análisis de regresión nos permitirá realizar
predicciones acerca del valor de glucemia en función de las variaciones en los
valores de glucosa consumida.

155
ANÁLISIS DE REGRESIÓN LINEAL SIMPLE

La regresión lineal consiste en aproximar los valores de una variable a partir de


los de otra, usando una relación funcional de tipo lineal.1 Es decir, buscamos
cantidades a y b tales que se pueda escribir la siguiente ecuación de regresión,
correspondiente a una recta que describe la dependencia del valor promedio de
una variable sobre otra:5

Yˆi = a + bxi
donde
Ŷi = valor de la variable Y

a = indica el valor de Y para X = 0, esto es, el punto donde la recta corta el


eje de las y, llamado ordenada al origen.
b = indica cuánto cambia Y por cada aumento unitario en X. Es la
pendiente de la recta.
xi = valor de la variable X.

Las cantidades a y b son los llamados coeficientes de regresión muestrales. Estos


pueden calcularse a partir de determinadas ecuaciones matemáticas y ser
sometidos a pruebas de significación. Así, vemos que conociendo los valores de
a y b, para un determinado valor de X, puede estimarse el valor de Y. Si bien
esto no será detallado en el presente material de estudio, puede consultarse la
bibliografía complementaria sugerida por el docente a tal fin.

ANÁLISIS DE REGRESIÓN LINEAL MULTIPLE

Este modelo de regresión puede estudiarse como una extensión del modelo
lineal simple en el que considerábamos una sola variable independiente.5 La
técnica de regresión múltiple se aplica al caso en que la variable respuesta
(dependiente) es de tipo numérica y depende de dos o mas variables
independientes (predictoras o explicativas). Aquí se considera que la variable de
respuesta depende de varias variables, algunas conocidas por el investigador y
otras no. El modelo de regresión múltiple trata de estimar el efecto de las más
importantes, englobando las demás en el término que denominaremos error
aleatorio.5
Como ejemplo podría suponerse que la variable de respuesta frecuencia
cardíaca depende de las variables predictoras intensidad del esfuerzo físico y
edad.
156
ANÁLISIS DE CORRELACIÓN LINEAL

El análisis de correlación mide el grado de asociación que existe entre dos


variables numéricas (llámese X e Y) y la dirección de la relación lineal
establecida, a partir del cálculo del siguiente un coeficiente muestral r,
denominado coeficiente de correlación lineal o de Pearson:5

∑ (x i − X )( y i − Y )

r= n −1
∑ (x − X) ∑ (y −Y )
2 2
i i

n −1 n −1

donde xi = valores muestrales de la variable X


yi = valores muestrales de la variable Y
X = media de los valores xi
Y = media de los valores yi
n = tamaño muestral

El valor r obtenido para este coeficiente varían siempre entre ‐1 y 1.


Si el coeficiente tiene signo positivo, indica que las variables X e Y varían en el
mismo sentido, es decir, si el valor de una aumenta, el de la otra también (o
viceversa). Se dice en este caso, que existe una correlación lineal positiva, más
fuerte cuanto más se acerque el valor a 1. En cambio, si el valor adopta signo
negativo indica correlación negativa o inversa, esto es: a medida que el valor de
X aumenta, el de Y disminuye (o viceversa). En caso que r = 0 indica que no
existe relación entre las variables estudiadas, o que la relación no es de tipo
lineal.

DIAGRAMAS DE DISPERSIÓN

La representación gráfica de la relación de dos variables cuantitativas puede


realizarse mediante los denominados diagramas de dispersión. Estos grafican
los n pares de datos de dos variables X e Y. Los posibles valores de cada variable
están representados en dos ejes, y cada punto representa un par de datos que
entrecruza los valores de X e Y para cada unidad de observación. Los dibujos
que resultan de tal gráfico nos dan un indicio de si existe alguna tendencia que
indique relación.6 Se presentan a continuación un ejemplo de las diferentes
situaciones posibles (Figura 1).

157
Figura 1. Diagramas de Dispersión para la relación entre dos variables X e Y:
A) Relación lineal positiva; B) Relación lineal negativa; C) Ausencia de relación;
D) Relación No Lineal.

158
BIBLIOGRAFÍA – MÓDULO 6

1. Ríus Díaz F, Barón Lopez FJ, Sánchez Font E, Parras Guijosa L. Bioestadística:
Métodos y Aplicaciones. Facultad de Medicina, Universidad de Málaga. Disponible en
http://www.bioestadistica.uma.es/libro/

2. Peña D. Fundamentos de Estadística. Madrid: Alianza Editorial; 2001.

3. Barón López FJ, Téllez Montiel F. Apuntes de Bioestadística: Tercer ciclo en Ciencias
de la Salud y Medicina. Universidad de Málaga: 2004. Disponible en
http://www.bioestadistica.uma.es/baron/

4. Andrade DF, Ogliari PJ. Estatística para as ciências agrárias e biológicas, com noçoes
de experimentaçao. Florianópolis: Ed. Da UFSC, 2007.

5. Blanch N, Joekes S. Curso de Estadística aplicada a la Investigación. Departamento


de Educación a Distancia, Facultad de Ciencias Económicas, UNC. 8va. Ed. Córdoba:
UNC; 2005.

6. Bordón LG. Estadística aplicada a Ciencias de la Salud. Una herramienta para la


Investigación. 5ta ed. Córdoba: LG Bordón Ed. 1999.

159
160
ESTADÍSTICA Y
BIOESTADÍSTICA

MÓDULO 7

ESTADÍSTICAS
SANITARIAS Y
NUTRICIONALES

161
162
DEMOGRAFÍA. CONCEPTOS BÁSICOS

La demografía es la ciencia que tiene por objeto el estudio de las poblaciones


humanas tratando, desde el punto de vista principalmente cuantitativo, su dimensión,
su estructura, su evolución y sus características generales. En la actualidad se
considera que abarca también el estudio de los cambios de la población en sus
contextos biológico y social. El concepto de demografía se encuentra íntimamente
ligado al de estadística, ciencia que le provee las herramientas metodológico‐analíticas
para la recolección, análisis e interpretación de los datos poblacionales.
La denominada demografía cuantitativa incluye dos enfoques para la
caracterización de las poblaciones, cada uno de los cuales se refiere a:

1) La estructura de la población: estado de las poblaciones en un momento fijo.


Ej.: número de habitantes y su distribución por edad y sexo, en un momento
dado.
2) La dinámica poblacional: estudio de las variaciones acontecidas en una
sociedad a lo largo de un período de tiempo.

La estructura poblacional es descripta mediante el censo de población, fuente


primaria que provee información acerca de características demográficas básicas (como
sexo y edad), económicas y sociales de los habitantes de una población, en un
momento determinado. A partir de los datos censales es posible clasificar a la
población según sus características de sexo, edad, nivel socioeconómico, estado civil,
entre otras; y analizar luego su distribución en torno a éstas. De esta manera se puede
describir, por ejemplo: a) la distribución de los habitantes por géneros; b) la
distribución por edad, para cada sexo; c) la distribución geográfica de la población; d)
la distribución de los habitantes según nivel socio‐económico.

Los hechos demográficos, a diferencia de los censos, permiten estudiar la dinámica


o movilidad de la población, en cuanto a los acontecimientos producidos en un
período determinado. Se consideran hechos demográficos el crecimiento natural de las
poblaciones (natalidad y mortalidad), los movimientos migratorios (inmigraciones y
emigraciones), entre otros.

163
LA ESTRUCTURA DE LA POBLACIÓN: PIRÁMIDES POBLACIONALES

A partir de la información recabada en los censos poblacionales es posible también


construir las denominadas pirámides poblacionales. Una pirámide de población es una
representación gráfica de la distribución por sexo y edad de los habitantes de una
determinada población. Su análisis permite percibir fácilmente algunos fenómenos
demográficos como el envejecimiento de la población, el equilibrio o desequilibrio en
la distribución por sexos, e incluso conocer el efecto demográfico de catástrofes y
guerras.
En una pirámide los segmentos de la población están divididos como “cohortes” o
generaciones, generalmente de 5 años, que se representan en forma de barras
horizontales que parten de un eje común, ubicándose hacia la izquierda los hombres y
hacia la derecha las mujeres, por convención.
Gráficamente se trata de un doble histograma de frecuencias invertido. En su
representación, como se puede observar en la Figura 1 encontramos:
- Un eje vertical, en el cual se colocan las edades de la población, agrupadas en
intervalos de 5 años (quinquenios).
- Dos semiejes horizontales, uno derecho y otro izquierdo, lo cuales indican el
porcentaje de mujeres y hombres, respectivamente, sobre el total de la
población de ambos sexos. A veces pueden representarse valores absolutos
(número de habitantes, en millones).
- Barras horizontales. Cada barra de la derecha representa el porcentaje (o
número de habitantes) de población femenina de cada grupo de edad en el total
de población de ambos sexos. Las barras de la izquierda representan igualmente
al sexo masculino.
Hombres Mujeres

%
Figura 1. Estructura de la población Argentina en el año 2001.

164
A

B.

Figura 2. Pirámides de población en Bolivia. Sección Coroico (A)


y Comunidad Yavicucho (B). Año 2002.

De acuerdo a la distribución de las barras a la derecha y la izquierda de una


pirámide es posible clasificarla como: a) rítmica y b) arrítmica.
En las pirámides rítmicas (Figura 2A) hay un equilibrio entre sexos y una
disminución uniforme de los números de habitantes correspondientes a cada grupo de
edad.
En las pirámides arrítmicas (Figura 2B) los desequilibrios en las barras son
marcados, ya sea entre sexos y/o grupos de edad.

En toda pirámide es posible además distinguir dos partes básicas a considerar para
su análisis e interpretación. Estas son:
- La cúspide: parte superior de la pirámide de población, conformada por las
barras correspondientes a los grupos de edad más avanzada. En general
contiene las barras de menor longitud.

165
- La base: parte inferior de la pirámide de población, conformada por las barras
correspondientes a los grupos de edad más joven. En general contiene las
barras de mayor longitud.

Así, una completa lectura de una pirámide poblacional nos brinda información
acerca de:
‐ La distribución comparativa entre los sexos y/o diferentes grupos de edad en una
pirámide. Así, una pirámide con base ancha y una disminución rápida del tamaño de
los grupos de edades a medida que nos aproximamos a la cúspide representa una
población joven. Si se observara por ejemplo, para las edades comprendidas entre 20 a
35 años, mayor longitud de la barra izquierda, se podría afirmar un mayor predominio
de varones en ese grupo de edad.

‐ Cambios en la estructura poblacional a lo largo del tiempo, en relación a hechos


demográficos básicos (natalidad, mortalidad, migraciones, etc.). Si por ejemplo, la base
de la pirámide de un país se ha vuelto más estrecha a lo largo de los años, podría
reflejarse un descenso en la natalidad en esa población. Por el contrario, el progresivo
aumento de la población en los grupos de edades cercanos a la cúspide reflejaría el
incremento en la esperanza de vida de la población o un descenso de la mortalidad en
adultos mayores, relacionado posiblemente al fenómeno de envejecimiento
poblacional.

El efecto demográfico, por ejemplo, de guerras o marcados procesos migratorios


también puede observarse al analizar cambios en la estructura de la población
mediante las pirámides.

Algunos ejemplos:

En la pirámide de la Figura 3 se puede observar, en las cohortes entre los 35 y los 50


años, el efecto del ¨baby‐boom¨ que se produjo en Estados Unidos tras la segunda
guerra mundial.

166
Fig
gura 3. Estru
uctura pobla
acional de Estados
E Uniidos, año 20
000.

Figura 4. Estructura poblacional de Qatar, año 2000.

El mayor preedominio en la cantidaad de varones de 30 a 50 años observado en la


Figurra n° 4 poddría reflejarr la influencia del pro
oceso inmiggratorio en la població
ón de
Qataar. Países co
omo este, con
c alto nivvel de rentaa, atraen mucha
m poblaación emigrrante,
princcipalmente masculina y en edaad adulta, por lo que muestran una cu uriosa
deformación en n la conformmación de su us pirámide
es poblacion
nales.

Exxisten algunnos modelos de pirámiide que cab be señalar:


1. Expansiva: de base ancha con disminución rápida h hacia la cúspide
(Figura 5).
5 Represen nta a una po
oblación jovven con nattalidad alta,, lo cual es típico
t
de los paaíses subdesarrollados.

167
Figura 5: Esstructura po
oblacional de
d Hondurass, año 1998
8.
Ejeemplo de pirrámide de tipo
t expansiiva.

2. Regresiva:
R d base más estrechaa que las barras
de b centtrales y cúspide
relativam
mente anchha (Figura 6). Indica un descen nso de la n natalidad en los
últimos años
a y un previsible
p en
nvejecimien
nto poblacio
onal. Es pro
opia de los países
p
desarrollados.

F
Figura 6. Esstructura po
oblacional de
d Alemania
a, año 2000
0.
Ejeemplo de piirámide de tipo
t regresiiva.

168
3. Estacionariaa: base y centroc de similar tam
maño, y cú úspide reducida
(Figura 7).
7 Refleja una
u reducciión o estan
ncamiento de
d la natalid
dad. Es típica de
los paísees en vías dee desarrollo
o.

Fig
gura 7. Pirám
mide de pobblación mun
ndial estimaada para 20 050.
Ejemplo dee pirámide de
d poblacióón de tipo esstacionaria..

Veeamos a co
ontinuación unos ejemmplos de cóómo integraar los conceeptos hastaa aquí
preseentados para una completa interp
pretación de
e pirámidess poblacionaales.

d la poblacción española (1996).


Figura 8.. Pirámide de

169
La estructura de la población española en el año 1996, representada en la Figura 8,
muestra una distribución similar en ambos sexos y en los distintos grupos de edades, lo
cual es claramente observable a partir de la forma simétrica de su pirámide. La misma,
es una pirámide de tipo regresiva dado que presenta una base notablemente más
estrecha que las barras correspondientes a las edades centrales, con una disminución
poco acentuada hacia la cúspide. Si observamos comparativamente los escalones de
edades más tempranas y más tardías (base y cúspide de la pirámide), representativos
de los fenómenos de natalidad y mortalidad respectivamente, vemos que la natalidad
fue similar en ambos sexos (barras en los escalones inferiores de igual longitud),
mientras que, la mortalidad en adultos mayores fue superior en la población masculina
(barras en la cúspide de menor longitud en varones que en mujeres). O lo que es lo
mismo: las mujeres presentaron una mayor esperanza de vida.

En la Figura 9 se observa la estructura demográfica de extranjeros de nacionalidad


marroquí residentes en España, en el año 2006. Esta pirámide es marcadamente
asimétrica, en especial en los grupos de edades centrales. Su forma no responde a
ninguna de las tipologías clásicas (regresiva, expansiva, estacionaria). Es destacable la
mayor concentración en el grupo de varones entre 20 y 45 años (barras de mayor
longitud en varones que en mujeres en los escalones correspondientes a ese intervalo
de edad), lo cual podría ser reflejo del proceso de inmigración masculina,
económicamente activa, en busca de oportunidades laborales en este país. La
natalidad y mortalidad (en adultos mayores) muestran un patrón similar en ambos
sexos. La mortalidad es elevada en mayores de 70 años, tanto en hombres como en
mujeres.

Figura 9. España, 2006. Pirámide de población, habitantes con nacionalidad marroquí.

170
LA DINÁMICA POBLACIONAL: CONCEPTO DE TASA

El estudio de la dinámica poblacional considera la movilidad o crecimiento natural


de las poblaciones, lo cual está íntimamente relacionado con los nacimientos y
muertes acontecidas en estas. La natalidad y mortalidad son comúnmente expresadas
como tasas.
Una tasa es una medida de la frecuencia con la que ocurren determinados eventos
(muertes, nacimientos, enfermedad) en una población, en un período dado. Se puede
decir que es una proporción que mide un “riesgo” (probabilidad de que ocurra ese
evento) e incluye una medida de tiempo en el denominador. Pueden ser referidas al
total de la población objeto de estudio, o a subgrupos de la misma. Las primeras se
conocen como tasas brutas o tasas crudas, y las segundas como tasas específicas.

Los componentes de una tasa son los siguientes:


a) numerador: número de eventos (nacimientos, muertes, etc.), en una población
dada, por unidad de tiempo (ejemplo: durante el año ¨x¨). En términos generales,
cuando el evento medido es la muerte nos referimos a tasas de mortalidad, mientras
que hablamos de tasas de natalidad si el evento es el nacimiento.
b) denominador: población expuesta al riesgo de ocurrencia de ese evento en el
período de tiempo en estudio. En las tasas de mortalidad general y natalidad (bruta)
se refiere a la población total (número de habitantes) bajo estudio en el período dado.
En las tasas de mortalidad materna e infantil (menores de 1 año) la población expuesta
se expresa en función del total de nacidos vivos registrados en el período en cuestión.
c) factor de amplificación: multiplicador (en base 10) que convierte la tasa en un
número entero.

Las siguientes son algunas de las tasas más comúnmente utilizadas:

- Tasa de Mortalidad General (TM): Es el número de defunciones, por todas las


causas de muerte, que ocurre en un período de tiempo determinado, dividido por la
población expuesta al riesgo de muerte durante ese período. Generalmente se hace
referencia a la población correspondiente a la mitad del período.
x
TM = .1000
N
donde
x = Número de defunciones acaecidas en la población de una zona geográfica dada.
N= Población total de la zona geográfica dada en mitad del mismo año.

171
‐ Tasas de Mortalidad específicas según edad (TME): Se refieren a la fuerza de la
mortalidad en las distintas categorías o estratos de edad en los que dividimos la
mortalidad general. Expresa el riesgo de morir en cada uno de los grupos de edad
elegidos para el cálculo. La especificación de la edad y el sexo elimina las diferencias
que podrían deberse a las variaciones en la población con respecto a estas
características, permitiendo comparaciones entre zonas geográficas o períodos.
x
TME = i .1000
Ni
donde
i indica al i‐ésimo grupo de edad
xi= Número de defunciones acaecidas en el i‐ésimo grupo de edad de la población de
un área geográfica dada durante un año dado.
Ni= Población en el i‐ésimo grupo de edad del área geográfica dada durante el mismo
año.

‐ Tasa de Mortalidad Materna (TMM): Se denomina muerte materna a la defunción


de una mujer mientras está embarazada o dentro de los 42 días siguientes a la
terminación del embarazo, independientemente de la duración y el sitio del embarazo,
debido a cualquier causa relacionada con o agravada por el embarazo mismo o su
atención pero no por causas accidentales o incidentales. Esta tasa refleja el riesgo de
morir de las mujeres durante la gestación y el parto. Se utiliza como denominador el
número de nacidos vivos, como una aproximación al número de mujeres expuestas a
morir por causas relacionadas con el embarazo, el parto y el puerperio.
x
TMM = m .10000

donde
xm= Número de defunciones por causas maternas acaecidas en la población
femenina de un área geográfica dada durante un año dado.
N´= Número de nacidos vivos registrados en la población del área geográfica dada
durante el mismo año.

‐ Tasa de Mortalidad Infantil: Esta tasa relaciona las defunciones anuales de niños
menores de 1 año con el número de nacidos vivos registrados en el mismo lugar y
período de tiempo. Se expresan por 1000 nacidos vivos, y su numerador varía de
acuerdo al grupo específico de edades al que hace referencia: la tasa de mortalidad
infantil comprende la mortalidad de menores de un año, la mortalidad neonatal se
refiere a la ocurrida en el transcurso de los primeros 27 días de vida y la postneonatal
a la comprendida desde el fin del período neonatal hasta la edad de un año.
En el estudio de la mortalidad infantil se debe tener en cuenta un conjunto de

172
factores que influyen y determinan el nivel de la misma: biológicos, demográficos,
socio‐económicos, culturales, ambientales, de atención de la salud y geográficos. La
influencia de estos factores difiere según la edad de los menores de un año.

a) Tasa de Mortalidad Neonatal (TMN): se refiere a las defunciones anuales de


niños menores de 28 días de vida. Puede dividirse a su vez en dos componentes:
precoz (0 a 6 días) y tardío (7 a 28 días). En la mortalidad neonatal prevalece la
influencia de factores vinculados con las condiciones congénitas como con la atención
de la salud (salud de la madre, control del embarazo, atención del parto y del niño
durante los primeros días de vida).
r
TMN = i .1000

donde
i indica al i‐ésimo grupo de edad, en este caso, menores de 28 días de edad.
ri= Número de defunciones de niños menores de un 28 días de edad acaecidas en la
población de un área geográfica dada durante un año dado.
N´= Número de nacidos vivos registrados en la población del área geográfica dada
durante el mismo año.

b) Tasa de Mortalidad Post‐neonatal (TMPn): registra las defunciones anuales de


niños entre 28 días y 1 año de vida. Se relaciona con causas de muerte debidas a
problemas provenientes del medio ambiente (infecciones, diarreas, deshidratación
trastornos respiratorios agudos, etc.).
w
TMPn = i .1000

donde
i indica al i‐ésimo grupo de edad, en este caso, entre 28 y 365 días de edad.
wi= Número de defunciones de niños menores de 28 días a menos de un año de edad
acaecidas en la población de un área geográfica dada durante un año dado.
N´= Número de nacidos vivos registrados en la población del área geográfica dada
durante el mismo año.

c) Tasa de Mortalidad Infantil (TMI): relaciona las defunciones de menores de un


año acaecidas durante un año y el número de nacidos vivos registrados en el
transcurso del mismo año.
t
TMI = i .1000

donde
i indica al i‐ésimo grupo de edad, en este caso, menores de 1 año de edad.

173
ti= Número de defunciones de menores de un año de edad acaecidas en la población
de un área geográfica dada durante un año dado.
N´= Número de nacidos vivos registrados en la población del área geográfica dada
durante el mismo año.

‐ Tasa de Natalidad (TN): Es la relación entre los nacidos vivos de una población y el
total de habitantes de esa población, estimada a mitad del año de estudio.
Se expresa por 1000 habitantes.

TN = .1000
N
donde
N´= Número de nacidos vivos registrados en la población del área geográfica dada
durante un año dado.
N= Población total de la zona geográfica dada en mitad del mismo año.

A modo de ejemplo, se presentan las tasas mencionadas para la población


Argentina, año 2008, según datos publicados por el Instituto Nacional de Estadísticas y
Censos (INDEC).

Indicadores de Salud de la población Argentina. Año 2008.

Total del país.


Indicadores de Salud
Año 2008.
Tasa de mortalidad general por 1000 habitantes. 7,6
Tasa de mortalidad específica en grupo de 35‐45 años por 1000
1,9
habitantes.
Tasa de mortalidad materna por 10 000 nacidos vivos. 4,0
Tasa de mortalidad infantil neonatal por 1000 nacidos vivos. 8,3
Tasa de mortalidad infantil post‐neonatal por 1000 nacidos vivos. 4,2
Tasa de mortalidad infantil total por 1000 nacidos vivos. 12,5
Tasa bruta de natalidad por 1000 habitantes. 20,6
Fuente: INDEC, Dirección de Estadísticas Sectoriales en base a información
suministrada por el Ministerio de Salud de la Nación, Dirección de Estadísticas e
Información de Salud (DEIS).

Como se observa en la tabla, en Argentina se registraron, durante el año 2008, 7.6


defunciones (por todas las causas de muerte) por cada 1000 habitantes.
Específicamente para el grupo de edad de 35 a 45 años la mortalidad fue de

174
aproximadamente 1.9 defunciones por cada 1000 habitantes.
El número medio anual de nacimientos ocurridos durante el 2008 fue de 20.6 por
cada 1000 habitantes. En ese período, la cantidad de mujeres fallecidas por causas
vinculadas al embarazo, parto y puerperio fue 4.0 por cada 10 000 nacidos vivos.
El número de defunciones de menores de un año acaecidas en Argentina durante el
2008 fue, aproximadamente, 12.5 por cada 1000 nacidos vivos registrados en el
transcurso del mismo año. En dicha población, la cantidad de niños fallecidos en los
primeros 27 días de vida, es decir, por causas de muerte vinculadas con condiciones
congénitas o con la atención de la salud de la madre o el recién nacido (atención del
embarazo, parto y puerperio), fue de 8.3 por cada 1000 nacimientos. En tanto, en el
grupo post‐neonatal (niños entre los 28 y los 365 días de vida) se registraron 4.2
defunciones por cada 1000 nacidos vivos, lo cual suele asociarse a problemas socio‐
ambientales.

175
BIBLIOGRAFÍA – MÓDULO 7

El presente módulo pertenece al material bibliográfico:


• Aballay LR, Pou SA, Tumas N, Díaz P, Díaz MP. “Estadística aplicada a las
Ciencias de la Salud”, 2009, de la Cátedra de Estadística y Bioestadística de la
Escuela de Nutrición, FCM, UNC.

1. Maldonado Cruz P (2005). Demografía, conceptos y técnicas fundamentales.


Madrid (España): Plaza y Valdez. 159p.
2. Instituto Nacional de Estadísticas y Censos – INDEC (2009a). [Consultado el 18
Marzo 2009]. Disponible en: http://www.indec.gov.ar
3. Instituto Nacional de Estadísticas y Censos – INDEC (2009b). [Consultado el 18
Marzo 2009]. Disponible en: http://www.indec.mecon.ar
4. Dirección de Estadísticas e Información de Salud ‐ DEIS. Ministerio de Salud,
Presidencia de la Nación (2009a). [Consultado el 17 Marzo 2009]. Disponible en:
http://www.deis.gov.ar/definiciones.htm#
5. Dirección de Estadísticas e Información de Salud ‐ DEIS. Ministerio de Salud,
Presidencia de la Nación (2009b). [Consultado el 17 Marzo 2009]. Disponible en:
http://www.deis.gov.ar/indicadores.htm#
6. Instituto Carlos III (2003). Sistema de aprendizaje multimedia en Epidemiología.
Universidad de Educación a Distancia de España.

176
UNIVERSIDAD CATÓLICA DE CÓRDOBA
FACULTAD DE MEDICINA
LICENCIATURA EN NUTRICIÓN

ESTADÍSTICA Y BIOESTADÍSTICA

GUÍA DE TRABAJOS PRÁCTICOS


2013

177
178
ESTADÍSTICA Y BIOESTADÍSTICA

TRABAJO PRÁCTICO N° 1

1) Dado los casos que se presentan a continuación, determine a qué tipo de


estudio corresponden.

Caso 1. Se realizó una Encuesta Nacional sobre Factores de Riesgo


Cardiovascular con el objetivo de describir la prevalencia de los principales
factores de riesgo para esta enfermedad en las diferentes provincias que
participaron de la encuesta.

Caso 2. Se desea evaluar la mayor efectividad de un nuevo suplemento de


hierro que se pretende lanzar al mercado (vs otro utilizado tradicionalmente)
para el tratamiento de la anemia. Para ello se tomó una muestra de personas
con anemia, y se las asignó a dos grupos: uno recibió el nuevo suplemento
ferroso y otro recibió un suplemento tradicionalmente indicado. Luego de 3
meses de seguir el protocolo de tratamiento previsto se evaluó en los
participantes el estado de la enfermedad para establecer conclusiones acerca
de la mayor efectividad o no del nuevo suplemento.

Caso 3. El Servicio de Nutrición de un determinado hospital desea efectuar un


estudio sobre la ocurrencia de desnutrición intrahospitalaria. Para ello se
seleccionará una muestra de 100 pacientes internados en un periodo
determinado, y se revisarán sus historias clínicas, observando su estado
nutricional al momento del ingreso y el egreso en salas de internación, y
valorando su asociación con otras variables de interés (días de internación, tipo
de alimentación, etc). El estudio pretende recabar información útil para tomar
acciones preventivas tendientes a disminuir el riesgo de ocurrencia de
desnutrición intrahospitalaria.

Caso 4. A los fines de estudiar el efecto de un aditivo alimentario conservante


recientemente aprobado por la FDA (Food and Drug Administration) una
industria alimentaria dividió la producción en lotes de igual tamaño y
mantenidos en iguales condiciones de temperatura, humedad, etc. Ciertos lotes
fueron asignados al azar para el empleo del conservante convencional, y otra
cantidad de lotes para la aplicación del nuevo aditivo. Al cabo de un período

179
determinado se evaluó las características de conservación del producto en los
diferentes lotes. Tras la aplicación de adecuados métodos de la estadística
inferencial se tomó la decisión acerca del conservante que es más conveniente
utilizar.

2) Identifique para cada una de las siguientes situaciones problemáticas:


población, muestra, unidad de observación o experimentación, y variables
involucradas.

a) Un organismo oficial desea calcular la proporción de hogares de una


determinada ciudad cuyo nivel medio de ingresos se encuentra por
debajo del precio de la canasta alimentaria informada por INDEC para el
periodo Enero‐Marzo 2012.

b) La Secretaría de Graduados de una universidad desea conocer si el


promedio de calificaciones de los egresados de la Licenciatura de
Nutrición en el año 2011 supera al promedio histórico de la carrera.

c) Un bromatólogo desea calcular el rango de temperaturas registrado en


las cámaras frigoríficas de una determinada cadena de supermercados de
Córdoba durante los meses estivales del pasado año.

d) Un empresario desea calcular la proporción de piezas de quesos


defectuosas de todas las fabricadas en su industria, durante la
producción 2011‐2012.

e) Un nutricionista desea investigar el efecto de la ingesta de café, el


consumo de alcohol, el hábito de fumar y la actividad física sobre el
patrón de ocurrencia del cáncer de colon en la Provincia de La Pampa
durante el año en curso.

f) Para un estudio de mercado 2013 se desea determinar si la mayoría de


las mujeres adolescentes de la ciudad de Río Cuarto prefieren las
gaseosas tipo light, y si esta preferencia tiene relación con su nivel
socioeconómico.

180
g) Un gastroenterólogo desea estudiar la relación entre enfermedad celíaca
en adultos y antecedentes familiares de la enfermedad en una población
que registró alta incidencia durante el año 2010.

181
182
ESTADÍSTICA Y BIOESTADÍSTICA

TRABAJO PRÁCTICO N° 2

1) Un estudio sobre síndrome metabólico describe el siguiente conjunto de


variables referentes a un grupo poblacional determinado:

• Sexo (hombre o mujer)


• Edad (años)
• Localidad de residencia
• Peso (kg)
• Talla (cm)
• Diámetro de cintura (cm)
• Sobrepeso (sin sobrepeso, pre‐obesidad, obesidad)
• Hábito de fumar (fumador o no fumador)
• Cantidad de cigarrillos fumados por día
• Cantidad de veces semanales que realiza actividad física moderada
• Frecuencia semanal de consumo (veces/semana) de bebidas alcohólicas
• Colesterol en sangre (mg/dl)
• Triglicéridos en sangre (mg/dl)
• Presión arterial (mmHg)
• Hipertensión arterial (no, leve, moderada, severa)
• Glucosa en ayunas (mg/dl)
• Antecedentes familiares de obesidad (si o no)
• Antecedentes familiares de dislipemia (si o no)
• Antecedentes de familiares de diabetes (si o no)

a) Indique a qué tipo de variable corresponde cada una y cuál es la escala de


medición utilizada.
b) Proponga un tipo de gráfico que considere adecuado para representar la
distribución de cada una de estas variables.

2) En el punto 3 del trabajo práctico N°1 se le solicitó que identificara las


variables involucradas en cada una de las situaciones problemáticas propuestas.
Indique ahora a qué clasificación corresponden de acuerdo a su modalidad.

183
3) En un estudio sobre calidad alimentaria se seleccionó una muestra de 60
lotes de producción y se determinó el número de productos de cada lote que
difieren de las normas de calidad establecidas, dando como resultado lo
siguiente:

Nro de productos que Frecuencia


incumplen las normas de absoluta (ni)
calidad
0 7
1 12
2 13
3 14
4 6
5 3
6 3
7 1
8 1
TOTAL 60

a) Defina para este estudio su población, muestra y unidad de observación.


b) ¿Cuál es la variable de interés? ¿De qué tipo es?
c) Determine las frecuencias relativas y las frecuencias acumuladas (absolutas y
relativas) para los valores observados de la variable estudiada.
d) ¿Qué proporción de lotes en la muestra tienen a lo sumo cinco productos que
incumplen las normas de calidad? ¿Qué proporción tiene menos de cinco? ¿Qué
proporción tiene al menos cinco productos que incumplen las normas?
e) Ilustre gráficamente la distribución de la variable. Interprete.

184
4) En un estudio sobre imagen corporal se obtuvieron los siguientes datos
respecto de las edades (en años) de mujeres encuestadas que refirieron estar
disconformes con su peso:

28, 22, 35, 42, 44, 53, 58, 41, 40, 32, 31, 38, 37, 61, 25, 35

a) Calcule la media, mediana y desviación estándar de esta muestra, a partir de


los datos en serie simple (como han sido presentados). Interprete.
b) Agrupando en intervalos de 10 años (comenzando por 20‐29) construya una
tabla de distribución de frecuencias (absolutas, relativas, acumuladas). Extraiga
alguna consideración importante de lo observado en ella.
c) Realice ahora el cálculo de media, mediana y desviación estándar para los
datos agrupados, basándose en la tabla construida. Interprete.
d) Construya un gráfico adecuado para representar la distribución de
frecuencias e interprete.

5) Considere los siguientes datos acerca de la variable causa de anemia:

Causa de anemia Frecuencia


absoluta
(ni)
• Pérdida de sangre 21
• Dieta deficiente 10
• Causa genética 6
• Ciertos medicamentos 4
• Embarazo 9
• Enfermedades como cáncer, colitis ulcerativa o artritis reumatoidea 6
• Otras causas 3
TOTAL 60

a) Complete la tabla de distribución de frecuencias de la variable de manera


conveniente. Describa las características principales que observa.
b) Resuma de forma gráfica los datos.
c) ¿Es posible calcular para esta variable alguna medida resumen de tipo
numérica?

185
6) A continuación se muestran las frecuencias absolutas (ni) para la variable
tiempo de aparición de un síntoma agudo en sujetos con una determinada
patología:

Tiempo (min)
ni
0‐3 2
4‐7 14
8‐11 11
12‐15 8
16‐19 4
20‐23 0
24‐27 1
TOTAL 40

a) Complete la tabla con la distribución de las frecuencias relativas y sus


correspondientes frecuencias acumuladas (absolutas y relativas).
b) Calcule la media, mediana, moda, desvío estándar. Interprete.
c) Determine los tres cuartiles. ¿Qué puede decir de ellos?
d) Calcule el rango intercuartílico. Interprete el resultado obtenido.
e) ¿Cuál de las medidas resumen calculadas considera que son más
apropiadas para describir la distribución de frecuencia en esta muestra?
Justifique su respuesta.

7) A continuación se indican los valores de la media y desviación estándar para


la variable concentración de un determinado compuesto biológico en dos
muestras de agua de pozo:

Muestra 1: X = 22.8 S= 31.7


Muestra 2: X = 19.2 S= 17.0

a) Calcule el coeficiente de correlación y extraiga conclusiones respecto de


la variabilidad de los datos en las muestras.

186
ESTADÍSTICA Y BIOESTADÍSTICA

TRABAJO PRÁCTICO N° 3

1) Defina un espacio muestral para los siguientes experimentos aleatorios, y


proponga para cada uno de ellos un posible evento:
a) Se estudiaron familias con 4 integrantes, registrándose si eran
económicamente activos o no.
b) Se evalúa el contenido de potes de yogur, presentados en pack (de a dos
potes), para ver si están aptos o no para su consumo.

2) Si se encuesta a los alumnos de la carrera de Nutrición de a tres y se indaga si


realizan o no habitualmente su desayuno.

a) Represente el espacio muestral para este experimento.


b) Calcule la probabilidad de ocurrencia de cada punto muestral.
c) Represente los conjuntos correspondientes a los eventos:
A= “al menos dos alumnos no desayunan habitualmente”
B= “dos alumnos desayunan”
C= “al menos un alumno desayuna”
d) Represente el evento D: A unión B, y E: A intersección C.
e) Calcule la probabilidad de D y de E.
f) Defina la variable aleatoria X= número de alumnos que desayunan
habitualmente. Construir la distribución de probabilidad de dicha variable.
g) Graficar la función de distribución acumulada de X.

3) En una muestra de agua contaminada fueron encontrados bacilos A, B ó C. Se


sabe que la probabilidad de encontrar bacilos tipo A, B ó C es 0,30, 0,20 y 0,80
respectivamente. Considerando además que:
* la probabilidad de encontrar bacilos tipo B y C es de 0,08
* si existen bacilos tipo A no existen bacilos tipo B
* la presencia de bacilos A es independiente de la presencia de bacilos C,

Calcular:
a) La probabilidad de encontrar bacilos tipo B o C.
b) La probabilidad de encontrar bacilos tipo A o B.

187
c) La probabilidad de encontrar bacilos tipo A y C.
d) La probabilidad de encontrar bacilos tipo C dado que se encontraron bacilos
tipo B.
e) la probabilidad de no encontrar bacilos tipo A.

4) Se conoce que en cierta ciudad la prevalencia de obesidad en niños en edad


escolar es de 30%. Si una nutricionista atiende mensualmente 12 niños de esa
ciudad: ¿cuál es la probabilidad de que se presenten a su consultorio 6 niños
escolares con obesidad en un mes?

5) Supongamos que el número de personas que mueren por una determinada


intoxicación aguda es en promedio de 3 personas al cabo de un año. Calcule la
probabilidad de que en un año determinado mueran exactamente 5 personas.

6) La variable edad de aparición de cierta enfermedad crónica se distribuye


normalmente con media igual a 68 años y σ2 de 25 años2. Calcule la
probabilidad de que aparezca la enfermedad:
a) En edades menores a 78 años.
b) Entre los 60 y los 70 años.
c) En edades superiores a 75 años.

7) Se desea conocer la probabilidad de encontrar valores de chi‐cuadrado ≤ 26,2


con 12 grados de libertad.

6) Se tiene una muestra de tamaño 12 que proviene de una población


normalmente distribuida pero con varianza poblacional desconocida y se desea
conocer la probabilidad de encontrar valores de t entre ‐1.796 y 4.437.

188
ESTADÍSTICA Y BIOESTADÍSTICA

TRABAJO PRÁCTICO N° 4

1) En base a la primera página de la guía telefónica 2011, extraiga una muestra


aleatoria simple (utilizando la tabla de números aleatorios) y una muestra
aleatoria sistemática de 20 sujetos cada una.

2) Indique un procedimiento para tomar una muestra de adultos entre 25 y 55


años de la población de Córdoba para conocer su gasto familiar en
alimentación.

3) La distribución del peso de paquetes de maní es normal, con desvío


poblacional conocido igual a 0,20 kg. Una muestra de 15 paquetes retirados de
un lote para control de calidad presentó los siguientes pesos, en kg:

20,05 20,10 20,25 19,78 19,69 19,90 20,20 19,89


19,70 20,30 19,93 20,25 20,18 20,01 20,09

Construya los intervalos de confianza de 95% y 99% para el peso medio de los
paquetes de maní. Interprete los resultados.

4) El peso medio, para una muestra de 20 niños de determinada edad, tuvo una
distribución normal con media 26 kg y desviación estándar 2 kg. Se desea
estimar el peso medio en esta población infantil con un 95% de confianza.

189
190
ESTADÍSTICA Y BIOESTADÍSTICA

TRABAJO PRÁCTICO N° 5

1) Todos los sujetos que asisten a cierta institución educativa deben someterse
a un examen médico de control anualmente, lo cual incluye exámenes
bioquímicos. Se toma una muestra de 5 individuos, registrándose los siguientes
valores de colesterol (en mg/dl):
187, 212, 195, 208, 192.
Contrastar que estos cinco datos provienen de una población con media μ=190.
Trabajar con un 95% de confianza.

2) La variabilidad de volumen registrado por cierta máquina envasadora cuando


las condiciones de funcionamiento son adecuadas es de 3 cc. Se dispone de una
muestra de n=15, con los siguientes valores:
27, 17, 18, 30, 17, 22, 16, 23, 26, 20, 22, 16, 23, 21, 17
Se desea saber si la máquina funciona correctamente, con α=0,05.

3) Un agrónomo desea estudiar la producción media de dos variedades de


cierto cereal, en tonelada/hectárea (t/ha). Para ello se tomaron 2 muestras, una
para cada variedad, de tamaño 30 cada una. Los resultados fueron los
siguientes:

Variedad A (t/ha) Variedad B (t/ha)


6,4 6,8 6,9 6,9 6,9 8,2 9,7 9,8 10,0 10,0
7,0 8,3 8,6 8,7 8,7 10,1 10,3 11,2 13,2 13,4
9,0 9,1 9,3 9,9 10,1 14,1 14,2 14,4 14,8 15,9
10,2 11,4 13,7 14,8 15,2 20,2 20,3 20,6 29,9 23,8
16,1 16,3 17,2 18,4 20,0 25,7 30,9 35,5 38,2 40,0
20,1 20,3 21,4 22,8 22,8 40,1 40,2 40,5 41,8 42,3

El agrónomo supone que la variedad B debe presentar una producción media


mayor que la variedad A. Indican los datos evidencia suficiente para afirmar
esto? Trabajar con α=0,05.

191
4) Se desea comparar la cantidad de proteínas plasmáticas en pacientes con
cierta enfermedad, antes y después de una intervención médica. Se utilizó una
muestra de 17 pacientes, a partir de la cual se obtuvieron los siguientes
resultados:

Paciente Antes Después


1 6,9 6,9
2 7,8 8,6
3 6,6 8,7
4 5,9 7,3
5 7,8 7,8
6 6,4 8,2
7 8,8 9,3
8 7,3 7,3
9 8,0 7,6
10 8,6 7,8
11 7,7 7,6
12 7,9 7,8
13 8,7 8,1
14 5,8 6,8
15 9,2 8,3
16 9,3 10,2
17 8,9 9,1

Pruebe la hipótesis de que no hay diferencias en las cantidades plasmáticas


medias, antes y después del tratamiento, con un 99% de confianza.

192
ESTADÍSTICA Y BIOESTADÍSTICA

TRABAJO PRÁCTICO N° 6

1) A una muestra de 800 personas de ambos sexos se les dio a probar 2 bebidas
y se les pidió que indicaran su preferencia, con los resultados de la siguiente
tabla. ¿Hay asociación con el sexo?

Bebida A Bebida B Total


Hombres 392 8 400
Mujeres 381 19 400
Total 773 27 800

2) Se desea estudiar si existe asociación entre la aparición de diarreas y el tipo


de lactancia en menores de 6 meses. Para ello se tomó una muestra de 120
historias clínicas en un Centro de Nutrición Infantil y se recabó la siguiente
información:

Aparición de diarreas
Lactancia Si No Total
Materna
Exclusiva 10 30 40
Artificial 34 12 46
Mixta 23 11 34
Total 67 53 120

Concluya al respecto, con un 95% de confianza.

3) Enuncie algún ejemplo de dos variables cuantitativas entre las cuales se


sospeche que exista una relación lineal (positiva o negativa). Esquematice su
ejemplo con el correspondiente diagrama de dispersión.

193
194
ESTADÍSTICA Y BIOESTADÍSTICA

TRABAJO PRÁCTICO N° 7

1) El organismo oficial pertinente reporta para Argentina los siguientes datos,


referidos al año 2003:

Población Total: 37.869.723


Total nacidos vivos: 681.655
Total defunciones: 302.957
Total muertes en niños <1 año: 11.247
Total muertes maternas: 2.999

Calcule e interprete:
a) Tasa mortalidad infantil.
b) Tasa mortalidad materna.
c) Tasa bruta de mortalidad.

2) La información difundida en el Informe de Estadísticas Vitales Anuales de un


determinado país fue la siguiente:

Población Total: 40.134.425


Total nacidos vivos: 745.336
Total defunciones: 304.525
Total muertes en neonatos: 5.956
Total muertes postneonatales: 3.070
Total muertes maternas: 410

En base a los datos obtenidos calcular:


a) Tasa Bruta de Mortalidad
b) Tasa de Mortalidad Infantil
c) Tasa de Mortalidad Neonatal
d) Tasa de Mortalidad Postneonatal
e) Tasa de Mortalidad Materna
f) Tasa Bruta de Natalidad

195

Anda mungkin juga menyukai