Anda di halaman 1dari 16

[REV. MED. CLIN.

CONDES - 2019; 30(1) 50-65]

REVISTA MÉDICA CLÍNICA LAS CONDES


https://www.journals.elsevier.com/revista-medica-clinica-las-condes

Bioestadística aplicada en investigación clínica:


conceptos básicos
Biostatistics applied in clinical research: basic concepts

EM. Magdalena Castro MSca .

a
Epidemiología. Subdirección de Investigación. Dirección Académica, Clínica las Condes

“La variabilidad es quizás lo único constante en nuestro mundo”. Cobo y cols. 2007
“Toda Ciencia es medición, toda medición es estadística”. Herman von Helhmotz (1821-1894)

INFORMACIÓN RESUMEN
DEL ARTÍCULO La estadística es la disciplina interesada en la organización y resumen de datos, para obtener conclusiones
acerca de las características de un conjunto de personas u objetos, cuando solo una porción está dispo-
Historia del Artículo:
Recibido: 19 09 2018. nible para su estudio. La bioestadística es la rama de la estadística que se ocupa de los problemas plan-
Aceptado: 27 12 2018. teados dentro de la ciencia de la vida, como la biología o la medicina1. Médicos, enfermeras, kinesiólogos,
especialistas en salud pública, entre otros, necesitan conocer los principios que guían la aplicación de los
Palabras clave:
Bioestadística, diseño métodos estadísticos a los temas propios de sus respectivas áreas de conocimiento, porque es el método
muestral, tamaño objetivo, racional y matemático a través del cual, una hipótesis científica puede ser comprobada2. Es
muestral, estadística
descriptiva, estadística por eso, que para facilitar su estudio, se ha dividido en cuatro funciones: el diseño muestral, el cálculo de
analítica, hipótesis. tamaño muestral, la estadística descriptiva y la estadística analítica o inferencial. Considerando que la
investigación clínica se realiza en una muestra que debe representar la población de estudio, es necesario
Key words:
Biostatistics, selection que los datos sean matemáticamente analizados, utilizando las pruebas estadísticas apropiadas, para
design, sample size, que se puedan extraer conclusiones científicamente válidas. Tan relevante es la bioestadística, que la
descriptive statistics,
analytic statistics, evidencia en salud está construida en base a ésta.
hypothesis.

Actualmente, existen numerosos libros y artículos sobre esta disciplina, por lo tanto, se preguntarán ¿por
qué escribir más de lo mismo? Porque aún para los profesionales de la salud, la bioestadística sigue siendo
un área que cuesta aterrizar al contexto clínico, cuando se está planificando un estudio de investigación
o se analiza un paper porque surgen preguntas sobre sus pacientes. Por esa razón, el objetivo de este
artículo es revisar los conceptos y elementos básicos de la bioestadística que se usan en la investigación
clínica, con la perspectiva de la estadística aplicada y la óptica de un clínico.

Se espera que al término de su lectura, el artículo les entregue un enfoque más claro y ordenado para
abordar las cuatro funciones de la bioestadística y su cumplimiento en el proceso de la investigación.

Autor para correspondencia


Correo electrónico: sdiclc@clc.cl

https://doi.org/10.1016/j.rmclc.2018.12.002
0716-8640/© 2019 Revista Médica Clínica Las Condes. Este es un artículo Open Access bajo la licencia CC BY-NC-ND
(http://creativecommons.org/licenses/by-nc-nd/4.0/).

50
[Bioestadística aplicada en investigación clínica: conceptos básicos - EM. Magdalena Castro MSc.]

ABSTRACT
Statistics is the discipline interested in the organization and summary of data, to obtain conclusions about
the characteristics of a group of people or objects, when only a portion is available for study. Biostatistics is
the area of statistics that deals with the problems in science of life, such as biology or medicine1. Physicians,
nurses, kinesiologists, public health specialists, among others, need to know the principles that guide the
statistical methods to the topics of their respective areas of knowledge, because it is the objective, rational
and mathematical method through which , a scientific hypothesis can be proven2. That is why, to facilitate
the study of statisitics, it has been divided into four functions; the sample design, the sample size calculation,
the descriptive statistics and the analytical or inferential statistics. Considering clinical research is carried
out on a sample that should represent the study population, it is necessary, the data be mathematically
analyzed; using the appropriate statistical tests, so scientifically valid conclusions can be drawn. So relevant
is biostatistics, that evidence based medicine is built on it.

Currently, there are numerous books and papers on this discipline, therefore, why write more of the same?
Because, even for health professionals, biostatistics is still an area that costs to apply in the clinical context,
when they are planning a research study or analyzing a paper because they have questions about their
patients. For this reason, the aim of the article is to review the concepts and basic elements of biostatistics
frequently used in clinical research, with the perspective of applied statistics and the clinician optics. It is
expected that at the end of its reading, the article will provide a clearer and more orderly approach to address
the four functions of biostatistics and its fulfillment in the research process.

1. INTRODUCCIÓN La estadística es un conjunto de técnicas para el análisis de los


La palabra estadística proviene del latín status: modo de datos. De esto se desprenden dos componentes principales
pararse, posición. En el lenguaje cotidiano se habla de esta- de esta disciplina: Datos y análisis.
dística en dos sentidos, uno es para referirse a un conjunto
determinado de datos, por ejemplo, a la estadística de pobla- Los datos son la materia prima de la estadística. Los datos
ción o estadísticas de ventas. salen de las mediciones o también llamadas observaciones.
Al mismo tiempo, las técnicas de análisis estadísticas
El otro sentido se refiere a una disciplina matemática, donde permiten que los datos se conviertan en información útil4.
la estadística matemática es una de las áreas de la ciencia Ambos componentes son fundamentales y uno necesita del
matemática. Al mismo tiempo, la estadística se estudia desde otro para que los resultados sean útiles para responder la
el punto de vista práctico, desde su aplicación, por ejemplo, pregunta de investigación.
la estadística aplicada a la administración y economía. Otra
de las áreas de la estadística aplicada, es su uso en la ciencia Si existen errores en los datos, independiente que las técnicas
biológica y las disciplinas relacionadas con la medicina y la de análisis estadísticos sean las correctas, los resultados serán
salud. A esta se le llama bioestadística1. erróneos; si por el contrario, los datos han sido correcta-
mente extraídos con precisión y exactitud, pero las técnicas
Se han publicado varias definiciones al respecto, tales como de análisis son inadecuadas, igualmente los resultados serán
la definición clásica de Croxton y Cowen3 dice: “La estadística espurios.
es el método científico que se utiliza para recolectar, elaborar,
analizar e interpretar datos sobre características susceptibles Según Mainland5, la estadística es el método científico que
de ser expresadas numéricamente de un conjunto de hechos, se ocupa del estudio de la variación; y según Cobo y cols., La
personas o cosas”. variabilidad es quizás lo único constante en nuestro mundo6.
Ahora bien ¿Cómo predecir la variabilidad entre los diferentes
Otra definición de Clifford y Taylor1: “La estadística es la disci- casos clínicos? El profesional sanitario construye su ojo clínico
plina interesada en la organización y resumen de datos, para a base de horas de trabajo. La estadística le ofrece conceptos
obtención de conclusiones acerca de las características de un que pueden facilitar este aprendizaje. Al mismo tiempo, es
conjunto de personas u objetos cuando solo una porción está importante tener presente que los métodos estadísticos y sus
disponible para su estudio”. resultados no pretenden ser verdades absolutas, puesto que

51
[REV. MED. CLIN. CONDES - 2019; 30(1) 50-65]

la medicina no es exacta, solo es posible calcular las proba- en realidad no lo son, porque lo que se obtiene, es un
bilidades que ocurran los eventos en salud. De hecho, el número resumen extraído desde una muestra, no de la
concepto principal de la estadística es la variabilidad, pero el población general. A esta medida resumen de los datos
conocer cómo medirla y modelarla comienza a ser una idea de una muestra se le llama estadístico. Los parámetros se
positiva y de ayuda para su aplicación en salud. La estadís- denotan con letra griega, tales como μ, que es la media
tica aporta teoremas que conectan la variabilidad e indepen- de una variable que ha sido calculada en la población
dencia con la información que se recolecta de los sujetos o total; ı, es la varianza de una variable calculada en la
unidad muestrales6. población total 1. Como la mayoría de la investigación se
realiza en una muestra, no es factible obtener un pará-
En consecuencia, se podría definir que la bioestadística es el metro, solo es posible calcular una estimador, a través de
método objetivo, racional y matemático a través del cual una los estadísticos.
hipótesis científica puede ser comprobada.
Estadísticos: Es cualquier número resumen de una muestra.
Las estadísticas de salud son todos aquellos datos numéricos También se le puede llamar parámetro estimado, que es el
debidamente capturados, validados, elaborados analizados e término correcto cuando se habla de un número resumen
interpretados que se requieren para las acciones de salud. que deriva de una muestra. Como es solo un estimador del
Las estadísticas de salud se pueden agrupar en7: parámetro, se denota con letras en latín; X es la media de una
muestra; S, es la varianza de una muestra1,9.
1. Estadística de poblaciones: estadísticas demográficas.
2. De hechos biológicos que tiene trascendencia sanitaria, El estimador debiera cumplir con las propiedades de inses-
como los nacimientos y defunciones: estadísticas vitales. gamiento, que la esperanza sea casi igual al valor observado,
3. De la enfermedad, que se intenta prevenir y tratar: esta- que sea eficiente (preciso, que tenga una varianza cercana a
dísticas de morbilidad. cero) y que sea robusto, es decir que ese número resumen,
4. De los medios tanto específicos como inespecíficos para sea capaz de representar a toda la muestra.
proteger, fomentar, detectar y recuperar la salud: estadís-
ticas de recursos. Observar: Es medir. Lo observado es lo medido. Las obser-
5. De las acciones e intervenciones, que desarrollan los vaciones son las mediciones que se realizan en las unidades
recursos básicos para la evaluación: estadísticas de servi- muestrales.
cios.
Unidad de análisis o unidad muestral: Es el objeto con
La estadística en salud depende de los datos y de su análisis, la característica de interés que será observado o que será
por lo tanto, es esencial conocer la metodología para la medido, pueden ser personas, cortes histológicos, creci-
correcta recolección de los datos y comprender la estadís- miento de colonias, entre otros.
tica para un correcto análisis de éstos. En consecuencia y
dada su relevancia, el objetivo de este artículo es entregar Atributo: Es la característica de la unidad de análisis que se
algunas nociones básicas sobre bioestadística aplicada en la va a observar.
investigación y cómo a través de ésta, es factible responder la Por ejemplo: Si se desea observar antropométricamente al
pregunta de investigación. Recién Nacido (RN), se deben consignar los atributos a medir:
Edad gestacional (EG), peso nacimiento (PN) y talla de naci-
miento (TN).
2. CONCEPTOS BÁSICOS
Antes de revisar y presentar los conceptos y elementos Variable: Es cualquier característica que tome dos o más
básicos de la bioestadística, que se aplican más frecuente- valores en una población.
mente en la investigación clínica, se explicarán algunas defi- Cuando los atributos ya han sido medidos, reciben el nombre
niciones básicas más usadas. de variables. Por ejemplo: RN n°1: EG: 39 semanas PN: 3250
grs. TN: 50 cms. Se llaman variables, porque cambia entre
Parámetro: Es cualquier número resumen de los elementos cada unidad de análisis.
de una población1. Otra definición de Villarroel LA 2018, el
parámetro es una función de los datos calculada en la pobla- Variable aleatoria: Son aquellos atributos que han sido
ción8 medidos en un conjunto de individuos de la población que
Este término muchas veces es incorrectamente utili- conforman una muestra aleatoria y que no se puede anticipar
zado y se habla de los parámetros del estudio, cuando el resultado (Figura 1).

52
[Bioestadística aplicada en investigación clínica: conceptos básicos - EM. Magdalena Castro MSc.]

Figura 1. Resumen Conceptos

3. PLANIFICACIÓN ESTADÍSTICA 1. Representativa de la población de estudio o pobla-


Cuando se escribe un proyecto de investigación, se diseña la ción blanco: Implica que, para que los resultados del estudio
metodología del estudio y dentro de ésta, es indispensable tengan validez interna y externa, la muestra debe ser repre-
diseñar la planificación estadística (PE). Debe estar enfocada sentativa de la población blanco.
en cumplir cada uno de los objetivos específicos y el objetivo Si la muestra no es representativa de la población de donde
general y con ello responder la pregunta de investigación. procede, todos los cálculos que se hagan serán válidos solo
La PE consiste en: para la muestra, sin posibilidad de extrapolar estos resultados a
I. Definir y diseñar el método de selección de la muestra, esto los individuos que no fueron incluidos en ella8.
se llama diseño muestral.
II. Definir el número de elementos que conformará la muestra, Es decir, todos los subgrupos que componen la población
esto se llama cálculo de tamaño muestral. blanco, debieran estar en la muestra, respetando el peso
III. Definir las variables: El tipo variables, la escala de medición proporcional o ponderado que cada uno tiene en la población
y la unidad de medida si es que aplica. de estudio. Al elegir los elementos de la muestra siguiendo una
IV. Plan de tabulación de la base de datos, descripción y tendencia o preferencia por unos más que otros, el grupo prefe-
análisis de la información recolectada. Se definen las formas rencial va a ser cuantitativamente mayor. Si es así, la muestra no
de presentar y analizar la información recolectada7. será fiel representante de la población de estudio y los resul-
tados y conclusiones estarán sesgados, junto a la validez interna
y externa que será afectada.
I. DEFINIR Y DISEÑAR EL MÉTODO DE SELECCIÓN DE LA
MUESTRA, ESTO SE LLAMA DISEÑO MUESTRAL 2. Selección aleatoria: Significa que los sujetos de la pobla-
Concepto de estudio o blanco de Muestra ción blanco deben ser escogidos al azar, es decir, todos los
La población así también llamada universo de estudio, es el individuos o elementos de la población blanco tienen que
conjunto total de personas u objetos que tienen una carac- tener la misma probabilidad de ser seleccionados en la
terística en común de interés para un estudio. No obstante, muestra. Eso significa, que todas las personas u objetos de
estudiar toda la población tiene algunos inconvenientes: es la población deben tener una probabilidad mayor a cero
difícil poder ejecutar una investigación en toda la pobla- y menor a uno de estar presente en la muestra. El método
ción estudio porque es muy caro y demoraría mucho tiempo de selección de la muestra se llama diseño muestral. Existen
reclutar y medirlas a todos. Por lo tanto, se debe estudiar en diferentes tipos de diseño muestral, si es aleatorio se le llama
una muestra. probabilístico, si no es aleatorio, es no probabilístico.

Muestra: Es un subconjunto de individuos o elementos de 3. Tamaño mínimo adecuado: Es el número de individuos


una población definida que cumple con ciertas propiedades necesarios y seleccionados aleatoriamente, que debe contener
comunes. Para que el estudio en una muestra permita extra- la muestra, para obtener estimaciones que representen los
polar los resultados a la población de estudio, es necesario valores reales del parámetro de la población de estudio. Es por
que cumpla con las siguientes exigencias: esto, que se debe realizar un cálculo de tamaño muestral9.

53
[REV. MED. CLIN. CONDES - 2019; 30(1) 50-65]

1. Diseño muestral de forma más rápida y simple, al evitar la necesidad de generar


La selección de la muestra aleatoria es indispensable que para tantos números aleatorios como individuos en la muestra.
la obtención de resultados válidos. • Respecto al muestreo aleatorio, el muestreo sistemático
Muestra aleatoria: Es una selección al azar de los indivi- puede garantizar una selección perfectamente equitativa
duos que componen la muestra. Existen diferentes tipos de de la población. Esto puede ser de utilidad si se distinguen
métodos de selección de la muestra6,8. grupos dentro de la población blanco y formar grupos homo-
géneos, lo que podría evitar la necesidad de usar estratos.
1.1. Muestreo probabilístico Desventajas:
1.1.1. Aleatorio Simple: Se asume que la población es homo- • Existe la posibilidad de que el orden en que se han listado
génea y que todos los elementos de la población tienen la los candidatos a la muestra tenga algún tipo de periodicidad
misma probabilidad de elegidos en la muestra. Se debe tener oculta que coincida con el intervalo escogido para generar
un registro de todos los sujetos de la población blanco (rut, la muestra sistemática. En este caso, se podría generar una
nº ficha clínica, u otros). La selección se puede hacer con muestra que contenga un sesgo de selección.
métodos simples (una bolsa de papeles), tablas de nº aleato-
rios o generación de nº aleatorios por computador. 1.1.4. Muestreo por Conglomerado: Se usa cuando el mues-
treo aleatorio simple es demasiado caro, por la gran magnitud
Ventajas: técnica sencilla. de población y tampoco se tiene un listado de los individuos
Desventajas: la muestra puede quedar desequilibrada, si no que la componen.
se toman en cuenta los subgrupos y su peso ponderado o Un conglomerado es una división de la población donde
proporcional respecto a la población de Estudio. interesa que los individuos al interior sean heterogéneos,
que haya diversidad al interior del conglomerado, pero los
1.1.2. Muestreo Estratificado: Este diseño muestral tiene por conglomerados entre sí sean homogéneos. Se toma una
objetivo evitar que, por azar, algún grupo esté menos represen- muestra aleatoria de conglomerados y luego se selecciona al
tado que otro. Se asume que la población es heterogénea y que azar los individuos de cada conglomerado seleccionado.
existen subgrupos, y es por eso, que se agrupa la población en
unidades homogéneas que se llaman Estratos. Posteriormente Ventajas
se calcula el peso ponderado de cada estrato, para determinar el • Útil para estudios epidemiológicos que desea abarcar
tamaño de la muestra en cada uno. Por último, mediante mues- poblaciones de diferentes regiones
treo aleatorio simple, se obtiene una muestra aleatoria de cada • Útil para grandes “n” muestrales
estrato para obtener la parte proporcional de la muestra. • Útil para estudios ecológicos
• Útil para estudios en diferentes locaciones en terreno
Ventajas: Desventajas
• Previene que la muestra quede desequilibrada respecto a la • Exige un conocimiento previo de las zonas de estudio
representación de cada subgrupo o estrato. • Necesita información sobre las áreas o lugares que se desea
• Disminuye la variabilidad dentro de los estratos muestrear
• Permite resultados más precisos. • Implica uso de estratificación y ponderación de los grupos
Desventajas:
• Complica un poco más el diseño muestral. 1.2. Muestreo no probabilístico
• Si existen muchos estratos, puede reducir el n muestral 1.2.1. No probabilístico o sin asignación aleatoria: Método de
para cada estrato. muestreo que no se basa en probabilidades, es un muestreo
• No se aconseja más de 8 -10 estratos. por conveniencia o de cuotas. Es elegido. Es población con
• Necesita más tamaño muestral. características muy específicas y se usa porque hay facilidad
de acceso para los investigadores. Hay sesgo de selección y es
1.1.3. Muestreo Sistemático: Se usa cuando los elementos de el muestreo más frecuentemente utilizado.
la población están ordenados. En este caso se elige el primer
individuo al azar y el resto viene condicionado por aquel. Hay 1.2.2. De asignación aleatoria: A pesar de que la muestra no
que comprobar que la característica que se estudia no tenga tuvo selección aleatoria, la asignación de la intervención es
una periodicidad que coincida con la del muestreo. a través de métodos aleatorios. Esto permite que los grupos
receptores de las exposiciones sean lo más similares posibles
Ventajas: y que sean comparables. Por lo tanto, un muestreo no proba-
• Obtiene buenas propiedades de representatividad, similares a bilístico consecutivo por conveniencia, con asignación alea-
la de un muestreo aleatorio simple o incluso superiores, pero toria, con intervención y medición enmascarada, con largo

54
[Bioestadística aplicada en investigación clínica: conceptos básicos - EM. Magdalena Castro MSc.]

periodo de reclutamiento para que incluya variaciones esta- Figura 2. Información cálculo de tamaño muestral
cionales u otros cambios temporales y con más de un centro para la estimación de un parámetro
reclutador, es el escenario ideal, en el caso de un diseño
muestral no probabilístico. Este es el diseño muestral que se
usa en los ensayos clínicos controlados aleatorizados doble Variabilidad del “Parámetro” a estimar
ciego multicéntricos9,15.

Ventajas: Precisión de la estimación: amplitud del


intervalo de confianza
• Ventaja principal es la conveniencia para el acceso a las
unidades muestrales
• Simple
• Económico Nivel de Confianza: 95%
• Rápido
Desventajas:
• El principal defecto, la falta de representatividad y validez
externa. mayor número de medidas, por lo tanto, una muestra más
• Imposibilidad de hacer generalizaciones y aseveraciones grande. Si no se conoce la variabilidad del parámetro, puede
estadísticas sobre los resultados. obtenerse, a partir de la evidencia de estudios análogos, o
• Riesgo de incurrir en sesgos debido al criterio de muestreo a partir de los resultados de un estudio piloto o en última
empleado. instancia a partir de datos propios observados en la práctica
• En el peor de los casos, el tiempo de muestra conveniente clínica. Si el parámetro a estimar es una variable cualitativa,
puede presentar un sesgo sistemático respecto al total de se usa la probabilidad del evento (P).
la población, lo que produciría resultados distorsionados.
2.1.2. Precisión de la estimación del “parámetro”
II. DEFINIR EL NÚMERO DE ELEMENTOS QUE CONFORMARÁ LA Es la amplitud del intervalo de confianza. Cuanto más precisa
MUESTRA, CÁLCULO DE TAMAÑO MUESTRAL sea la estimación, más estrecho deberá ser el intervalo y más
Otra de las exigencias que debe tener una muestra es que sujetos deberán ser estudiados. Debe fijarse previamente la
tenga el tamaño mínimo adecuado para que represente cuan- precisión de la estimación del “parámetro”. La amplitud del IC
titativamente a la población de estudio o blanco. No obstante, dependerá del objetivo del estudio, si necesita gran precisión
¿cómo determinar el número de elementos que necesita la o solo una aproximación. Se denota con una “d” o “I”. Puedes
muestra para cumplir con el tamaño mínimo adecuado? ¿para ir desde 0.1 – 0.010
qué tipo de estudio necesito una muestra?
2.1.3. Nivel de confianza
En investigación clínica se realiza cálculo de tamaño mues- Por convención se fija en 95% corresponde a un valor de error
tral (Ctmu) para varios objetivos y existen diferentes métodos, Į de un 5% en que el “parámetro estimado” se equivoque por
según el objetivo del estudio. No obstante, los más usados azar solo en un 5%.
son para estimar un parámetro o para probar una hipótesis y
es lo que explicaré a continuación. Ctmu para estimar una media:
n=ZĮ2 S2 / I2 Aquí se asume una distribución Gaussiana.
2.1 Estimar un parámetro10,11
El objetivo del Ctmu, es obtener la estimación de un parámetro, Ctmu para estimar una proporción:
o sea obtener un estadígrafo representativo de la población n = ZĮ2(p q)/ I² Aquí se asume una distribución Bernoulli.
de estudio y que responde la siguiente pregunta: ¿Cuántas
unidades de análisis es necesario estudiar para poder estimar 2. Para comparar proporciones8,10,11
el valor de una variable con el grado de confianza deseado y El objetivo del Ctmu, es obtener el tamaño muestral necesario
que represente al parámetro de la población de estudio? Para que permita detectar estadísticamente una magnitud de dife-
ello, el Ctmu exige supuestos que se muestran en la figura 2. rencia entre dos grupos, en el supuesto que realmente exista.
Al igual que para estimación de parámetros, este Ctmu requiere
2.1.1 Variabilidad del parámetro o la probabilidad del supuestos, que se deben fijar a priori y que se enumeran en la
evento que se desea estimar figura 3.
Cuando se desea estimar una media, se necesita la varianza, En toda investigación que desea comprobar una hipótesis, es
a mayor variabilidad tiene un atributo, se necesitará un necesario evitar los errores en el número y la calidad de las

55
[REV. MED. CLIN. CONDES - 2019; 30(1) 50-65]

Figura 3 Información cálculo de tamaño muestral diente (X) y una variable dependiente (Y) cuando realmente NO
para comparar proporciones existe. Convencionalmente se ha fijado en un error Į de 5%, no
obstante, eso depende del riesgo y el costo que podría implicar
CÁLCULO DE TAMAÑO MUESTRAL equivocarse. Por ejemplo, en los estudios de terapia, donde se
está evaluando la eficacia de un producto farmacéutico, se
COMPARACIÓN PROPORCIONES: HIPOTESIS
puede fijar un error alfa más pequeño, como 1%. Un error Į de
FIJAR EL RIESGO COMETER ERROR TIPO I Į
5% significa que si se hiciera 100 veces el mismo experimento,
solo en 5 ocasiones los resultados serían por error aleatorio y
FIJAR EL RIESGO COMETER ERROR TIPO II ȕ 95 veces los resultados serían con el estimador verdadero. En
consecuencia, se realiza un cálculo de tamaño muestral, con el
DEFINIR MÍNIMA MAGNITUD DE DIFERENCIA DE EFECTO fin que el número de unidades muestrales sea el estadística-
CLÍNICAMENTE RELEVANTE PARA EL PACIENTE. mente necesario para prevenir este error.

DEFINIR HIPÓTESIS: BILATERAL O UNILATERAL


Valor P
MEDIDA DE VARIABLILIDAD DEL FENÓMENO DE ESTUDIO Al fijar el error Į, se fija el valor P. Porque el valor p es el valor
EN LA POBLACIÓN:PROPORCIÓN de la probabilidad de cometer error Į, es decir cometer error
aleatorio. El valor p es la probabilidad de “caer” en la zona de
rechazo: esto es descartar H0 siendo cierta. Para decirlo en
mediciones. Es decir, conseguir la máxima exactitud al medir, términos más simples, hasta qué punto el resultado obser-
lo significa, procurar que exista validez en la medición y vado, es decir medido, es probabilísticamente compatible
prevenir el error aleatorio. con la hipótesis planteada, o sea H113.

¿Qué es la Validez? Es que se mida lo que se desea medir, sin El valor p es equivalente al valor de significancia Į, con la dife-
sesgo. ¿Qué el sesgo? Es el error sistemático prevenible, que rencia de que el valor p se calcula a partir de una muestra a
se comente al efectuar las mediciones y que puede ocurrir posteriori mientras que el valor Į se fija antes de ejecutar el
por un defecto en el observador (quien mide), en el instru- estudio a priori, cuando se realiza el cálculo de tamaño mues-
mento de medición, o en el observado (sujeto que se mide). El tral6. Por lo tanto, el valor p no tiene relevancia si previamente
sesgo es prevenible con una correcta selección de los sujetos, no se ha realizado un cálculo de tamaño muestral, donde se
una correcto proceso de medición y recolección de la infor- fija a priori el valor Į y la magnitud de diferencia que se desea
mación (sesgo de información) y controlando las variables estadísticamente probar.
de confusión. El sesgo se previene y controla a través de la Por ejemplo, un valor p=0.01, quiere decir que la probabi-
metodología de investigación del estudio, que finalmente es lidad que el resultado del estudio sea error aleatorio Į, es de
el modo de diseñar, ejecutar y analizar el estudio10,11. 1%. O un valor p=0.001 quiere decir que la probabilidad que
el resultado del estudio por error, es de 0.1%, o que se haya
¿Qué es el error aleatorio? También se le puede llamar acci- cometido un error Į aleatorio, es de 0.1%.
dental o error de precisión y es debido a pequeñas causas que
son imposibles de controlar por el investigador. Uno de ellos El valor p se fija a priori y depende del nivel de confianza que
es el hecho de estudian en una muestra para sacar conclu- fije el estudio. El nivel de confianza es la probabilidad que
siones que se apliquen a toda la población y eso se llama error el verdadero valor del parámetro se encuentre dentro del
de muestreo2. intervalo encontrado en el estudio. Esto se llama también,
intervalo de confianza (IC). Si se exige un IC95%, el valor p de
Supuestos del cálculo de tamaño muestral para comparar significación estadística será < 0.05
proporciones
2.1. Error tipo 1 o Į: Es el error aleatorio y que se refleja en Desde el IC sale el error Į. Ahora bien, si la hipótesis es a dos
el error tipo 1 o Į. Éste se debe fijar a priori cuando se realiza colas o bilateral (hay diferencia), el error Į/2 será el que se fije,
un cálculo de tamaño muestral. ¿Cuánto error aleatorio el pero si la hipótesis es unilateral (hay una diferencia mayor o
investigador está dispuesto a aceptar? menor), el error será Į.

Se define como el error que comete el investigador al rechazar No obstante, es necesario considerar que el valor p mide la
la hipótesis nula (HO), siendo esta verdadera, dicho de otra fuerza de la evidencia estadística de un estudio realizado en
forma, es rechazar la hipótesis nula (H0) cuando es cierta. una muestra, pero no mide la fuerza de la asociación. Ahora
Concluir que si existe asociación entre una variable indepen- bien, cuanto menor sea el valor p, mayor fuerza tienen las

56
[Bioestadística aplicada en investigación clínica: conceptos básicos - EM. Magdalena Castro MSc.]

evidencias del estudio y menor probabilidad de rechazar la Figura 4. Decisión del Investigador en contraste
hipótesis nula (H0), siendo esta cierta. Sin embargo, es indis- con la realidad
pensable, que se entiendan dos puntos:
• La significación estadística, no necesariamente implica Realidad
que sea clínicamente significativo para el paciente. Si se
encuentra una significación estadística, pero finalmente
no cambia el escenario para el paciente o no cambia el Decisión del
H1 H0
investigador
escenario en el tratamiento o cuidado, esa diferencia
significativa que se encontró, no tiene mayor relevancia
clínica. Decisión
• Si el estudio no alcanza el tamaño muestral calculado, la H1 ERROR Į TIPO 1
correcta
fuerza estadística pierde potencia y el valor p que derive
de las comparaciones, tendrá que mirarse con cautela,
porque la significación estadística se fijó para un deter- Decisión
H1 ERROR ȕ TIPO 2
correcta
minado tamaño muestral.
• Un valor p, derivado de un estudio que no ha tenido un
cálculo de tamaño muestral para probar una diferencia,
H0: Hipótesis nula. Es el status quo.
no tiene mayor validez. Porque no hay certeza de donde H1: Hipótesis alternativa. Es la hipótesis que plantea el investigador
proviene ese valor p < 0.05.

2.2. Error tipo II o ȕ: Es aceptar HO cuando no es cierta. 2.4. Tipo de hipótesis: Si es bilateral o a dos colas, en
Concluir que no existe asociación entre una variable indepen- que postula que existe diferencia o que no existe dife-
diente (X) y una variable dependiente (Y) cuando realmente SI rencia.
existe. Se define como el error que comete el Investigador al Si es unilateral o a una cola, en que postula que existe una
no rechazar la hipótesis nula, siendo esta falsa. ȕ representa la diferencia mayor o menor que. Figura 4
probabilidad de un resultado falso negativo. El complemento
1- ȕ representa la probabilidad de observar en la muestra 2.5 La probabilidad del efecto estándar (P1) y la
una determinada diferencia o efecto y es a lo que se llama el probabilidad del efecto que se propone (P2).
poder estadístico o potencia del estudio. Dependiendo del error alfa y el tipo de hipótesis, deri-
varán el valor p, que será analizado en un texto más
La magnitud del error ȕ es otro de los supuestos que adelante. Figura 5.
se debe fijar para el cálculo de tamaño muestral. Por
convención, generalmente se usa el error ȕ de 20%,
lo que da una potencia del estudio de 80%, pero esto
dependerá de los intereses y exigencias que se ponga el
investigador y de la potencia que se quiera dar al estudio.
Figura 5 Curva de Gauss e hipótesis uni o bilateral
Mientras mayor el error, menor potencia, se disminuye
la credibilidad de los resultados. Los errores Į y ȕ nunca
se pueden evitar en un 100%, sin embargo, se puede
reducir su probabilidad, aumentando el tamaño muestral
y con un adecuado diseño del estudio. Figura 4.

2.3. Magnitud de diferencia: La magnitud de la dife-


rencia que se postula encontrar tiene una gran influencia
en el tamaño de la muestra. Se debe definir la mínima
magnitud de diferencia que se desea detectar y que
sea de relevancia clínica para el paciente, por lo tanto,
debe fijarse en términos realistas. Cuando la magnitud
de diferencia es muy amplia se detectará más fácil-
mente y requerirá un menor tamaño muestral. Cuando la En el gráfico se muestra la función de densidad de probabilidad (fdp). Con
ella se puede calcular las probabilidades de cada valor de X. El 95% de los
magnitud de diferencia es muy estrecha, será más difícil
resultados, están entre la ds -2 y ds +2. Cuando los resultados caen fuera
detectarla y requerirá un mayor tamaño muestral. de estas ds los resultados pertenecen al 5%.

57
[REV. MED. CLIN. CONDES - 2019; 30(1) 50-65]

¿Qué implica un cálculo de tamaño muestral incorrecto? dicotómicas, en que solo hay dos categorías y son auto-
a. Un exceso de tamaño muestral: Encarece el estudio. No es excluyentes. Ejemplo: vivo|muerto, enfermo|no enfermo,
ético someter a más pacientes de lo necesario a la interven- sexo masculino|femenino.
ción o la vulneración de los datos. Policotómicas, hay más de dos categorías y no necesaria-
b. Un insuficiente tamaño muestral, el “parámetro estimado” mente son auto-excluyentes. Ejemplo, causas de Insuficiencia
será poco preciso. O si se desea probar una hipótesis, una cardiaca: Hipertensión arterial, arritmia, enfermedad valvular,
muestra con escaso tamaño, será incapaz de detectar la dife- hipertrofia ventricular.
rencia entre los grupos de estudio y se llegará a una conclusión En las variables nominales no hay un orden establecido, no
errónea que no existe diferencia estadísticamente significativa, tienen un valor.
pero no porque realmente no hubo diferencia significativa,
sino porque no se alcanzó un número necesario de magnitud 1.2 Ordinal
de diferencia para que ésta fuera significativa. Tiene un sentido de orden, que está implícito, sin que sea una
magnitud o cantidad. Por lo que no tienen unidad de medida.
En consecuencia, se realiza el cálculo de tamaño muestral, No obstante, existen instrumentos que se usan para evaluar
para que el investigador sepa el número mínimo necesario una condición, donde el autor le asigna un número para
de unidades muestrales que debe estudiar, con el fin que los facilitar la interpretación de éste, pero eso no significa que
resultados estadísticos sean creíbles y permitan estimar un la cualidad sea una cantidad1,8,9. Un ejemplo de esto, son las
parámetro extrapolable a la población de estudio. En el caso pruebas de evaluación de funcionalidad que tienen puntaje,
de querer probar una inferencia, permita tomar la decisión de que son construcciones artificias, donde a una cualidad y
aprobar o rechazar la hipótesis, sabiendo que está basada en según su nivel de cumplimiento, se le asigna un valor numé-
un n muestral suficiente para ello. rico arbitrario. Aunque tiene un número asignado, no puede
tener decimales y por lo tanto, no tiene sentido cuantificar la
Es correcto mencionar que existen variados métodos para el diferencia o la razón entre los dos valores. Es por esto, que no
cálculo de tamaño muestral, según el diseño de estudio estos son: sería matemáticamente correcto describir los puntajes con
-Estudios de correlación media o promedio.
-Estudios de pruebas diagnósticas Ejemplos: Niveles de gravedad: leve, moderada, severa.
-Estudios de no inferioridad Escalas o Puntajes: EVA (1-10), Glasgow (3-15), Apgar: 1-9
-Estudios caso control, para obtener magnitud de OR especí- Un puntaje de dolor EVA: 1 a 10. Si el sujeto 1 tiene EVA = 4 y
ficas, entre otros. el sujeto 2 tiene EVA=8
Solo se han explicado los más frecuentemente utilizados en No se puede interpretar que el niño 2 tuvo el doble de dolor
investigación clínica14. que el sujeto 1. Solo que el sujeto 2 tuvo al parecer más dolor
que el sujeto 1. ¿Cómo se interpretaría que el promedio de
dolor fue de 6.5?
III. DEFINICIÓN DE LAS VARIABLES: TIPO VARIABLES,
LA ESCALA DE MEDICIÓN Y LA UNIDAD DE MEDIDA 2. CUANTITATIVAS
Parte de la planificación metodológica de un proyecto de Son variables que son una cantidad, se refleja una magnitud,
investigación es definir las variables independientes o predic- por lo que existe un orden natural en estas variables en la
tivas, la variable dependiente o outcome y las co-variables. escala numérica. Tienen una unidad de medida.
Durante la planificación estadística también se deben definir
las variables, respecto al tipo, su unidad de medida y cómo Existen dos tipos de variables cuantitativas:
se describirá según el tipo de medición que tiene la variable. 2.1 Discreta: Atributo que no puede tomar valores decimales.
Son variables de conteo, tales como, días de hospitalización,
Según la escala de medición existen diferentes tipos de n° de hijos, n° de fallas, n° de muertes. No es factible tener
variables: 1.5 hijos, se tienen 1 o 2 hijos.
Las que miden una cualidad (nominal o categóricas y las
ordinal), se llaman cualitativas. 2.2 Continua: Una variable continua es aquel atributo que
Las que miden cantidad, se llaman cuantitativas, que pueden puede asumir un número infinito de valores dentro de un
ser discretas o continuas5,6,11. determinado rango. Tienen una unidad de medida y tiene
una distribución en el plano cartesiano del eje x, también
1. CUALITATIVAS llamadas intervalares.
1.1 Nominal o categóricas: Son aquellas que se clasi- Las variables medidas en escala de razón, el cero indica la
fican en categorías, etiquetas. Dentro de estas, pueden ser ausencia de la variable.

58
[Bioestadística aplicada en investigación clínica: conceptos básicos - EM. Magdalena Castro MSc.]

Para describirlas se debe determinar si tiene distribución de la información sea creíble. Además, definirá las pruebas
normal/Gaussiana (≈N) o no. Debido a su importancia para estadísticas que se podrán usar para la comparación de dos
el proceso de descripción y análisis estadístico, se explicará o más grupos, al igual que el tipo de regresión para medir
brevemente el concepto. la asociación entre la variable independiente y dependiente.

Distribución Normal, Paramétrica o Gaussiana ≈N


Fue reconocida por primera vez por el francés Abraham de IV. PLAN DE TABULACIÓN DE LA BASE DE DATOS,
Moivre (1667-1754). Posteriormente, Carl Friedrich Gauss DESCRIPCIÓN Y ANÁLISIS DE LA INFORMACIÓN
(1777-1855) formuló la ecuación de la curva de norma- RECOLECTADA
lidad “la campana de Gauss". La distribución de una variable 1. PLAN DE TABULACIÓN DE LA BASE DE DATOS
normal está completamente determinada por dos paráme- Una base de datos es una estructura en la cual se alma-
tros, su media y su desviación estándar, denotadas μ, ı 1,2,5,6,8,9 cenan, con un orden definido, un grupo de descripciones
respectivamente. sobre determinado sujetos o unidades de análisis ya medidas
(variables), para finalmente ser un conjunto de datos perte-
Características de la distribución normal necientes a un mismo contexto y almacenados sistemáti-
• La curva tiene un solo pico, por consiguiente, es unimodal, camente para su posterior uso. La estructura está hecha de
tiene una moda o dato más frecuente. Presenta una forma columnas y filas. Cada columna se titula con el nombre de la
de campana. variable que será medida. Las filas estarán conformadas por
• La media de una población distribuida normalmente se cada unidad muestral. Figura 7.
encuentra en el centro de su curva normal.
• A causa de la simetría de la distribución normal de proba- Figura 7. Estructura base de datos
bilidad, la media, la mediana y la moda poseen el mismo
valor y se encuentran en el centro.
• Las dos colas (extremos) de una distribución normal de
probabilidad se extienden de manera indefinida y nunca
tocan el eje horizontal.
• A causa de la simetría de la distribución normal de proba-
bilidad, la media, la mediana y la moda poseen el mismo
valor y se encuentran en el centro. Figura 6.

Conocer la distribución de las variables continuas es rele-


vante porque definirá los estadígrafos de tendencia central
y de variabilidad que deben usarse, para que la descripción

La definición de las variables tanto en su tipo (independiente,


Figura 6. Curva de Gauss de distribución normal dependiente y co-variables), como en su escala de medi-
ción, es el paso previo básico para poder construir la base de
datos. Aquellas que serán dicotómicas, las que serán polico-
tómicas o tendrán categorías o cuáles variables se registrarán
en forma numérica. En las variables numérica se debe definir
la unidad de medida y registrar en el título la columna. Es
recomendable, registrar en escala continua todas las varia-
bles que sea posible, aunque posteriormente en el análisis se
vayan a categorizar, porque si se registra como categoría, no
será posible transformarla a variable continua. Por ejemplo, el
hábito tabaco. Es conveniente registrar el n° de cigarrillos/día
y posteriormente categorizar según el investigador estime
conveniente para el análisis.

Para ello es conveniente construir un diccionario de datos con


± ı comprende aprox. 68% de la muestra
± 2ı comprende aprox. 95% de la muestra
el fin definir ordenadamente cómo se tabularán las variables
± 3ı comprende aprox. 99% de la muestra y se describen todos los códigos asignados a cada una. Es

59
[REV. MED. CLIN. CONDES - 2019; 30(1) 50-65]

importante para la persona que registrará y analizará la base Se construyen estadígrafos para distintos fines. Los tres tipos
de datos ya codificada. más conocidos por su amplio uso en la estadística descriptiva
son8,9,16:
Protección de la confidencialidad de la información 1. Estadígrafos de orden
Es importante que los investigadores tengan presente que 2. Estadígrafos de tendencia central
todo dato es del sujeto de estudio y por lo tanto, es nece- 3. Estadígrafos de variabilidad.
sario solicitar su consentimiento informado para registrarlos,
describirlos y analizarlos. Toda persona tiene derecho a la 1. Estadígrafos de orden
protección de la confidencialidad de su información y es - El máximo, X(n) y el mínimo, X(1), que aparecen en forma
por ello, que los análisis estadísticos deben realizarse sobre instantánea al ordenar la muestra.
bases de datos codificadas, donde no exista información - Percentiles: A cada uno de los números que dividen la
que pueda identificar al sujeto de estudio. Para esto, se muestra en 100 partes iguales, en consecuencia, ellos son
construye una base de datos madre, que contiene la iden- 99, y se denotan por P(k), donde k es el orden del percentil
tificación del participante, que debe ser guardada en un indicado. Los percentiles más conocidos y usados:
lugar seguro. El análisis de la información se debe realizar
en una base codificada. ¿Cómo se hace? Se asigna un código Los cuartiles: son tres, denotados por Q1, Q2 y Q3 , que corres-
o identificador para cada sujeto (ID). El código debe ser ponden respectivamente a los percentiles P25, P50 y P75, ellos
propio del proyecto y debe ser distinto a cualquier infor- dividen la muestra en cuatro partes iguales.
mación personal del paciente. La base de datos codificada
no debe contener información que pueda ser identificable, Estos percentiles son de particular interés, principalmente
tales como el nombre, las iniciales, fecha de nacimiento o el percentil cincuenta (P50), recibe el nombre de mediana y
ficha clínica del paciente. divide la muestra en dos partes iguales.
En el gráfico de cajas se pueden observar los P25, P50 y P75. Ver
El investigador principal debiera ser el responsable de la base figura 8.
de datos y aquellos que ingresen información, deben tener una
clave de acceso personal e intransferible. Es necesario formar a
todos los co-investigadores o colaboradores que vayan ingresar Figura
g 8. Gráfico Box p
plot
la información, respecto a las variables, cómo registrarlas, los
100

rangos de seguridad, los datos perdidos y usar un sistema de


protección de errores en el registro de los datos. Q3+1.5·RIC
80
Años cumplidos

Q3ó P75
Descripción de los datos
La estadística descriptiva tiene el objetivo de describir cuan- Q2ó P50
60

titativamente un conjunto de datos. Para ello se utilizan dife- Q1ó P25


rentes recursos estadísticos, tales como los estadígrafos de
Q1-1.5·RIC
40

orden, centralización y variabilidad, que son números resú-


menes de los datos recolectados, que pueden porvenir de
estudios poblacionales o muestrales.
20

Durante la planificación del análisis estadístico se deben


definir las formas de presentar la información recolectada en Gráfico informativo que relaciona el concepto de cuartil y recorrido inter-
la muestra. A continuación se explicarán tales métodos. cuartílico, es el llamado CAJÓN CON BIGOTES (Box plot).
RIC: Rango Intercuatílico.

Estadígrafos de orden, centralización y variabilidad


La estadística llama estadígrafos o estadísticos, a números
resúmenes, que permiten extraer conclusiones a cerca de la Otros percentiles que se usan frecuentemente son:
estructura de una muestra o una colección de datos. Estos Los quintiles: son cuatro, denotados por C1, C2, C3 y C4, que
números son construidos considerando toda la información corresponden a los percentiles P20, P40, P60 y P80 ellos dividen
que contiene la muestra, es decir consideran todos los datos la muestra en cinco partes iguales.
que han sido recolectados. Es por ello la relevancia de utilizar Los deciles: son nueve, denotados por D1, D2,...,D9, que
los estadígrafos correctos de acuerdo con el tipo de variable corresponden respectivamente a los percentiles P10, P20,...,
que se desea describir. P90, ellos dividen la muestra en diez partes iguales.

60
[Bioestadística aplicada en investigación clínica: conceptos básicos - EM. Magdalena Castro MSc.]

2. Estadígrafos de centralización o de tendencia central Media o promedio


Cuando se observa un fenómeno cuantitativo, interesa saber Es el punto donde se ubica el centro de masas de la muestra.
si los datos recolectados se aglutinan en torno a ciertos valores Se interpreta como el valor al cual se pueden asimilar
representativos que son propios del fenómeno estudiado. todos y cada uno de los datos. Pero la media describe bien,
Estadígrafos de tendencia central, son: sólo si la muestra es homogénea y/o simétrica. Solo se
Moda: Es el dato de mayor frecuencia de aparición. Apropiada puede calcular y usar para describir en variables en escala
para describir datos medidos en escala categórica o nominal, continua, con distribución normal, pero desafortunada-
por ejemplo, sexo y variable en escala ordinal. mente es el estadígrafo central más utilizado, conocido y
podría decir, abusado. Cuando una variable continuas no
Mediana (P50): Es el punto que divide a la muestra en dos tiene distribución normal, la media se ve influida por los
partes iguales. Es apropiada para describir datos medidos en valores extremos, lo que hace que se aleje de la moda y
escala: de la mediana. En la figura 10 se observa la diferencia de
• Ordinal la posición de la moda, mediana y media dependiendo
• Discreta o continua del tipo de distribución, simétrica, asimétrica la izquierda
• Es un estadígrafo de posición y de centralización. Figura 9. o a la derecha. Notar que la media solo puede describir
correctamente cuando ≈N.

Análisis de los datos


Figura 9. Mediana de edad La estadística analítica tiene por objetivo comprobar hipótesis
o establecer relaciones de causalidad en un determinado
fenómeno. Es también llamada estadística inferencial. Es un
área de la estadística que se dedica al análisis y a la elabo-
ración de los datos con métodos basados en probabilidades,
para la toma de decisiones en salud5,6. En forma práctica,
cuando se habla de análisis de datos, significa la compara-
ción de estadígrafos o porcentajes, dependiendo del tipo
de escala de la variable y posteriormente si existe diferencia
estadísticamente significativa entre los grupos, se procede
a determinar la correlación entre las variables, para luego
medir la asociación entre una o más variables independientes
o predictoras (X) y la variable dependiente, también llamada
efecto o outcome(Y).

Figura 10. Comparación Media-Mediana-Moda según distribución simétrica y no simétrica

Media Moda Media Moda Media


Mediana
Mediana Mediana
Moda
Asimétrica hacia la Simétrica Asimétrica hacia la
izquierda derecha

61
[REV. MED. CLIN. CONDES - 2019; 30(1) 50-65]

Para ello el análisis estadístico se podría ordenar en tres 2° La determinación de la correlación entre la variable
etapas: independiente y el efecto, con el coeficiente de corre-
1° Comparación del efecto entre grupos que están y no lación
están expuestos a la variable independiente La correlación es el grado de variación conjunta de dos varia-
Para ello se utilizan pruebas estadísticas de comparación y bles numéricas o continuas. Se determina con un coeficiente de
según la distribución de las variables, serán pruebas paramé- correlación, que será de Pearson (r), en el caso que la variable
tricas (si la variable distribuye normal) o no paramétricas (si la distribuya normal, o de Spearman (rho) en el caso que no distri-
variable no distribuye normal). Según la escala de la variable buya normal. Los valores del coeficiente irán desde 1, correlación
que se va a comparar tendremos: positiva perfecta, mientras una variable aumenta, la segunda
variable también es lineal y en una razón de 1:1. Hasta -1,
Variables categóricas: se usa la prueba exacta de Fischer, en correlación negativa perfecta, mientras una variable aumenta su
caso de comparación de dos grupos y una muestra pequeña valor, la segunda variable disminuye su valor, es lineal y en una
(≤30) o prueba de Chi2, en caso de dos grupos con muestra razón de 1:1. Una correlación 0, significa que no hay correlación
>30 o más de dos grupos. lineal, pero no implica que pueda haber otro tipo de correlación,
tales como cuadrática, cúbica, entre otras1-6.
Variables de escala continua: si distribuye normal, se comparan
medias. Si son dos medias se usa la prueba de Tstudent y si son Existen múltiples pruebas de comparación de grupos y de
tres o más medias, la prueba de análisis de la varianza (ANOVA). correlación, para ser usadas en variables con distribución
Cuando no distribuye normal, se usa prueba de Mann Whitney normal o paramétricas, como para aquellas que no tienen
comparación de dos medianas, Kurskall Wallis, comparación distribución normal, o no paramétricas.
de tres o más medianas. Esto es cuando se comparan grupos
independientes. Cuando se comparan grupos que no son inde- El objetivo de este artículo no es profundizar en la estadís-
pendientes, es decir pareados es necesario usar otras pruebas. tica analítica, pero sí que se familiaricen con los nombres
¿Qué significa grupos pareados? Esto es cuando el resultado de los test más frecuentemente usados en los estudios de
del segundo grupo depende del resultado del primer grupo, es investigación clínica. El desarrollo de una discusión sobre
decir, cuando se compara a una misma muestra en dos tiempos las metodologías estándares respecto a las más actuales, va
distintos. Porque los resultados que se obtengan en el segundo más allá del humilde objetivo del artículo. Ver figuras 11 y
tiempo de medición son dependientes de los resultados del 12, donde se muestra un resumen de las pruebas paramé-
primer tiempo de medición. tricas y no paramétricas

En ese caso, si se comparan dos medias, se usa la prueba de 3° La determinación de la asociación entre la variable
Tstudent para grupos pareados. Si son dos medianas, se usa la independiente y el efecto, con la regresión
prueba de Wilcoxon para grupos pareados, si son tres o más Para determinar el grado de asociación entre una variable
medianas prueba de Friedman1,2,8,9,16. independiente y una dependiente, se usa la regresión. Su

Figura 11. Pruebas paramétricas que se usan cuando las variables tienen distribución normal

Comparación de Comparación
Proporciones de Medias

2 muestras:
2 muestras:
Test exacto de Fisher
T- STUDENT
test Chi-cuadrado
Homogeneidad
Más de 2 muestras: Más de dos muestras:
test Chi-cuadrado ANOVA

Coeficiente de
Independencia
correlación de Pearson

62
[Bioestadística aplicada en investigación clínica: conceptos básicos - EM. Magdalena Castro MSc.]

Figura 12. Pruebas no paramétricas que se usan cuando las variables no tiene distribución normal

Datos pareados
Datos independientes Comparación de dos
tratamientos

2 muestras: 2 muestras:
Test exacto de Fisher V numérica
test Chi-cuadrado T Wilcoxon

Homogeneidad Más de 2 muestras:


Kruskal-Wallis
es idéntico al ANOVA con los datos Más de dos muestras:
reemplazados por categorías. Es una Friedman
extensión de la prueba de la U de
MannWhitney más de dos grupos

Coeficiente de correlación de
Spearman: -1 ≤rho≥ 1
Independencia -
V. Ordinales
V continuas no normal

16. Sentís, J. ; Canela, J. ; Cobo, E. ; Pardell, H.Manual de Bioestadística. Ed Masson, 2007.

forma más sencilla, es la regresión lineal simple, que es una distribución binomial (1 o 0), se usa la regresión logística. Es
técnica estadística que analiza la relación entre dos variables este caso, el modelo reporta la medida de asociación Odds
cuantitativas que distribuyen normal y donde se trata de Ratio (OR)4,5
verificar que existe una relación lineal. Una asociación lineal,
significa que a medida que la variable independiente está ¿Cómo se evalúa si el modelo de regresión tiene una buena
presente, también está presenta en la misma proporción la capacidad de predecir la variable dependiente o la variable
variable dependiente 18. respuesta? Se hace a través del coeficiente de determinación
(R2). Este es la proporción de la variación total de la respuesta
La regresión supone que hay una variable fija, que está contro- Y que es explicada por la variación de X. El R2 indica que tan
lada por el investigador (variable independiente) o predictora bien se ajusta el modelo a los datos observados.
(que predice el efecto), también considerada como de expo-
sición o posible “causa”. Y otra que no está controlada, que es Para visualizar mejor el grado de relación entre la variable
la variable respuesta, o efecto o dependiente. Supone que es respuesta y cada variable independiente, el gráfico de
la respuesta al estar expuesto a la variable independiente. La dispersión es un adecuado recurso.
variable respuesta siempre ocupa el eje de ordenadas “Y” y la
variable independiente el eje las abscisas “X”. Medidas de Asociación
Son aquellas medidas que reporta la magnitud de asociación
Cuando se quiere relacionar una variable “X” con una variable entre la variable explicadora X y la variable dependiente Y. Te
dependiente Y, es una regresión simple o univariada. Si se dice la fuerza con que se asocian ambas variables.
quiere relacionar dos o más variables independientes a una Las medidas, más frecuentemente utilizadas en los estudios,
variable dependiente, se le llama regresión bivariada, o el
multivariada respectivamente. - Riesgo relativo RR. Se puede estimar solo en los estudios
prospectivos. Esto es porque mide el riesgo, que solo se
Los tipos de regresión dependen del tipo de escala de la puede calcular en los estudios prospectivos.
variable dependiente o respuesta. Si es continua, será regre- - Odds ratio: solo se calcula en estudios con respuesta dicotó-
sión lineal (si la respuesta distribuye paramétrica) o regresión mica, sale de una regresión logística.
lineal generalizada (si la respuesta distribuye no paramétrica). Dado que el objetivo del artículo es presentar conceptos

El modelo de regresión reporta los coeficientes ȕeta.


Cuando la respuesta está medida en escala dicotómica, tiene

63
[REV. MED. CLIN. CONDES - 2019; 30(1) 50-65]

básicos de la bioestadística aplicada en investigación, no se Solo hay que mirarla de forma amigable, aceptando la
va a profundizar en la estadística analítica, porque va más allá importancia y utilidad que tiene. No olvidar que ésta debe
del alcance de éste. ser el instrumento que permita cumplir con los objetivos
- Hazard ratio (HR). Se puede calcular en estudios prospec- del estudio y responder la pregunta de investigación. Es
tivos y es el resultado de la regresión de riesgos proporcio- fundamental que todo el proceso estadístico, sea meto-
nales de Cox. dológicamente adecuado, porque los resultados depen-
derán la validez interna del estudio y eso es, una rigurosa
A continuación, se presenta un diagrama que resume las prevención y control de sesgos de información, selección
funciones de la bioestadística en un estudio de investigación. y confusión. Si la validez interna es deficiente, con alto
Figura 13. nivel de sesgo (errores sistemáticos), independiente que la
estadística sea la correcta, los resultados serán espurios,
SÍNTESIS porque la medición fue la que incurrió en el error. No hay
La estadística es una herramienta que no es posible que olvidar que los resultados del estudio dependen de la
soslayar en la investigación científica, porque es lo que medición (observación) y los errores sistemáticos en ésta,
permite probar matemáticamente una hipótesis y extraer llevan a sesgo de información y confusión. Por lo tanto, hay
conclusiones válidas. La estadística está a disposición de los que prevenir el error en quién mide (observador), el error
investigadores y existe variada literatura y métodos para con qué se mide (instrumento) y el error a quién se mide
aprender y acercar esta disciplina al investigador clínico. (observado).

Figura 13. Síntesis de la bioestadística básica en un estudio de investigación

64
[Bioestadística aplicada en investigación clínica: conceptos básicos - EM. Magdalena Castro MSc.]

Finalmente, considerar que las conclusiones estadísticas son experiencia clínica del profesional de salud y la necesidad del
probabilidades, porque la medicina no es exacta y es solo paciente, siendo estos los elementos que completan el esce-
una parte de la verdad. A ésta debe sumarse el criterio y la nario para la toma de decisiones en beneficio de los pacientes.

Declaración Conflicto de Interés


Como autora declaro libremente no haber recibido fondos, ni otros beneficios para la publicación de este artículo.

REFERENCIAS BIBLIOGRÁFICAS

1. Clifford R, Taylor R. Fundamentos de bioestadística. Bioestadística. 11. Hulley, S et al. Diseño de Investigaciones Clínicas. 3ª edición 2007.
Ed.Prentice Hall , 2008 Cap.1, 1-8. Editorial Lippincott Williams & Williams.
2. Martínez MA, Sánchez-Villegas A, Irala J.Introducción a los métodos 12. Fletcher ,R.; Fletcher,S Epidemiología Clínica. Lippincott Williams &
de la epidemiología y la bioestadística- Bioestadística amigable.3° Wilkins- España, 2008.
edición Elsevier. 2014 Cap.1, 1-11. 13. Manterola C, Pineda V, Grupo MINCIR. El valor de “p” y la “significación
3. Croxton HE, Cowden DJ. Estadística general aplicada sanitaria. OMS, estadística”. Aspectos generales y su valor en la práctica clínica. Rev.
Ginebra,1987. Chilena de Cirugía. Vol 60 - Nº 1, 2008; págs. 86-89
4. Díaz A. Capítulo1 Introducción. Estadística aplicada a la administración 14. Lwanga SK, Lemeshow S. Sample size determination in health studies. A
y economía Editorial Mc Graw Hill 2013;1-10. practical manual. Geneva: Worl Health Organization. 1991.
5. Mainland,D. Estadística Médica. Editorial Interamericana última 15. Ochoa C. Muestreo no probabilístico: muestreo por conveniencia.
edición 2006 Netquest Mayo, 2015 https://www.netquest.com/blog/es/blog/es/
6. Cobo E, Muñoz P, González JA. Bioestadística para no estadísticos. Bases muestreo-por-conveniencia (visitado 18 12 2018)
para interpretar artículos científicos. Prefacio Editorial Elsevier Doyma 16. Sentís, J. ; Canela, J. ; Cobo, E. ; Pardell, H.Manual de Bioestadística. Ed
2007. XIII Masson, 2007.
7. De la Loza A. Capítulo 11 Estadística médica y de la salud. Álvarez R, 17. Villarroel LA. Estadística descriptiva, Tipos de muestreo (Cap.1). Métodos
Kuri-Morales P. Salud pública y medicina preventiva 4°edición Editorial estadísticos. Ediciones UC 2°edición 2018. 26-30.
Manual Moderno 2012;101-46. 18. Dawson,B.;Trapp, R. Bioestadística médica . 4° edición . Editorial
8. Villarroel LA. Estadística descriptiva. Parámetros y estimadores. Métodos Manual Moderno, 2005.
estadísticos. Ediciones UC 2°edición 2018. 22. 19. Hernández Ávila, M. Epidemiología Diseño y análisis de estudio. Instituto
9. Cavada G. Conceptos básicos de bioestadística (cap43) en Burdiles, P. y Nacional de Salud pública. 2011 Editorial Panamericana.
cols. Fundamentos del cuidado quirúrgico. Mediterráneo Chile 2011. 18. Sánchez A, Martín N, Martínez MA. Capítulo 10 Correlación y Regresión
10. Díaz VP. Técnicas de muestreo. Metodología de la investigación científica lineal simple. Martínez MA y cols. Bioestadística amigable. Editoral
y bioestadística. Universidad de Finis Terrae. Masters 2°edición. Cap.8 Elsevier España , 2014 ; 269-326
385-404.

65

Anda mungkin juga menyukai