Investigacin: Clculo del poder estadstico de un estudio 1/7
www.fisterra.com Atencin Primaria en la Red
Clculo del poder estadstico de un estudio
Prtegas Daz, S. spertega@canalejo.org , Pita Fernndez, S. spita@canalejo.org Unidad de Epidemiologa Clnica y Bioestadstica. Complexo Hospitalario-Universitario Juan Canalejo. A Corua (Espaa). Actualizacin 20/01/2003. __________________________ Las pruebas de contraste de hiptesis y el concepto de poder estadstico El anlisis de estudios clnico-epidemiolgicos con frecuencia exige la comparacin entre varios tratamientos o entre diferentes grupos de sujetos con respecto a una respuesta de inters. Por ejemplo, puede interesarnos comparar la eficacia de un nuevo frmaco frente a la de otro estndar en el tratamiento de una determinada patologa, o bien establecer la asociacin entre la exposicin a un factor de riesgo y el desarrollo de cierta enfermedad. Problemas de este tipo pueden plantearse como un contraste de hiptesis, de forma que la hiptesis que se contrasta es la de que no existen diferencias entre ambos grupos o tratamientos (hiptesis nula), frente a la hiptesis alternativa de que estos sean realmente diferentes. Una prueba de contraste de hiptesis o de significacin estadstica calcula la probabilidad de que los resultados obtenidos en una investigacin puedan ser debidos al azar en el supuesto de que la hiptesis nula sea cierta, es decir, bajo el supuesto de que no existan diferencias entre ambos grupos. Esta probabilidad es el grado de significacin estadstica o valor de p. Basndose en esta probabilidad, se decidir rechazar o no la hiptesis nula. As, cuanto menor sea el valor de p, menor ser la probabilidad de que los resultados obtenidos se deban al azar y mayor evidencia habr en contra de la hiptesis nula. Si dicha probabilidad es menor que un valor de p fijado previamente (habitualmente se toma p<0,05), la hiptesis nula se rechazar. As, cuando el valor de p est por debajo de 0,05, se dir que el resultado es estadsticamente significativo y ser no significativo en cualquier otro caso. As pues, a partir de los resultados de un estudio, puede llegarse a diferentes conclusiones (Tabla 1). En primer lugar, puede concluirse que existen diferencias entre los grupos que se comparan cuando realmente las hay. Asimismo, puede concluirse que no hay diferencias cuando stas no existen. En ambos casos, no se comete ningn error. Sin embargo, tambin se puede concluir que existen diferencias cuando de hecho no las hay. Es decir, puede rechazarse la hiptesis nula cuando en realidad es verdadera. Si esto ocurre, se comete un error de tipo I o error !. La probabilidad de cometer un error de este tipo es lo que mide precisamente el grado de significacin p. En algunas ocasiones, por el contrario, los resultados de un estudio no son significativos. Se habla entonces de estudios negativos. No obstante, la ausencia de significacin estadstica no implica necesariamente que no exista relacin entre el factor de estudio y la respuesta. Puede ocurrir, que an existiendo tal asociacin o una diferencia clnicamente relevante, el estudio haya sido incapaz de detectarla como estadsticamente significativa. En estudios de este tipo se concluir que no existen diferencias cuando realmente s las hay. Este error se conoce como error de tipo II. La probabilidad de cometer un error de este tipo suele denotarse por " y su complementario, 1-", es lo que se conoce como poder estadstico o potencia estadstica 1-3 . En definitiva, el poder estadstico representa la probabilidad de rechazar la hiptesis nula cuando es realmente falsa. Es decir, representa la capacidad de un test para detectar como estadsticamente significativas diferencias o asociaciones de una magnitud determinada. Factores que influyen en el poder estadstico de un estudio. El poder estadstico de un estudio depende de diferentes factores, como 3 : ! El tamao del efecto a detectar, es decir, la magnitud mnima de la diferencia o asociacin entre los grupos que se considera clnicamente relevante. Cuanto mayor sea el tamao del efecto que se desea detectar, mayor ser la probabilidad de obtener hallazgos significativos y, por lo tanto, mayor ser el poder estadstico. Investigacin: Clculo del poder estadstico de un estudio 2/7
www.fisterra.com Atencin Primaria en la Red ! La variabilidad de la respuesta estudiada. As, cuanto mayor sea la variabilidad en la respuesta, ms difcil ser detectar diferencias entre los grupos que se comparan y menor ser el poder estadstico de la investigacin. De ah que sea recomendable estudiar grupos lo ms homogneos posibles. ! El tamao de la muestra a estudiar. Cuanto mayor sea el tamao muestral, mayor ser la potencia estadstica de un estudio. Es por ello que en los estudios con muestras muy grandes se detectan como significativas diferencias poco relevantes, y en los estudios con muestras menores es ms fcil obtener resultados falsamente negativos. ! El nivel de significacin estadstica. Si se disminuye el valor de " tambin se disminuye el poder de la prueba. Es decir, si disminuimos la probabilidad de cometer un error de tipo I aumentamos simultneamente la probabilidad de un error de tipo II, por lo que se trata de encontrar un punto de equilibrio entre ambas. Habitualmente se trabaja con un nivel de significacin del 95% ( 05 . 0 # " ), por lo que el equilibrio hay que en encontrarlo finalmente entre el tamao de la muestra que es posible estudiar y el poder que se quiere para el estudio. Los cuatro factores anteriores, junto con el poder estadstico, forman un sistema cerrado. De este modo, una vez fijados tres de ellos, el cuarto queda completamente determinado. Clculo del poder estadstico de un estudio. A la hora de disear una investigacin, es importante determinar si dicho estudio alcanzar una precisin suficiente. En anteriores trabajos se ha mostrado cmo calcular el tamao muestral necesario para alcanzar un determinado poder estadstico en diferentes tipos de diseo 4-7 . Generalmente, se suele trabajar con un poder en torno al 80% o al 90%. Con frecuencia, sin embargo, las condiciones en las que se lleva a cabo una investigacin son diferentes de las que se haban previsto en un principio. En consecuencia, y a la vista de hallazgos no significativos, es recomendable evaluar de nuevo a posteriori su potencia con el fin de discernir si el estudio carece del poder necesario para detectar una diferencia relevante o bien si realmente puede no existir tal diferencia. En la Tabla 2 se muestran las frmulas necesarias para el clculo del poder estadstico en funcin de la naturaleza de la investigacin. Estas frmulas permiten obtener un valor $ % 1 z a partir del cual se puede determinar el poder asociado recurriendo a las tablas de la distribucin normal. En la Tabla 3 se muestra la correspondencia entre algunos valores de $ % 1 z y el poder estadstico asociado. Sin embargo, y aunque dichas frmulas nos permitiran analizar el poder estadstico en diferentes tipos de diseo, puede resultar ms sencillo disponer de algn software especfico con el que poder realizar dichos clculos 8 . Ejemplo 1. Ilustremos el proceso del clculo de la potencia mediante un ejemplo. Supongamos que se quiere llevar a cabo un ensayo clnico para comparar la efectividad de un nuevo frmaco con la de otro estndar en el tratamiento de una determinada enfermedad. Al inicio del estudio, se sabe que la eficacia del tratamiento habitual est en torno al 40%, y se espera que con el nuevo frmaco la eficacia aumente al menos en un 15%. El estudio se dise para que tuviese un poder del 80%, asumiendo una seguridad del 95%. Esto implica que son necesarios 173 pacientes en cada uno de los grupos para llevar a cabo la investigacin. Tras finalizar el estudio, slo fue posible tratar con cada uno de los frmacos a 130 pacientes en cada grupo en lugar de los 173 pacientes estimados inicialmente. Al realizar el anlisis estadstico, se objetiv que no hay diferencias significativas en la efectividad de ambos tratamientos. A partir de las frmulas de la Tabla 2, podemos calcular cul ha sido finalmente el poder del estudio. Aplicando la frmula para el clculo del poder estadstico de comparacin de dos proporciones ante un planteamiento unilateral se obtiene: Investigacin: Clculo del poder estadstico de un estudio 3/7
www.fisterra.com Atencin Primaria en la Red & ' & ' & ' & ' & ' & ' 467 . 0 55 . 0 1 55 . 0 4 . 0 1 4 . 0 475 . 0 1 475 . 0 2 645 . 1 130 55 . 0 4 . 0 1 1 1 2 645 . 1 05 . 0 130 475 . 0 55 . 0 4 . 0 2 2 1 1 1 2 1 1 1 2 1 # % ( % % ) ) ) % % # # % ( % % % % # * + + + , + + + - . # * # # # * , - . # # % % % p p p p p p z n p p z z n p p p " $ " "
A partir de la Tabla 3, podemos determinar que un valor de 467 . 0 1 # %$ z corresponde a un poder en torno al 65%-70%. Utilizando las tablas de la distribucin normal, se sabe que el poder es del 68%, es decir, el estudio tendra un 68% de posibilidades de detectar una mejora en la eficacia del tratamiento del 15%. Utilizando la frmula anterior, podra obtenerse un grfico como en el que se muestra en la Figura 1, en la que, para este ejemplo, se estima el poder estadstico del estudio en funcin del tamao de la muestra estudiada y la magnitud del efecto a detectar. As, puede concluirse que de haber estudiado 130 pacientes por grupo, se obtiene una potencia de slo el 36.6% para detectar una diferencia mnima del 10%, una potencia del 68% para detectar una diferencia del 15% y de un 90.2% para una diferencia del 20%. Este tipo de grficos resulta muy til tanto en la fase de diseo de un estudio como a la hora de valorar a posteriori el poder de una investigacin. Ejemplo 2. De modo anlogo, supongamos que se quiere llevar a cabo un estudio de casos y controles para estudiar la posible asociacin entre la presencia de cardiopata isqumica y el hbito de fumar. De acuerdo con estudios previos, se cree que la incidencia de cardiopata puede ser hasta 2 veces ms alta entre los fumadores, y se asume que la frecuencia de exposicin entre los controles ser de un 40%. Debido a ciertas limitaciones, slo es posible para el investigador incluir en el estudio a 100 pacientes con cardiopata isqumica (casos). Utilizando de nuevo las frmulas de la Tabla 2, con un planteamiento bilateral y una seguridad del 95%: & ' & ' & ' & ' & ' & ' & ' & ' 472 . 0 40 . 0 1 40 . 0 5714 . 0 1 5714 . 0 486 . 0 1 486 . 0 2 96 . 1 100 40 . 0 5714 . 0 1 1 1 ) 1 ( 1 96 . 1 05 . 0 100 486 . 0 2 5714 . 0 40 . 0 2 40 . 0 1 40 . 0 2 1 40 . 0 2 2 2 1 1 1 2 1 1 2 1 2 1 2 2 2 1 2 # % ( % % ) ) ) % % # % ( % % ( % % # * * + + + + + + , + + + + + + - . # # * # # # ( # # / ( % / # ) ( % ) # * , - . # # % % % p p p cp p p c z cn p p z c z n p p p p OR p p OR p p OR " $ " "
Recurriendo de nuevo a las tablas de la distribucin normal, se obtiene para un valor 472 . 0 1 # %$ z un poder del 68.17%. Con el fin de mejorar el poder del estudio, los investigadores se plantean reclutar un mayor nmero de controles que de casos. En la Figura 2 se muestra para el ejemplo anterior el poder de la investigacin en Investigacin: Clculo del poder estadstico de un estudio 4/7
www.fisterra.com Atencin Primaria en la Red funcin del nmero de casos y controles estudiados. Como se puede observar, la ganancia en el poder disminuye rpidamente, y es prcticamente nula cuando la relacin entre el nmero de controles y casos es 4:1. Esto se verifica en cualquier estudio de casos y controles 3 . En particular, para el ejemplo previo, si se estudiasen 100 casos y 200 controles se alcanzara un poder del 80.28%. Si se incluyesen 100 casos y 300 controles, el poder sera de un 84.69%. Con 400 controles el poder aumentara slo a un 86.89% y con 500 a un 88.19%. Con lo cual claramente es ineficiente el incluir ms de 4 controles por caso ya que no lograramos un incremento relevante del poder estadstico. El anlisis adecuado del poder estadstico de una investigacin, que es en definitiva la capacidad que tiene el estudio para encontrar diferencias si es que realmente las hay, es un paso fundamental tanto en la fase de diseo como en la interpretacin y discusin de sus resultados. A la hora del diseo, por tanto, debe establecerse la magnitud mnima de la diferencia o asociacin que se considere de relevancia clnica, as como el poder estadstico que se desea para el estudio y, de acuerdo con ello, calcular el tamao de la muestra necesaria. Tras realizar el anlisis estadstico, cuando se dice que no existe evidencia de que A se asocie con B o sea diferente de B, deberemos cuestionarnos antes de nada si la ausencia de significacin estadstica indica realmente que no existe una diferencia o asociacin clnicamente relevante, o simplemente que no se dispone de suficiente nmero de pacientes para obtener hallazgos significativos. Tanto si los hallazgos son estadsticamente significativos como si no lo son, la estimacin de intervalos de confianza pueden tambin facilitar la interpretacin de los resultados en trminos de magnitud y relevancia clnica, proporcionndonos una idea de la precisin con la que se ha efectuado al estimacin, de la magnitud y de la direccin del efecto 9-10 . De este modo, los intervalos de confianza nos permiten tener una idea acerca del poder estadstico de un estudio y, por tanto, de la credibilidad de la ausencia de hallazgos significativos. Bibliografa 1. Altman D.G. Practical Statistics for Medical Research. London: Chapman & Hall; 1991. 2. Kelsey J.L., Whittemore A.S., Evans A., Thompson W.D. Methods in Observational Epidemiology. 2 nd ed. New York: Oxford University Press; 1996. 3. Argimon Palls J.M., Jimnez Villa J. Mtodos de investigacin clnica y epidemiolgica. 2 ed. Madrid: Ediciones Harcourt; 2000. 4. Pita Fernndez S. Determinacin del tamao muestral. Cad Aten Primaria 1996; 3: 138-141. [Texto completo] 5. Prtega Daz S, Pita Fernndez S. Clculo del tamao muestral para la determinacin de factores pronsticos. Cad Aten Primaria 2002; 9: 30-33. [Texto completo] 6. Prtega Daz S, Pita Fernndez S. Clculo del tamao muestral en estudios de casos y controles. Cad Aten Primaria 2002; 9:148-150. [Texto completo] 7. Prtega Daz S, Pita Fernndez S. Determinacin del tamao muestral para calcular la significacin del coeficiente de correlacin lineal. Cad Aten Primaria 2002; 9: 209-211. [Texto completo] 8. Thomas L, Krebs CJ. A review of Statistical power analysis software. Bulletin of the Ecological Society of America 1997; 78 (2): 126-139. 9. Braitman LE. Confidence intervals assess both clinical significance and statistical significance. Ann Intern Med. 1991; 114 (6): 515-7. [Medline] 10. Argimon JM. El intervalo de confianza: algo ms que un valor de significacin estadstica. Med Clin (Barc) 2002; 118(10): 382-384. [Medline]
Investigacin: Clculo del poder estadstico de un estudio 5/7
www.fisterra.com Atencin Primaria en la Red Tabla 1. Posibles conclusiones tras una prueba estadstica de contraste de hiptesis. Resultado de la prueba
Asociacin o diferencia significativa Asociacin o diferencia no significativa Existe asociacin o diferencia No error (1- $ ) Error de tipo II ! Realidad No existe asociacin o diferencia Error de tipo I "
No error (1- " ) " = probabilidad de cometer un error de tipo I. ! = probabilidad de cometer un error de tipo II.
Tabla 2. Frmulas para el clculo del poder estadstico para diferentes tipos de diseo. Test unilateral Test bilateral Comparacin de dos proporciones & ' & ' & ' 2 2 1 1 1 2 1 1 1 1 1 2 p p p p p p z n p p z % ( % % % % # % % " $
& ' & ' & ' 2 2 1 1 2 1 2 1 1 1 1 1 2 p p p p p p z n p p z % ( % % % % # % % " $
Comparacin de dos media " $ % % % # 1 1 2 z S d n z
2 1 1 2 " $ % % % # z S d n z
Estimacin de un OR en estudios de casos y controles & ' 2 2 2 1 1 p OR p p OR p ) ( % ) #
& ' & ' & ' 2 2 1 1 1 2 1 1 1 1 1 ) 1 ( p p p p c p p c z nc p p z % ( % ) % ( % % # % % " $
n c m ) #
& ' 2 2 2 1 1 p OR p p OR p ) ( % ) #
& ' & ' & ' 2 2 1 1 2 1 2 1 1 1 1 1 ) 1 ( p p p p c p p c z nc p p z % ( % ) % ( % % # % % " $
n c m ) #
Estimacin de un RR 2 1 p RR p ) #
& ' & ' & ' 2 2 1 1 1 2 1 1 1 1 1 2 p p p p p p z n p p z % ( % % % % # % % " $
2 1 p RR p ) #
& ' & ' & ' 2 2 1 1 2 1 2 1 1 1 1 1 2 p p p p p p z n p p z % ( % % % % # % % " $
Estimacin de un coeficiente de correlacin lineal " $ % % % 0 1 2 3 4 5 % ( % # 1 1 1 1 ln 2 1 3 z r r n z
2 1 1 1 1 ln 2 1 3 " $ % % % 0 1 2 3 4 5 % ( % # z r r n z
! n = Tamao muestral. En un estudio de casos y controles, n es el nmero de casos. ! 1 p = En un estudio transversal o de cohortes, proporcin de expuestos que desarrollan la enfermedad. En un estudio de casos y controles, proporcin de casos expuestos. ! 2 p = En un estudio transversal o de cohortes, proporcin de no expuestos que desarrollan la enfermedad. En un estudio de casos y controles, proporcin de controles expuestos. ! 2 2 1 p p p ( #
! d = Valor mnimo de la diferencia a detectar entre dos medias ! S 2 = Varianza en el grupo control o de referencia Investigacin: Clculo del poder estadstico de un estudio 6/7
www.fisterra.com Atencin Primaria en la Red ! c = Nmero de controles por caso ! m = En un estudio de casos y controles, nmero de controles ! OR = Valor aproximado del odds ratio a detectar ! RR = Valor aproximado del riesgo relativo a detectar ! r = Magnitud del coeficiente de correlacin a detectar
Tabla 3. Valores de " % 1 z , 2 1 " % z y $ % 1 z ms frecuentemente utilizados.
Investigacin: Clculo del poder estadstico de un estudio 7/7
www.fisterra.com Atencin Primaria en la Red Figura 1. Poder estadstico en funcin del tamao muestral y la magnitud del efecto a detectar. Comparacin de dos proporciones p1 y p2. 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 0 50 100 150 200 250 300 350 400 450 500 Nmero de casos por grupo p1=40% p2=50% p1=40%; p2=55% p1=40%; p2=60%
Figura 2. Poder estadstico en funcin del tamao muestral y el nmero de controles por caso en un estudio de casos y controles. p2=40%; OR=2 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 0 50 100 150 200 250 300 350 400 450 500 Nmero de casos c=1 c=2 c=3 c=4 c=5