RESUMEN
El uso de pruebas de significacin estadstica es una estrategia que se encuentra muy arraigada en la investigacin psicolgica.
Sin embargo, se han sobrevalorado las bondades de dichas pruebas al considerarlas como un indicador suficiente de la
veracidad de una hiptesis, omitiendo la cuantificacin de las diferencias encontradas. As, las conclusiones resultan errneas
al homologar diferencia significativa con diferencia grande, importante o relevante. Dada la creciente importancia de los
indicadores del tamao del efecto y la potencia estadstica, en este artculo desarrollamos un breve marco conceptual del
anlisis estadstico de la potencia y el tamao del efecto, as como ejemplos prcticos de su clculo utilizando el programa
G*Power 3.1.6, para estimular y facilitar su inclusin en futuras publicaciones.
PALABRAS CLAVE: Inferencia estadstica, potencia estadstica, tamao del efecto.
ABSTRACT
The use of statistical significance test is deeply rooted in psychological research. However, it has been on estimating the
benefits of such tests considering itself a sufficient indicator of the accuracy of a hypothesis. It has tended to ignore the
quantification of the differences found and has tended to draw the wrong conclusions to approve significant difference with
"large", important or "relevant" difference. Given the increasing importance of indicators of effect size and statistical
power, in this article we provide a brief conceptual framework of the statistical analysis of the power and effect size and
practical examples of its calculation using the program G * Power 3.1.6 to help alleviate the lack of many researchers of how to
perform such analyzes
KEY WORDS: Statistical inference, statistical power analysis, effect size.
| SALUD & SOCIEDAD | V. 5 | No. 2 | PP. 210 224 | MAYO - AGOSTO | 2014 | ISSN 0718-7475 |
MANUEL CRDENAS CASTRO HCTOR ARANCIBIA MARTINI
FIGURA 1.
Posibilidades de error en pruebas de significacin estadstica (Lipsey, 1990).
En la Figura 1 podemos ver graficadas falsa (=.20). Se estima que un valor inferior
las opciones de acierto y error en las implicara un riego demasiado grande de
pruebas de significacin estadstica cuando incurrir en un error Tipo II. Un valor superior,
se comparan los estadsticos obtenidos en como se ver ms adelante, implicara
la muestra con los parmetros ampliar excesivamente la muestra. As, la
poblacionales. La potencia estadstica potencia estadstica constituye un ndice de
esperada convencionalmente para un la validez de nuestros resultados
anlisis es del 80% (1-=.80). Es decir, estadsticos (Cohen, 1992; Bono & Arnau
existe un 20% de probabilidad de aceptar la Gras, 1995).
hiptesis nula cuando esta es en realidad
Relacin entre potencia estadstica y tamao del segunda y la tercera slo es respondida
efecto mediante un criterio de relevancia clnica.
La potencia estadstica (PE) se calcula Entre las crticas que ms se han hecho
sobre la base de tres cifras: tamao de la sentir estn las que indican que por s
muestra (n), nivel de error () y tamao del mismas, las pruebas de significacin
efecto (TE). En trminos generales estadsticas constituyen una pobre
podemos afirmar que cuanto mayor sea la estrategia cientfica (Meehl, 1978; Cohen,
muestra, mayor ser la potencia estadstica 1994; Thompson & Snyder, 1997), ya que
(manteniendo constante el TE y ), dado su nfasis es poco informativo, dado que
que el error aleatorio de medida es menor con un nmero suficiente de casos y con
(Lipsey, 1990; Cohen, 1988). El tamao del medidas medianamente fiables la hiptesis
efecto representa el grado en que la nula siempre ser falseable, al margen de la
hiptesis nula es falsa. Cuando el TE es verdad o falsedad de la teora sustantiva.
grande la PE aumenta (Cohen, 1988, 1992). Un valor elevado en una prueba de
Al incrementar el error de Tipo I la potencia contraste de hiptesis slo indica que la
tambin aumenta y cuanto ms pequeo es probabilidad de que las diferencias
el valor de , ms baja ser la potencia. Es detectadas debidas al azar sea muy alta.
por ello que debe equilibrarse la Nada nos indica del tamao de dichas
probabilidad de cometer errores de Tipo I y diferencias, por lo que valores muy altos o
II (Sedlmeier & Gigerenzer, 1989). muy bajos de no deberan interpretarse
jams en sentido de diferencias/ no
Estimar el tamao del efecto, que responde diferencias importantes. Por otra parte,
a la magnitud de las diferencias adoptar un nivel de confianza fijo para el
encontradas en el estudio, y la potencia rechazo de hiptesis transforma en una
estadstica, que responde al grado de decisin dicotmica lo que en realidad es un
validez que tienen los hallazgos de la continuo de incertidumbre (Kirk, 1996). As,
investigacin, es importante y constituye confiar en la significacin estadstica como
cada vez ms una exigencia debido a si fuera un ndice de certeza es incorrecto,
razones ticas y tcnicas (Cohen, 1998; ya que el nivel de significacin no informa
Grissom & Kim, 2012; Murphy, Myors, & sobre la magnitud de las diferencias ni
Wolach 2009; Nickerson, 2000). ticas ya sobre su importancia prctica (Cohen &
que no resulta correcto realizar estudios que Hyman, 1979).
no sean lo suficientemente estrictos para
determinar el efecto real de un tratamiento El clculo del TE es un anlisis
debido a su falta de potencia. Tcnicamente complementario de las pruebas de
tampoco sera apropiado dado el derroche significacin que contribuye a subsanar las
de recursos que implica reclutar ms limitaciones anteriormente expuestas. El
participantes de los necesarios para lograr efecto refiere al resultado de un
verificar los objetivos del estudio. tratamiento experimental. El tamao del
efecto es la diferencia ms pequea que el
Crticas a las pruebas de significacin y investigador est dispuesto a aceptar como
potencia estadstica clnicamente relevante (Prajapati, Dunne, &
Armstrong, 2010) y nos indica cunto de la
Al realizar el contraste de hiptesis se variable dependiente se puede explicar,
deberan responder tres preguntas bsicas: predecir o controlar por la variable
Podemos afirmar que hay diferencia? Es independiente (Snyder & Lawson, 1993). De
grande la diferencia? Es importante la otro modo, informa el grado en que la
diferencia? Las pruebas de significacin nos hiptesis nula es falsa y lo hace mediante
permiten responder tan slo a la primera. El un ndice en una mtrica comn que indica
tamao del efecto permite dar cuenta de la
213 SALUD & SOCIEDAD | V. 5 | No. 2 | MAYO - AGOSTO | 2014
Potencia Estadstica y Clculo del Tamao del Efecto en G*Power:
Complementos a las Pruebas de Significacin estadstica y su aplicacin en psicologa
FIGURA 2.
ndices y frmulas para el clculo del tamao del efecto.
El clculo de los tamaos del efecto permite Interpretacin de los ndices del tamao del
interpretar las diferencias encontradas y efecto
compararlas de un estudio a otro
independientemente de las variaciones de La interpretacin de los ndices del tamao
diseo o de las diferencias del tamao del efecto se presenta en la Figura 3. En
muestral. De all la relevancia que estos ella se sealan los valores referenciales
ndices tienen en los estudios de meta- para las principales pruebas estadsticas
anlisis cuyo fin es sistematizar la incluidas en las familias de ndices antes
informacin disponible en un determinado referidas.
campo.
SALUD & SOCIEDAD | V. 5 | No. 2 | MAYO - AGOSTO | 2014 214
MANUEL CRDENAS CASTRO HCTOR ARANCIBIA MARTINI
FIGURA 4.
Pruebas t para muestras independientes: Clculo del tamao del efecto y la potencia estadstica en
G*Power (anlisis post-hoc).
El estadstico f para el caso de comparacin de estadstico indica que el grupo que reporta
medias en ms de dos grupos mayores puntuaciones es el de aquellos que
accedieron y terminaron su tratamiento
El anlisis caracterstico utilizado para (M=3.79; DT=1.02), seguido de aquellos
analizar la comparacin de medias en ms que lo discontinuaron (M=3.09; DT=1.16).
de dos grupos corresponde al anlisis de Las puntuaciones ms bajas las obtuvieron
varianza (ANOVA) de un factor. A modo de las personas que no tuvieron tratamiento
ejemplo comparamos las puntuaciones de (M=2.68; DT=1.27). De acuerdo al ANOVA
tres grupos. El primero estaba formado por realizado, diferencias entre grupos fueron
personas que accedieron a servicios significativas estadsticamente (F(2,
psicolgicos (n=160); el segundo por 677)=45.50; p=.000; IC95% [2.88, 2.08]). Los
personas que, habiendo accedido, anlisis post hoc (Tukey) tambin indicaron
abandonaron tempranamente el tratamiento que las medias de los tres grupos diferan
(n=220); y tercero a personas que no significativamente entre s.
solicitaron dicha ayuda (n=300). El anlisis
FIGURA 5.
ANOVA de un factor: Clculo del tamao del efecto y la potencia estadstica en G*Power (anlisis post-
hoc).
En la Figura 5 se presentan los pasos para es casi inexistente y que la magnitud de las
obtener el valor de f en G*Power. Los diferencias entre las medias de los grupos
resultados indican que para estos anlisis la es alta.
probabilidad de cometer un error de Tipo II
El estadstico f para el anlisis de varianza hiptesis para cada una de ellas). Los pasos
factorial para el clculo de TE y PE en G*Power se
pueden realizar directamente sobre el valor
Los resultados del paquete estadstico de eta-cuadrado parcial (Figura 3). En el
SPSS para este tipo de anlisis permiten ejemplo, dicha interaccin no es significativa
obtener un ndice del tamao del efecto y la proporcin de varianza explicada por
denominado eta cuadrado parcial ( ). Este Eta es extremadamente baja (F(2, 674)=.98;
se interpreta como proporcin de varianza p=.37; 2=.003) por lo que no es esperable
de la variable dependiente que es explicada encontrar un valor de f importante. La nica
por las variables predictoras o precisin que se debe hacer es sobre la
independientes. Siguiendo con el ejemplo introduccin de los grados de libertad en la
antes expuesto, para calcular el tamao del ventana principal de G*Power y que
efecto se segment la muestra por las corresponde al valor que se muestra frente
variables sexo (hombre/mujer) y grado de a cada variable e interaccin en la salida del
acceso a servicios psicolgicos (atencin programa SPSS (generalmente corresponde
continuada/ atencin discontinuada/ sin al nmero de dimensiones de cada variable
atencin). En realidad podramos calcular menos uno, salvo para el caso de las
los tamaos del efecto para cada una de las interacciones).
variables, as como para la interaccin (del
mismo modo que se realiza un contraste de
FIGURA 6.
ANOVA factorial: Clculo del tamao del efecto y la potencia estadstica en G*Power (anlisis post-hoc).
Los anlisis que hemos realizado ratifican El estadstico f2 para el caso de mltiples
un tamao del efecto bajo y agregan variables predictoras
informacin relevante sobre la potencia
estadstica de la prueba. Hemos afirmado El estadstico f2 es utilizado en caso de
que la convencin indica que la potencia procedimientos de regresin lineal mltiple y
debe ser superior al 80%, o de lo contrario se estima a partir del coeficiente de
la validez del diseo puede ser puesta en regresin al cuadrado (R2). Es, como en el
duda. En este caso el ANOVA indica que no caso anterior, una transformacin desde un
existe efecto de interaccin significativo ndice que cuantifica la proporcin de
entre variables y el valor del tamao del varianza de la variable dependiente que es
efecto (f) viene a confirmar este resultado. explicado por el conjunto de las variables
En el hipottico caso de que la prueba de predictoras. A partir de su clculo se puede
significacin hubiese entregado valores definir, sobre la base de su comparacin
p<.05 habra que ser muy cautos al con unos valores referenciales
momento de extraer conclusiones si el consensuados, si el tamao del efecto
tamao del efecto fuera de la magnitud puede ser considerado alto, medio o bajo. El
encontrada. procedimiento de clculo en G*Power
(Figura 7) es extremadamente simple si se
trabaja de forma directa con el valor de R2
parcial (se puede obtener con el anlisis de
regresin mltiple realizado en SPSS).
FIGURA 7.
Regresin multiple: Clculo del tamao del efecto y la potencia estadstica en G*Power (anlisis post-
hoc).
El ejemplo anterior informa que, en conjunto, mujeres, con el reporte de niveles altos,
las trece hipotticas variables predictoras moderados o bajos de crecimiento post
incorporadas en el modelo explican el 45% de traumtico. Para el caso de matrices
la varianza total de la variable dependiente cuadradas (variables dicotmicas) SPSS
(niveles de crecimiento post traumticos entrega el valor de los coeficientes Phi, que
reportados). El valor del tamao del efecto f2= adopta valores entre 0 y 1, y su interpretacin
.81. Se trata de un valor alto que indica que el es similar al coeficiente de correlacin de
efecto de las variables incorporadas en el Pearson. En el caso de que una de las
modelo es sustantivo. Tambin informa de la variables tenga ms de dos niveles (como en
potencia estadstica y de la muy baja nuestro ejemplo), phi puede tomar valores
posibilidad de cometer un error de Tipo II (la superiores a 1 (pues el valor X2 puede ser
grfica muestra como las distribuciones se mayor que el tamao muestral). Aunque este
encuentran totalmente separadas y que la valor de phi debera ser suficiente para
posibilidad de un error est muy alejada de cuantificar el efecto encontrado, en la Figura 8
nuestra curva de la distribucin muestral). se muestra cmo realizar el clculo del ndice
w, para lo cual ser necesario fijarse en los
Con los ejemplos anteriores hemos valores observados de las frecuencias
presentado los anlisis ms tpicos en las esperadas y observadas de la tabla de
familias de diferencias estandarizadas e contingencia, los cuales deben ser
ndices de correlacin. Si bien, se suele transformados en proporciones (simplemente
incorporar en esta familia el clculo del dividindolos por el tamao total de la
coeficiente Chi-cuadrado, lo presentaremos muestra).
como un ejemplo de ndices para tablas de
contingencia (aunque tradicionalmente aqu Para el caso de nuestro ejemplo los
deberan expresarse tambin los ndices de resultados obtenidos nos indican que no
riesgo relativo y odds ratios). existe asociacin entre las variables
(X2(2)=4.69; p=.09; Phi=.08). Es decir, el
ndice w para coeficiente de asociacin en reporte de niveles altos, medios o bajos de
tablas de contingencia crecimiento post traumtico no se relaciona
Se trata de un ndice de tamao del efecto con el sexo de quien responde. Como
para pruebas de asociacin, tpicamente Chi- podemos apreciar el valor del tamao del
cuadrado (X2). Para ejemplificar mediante efecto obtenido es w=.08, similar el
G*Power hemos contrastado la hiptesis de coeficiente phi que entrega SPSS.
que no existen diferencias entre hombres y
FIGURA 8.
Chi-cuadrado: Clculo del tamao del efecto y la potencia estadstica en G*Power (anlisis post-hoc).
Vemos tambin que con una probabilidad Las pruebas de significacin estn lejos
de =.05, n=680 y w=.08, la potencia de ser un ndice de certeza y constituyen un
estadstica apenas es de 1-=.36, lo que criterio pobre para aceptar o rechazar
indicara que existe una alta probabilidad resultados de investigacin. De hecho, la
(64%) de cometer errores de tipo II si se falta de significacin no significa que la
rechaza la hiptesis nula. hiptesis nula sea verdadera ni que los
efectos de los dos grupos sean
DISCUSIN equivalentes. La ausencia de evidencia
nunca es evidencia de ausencia de efectos
La estrategia de significacin estadstica y (Altman & Bland, 1995).
rechazo de hiptesis nula es probablemente
una de las ms arraigadas en investigacin Cualquier prueba de significacin
en psicologa. Resulta sumamente llamativo estadstica que no vaya acompaada de un
que los investigadores y publicaciones clculo del tamao del efecto carece de los
hayan transformado este procedimiento en parmetros necesarios para juzgar la
la estrategia cientfica privilegiada en la importancia del hallazgo. De otro modo, lo
investigacin en psicologa, dada la acotada que hacemos al rechazar una hiptesis
informacin que es capaz de ofrecer. nula, particularmente en el caso de la
comparacin de medias, es afirmar que
La ritualizada prctica de entregar la existe una diferencia. Mientras ms baja sea
significacin estadstica de los contrastes, la probabilidad asociada y mayor el valor del
sin especificar el tamao del efecto o la estadstico de contraste, ms probable ser
lateralidad del contraste, conduce la mayor que la diferencia de medias sea distinta de
parte de las veces a predicciones triviales. cero. Eso s, nada hemos dicho de la
As, se construye todo un andamiaje terico magnitud ni de la importancia de dicha
que termina por sobre valorar hallazgos y diferencia. Es decir, hemos afirmado con
por anidar resultados contradictorios, que bastante confianza que las medias son
podran haber sido resueltos con facilidad, si diferentes (la diferencia sera mayor de lo
el nivel de las exigencias se elevara puramente aleatorio), pero Cun grande e
mnimamente siguiendo las importante es dicha diferencia? Esta es una
recomendaciones que desde hace mucho pregunta que no es posible contestar sin
viene haciendo la APA sobre los resultados recurrir a un anlisis del tamao del efecto.
referidos a pruebas de significacin. Aun
hoy esta exigencia sigue siendo relevante En este artculo pretendemos contribuir a
pues observamos cmo cada da ms subsanar algunas de las deficiencias de la
sofisticados anlisis estadsticos de datos investigacin psicolgica, particularmente
se utilizan como criterio de verdad o aquellas referidas a vacos de formacin
relevancia. En este sentido debemos seguir terica, a problemas de acceso a programas
buscando la significacin prctica y no estadsticos apropiados y de ejecucin
nicamente una de carcter estadstico ya prctica de los anlisis. La facilidad
que casi todas las hiptesis nulas pueden proverbial con la que puede ser subsanada
eventualmente ser rechazadas con la omisin del clculo del tamao del efecto
muestras suficientemente amplias, no y la potencia estadstica es evidente y hoy
pudindose afirmar entonces que dichos en da no existen excusas para no
hallazgos resulten importantes ni dar informarlas.
cuenta sobre la magnitud de dichas
diferencias. Esto ms bien llevara a Aunque nosotros hemos mostrado las
confundir sistemticamente una diferencia posibilidades del clculo post-hoc de la
estadsticamente significativa con una potencia de un contraste, esta debera
diferencia relevante. preferentemente plantearse a priori ya que
de la otra forma nada puede hacerse contra exposicin y discusin terica que hemos
los problemas de diseo que ya se hayan podido hacer del tema, asunto que hemos
cometido. Abordar la potencia desde intentado subsanar por la va de remitir a la
clculos a priori ayuda a orientar el diseo y bibliografa primaria sobre esta discusin.
a definir el tamao muestral de cada grupo Lo segundo es la perspectiva y ejemplos
en referencia a los valores medios del limitados al anlisis post hoc del tamao del
tamao del efecto obtenidos en otros efecto. Una presentacin de los clculos a
estudios (los cuales nos obliga a conocer de priori sigue siendo necesaria debido a que
antemano). En cualquier caso, debemos es en el momento del diseo donde se
tener en consideracin que las violaciones puede asegurar una adecuada potencia (los
del supuesto de aleatoriedad de la muestra casos que presentamos slo sirven para
son recurrentes y deberan marcar un claro verificarla una vez concluido el estudio, y no
lmite a la generalizacin de nuestros para asegurarla).
hallazgos dada su escasa representatividad.
La preocupacin de la potencia est
ntimamente vinculada al error de medida y
nos obliga a procurar que la fiabilidad de los
instrumentos utilizados quede debidamente
verificada. An es posible ver como se usan
instrumentos sin acompaarlos del reporte
de la fiabilidad o sin entregar indicaciones
de su validez para la muestra en la que se
utilizan.