Anda di halaman 1dari 15

POTENCIA ESTADSTICA Y CLCULO DEL TAMAO DEL EFECTO EN

G*POWER: COMPLEMENTOS A LAS PRUEBAS DE SIGNIFICACIN


ESTADSTICA Y SU APLICACIN EN PSICOLOGA
STATISTICAL POWER AND EFFECT SIZE CALCULATING IN G*POWER:
COMPLEMENTARY ANALYSIS OF STATISTICAL SIGNIFICANCE TESTING AND ITS
APPLICATION IN PSYCHOLOGY

Recibido: 16 de Junio del 2014 | Aceptado: 08 de Agosto del 2014

MANUEL CRDENAS CASTRO1; HCTOR ARANCIBIA MARTINI2


(UNIVERSIDAD DE VALPARASO, Valparaso, Chile)

RESUMEN
El uso de pruebas de significacin estadstica es una estrategia que se encuentra muy arraigada en la investigacin psicolgica.
Sin embargo, se han sobrevalorado las bondades de dichas pruebas al considerarlas como un indicador suficiente de la
veracidad de una hiptesis, omitiendo la cuantificacin de las diferencias encontradas. As, las conclusiones resultan errneas
al homologar diferencia significativa con diferencia grande, importante o relevante. Dada la creciente importancia de los
indicadores del tamao del efecto y la potencia estadstica, en este artculo desarrollamos un breve marco conceptual del
anlisis estadstico de la potencia y el tamao del efecto, as como ejemplos prcticos de su clculo utilizando el programa
G*Power 3.1.6, para estimular y facilitar su inclusin en futuras publicaciones.
PALABRAS CLAVE: Inferencia estadstica, potencia estadstica, tamao del efecto.

ABSTRACT
The use of statistical significance test is deeply rooted in psychological research. However, it has been on estimating the
benefits of such tests considering itself a sufficient indicator of the accuracy of a hypothesis. It has tended to ignore the
quantification of the differences found and has tended to draw the wrong conclusions to approve significant difference with
"large", important or "relevant" difference. Given the increasing importance of indicators of effect size and statistical
power, in this article we provide a brief conceptual framework of the statistical analysis of the power and effect size and
practical examples of its calculation using the program G * Power 3.1.6 to help alleviate the lack of many researchers of how to
perform such analyzes
KEY WORDS: Statistical inference, statistical power analysis, effect size.

1. Afiliado a la Universidad de Valparaso, Chile E-mail: manuel.cardenas@uv.cl


2. Afiliado a la Universidad Autnoma de Madrid, Espaa. E-mail: ps.arancibia@gmail.com

| SALUD & SOCIEDAD | V. 5 | No. 2 | PP. 210 224 | MAYO - AGOSTO | 2014 | ISSN 0718-7475 |
MANUEL CRDENAS CASTRO HCTOR ARANCIBIA MARTINI

Entre las recomendaciones que ya hace denominados errores de tipo II (falsos


bastante tiempo ha venido realizando la negativos) que constituyen la prueba ms
American Psychological Association (APA, relevante de la validez de nuestro diseo de
1994, 2008, 2011) se encuentra a) la estudio.
utilizacin como prctica habitual de los
intervalos de confianza (IC; lmites Aunque diversas razones explican estas
probables entre los que se encuentra la omisiones dos de ellas son fundamentales:
verdadera diferencia entre dos medias); b) a) la ausencia en los paquetes estadsticos
la exposicin de los valores de las medias y de mayor uso de mdulos para su
desviaciones tpicas (DT) de cada grupo; c) valoracin y, b) la falta de exigencias
la entrega de los valores exactos de editoriales para su inclusin como
probabilidad (y no los tradicionales p<.05 informacin imprescindible (Vacha-Haase,
p<.01); d) informar la potencia estadstica Nilsson, Reetz, Lance, & Thompson, 2000).
de la prueba o diseo utilizado; y d) realizar
el clculo complementario del tamao del En el diseo de la investigacin debiese
efecto que cuantifica la magnitud de la considerarse el tamao de la muestra y la
diferencia entre dos medias (Wilkinson, potencia estadstica que lograramos con
1999). Lo cierto es que hasta la fecha buena ella. No obstante, en aquellos estudios
parte de estas recomendaciones no son donde dicho paso ha sido omitido resulta
consideradas. importante al menos exigir el clculo y
especificacin del tamao del efecto como
Actualmente parte importante de las estrategia de anlisis post-hoc. Aunque esta
revistas cientficas en psicologa publican prctica ha sido cuestionada (la de realizar
artculos que no informan del tamao del clculos post hoc), dado que no permite
efecto y omiten sistemticamente los planear apropiadamente el estudio ni
clculos del tamao de la muestra y la corregir los errores de diseo, acompaar
potencia estadstica del diseo (Bezeau & las pruebas de significacin con la
Graves, 2001; Crosby et al., 2008; Fidler, cuantificacin de la magnitud del efecto
2002; Garca, Ortega & De la Fuente, 2008; alcanzado permite, al menos, comprender
Kirk, 1996; Vacha-Haaze & Ness, 1999; adecuadamente los resultados de dichos
Vacha-Haaze & Thompson, 1998). Estas anlisis.
omisiones ponen en cuestin la credibilidad
de los hallazgos que puedan derivarse de As, el objetivo de este artculo es doble.
dichos estudios y representan, en el decir Primero demostrar la relevancia de la
de algunos de los ms reputados inclusin de estas estrategias, y,
especialistas del rea, una de las mayores complementariamente, explicar paso a paso
muestras de ignorancia colectiva (Cohen, la manera de calcularlos para cada una de
1988). las principales pruebas de significacin
estadstica empleadas en el campo de la
La ausencia de cuantificadores del psicologa, utilizando el software de
tamao del efecto lleva a tomar decisiones distribucin gratuita G*Power (disponible
fundadas en el desconocimiento de una desde enero del 2007 en la v. 3.0.0.).
parte importante de la informacin, aquella
que cuantifica la magnitud de los efectos Pruebas de hiptesis, sensibilidad y potencia de
encontrados (e.g. estaramos dispuestos a la significacin estadstica
aceptar como dato suficiente la significacin
de las correlaciones sin su respectivo ndice Se entiende por sensibilidad de una prueba
de magnitud?). Del mismo modo, la a su capacidad para detectar diferencias o
ausencia de informacin sobre la potencia efectos all donde los haya y potencia
de los diseos elude hacerse cargo de los estadstica al grado de probabilidad de
rechazar una hiptesis nula cuando esta es
211 SALUD & SOCIEDAD | V. 5 | No. 2 | MAYO - AGOSTO | 2014
Potencia Estadstica y Clculo del Tamao del Efecto en G*Power:
Complementos a las Pruebas de Significacin estadstica y su aplicacin en psicologa

realmente falsa, es decir, a la capacidad de nula se rechaza si la probabilidad es igual o


una prueba para detectar diferencias entre menor al nivel alfa que hemos fijado a priori.
grupos cuando estas estn presentes. Por
su parte, las pruebas de contraste de Este proceso de decisin puede
hiptesis determinan si la hiptesis nula, conducir, sin embargo, a dos potenciales
que se plantea en trminos de no- errores (Figura 1). El error Tipo I (falsos
diferencias o no-relacin, puede ser positivos) consiste en la probabilidad () de
rechazada con cierto nivel de confianza o si, rechazar una hiptesis nula que es en
por el contrario, debe ser mantenida. Si se realidad verdadera asumiendo
rechaza se asume que la diferencia errneamente que el tratamiento ha
detectada por un tratamiento no es producido un efecto, y el error Tipo II (falsos
atribuible al azar o no ha ocurrido por mera negativos) que consiste en la probabilidad
casualidad, aceptndose que ha producido (definida como ) de mantener una hiptesis
un efecto real. Para dicho rechazo se nula que en realidad es falsa asumiendo
recurre a una convencin, que aunque no que no existen efectos de tratamiento
exenta de importantes cuestionamientos cuando en realidad s los hay. De este
(Morrison & Henkel, 2006), fija el nivel de modo, la potencia estadstica de una prueba
confianza de la estimacin en el campo de no es sino el complemento de la
la psicologa en =0.05 (p<0.05; que probabilidad de error de tipo II (1-). En
corresponde a un 5% de error). La hiptesis ambos casos hay una falta de sensibilidad
de la prueba de significacin.

FIGURA 1.
Posibilidades de error en pruebas de significacin estadstica (Lipsey, 1990).

En la Figura 1 podemos ver graficadas falsa (=.20). Se estima que un valor inferior
las opciones de acierto y error en las implicara un riego demasiado grande de
pruebas de significacin estadstica cuando incurrir en un error Tipo II. Un valor superior,
se comparan los estadsticos obtenidos en como se ver ms adelante, implicara
la muestra con los parmetros ampliar excesivamente la muestra. As, la
poblacionales. La potencia estadstica potencia estadstica constituye un ndice de
esperada convencionalmente para un la validez de nuestros resultados
anlisis es del 80% (1-=.80). Es decir, estadsticos (Cohen, 1992; Bono & Arnau
existe un 20% de probabilidad de aceptar la Gras, 1995).
hiptesis nula cuando esta es en realidad

SALUD & SOCIEDAD | V. 5 | No. 2 | MAYO - AGOSTO | 2014 212


MANUEL CRDENAS CASTRO HCTOR ARANCIBIA MARTINI

Relacin entre potencia estadstica y tamao del segunda y la tercera slo es respondida
efecto mediante un criterio de relevancia clnica.

La potencia estadstica (PE) se calcula Entre las crticas que ms se han hecho
sobre la base de tres cifras: tamao de la sentir estn las que indican que por s
muestra (n), nivel de error () y tamao del mismas, las pruebas de significacin
efecto (TE). En trminos generales estadsticas constituyen una pobre
podemos afirmar que cuanto mayor sea la estrategia cientfica (Meehl, 1978; Cohen,
muestra, mayor ser la potencia estadstica 1994; Thompson & Snyder, 1997), ya que
(manteniendo constante el TE y ), dado su nfasis es poco informativo, dado que
que el error aleatorio de medida es menor con un nmero suficiente de casos y con
(Lipsey, 1990; Cohen, 1988). El tamao del medidas medianamente fiables la hiptesis
efecto representa el grado en que la nula siempre ser falseable, al margen de la
hiptesis nula es falsa. Cuando el TE es verdad o falsedad de la teora sustantiva.
grande la PE aumenta (Cohen, 1988, 1992). Un valor elevado en una prueba de
Al incrementar el error de Tipo I la potencia contraste de hiptesis slo indica que la
tambin aumenta y cuanto ms pequeo es probabilidad de que las diferencias
el valor de , ms baja ser la potencia. Es detectadas debidas al azar sea muy alta.
por ello que debe equilibrarse la Nada nos indica del tamao de dichas
probabilidad de cometer errores de Tipo I y diferencias, por lo que valores muy altos o
II (Sedlmeier & Gigerenzer, 1989). muy bajos de no deberan interpretarse
jams en sentido de diferencias/ no
Estimar el tamao del efecto, que responde diferencias importantes. Por otra parte,
a la magnitud de las diferencias adoptar un nivel de confianza fijo para el
encontradas en el estudio, y la potencia rechazo de hiptesis transforma en una
estadstica, que responde al grado de decisin dicotmica lo que en realidad es un
validez que tienen los hallazgos de la continuo de incertidumbre (Kirk, 1996). As,
investigacin, es importante y constituye confiar en la significacin estadstica como
cada vez ms una exigencia debido a si fuera un ndice de certeza es incorrecto,
razones ticas y tcnicas (Cohen, 1998; ya que el nivel de significacin no informa
Grissom & Kim, 2012; Murphy, Myors, & sobre la magnitud de las diferencias ni
Wolach 2009; Nickerson, 2000). ticas ya sobre su importancia prctica (Cohen &
que no resulta correcto realizar estudios que Hyman, 1979).
no sean lo suficientemente estrictos para
determinar el efecto real de un tratamiento El clculo del TE es un anlisis
debido a su falta de potencia. Tcnicamente complementario de las pruebas de
tampoco sera apropiado dado el derroche significacin que contribuye a subsanar las
de recursos que implica reclutar ms limitaciones anteriormente expuestas. El
participantes de los necesarios para lograr efecto refiere al resultado de un
verificar los objetivos del estudio. tratamiento experimental. El tamao del
efecto es la diferencia ms pequea que el
Crticas a las pruebas de significacin y investigador est dispuesto a aceptar como
potencia estadstica clnicamente relevante (Prajapati, Dunne, &
Armstrong, 2010) y nos indica cunto de la
Al realizar el contraste de hiptesis se variable dependiente se puede explicar,
deberan responder tres preguntas bsicas: predecir o controlar por la variable
Podemos afirmar que hay diferencia? Es independiente (Snyder & Lawson, 1993). De
grande la diferencia? Es importante la otro modo, informa el grado en que la
diferencia? Las pruebas de significacin nos hiptesis nula es falsa y lo hace mediante
permiten responder tan slo a la primera. El un ndice en una mtrica comn que indica
tamao del efecto permite dar cuenta de la
213 SALUD & SOCIEDAD | V. 5 | No. 2 | MAYO - AGOSTO | 2014
Potencia Estadstica y Clculo del Tamao del Efecto en G*Power:
Complementos a las Pruebas de Significacin estadstica y su aplicacin en psicologa

la magnitud de una relacin o efecto compararlas con los resultados obtenidos


(Cohen, 1988). Una diferencia significativa en otros estudios, con independencia del
no es una diferencia necesariamente grande tamao de las muestras utilizadas en ellos.
o importante, para ello se debe cuantificar la Los coeficientes de correlacin (Furr, 2004)
magnitud de dicha diferencia significativa incluyen los ndices que expresan el grado
(Grissom & Kim, 2012). de asociacin existente entre dos variables,
as como las que expresan la proporcin de
Familias, ndices y frmulas para el clculo del varianza explicada. Los ndices de riesgo
tamao del efecto para tablas de contingencia (Kline, 2004)
cuantifican la asociacin entre variables
Se distinguen en la literatura tres familias de nominales dicotmicas, proporcionando una
ndices del tamao del efecto: diferencias estimacin de la proporcin de sujetos que
estandarizadas de medias, coeficientes de experimentan un determinado resultado. En
correlacin e ndices de riesgo para tablas la Figura 2 se presentan los ndices del
de contingencia. Las diferencias tamao del efecto ms habituales dentro de
estandarizadas de medias (Cohen, 1988) cada familia, adems de su respectiva
sealan el grado de diferencia entre dos frmula.
medias en un lenguaje que permite

FIGURA 2.
ndices y frmulas para el clculo del tamao del efecto.

El clculo de los tamaos del efecto permite Interpretacin de los ndices del tamao del
interpretar las diferencias encontradas y efecto
compararlas de un estudio a otro
independientemente de las variaciones de La interpretacin de los ndices del tamao
diseo o de las diferencias del tamao del efecto se presenta en la Figura 3. En
muestral. De all la relevancia que estos ella se sealan los valores referenciales
ndices tienen en los estudios de meta- para las principales pruebas estadsticas
anlisis cuyo fin es sistematizar la incluidas en las familias de ndices antes
informacin disponible en un determinado referidas.
campo.
SALUD & SOCIEDAD | V. 5 | No. 2 | MAYO - AGOSTO | 2014 214
MANUEL CRDENAS CASTRO HCTOR ARANCIBIA MARTINI

FIGURA 3. Clculo del tamao del efecto utilizando


Valores referenciales para el tamao del efecto G*Power v. 3.1.6
de las diferentes pruebas de significacin
estadstica. G*Power es un programa estadstico, de
descarga gratuita, diseado para realizar
estimaciones de la potencia estadstica y del
tamao del efecto (Erdfelder, Faul, &
Buchner, 1996; Faul, Erdfelder, Lang, &
Buchner, 2007). El programa requiere de un
procesador con una velocidad mnima de
2.46 Mb y puede ser descargado
gratuitamente en el sitio web de los autores:
http://www.psycho.uni-
Si bien se trata de valores consensuados, duesseldorf.de/abteilungen/aap/gpower3/.
se espera que la magnitud de la diferencia Permite realizar los tradicionales anlisis a
sea interpretada por el investigador de priori (calcula el n muestral apropiado para
acuerdo a los resultados obtenidos y a la alcanzar una determinada potencia con un
evidencia existente. En cualquier caso, la determinado TE y ) y post hoc (dnde las
valoracin de los tamaos del efecto puede estimaciones de la PE, el Error Standard
hacerse de diversas formas: interpretacin (ES) y TE realizan en diseos ya
del valor absoluto, del valor relativo y terminados) de estimacin de la potencia de
valoracin de coste-beneficio. El valor una prueba, pero tambin entrega anlisis
absoluto remite a la tabla presentada y que de compromiso (calcula y PE cuando los
es construida sobre la base de los otros dos trminos son conocidos),
percentiles a los que cada punto de corte sensitividad (estima cul es el efecto
remite. Un valor del tamao del efecto d=.30 mnimo que la prueba es sensible para
indicara que al compararlo con las tablas, el detectar) y criterio (calcula el necesario
62% de las personas quedara por debajo para lograr una determinada PE cuando n y
de dicho resultado. El valor relativo se TE son conocidos). En sntesis, el programa
relaciona con la relevancia prctica al dar permite realizar diversos clculos tales
cuenta de la comparacin con los valores como el del tamao del efecto, de la
encontrados en otros estudios similares. potencia esperada de un test, de la muestra
Finalmente, la valoracin de coste-beneficio necesaria para lograr una determinada
se refiere a la importancia que pequeos potencia, y permite verificar la significacin
tamaos de efecto encontrados pudiesen respecto de las posibilidades reales del
tener cuando sus costes de implementacin estudio.
no son elevados.
En los apartados siguientes se
Ahora bien, el clculo del TE tambin ejemplificar el clculo de TE y PE mediante
resulta importante en algunos casos en que pruebas t para muestras independientes
las pruebas de significacin no muestran (familia de diferencia de medias
resultados significativos. Por ejemplo la estandarizadas). Posteriormente
posible falta de significacin podra deberse revisaremos ejemplos de las familias de
al tamao muestral en investigaciones que correlaciones (ANOVAS de un factor y
consideren pocos participantes. Esta es sin factorial, as como regresin lineal mltiple)
duda una razn fundamental para estimar el y de ndices de riesgo para tablas de
tamao muestral necesario para detectar las contingencia (Chi-cuadrado). Todos los
posibles diferencias. anlisis previos fueron realizados utilizando
el paquete estadstico SPSS v. 20.0.

El ndice d para el caso de dos medias independientes


215 SALUD & SOCIEDAD | V. 5 | No. 2 | MAYO - AGOSTO | 2014
Potencia Estadstica y Clculo del Tamao del Efecto en G*Power:
Complementos a las Pruebas de Significacin estadstica y su aplicacin en psicologa

Para ejemplificar los procedimientos principio, slo son permisibles cuando


utilizados se utilizaron las puntuaciones de conocemos el sentido de las diferencias que
un inventario sobre crecimiento post se quieren detectar.
traumtico en dos grupos de personas
afectadas por eventos estresantes en los En el ejemplo que analizamos se aprecia
ltimos seis meses. A estas personas se les que el tamao del efecto (d=.27) puede ser
peda que evaluaran la percepcin de considerado mediano ya que se encuentra
cambios o mejoras en su vida fruto del en torno a .30 que es el valor fijado
esfuerzo cognitivo por adaptarse a los convencionalmente. El nico clculo en que
acontecimientos estresantes. El grupo de debemos incurrir para el caso en que las
personas que accedieron a ayuda muestras sean de tamao diferente es la
psicolgica (n=160; M=3.15 y DT=.94) desviacin tpica comn (ver Tabla 2). La
puntu significativamente ms alto que el potencia estadstica (1-=.86) supera los
grupo de personas que no recibi dicha niveles mnimos exigidos (80%),
atencin (n=520; M=2.89; y DT=.94). Estas constatndose en la grfica que la
diferencias fueron significativas probabilidad de cometer un error de tipo II
estadsticamente (t(678)=3.06; p=.002; IC95% es del 14%. La grfica se interpreta
[.094, .430]). En la Figura 4 se presentan siguiendo las siguientes coordenadas: la
cada uno de los pasos necesarios para sombra ms clara (roja en el visor del
obtener el valor de d en G*Power. El ndice programa) representa la posibilidad de error
d representa el grado de separacin entre la Tipo I (); la sombra oscura (azul en el visor
hiptesis nula y la hiptesis alternativa (o del programa) la probabilidad de error Tipo
grado en que las dos hiptesis no se II (); la curva de lnea continua representa
superponen). la distribucin poblacional (roja en el visor
del programa); la lnea discontinua la
Se recomienda utilizar el contraste distribucin muestral (azul en el visor del
bilateral para estos anlisis (ver paso 4 de la programa); y la lnea vertical (verde en el
grfica 1) dado que stos requieren una visor del programa) corresponde a los
mayor diferencia para detectar una misma puntos crticos de t.
potencia. Los contrastes unilaterales, en

FIGURA 4.
Pruebas t para muestras independientes: Clculo del tamao del efecto y la potencia estadstica en
G*Power (anlisis post-hoc).

SALUD & SOCIEDAD | V. 5 | No. 2 | MAYO - AGOSTO | 2014 216


MANUEL CRDENAS CASTRO HCTOR ARANCIBIA MARTINI

El estadstico f para el caso de comparacin de estadstico indica que el grupo que reporta
medias en ms de dos grupos mayores puntuaciones es el de aquellos que
accedieron y terminaron su tratamiento
El anlisis caracterstico utilizado para (M=3.79; DT=1.02), seguido de aquellos
analizar la comparacin de medias en ms que lo discontinuaron (M=3.09; DT=1.16).
de dos grupos corresponde al anlisis de Las puntuaciones ms bajas las obtuvieron
varianza (ANOVA) de un factor. A modo de las personas que no tuvieron tratamiento
ejemplo comparamos las puntuaciones de (M=2.68; DT=1.27). De acuerdo al ANOVA
tres grupos. El primero estaba formado por realizado, diferencias entre grupos fueron
personas que accedieron a servicios significativas estadsticamente (F(2,
psicolgicos (n=160); el segundo por 677)=45.50; p=.000; IC95% [2.88, 2.08]). Los
personas que, habiendo accedido, anlisis post hoc (Tukey) tambin indicaron
abandonaron tempranamente el tratamiento que las medias de los tres grupos diferan
(n=220); y tercero a personas que no significativamente entre s.
solicitaron dicha ayuda (n=300). El anlisis

FIGURA 5.
ANOVA de un factor: Clculo del tamao del efecto y la potencia estadstica en G*Power (anlisis post-
hoc).

En la Figura 5 se presentan los pasos para es casi inexistente y que la magnitud de las
obtener el valor de f en G*Power. Los diferencias entre las medias de los grupos
resultados indican que para estos anlisis la es alta.
probabilidad de cometer un error de Tipo II

217 SALUD & SOCIEDAD | V. 5 | No. 2 | MAYO - AGOSTO | 2014


Potencia Estadstica y Clculo del Tamao del Efecto en G*Power:
Complementos a las Pruebas de Significacin estadstica y su aplicacin en psicologa

El estadstico f para el anlisis de varianza hiptesis para cada una de ellas). Los pasos
factorial para el clculo de TE y PE en G*Power se
pueden realizar directamente sobre el valor
Los resultados del paquete estadstico de eta-cuadrado parcial (Figura 3). En el
SPSS para este tipo de anlisis permiten ejemplo, dicha interaccin no es significativa
obtener un ndice del tamao del efecto y la proporcin de varianza explicada por
denominado eta cuadrado parcial ( ). Este Eta es extremadamente baja (F(2, 674)=.98;
se interpreta como proporcin de varianza p=.37; 2=.003) por lo que no es esperable
de la variable dependiente que es explicada encontrar un valor de f importante. La nica
por las variables predictoras o precisin que se debe hacer es sobre la
independientes. Siguiendo con el ejemplo introduccin de los grados de libertad en la
antes expuesto, para calcular el tamao del ventana principal de G*Power y que
efecto se segment la muestra por las corresponde al valor que se muestra frente
variables sexo (hombre/mujer) y grado de a cada variable e interaccin en la salida del
acceso a servicios psicolgicos (atencin programa SPSS (generalmente corresponde
continuada/ atencin discontinuada/ sin al nmero de dimensiones de cada variable
atencin). En realidad podramos calcular menos uno, salvo para el caso de las
los tamaos del efecto para cada una de las interacciones).
variables, as como para la interaccin (del
mismo modo que se realiza un contraste de

FIGURA 6.
ANOVA factorial: Clculo del tamao del efecto y la potencia estadstica en G*Power (anlisis post-hoc).

SALUD & SOCIEDAD | V. 5 | No. 2 | MAYO - AGOSTO | 2014 218


MANUEL CRDENAS CASTRO HCTOR ARANCIBIA MARTINI

Los anlisis que hemos realizado ratifican El estadstico f2 para el caso de mltiples
un tamao del efecto bajo y agregan variables predictoras
informacin relevante sobre la potencia
estadstica de la prueba. Hemos afirmado El estadstico f2 es utilizado en caso de
que la convencin indica que la potencia procedimientos de regresin lineal mltiple y
debe ser superior al 80%, o de lo contrario se estima a partir del coeficiente de
la validez del diseo puede ser puesta en regresin al cuadrado (R2). Es, como en el
duda. En este caso el ANOVA indica que no caso anterior, una transformacin desde un
existe efecto de interaccin significativo ndice que cuantifica la proporcin de
entre variables y el valor del tamao del varianza de la variable dependiente que es
efecto (f) viene a confirmar este resultado. explicado por el conjunto de las variables
En el hipottico caso de que la prueba de predictoras. A partir de su clculo se puede
significacin hubiese entregado valores definir, sobre la base de su comparacin
p<.05 habra que ser muy cautos al con unos valores referenciales
momento de extraer conclusiones si el consensuados, si el tamao del efecto
tamao del efecto fuera de la magnitud puede ser considerado alto, medio o bajo. El
encontrada. procedimiento de clculo en G*Power
(Figura 7) es extremadamente simple si se
trabaja de forma directa con el valor de R2
parcial (se puede obtener con el anlisis de
regresin mltiple realizado en SPSS).

FIGURA 7.
Regresin multiple: Clculo del tamao del efecto y la potencia estadstica en G*Power (anlisis post-
hoc).

219 SALUD & SOCIEDAD | V. 5 | No. 2 | MAYO - AGOSTO | 2014


Potencia Estadstica y Clculo del Tamao del Efecto en G*Power:
Complementos a las Pruebas de Significacin estadstica y su aplicacin en psicologa

El ejemplo anterior informa que, en conjunto, mujeres, con el reporte de niveles altos,
las trece hipotticas variables predictoras moderados o bajos de crecimiento post
incorporadas en el modelo explican el 45% de traumtico. Para el caso de matrices
la varianza total de la variable dependiente cuadradas (variables dicotmicas) SPSS
(niveles de crecimiento post traumticos entrega el valor de los coeficientes Phi, que
reportados). El valor del tamao del efecto f2= adopta valores entre 0 y 1, y su interpretacin
.81. Se trata de un valor alto que indica que el es similar al coeficiente de correlacin de
efecto de las variables incorporadas en el Pearson. En el caso de que una de las
modelo es sustantivo. Tambin informa de la variables tenga ms de dos niveles (como en
potencia estadstica y de la muy baja nuestro ejemplo), phi puede tomar valores
posibilidad de cometer un error de Tipo II (la superiores a 1 (pues el valor X2 puede ser
grfica muestra como las distribuciones se mayor que el tamao muestral). Aunque este
encuentran totalmente separadas y que la valor de phi debera ser suficiente para
posibilidad de un error est muy alejada de cuantificar el efecto encontrado, en la Figura 8
nuestra curva de la distribucin muestral). se muestra cmo realizar el clculo del ndice
w, para lo cual ser necesario fijarse en los
Con los ejemplos anteriores hemos valores observados de las frecuencias
presentado los anlisis ms tpicos en las esperadas y observadas de la tabla de
familias de diferencias estandarizadas e contingencia, los cuales deben ser
ndices de correlacin. Si bien, se suele transformados en proporciones (simplemente
incorporar en esta familia el clculo del dividindolos por el tamao total de la
coeficiente Chi-cuadrado, lo presentaremos muestra).
como un ejemplo de ndices para tablas de
contingencia (aunque tradicionalmente aqu Para el caso de nuestro ejemplo los
deberan expresarse tambin los ndices de resultados obtenidos nos indican que no
riesgo relativo y odds ratios). existe asociacin entre las variables
(X2(2)=4.69; p=.09; Phi=.08). Es decir, el
ndice w para coeficiente de asociacin en reporte de niveles altos, medios o bajos de
tablas de contingencia crecimiento post traumtico no se relaciona
Se trata de un ndice de tamao del efecto con el sexo de quien responde. Como
para pruebas de asociacin, tpicamente Chi- podemos apreciar el valor del tamao del
cuadrado (X2). Para ejemplificar mediante efecto obtenido es w=.08, similar el
G*Power hemos contrastado la hiptesis de coeficiente phi que entrega SPSS.
que no existen diferencias entre hombres y

FIGURA 8.
Chi-cuadrado: Clculo del tamao del efecto y la potencia estadstica en G*Power (anlisis post-hoc).

SALUD & SOCIEDAD | V. 5 | No. 2 | MAYO - AGOSTO | 2014 220


MANUEL CRDENAS CASTRO HCTOR ARANCIBIA MARTINI

Vemos tambin que con una probabilidad Las pruebas de significacin estn lejos
de =.05, n=680 y w=.08, la potencia de ser un ndice de certeza y constituyen un
estadstica apenas es de 1-=.36, lo que criterio pobre para aceptar o rechazar
indicara que existe una alta probabilidad resultados de investigacin. De hecho, la
(64%) de cometer errores de tipo II si se falta de significacin no significa que la
rechaza la hiptesis nula. hiptesis nula sea verdadera ni que los
efectos de los dos grupos sean
DISCUSIN equivalentes. La ausencia de evidencia
nunca es evidencia de ausencia de efectos
La estrategia de significacin estadstica y (Altman & Bland, 1995).
rechazo de hiptesis nula es probablemente
una de las ms arraigadas en investigacin Cualquier prueba de significacin
en psicologa. Resulta sumamente llamativo estadstica que no vaya acompaada de un
que los investigadores y publicaciones clculo del tamao del efecto carece de los
hayan transformado este procedimiento en parmetros necesarios para juzgar la
la estrategia cientfica privilegiada en la importancia del hallazgo. De otro modo, lo
investigacin en psicologa, dada la acotada que hacemos al rechazar una hiptesis
informacin que es capaz de ofrecer. nula, particularmente en el caso de la
comparacin de medias, es afirmar que
La ritualizada prctica de entregar la existe una diferencia. Mientras ms baja sea
significacin estadstica de los contrastes, la probabilidad asociada y mayor el valor del
sin especificar el tamao del efecto o la estadstico de contraste, ms probable ser
lateralidad del contraste, conduce la mayor que la diferencia de medias sea distinta de
parte de las veces a predicciones triviales. cero. Eso s, nada hemos dicho de la
As, se construye todo un andamiaje terico magnitud ni de la importancia de dicha
que termina por sobre valorar hallazgos y diferencia. Es decir, hemos afirmado con
por anidar resultados contradictorios, que bastante confianza que las medias son
podran haber sido resueltos con facilidad, si diferentes (la diferencia sera mayor de lo
el nivel de las exigencias se elevara puramente aleatorio), pero Cun grande e
mnimamente siguiendo las importante es dicha diferencia? Esta es una
recomendaciones que desde hace mucho pregunta que no es posible contestar sin
viene haciendo la APA sobre los resultados recurrir a un anlisis del tamao del efecto.
referidos a pruebas de significacin. Aun
hoy esta exigencia sigue siendo relevante En este artculo pretendemos contribuir a
pues observamos cmo cada da ms subsanar algunas de las deficiencias de la
sofisticados anlisis estadsticos de datos investigacin psicolgica, particularmente
se utilizan como criterio de verdad o aquellas referidas a vacos de formacin
relevancia. En este sentido debemos seguir terica, a problemas de acceso a programas
buscando la significacin prctica y no estadsticos apropiados y de ejecucin
nicamente una de carcter estadstico ya prctica de los anlisis. La facilidad
que casi todas las hiptesis nulas pueden proverbial con la que puede ser subsanada
eventualmente ser rechazadas con la omisin del clculo del tamao del efecto
muestras suficientemente amplias, no y la potencia estadstica es evidente y hoy
pudindose afirmar entonces que dichos en da no existen excusas para no
hallazgos resulten importantes ni dar informarlas.
cuenta sobre la magnitud de dichas
diferencias. Esto ms bien llevara a Aunque nosotros hemos mostrado las
confundir sistemticamente una diferencia posibilidades del clculo post-hoc de la
estadsticamente significativa con una potencia de un contraste, esta debera
diferencia relevante. preferentemente plantearse a priori ya que

221 SALUD & SOCIEDAD | V. 5 | No. 2 | MAYO - AGOSTO | 2014


Potencia Estadstica y Clculo del Tamao del Efecto en G*Power:
Complementos a las Pruebas de Significacin estadstica y su aplicacin en psicologa

de la otra forma nada puede hacerse contra exposicin y discusin terica que hemos
los problemas de diseo que ya se hayan podido hacer del tema, asunto que hemos
cometido. Abordar la potencia desde intentado subsanar por la va de remitir a la
clculos a priori ayuda a orientar el diseo y bibliografa primaria sobre esta discusin.
a definir el tamao muestral de cada grupo Lo segundo es la perspectiva y ejemplos
en referencia a los valores medios del limitados al anlisis post hoc del tamao del
tamao del efecto obtenidos en otros efecto. Una presentacin de los clculos a
estudios (los cuales nos obliga a conocer de priori sigue siendo necesaria debido a que
antemano). En cualquier caso, debemos es en el momento del diseo donde se
tener en consideracin que las violaciones puede asegurar una adecuada potencia (los
del supuesto de aleatoriedad de la muestra casos que presentamos slo sirven para
son recurrentes y deberan marcar un claro verificarla una vez concluido el estudio, y no
lmite a la generalizacin de nuestros para asegurarla).
hallazgos dada su escasa representatividad.
La preocupacin de la potencia est
ntimamente vinculada al error de medida y
nos obliga a procurar que la fiabilidad de los
instrumentos utilizados quede debidamente
verificada. An es posible ver como se usan
instrumentos sin acompaarlos del reporte
de la fiabilidad o sin entregar indicaciones
de su validez para la muestra en la que se
utilizan.

La significacin estadstica no est


relacionada con el impacto prctico de un
estudio. Un efecto relevante no es algo
discernible slo con informacin estadstica,
es ante todo necesario comprender y
explicar subjetivamente la realidad que
impregna el fenmeno. Debemos
comprender que el producto primario de una
investigacin cuantitativa no es un valor de
probabilidad (p) sino una o ms medidas del
tamao del efecto (Cohen, 1962, 1992).

Por sobre todo estos datos y anlisis


deben ser tiles para explicar los
fenmenos y realizar predicciones sobre la
realidad. En este sentido, el valor de la
estimacin del tamao del efecto debe ser
interpretado en el contexto de un estudio y
rea concreta de investigacin ya que un
pequeo tamao del efecto puede ser de
gran importancia en determinados mbitos
(Fras-Navarro, Llobet, & Garca 2000).

El presente artculo presenta una serie


de limitaciones que esperamos subsanar en
futuros estudios. Lo primero es la apretada

SALUD & SOCIEDAD | V. 5 | No. 2 | MAYO - AGOSTO | 2014 222


MANUEL CRDENAS CASTRO HCTOR ARANCIBIA MARTINI

REFERENCIAS program. Behavior Research Methods,


Instruments, & Computers, 28, 1-11.
Altmand, D. G., & Bland, J. M. (1995). Absence Faul, F., Erdfelder, E., Lang, A.G., & Buchner, A.
of evidence is not evidence of absence. (2007). G*Power 3: A flexible statistical
British Medical Journal 311, 485. power analysis program for the social,
American Psychological Association (1994). behavioral, and biomedical sciences.
Publication Manual of the American Behavior Research Methods, 39(2), 175-
Psychological Association (4th ed). 191.
Washington, DC: Author. Fidler, F. (2002). The Fifth edition of the APA
American Psychological Association (2001). Publication Manual: Why its Statistics
Publication Manual of the American Recommendations are so Controversial.
Psychological Association (5th ed.). Educational and Psychological
Washington, DC: Author. Measurement, 62(5), 749-770.
American Psychological Association (2008). Fras-Navarro, D., Llobet, L. P. y Garca, J.F.
Reporting Standards for Research in (2000). Tamao del efecto del tratamiento
Psychology. Why Do We Need Them? y significacin estadstica. Psicothema
What Might They Be? American 12(2), 236-240.
Psychologist 63(9), 839-851. Furr, R. M. (2004). Interpreting effect sizes in
Bezeau, S. & Graves, R. (2001). Statistical contrast analysis. Understanding Statistics:
power and effect sizes of clinical Statistical Issues in Psychology, Education,
neuropsychology research. Journal of and the Social Sciences, 3, 1-25.
Clinical and Experimental Garca, J., Ortega, E., & De la Fuente, L. (2008).
Neuropsychology, 23(3), 399-406. Tamao del Efecto en las revistas de
Bono, R. y Arnau Gras, J. (1995). Psicologa Indizadas en Redalyc. Informes
Consideraciones generales en torno a los Psicolgicos, 10(11), 173-188.
estudios de potencia. Anales de Psicologa Grissom, R.J., & Kim, J.J. (2012). Effect sizes
11(2), 193-202. for research: Univariate and Multivariate
Cohen, J. (1962). The statistical power of Applications New York: Routledge.
abnormal-social psychological research: A Kirk, R. E. (1996). Practical Significance: A
review. Journal of Abnormal and Social concept whose time has come. Educational
Psychology, 65(3), 145-153. and Psychological Measurement, 56(5),
Cohen, J, (1988). Statistical Power Analysis for 746-759.
the Behavioral Sciences. (2nd ed.), New Kline, R.B. (2004). Beyond significance testing:
Jersey: Lawrence Erlbaum Associates. Reforming data analysis methods En
Cohen, J. (1992). Cosas que he aprendido Behavioral Research, (pp. 3-17).
(hasta ahora). Anales de Psicologa, 8(1- Washington, DC, US: American
2), 3-18. Psychological Association, xii, 325 pp.
Cohen, J. (1994). The earth is round ( p < .05). Lipsey, M.W. (1990). Design sensivity: Statistical
American Psychologist, 49, 997-1003. power for experimental research. Newbury
Cohen, S. A., & Hyman, J. S. (1979). Learning Park, CA. Sage.
for Mastery: Ten Conclusions after 15 Meehl, P. E. (1978). Theoretical risks and
Years and 3,000 Schools. Educational tabular asterisks: Sir Karl, Sir Ronald, and
Leadership, 37(2), 104-109. the slow progress of soft psychology.
Crosby, R.D., Wonderlich, S.A., Mitchell, J.E., Journal of consulting and clinical
de Zwaan, M., Engel, S.G., Connolly, K., Psychology, 46(4), 806-834.
Flessner, C., Redlin, J., Markland, M., Morrison, D.E. & Henkel, R.E. (Eds.). (2006).
Simonich, H., Wright, T.L., Swanson, J.M., The significance test controversy: A reader.
& Taheri, M. (2008). An empirical analysis Transaction Publishers.
of eating disorders and anxiety disorders Murphy, K.R., Myors, B., & Wolach, A.H. (2009).
publications (1980-2000) part II: Statistical Statistical power analysis: A simple and
hypothesis testing. International Journal of general model for traditional and modern
Eating Disorders, 39(1), 49-54. hypothesis tests. Routledge.
Erdfelder, E., Faul, F., & Buchner, A. (1996). Nickerson, R.S. (2000). Null hypothesis
G*POWER: A general power analysis significance testing: a review of an old and

223 SALUD & SOCIEDAD | V. 5 | No. 2 | MAYO - AGOSTO | 2014


Potencia Estadstica y Clculo del Tamao del Efecto en G*Power:
Complementos a las Pruebas de Significacin estadstica y su aplicacin en psicologa

continuing controversy. Psychological


methods, 5(2), 241.
Prajapati, B., Dunne, M., & Armstrong, R.
(2010). Sample size estimation and
statistical power analyses. Optometry
Today, 16(7).
Sedlmeier, P., & Gigerenzer, G. (1989). Do
studies of statistical power have an effect
on the power of studies?. Psychological
Bulletin, 105(2), 309-316.
Snyder, P., & Lawson, S. (1993). Evaluating
results using corrected and uncorrected
effect size estimates. The Journal of
Experimental Education, 61(4), 334-349.
Thompson, B., & Snyder, P. A. (1997).
Statistical significance testing practices in
the Journal of Experimental Education. The
Journal of Experimental Education, 66(1),
75-83.
Vacha-Haase, T. & Ness, C.M. (1999).
Statistical significance testing as it relates
to practice: Use within Professional
Psychology: Research and Practice.
Professional Psychology: Research and
Practice, 30(1), 104-105.
Vacha-Haase, T., & Thompson, B. (1998).
Further Comments on Statistical
Significance Tests. Measurement and
Evaluation in Counseling and
Development, 31(1), 63-67.
Vacha-Haase, T., Nilsson, J. E., Reetz, D.R.,
Lance. T.S., & Thompson, B. (2000).
Reporting Practices and APA Editorial
Policies Regarding Statistical Significance
and Effect Size. Theory and Psychology,
10(3), 413-425.
Wilkinson, L. (1999). Statistical methods in
psychology journals: Guidelines and
explanations. American Psychologist,
54(8), 594-604.

SALUD & SOCIEDAD | V. 5 | No. 2 | MAYO - AGOSTO | 2014 224

Anda mungkin juga menyukai