Anda di halaman 1dari 5

Psicothema ISSN 0214 - 9915 CODEN PSOTEG

2000. Vol. 12, Supl. n 2, pp. 236-240 Copyright 2000 Psicothema

Tamao del efecto del tratamiento y significacin estadstica

Mara Dolores Fras Navarro, Juan Pascual Llobell y Jos Fernando Garca Prez
Universidad de Valencia

En la actualidad la atencin por la sensibilidad y validez de conclusin estadstica del diseo de


la investigacin ha aumentado, especialmente en el tratamiento que reciben en las ediciones ac-
tuales de los manuales de diseos experimentales aunque quizs en el mbito aplicado (donde la
estimacin del tamao del efecto cobra su mayor importancia) no se ha desarrollado todo lo que
sera de desear como lo demuestran los estudios de potencia de los trabajos publicados. El prin-
cipal propsito de este trabajo es analizar la repercusin o impacto que tienen las indicaciones de
los consejos editoriales sobre los trabajos de investigacin publicados respecto al clculo e inter-
pretacin conjunta de las medidas de magnitud del efecto junto con los valores de significacin
estadstica.

Effect size and statistical significance. Currently, there is a growing interest in the study of the
sensitive and validity of the statistical conclusions of experimental design. Although most of bo-
oks on experimental design stress these issues, many students on applied psychology still do not
take advantage of these advances, as can be deduced by low statistical power. The goal of this ar-
ticle is to examine the impact of the guidelines of the editorial Board of peer reviewed respect to
the computation and interp re t ation of the measures of effect size as well as the values of statisti-
cal significance.

El objetivo de toda investigacin cientfica es la bsqueda de rrison y Henkel, 1970; Murphy, 1997; Schimdt, 1996) de las prue-
explicacin de los fenmenos y con ello poder derivar prediccio- bas de significacin estadstica como instrumento vlido para el
nes sobre la realidad, elaborando teoras sobre el comportamien- progreso cientfico.
to de los fenmenos. Ya sea para comprobar teoras o para esti- Durante la dcada de los noventa la polmica sobre el uso e in-
mar efectos de un tratamiento, los investigadores tienen que rea- terpretacin de las pruebas de significacin estadstica se ha reavi-
lizar un proceso de comprobacin de hiptesis traduciendo la hi- vado de nuevo (Shea, 1996), producindose momentos de destaca-
ptesis cientfica a hiptesis estadstica. Por ello, la tcnica esta- das reflexiones tericas que han originado debates en foros como
dstica del contraste de hiptesis y el diseo de la investigacin se la revista Journal of Experimental Education (volumen 61 de
han necesitado mutuamente durante dcadas. Sin embargo, hist- 1993) o la revista American Psychologist (volumen 49 de 1994)
ricamente el contraste y comprobacin de hiptesis estadsticas que en el nmero de Julio de 1998 retoma de nuevo el tema con un
ha sido causa de confusin, crtica y controversia entre los inves- conjunto de trabajos que critican y valoran la defensa que Hagen
tigadores (Bakan, 1966, 1967; Cohen, 1990, 1994; Falk y Green- (1997) realiz en esta misma publicacin sobre las pruebas de la
baum, 1995; Hagen, 1997; Thompson, 1988, 1996), provocando hiptesis nula. Tambin se han publicado libros (Chow, 1996; Gi-
interpretaciones errneas de los resultados (Carver, 1978; Craig, gerenzer, Swijtink, Porter, Daston, Beatty y Krger, 1989; Harlow,
Eison y Metze, 1976; Manzano, 1997; Thompson, 1989) que na- Mulaik y Steiger, 1997; Henkel, 1976; Morrison y Henkel, 1970)
da han favorecido la acumulacin cientfica del conocimiento. El especializados en recopilar y analizar el proceso de decisin esta-
problema ha continuado durante dcadas, reavivndose en oca- dstica, revisando los principios de las pruebas de comprobacin
siones, de tal modo que actualmente estamos viviendo un mo- de hiptesis estadsticas.
mento de polmica con posturas enfrentadas, en algunos casos de Las reuniones cientficas tambin se hacen eco de la polmica
forma extrema, entre los defensores (ej. Abelson, 1997a, 1997b; en torno al uso e interpretacin de las pruebas de significacin es-
Cortina y Dunlap, 1997; Fritz, 1995, 1996; Greenwald, Gonzalez, tadstica y dedican sesiones al debate de la controversia, planten-
Harris y Guthrie, 1996; Hagen, 1997, Levin, 1993) y detractores dose incluso su posible abandono (Carver, 1978, 1993; Schmidt,
(ej. Chow, 1988; Cohen, 1994; Cowles, 1989; Meehl, 1978; Mo- 1996). Como McClure y Suen (1994) anotaron: A misguided re -
liance on statistical significance would pose a serious threat to the
archives of scientific knowledge (pg. 89). Por ejemplo en las
reuniones anuales de la American Psychological Association
Correspondencia: Mara Dolores Fras Na varro (A.P.A.) y de la American Psychological Society (A.P.S.) celebra-
Facultat de Psicologia das en 1996 se plante la siguiente cuestin: should significance
Universitat de Valncia
46010 Valencia (Spain) tests be banned. En 1997 esta misma pregunta ha sido recogida
E-mail: M.Dolores.Frias@uv.es por Hunter (1997). Y el mismo Jacob Cohen y Bruce Thompson
TAMAO DEL EFECTO DEL TRATAMIENTO Y SIGNIFICACIN ESTADSTICA 237

fueron invitados a participar ese mismo ao en el Congreso que se da) de ser obtenido a partir de una poblacin en la que no existe
realiz en Chicago promovido por la American Psychological As - efecto, (d = 0), facilitando un instrumento que permita conocer la
sociation con dos trabajos cuyos ttulos fueron Much ado about credibilidad de la evidencia producida por un estudio (Fritz, 1996).
nothing (Cohen, 1997) y If statistical significance tests are bro - Por ejemplo, en la cuarta edicin del manual publicado en el
ken/misused, what practices should supplement or replace them verano de 1994 por la American Psychological Association
(Thompson, 1997, 1999a). El interrogante planteado es uno de los (A.P.A.) se realizan ciertas recomendaciones sobre el estilo de los
temas de mayor actualidad, proponindose distintas alternativas de informes de investigacin y se enfatiza que los valores p no son n-
anlisis (Valera y Snchez, 1997). El debate y la popularidad del dices aceptables de la magnitud del efecto dependen del tama-
tema sigue vigente, casi podramos decidir que con una aparicin o de la muestra, estimulando a los investigadores a proporcio-
cclica como algunos fenmenos importantes de la naturaleza. nar informacin sobre el tamao del efecto junto con los valores
Ciertamente las peculiaridades de los objetivos de la investiga- de probabilidad aportados por las pruebas de significacin estads-
cin psicolgica han favorecido que hoy en da se plantee la nece- tica, promoviendo la interpretacin sustantiva de los resultados ob-
sidad de ir ms all de la significacin estadstica tradicional obte- tenidos en la investigacin y destacando la falta de conexin entre
nida con las pruebas de contraste estadstico. Esta bsqueda de la resultado improbable (resultado con un valor p pequeo) y resul-
utilizacin de otros recursos para la investigacin cientfica est tado interesante o importante (vanse ejemplos en Shaver, 1985;
directamente motivada por la significacin practica que el rea de Thomspon, 1993) o significacin estadstica y replicacin del re-
la psicologa aplicada demanda con insistencia (Aiken, West, sultado (Cohen, 1994; Thompson, 1989, 1996, 1999b). Afortuna-
Sechrest y Reno, 1990; Kirk, 1996), donde la significacin esta- damente nada que ver con las recomendaciones que en 1962 reali-
dstica usual no da respuestas satisfactorias a las preguntas rela - zaba Arthur Melton como editor del Journal of Experimental Psy -
cionadas con la magnitud de los efectos detectados. Los investiga- chology donde sealaba que los manuscritos que no rechazaran la
dores, especialmente aquellos que estn interesados en la aplica- hiptesis nula nunca seran publicados, los resultados estadstica-
cin de la ciencia para solucionar problemas prcticos, no desean mente significativos al nivel 0.05 apenas seran aceptados mientras
conocer si el tr atamiento tuvo algn efecto sino que desean cono- que los estadsticamente significativos al 0.01 mereceran un lugar
cer si el tratamiento tiene el efecto que ellos plantean (Fowler, en la revista, aadiendo que los resultados negativos son sinni-
1985) o tambin puede suceder que el cambio estadsticamente mos de no rechazar la hiptesis nula y los resultados positivos
significativo no indique el verdadero valor teraputico (Howlin, de rechazarla.
1997). De ah que algunos autores como Schmidt (1996) sugieran Tambin, cada vez ms los consejos editoriales de las revistas
que el contraste estadstico es innecesario, recomendando centrar- recomiendan que los autores informen e interpreten medidas de la
se en la estimacin del tamao del efecto. El tamao del efecto es magnitud del efecto junto con los valores de probabilidad de sig-
un ndice en una mtrica comn que indica la magnitud de una re- nificacin estadstica. Por ejemplo, han adoptado dicho criterio la
lacin o efecto (Cohen, 1988), por ejemplo se puede expresar en revista Memory and Cognition (Loftus, 1993), la revista Educatio -
trminos de diferencias estandarizadas como la media del grupo nal and Psychological Measurement (Thompson, 1994), la revista
experimental menos la media del grupo control dividido por la Measurement and Evaluation in Counseling and Development
desviacin estndar comn (vase para el clculo por ejemplo (Hansen, 1995) y ms recientemente el Journal of Experimental
Kirk, 1996, Friedman, 1982 y Snyder y Lawson, 1993) Education (Heldref Publicactions, 1997) y el Journal of Applied
Muy brevemente, las pruebas de significacin estadstica faci- Psychology (Murphy, 1997).
litan al investigador un test o prueba que informa de la probabili- Conviene tener en cuenta que el tamao del efecto y el valor de
dad de conseguir la diferencia obtenida, o mayor que la observa- p, se encuentran inversamente relacionados, de tal manera que
da, si la hiptesis nula es cierta. La prueba estadstica asume que cuanto mayor es el primero, menor es el segundo y a la inversa. En
la hiptesis nula es cierta en la poblacin y calcula la probabilidad el caso de que se cumpla con los supuestos estadsticos, la prueba
del resultado de la muestra. Si el valor de probabilidad o pCALCU- de la hiptesis nula permite conocer la probabilidad de obtener por
LADO es igual o menor que 0.05 se concluye que la probabilidad azar un tamao del efecto, medido con un estadstico, igual o ma-
de que sea el azar o la variabilidad muestral la explicacin del re- yor que el encontrado. De nuevo nos encontramos con un procedi-
sultado obtenido es muy baja y por lo tanto se rechaza la hiptesis miento estadstico basado en nil hypothesis.
de nulidad de no diferencias entre las medias. El resultado es es -
tadsticamente significativo. Y lo que es muy importante, por lo Significacin estadstica y tamao del efecto
comn, el procedimiento implica la comprobacin de la hiptesis
de que el tratamiento no tiene ningn efecto o que la correlacin Pero conocidos los problemas y limitaciones de las pruebas sig-
entre dos variables es igual a cero; hiptesis conocidas como nil nificacin estadstica ha cambiado el comportamiento del cient-
hypothesis en trminos de Cohen (1994), diferencindolas de la fico? Continan las pruebas de significacin estadstica de nil
categora general de prueba de la hiptesis nula donde el investi- hypothesis dominando la interpretacin de los datos cuantitati-
gador puede contrastar la hiptesis de que la diferencia entre dos vos? Realmente qu impacto o repercusin tienen las indicacio-
tratamientos es igual a cualquier valor, incluyendo pero no limi- nes de los consejos editoriales sobre los trabajos de investigacin
tndolo a cero. publicados respecto al clculo e interpretacin de las medidas de
Las asociaciones cientficas y la misma poltica editorial de las la magnitud del efecto junto con los valores de probabilidad de
revistas apuestan por detallar en los informes de investigacin la significacin estadstica? Quizs nos encontremos de nuevo ante
estimacin del tamao del efecto junto con la significacin esta- una situacin semejante a la del clculo de la potencia de la prue-
dstica. Con estas recomendaciones se pretende que las pruebas de ba estadstica: todos conocemos su importancia pero pocos plani-
nil hypothesis permitan al investigador evaluar la probabilidad fican su presencia. As, pese a los esfuerzos, encabezados por Co-
que tiene un efecto (o mayor que el encontrado en una muestra da- hen (1962, 1969, 1990, 1994), para popularizar el estudio de la po-
238 MARA DOLORES FRAS NAVARRO, JUAN PASCUAL LLOBELL Y JOS FERNANDO GARCA PREZ

tencia y el control del error de Tipo II, el trabajo de Sedlmeier y La aleatorizacin (muestreo o asignacin) es una de las pie-
Gigerenzer (1989), y ms recientemente el de Clark-Carter (1997), zas claves del procedimiento de la significacin estadstica de la
indica que los estudios de la potencia han tenido poca trascenden - hiptesis nula ya que sin ella dicho contraste estadstico es irrele-
cia en la conducta de los investigadores, no variando sus hbitos vante dado que la hiptesis nula ser falsa a priori.
de investigacin (con una potencia media de 0.50 y 0.59 respecti- La interpretacin de la significacin estadstica deja de tener
vamente para detectar un tamao del efecto medio). sentido cuando el tamao de la muestra es tan grande que cual-
En primer lugar, los resultados de los estudios empricos con- quier diferencia detectada, por pequea que sea, permitir recha-
firman el comportamiento tradicional del cientfico en el uso de la zar la hiptesis de nulidad de diferencias. Del mismo modo cuan-
significacin estadstica, de manera que el procedimiento de con- do se plantean hiptesis triviales desde el punto de vista terico
traste estadstico de la hiptesis nula de efecto cero como medio donde la hiptesis nula es razonablemente falsa de tal modo que
de anlisis e interpretacin de los fenmenos de la realidad sigue rechazarla es cuestin de potencia estadstica, realizar el contraste
arraigado dentro del proceso del diseo de la investigacin casi co- estadstico tambin resulta absurdo.
mo nico (Murphy y Myors, 1999; Vacha-Haase y Ness (1999). Facilitar la comprensin de la relacin entre potencia, tama-
En segundo lugar, los estudios de Kirk (1996), Snyder y o del efecto, nivel de alfa y significacin estadstica favorecer
Thompson (1998), Thompson (1999c, 1999d) Thompson y Snyder interpretaciones correctas y contextualizadas de los datos y el di-
(1997, 1998), Vacha-Haase y Nilsson (1998), y Vacha-Haase y seo de la investigacin. nicamente la planificacin cuidadosa
Ness (1999) confirman la escasa repercusin que las recomenda- del diseo de investigacin validar los resultados obtenidos.
ciones de la American Psychological Association han tenido sobre Cuando las hiptesis intentan determinar la probabilidad de
los informes de investigacin, destacando tambin el uso e inter- diferencias de grupos o efectos de intervencin, hiptesis ordina-
pretacin inapropiado que an realizan algunos investigadores de les o cualitativas en trminos de Fritz (1996), la aplicacin de las
la prueba de significacin estadstica. pruebas de significacin es correcta ya que no se especifica un ta-
En el estudio de Vacha-Haase y Ness (1999), donde se revisa- mao del efecto concreto sino nicamente algn efecto. Estos re-
ron 256 artculos publicados entre 1990 y 1997 en la revista Pro - sultados nos permitirn plantear hiptesis tericas ms elaboradas
fessional Psychology: Research and Practice, el 77% de los infor- que planteen efectos de tratamiento concretos (hiptesis cuanti-
mes utilizaron pruebas de significacin estadstica y menos del tativas en trminos de Fritz) donde dichas pruebas no tienen cabi-
20% usaron correctamente el trmino significacin estadstica. El da ya que no fueron elaboradas con dicho fin. Por supuesto, cuan-
81.9% de los autores de los artculos s informaron siguiendo el es- do un rea de conocimiento determinada ha alcanzado el consen-
tilo de la A.P.A., incluyendo los grados de libertad, el nivel de al- so de que la hiptesis nula es falsa entonces las pruebas de signi-
fa y el valor de los estadsticos pero la ma yora de los artculos no ficacin estadstica son totalmente innecesarias.
mencionan el tamao del efecto. Mencin tambin escasa en Ex - Quiz, la explicacin del uso intensivo que se hace en Psico-
ceptional Children (Thompson, 1999d). loga de la prueba de significacin estadstica de la hiptesis nula
En ocasiones, y quizs forzada por la poltica editorial, s se in- puede estar en la naturaleza ordinal de la mayor parte de las leyes
dica el tamao del efecto junto con los resultados de significacin y teoras de nuestra disciplina.
estadstica pero sin llegar a englobar la interpretacin dentro del Quiz, poder contrastar hiptesis nulas con efecto distinto a
contexto de nivel alfa, tamao de la muestra y tamao del efecto, cero (hiptesis non-nil nulls en trminos de Cohen) enriquece-
tal y como concluyen Vacha-Haase y Nilsson (1998) al revisar ra nuestras teoras psicolgicas, avanzado el conocimiento y eli-
desde 1990 a 1996 la revista Measurement and Evaluation in minando ciertas polmicas sobre la trivialidad de testar hiptesis
Counseling and Development, publicada por la Association for As - con efecto cero al mismo tiempo que evitaramos la interpretacin
sessment in Counseling de la American Counseling Association, de resultados estadsticamente significativos sin importancia prc-
cuyos editores recomiendan desde 1988 que se analice la signifi- tica. Los trabajos de Serlin y Lapsley (1985, 1993) acerca de go-
cacin estadstica junto con el tamao de la muestra y el tamao od-enough hypothesis y Rouanet (1996) con mtodos bayesianos
del efecto. nicamente el 7.3% de los trabajos contextualizaron el profundizan en esta perspectiva.
resultado de la significacin estadstica con el del tamao de la Recientemente Murphy y Myors (1999) ofrecen un mtodo
muestra, el 35.3% inform del tamao del efecto y slo una mi- sencillo para el clculo de hiptesis de efectos mnimos, que im-
nora menciona el alfa seleccionado (13.2%). plica elaborar las tablas de la distribucin no central F cuya cons-
truccin est determinada por los grados de libertad de la hipte-
Reflexiones metodolgicas sis (L1), los grados de libertad del error (L2) y el parmetro de no
centralidad (cuando se contrastan nil hypothesis es igual a ce-
Conviene tener claro desde el principio que el valor de la es- ro) que puede estimarse con:
timacin del tamao del efecto debe ser interpretado en el contex-
2 PV
to de un estudio y rea concreta de investigacin ya que un peque-
o tamao del efecto puede ser de gran importancia prctica en un 1 PV
contexto concreto por ejemplo de inter vencin clnica.
El investigador debe analizar posibles violaciones de la validez donde PV es el porcentaje de varianza en la variable dependiente
de conclusin estadstica de la investigacin, comprobando los su- que est explicada por la variable o variables independientes del
puestos estadsticos y conociendo el comportamiento de los estima- diseo. Cuanto mayor el valor de (y por lo tanto mayor PV) ma-
dores ya que por ejemplo, los ndices del tamao del efecto estn yor ser el valor emprico de F que se necesitara para rechazar la
afectados por el tamao de la muestra. As el cmputo de eta cua- hiptesis nula. La definicin de los efectos mnimos dara sentido
drado con muestras pequeas tiende a sobrestimar los efectos, reco- a la formulacin sustantiva de las hiptesis cuyos efectos de-
mendndose otros ndices como omega cuadrado (Young, 1993). pendern del rea psicolgica concreta en la que se formulen. Otra
TAMAO DEL EFECTO DEL TRATAMIENTO Y SIGNIFICACIN ESTADSTICA 239

ventaja que los autores aaden (Murphy y Myors, 1998) es que vestigacin seleccionado, y por extensin a las tcnicas matemti-
evitara que un resultado no estadsticamente significativo simple- cas de clculo sino que los criterios deben ser de orden terico
mente lo fuera al aumentar el tamao de la muestra ya que con el puesto que en resumidas cuentas, la inferencia estadstica nica-
mtodo de los efectos mnimos si los efectos reales del tratamien- mente proporciona, si se hace correctamente, la precisin, o incer-
to son triviales, la probabilidad de rechazar la hiptesis de un efec- tidumbre, de un enunciado cientfico. En definitiva, las pruebas de
to mnimo no se incrementa a medida que el tamao de la muestra significacin de la hiptesis nula sern adecuadas cuando se ajus-
aumenta sino que decrece . ten a los objetivos tericos planteados por el investigador pero
En conclusin, la responsabilidad de la construccin terica querer ir ms all o no ajustarse a sus supuestos implcitos es que-
de los enunciados psicolgicos no corresponde al mtodo de in- rer obtener algo que ella no nos puede dar.

Referencias

Abelson, R. P. (1997a). A retrospective on the significance test ban of Friedman, H. (1982). Simplified determinations of statistical power,
1999 (if there were no significance tests, they would be invented). En L. L. magnitude of efect and research sample size. Educational and Psychologi -
Harlow, S. A. Mulaik y J. H. Steiger (Eds.), What if there were no signifi - cal Measurement, 42, 521-526.
cance tests? Mahwah, NJ: Lawrence Erlbaum Associates. Fritz, R. W. (1995). Accepting the null hypothesis. Memory & Cogni -
Abelson,R. P. (1997b). On the surprising longevity of flogged horses: tion, 23, 132-138.
Why there is a case for the significance test. Psychological Science, 8, 12- Fritz,R. W. (1996). The appropriate use of null hypothesis testing. Psy -
15. chological Methods, 1, 379-390.
Aiken, L. S., West, S. G., Sechrest, L. y Reno, R. R (1990). Graduate Gigerenzer, G., Swijtink, Z., Porter, T., Daston, L., Beatty, J., & Kr-
training in statistics, methodology and measurement in psychology. Ame - ger, L. (1989). The empire of chance: How probability changed science
rican Psychologist, 45, 721-734. and everyday life. Cambridge: Cambridge University Press.
American Psychological Association (A.P.A.)(1994) Publications ma - Greenwald, A. G., Gonzalez, R., Harris, R. J., & Guthrie, D. (1996).
nual of the American Psychological Association (4th ed.). Washington, DC: Effect size and p-values: What should be reported and what should be re-
Author. plicated? Psychophysiology, 33, 175-183.
Bakan, D. (1966). The effect of significance testing in psychological Hagen, R. L. (1997). In praise of the null hypothesis statistical test.
research. Psychological Bulletin, 66, 423-437. American Psychologist, 52, 15-24.
Bakan, D. (1967). On method: Toward a reconstruction of psychologi - Hansen, J. C.(1995). Revised APA style manual recommended to aut-
cal investigation. San Francisco: Jossey-Bass. hors. Measurement and Evaluation in Counseling and Development, 28,
Carver, R. P. (1978). The case against statistical significance testing. 67-68.
Harvard Educational Review, 48, 378-399. Harlow, L.L.,Mulaik, S. A., & Steiger, J. H.(Eds.) (1997). What if the -
Carver, R. P. (1993). The case against statistical significance testing, re- re were no significances tests? Mahwah, NJ: Lawrence Erlbaum Associa -
visited. Journal of Experimental Education, 61, 287-292. tes.
Chow, S. L.(1988). Significance test or effect size? Psychological Bu - Heldref Publications (1997). Guidelines for contributors. Journal of
lletin, 103, 15-110. Experimental Education, 65, 95-96.
Chow, S. L.(1996). Statistical significance. Rationale, validity and uti - Henkel, R. E. (1976). Tests of significance . London, UK: Sage Publi-
lity. London, UK: Sage Publications. cations. Quantitative Applications in the Social Sciences series, Vol. 4.
Clark-Carter, D. (1997). The account taken of statistical power in rese- Howlin, P. (1997). When is a significant change not significant?. Jour -
arch published in the British Journal of Psychology. British Journal of Psy - nal of Autism and Developmental Disorders, 27, 347-348.
chology, 88, 71-83. Hunter, J. E.(1997). Needed: A ban on the significance test. Psycholo -
Cohen, J. (1962). The statistical power of abnormal-social psychologi- gical Science, 8, 3-7.
cal resear ch: a review. Journal of Abnormal and Social Psychology, 65, Kirk,R.E.(1996). Practical significance: a concept whose time has co-
145-153. me. Educational and Psychological Measurement, 56, 746-759.
Cohen, J. (1969): Statistical power analysis for the behavioral sciences. Levin, J. R. (1993). Statistical significance testing from three perspec-
New York, NY: Academic Press. tives. Journal of Experimental Education , 61, 378-382.
Cohen, J. (1988). Statistical power analysis for the behavioral science Loftus, G. R. (1993). Editorial comment. Memory & Cognition, 21, 1-3.
(2 nd ed.). Hillsdale, NJ: Lawrence Erlbaum Associates. Manzano, V. (1997). Usos y abusos del error de Tipo I. Psicolgica.
Cohen, J. (1990). Things I have learned (so far). American Psycholo - Revista de Metodologa. 18, 153-169.
gist, 45, 1304-1312. McClure, J., & Suen, H. K.(1994). Interpretation of statistical signifi-
Cohen, J. (1994). The earth is round (p < .05). American Psychologist, cance testing: A matter of perspective. Topics in Early Childhood Special
49, 997-1003. Education., 14, 88-100.
Cohen, J. (1997, August). Much ado about nothing. Lecture presented Meehl, P. E.(1978). Theoretical risk and tabular asterisks: Sir Karl, Sir
at the annual meeting of the American Psychological Association, Chicago. Ronald and the slow progress of soft psychology. Journal of Consulting
Cortina, J. M., & Dunlap, W. P. (1997). Logic and purpose of signifi- and Clinical Psychology, 46, 806-834.
cance testing. Psychological Methods, 2, 161-172. Morrison, D. E., & Henkel, R. E. (Eds.) (1970). The significance test
Cowles, M.(1989). Statistics in psychology: An historical perspective. controversy: a reader. Chicago: Aldine.
Hillsdale, NY: Lawrence Erlbaum Associates. Murphy, K. R. (1997). Editorial. Journal of Applied Psychology, 82, 3-
Craig, J. R.,Eison,C.L., & Metze, L. P. (1976). Significance tests and 5.
their interpretation: An example utilizing published research and omega- Murphy, K. R. & Myors, B. (1998). Statistical power analysis: A sim -
squared. Bulletin of the Psychonomic Society, 7, 280-282. ple and general model for traditional and modern hypothesis tests. Mah-
Falk, R., & Greenbaum, C. W. (1995). Significance tests die hard: the wah, NJ: Lawrence Erlbaum Associates.
amazing persistence of a probabilistic misconception. Theory and Psycho - Murphy, K. R. & Myors, B. (1999). Testing the hypothesis that treat-
logy, 2, 75-98. ments ha ve negligible effects: Minimun-ef fect tests in the general linear
Fowler, R. L.(1985). Testing for substantive significance in applied re- model. Journal of Applied Psychology, 84, 234-2484.
search by specifying nonzero null hypotheses. Journal of Applied Psycho - Rouanet, H. (1996). Ba yesian methods for assessing importance of ef-
logy, 70, 215-218. fects. Psychological Bulletin, 119, 149-158
240 MARA DOLORES FRAS NAVARRO, JUAN PASCUAL LLOBELL Y JOS FERNANDO GARCA PREZ

Schmidt, F. L. (1996). Statistical significance testing and cumulative Thompson, B. (1994). Guidelines for authors. Educational and Psy -
knowledge in psychology: Implications for the training of researchers. chological Measurement, 54, 837-847.
Psychological Methods, 1, 115-129. Thompson, B. (1996). AERA editorial policies regarding statistical sig-
Sedmeir, P. & Gigerenzer, G. (1989). Do studies of statistical power ha- nificance testing: Three suggested reforms. Educational Researcher, 25,
ve an effect on the power of studies? Psychological Bulletin, 105, 309-316. 26-30.
Serlin,R.C., & Lapsley, D. K.(1985). Rationality in psychological re- Thompson, B. (1997, August). If statistical significance tests are bro -
search: the good-enough principle. American Psychologist, 40, 73-83. ken/misused, what practices should supplement or replace them?. Paper
Serlin, R.C., & Lapsley, D. K. (1993). Rational appraisal of psycholo- presented at the annual meeting of the American Psychological Associa-
gical resear ch and the good enough principle. En G. Keren y C. Lewis, tion, Chicago.
(Eds.), A handbook for data analysis in the behavioral sciences: methodo - Thompson, B. (1999a). If statistical significance tests are broken/misu-
logical issues. Hillsdale, NJ: Lawrence Erlbaum. sed, what practices should supplement or replace them? Theory and Psy -
Shaver, J. (1985). Chance and nonsense. Phi Delta Happan, 67, 57-60. chology, 9, 165-181.
Shea, C. (1996). Psychologists debate accuracy of significance test. Thompson, B. (1999b). Statistical significance tests, effect size repor-
Chronicle of Higher Education, 42, A12, A16. ting and the vain pursuit of pseudo-objectivity. Theory and psychology, 9,
Snyder, P. & Lawson, S. (1993). Evaluating results using corrected and 191-196.
uncorrected effect size estimates. Journal of Experimental Education , 61, Thompson, B. (1999c). Why encouraging effect size reporting is not
334-349. working: The etiology of researcher resistance to changing practices. Jour -
Snyder, P. A., & Thompson, B. (1998). Use of tests of statistical signi - nal of Psychology, 133, 133-140.
ficance and other analytic choices in a school psychology journal: Review Thompson, B. (1999d). Improving research clarity and usefulness with
of practice and suggested alternati ves. School Psychology Quarter ly, 13, effect size indices as supplements to statistical significance tests. Excep -
335-348. tional Children, 65, 329-337.
Thompson, B. & Snyder, P. A.,(1998). Statistical significance testing y Vacha-Haase, T., & Ness, C. M. (1999). Statistical significance tes-
reliability analyses in recent JCD research articles. Journal of Counseling ting as it relates to practice: Use within Professional Psychology: Rese-
and Development, 76, 436-441. arch and Practice. Professional Psychology: Research and Practice, 30,
Thompson, B. & Snyder, P. A., (1997). Statistical significance testing 104-105.
practices in the Journal of Experimental Education. Journal of Experi - Vacha-Haase, T., & Nilsson, J. E.(1998). Statistical significance repor-
mental Education, 66, 75-83. ting: Current trends and usages within MECD. Measurement and Evalua -
Thompson, B. (1988). A note about significance testing. Measurement tion in Counseling and Development, 31, 46-57.
and Evaluation in Counseling and Development, 20, 146-148. Valera, A. & Snchez, J. (1997). Pruebas de significacin y magni-
Thompson, B. (1989). Asking what if questions about significance tests. tud del efecto: reflexiones y propuestas. Anales de Psicologa, 13, 85-
Measurement and Evaluation in Counseling and Development, 22, 66-68. 90.
Thompson, B. (1993). The use of statistical significance tests in rese- Young, M. A. (1993). Supplementing tests of statistical significance:
arch: Bootstrap and other alternatives. Journal of Experimental Education, Variation accounted for. Journal of Speech and Hearing Research, 36, 644-
61, 361-377. 656.

Anda mungkin juga menyukai