Volumen II
Antonio Pardo
Rafael San Martn
Universidad Autnoma de Madrid
ndice de contenidos
Presentacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1. La inferencia estadstica
La inferencia estadstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
El contraste de hiptesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Un ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Qu significa rechazar y no rechazar la hiptesis nula . . . . . . . . . . . . . . . . . . . . . . . 23
Contrastes bilaterales y unilaterales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Errores Tipo I y II, y potencia de un contraste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
Factores de los que depende la potencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Tamao del efecto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Clasificacin de los contrastes de hiptesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Programas informticos para el anlisis de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .38
Apndice 1
Clculo de la potencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Curva de potencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Apndice 4
La prueba de Kolmogorov-Smirnov para dos muestras independientes . . . . . . . . . . 156
La prueba de las rachas de Wald-Wolfowitz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
La prueba de reacciones extremas de Moses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
ANOVA de dos factores con medidas repetidas en uno (AB-CA-MR) con SPSS . . 351
Esfericidad multi-muestra e igualdad de varianzas . . . . . . . . . . . . . . . . . . . . . . . 356
Hiptesis globales (efecto de A, de B y de AB ) . . . . . . . . . . . . . . . . . . . . . . . . . . 357
Comparaciones post hoc: efectos principales . . . . . . . . . . . . . . . . . . . . . . . . . . . 358
Comparaciones mltiples: efectos simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359
Comparaciones mltiples: efecto de la interaccin . . . . . . . . . . . . . . . . . . . . . . . 360
Apndice 9
La sentencia MMATRIX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362
Anlisis de los efectos simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363
Comparaciones entre los niveles de un mismo efecto simple . . . . . . . . . . . . . . . 364
Anlisis del efecto de la interaccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 368
Este manual de anlisis de datos es el segundo volumen de una serie dedicada a revisar los
procedimientos estadsticos comnmente utilizados en el mbito de las ciencias sociales
y de la salud.
En la presentacin del primer volumen hemos argumentado ya acerca de la necesidad
de un nuevo manual de anlisis de datos y acerca de qu contenidos seleccionar y cmo
organizarlos y exponerlos. Lo dicho all sirve tambin aqu.
Aunque este manual va dirigido, principalmente, a estudiantes de las disciplinas en-
globadas en las ciencias sociales y de la salud, no se trata de un material diseado exclusi-
vamente para ellos. Tambin pretende servir de ayuda a los profesores de anlisis de datos
y a los investigadores. Creemos que ambos pueden encontrar, en ste y en los dems vol-
menes, las respuestas a muchas de las preguntas que se formulan en su trabajo cotidiano.
Los Captulos 1 al 5 de este volumen sirven de complemento a los Captulos 7 al 12
del primer volumen. Se vuelve a prestar atencin a la inferencia estadstica, pero presen-
tando nuevos conceptos (errores Tipo I y II, potencia estadstica, tamao del efecto, etc.).
Y se vuelve a estudiar cmo analizar una y dos variables aadiendo nuevas herramientas
(pruebas no paramtricas, contrastes de equivalencia y no inferioridad, ndices de riesgo
y de acuerdo, etc.). El resto de los captulos se centran en las dos concreciones ms impor-
tantes del modelo lineal general: el anlisis de varianza y el anlisis de regresin lineal. Por
tanto, los contenidos de estos dos primeros volmenes coinciden, en esencia, con los conte-
nidos que incluyen muchos planes de estudios para formar en estadstica a los estudiantes
de los nuevos grados universitarios. En el tercer volumen prestaremos atencin a proce-
dimientos ms avanzados para satisfacer las necesidades de los estudiantes de posgrado y
de los investigadores que necesitan aplicar herramientas ms sofisticadas o tratar con un
mayor nmero de variables.
Un profesional o un investigador de las ciencias sociales y de la salud no es un esta-
dstico y, muy probablemente, tampoco pretende serlo. Consecuentemente, no necesita ser
un experto en los fundamentos matemticos de las herramientas estadsticas que aplica. En
la elaboracin de este manual y de los restantes de la coleccin hemos pretendido ofrecer
una exposicin asequible de los procedimientos disponibles y hemos intentado poner el
nfasis en (1) cmo razonar para elegir el procedimiento apropiado, (2) cmo aplicarlo con
una calculadora de bolsillo y con un programa informtico y (3) cmo interpretar correc-
tamente los resultados que ofrece. Esta es la razn que justifica que hayamos prestado ms
atencin a los aspectos prcticos o aplicados que a los tericos o formales, aunque sin des-
cuidar estos ltimos.
16 Anlisis de datos (vol. I)
Antonio Pardo
Rafael San Martn
1
La inferencia estadstica
El anlisis de datos es una actividad que se desarrolla en fases: comienza con la seleccin y
recopilacin de los datos, contina con la aplicacin de herramientas descriptivas para explo-
rar, organizar y resumir la informacin contenida en los datos y termina (no necesariamente,
pero s habitualmente) con la aplicacin de herramientas inferenciales para llevar a cabo com-
paraciones y estudiar relaciones.
En el volumen I de Anlisis de datos en ciencias sociales y de la salud (Pardo, Ruiz y San
Martn, 2009) hemos estudiado ya lo relativo a la seleccin de casos (brevemente, pues esta
parte es objeto de los diseos de investigacin) y a las herramientas disponibles para abordar
la fase descriptiva (Captulos 3 al 6). Tambin hemos ofrecido ya una primera aproximacin
al concepto de inferencia estadstica y a su lgica (Captulos 7 y 8), y hemos estudiado algu-
nas herramientas inferenciales bsicas (Captulos 9 al 12). En este captulo vamos a revisar
la lgica de la inferencia estadstica (repasando algunos aspectos ya estudiados y prestando
atencin a otros nuevos) para terminar de familiarizarnos con el importantsimo rol que de-
sempea en el anlisis de datos.
La inferencia estadstica
La inferencia estadstica es un tipo de razonamiento que procede de lo particular a lo general.
Permite extraer conclusiones de tipo general sobre la forma de una poblacin o sobre alguno
de sus parmetros a partir de la informacin particular contenida en una muestra procedente
de esa poblacin.
El trabajo con herramientas inferenciales consiste, principalmente, en realizar compara-
ciones y estudiar relaciones con los datos disponibles y en trasladar los resultados de esas
comparaciones y relaciones a las poblaciones de donde proceden los datos.
Estas inferencias (comparaciones, relaciones) suelen llevarse a cabo utilizando dos estra-
tegias distintas: la estimacin de parmetros y el contraste de hiptesis. Al estudiar estas
estrategias en el primer volumen hemos visto que ofrecen informacin complementaria y que,
en muchos aspectos, son equivalentes (ambas permiten abordar el mismo tipo de problemas
y llegar a las mismas conclusiones, aunque con algunos matices que ya hemos estudiado y
sobre los que volveremos aqu).
18 Anlisis de datos (vol. II)
El contraste de hiptesis
En este apartado se repasa brevemente la lgica del contraste de hiptesis ya estudiada en el
Captulo 8 del primer volumen (en caso necesario, consultar ese captulo).
Recordemos que un contraste de hiptesis (hypothesis test), tambin llamado contraste
o prueba de significacin (significance test), es un proceso de toma de decisiones en el que
una afirmacin formulada en trminos estadsticos es puesta en relacin con los datos em-
pricos para determinar si es o no compatible con ellos1. Es decir, un contraste de hiptesis
es una estrategia diseada para tomar decisiones: permite decidir si una proposicin acerca
de una poblacin puede mantenerse o debe rechazarse2. Como tal, constituye una herramienta
esencial para ayudar a elegir entre hiptesis rivales y, de forma ms o menos directa, para
recoger evidencia emprica en apoyo de una cuestin cientfica.
Este proceso de decisin comienza con la formulacin de una afirmacin estadstica so-
bre la cual se desea tomar una decisin. A esta afirmacin se le llama hiptesis nula (H0 ) y
siempre se refiere a la forma de una o varias distribuciones poblacionales, o al valor de uno
1
El primer trabajo en el que se plantea la posibilidad de evaluar hiptesis cientficas a partir de datos muestrales se debe
a K. Pearson y se remonta a 1901. Pero fue R. Fisher (1925) quien present formalmente el mtodo que ha evolucionado
hasta lo que hoy conocemos como contrastes de hiptesis o pruebas de significacin. A la propuesta original de Fisher se
incorporaron rpidamente las aportaciones de J. Neyman y E. Pearson (1928) y, en los aos inmediatamente siguientes, los
avances en el propio mtodo y en las concepciones tericas subyacentes al mismo no fueron fruto de una reflexin pausada
y sistemtica sobre la forma correcta de llevar a cabo el trabajo cientfico, sino de acalorados debates con cambios de postura
e incorporaciones del adversario no siempre reconocidas como tales. Esta mezcla de aportaciones ha dado como resultado
el contraste de hiptesis tal como lo conocemos y aplicamos hoy: bsicamente, una mezcla de las aportaciones de Fisher
y de Neyman-Pearson (ver Gigerenzer, 1993; Oakes, 1986).
2
A pesar de que el contraste de hiptesis viene utilizndose de forma generalizada por la comunidad cientfica desde hace
ms de medio siglo, rara vez se ha visto libre de crticas (ver Morrison y Henkel, 1970). Estas crticas han alcanzado su m-
xima expresin en la pasada dcada de los noventa, la cual ha sido testigo de un agrio debate promovido por una corriente
muy beligerante con el uso y abuso de esta estrategia (para una revisin de este debate ver Balluerka, Gmez e Hidalgo,
2005; Harlow, Mulaik y Steiger, 1997; y, muy especialmente, Nikerson, 2000). Algunos autores han llegado a proponer,
incluso, el abandono del contraste de hiptesis por no considerarlo un mtodo vlido para generar conocimiento cientfico
(Cohen, 1990, 1994; Gigerenzer, 1993; Hunter, 1997; Oakes, 1986; Rozeboom, 1960, 1997; Schmidt, 1996; etc.). Algunas
de estas crticas se han dirigido al propio mtodo (nos iremos ocupando de ellas), pero la mayora de ellas, y han sido
muchas y muy duras en las formas, se han concentrado, sobre todo, en lo que el mtodo no puede hacer y en el mal uso que
se hace de l; y esto, obviamente, no tiene nada que ver con lo que s hace y con su buen uso. Por supuesto, todas las obje-
ciones formuladas al contraste de hiptesis han recibido cumplida respuesta (ver, por ejemplo Abelson, 1997a, 1997b;
Chow, 1996; Cortina y Dunlap, 1997; Hagen, 1997; Mulaik, Raju y Harshman, 1997); de ah que sigamos utilizndolo. De
hecho, nuestra impresin es que todas las crticas que ha recibido y sigue recibiendo sirven, ms que nada, para fortalecerlo.
La aplicacin de un mtodo, cualquiera que ste sea, como un ritual carente de reflexin puede terminar convirtiendo el
uso en abuso. La mejor manera de evitar que ocurra esto consiste en conocer a fondo el mtodo identificando con claridad
sus fortalezas y debilidades. se es el objetivo de este captulo. Intentaremos exponer el contraste de hiptesis tal como se
aplica actualmente, destacando sus posibilidades, llamando la atencin sobre lo que no puede hacer y, muy particularmente,
proponiendo todo aquello de lo que conviene acompaarlo para mejorarlo.
Captulo 1. La inferencia estadstica 19
o ms parmetros de esas distribuciones. Las hiptesis estadsticas estn relacionadas con las
hiptesis cientficas que se desea contrastar (es decir, con los enunciados que suelen hacer los
cientficos para resolver o aclarar algn problema de conocimiento), lo cual supone que una
hiptesis cientfica permite derivar algunas implicaciones acerca de la forma de una o varias
distribuciones poblacionales, o acerca del valor de uno o ms parmetros de esas distribucio-
nes. Por ejemplo, la hiptesis cientfica los tratamientos antidepresivos A y B son igualmente
eficaces implica3, en trminos estadsticos, A = B; es decir, la media de la variable depresin
en la poblacin de pacientes que han recibido el tratamiento A es igual que la media de la mis-
ma variable en la poblacin de pacientes que han recibido el tratamiento B. La hiptesis nula
(la hiptesis que se pone a prueba en un contraste de hiptesis) se plantea en trminos de no-
diferencias o no-relacin, es decir, en trminos de diferencias o relaciones nulas4 (esto es de-
bido a la naturaleza del argumento lgico en el que se basa el contraste de hiptesis modus
tollens y tiene que ver con el hecho de que la negacin o falsacin de enunciados es conclu-
yente, en tanto que la corroboracin de los mismos no lo es. Volveremos sobre esto.
Formulada la hiptesis estadstica, el siguiente paso de un contraste de hiptesis consiste
en buscar evidencia emprica capaz de informar sobre si la hiptesis formulada es o no soste-
nible. Esta bsqueda de evidencia se basa en un sencillo argumento: si una hiptesis concreta
referida a una distribucin poblacional es cierta, al extraer una muestra de esa poblacin es
razonable esperar encontrar un resultado muestral similar al que esa hiptesis propone para
la distribucin poblacional. Por ejemplo, si la hiptesis de que los tratamientos antidepresivos
A y B son igualmente eficaces (A = B) es cierta, al extraer una muestra aleatoria de la pobla-
cin de pacientes tratados con A y otra de la poblacin de pacientes tratados
_ _con B, cabe es-
perar que el nivel medio de depresin observado en ambas muestras, Y A y Y B , sea similar.
Recordemos que, en el contexto del contraste de hiptesis, la evidencia emprica se resume
en un valor numrico denominado estadstico del contraste; y recordemos tambin que este
estadstico es un valor muestral que, si se dan las condiciones apropiadas (condiciones a las
que nos hemos referido como supuestos del contraste), adems de informar sobre la hipte-
sis planteada, posee una distribucin muestral conocida.
Si la evidencia emprica (resultado muestral) difiere de la afirmacin establecida en H0,
pueden estar ocurriendo dos cosas: (1) la hiptesis no es cierta y, por tanto, es incapaz de
ofrecer predicciones correctas; (2) la hiptesis es cierta y la discrepancia observada entre H0
y los datos es debida a la variabilidad propia de los datos muestrales. La clave de este argu-
mento est, precisamente, en poder discernir cundo una discrepancia entre lo que afirma H0
y lo que dicen los datos es lo bastante grande como para poder considerar que el resultado
muestral observado es incompatible con H0, es decir, lo bastante grande como para conside-
rar que la discrepancia entre H0 y los datos no es explicable por la variabilidad debida al azar
muestral sino por el hecho de que la hiptesis planteada es realmente falsa.
3
En un contraste de hiptesis se pone a prueba una hiptesis estadstica, no una hiptesis cientfica. Las conclusiones que
pueden extraerse sobre la hiptesis cientfica de la que se deriva la hiptesis estadstica dependen del grado de conexin
existente entre ambas, el cual a veces es evidente y a veces no tanto (Meehl, 1967, 1978, 1990). En relacin con esta tem-
tica pueden consultarse las interesantes reflexiones de Chow (1996, Cap. 3).
4
Una de las crticas dirigidas al contraste de hiptesis se ha centrado justamente en el hecho de que la hiptesis nula es una
hiptesis de no diferencias o no relacin, es decir, una hiptesis, argumentan los crticos, que siempre es falsa (Bakan, 1966;
Meehl, 1978; Cohen, 1994; Schmidt, 1992, 1996; etc.) porque en el mundo real no existen poblaciones idnticas. Y qu
sentido tiene poner a prueba una hiptesis que se sabe que es falsa? Esta crtica olvida que la hiptesis nula no es una afir-
macin sobre el mundo real, sino una afirmacin estadstica cuya verdad o falsedad es irrelevante; se formula para poder
definir una distribucin muestral y construir un argumento a partir de ella (ver Chow, 1996, pgs. 56-57; Hagen, 1997).
20 Anlisis de datos (vol. II)
Hace falta, y este es el siguiente paso del proceso, una regla de decisin. Aunque podran
establecerse reglas de decisin muy diferentes, la teora de la decisin se ha encargado de
elaborar algunos argumentos que se han trasladado al contraste de hiptesis. La regla de deci-
sin que se utiliza se basa en el grado de compatibilidad existente entre la hiptesis nula y
los datos. Y para cuantificar el grado de compatibilidad hiptesis-datos se recurre a la teora
de la probabilidad. El hecho de tener que trabajar con muestras en lugar de poblaciones
introduce variabilidad en los datos y obliga a recurrir a la inferencia y a tener que establecer
una regla de decisin en trminos de probabilidad. Se obtiene as un nmero comprendido en-
tre 0 y 1, al que llamamos nivel crtico o valor p, que representa la probabilidad asociada a
los datos observados si se asume que la hiptesis planteada es cierta: un valor p alto indica
alta compatibilidad hiptesis-datos; un valor p bajo indica baja compatibilidad.
La cuestin clave en este momento est en decidir cundo un valor p debe considerarse
alto (alta compatibilidad) o bajo (baja compatibilidad). Para ello, la comunidad cientfica ha
consensuado un punto de corte arbitrario5, pero razonable, en 0,05. A este punto de corte se
le llama nivel de significacin. Si el valor p obtenido en una muestra concreta es menor que
el nivel de significacin consensuado (0,05), se considera que los datos son incompatibles con
la hiptesis nula planteada. Con esta regla de decisin se llega a dos posibles decisiones sobre
la hiptesis nula: mantenerla, por considerarla compatible con los datos, o rechazarla, por
considerarla incompatible con los datos. El rechazo de H0 implica afirmar lo que H0 niega.
As, si H0 afirma que el efecto estudiado es nulo (es decir, que no hay diferencias, que no hay
relacin), el rechazo de H0 permitir afirmar que el efecto estudiado no es nulo (es decir, per-
mitir afirmar que s hay diferencias, que s hay relacin). A esta afirmacin complementaria
de H0 se le llama hiptesis alternativa6 y se representa mediante H1.
Un ejemplo
Imaginemos que un profesor desea evaluar el conocimiento que un estudiante ha adquirido
de una determinada materia. Imaginemos, adems, que el profesor desea evaluar los conoci-
mientos del estudiante hacindole una pregunta con cuatro alternativas de respuesta de las que
5
El hecho de que un punto de corte sea arbitrario no le resta utilidad (los colores elegidos para las luces de los semforos
son arbitrarios y eso no les impide ser tiles). Los puntos de corte arbitrarios forman parte inherente de todo proceso de
decisin con incertidumbre: se fija un punto de corte para aprobar a los estudiantes, para determinar si se aplica un trata-
miento, para conceder un crdito, etc. Permiten tomar decisiones. Curiosamente, quienes critican la arbitrariedad de estable-
cer un punto de corte en 0,05 no tienen ningn inconveniente en admitir los puntos de corte arbitrarios que incluyen en sus
propuestas (por ejemplo, el valor en torno al cual debe estar la potencia idnea de un contraste, o los valores que permiten
caracterizar un efecto como de tamao pequeo, mediano o grande; ver Glass, McGraw y Smith, 1981).
Est justificado un punto de corte arbitrario? Si est claramente definido, sirve para tomar decisiones. No faltan quienes
defienden que ese punto de corte debera ser flexible y tener en cuenta los costes y beneficios de cada decisin (Labovitz,
1968; Oakes, 1986; Skipper, Guenther y Nass, 1967; ver, ms adelante, el apartado Errores Tipo I y II, y potencia de un con-
traste). Pero un punto de corte flexible estara introduciendo un elemento de subjetividad en el proceso al permitir, con unos
mismos datos, obtener conclusiones distintas a distintos investigadores (ver Chow, 1996, pg. 38; Frick, 1996).
6
En su propuesta original del contraste de hiptesis, Fisher (1925) nicamente habla de la hiptesis nula. La consideracin
simultnea de dos hiptesis complementarias, H0 y H1 , se debe a Neyman y Pearson (1928). En la propuesta de Fisher, el
contraste de hiptesis se concibe como una forma de resumir la informacin muestral y de elaborar un argumento a favor
de una cuestin cientfica. Con las aportaciones de Neyman y Pearson, el contraste de hiptesis empieza a interpretarse como
un mtodo de toma de decisiones en el que necesariamente se elige entre dos hiptesis rivales (H0 y H1) a partir de un nivel
de significacin prefijado (ver Chow, 1996, pgs. 21-24, para una reflexin sobre las coincidencias y diferencias entre la
propuesta inicial de Fisher y las aportaciones de Neyman y Pearson).
Captulo 1. La inferencia estadstica 21
solamente una es correcta. Si el estudiante no conoce la materia, cabe esperar que responda
al azar, en cuyo caso la probabilidad de acertar la pregunta valdr
Pacierto = 1 / 4 = 0,25
(Pues hay 1 manera de responder bien y 4 posibles maneras de responder). El profesor se
percata de que la probabilidad de acertar por azar es demasiado grande y comprende que con
una sola pregunta no puede distinguir si el estudiante est acertando por azar o porque real-
mente conoce la respuesta. Decide probar con dos preguntas y constata que la probabilidad
de acertar por azar las dos preguntas vale
Pacierto = 1 / 16 = 0,0625
(hay 1 manera de responder bien y 4 4 = 16 posibles maneras de responder). Aunque esta
probabilidad es ms pequea que la anterior, nuestro profesor considera que no es lo bastante
pequea como para poder confiar en que dos respuestas correctas sirvan para descartar que
el estudiante est respondiendo al azar. Decide probar con tres preguntas. La probabilidad de
acertar por azar las tres preguntas vale
Pacierto = 1 / 64 = 0,0156
(hay 1 manera de responder bien y 4 4 4 = 64 posibles maneras de responder). El profesor
considera, por fin, que esta probabilidad ya es lo bastante pequea como para poder confiar
en que un estudiante que acierte las tres preguntas no estar respondiendo al azar. Y, para
evaluar los conocimientos del estudiante, decide hacerle tres preguntas y aprobarlo si acierta
las tres.
En un contraste de hiptesis hacemos algo parecido a lo que acaba de hacer el profesor
con su estudiante, pero con la diferencia de que el proceso est mecanizado. Para evaluar los
conocimientos de un estudiante sobre una determinada materia (ste es el objetivo del estu-
dio), comenzamos formulando nuestra hiptesis de investigacin; por ejemplo: el estudiante
conoce la materia.
Para poder contrastar esta hiptesis, lo primero que tenemos que hacer es transformarla
en hiptesis estadstica. Puesto que hemos decidido utilizar preguntas con cuatro alternativas
de respuesta de las que solamente una es correcta, la hiptesis nula puede formularse tomando
como referencia el nmero o la proporcin de aciertos7:
$ 0,25
H0 : acierto <
Esta hiptesis afirma que la proporcin de acertar una pregunta es igual o menor que la pro-
porcin de acertar por azar. Y es la afirmacin estadstica que asumimos como equivalente
de la afirmacin no estadstica el estudiante no conoce la materia. La hiptesis nula suele
recoger la idea de que el efecto estudiado es nulo; aqu, el efecto estudiado es el conocimiento
de la materia; de ah que la hiptesis nula se haga corresponder con la afirmacin de que tal
efecto no existe.
La afirmacin complementaria de esta hiptesis nula, es decir, la hiptesis alternativa, se
obtiene a partir de la negacin de la hiptesis nula. Por tanto, adopta la forma
H1 : acierto > 0,25
7
Si estuviramos comparando dos grupos en una variable cuantitativa, H0 podra hacer referencia a los promedios; si
estuviramos estudiando la relacin entre dos variables, H0 podra hacer referencia a algn coeficiente de correlacin; etc.
22 Anlisis de datos (vol. II)
Esta hiptesis afirma que la proporcin de acertar es mayor que la esperable por azar. Y es
la afirmacin estadstica que asumimos que equivale a la afirmacin no estadstica (hiptesis
de investigacin) el estudiante conoce la materia.
Para poder tomar una decisin sobre esta hiptesis nula (mantenerla o rechazarla), op-
tamos por hacer cinco8 preguntas a nuestro estudiante. Si H0 es verdadera, es decir, si el es-
tudiante realmente no conoce la materia, cabe esperar encontrar pocos aciertos (no ms de
los esperables por azar). Por el contario, si H0 es falsa, es decir, si el estudiante s conoce la
materia, cabe esperar encontrar muchos aciertos (ms de los esperables por azar).
Ahora bien, si el estudiante acierta 3 de las 5 preguntas, podremos concluir que ese re-
sultado es mayor que el esperable por azar?, y si acierta 4?, tiene que acertar las 5 preguntas
para que podamos descartar que est respondiendo al azar? Es decir, con cuntos aciertos
podremos concluir que el estudiante ha superado el resultado ms alto esperable por azar?
Para responder esta pregunta, en lugar de basarnos en nuestras impresiones subjetivas, recurri-
mos a la teora de la probabilidad intentando establecer una regla de decisin que nos permita
llegar a alguna conclusin. Aplicando esta regla, un nmero de aciertos esperable por azar (un
resultado probable cuando se responde al azar), llevar a decidir que la hiptesis planteada
es compatible con los datos y a sospechar que el estudiante no conoce la materia. Por el con-
trario, un nmero de aciertos superior al esperable por azar (un resultado improbable cuando
se responde al azar), llevar a decidir que la hiptesis planteada es incompatible con los datos
y a concluir que el estudiante s conoce la materia (pues si acierto < $ 0,25 es una afirmacin
incorrecta, entonces la afirmacin correcta debe ser acierto 0,25).
Esta regla de decisin obliga a concretar cmo cabe esperar que se comporte la realidad
(los datos) cuando la hiptesis nula formulada es verdadera. Y lo que esto significa es que hay
que elegir el estadstico del contraste (que resume el comportamiento de la realidad) y su
distribucin muestral (que indica cmo cabe esperar que se comporte la realidad cuando H0
es verdadera). El estadstico ya lo hemos elegido: el nmero de aciertos. Su distribucin
muestral9 es la que ofrece la Tabla 1.1. La fila nacierto recoge el nmero de aciertos que pueden
darse al responder 5 preguntas (puede no acertarse ninguna, o una, o dos, ..., o las cinco). La
fila P (nacierto ) contiene la probabilidad asociada a cada valor nacierto cuando se realizan 5 ensa-
yos independientes (5 preguntas) con probabilidad terica de acertar igual a 0,25.
n acierto 0 1 2 3 4 5
P (n acierto ) 0,2373 0,3955 0,2637 0,0879 0,0146 0,0010
Para tomar una decisin sobre H0 se utiliza, como regla de decisin, un punto de corte prefi-
jado en 0,05: los resultados con probabilidad asociada menor que 0,05 se consideran impro-
bables y, consecuentemente, incompatibles con H0. Por tanto, cuando se obtiene un resultado
8
Podramos hacer diez preguntas, o quince, etc. Se trata de hacer tantas preguntas como sea necesario para poder descartar
la hiptesis del azar (acabamos de ver que con pocas preguntas no es posible hacerlo). Pero esto no es todo. Al recoger infor-
macin muestral se debe procurar hacer un barrido lo ms completo posible por la poblacin muestreada (en el ejemplo, el
conjunto de contenidos de la materia). Y esto es ms fcil hacerlo con muestras grandes que con muestras pequeas.
9
Puesto que se trata de n ensayos independientes de Bernoulli, con probabilidad constante 0,25 en cada ensayo, estas proba-
bilidades se obtienen de distribucin binomial con n = 10 y 1 = 0,25 (ver Captulo 6 del primer volumen).
Captulo 1. La inferencia estadstica 23
Para tomar una decisin sobre H0 , la distribucin muestral del estadstico del contraste se
divide en dos zonas exclusivas y exhaustivas (ver Figura 8.1 del primer volumen; pg. 231):
la zona de rechazo y la zona de aceptacin.
La zona de rechazo, tambin llamada zona crtica, es la zona de la distribucin muestral
correspondiente a los valores del estadstico del contraste que se encuentran tan alejados de
la afirmacin establecida en H0 que es muy poco probable que ocurran si H0, como se asume,
es verdadera; es decir, la zona en la que se encuentran los datos poco compatibles con H0. La
probabilidad asociada a esta zona de rechazo o crtica es el nivel de significacin o nivel de
riesgo y se representa con la letra griega (alfa).
La zona de aceptacin es la zona de la distribucin muestral correspondiente a los valo-
res del estadstico del contraste prximos a la afirmacin establecida en H0. Es, por tanto, la
zona en la que se encuentran los valores del estadstico que es probable que ocurran si H0,
como se supone, es verdadera; es decir, la zona en la que se encuentran los datos compatibles
con H0. La probabilidad asociada a esta zona de aceptacin es el nivel de confianza y se re-
presenta mediante 1 ! .
Una vez definidas las zonas de rechazo y de aceptacin, se aplica la siguiente regla de
decisin:
Rechazar H0 cuando el estadstico del contraste toma un valor perteneciente a la zona
de rechazo o crtica; mantener H0 cuando el estadstico del contraste toma un valor
perteneciente a la zona de aceptacin.
Por tanto, se rechaza una H0 particular porque eso significa que el valor del estadstico del
contraste se aleja demasiado de la prediccin establecida en esa hiptesis, es decir, porque,
10
Lo que se est intentando determinar es cunto se aleja cada posible resultado muestral (cada posible nmero de aciertos)
de su valor esperado (en el ejemplo, el valor esperado del nmero de aciertos es n acierto = 5(0,25) = 2,5). Esto puede saberse
ubicando cada resultado en la posicin exacta que ocupa en su distribucin muestral. Y esa posicin se conoce calculando,
no la probabilidad individual de cada resultado, sino la probabilidad que queda por encima de cada resultado (se trata de
un contraste unilateral derecho; si el contraste fuera unilateral izquierdo calcularamos la probabilidad que queda por debajo
de cada resultado; ver siguiente apartado). A esta probabilidad es a la que llamamos nivel crtico o valor p y es a la que nos
referimos de forma abreviada como probabilidad asociada.
24 Anlisis de datos (vol. II)
si esa H0 fuera verdadera, el estadstico del contraste no debera tomar ese valor (sera impro-
bable que lo tomara, aunque no imposible); si de hecho lo toma, lo razonable es concluir que
esa H0 no debe ser verdadera. Es importante reparar en el hecho de que la decisin siempre
se toma sobre H0 .
Con esta regla de decisin se est asumiendo que la probabilidad asociada al estadstico
del contraste indica el grado de compatibilidad existente entre la hiptesis nula y los datos.
A esta probabilidad (grado de compatibilidad) la llamamos nivel crtico (tambin se le llama
nivel de significacin observado) y la representamos mediante p:
que afirmar que el estudiate conoce la materia; lo que se est afirmando es que es improbable
que el estudiante haya respondido al azar. Cuando ocurre esto decimos que el resultado ob-
servado es estadsticamente significativo. Y, basndonos en la lgica del procedimiento, asu-
mimos que el efecto observado en la muestra est presente en la poblacin11.
Existe una asimetra evidente entre las dos conclusiones que se siguen de la decisin de
un contraste. Si se rechaza H0 se est afirmando que ha quedado probado que H0 es falsa (con
las limitaciones propias de una decisin basada en probabilidades; es decir, sin la certeza
absoluta de que las cosas sean as). Por el contrario, si se mantiene H0 , no se est afirmando
que ha quedado probado que H0 es verdadera, sino solamente que la evidencia emprica dis-
ponible no permite rechazarla. Por tanto:
Mantener una hiptesis nula significa que se considera que esa hiptesis es compatible
con los datos. Rechazar una hiptesis nula significa que se considera probado (con la
limitacin sealada) que esa hiptesis es falsa.
La razn de esta asimetra en la conclusin es doble. Por un lado, dada la naturaleza inespec-
fica de H1 (recordemos que H1 es una afirmacin inexacta), raramente es posible afirmar que
H1 no es verdadera; las desviaciones pequeas de H0 forman parte de H1, por lo que al
mantener una H0 particular, tambin se estn manteniendo, muy probablemente, algunos de
los valores incluidos en H1 (Tukey, 1991); debe concluirse, por tanto, que se mantiene o no
se rechaza H0 , pero no que se acepta como verdadera.
Por otro lado, en el razonamiento que lleva a tomar una decisin sobre H0, puede reco-
nocerse el argumento deductivo modus tollens (si a, entonces b; no b, luego no a), aunque de
tipo probabilstico:
Si H0 es verdadera (si a), entonces, muy probablemente, los datos sern compatibles con
ella (entonces, muy probablemente, b); los datos no son compatibles con H0 (no b); luego,
muy probablemente, H0 no es verdadera (luego, muy probablemente, no a).
Dicho de forma algo ms tcnica:
Si H0 es verdadera, entonces, muy probablemente, el estadstico del contraste tomar un
valor de la zona de aceptacin (si a, entonces, muy probablemente, b); el estadstico del
contraste no toma un valor de la zona de aceptacin (no b); luego, muy probablemente,
H0 no es verdadera (luego, muy probablemente, no a).
Este argumento es correcto desde el punto de vista lgico, y til12. Sin embargo, si una vez
establecida la primera premisa se contina de esta otra manera:
El estadstico del contraste cae en la zona de aceptacin (entonces b); luego, muy pro-
bablemente, H0 es verdadera (luego, muy probablemente, a),
11
En este salto de la hiptesis estadstica a la hiptesis cientfica o de investigacin debe tenerse siempre presente que una
hiptesis de investigacin puede ser afirmada nicamente en la medida en que se corresponde con la hiptesis estadstica
que la representa (ver Chow, 1996, Cap. 3).
12
El hecho de que este argumento cambie las premisas categricas del modus tollens por premisas probabilsticas ha llevado
a algunos autores, no solo a dudar de su validez lgica, sino a afirmar que no permite llegar a conclusiones correctas (ver,
por ejemplo, Cohen, 1994; Falk y Greenbaum, 1995). Sin embargo, estas objeciones han recibido cumplida respuesta que
han venido a destacar, no ya la utilidad del argumento, que la tiene, sino su validez lgica cuando se aplica correctamente
(ver Cortina y Dunlap, 1997; Hagen, 1997, 1998; McDonald, 1997).
26 Anlisis de datos (vol. II)
entonces se comete un error lgico llamado falacia de la afirmacin del consecuente, pues
el estadstico del contraste puede haber tomado un valor de la zona de aceptacin por razones
diferentes13 de las contenidas en H0.
13
Buscar un efecto es como buscar un objeto en un cuarto trastero. Cuando se busca algo y se encuentra se puede afirmar
que estaba. Cuando se busca algo y no se encuentra no es posible afirmar que no est; puede ocurrir, desde luego, que real-
mente no est, pero tambin puede ocurrir que no se haya buscado bien.
Captulo 1. La inferencia estadstica 27
La zona de rechazo o crtica, por tanto, debe situarse all donde pueden aparecer los valo-
res muestrales incompatibles con H0, es decir, all donde indica H1. Y esto es algo que depen-
de nicamente de lo que interese estudiar en cada caso concreto. Por ejemplo, para comparar
la eficacia de dos tratamientos sin una expectativa justificada (estudios previos, intereses
concretos, etc.) sobre cul de los dos es ms eficaz, lo razonable es plantear un contraste bila-
teral (H1 : A =/ B). Lo cual significa que la zona crtica debe recoger los valores muestrales
que vayan tanto en la direccin A ! B > 0 como en la direccin A ! B < 0. Pues, si H0 es
falsa, lo ser tanto si A es mayor que B como si A es menor que B; y la zona crtica debe-
r recoger ambas posibilidades14. Por esta razn,
en los contrastes bilaterales, la zona crtica se encuentra repartida15, generalmente a
partes iguales, entre las dos colas de la distribucin muestral.
Sin embargo, para comprobar si un estudiante responde o no al azar, lo razonable es plantear
un contraste unilateral (H1 : acierto > 0,25), pues solamente interesa considerar el caso en el
que el estudiante obtiene una proporcin de aciertos mayor que la esperable por azar (no una
proporcin menor). En este caso, los nicos valores muestrales incompatibles con H0 son los
que van en la direccin acierto > 0,25, que es justamente la direccin apuntada en H0. Y la zo-
na crtica debe reflejar esta circunstancia quedando ubicada en la cola derecha de la distri-
bucin muestral. Por tanto,
en los contrastes unilaterales, la zona crtica se encuentra en una de las dos colas de la
distribucin muestral.
De acuerdo con esto, las reglas de decisin que corresponden a los contrastes de nuestros dos
ejemplos (el de las diferencias entre dos tratamientos y el del profesor que desea evaluar los
conocimientos de su estudiante) pueden concretarse de la siguiente manera:
1. Rechazar H0: A = B si el estadstico del contraste cae en la zona crtica, es decir, si toma
un valor mayor que el cuantil 100 (1 ! /2) o menor que el cuantil 100 ( /2) de su distri-
bucin muestral.
O bien: rechazar H0: A = B si el estadstico del contraste toma un valor tan grande o tan
pequeo que la probabilidad de obtener un valor tan extremo o ms que el obtenido es
menor que /2. Es decir, rechazar H0 si p /2 < /2; o, lo que es lo mismo, si p < .
$ 0,25 si el estadstico del contraste (el nmero de aciertos) cae en
2. Rechazar H0: acierto <
la zona crtica, es decir, si el estadstico del contraste toma un valor mayor que el percen-
til 100 (1 ! ) de su distribucin muestral.
O bien: rechazar H0: acierto <$ 0,25 si el estadstico del contraste toma un valor tan grande
que la probabilidad de obtener un valor como se o mayor es menor que . Es decir, re-
chazar H0 si p < .
14
Por supuesto, si se desea contrastar, no si dos tratamientos difieren, sino si uno es mejor que el otro, habr que plantear
un contraste unilateral.
15
Existen excepciones a esta regla. Cuando se utiliza la distribucin normal o la distribucin t de Student, la zona crtica
de los contrastes bilaterales se encuentra, efectivamente, repartida entre las dos colas de la distribucin muestral. Pero de-
pendiendo del estadstico utilizado y de su distribucin muestral, puede ocurrir que la zona crtica de un contraste bilateral
est, toda ella, ubicada en la cola derecha de la distribucin. Esto es lo que ocurre, por ejemplo, cuando se utiliza la distri-
bucin 2 o la distribucin F. Tendremos ocasin de estudiar esto con detalle ms adelante.
28 Anlisis de datos (vol. II)
Puesto que el rea de una distribucin de probabilidad se asume que vale 1, de las probabi-
lidades asignadas a cada tipo de error ( y ) se deduce: (1) que 1 ! es la probabilidad de
tomar una decisin correcta cuando H0 es verdadera y (2) que 1 ! es la probabilidad de to-
mar una decisin correcta cuando H0 es falsa (es decir, cuando H1 es verdadera; o, mejor
dicho, cuando es verdadero algn valor concreto de los muchos incluidos en H1 ).
Por tanto, y son las probabilidades de cometer errores Tipo I y II, respectivamente.
Ya sabemos que a la probabilidad se le llama nivel de riesgo o nivel de significacin. Y
tambin sabemos que a la probabilidad 1 ! se le llama nivel de confianza. A la probabili-
dad 1 ! se le llama potencia del contraste.
Es importante sealar que estas cuatro probabilidades son probabilidades condicionales.
Por definicin, un error Tipo I nicamente puede cometerse si H0 es verdadera; y un error
Tipo II nicamente puede cometerse si H0 es falsa. Por tanto, es la probabilidad de recha-
zar H0 si H0 es verdadera, es decir, P (rechazar H0 | H0 verdadera). Y 1 ! es la probabilidad
de mantener H0 si H0 es verdadera, es decir, P (mantener H0 | H0 verdadera). Lo mismo vale
decir de sus probabilidades complementarias. As, es la probabilidad de mantener H0 cuando
se asume que la hiptesis verdadera es H1 , es decir, P (mantener H0 | H1 verdadera); y 1 !
es la probabilidad de rechazar H0 cuando se asume que la hiptesis verdadera es H1, es decir,
P (rechazar H0 | H1 verdadera).
16
El proceso que se sigue hasta llegar a esa decisin se basa, todo l excepto la propia decisin, en el supuesto de que H0
es verdadera. Entre otras cosas, la distribucin muestral que ofrece las probabilidades en las que se basa la decisin se ob-
tiene asumiendo que H0 es verdadera. En su propuesta original del contraste de hiptesis, R. Fisher (1925) nicamente habla
de H0. La consideracin simultnea de dos hiptesis complementarias, H0 y H1, se empez a popularizar en los aos 40 gra-
cias a las aportaciones de Neyman y Pearson (1928). En la propuesta inicial de Fisher, el contraste de hiptesis se concibe
como una forma de resumir la informacin muestral y de elaborar un argumento a favor de una cuestin cientfica. Con las
aportaciones de Neyman y Pearson, el contraste de hiptesis se empieza a interpretar como un mtodo de toma de decisiones
en el que necesariamente se elige entre dos hiptesis rivales (H0 y H1 ) tomando como referencia un nivel de significacin
prefijado (ver Chow, 1996, pgs. 21-24, para una reflexin sobre las coincidencias y diferencias entre la propuesta inicial
de Fisher y las aportaciones de Neyman y Pearson).
Captulo 1. La inferencia estadstica 29
Recordemos que el nivel crtico o valor p (la probabilidad que se compara con el nivel
de significacin para tomar una decisin sobre H0 ) tambin es una probabilidad condicio-
nal. Representa la probabilidad de encontrar, en la distribucin muestral definida por H0 , los
datos de hecho encontrados, es decir, P (D | H0)17 (ms concretamente, la probabilidad de
encontrar datos, D, tan alejados, o ms alejados, de la afirmacin establecida en H0 como los
de hecho encontrados).
La Tabla 1.2 puede ayudar a aclarar todas estas ideas. En ella estn representadas las
cuatro posibles consecuencias asociadas a la decisin que se toma un contraste de hiptesis,
junto con sus correspondientes probabilidades.
Decisin sobre H0
Naturaleza de H0 Mantenerla Rechazarla
Decisin correcta Error Tipo I
Verdadera (P = 1 ! ) (P = )
17
Puesto que el valor p es una probabilidad condicional, no debe interpretarse como la probabilidad de que H0 sea verdade-
ra; por la misma razn, tampoco el valor 1! p debe interpretarse como la probabilidad de que sea verdadera H1 . En un
contraste de hiptesis, tanto P (H0) como P (H1) son valores desconocidos. No obstante, puede demostrarse que cuanto me-
nor es la probabilidad de que H0 sea verdadera (y, por tanto, mayor la probabilidad de que sea verdadera H1), menor es el
valor del nivel crtico p (en relacin con esta problemtica puede consultarse la excelente argumentacin de Nikerson, 2000,
pgs. 246-253).
30 Anlisis de datos (vol. II)
una persona sana est enferma ( falso positivo; equivale a rechazar H0 cuando es verdadera
es decir, a un error Tipo I) y cuando dice que una persona enferma est sana ( falso negativo;
equivale a mantener H0 cuando es falsa, es decir, a un error Tipo II).
Grupo pronosticado
Grupo real Sano Enfermo
Acierto Error
Sano (especificidad) (falso positivo)
Error Acierto
Enfermo (falso negativo) (sensibilidad)
En la Figura 1.1 estn representadas las probabilidades correspondientes a los cuatro resul-
tados de la Tabla 1.2. Las curvas representan una situacin hipottica referida a un contraste
unilateral derecho sobre el parmetro (con H0: =_ 0 ; H1: = 1). La curva de la izquierda
representa la distribucin muestral18 del estadstico Y para H0: = 0 (0 se refiere a un valor
concreto
_ cualquiera). La curva de la derecha representa la distribucin muestral del estadstico
Y para H1 : = 1 ( 1 se refiere a un valor cualquiera mayor que 0)19.
H0 H1
1 1
_
Y
0 1
Zona de aceptacin Zona de rechazo
18
La probabilidad asociada a una media cualquiera en su distribucin muestral es la misma que la asociada a su corres-
pondiente puntuacin tpica en la distribucin N (0, 1) o tn-1 (ver, en el Captulo 6 del primer volumen, el apartado Distri-
bucin muestral del estadstico media). En trminos de probabilidad, por tanto, es equivalente hablar de la distribucin
muestral de la media y de la distribucin muestral de la media transformada en Z o T.
19
No debe pasarse por alto el hecho de que esta representacin exige fijar para el parmetro un valor concreto de todos
los que le asigna H1. Aunque H0 define una nica curva (pues H0 es una afirmacin exacta), cada valor distinto de los inclui-
dos en H1 define una curva distinta (pues H1 es una afirmacin inexacta). Cada una de estas curvas tiene sus propios valores
y 1 ! .
Captulo 1. La inferencia estadstica 31
20
En la tradicin fisheriana no tiene sentido hablar de la potencia de un contraste porque nicamente se contempla una hip-
tesis: la hiptesis nula (Fisher, 1925, 1935). La incorporacin de la hiptesis alternativa al proceso es lo que lleva a Neyman
y Pearson (1928) a definir la potencia y a incluirla como un aspecto ms del contraste de hiptesis. No obstante, solamente
en los ltimos aos se le ha empezado a prestar cierta atencin. Muchos autores consideran que la potencia debe desempear
un rol esencial en la planificacin de los estudios en los que se tiene intencin de aplicar algn contraste de hiptesis (Chase
y Tucker, 1977; Cohen, 1988, 1992a, 1992b, 1994; Lashley, 1998; Rossi, 1990, 1997; Schmidt, 1996; Schmidt y Hunter,
1997). Entre algunos de estos autores predomina, incluso, la opinin de que un contraste de hiptesis del que no se conoce
la potencia es un contraste intil, o incluso peor que intil, porque puede llevar a conclusiones equivocadas. Sin embargo,
no faltan quienes consideran que la potencia es un concepto mal definido y, en algunos contextos, innecesario (ver, por
ejemplo, Chow, 1996, Cap. 6; Grayson, 2004; Macdonald, 2002).
32 Anlisis de datos (vol. II)
21
La variabilidad de un conjunto de puntuaciones puede reducirse mejorando el control sobre las condiciones del estudio
y, muy especialmente, mejorando la precisin de las mediciones que se llevan a cabo (ver, por ejemplo, Judd y Kenny, 1981,
pgs. 111 y siguientes).
Captulo 1. La inferencia estadstica 33
Entre los factores de los que depende el valor de y, por tanto, el valor de la potencia,
aumentar el tamao muestral, con la consiguiente reduccin del error tpico que esto implica,
no solo es la solucin ms eficaz, sino tambin, por lo general, la ms sencilla. Por tanto, no
debe sorprender que el tamao muestral desempee un rol destacado en la mayor parte del tra-
bajo relacionado con la potencia.
Cuando estudiemos los diferentes procedimientos estadsticos incluidos en este manual
prestaremos atencin a la potencia en dos sentidos. En un sentido a priori estudiaremos cmo
determinar el tamao muestral necesario para alcanzar, en un contraste concreto, una deter-
minada potencia (generalmente, un valor en torno a 0,80); esto, segn veremos, requiere fijar
el valor de todos los factores de los que depende la potencia excepto, lgicamente, el del ta-
mao muestral (determinar de antemano el tamao muestral tiene su importancia; si se utiliza
un tamao muestral demasiado pequeo se corre el riesgo de no detectar efectos importantes;
si se utiliza un tamao muestral demasiado grande se corre el riesgo de declarar significativos
efectos triviales). En un sentido a posteriori veremos cmo calcular la potencia observada,
es decir, la potencia de un contraste una vez llevado a cabo y, por tanto, dando a los factores
de los que depende el valor concreto que toman en el contraste realizado. En el Apndice 1
se explica cmo realizar ambas tareas en un caso parecido al representado en la Figura 1.1.
Trabajar con la potencia observada es relativamente sencillo porque se tiene informacin
sobre todos los factores de los que depende. Trabajar con la potencia a priori es otra historia.
Entre otras cosas, es necesario asignar un valor concreto a H1. Y esto exige, inevitablemente,
conocer o estimar el tamao del efecto que se est analizando.
es algo limitada. Imaginemos que, al comparar un grupo experimental con un grupo control,
rechazamos la hiptesis H0: E = C con un nivel crtico tan pequeo como p = 0,0001. Puesto
que p toma un valor muy pequeo, seguramente nos sentiremos inclinados a pensar que H0
es muy falsa y que entre E y C existe una gran diferencia (un gran tamao del efecto). Pero
esa conclusin no necesariamente sera correcta. Por un lado, el valor p no es la probabilidad
de H0, sino la probabilidad asociada a los datos obtenidos cuando H0 es verdadera. Por otro,
puesto que la potencia de un contraste es tanto mayor cuanto mayor es el tamao muestral
(ver apartado anterior), tamaos muestrales muy grandes podran llevar a rechazar H0 incluso
con diferencias E ! C insignificantes (pues si los tamaos muestrales son muy grandes en
relacin con los tamaos de las varianzas, el valor del estadstico del contraste ser muy gran-
de incluso cuando la diferencia entre las medias muestrales sea muy pequea).
Parece, por tanto, que la significacin estadstica (el valor p), precisamente por su depen-
dencia del tamao muestral, no informa correctamente del tamao del efecto estudiado (de
la verdadera diferencia entre E y C)22.
Para valorar, no la significacin estadstica de un resultado, sino su relevancia, contamos
con diferentes estadsticos agrupados bajo la denominacin de medidas del tamao del efecto.
Existen multitud de estas medidas (ver Abelson, 1995, pgs. 39-77; Kirk, 1996). Todas ellas
han sido diseadas con el mismo objetivo, pero se basan en diferentes criterios. Y, aunque es-
tos criterios son muy variados (ver, por ejemplo, Richardson, 1996), la mayora de las me-
didas disponibles (al menos las ms utilizadas) pueden clasificarse atendiendo solamente a
dos: (1) las basadas en una estandarizacin de la diferencia entre las medias y (2) las basadas
en la proporcin de varianza comn o explicada23.
Lgicamente, estas medidas adoptan una u otra forma dependiendo de las caractersticas
de los datos analizados. Al estudiar los diferentes procedimientos que se incluyen en este ma-
nual tendremos ocasin de conocer cmo se calculan e interpretan en cada caso. De momen-
to, basta con saber que las medidas del tamao del efecto ofrecen informacin adicional a la
que ofrece un contraste de hiptesis:
1. Contribuyen a distinguir entre la significacin estadstica de un resultado y su relevancia
terica o prctica (Kirk, 1996).
2. Sirven para estimar la potencia de un contraste y para elegir el tamao muestral idneo
al planificar un estudio (Cohen, 1988; 1992a).
3. Facilitan la recopilacin de los resultados de diferentes estudios para realizar un meta-
anlisis (Hunter y Schmidt, 2004; Rosenthal, 1991).
stas son, sin duda, algunas de las razones por las que muchos expertos (tambin los editores
de las ms importantes revistas cientficas), recomiendan utilizar las medidas del tamao del
efecto e incluirlas en los informes de investigacin acompaando a la significacin estadstica
(Abelson, 1995; Cohen, 1988; Murphy, 1997; Thonsom, 1994, 1997). Especialmente relevan-
22
Sin embargo, el tamao de un efecto y el valor p obtenido al contrastarlo no son independientes. Permaneciendo todo lo
dems igual, cuanto mayor es el tamao del efecto, menor en el valor p. En relacin con esta problemtica puede consultarse
la excelente argumentacin de Nikerson (2000, pgs. 246-253).
23
A veces se distingue entre las primeras (a las que siempre se les llama medidas del tamao del efecto) y las segundas (a
las que se les suele llamar medidas de asociacin). Pero tanto unas como otras deben ser consideradas medidas del tamao
del efecto.
Captulo 1. La inferencia estadstica 35
tes en este sentido son las recomendaciones del informe de Wilkinson y la APA Task Force
on Statistical Inference (1999).
Sin embargo, estas recomendaciones no vienen acompaadas de una aclaracin del tipo
de medidas que conviene utilizar en cada caso (con cada diseo, con cada tipo de datos, etc.),
probablemente porque su aplicacin no est libre de problemas y porque no existe suficiente
consenso en torno a qu tipo de medida es la idnea en cada contexto24.
Por tanto, las medidas del tamao del efecto no deben ser consideradas una panacea en
el anlisis de datos. A pesar de que no faltan quienes han llegado a proponer sustituir la sig-
nificacin estadstica (es decir, los contrastes de hiptesis) por soluciones basadas, entre otras
cosas, en la estimacin del tamao del efecto (por ejemplo, Cohen, 1992a, 1994; Rossi, 1997;
Schmidt, 1996), tampoco faltan quienes han refutado sus argumentos con reconocida solven-
cia (por ejemplo, Abelson, 1997a, 1997b; Chow, 1996; Cortina y Dunlap, 1997; Mulaik, Raju
y Harshman, 1997).
Por nuestra parte, seguiremos considerando que la significacin estadstica que ofrece
un contraste de hiptesis posee una extraordinaria utilidad como argumento para elegir entre
hiptesis rivales. Y, al analizar nuestros datos, acompaaremos la significacin estadstica
de cada contraste, siempre que sea posible, de la informacin necesaria para mejorar nuestra
comprensin del efecto estudiado; y esto significa prestar atencin tanto a la potencia concreta
del contraste realizado como a la estimacin del tamao del efecto estudiado.
24
Al igual que con otras muchas herramientas estadsticas, no existe un acuerdo generalizado sobre el significado real de
este tipo de medidas. No hay consenso sobre qu medida es ms apropiada en cada caso (Gorsuch, 1991; McGrath y Meyer,
2006; Olejnik y Algina, 2003; Parker, 1995). Un efecto cuantificado como pequeo puede ser relevante en algunos contextos
y un efecto cuantificado como grande puede ser poco relevante en otros (Lewandowsky y Maybery, 1998; Prentice y Miller,
1992; Rosental, 1990). Un efecto cuantificado como grande no garantiza que se trate de un efecto relevante o importante
ms de lo que lo hace un valor p pequeo (Chow, 1991; Shaver, 1985). OGrady (1982) ha sealado algunas cuestiones
tericas, metodolgicas y psicomtricas que pueden afectar de forma importante al significado y utilidad de las medidas que
intentan cuantificar el tamao de un efecto. Adems, el error tpico de las distribuciones muestrales de estas medidas es,
por lo general, muy grande (Carrol y Nordholm, 1975), especialmente cuando los tamaos muestrales son pequeos, y esto
implica que es posible que su valor sea grande cuando de hecho se est estudiando un efecto trivial, y pequeo cuando de
hecho se est estudiando un efecto relevante (Rosenthal y Rubin, 1982). Chow (1988, 1996) ha argumentado que la cuan-
tificacin de un efecto puede tener inters cuando un estudio est diseado justamente para conocer la magnitud de un
efecto y su relevancia prctica, pero no cuando el objetivo de un estudio es contrastar una prediccin concreta hecha por
una teora; en este segundo caso, lo que realmente interesa es poder determinar si la evidencia emprica que aporta el estudio
es o no consistente con la prediccin hecha; y, en este contexto, la cuantificacin del tamao del efecto no solo carece de
inters, sino que podra llevar a error.
36 Anlisis de datos (vol. II)
criterio, por s solo, no conduce a una clasificacin del todo satisfactoria porque no resulta
muy til a quienes se inician en el anlisis de datos.
Una clasificacin de los contrastes de hiptesis debe servir para cubrir, al menos, estos
dos objetivos: (1) ofrecer una panormica de los contrastes disponibles y (2) ayudar al analista
de datos a elegir el contraste apropiado en cada caso. Creemos que ambos objetivos pueden
conseguirse fcilmente si el criterio referido al tipo de hiptesis que cada contraste permite
poner a prueba se complementa con otros dos: (1) el nmero de las variables que intervienen
en el anlisis y (2) la naturaleza categrica o cuantitativa de las variables analizadas25.
El Cuadro 1.1 ofrece una clasificacin de los contrastes basada en todos o parte de estos
criterios. Incluye los contrastes ya estudiados en el primer volumen (en cursiva) y los que
estudiaremos en ste. En la clasificacin propuesta se utiliza, como primer criterio de clasi-
ficacin, el nmero de variables; a continuacin, la naturaleza categrica o cuantitativa de
las variables; por ltimo, el tipo de hiptesis que cada contraste permite poner a prueba.
En lo relativo a una y dos variables, este cuadro es el mismo que ya hemos presentado
en el Captulo 8 del primer volumen acompaado de una breve explicacin de las caracte-
rsticas de cada contraste. La parte nueva, aqu, se refiere al estudio de ms de dos varia-
bles, para lo cual se propone el anlisis de varianza y el anlisis de regresin lineal (junto con
alguna alternativa no paramtrica). Tanto el anlisis de varianza como el de regresin, son
expresiones del modelo lineal general (ver Captulo 1 del tercer volumen). Y ambos permiten
estudiar simultneamente una variable dependiente y una o ms variables independientes. La
variable dependiente debe ser cuantitativa en ambos casos (estudiaremos otros modelos en
el volumen 3). Lo que los distingue tiene que ver con la naturaleza de las variables indepen-
dientes: en el anlisis de varianza son categricas; en el de regresin pueder ser categricas
o cuantitativas. Para completar la clasificacin se han incluido algunas pruebas no paramtri-
cas que sirven para analizar diseos de un factor con medidas repetidas (J variables) cuando
no puede aplicarse el anlisis de varianza: la prueba de Friedman (para variables ordinales)
y la prueba de Cochran (para variables dicotmicas).
Cuadro 1.1. Clasificacin de los contrastes de hiptesis (los contrastes que aparecen en cursiva se han es-
tudiado en el primer volumen)
25
No falta quien considera (ver, en el Captulo 1 del primer volumen, el apartado Rol de las escalas de medida; pgs. 25-26)
que este criterio de clasificacin es inapropiado. Pero lo cierto es que la naturaleza categrica o cuantitativa de las variables
condiciona el tipo de estadsticos que permiten extraer informacin til de los datos. Con variables nominales como, por
ejemplo, el lugar de nacimiento, no tiene sentido calcular medias: cul es la media de Andaluca, Aragn, Asturias, ...,
Valencia? Y con variables cuantitativas como, por ejemplo, la edad, no tiene mucha utilidad preguntarse qu porcentaje de
sujetos tiene una determinada edad (si la variable est medida con suficiente precisin, no habr repeticiones o habr muy
pocas), es ms til conocer el centro, la dispersin y la forma de la distribucin. Por tanto, los estadsticos que permiten ob-
tener informacin til con variables categricas y con variables cuantitativas no son los mismos. La clasificacin propuesta
tiene en cuenta esta circunstancia incorporando la naturaleza de las variables como un criterio ms.
Captulo 1. La inferencia estadstica 37
Apndice 1
Clculo de la potencia 26
Retomemos el ejemplo del profesor que desea evaluar los conocimientos de un estudiante sobre una
determinada materia administrndole preguntas de 4 alternativas de respuesta con solamente una correc-
ta. Al realizar el contraste (ver el apartado El contraste de hiptesis) hemos formulado las siguientes
hiptesis estadsticas:
$ 0,25; H1 : acierto > 0,25
H0 : acierto <
Para poder calcular la potencia de un contraste es necesario elegir un valor concreto de los mltiples
incluidos en H1 . En nuestro ejemplo, debemos elegir un valor concreto para acierto. Esto puede hacer-
se de varias maneras. Una de ellas consiste en hacer las preguntas al estudiante y calcular su propor-
cin de aciertos. Supongamos que hacemos 10 preguntas al estudiante y que ste acierta 6. Y suponga-
mos que, basndonos en este dato, deseamos calcular la potencia del contraste cuando acierto = 0,60.
Con esta informacin podemos calcular la potencia observada.
El clculo de la potencia se basa en las distribuciones muestrales del estadstico del contraste bajo
H0 y bajo H1 . En nuestro ejemplo, hemos elegido nacierto como estadstico del contraste. Por tanto,
necesitamos conocer las distribuciones muestrales de nacierto bajo H0 y bajo H1 , es decir, las probabi-
lidades asociadas a los diferentes valores de nacierto cuando acierto vale 0,25 y cuando acierto vale 0,60. La
Tabla 1.4 ofrece estas probabilidades (recordemos que el estadstico nacierto sigue el modelo de distribu-
cin binomial con parmetros n y acierto ).
Tabla 1.4. Distribuciones muestrales del estadstico nacierto bajo H0: acierto = 0,25 y H1: acierto = 0,60
nacierto 0 1 2 3 4 5 6 7 8 9 10
P (nacierto | acierto = 0,25) 0,056 0,188 0,282 0,250 0,146 0,058 0,016 0,003 0,000 0,000 0,000
P (nacierto | acierto = 0,60) 0,000 0,002 0,011 0,,42 0,111 0,201 0,251 0,215 0,121 0,040 0,006
26
Trabajar con una calculadora de bolsillo es, quiz, la mejor manera de entender las cosas. En este apartado vamos a ha-
cer precisamente eso. No obstante, los clculos relacionados con la potencia se van complicando sensiblemente a medida
que lo va haciendo el diseo. Afortunadamente, los programas informticos tienen resuelto este problema. En los siguien-
tes captulos veremos cmo calcular la potencia asociada a los diferentes contrastes que vayamos estudiando. Tambin vere-
mos cmo solicitar al SPSS este tipo de clculos. No obstante, el SPSS no calcula la potencia de muchos de los contrastes
que estudiaremos. Para cubrir esta laguna puede utilizarse un excelente programa informtico llamado GPOWER (Erdfelder,
Faul y Buchner, 1996) que, adems de ser muy sencillo de manejar, puede descargarse de forma gratuita en la siguiente
direccin http://www.psycho.uni-duesseldorf.de/aap/projects/gpower.
40 Anlisis de datos (vol. II)
Figura 1.2. Distribuciones muestrales del estadstico nacierto bajo H0: acierto = 0,25 y H1: acierto = 0,60
P(nacierto )
0,30 H0: = 0,25
H1: = 0,60
0,20 1
1
0,10
0,00 nacierto
0 1 2 3 4 5 6 7 8 9 10
La potencia de este contraste es la probabilidad de rechazar H0 : acierto = 0,25 cuando la hiptesis ver-
dadera es H1: acierto = 0,60. Y nicamente tomaremos la decisin de rechazar H0 cuando nos encontre-
mos con un resultado muestral (nacierto) perteneciente a la zona de aceptacin (es decir, 6 aciertos o ms).
Ahora bien, si H1 es verdadera, la probabilidad de tomar la decisin de rechazar H0 (es decir, 1 ! se-
r la probabilidad de encontrar 6 o ms aciertos en la distribucin muestral correspondiente a H1 .
Sumando las probabilidades individuales desde nacierto = 6 hasta nacierto = 10, obtenemos
Por tanto, si asumimos que el verdadero valor del parmetro acierto es 0,60, al contrastar H0: = 0,25
con = 0,05, la probabilidad de que el contraste detecte que H0 es falsa vale 0,633.
Curva de potencias
Teniendo en cuenta que suelen recomendarse valores en torno a 0,80 para la potencia de un contras-
te (Cohen, 1988), el valor obtenido en el contraste del apartado anterior (0,633) es un valor ms bien
bajo. Cuando ocurre esto, qu puede hacerse para aumentar la potencia del contraste? Sabemos que
la potencia depende de tres factores: (1) el valor de , (2) el tamao del error tpico de la distribucin
muestral utilizada para realizar el contraste y (3) el verdadero valor del parmetro estudiado entre to-
dos los incluidos en H1.
Al aumentar el valor de , aumenta la potencia; por ejemplo, fijando el valor de en 0,10 (en lugar
de 0,05) y dejando todo lo dems igual, la potencia sube a 0,834. Al modifica r el valor de acierto en H1,
cambia la potencia (al aumentar la distancia entre H0 y H1, aumenta la potencia); por ejemplo, fijando
el valor de acierto en 0,70 (en lugar de 0,60) y dejando todo lo dems igual, la potencia sube a 0,850.
Por ltimo, al aumentar el tamao muestral, aumenta la potencia; por ejemplo, utilizando 20 preguntas
(en lugar de 10) y dejando todo lo dems igual, la potencia sube a 0,943.
Tomando como referencia el ejemplo del apartado anterior (ver Figura 1.2), la Tabla 1.5 muestra
los valores que toma la potencia del contraste cuando, permaneciendo todo lo dems igual, se modifi-
ca el valor de : la potencia (1 ! ) va aumentando conforme lo hace (estos valores se han calculado
siguiendo la estrategia propuesta en el apartado anterior).
La Tabla 1.6 recoge los valores que toma la potencia del contraste cuando, permaneciendo todo
lo dems igual, se modifican los valores de acierto en H1 (por supuesto, H0 permanece con acierto = 0,25):
la potencia (1 ! ) va aumentando conforme el valor de acierto en H1 se va alejando del valor de acierto
en H0 .
Captulo 1. La inferencia estadstica 41
Por ltimo, la Tabla 1.7 muestra los valores que toma la potencia del contraste cuando, perma-
neciendo todo lo dems igual, se modifican los valores del tamao muestral n, es decir, del nmero de
preguntas: la potencia (1 ! ) va aumentando conforme lo hace el valor de n.
Tabla 1.7. Valores de 1 ! en funcin del tamao muestral n (H1: acierto = 0,60; = 0,05)
n 4 5 6 8 10 15 20 30 40
Una buena forma de apreciar cmo va cambiando la potencia conforme lo hacen los valores de los que
depende consiste en construir grficos de lneas colocando los valores de los que depende la potencia
en el eje horizontal y los valores de la potencia en el vertical. Se obtienen as las llamadas curvas de
potencia. La Figura 1.3 muestra dos de estas curvas. La curva de la izquierda se ha obtenido a partir
de los datos de la Tabla 1.6; por tanto, muestra cmo va aumentando la potencia conforme lo va ha-
ciendo la distancia entre H0 y H1 . La curva de la derecha se ha obtenido a partir de los datos de la Ta-
bla 1.7; por tanto, muestra cmo va aumentando la potencia conforme lo va haciendo n (el nmero de
preguntas)27.
Figura 1.3. Valores de 1 ! en funcin del valor de acierto H1 (izquierda) y en funcin del tamao muestral n (derecha)
1,0 1,0
0,8 0,8
0,6 0,6
1
0,4 0,4
0,2 0,2
0,0 0,0
0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0 5 10 15 20 25 30 35 40
acierto | H1 n
27
Las curvas aparecen escalonadas porque la distribucin muestral que se est utilizando, la binomial, es una distribucin
discreta. Por la misma razn, los valores de las Tablas 1.5 a la 1.7 son aproximados: no hay un punto de corte que deje exac-
tamente por encima de s una probabilidad igual a 0,05.
42 Anlisis de datos (vol. II)
La Figura 1.4 (grfico de la izquierda) se ha construido a partir de los datos de la Tabla 1.5. A la curva
que se obtiene con los valores de y 1 ! se le suele llamar curva COR (curva caracterstica de ope-
racin del receptor)28. En el contexto de los contrastes de hiptesis, la curva COR indica cmo va
aumentando la potencia a medida que lo hace , es decir, a medida que se va modificando el punto de
corte en el que se basa la decisin del contraste (no olvidemos que el punto de corte depende del valor
asignado a ). Por tanto, la curva COR permite formarse una idea bastante precisa sobre la capacidad
de un contraste para discriminar entre H0 y H1. Esta capacidad es tanto mayor cuanto ms se acerca la
curva a la esquina superior izquierda. Solamente de esa manera es posible obtener, simultneamente,
valores iguales o menores que 0,05 y potencias iguales o mayores que 0,80 (que son los valores co-
mnmente considerados aceptables).
El punto en el que la curva corta la diagonal trazada en el grfico representa el punto en el que
ambos errores (Tipo I y Tipo II) toman el valor ms pequeo. En la curva de la izquierda (que corres-
ponde a los datos de la Tabla 1.5), este punto de corte ofrece valores aproximados de 0,14 para y de
0,85 para la potencia (es decir, 0,15 para ). Tomando para la potencia un valor de 0,80 ( = 0,20), el
valor de baja hasta aproximadamente 0,08. Estos valores indican que, al contrastar H0: acierto = 0,25
frente a H1 : acierto = 0,60 con n = 10, la capacidad del contraste para discriminar entre H0 y H1 no es
lo bastante buena.
La Tabla 1.8 contiene la misma informacin que la 1.5, pero para el caso H1 : acierto = 0,70. La
Figura 1.4 (grfico de la derecha) representa esta nueva situacin. Al aumentar la distancia entre H0
y H1, la curva COR se aproxima ms a la esquina superior izquierda. Y esto indica que la capacidad
de discriminacin del contraste ha aumentado. De hecho, ahora, cuando vale 0,05, la potencia al-
canza 0,85. Y estos valores ya son aceptables. El punto que minimiza ambos errores (punto en el que
la diagonal trazada en el grfico corta la curva) ofrece un valor aproximado de 0,08 para y de 0,95
para la potencia (0,05 para ).
Figura 1.4. Valores de 1 ! en funcin de (curvas COR). Izquierda: H1: acierto = 0,60. Derecha: H1: acierto = 0,70
1,0 1,0
0,8 0,8
0,6 0,6
1
1
0,4 0,4
0,2 0,2
0,0 0,0
0,0 0,20 0,40 0,60 0,80 1,0 0,0 0,20 0,40 0,60 0,80 1,0
28
Es muy utilizada en contextos en los que es necesario tomar decisiones con incertidumbre porque ayuda a encontrar el
punto de corte que minimiza los dos tipos de error inherentes a toda decisin. Por ejemplo, en una situacin como la des-
crita en la Tabla 1.3, permite identificar el punto de corte que maximiza la sensibilidad y la especificidad de la prueba
diagnstica (ver Franco y Vivo, 2007).
Captulo 1. La inferencia estadstica 43
1.1. En un contraste de hiptesis, la probabilidad de rechazar una hiptesis nula que es verdadera se deno-
mina:
a. Error tipo I.
b. Nivel crtico.
c. Nivel de confianza.
d. Potencia.
e. Nivel de significacin.
1.2. Supongamos que se desea evaluar la eficacia de un tratamiento. Para ello, se selecciona aleatoriamen-
te una muestra de pacientes y se forman, tambin aleatoriamente, dos grupos: experimental y control.
Al grupo experimental se le aplica el tratamiento; al grupo control se le aplica un placebo. Tras recoger
los datos y comparar los grupos se obtiene un resultado significativo ( p = 0,001). Teniendo en cuenta
este escenario, sealar como verdadera o falsa cada una de las siguientes afirmaciones:
a. Se ha conseguido probar definitivamente la eficacia del tratamiento.
b. Se conoce o puede deducirse la probabilidad de que la hiptesis nula sea verdadera.
c. Se conoce o puede deducirse la probabilidad de que la hiptesis nula sea falsa.
d. Si se decide rechazar la hiptesis nula, se conoce la probabilidad de que la decisin sea incorrecta.
e. Si se repitiera el experimento un gran nmero de veces, cabra esperar encontrar un resultado sig-
nificativo en el 99,9 % de las veces.
f. Si se mantiene la hiptesis nula, puede concluirse que los grupos no difieren.
1.3. La siguiente tabla ofrece los valores y las distribuciones del estadstico W :
W !2 !1 0 1 2 3 4
f (W ) | H0 0,00 0,03 0,10 0,20 0,50 0,10 0,07
f (W ) | H1 0,05 0,25 0,30 0,20 0,10 0,10 0,00
Si establecemos, como regla de decisin, Rechazar H0 si W toma un valor menor que 0; mantenerla
en caso contrario,
a. Cul es la probabilidad de mantener H0 siendo falsa?
b. Cul es la probabilidad de rechazar H0 siendo verdadera?
1.4. La siguiente tabla muestra las funciones de probabilidad acumuladas del estadstico V bajo H0 y bajo
una determinada H1. En un contraste unilateral izquierdo se ha obtenido V = !1.
n1 0 1 2 3 4
f (n1 ) con = 0,40 0,130 0,345 0,345 0,154 0,026
f (n1 ) con = 0,60 0,026 0,154 0,345 0,345 0,130
1.6. Un test de aptitud consta de 5 preguntas, cada una con 5 alternativas de las que solamente una es correc-
ta. La tabla ofrece la distribucin muestral de la variable naciertos = nmero de aciertos cuando un su-
jeto responde al azar (H0) y cuando responde de acuerdo con lo que sabe (H1):
naciertos 0 1 2 3 4 5
f (nacierto ) | H0 0,328 0,409 0,205 0,051 0,006 0,001
f (nacierto ) | H1 0,168 0,360 0,309 0,132 0,029 0,002
1.7. Un investigador ha utilizado dos estadsticos de contraste diferentes, T1 y T2, para contrastar la misma
hiptesis de igualdad de medias. La siguiente tabla muestra los posibles valores de estos estadsticos
junto con sus funciones de probabilidad acumuladas bajo H0 :
T1 , T2 0 1 2 3 4 5 6 7 8
F (T1) 0,070 0,236 0,399 0,456 0,544 0,601 0,764 0,930 1,000
F (T2) 0,000 0,126 0,250 0,366 0,500 0,634 0,750 0,874 1,000
Sabiendo que el contraste es unilateral derecho y que en una determinada muestra aleatoria se ha ob-
tenido T1 = T2 = 7,
a. Si el investigador decide utilizar un nivel de significacin de 0,10, deber rechazar la hiptesis nula:
( ) solo con T1, ( ) solo con T2, ( ) con ninguno de los dos, ( ) con ambos. Por qu?
b. Si se asume que las distribuciones muestrales de T1 y T2 son simtricas, cules son los valores
esperados de T1 y T2 ?
1.8. (Indicar cul de las siguientes afirmaciones es verdadera.) En un contraste unilateral derecho, con un
nivel de significacin de 0,05,
a. La probabilidad de mantener H0 siendo falsa vale 0,05.
b. La probabilidad de rechazar H0 siendo falsa vale 0,05.
c. La probabilidad de rechazar H0 siendo verdadera vale 0,05.
d. La probabilidad de mantener H0 siendo falsa vale 0,95.
e. La probabilidad de rechazar H0 siendo verdadera vale 0,95.
Captulo 1. La inferencia estadstica 45
1.9. Un investigador afirma que, entre los estudiantes universitarios, la proporcin de fumadoras es mayor
que la de fumadores. Tras efectuar una encuesta, ha comparado la proporcin de fumadoras con la pro-
$ ellos; H1: ellas > ellos ) y ha obtenido, para el estadstico del contras-
porcin de fumadores (H0: ellas <
te, un valor T = 2,681. La siguiente tabla ofrece la funcin de distribucin (probabilidades acumula-
das) de algunos valores del estadstico T:
a. Puede afirmarse que los datos confirman la hiptesis del investigador? Por qu? ( = 0,05)
b. Qu valores del estadstico T llevarn a rechazar H0 con = 0,05?
1.10. Un terapeuta afirma que una determinada terapia antidepresiva consigue recuperaciones aceptables en
ms del 80 % de los pacientes tratados. Un colega suyo piensa que la proporcin de recuperaciones
aceptables es menor que el 80 %. Ambos realizan un estudio para contrastar sus respectivas hiptesis
con = 0,05:
a. Qu hiptesis estadsticas debe plantear cada terapeuta?
b. Al contrastar su hiptesis nula el primer terapeuta obtiene un nivel crtico p = 0,818. Utilizando
un nivel de confianza de 0,95, qu decisin debe tomar? Por qu?
c. Al contrastar su hiptesis nula el segundo terapeuta obtiene un nivel crtico p = 0,002. Utilizando
un nivel de confianza de 0,95, qu decisin debe tomar? Por qu?
d. Cul de los dos terapeutas tiene razn?, tienen razn los dos?, ninguno de los dos?
1.11. En 1990 fumaba el 30 % de los universitarios madrileos. Un investigador cree que en los ltimos aos
ese porcentaje ha aumentado. Para comprobarlo, selecciona una muestra aleatoria y obtiene un esta-
dstico al que, en la distribucin correspondiente a F = 0,30, le corresponde el centil 93.
a. Plantea las hiptesis estadsticas del contraste.
b. Qu decisin debe tomarse sobre H0 con = 0,05? Por qu?
1.12 Al comparar dos medias independientes en un contraste unilateral izquierdo se ha obtenido, para el
$ !0,92) = 0,20 y utilizando = 0,05 (elegir la al-
estadstico T un valor de !0,92. Sabiendo que P (T <
ternativa correcta):
a. Debe rechazarse H0 porque T cae en la zona crtica.
b. Debe mantenerse H0 porque 0,20 > 0,05.
c. Debe rechazarse H0 porque !0,92 < 0,20.
d. No se puede concluir nada porque se desconocen los grados de libertad de la distribucin de T.
e. Debe concluirse que las medias poblacionales comparadas no son iguales.
1.14 Queremos averiguar si los hombres y las mujeres opinan de forma distinta sobre la normativa relati-
va al carn por puntos. Para ello se ha seleccionado una muestra aleatoria de 200 personas (100 de
cada sexo) y se les ha preguntado si estn a favor o en contra del carn por puntos. Todos los sujetos
han respondido en una escala de 0 (muy en contra) a 100 (muy a favor):
46 Anlisis de datos (vol. II)
a. Con cuntas variables se est trabajando? Cul o cules son estas varaibles?
b. Qu hiptesis nula plantearas?
c. Qu contraste aplicaras para analizar los datos?
d. Si el estadstico del contraste tomara un valor de 5, debera rechazarse H0? Por qu?
1.15. Al comparar las medias de dos grupos mediante un contraste unilateral derecho el estadstico del con-
traste T ha tomado el valor 2,63. Sabiendo que P (T > 2,63) = 0,075 y utilizando un nivel de signifi-
cacin = 0,05:
a. Se debe rechazar H0 porque T cae en la zona crtica.
b. Se debe mantener H0 porque 0,075 > 0,05.
c. Se debe rechazar H0 porque 0,075 > 0,05.
d. Se debe concluir que las medias poblacionales difieren entre s.
e. Se debe concluir que las medias muestrales son iguales.
1.16. En un contraste unilateral derecho se ha obtenido para el estadstico del contraste H un valor de 6,13.
Sabiendo que P (H < 6,13) = 0,05:
a. La decisin razonable es mantener H0.
b. La decisin razonable es rechazar H0.
c. La probabilidad de rechazar H0 siendo verdadera vale 0,05.
d. Se puede rechazar H0 con una probabilidad de equivocarse de 0,05.
e. Al mantener H0 siendo verdadera, la probabilidad de equivocarse vale al menos 0,05.
1.17. Para contrastar una determinada hiptesis nula se han utilizado dos estadsticos: V y W. Se sabe que
V se distribuye segn el modelo de probabilidad t de Student y que W se distribuye segn el modelo
de probabilidad normal N (0, 1). En una muestra aleatoria concreta se ha obtenido V = W = k. Segn es-
to, siendo k un valor cualquiera y dado un mismo nivel de significacin (elegir la/s alternativa/s correc-
ta/s):
a. Si se mantiene H0 con V, es imposible rechazarla con W.
b. Si se rechaza H0 con V, necesariamente se rechazar con W.
c. Es ms probable rechazar H0 con V que con W.
d. Si se mantiene H0 con V, necesariamente se mantendr con W.
e. Si se rechaza H0 con V, es posible mantenerla con W.
2
Inferencia con una variable
En el Captulo 9 del primer volumen ya hemos empezado a estudiar qu puede hacerse con
una sola variable desde el punto de vista inferencial. En concreto, hemos estudiado qu puede
hacerse (1) con una variable dicotmica: contrastar hiptesis sobre una proporcin con la
prueba binomial y construir intervalos de confianza sobre el parmetro 1; (2) con una varia-
ble politmica: contrastar hiptesis acerca de cmo se distribuyen las frecuencias asociadas
a cada categora de la variable (bondad de ajuste con la prueba X 2 de Pearson) y construir
intervalos de confianza para la proporcin terica de cada categora; y (3) con una variable
cuantitativa: contrastar hiptesis sobre el valor de su media poblacional con la prueba T de
Student y construir intervalos de confianza sobre el parmetro Y. No presentaremos nuevos
procedimientos para el anlisis de una variable categrica (dicotmica o politmica); los ya
estudiados sirven para responder las preguntas que suelen plantearse con este tipo de varia-
bles. Pero con una variable cuantitativa es posible hacer ms cosas.
Recordemos que, para describir correctamente una variable cuantitativa debemos prestar
atencin a tres propiedades de su distribucin: centro, dispersin y forma. Pues bien, desde
el punto de vista inferencial tambin es posible estudiar esas mismas tres propiedades. En
relacin con el centro de la distribucin, estudiaremos la prueba de Wilcoxon y la prueba de
los signos. Para estudiar la dispersin presentaremos el contraste sobre una varianza y ten-
dremos ocasin de comprobar que, en determinadas circunstancias, puede resultar bastante
til. Y en lo relativo a la forma de la distribucin estudiaremos la prueba de Kolmogorov-
Smirnov, que sirve para contrastar hiptesis sobre bondad de ajuste con variables cuantitativas
(de modo similar a como hace la prueba X 2 de Pearson con variables categricas).
= . = [2.2]
En este escenario, una fuerte discrepancia entre los valores muestrales S+ y S! estara indi-
cando que k0 no es el verdadero valor de la mediana poblacional de Y. Por tanto, las sumas
S+ y S! pueden utilizarse para contrastar hiptesis del tipo MdnY = k0.
Ahora bien, para que esto sea posible, es necesario conocer la distribucin muestral de
S+ (o de S!). Con muestras pequeas es relativamente fcil obtener esta distribucin muestral
(ver, por ejemplo, Pardo y San Martn, 1998, pgs. 421-422): la Tabla M del Apndice final
Captulo 2. Inferencia con una variable 49
1. Hiptesis:
a. Contraste bilateral: H0: MdnY = k0; H1: MdnY =/ k0 .
b. Contraste unilateral derecho: H0: MdnY < $ k0; H1: MdnY > k0 .
c. Contraste unilateral izquierdo: H0: MdnY > $ k0; H1: MdnY < k0 .
(k0 se refiere al valor concreto de MdnY que interesa contrastar)
2. Supuestos: muestra aleatoria de m observaciones de una variable cuantitativa Yi (de
las que se desechan los valores Yi = k0) procedente de una distribucin simtrica (el
supuesto de simetra implica que las inferencias efectuadas sobre la mediana son tras-
ladables a la media).
3. Estadstico del contraste: = . [2.6]
4. Distribucin muestral: los puntos crticos de la distribucin muestral de S+ se encuen-
tran tabulados en la Tabla M del Apndice final.
5. Zonas crticas:
a. Contraste bilateral: S+ < s/2 y S+ > s1 ! /2 .
b. Contraste unilateral derecho: S+ > s1 ! .
c. Contraste unilateral izquierdo: S+ < s .
6. Decisin: se rechaza H0 si S+ cae en la zona crtica; en caso contrario, se mantiene.
1
Conforme aumenta el tamao muestral, el espacio muestral correspondiente a los posibles valores S+ va aumentando rpi-
damente y la obtencin de su distribucin exacta se va haciendo ms complicada. En estos casos se puede recurrir al teorema
del lmite central y utilizar la aproximacin normal (sta es la solucin que utiliza el SPSS, aunque con una variante que
veremos ms adelante).
Sabemos (ver, por ejemplo, Conover, 1980, pgs. 36-40) que la suma y la suma al cuadrado de los n primeros nmeros
enteros (1 + 2 + + n) valen, respectivamente:
y [2.3]
A partir de aqu, y teniendo en cuenta que S+ es la suma de la mitad aleatoria de los n primeros enteros, se obtiene:
y [2.4]
[2.5]
tiende a distribuirse segn el modelo de probabilidad normal N(0, 1). Lo cual significa que con muestras grandes es posible
utilizar el estadstico Z y su distribucin aproximada N (0, 1) para contrastar la hiptesis MdnY = k0.
50 Anlisis de datos (vol. II)
Yi 1,48 1,80 1,93 1,98 2,04 2,08 2,18 2,20 2,30 2,45 2,47 3,15 3,46 4,64
Di !1,02 !0,70 !0,57 !0,52 !0,46 !0,42 !0,32 !0,30 !0,20 !0,05 !0,03 0,65 0,96 2,14
| Di | 1,02 0,70 0,57 0,52 0,48 0,42 0,32 0,30 0,20 0,05 0,03 0,65 0,96 2,14
Ri 13 11 9 8 7 6 5 4 3 2 1 10 12 14
Captulo 2. Inferencia con una variable 51
2
Esto supone restringir su aplicacin al caso en el que se verifica + = 0,50. En el Apndice 2 se incluye una descripcin
de la prueba de los signos para el caso general, es decir para cuando + = k0 (a esta variante de la prueba de los signos se le
suele llamar prueba de los cuantiles).
3
La prueba de los signos permite, al igual que la de Wilcoxon, contrastar hiptesis sobre el centro de una distribucin (en
concreto, sobre la mediana). La diferencia ms evidente entre ambas es que la prueba de Wilcoxon aprovecha la informacin
ordinal de los datos mientras que la de los signos nicamente aprovecha la informacin nominal. Como contrapartida, la
prueba de Wilcoxon exige nivel de medida de intervalos o razn (pues asume simetra de la distribucin) mientras que la
de los signos nicamente exige nivel de medida ordinal (la mediana es un estadstico ordinal).
52 Anlisis de datos (vol. II)
n+ . n! [2.9]
Una fuerte discrepancia entre n+ y n! estara indicando que el valor de la mediana poblacional
no es k0. La clave est precisamente en poder determinar cundo una discrepancia entre n+ y
n! es lo bastante grande como para poder afirmar que, efectivamente, el valor de la mediana
poblacional no es k0. Para esto es necesario conocer las distribuciones muestrales de n+ y n!.
Ahora bien, recordemos4 que si se realizan n ensayos independientes de una variable alea-
toria que solamente puede tomar dos valores (1= xito, 0 = fracaso), la variable n1 = n-
mero de xitos en los n ensayos se distribuye segn el modelo de probabilidad binomial con
parmetros n y 1. Por tanto, bajo la hiptesis H0: MdnY = k0, la variable aleatoria n+ se
distribuir segn el modelo de probabilidad binomial con parmetros n y + = 0,50 (decimos
+ = 0,50 porque, si H0 es verdadera, entonces + = !). Esto tambin sirve para n+.
El modelo binomial, en consecuencia, ofrece las probabilidades asociadas al estadstico
n+ y eso es todo lo que necesitamos para poder disear un contraste sobre MdnY basado en ese
estadstico. Pero tambin sabemos5 que, a medida que n va aumentando, la distribucin de n+
(binomial) se va aproximando a la normal con parmetros:
E (n +) = = n + = n / 2
[2.10]
V (n +) = = n + (1 ! +) = n / 4 =
Z = = [2.11]
tiende a distribuirse N (0, 1). Esto significa que tambin es posible utilizar la transformacin
Z y la distribucin normal tipificada para contrastar la hiptesis MdnY = k0 . El cuadro 2.2
ofrece un resumen del procedimiento.
1. Hiptesis:
a. Contraste bilateral: H0: MdnY = k0; H1: MdnY =/ k0 .
b. Contraste unilateral derecho: H0: MdnY <$ k0; H1: MdnY > k0 .
$ k0; H1: MdnY < k0 .
c. Contraste unilateral izquierdo: H0: MdnY >
2. Supuestos: muestra aleatoria de m observaciones resultado de medir una variable Y al
menos ordinal. Cada valor de la variable es clasificado como mayor, menor o igual
que k0 para obtener:
4
Ver, en el Captulo 3 del primer volumen, el apartado sobre la distribucin binomial.
5
Ver, en el Captulo 5 del primer volumen, el apartado Aproximacin de la distribucin binomial a la normal.
Captulo 2. Inferencia con una variable 53
678
4. Distribuciones muestrales:
4.1. n+ se distribuye segn el modelo de probabilidad binomial con parmetros n y
+ = 0,50.
4.2. Z se aproxima al modelo de distribucin de probabilidad normal N (0, 1) a medi-
da que el tamao muestral n va aumentando8.
5. Reglas de decisin:
a. Contraste bilateral:
a.1. Se rechaza H0 si n+ toma un valor tan alejado de su valor esperado bajo H0
que la probabilidad de obtener un valor tan alejado como se o ms es me-
nor que / 2.
a.2. Se rechaza H0 si Z $ $ Z1!/2 .
< Z/2 o Z >
b. Contraste unilateral derecho:
b.1. Se rechaza H0 si n+ toma un valor tan grande que la probabilidad de obtener
un valor como se o mayor es menor que .
b.2. Se rechaza H0 si Z $
> Z1! .
c. Contraste unilateral izquierdo:
c.1. Se rechaza H0 si n+ toma un valor tan pequeo que la probabilidad de obte-
ner un valor como se o ms pequeo es menor que .
c.2. Se rechaza H0 si Z $
< Z .
6
Conviene que la variable estudiada sea continua para evitar que aparezcan valores iguales a la mediana (empates). Aun
as, la variable puede no ser continua. Y tanto si lo es como si no, los empates se desechan porque no informan sobre H0.
7
Recordemos que, si n no es muy grande, la aproximacin es un poco ms exacta aplicando una pequea modificacin lla-
mada correccin por continuidad, que consiste en sumar (si n+ es menor que n +) o restar (si n+ es mayor que n +) 0,5 a n+
para hacer el contraste algo ms conservador:
[2.12]
8
Tenemos dos estadsticos. El primero de ellos (n+) tiene distribucin muestral exacta (la binomial); el segundo (Z) tiene
una distribucin muestral aproximada (la normal tipificada). El primero es preferible con muestras pequeas (por ejemplo,
con n $
< 20, que es el tope de la tabla binomial del Apndice final). Z solamente debe utilizarse con muestras grandes (ver,
en el Captulo 5 del primer volumen, el apartado Aproximacin de la distribucin binomial a la normal).
54 Anlisis de datos (vol. II)
Dadas las caractersticas de la variable peso, parece razonable aplicar un procedimiento que
no asuma asimetra. Veamos a qu conclusin llegamos con la prueba de los signos (segui-
mos utilizando = 0,05):
1. Hiptesis: H0: MdnY > $ 2,50; H1: MdnY < 2,50 (contraste unilateral izquierdo).
2. Supuestos: muestra aleatoria de 14 observaciones de una variable al menos ordinal.
3. Estadstico del contraste: n+ = 3 (nmero de diferencias positivas entre cada peso y el
valor 2,50 hipotetizado para la mediana; ver Tabla 2.2).
4. Distribucin muestral: n+ se distribuye segn el modelo de probabilidad binomial con
parmetros n = 14 y + = 0,50.
5. Regla de decisin: se rechaza H0 si n+ toma un valor tan pequeo que la probabilidad de
obtener un valor como se o ms pequeo es menor que = 0,05. En la distribucin bino-
$ 3) = 0,029.
mial (Tabla A del Apndice final), con n = 14 y + = 0,50, se obtiene: P (n+ <
6. Decisin: puesto que 0,029 < 0,05, se rechaza H0. Podemos concluir que el valor pobla-
cional del la mediana del peso de los recin nacidos de madres fumadoras es menor que
2,50 kg.
$ 3) = 0,029.
7. Nivel crtico: p = P (n+ <
La prueba de Wilcoxon
Aunque el SPSS no incluye la prueba de Wilcoxon para una muestra, un sencillo truco per-
mite utilizar la prueba de Wilcoxon para dos muestras relacionadas para contrastar hip-
tesis referidas a una sola mediana (la prueba de Wilcoxon para dos muestras relacionadas se
estudia en el siguiente captulo). Este truco consiste en crear una nueva variable en la que
todos los casos tomen el valor propuesto para la mediana en la hiptesis nula.
El SPSS tampoco incluye el estadstico S+ y su distribucin muestral exacta (es decir, no
incluye el procedimiento descrito en el Cuadro 2.1); nicamente ofrece una aproximacin
normal parecida al estadstico Z propuesto en la nota a pie de pgina n 1. En concreto, utili-
za la transformacin:
Z = [2.13]
donde S se refiere al menor de S+ y S!, k al nmero rangos distintos en los que existen empa-
tes y ti al nmero de puntuaciones empatadas en el rango i (si al asignar rangos no existen em-
pates, el sumatorio del denominador vale cero). Como S es el menor de S+ y S!, el resultado
de la ecuacin [2.13] siempre es negativo. El SPSS ofrece el nivel crtico bilateral resultante
de multiplicar por 2 la probabilidad de obtener valores menores o iguales que Z.
Retomemos los datos de la Tabla 2.1 sobre el peso de 14 recin nacidos de madres fu-
madoras (los datos se encuentran en el archivo Tabla 2.1 peso bajo, en la pgina web del
manual). Para aplicar [2.13] a los datos de la Tabla 2.1:
' Reproducir en el Editor de datos los datos de la Tabla 2.1 (o abrir el archivo Tabla 2.1
peso bajo) y asignar a la nueva variable el nombre peso o cualquier otro nombre vlido.
' Utilizar la opcin Calcular del men Transformar para crear una variable en la que todos
los casos tomen el valor 2,50 (valor propuesto para la mediana en la hiptesis nula) y
asignar a esa nueva variable el nombre mediana o cualquier otro nombre vlido.
' Seleccionar la opcin Pruebas no paramtricas > Dos muestras relacionadas del men Anali-
zar para acceder al cuadro de dilogo Pruebas para dos muestras relacionadas (la prueba
de Wilcoxon est seleccionada por defecto).
' Trasladar las variables peso y mediana a la lista Contrastar pares (en caso necesario, reor-
denar las variables colocando la variable mediana antes que la variable peso).
Captulo 2. Inferencia con una variable 57
' Pulsar el botn Opciones para acceder al subcuadro de dilogo Pruebas para dos mues-
tras relacionadas: Estadsticos y marcar las opciones Descriptivos y Cuartiles. Pulsar el
botn Continuar para volver al cuadro de dilogo principal.
Aceptando estas selecciones se obtienen los resultados que muestran las Tablas 2.3 a 2.5. La
Tabla 2.3 ofrece algunos estadsticos descriptivos: el nmero de casos vlidos (N ), la media,
la desviacin tpica, los valores mnimo y mximo, y los tres cuartiles (percentiles 25, 50 y
75). La mediana (percentil 50) de la variable peso (peso al nacer en kg) vale 2,19.
Lo que estamos intentando averiguar con la prueba de Wilcoxon es si ese valor (2,19)
es lo bastante pequeo como para poder afirmar que el peso mediano de los recin nacidos
de madres fumadoras es menor que 2,50 kg, es decir, menor que el valor propuesto en la hi-
ptesis nula.
La Tabla 2.4 ofrece el nmero, media y suma de los rangos negativos y positivos (las notas
a pie de tabla indican qu rangos se estn considerando positivos y negativos; debe tenerse
en cuenta que el SPSS calcula las diferencias entre la segunda variable y la primera del par
seleccionado en el cuadro de dilogo; por eso hemos colocado la variable mediana antes).
La tabla tambin ofrece el nmero de empates (casos excluidos del anlisis) y el nmero total
de rangos asignados (incluidos los empates).
Por ltimo, la Tabla 2.5 muestra el estadstico de Wilcoxon (Z ) y su nivel crtico bilateral
(sig. asintt. bilateral). Puesto que estamos planteando un contraste unilateral izquierdo, el
nivel crtico bilateral hay que dividirlo entre 2. Por tanto: p = 0,300 / 2 = 0,150. Y como el
valor del nivel crtico (0,150) es mayor que = 0,05, lo razonable es no rechazar la hiptesis
de que el valor de la mediana poblacional es 2,50 kg.
= [2.14]
60 Anlisis de datos (vol. II)
P( $
< $
< ) = 1! [2.15]
Unas sencillas transformaciones (ver Pardo y San Martn, 1998, pg. 106) permiten utilizar
[2.14] y [2.15] para contrastar hiptesis y construir intervalos de confianza sobre el parmetro
. El cuadro 2.3 ofrece un resumen del procedimiento.
1. Hiptesis:
a. Contraste bilateral: H0: = k 0 ; H 1: =/ k0 .
b. Contraste unilateral derecho: H0: $
< k 0 ; H 1: > k0 .
c. Contraste unilateral izquierdo: H0: $
> k 0 ; H 1: < k0 .
(k0 se refiere al valor concreto de que interesa contrastar).
2. Supuestos: muestra aleatoria de tamao n extrada de una poblacin normal.
3. Estadstico del contraste (ver ecuacin [2.14]): = .
4. Distribucin muestral: se distribuye segn el modelo de probabilidad ji-cuadrado
con n ! 1 grados de libertad: .
5. Zona crtica:
a. Contraste bilateral: $
< y $
> .
b. Contraste unilateral derecho: $
> .
c. Contraste unilateral izquierdo: $
< .
6. Regla de decisin: se rechaza H0 si el estadstico del contraste cae en la zona crtica;
en caso contrario, se mantiene.
7. Intervalo de confianza (basado en [2.15]): Li =
[2.16]
Ls =
La Tabla N del Apndice final ofrece algunos cuantiles d de las distribuciones muestrales
de DKS correspondientes a tamaos muestrales comprendidos entre 4 y 40 (Smirnov, 1948).
Si la variable estudiada es discreta, las decisiones basadas en estos cuantiles tienden a ser con-
servadoras (Noether, 1967). Y si en la hiptesis nula no se especifica el valor de los parme-
tros de la distribucin propuesta y, consecuentemente, hay que estimarlos a partir de los datos,
la prueba tambin se vuelve conservadora (Conover, 1980). El Cuadro 2.4 ofrece un resumen
del procedimiento.
viacin tpica propuestas en la hiptesis nula (2,5 y 1); y la funcin de distribucin te-
rica, F0 (Yi ), se ha obtenido calculando la probabilidad acumulada hasta cada valor Z i en
la curva normal tipificada N (0, 1).
Yi 1,48 1,80 1,93 1,98 2,04 2,08 2,18 2,20 2,30 2,45 2,47 3,15 3,46 4,64
F (Yi ) 0,07 0,14 0,21 0,29 0,36 0,43 0,50 0,57 0,64 0,71 0,79 0,86 0,93 1,00
Zi !1,02 !0,70 !0,57 !0,52 !0,46 !0,42 !0,32 !0,30 !0,20 !0,05 !0,03 0,65 0,96 2,14
F0 (Yi ) 0,15 0,24 0,28 0,30 0,32 0,34 0,37 0,38 0,42 0,48 0,49 0,74 0,83 0,98
| Di | 0,08 0,10 0,07 0,01 0,03 0,09 0,13 0,19 0,22 0,23 0,30 0,12 0,10 0,02
= [2.19]
ZKS = [2.20]
La distribucin de este estadstico se aproxima al modelo de probabilidad normal N(0, 1); por
tanto, las probabilidades asociadas a cada uno de sus posibles valores pueden obtenerse a par-
tir de la tabla de la curva normal tipificada. No obstante, el SPSS calcula esas probabilidades
aplicando el mtodo de Smirnov (1948), el cual difiere del basado en las probabilidades de
la curva normal tipificada (si bien arroja resultados parecidos).
Aunque el SPSS permite utilizar la prueba de Kolmogorov-Smirnov para valorar el ajuste
de una variable cuantitativa a diferentes distribuciones tericas (uniforme, normal, Poisson
y exponencial), lo cierto es que lo ms habitual es verse en la necesidad de valorar el ajuste
a la distribucin normal. La razn de esto es que varios de los procedimientos estadsticos
ms utilizados han sido diseados para analizar datos procedentes de distribuciones normales.
Para contrastar con la prueba de Kolmogorov-Smirnov la hiptesis de que la variable peso
al nacer (ver ejemplo anterior) se distribuye normalmente con parmetros Y = 2,5 y Y = 1
(los datos se encuentran en el archivo Tabla 2.7 Kolmogorov):
' Seleccionar la opcin Pruebas no paramtricas > K-S de una muestra del men Analizar para
acceder al cuadro de dilogo Prueba de Kolmogorov-Smirnov para una muestra.
' En el cuadro de dilogo principal, seleccionar la variable peso (peso al nacer) y trasla-
darla a la lista Contrastar variables. Para efectuar el ajuste a la distribucin normal, dejar
marcada la opcin Normal del recuadro Distribucin de contraste.
' Pulsar el botn Pegar para generar la sintaxis correspondiente a las elecciones hechas y,
en el Editor de sintaxis, cambiar la lnea K-S(NORMAL) = peso aadiendo el valor de los
parmetros media y desviacin tpica: K-S(NORMAL 2.5, 1) = peso (si no se aplica esta
correccin, el SPSS utiliza como parmetros los valores muestrales).
Ejecutando la sintaxis, el Visor ofrece los resultados que muestra la Tabla 2.8. La tabla in-
cluye la siguiente informacin: (1) el nmero de casos vlidos (N ); (2) los parmetros de la
distribucin terica seleccionada (es decir, los parmetros que hemos fijado: media = 2,5 y
desviacin tpica = 1); (3) las diferencias ms extremas entre las distribuciones acumuladas
emprica y terica (la diferencia ms grande de las positivas, la ms pequea de las negati-
vas y la ms grande de las dos en valor absoluto); (4) el estadstico ZKS (Z = 1,114); y (5) el
nivel crtico o valor p (significacin asinttica bilateral = 0,167). Puesto que el valor del ni-
vel crtico es mayor que 0,05, la decisin razonable es mantener la hiptesis nula. Por tanto,
es razonable asumir que los datos analizados podran proceder de una distribucin normal con
media 2,5 y desviacin tpica 1.
Captulo 2. Inferencia con una variable 65
Tabla 2.8. Prueba de Kolmogorov-Smirnov para una muestra (ajuste a una distribucin normal)
Peso al nacer
N 14
Parmetros normales a,b Media 2,5
Desviacin tpica 1
Diferencias ms extremas Absoluta ,30
Positiva ,30
Negativa -,17
Z de Kolmogorov-Smirnov 1,11
Sig. asintt. (bilateral) ,167
a. La distribucin de contraste es la Normal.
b. Especificado por el usuario
El procedimiento Explorar incluye dos pruebas de significacin para valorar el ajuste de una
variable cuantitativa a una distribucin normal: la prueba de Kolmogorov-Smirnov con la
correccin del nivel crtico mediante el mtodo de Lilliefors (Kolmogorov, 1933; Smirnov,
1948; Lilliefors, 1967; ver tambin Dallal y Wilkinson, 1986) y la prueba de Shapiro-Wilk
(Shapiro y Wilk, 1965).
El problema de estos y otros estadsticos de normalidad es que, con muestras grandes, son
demasiado sensibles a pequeas desviaciones de la normalidad. Por esta razn, estos estads-
ticos suelen acompaarse con algn grfico de normalidad. El procedimiento Explorar ofrece
dos de estos grficos: el Q-Q normal y el Q-Q normal sin tendencias.
Para obtener los estadsticos de Kolmogorov-Lilliefors y de Shapiro-Wilk, y grficos de
normalidad del procedimiento Explorar:
' Seleccionar la opcin Estadsticos descriptivos > Explorar del men Analizar para acceder
al cuadro de dilogo Explorar y trasladar la variable peso (peso al nacer) a la lista Depen-
dientes.
' Pulsar el botn Grficos para acceder al subcuadro de dilogo Explorar: Grficos y mar-
car la opcin Grficos con pruebas de normalidad. Pulsar el botn Continuar para volver al
cuadro de dilogo principal.
Aceptando estas selecciones se obtienen, entre otros, los resultados que muestran la Tabla 2.9
y la Figura 2.2. La Tabla 2.9 incluye los estadsticos de Kolmogorov-Smirnov y de Shapiro-
Wilk acompaados de sus correspondientes niveles crticos (sig.). Ambos estadsticos permi-
ten contrastar la hiptesis nula de que los datos muestrales proceden de poblaciones norma-
les: se rechaza la hiptesis de normalidad cuando el nivel crtico (sig.) es menor que el nivel
de significacin establecido (generalmente 0,05).
lar que la hiptesis de normalidad debe ser rechazada (este resultado contrasta con el obteni-
do al aplicar la prueba de Kolmogorov-Smirnov del procedimiento Pruebas no paramtricas;
pero debe tenerse en cuenta que all se utilizaron otros parmetros y que los niveles crticos
se calculan de forma distinta).
Estos estadsticos adolecen de ser excesivamente sensibles a pequeas desviaciones de
la normalidad cuando se utilizan con muestras grandes. En estos casos (muestras grandes),
es recomendable acompaarlos con algn grfico de normalidad. El procedimiento Explorar
incluye dos de estos grficos: el Q-Q normal y el Q-Q normal sin tendencias. La Figura 2.2
muestra ambos grficos referidos a la variable peso al nacer.
En un grfico Q-Q normal (Figura 2.2, grfico de la izquierda), cada valor observado (Yi)
se compara con la puntuacin tpica N Z i correspondiente en la curva normal tipificada a la
proporcin acumulada hasta cada valor Yi (esta proporcin acumulada se calcula asignando
rangos a los valores Yi y dividiendo cada rango entre el nmero de casos ms uno). En el eje
horizontal estn representados los valores observados ordenados desde el ms pequeo al ms
grande (Yi); en el vertical estn representadas las puntuaciones tpicas normales N Z i. Cuan-
do una distribucin emprica se aproxima a una distribucin terica normal, los puntos del
diagrama se encuentran agrupados en torno a la diagonal representada en el diagrama. Las
desviaciones de la diagonal indican desviaciones de la normalidad.
Un grfico Q-Q normal sin tendencia (Figura 2.2, grfico de la derecha) muestra las di-
ferencias existentes entre la puntuacin tpica de cada valor observado (Z i) y su correspon-
diente puntuacin tpica normal (N Z i). Es decir, muestra las distancias verticales existentes
entre cada punto y la diagonal del grfico Q-Q normal. En el eje horizontal estn represen-
tados los valores observados (Yi) y en el vertical ordenadas el tamao de las diferencias entre
las puntuaciones tpicas observadas y las esperadas (Zi ! N Zi). Si las puntuaciones proceden
de una poblacin normal, esas diferencias deben oscilar de forma aleatoria en torno al valor
cero (lnea recta horizontal). La presencia de pautas de variacin no aleatorias indica des-
viaciones de la normalidad.
Figura 2.2. Grficos de normalidad: Q-Q normal (izquierda) y Q-Q normal sin tendencia (derecha)
Grfico Q-Q normal (var. peso al nacer) Grfico Q-Q normal sin tendencia (var. peso al nacer)
Los diagramas de las Figuras 2.3, 2.4 y 2.5 ofrecen algunos ejemplos que pueden ayudar a
comprender el significado de los grficos de normalidad. Estos diagramas muestran el com-
portamiento de tres muestras de puntuaciones aleatoriamente extradas de tres distribuciones
tericas de probabilidad: una distribucin normal, una distribucin uniforme y una distribu-
cin ji-cuadrado (para obtener estas muestras de puntuaciones se han utilizado las funciones
RV.NORMAL, RV.UNIFORM y RV.CHISQ del procedimiento Calcular del men Transformar).
Captulo 2. Inferencia con una variable 67
Figura 2.3. Grficos de normalidad: muestra extrada de una distribucin normal (media=10, desv. tpica=3)
Grfico Q-Q normal (var. normal) Grfico Q-Q normal sin tendencia (var. normal)
Figura 2.4. Grficos de normalidad: muestra extrada de una distribucin uniforme (rango 0, 1)
Grfico Q-Q normal (var. uniforme) Grfico Q-Q normal sin tendencia (var. uniforme)
Figura 2.5. Grficos de normalidad: muestra extrada de una distribucin ji-cuadrado (gl = 10)
Grfico Q-Q normal (var. ji-cuadrado) Grfico Q-Q normal sin tendencia (var. ji-cuadrado)
68 Anlisis de datos (vol. II)
Apndice 2
La prueba de las rachas
La mayor parte de los procedimientos estadsticos que se utilizan para realizar inferencias asumen que
las muestras con las que se trabaja son aleatorias; o, lo que es lo mismo, que las observaciones mues-
treadas son independientes entre s. Esto hemos tenido ocasin de comprobarlo con todos los procedi-
mientos inferenciales ya estudiados y tendremos ocasin de seguir comprobndolo a lo largo de todos
los captulos que siguen. El incumplimiento de este supuesto puede acarrear graves consecuencias so-
bre las conclusiones de un contraste (ver Kenny y Judd, 1986).
En la prctica, la independencia entre observaciones se consigue seleccionndolas al azar. En una
secuencia temporal, por ejemplo, las observaciones no suelen ser independientes entre s: lo que ocurre
con una observacin concreta depende, generalmente, de las caractersticas de alguna observacin pre-
via. En una muestra aleatoria, por el contrario, debe esperarse que lo que ocurre con cada observacin
sea independiente de lo que ocurre con las dems. La prueba de las rachas permite valorar si las ob-
servaciones seleccionadas son realmente independientes entre s.
El concepto de racha se refiere a una secuencia de observaciones de un mismo tipo. Supongamos
que se lanza una moneda al aire 10 veces y que se obtiene el siguiente resultado: CCCXCCXXXC. En
este resultado hay 5 rachas: CCC, X, CC, XXX y C. A simple vista, el resultado obtenido parece
aleatorio. Pero si en lugar de ese resultado se hubiera obtenido este otro: CCCCCXXXXX (2 rachas),
no resultara difcil ponerse de acuerdo en que la secuencia obtenida no parece aleatoria. Como tampo-
co parece aleatoria una secuencia con demasiadas rachas: CXCXCXCXCX (10 rachas). Pues bien, la
prueba de las rachas permite determinar si el nmero de rachas (R) observado en un conjunto de ob-
servaciones es lo suficientemente grande o lo suficientemente pequeo como para poder rechazar la
hiptesis de independencia (o aleatoriedad) entre las observaciones.
Es importante no confundir la hiptesis de aleatoriedad con la hiptesis de bondad de ajuste
estudiada a propsito del contraste sobre una proporcin o prueba binomial (ver Captulo 9 del primer
volumen). Obtener 5 caras y 5 cruces al lanzar una moneda 10 veces es un resultado que se ajusta
perfectamente a la hiptesis de equiprobabilidad (cara = cruz = 0,5), pero si las 5 caras salen al princi-
pio y las 5 cruces al final, esto hara dudar de la hiptesis de independencia o aleatoriedad.
Para obtener el nmero de rachas de un conjunto de n observaciones es necesario que stas estn
clasificadas en dos grupos exhaustivos y mutuamente exclusivos (variable dicotmica). Si no lo estn,
se deber utilizar algn criterio (por ejemplo, colocando un punto de corte en la media, en la media na,
en la moda o en cualquier otro valor) para hacer que lo estn. Una vez clasificadas las n observaciones
en dos grupos (de tamaos n1 y n2), la hiptesis de aleatoriedad o independencia puede ponerse a
prueba utilizando una tipificacin10 del nmero de rachas (R):
=
Z = con [2.21]
=
10
Si el tamao muestral es menor que 50, el estadstico Z se obtiene utilizando la correccin por continuidad de la siguiente
manera (as es como aplica la correccin el PSSS):
Si [R ! E (R )] < !0,5, se suma 0,5 a R. Es decir: Z = [R + 0,5 ! E (R )] / R.
Si [R ! E (R )] > 0,5, se resta 0,5 a R. Es decir: Z = [R ! 0,5 ! E (R )] / R.
Si | R ! E (R ) | < 0,5, entonces Z = 0.
Captulo 2. Inferencia con una variable 69
El estadstico Z se distribuye segn el modelo de probabilidad normal N (0, 1). Las probabilidades
asociadas al estadstico Z pueden utilizarse para tomar decisiones sobre la hiptesis nula de aleatorie-
dad en un contraste bilateral.
Retomemos los datos de la Tabla 2.1 referidos al peso de 14 recin nacidos de madres fumadoras.
La primera fila de la Tabla 2.10 muestra las puntuaciones originales (ahora no estn ordenadas de
menor a mayor, como en la Tabla 2.1). Qu puede decirse sobre la hiptesis de independencia o
aleatoriedad de esta secuencia de observaciones? ( = 0,05).
Yi 2,45 1,80 3,15 1,98 2,04 2,08 4,64 2,20 2,30 1,48 2,47 1,93 3,46 2,18
Rachas % & % & & & % % % & % & % &
Puesto que se trata de una variable cuantitativa, lo primero que debemos hacer para poder aplicar la
prueba de las rachas es convertirla en dicotmica creando dos grupos: uno con los valores menores que
la mediana y otro con los valores mayores. El valor de la mediana es 2,19. En la Tabla 2.10 se ha colo-
cado un signo ! a los valores menores que 2,19 y un signo + a los valores mayores. Como resulta-
do de esta clasificacin se obtienen R = 10 rachas (es decir, 10 secuencias de signos del mismo tipo).
Hay n1 = n2 = 7 signos de cada tipo.
La hiptesis nula que vamos a contrastar es que la muestra es aleatoria (frente a la alternativa de
que no lo es). El nico supuesto que necesitamos establecer es que tenemos 14 observaciones de una
variable dicotmica o dicotomizada. Aplicando la ecuacin [2.21] obtenemos11:
R = 10; E (R ) = 2 n1 n2 / n + 1 = 2 (7) (7) / 14 +1 = 8.
R = = = 1,797.
Z = [R ! E (R)] / R = (10 ! 8) / 1,797 = 1,11.
Puesto que el estadstico Z se distribuye aproximadamente N (0, 1), la zona crtica est formada por los
valores menores que Z0,025 = !1,96 y mayores que Z0,975 = 1,96. El valor del estadstico del contraste
(1,11) no cae en la zona crtica. Por tanto, se mantiene H0. No hay razn para pensar que la secuencia
de observaciones analizada no es aleatoria.
La prueba de las rachas se encuentra en la opcin Pruebas no paramtricas del men Analizar.
Recordemos que, para poder aplicar la prueba, es necesario que las observaciones estn clasificadas
en dos grupos (variable dicotmica). Si no lo estn, debe utilizarse algn criterio para hacer que lo
estn. El SPSS permite elegir como criterio de dicotomizacin (Punto de corte), la mediana, la moda,
la media o cualquier otro valor. Los valores menores que el punto de corte pasan a formar parte del
primer grupo; los valores iguales o mayores que el punto de corte pasan a formar parte del segundo. El
botn Opciones conduce a un subcuadro de dilogo que permite obtener algunos estadsticos descrip-
tivos y decidir qu tratamiento se desea dar a los valores perdidos.
El SPSS, tras contar el nmero de rachas, utiliza el estadstico Z propuesto en [2.21] (aplicando
la correccin por continuidad propuesta en la nota a pie de pgina nmero 9) y ofrece el nivel crtico
bilateral resultante de multiplicar por 2 la probabilidad de encontrar, en la distribucin N (0, 1), pun-
tuaciones Z menores que la obtenida si R < E(R ), o mayores que la obtenida si R > E(R ).
Para contrastar la hiptesis de independencia o de aleatoriedad referida la variable peso de la Ta-
bla 2.10 con el SPSS:
' Reproducir en el Editor de datos los datos de la Tabla 2.10 (o abrir el archivo Tabla 2.10 rachas
que se encuentra en la pgina web del manual).
11
Incluyendo la correccin por continuidad propuesta en la nota a pie de pgina nmero 10 de la pgina anterior se obtiene:
Z = [R ! 0,5 ! E (R )] / R = (10 ! 0,5 ! 8) / 1,797 = 0,835 (con: p ' 2 [P (Z > $ *0,83*)] ' 2 (0,2033) = 0,4066).
70 Anlisis de datos (vol. II)
' Seleccionar la opcin Pruebas no paramtricas > Rachas del men Analizar para acceder al cuadro
de dilogo Prueba de las rachas y trasladar la variable peso a la lista Contrastar variables (si se tras-
lada ms de una variable, se obtiene un contraste por variable).
' Dejar marcada la opcin Mediana del recuadro Punto de corte para categorizar la variable utilizan-
do la mediana (este criterio es el que suele utilizarse como punto de corte).
Aceptando estas elecciones, el Visor ofrece los resultados que muestra la Tabla 2.11. La tabla comienza
identificando el valor que se ha utilizado como punto de corte para la dicotomizacin: valor de prueba
= 2,19. Una nota a pie de tabla recuerda que ese punto de corte es la mediana. A continuacin aparece
el nmero de casos del primer grupo (casos < valor de prueba = 7), el nmero de casos del segundo
grupo (casos >= valor de prueba = 7), el nmero de casos vlidos (casos en total = 14) y el nmero de
rachas contabilizadas (10).
La tabla ofrece, por ltimo, el valor del estadstico de contraste (Z = 0,835) y su nivel crtico (sig-
nificacin asinttica bilateral = 0,404). Puesto que el nivel crtico es mayor que 0,05, la decisin
razonable es mantener H0. Por tanto, nada impide asumir que la secuencia de observaciones analizada
es aleatoria.
una proporcin P de signos negativos (salvando, por supuesto, las fluctuaciones atribuibles al azar
muestral). O, lo que es lo mismo,
n! . n P [2.24]
Una fuerte discrepancia entre n ! y n P estara indicando que el verdadero valor poblacional del cuantil
CP no es k0. La clave est precisamente en poder determinar cundo una discrepancia entre n ! y n P
es lo bastante grande como para pensar que, efectivamente, el valor poblacional del cuantil CP no es
k0. Para esto es necesario conocer la distribucin muestral de n!. Pero la distribucin muestral de n!
sabemos que es la binomial con parmetros n y ! = P (ver el apartado Prueba de los signos para una
muestra). Por tanto, tenemos todo lo necesario para contrastar hiptesis sobre el cuantil CP .
La prueba de los cuantiles se obtiene en el SPSS exactamente igual que la prueba de los signos ya
estudiada en este mismo captulo. La nica diferencia est en que la proporcin que se contrasta ahora
no es 0,50 (como cuando la hiptesis se refiere a la mediana) sino la proporcin P correspondiente al
cuantil que se desea estudiar.
Recordemos el ejemplo sobre 14 recin nacidos de madres fumadoras (ver Tabla 2.1). Imagine-
mos que un investigador tiene la hiptesis de que el 70 % de estos bebs pesa menos de 2,50 kg al na-
cer. Esta hiptesis puede contrastarse haciendo exactamente lo mismo que hemos hecho a propsito de
la prueba de los signos, con la nica diferencia de que, ahora, la Proporcin de prueba es 0,70 en lugar
de 0,50 (ahora estamos interesados en el cuantil C0,70 percentil 70 y no en la mediana). El proce-
dimiento ofrece un nivel crtico p = 0,355 que no permite rechazar la hiptesis nula de que el cuantil
C0,70 vale 2,50 kg. Por tanto, la informacin muestral disponible es compatible con la hiptesis de
nuestro investigador.
2.1. Un grupo de educadores considera que los estudiantes de bachillerato deben dedicar, para rendir satis-
factoriamente, un promedio de 12 horas de estudio a la semana. En una muestra aleatoria de 14 estu-
diantes de bachillerato de un determinado instituto se han obtenido los datos que ofrece la siguiente
tabla (la variable Yi es una medida cuantitativa del rendimiento):
Sujetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Yi 9 11 7 16 10 8 3 12 6 15 9 5 12 20
a. Puede asumirse que estos datos proceden de una poblacin distribuida normalmente? (la media
vale 10,21 y la desviacin tpica 4,59).
b. Aplicar la prueba T, la prueba de Wilcoxon y la prueba de los signos para averiguar si estos datos
permiten afirmar que el promedio de horas de estudio semanales de los estudiantes de este instituto
es menor que 12 ( = 0,05).
2.2. Con el mtodo utilizado en los ltimos aos en un determinado colegio para ensear matemticas los
estudiantes de enseanza primaria consiguen una calificacin media de 6,4. Un educador convence al
director del centro de que existe un mtodo ms eficaz y decide aplicarlo durante un ao en dos aulas
de 25 estudiantes cada una. Al final del curso, los 50 estudiantes obtienen una calificacin media de
6,8 y una varianza de 2. Se puede concluir, con un nivel de confianza de 0,95, que el nuevo mtodo
de enseanza ha mejorado la calificacin media que se vena obteniendo con el mtodo tradicional?
72 Anlisis de datos (vol. II)
2.3. Las puntuaciones del WAIS (Escala de Inteligencia para Adultos de Wechsler) se distribuyen normal-
mente con media 100. Un psiclogo ha construido una nueva prueba de inteligencia (Y ) y desea saber
si la media que se obtiene con ella se parece o no a la del WAIS. Para ello, selecciona una muestra
aleatoria de 100 sujetos y, tras pasarles la prueba, obtiene una media de 104 y una desviacin tpica
insesgada de 16. Qu concluir el psiclogo con un nivel de confianza de 0,95?
2.4. A qu conclusin se habra llegado en el ejercicio anterior si, permaneciendo todo lo dems igual, se
hubiera utilizado una muestra de 25 estudiantes en lugar de la que ha utilizado de 100?
2.5. La informacin que ofrece el editor de una escala de madurez indica que las puntuaciones en la escala
se distribuyen normalmente con media 5 en la poblacin de estudiantes de enseanza secundaria. La
escala tiene ya 10 aos, lo que hace sospechar a un educador que el promedio de la escala ha podido
aumentar. Para comprobarlo, selecciona una muestra aleatoria de 25 estudiantes de enseanza secunda-
ria y, tras pasarles la prueba, obtiene una media de 5,6 y una desviacin tpica de 2. Podr el educador
concluir, con = 0,05, que el promedio de la escala de madurez ha aumentado?
_
2.6. En un contraste bilateral de H0: Y = 420, qu valores de Y llevarn a rechazar H0 con una muestra
aleatoria de tamao 36 extrada de una poblacin normal cuya desviacin tpica vale 18? ( = 0,05).
2.7. (Elegir la/s alternativa/s correcta/s) En un estudio se ha obtenido, para el estadstico del contraste, un
valor T = 7,3 tal que P(T < 7,3) = 0,025. Si el contraste es unilateral derecho, esto significa que:
a. Hay que rechazar H0.
b. La probabilidad de rechazar H0, siendo verdadera, vale 0,025.
c. Lo razonable es mantener H0.
d. Puede rechazarse H0 con una probabilidad de 0,025 de cometer un error en la decisin.
e. Si H0 es verdadera y se decide mantenerla, la probabilidad de cometer un error vale al menos 0,025.
2.8. Supongamos que se contrasta H0: Y >$ 0 frente a H1: Y < 0 y, en una muestra aleatoria, se obtiene un
estadstico T = !2. Sabiendo que P (T < !2) = 0,005 y utilizando = 0,01, qu decisin debe tomar-
se sobre H0 y por qu?
a. Rechazarla porque !2 < 0.
b. Mantenerla porque 0,01 < 0,995.
c. Mantenerla porque !2 < 0,01.
d. Rechazarla porque 0,005 < 0,01.
c. Mantenerla porque P (T < !2) > .
2.9. Un investigador desea comprobar si un test se distribuye N (0, 1) en la poblacin de estudiantes univer-
sitarios. En una muestra obtiene un estadstico de contraste KS con valor igual al centil 95. Teniendo
en cuenta la siguiente funcin de distribucin de algunos de los valores del estadstico de contraste:
KS 43,28 45,44 48,76 51,74 55,33 85,53 90,53 95,02 100,4 104,2
F (KS | H0) 0,005 0,010 0,025 0,050 0,100 0,900 0,950 0,975 0,990 0,995
Utilizando = 0,01:
a. Con qu valores del estadstico KS se tomar la decisin de rechazar H0?
b. Qu decidiremos sobre H0? ( ) Mantenerla ( ) Rechazarla, porque...
$ 95) < 0,01; ( ) P (KS >
( ) 90,53 < 100,4; ( ) 95 < 100; ( ) P (KS > $ 95) > 0,01; ( ) 0,95 > 0,01.
c. Qu se puede concluir?
d. Cunto vale el nivel crtico p?
3
Inferencia con
dos variables categricas
En nuestra clasificacin de los contrastes de hiptesis (ver el Cuadro 1.1 al final del primer
captulo) hemos propuesto diferentes procedimientos para abordar el anlisis de dos varia-
bles categricas: (1) la prueba X 2 de Pearson sobre independencia o igualdad de proporcio-
nes, (2) los ndices de riesgo, (3) la prueba de McNemar para el contraste de la hiptesis de
simetra y (4) las medidas de asociacin. Para decidir cul de ellos aplicar en una situacin
concreta hay que prestar atencin a dos detalles: las categoras de las variables analizadas y
la hiptesis que se desea contrastar.
Las categoras de las variables pueden ser o no las mismas. Por ejemplo, al analizar las
variables sexo (hombres, mujeres) y tabaquismo (fumadores, exfumadores, no fumadores),
o las variables clase social (baja, media, alta) y nivel de estudios (primarios, secundarios, me-
dios superiores), las categoras de las variables son distintas. Pero al analizar las variables opi-
nin sobre la eutanasia (a favor, indiferente, en contra) y opinin sobre el aborto (a favor,
indiferente, en contra), o las variables bebedor (s, no) y fumador (s, no), las categoras de
ambas variables son las mismas. En el primer caso (categoras distintas), el anlisis suele diri-
girse casi de forma exclusiva al estudio de la relacin entre las variables mediante el contraste
de la hiptesis de independencia; en el segundo caso (categoras iguales), adems de estudiar
si existe relacin, es posible y suele interesar estudiar otros aspectos mediante el contraste de
diferentes hiptesis: homogeneidad marginal, simetra absoluta, simetra relativa, acuerdo,
cuasi-independencia, etc.
El anlisis de dos variables categricas ya lo hemos iniciado en el Captulo 10 del primer
volumen construyendo tablas de contingencias bidimensionales y contrastando la hiptesis
de independencia o igualdad de proporciones con la prueba X 2 de Pearson. En este captulo
estudiaremos el resto de los procedimientos propuestos en el Cuadro 1.1.
Algunos de ellos, como los ndices de riesgo, tambin sirven para contrastar la hiptesis
de independencia, pero con especial atencin a los diseos longitudinales y poniendo el n-
fasis en la cuantificacin del efecto estudiado. Otros, como la prueba de McNemar, sirven
para contrastar la hiptesis de homogeneidad marginal en tablas 2 2. Tendremos ocasin de
comprobar que la independencia y la homogeneidad marginal son cosas muy distintas. Y tam-
74 Anlisis de datos (vol. II)
bin estudiaremos varias medidas de asociacin diseadas para intentar resumir en un solo
nmero el grado o intensidad de la relacin presente en una tabla de contingencias bidimen-
sional, incluyendo el acuerdo como un caso especial de la asociacin.
Aqu, como en el caso anterior, tambin podra contrastarse la hiptesis de independencia para
averiguar si la opinin que se tiene en el momento antes est relacionada con la opinin que
se tiene en el momento despus. Esto podra hacerse comparando, como antes, las proporcio-
nes 60 / 80 = 0,75 y 30 / 120 = 0,25. Pero en un estudio de estas caractersticas, el hecho de
saber que existe relacin entre ambos momentos suele tener poco de inters: puesto que se
est haciendo la misma pregunta a los mismos sujetos, es lgico esperar que exista relacin;
y saber esto no aporta gran cosa.
Lo que suele interesar en una situacin de estas caractersticas es, ms bien, saber si la
opinin ha cambiado; es decir, saber si la opinin que se tiene en el momento antes difiere
o no de la opinin que se tiene en el momento despus. Y esto no puede saberse contrastan-
do la hiptesis de independencia, sino otra hiptesis llamada de homogeneidad marginal.
Y contrastar esta hiptesis implica comparar la proporcin de personas que estn a favor en
el momento antes (80 / 200 = 0,40) con la proporcin de personas que estn a favor en el
momento despus (90 / 200 = 0,45), lo cual no tiene nada que ver con las proporciones que
se comparan cuando se contrasta la hiptesis de independencia (0,75 y 0,25). Por supuesto,
sera equivalente centrarse en la proporcin de personas que estn en contra.
Entre las proporciones que se comparan en la hiptesis de independencia y las que se
comparan en la hiptesis de homogeneidad marginal existe una diferencia muy importante.
En la hiptesis de independencia (ver Tabla 3.1) se estn comparando dos proporciones que
son independientes entre s: en las proporciones 33 / 110 = 0,30 y 36 / 90 = 0,40, los 33 hom-
bres fumadores son personas distintas (independientes) de las 36 mujeres fumadoras; de otra
manera: los 110 hombres que intervienen en la primera proporcin son distintos de las 90
mujeres que intervienen en la segunda. Por el contrario, en la hiptesis de homogeneidad mar-
ginal (ver Tabla 3.2) se estn comparando dos proporciones relacionadas: en las proporcio-
nes 80 / 200 = 0,40 (a favor en el momento antes) y 90 / 200 = 0,45 (a favor en el momento
despus), hay 60 personas que son las mismas, es decir, 60 personas que no son indepen-
dientes entre s.
La situacin representada en la Tabla 3.2 es una forma de diseo longitudinal que consis-
te en medir una variable categrica en dos momentos distintos: se toma una medida de la va-
riable, se realiza una intervencin o simplemente se deja pasar el tiempo, y se vuelve a tomar
una medida de la misma variable a los mismos sujetos. Estos diseos antes-despus son tiles
para valorar si se produce algn cambio entre los dos momentos. Y el escenario es similar si
en lugar de tomar dos medidas a los mismos sujetos se toma una medida a pares de sujetos
igualados en algn criterio relevante para el anlisis. Esto es lo que ocurre, por ejemplo, cuan-
do se utilizan casos y controles en un estudio clnico, o padres e hijos en un estudio socio-
lgico, o gemelos en un estudio sobre la problemtica herencia-ambiente, etc. La Tabla 3.3
muestra los resultados obtenidos al preguntar la opinin sobre la eutanasia (a favor, en contra)
a los miembros de una misma pareja (marido, mujer).
Quiz la diferencia entre proporciones independientes (las que se utilizan para contrastar la
hiptesis de independencia) y proporciones relacionadas (las que se utilizan para contrastar
la hiptesis de homogeneidad marginal) pueda entenderse mejor en la situacin propuesta
en la Tabla 3.4. La tabla ofrece el resultado de clasificar una muestra de 200 personas tras res-
ponder a dos preguntas distintas (opinin sobre la eutanasia y opinin sobre el aborto), ambas
con las mismas categoras de respuesta (a favor, en contra). En esta nueva clasificacin se es-
tn midiendo dos variables distintas (igual que en la Tabla 3.1), pero ambas tienen las mismas
categoras (igual que en las Tablas 3.2 y 3.3). Las caractersticas de las variables utilizadas
hacen que las Tablas 3.2, 3.3 y 3.4 sean cuadradas (filas = columnas).
Ahora podra interesar contrastar ambas hiptesis: (1) el contraste de la hiptesis de inde-
pendencia estara informando acerca de si ambas opiniones estn o no relacionadas, lo cual
permitira saber si las personas que estn a favor de la eutanasia tienden o no a estar tambin
a favor del aborto; (2) el contraste de la hiptesis de homogeneidad marginal estara infor-
mando acerca de si la proporcin de personas que estn a favor de la eutanasia difiere (es ma-
yor o menor) de la proporcin de personas que estn a favor del aborto.
Para poder contrastar la hiptesis de independencia habra que comparar las proporciones
60 / 80 = 0,75 y 30 / 120 = 0,40; para poder contrastar la hiptesis de homogeneidad marginal
habra que comparar las proporciones 80 / 200 = 0,40 y 90 / 200 = 0,45. Y lo que conviene
advertir es, no solo que cada hiptesis informa sobre un aspecto distinto de la tabla, sino que
las proporciones que se comparan en el primer caso son proporciones independientes, mien-
tras que las que se comparan en el segundo caso son proporciones relacionadas.
En cualquiera de los tres escenarios descritos (todos ellos representados en la Tabla 3.6), la
hiptesis nula de homogeneidad marginal puede formularse como:
H0 : 1+ = +1 [3.1]
Con palabras: la proporcin de unos en X es igual a la proporcin de unos en Y. Y apli-
cada al ejemplo de la Tabla 3.2: la proporcin de personas que estn a favor de la eutanasia
en el momento antes es igual a esa misma proporcin en el momento despus.
Sera equivalente referir la hiptesis [3.1] a la proporcin de doses, pues si 1+ y +1
son iguales, entonces 2+ y +2 tambin lo son. Por esta razn a la hiptesis que estamos con-
trastando se le llama hiptesis de homogeneidad marginal: se est afirmando que las propor-
ciones marginales de X e Y son iguales.
en una direccin (12) es igual a la proporcin de cambios que se observan en la otra direccin
(21):
H0 : 12 = 21 [3.3]
Esto implica que, en una tabla de contingencias 2 2, n12 y n21 contienen la informacin ne-
cesaria y suficiente para contrastar la hiptesis de homogeneidad marginal. Si H0 es verda-
dera, cabe esperar que n12 y n21 tomen valores parecidos. Una fuerte discrepancia entre n12 y
n21 har dudar de H0. Por tanto, conociendo las probabilidades asociadas a n12 y n21, podre-
mos determinar cundo la diferencia entre ambos valores es lo bastante grande (lo bastante
improbable si H0 fuera verdadera) como para poder rechazar H0.
Ahora bien, como cada uno de los n* = n12 + n21 casos representa un ensayo de Bernou-
lli que puede pertenecer a n12 o de n21 con la misma probabilidad (pues H0 afirma que 12 y
21 son iguales), n12 y n21 son variables aleatorias que se distribuyen segn el modelo de pro-
babilidad binomial con parmetros = 0,50 y n* = n12 + n21 (ver, en el Captulo 6 del primer
volumen, el apartado Distribucin muestral del estadstico proporcin). Y como n12 y n21 son
complementarios respecto de n, conocer la probabilidad asociada a cualquiera de ellos implica
conocer la probabilidad asociada al otro. Esto significa que es innecesario trabajar con am-
bos; basta con utilizar n12.
Por tanto, tenemos un estadstico (n12) con distribucin muestral conocida que puede uti-
lizarse para contrastar la hiptesis de homogeneidad marginal (hiptesis que equivale a la
de simetra cuando, como es el caso, ambas variables son dicotmicas). Y ocurre que este
contraste es idntico al contraste sobre una proporcin ( prueba binomial ) ya estudiado en
el Captulo 9 del primer volumen; nicamente hay que tener en cuenta la siguiente equiva-
lencia entre la notacin utilizada aqu y la utilizada all: n12 = nmero de xitos, n* = n-
mero de ensayos y 12 = 0,50 = proporcin de xitos.
No repetiremos aqu este contraste, pero recordemos que la distribucin binomial tiende
a la distribucin normal conforme el tamao muestral va aumentando. En lo que ahora nos
ocupa, conforme n* va aumentando, el estadstico n12 se va aproximando a la distribucin
normal con valor esperado n* (0,5) y varianza n* (0,5) (0,5) (ver, en el Captulo 4 del primer
volumen, el apartado Aproximacin de la distribucin binomial a la normal). Basndose en
esta aproximacin, McNemar (1947) ha diseado un estadstico que no es ms que una tipi-
ficacin de n12 elevada al cuadrado1:
= [3.4]
1
La ecuacin incluye correccin por continuidad. En Pardo y San Martn (1998, pg. 501) puede encontrarse una sencilla
demostracin de cmo se obtiene el estadstico de McNemar a partir de los valores esperados de n12 y n21.
Captulo 3. Inferencia con dos variables categricas 79
= [3.5]
Cuadro 3.1. Resumen de la prueba de McNemar sobre homogeneidad marginal o simetra (tablas 2 2)2
1. Hiptesis:
a. Contraste bilateral: H0 : 1+ = +1 ; H1: 1+ =/ +1 .
b. Contraste unilateral derecho: H0 : 1+ <$ +1 ; H1: 1+ > +1 .
c. Contraste unilateral izquierdo: H0 : 1+ >$ +1 ; H1: 1+ < +1 .
2. Supuestos: muestra aleatoria de n sujetos en la que se ha medido una variable dicot-
mica en dos momentos distintos (X e Y ) o dos variables dicotmicas (X e Y ) con las
mismas categoras; o bien, muestra aleatoria de n pares (X e Y ) de sujetos en la que se
ha medido una variable dicotmica.
3. Estadstico del contraste (ver [3.4]): = .
4. Distribucin muestral: se aproxima a la distribucin ji-cuadrado con 1 grado
de libertad ( ). La aproximacin es buena incluso con muestras pequeas.
5. Zonas crticas:
a. Contraste bilateral: $
> .
b. Contraste unilateral derecho : 2
$
> .
c. Contraste unilateral izquierdo2: $
> .
6. Decisin: se rechaza H0 si el estadstico del contraste cae en la zona crtica; en caso
contrario, se mantiene.
7. Nivel crtico (valor p):
a. Contraste bilateral: p = [P ( $
> )].
b. Contraste unilateral derecho: p = 2 [P ( $
> )].
c. Contraste unilateral izquierdo: p = 2 [P ( $
> )].
8. Intervalo de confianza (ver [3.6]): = .
2
En un contraste bilateral, toda la zona crtica (de tamao ) est a la derecha de la distribucin muestral (pues las diferen-
cias entre n12 y n21 estn elevadas al cuadrado). En un contraste unilateral (sea derecho o izquierdo), la zona crtica sigue
estando en la cola derecha de la distribucin muestral, pero su tamao es el doble de grande (2 ) que en el caso bilateral.
80 Anlisis de datos (vol. II)
Tabla 3.7. Preferencia entre dos lderes polticos antes y despus de un debate televisado
Preferencia despus
Preferencia antes Lder A Lder B Total
Lder A 49 21 70
Lder B 63 117 180
Total 112 138 250
Se est midiendo una variable categrica (preferencia) con dos categoras (lder A, lder B)
en dos momentos distintos (antes y despus de un debate televisado). Y el inters del anlisis
no est en saber si lo que ocurre en el momento antes est o no relacionado con lo que ocurre
en el momento despus (hiptesis de independencia), sino en averiguar si la proporcin de
personas que prefieren al lder A (o al B) ha cambiado tras el debate (hiptesis de simetra
o de homogeneidad marginal).
1. Hiptesis: H0 : 1+ = +1; H1: 1+ =/ +1.
Se est planteando un contraste bilateral porque se quiere saber si la preferencia por el
lder A ha cambiado, no si ha aumentado o si ha disminuido.
2. Supuestos: muestra aleatoria de n = 250 sujetos en la que se ha medido una variable di-
cotmica (lder A, lder B) en dos momentos distintos.
3. Estadstico del contraste (con n12 = 21 y n21 = 63):
= = = .
= [3.7]
Tabla 3.8. Preferencia entre tres lderes polticos antes y despus de un debate televisado
Preferencia despus
Preferencia antes Lder A Lder B Lder C Total
Lder A 38 8 4 50
Lder B 24 46 10 80
Lder C 18 16 86 120
Total 80 70 100 250
82 Anlisis de datos (vol. II)
= = =
Por ejemplo, en los datos de la Tabla 3.7 se tiene: n12 = 21, n21 = 63, n* = 21 + 63 = 84, r = 21,
i = todos los valores de 0 a 21. Para contrastar la hiptesis de simetra (prueba de McNe-
mar) con los datos de la Tabla 3.7:
' Reproducir en el Editor de datos los datos de la Tabla 3.7 (ver en el Apndice 3 el apar-
tado Cmo reproducir una tabla de contingencias en SPSS ) y ponderar el archivo con
la variable ncasos (o abrir el archivo Tabla 3.7 simetra mcnemar que se encuentra en
la pgina web del manual).
Captulo 3. Inferencia con dos variables categricas 83
' Seleccionar la opcin Estadsticos descriptivos > Tablas de contingencias del men Analizar
para acceder al cuadro de dilogo Tablas de contingencias y trasladar la variable antes
(preferencia antes del debate) a la lista Filas y la variable despus (preferencia despus
del debate) a la lista Columnas.
' Pulsar el botn Estadsticos para acceder al subcuadro de dilogo Tablas de contingen-
cias: Estadsticos y marcar la opcin McNemar. Pulsar el botn Continuar para volver al
cuadro de dilogo principal.
Aceptando estas elecciones, el Visor ofrece, adems de la correspondiente tabla de contin-
gencias, los resultados que muestra la Tabla 3.9. La tabla informa del nivel crtico asociado
al nmero de cambios observados (sig. exacta bilateral) y del nmero de casos vlidos. La
tabla no incluye el valor del estadstico de McNemar (ecuacin [3.4]) porque el nivel crti-
co se ha obtenido aplicando la ecuacin [3.9] para obtener la probabilidad exacta que ofrece
la distribucin binomial (se indica en una nota a pie de tabla).
Cualquiera que sea la forma de obtener el nivel crtico, su significado siempre es el mis-
mo: indica el grado de compatibilidad existente entre los datos muestrales y la hiptesis nula.
En el ejemplo, puesto que el nivel crtico es menor que 0,05 (sig. exacta bilateral < 0,0005),
se puede rechazar la hiptesis nula de simetra y concluir que el nmero de cambios a favor
del lder A difiere del nmero de cambios a favor del lder B. O, lo que es lo mismo, que la
proporcin de sujetos que prefiere al lder A antes del debate (70 / 250 = 0,28) ha cambiado
significativamente ha aumentado tras el debate (112 / 250 = 0,45).
La opcin McNemar del procedimiento Tablas de Contingencias tambin permite trabajar con
variables politmicas. Si las variables seleccionadas tienen ms de dos categoras, el SPSS
ofrece, en lugar del estadstico de McNemar, el de Bowker (lo llama estadstico de McNemar-
Bowker). Para contrastar la hiptesis de simetra con los datos de la Tabla 3.8:
' Reproducir en el Editor de datos los datos de la Tabla 3.8 (ver en el Apndice 3 el apar-
tado Cmo reproducir una tabla de contingencias en SPSS ) y ponderar el archivo con
la variable ncasos (o abrir el archivo Tabla 3.8 simetra bowker que se encuentra en la
pgina web del manual).
' Repetir los mismos pasos del ejemplo anterior (procedimiento Tablas de contingencias)
para obtener la prueba de McNemar-Bowker.
Ahora, el Visor ofrece los resultados que muestra la Tabla 3.10. La tabla incluye el valor del
estadstico de McNemar-Bowker (valor = 18,29) junto con los grados de libertad de su distri-
bucin muestral (gl = 3) y el correspondiente nivel crtico (sig. asinttica bilateral < 0,0005).
Puesto que el nivel crtico es menor que 0,05, se puede rechazar la hiptesis nula de simetra
y concluir que los cambios de preferencia observados no se reparten de igual forma entre los
tres lderes.
84 Anlisis de datos (vol. II)
El problema de este contraste es que, dado que la variable categrica analizada tiene ms de
dos categoras, el rechazo de la hiptesis de simetra no permite determinar en qu direccin
se producen cambios significativos. Para conocer esto es necesario aplicar la prueba de Mc-
Nemar a cada par de categoras: primero comparando los lderes A y B, a continuacin los
lderes A y C, y por ltimo los lderes B y C. Estas comparaciones pueden hacerse aplican-
do varios filtros al archivo de datos (con la opcin Seleccionar casos del men Datos), de tal
manera que en cada contraste nicamente intervengan las dos categoras (lderes) que se de-
sea comparar. La Figura 3.1 muestra los tres filtros creados para efectuar los tres contrastes.
La variable filtro_AB permite aislar a los lderes A y B; la variable filtro_AC, a los lderes A
y C; la variable filtro_BC, a los lderes B y C.
Figura 3.1. Datos correspondientes a la Tabla 3.8 con tres variables filtro aadidas
Aplicando la prueba de McNemar tras activar consecutivamente cada uno de los tres filtros
definidos se obtienen los resultados que muestran las Tablas 3.11 a la 3.13. Los niveles cr-
ticos obtenidos con cada filtro (sig. exacta bilateral) indican que los cambios significativos
se producen desde los lderes B y C hacia el A ( p = 0,007 en el primer caso y p = 0,004 en
el segundo; ver Tablas 3.11 y 3.12). El resultado de la comparacin entre los lderes B y C
no es significativo (p = 0,327; ver Tabla 3.13). Se obtiene idntico resultado si los filtros se
llevan a las capas (un filtro por capa).
Tabla 3.11. Preferencia entre dos lderes polticos antes y despus de un debate televisado (izquierda) y
prueba de McNemar (derecha). Lderes A y B
Recuento
Preferencia Sig. exacta
despus Valor (bilateral)
Lder A Lder B Total a
Prueba de McNemar ,007
Preferencia Lder A 38 8 46 N de casos vlidos 116
antes Lder B 24 46 70 a. Utilizada la distribucin binomial
Total 62 54 116
Captulo 3. Inferencia con dos variables categricas 85
Tabla 3.12. Preferencia entre dos lderes polticos antes y despus de un debate televisado (izquierda) y
prueba de McNemar (derecha). Lderes A y C
Recuento
Preferencia Sig. exacta
despus Valor (bilateral)
a
Lder A Lder C Total Prueba de McNemar ,004
Preferencia Lder A 38 4 42 N de casos vlidos 146
antes Lder C 18 86 104 a. Utilizada la distribucin binomial
Total 56 90 146
Tabla 3.13. Preferencia entre dos lderes polticos antes y despus de un debate televisado (izquierda)
y prueba de McNemar (derecha). Lderes B y C
Recuento
Preferencia Sig. exacta
despus Valor (bilateral)
a
Lder B Lder C Total Prueba de McNemar ,327
Preferencia Lder B 46 10 56 N de casos vlidos 158
antes Lder C 16 86 102 a. Utilizada la distribucin binomial
Total 62 96 158
Cuando las variables analizadas son dicotmicas, la hiptesis de simetra (12 = 21) es equi-
valente a la de homogeneidad marginal (i + = + j). Esta equivalencia no se sostiene cuando
las variables tienen ms de dos categoras. La simetra implica homogeneidad marginal, pe-
ro la homogeneidad marginal no implica simetra. Del rechazo de la hiptesis de simetra no
se sigue que las distribuciones marginales sean distintas. Por tanto, al analizar situaciones
como la representada en la Tabla 3.8 es muy importante tener claro qu es lo que interesa
analizar: (1) centrar la atencin en la hiptesis de simetra significa valorar la pauta que si-
guen los cambios observados (esto es lo que hemos hecho en el ejemplo anterior: ver hacia
qu lder se dirigen los cambios observados); (2) centrar la atencin en la hiptesis de ho-
mogeneidad marginal significa valorar si las proporciones antes-despus han cambiado (es
decir, valorar si las proporciones de personas que prefieren a cada lder son o no iguales an-
tes y despus del debate).
Veamos cmo contrastar con el SPSS la hiptesis de homogeneidad marginal referida
a los mismos datos del ejemplo anterior (ver Tabla 3.8 y Figura 3.1):
' Seleccionar la opcin Pruebas no paramtricas > Dos muestras relacionadas del men Anali-
zar para acceder al cuadro de dilogo Pruebas para dos muestras relacionadas.
' Trasladar las variables antes (preferencia antes del debate) y despus (preferencia des-
pus del debate) a la lista Contrastar pares.
' Marcar la opcin Homogeneidad marginal del recuadro Tipo de prueba.
error tpico (media del estadstico HM = 157 y desviacin tpica del estadstico HM = 6,04);
(5) el valor tipificado del estadstico de homogeneidad marginal (estadstico de HM tipifica-
do = 4,14); este valor tipificado se obtiene restando al valor del estadstico su valor esperado
y dividiendo la diferencia entre su error tpico: (182 ! 157) / 6,04 = 4,14; y (6) el nivel crtico
bilateral (valor p) que corresponde al valor tipificado obtenido (significacin asinttica bilate-
ral < 0,0005; esta probabilidad se calcula multiplicando por 2 la probabilidad de obtener, en
la distribucin normal tipificada, valores mayores o iguales que el obtenido.
Puesto que el nivel crtico es muy pequeo, lo razonable es rechazar la hiptesis de ho-
mogeneidad marginal. Para saber qu proporciones marginales difieren se puede aplicar la
prueba de McNemar a cada pareja de lderes tal como se ha hecho en el ejemplo anterior.
ndices de riesgo
Seguimos analizando dos variables dicotmicas. Pero a diferencia de lo que hemos hecho en
el apartado anterior (medir la misma variable dos veces o en pares de sujetos, o medir dos
variables con las mismas categoras), el inters ahora se centra en estudiar la relacin entre
dos variables dicotmicas distintas. La Tabla 3.15 muestra un ejemplo tpico de la situacin
que nos proponemos analizar. En una muestra aleatoria de 1.150 personas mayores de 40
aos se ha registrado la presencia o no de infarto de miocardio en fumadores y no fumadores
durante un periodo de seguimiento de 15 aos (infarto = s significa al menos un infarto).
Estamos interesados en analizar el grado de relacin existente entre una variable dicotmi-
ca a la que llamaremos factor (en el ejemplo, tabaquismo) y otra variable dicotmica a la que
llamaremos desenlace o respuesta (en el ejemplo, infarto). La variable factor suele elegir-
se porque se sabe o se sospecha que puede estar relacionada con la variable respuesta que
Captulo 3. Inferencia con dos variables categricas 87
interesa estudiar. Los datos recogidos al estudiar este tipo de situaciones suelen organizarse
en tablas de contingencias 2 2 como la representada en la Tabla 3.15. La Tabla 3.16 mues-
tra la notacin que utilizaremos para referirnos a cada elemento de la tabla. Sustituyendo n
por o por P se obtiene la notacin correspondiente a las proporciones tericas y muestra-
les de cada casilla y de cada total.
Este tipo de datos son habituales en estudios longitudinales, los cuales pueden hacerse de dos
formas: hacia delante o hacia atrs (para ms detalles, ver Kleinbaum, Kupper y Morgens-
tern, 1982, pgs. 63-70). En los diseos hacia delante, llamados prospectivos o de cohortes,
se clasifica a los sujetos en dos grupos dependiendo de la presencia o ausencia de algn fac-
tor de inters (por ejemplo, el hbito de fumar) y se hace seguimiento durante un periodo de
tiempo para determinar la proporcin de sujetos de cada grupo en los que se da la respues-
ta o desenlace objeto de estudio (por ejemplo, infarto). En los diseos longitudinales hacia
atrs, llamados retrospectivos o de casos y controles, se forman dos grupos de sujetos a par-
tir de la presencia o ausencia de la respuesta o desenlace objeto de estudio (por ejemplo, su-
jetos sanos y sujetos que han sufrido infarto) y se hace seguimiento hacia atrs intentando
encontrar informacin sobre la proporcin en la que aparece en cada grupo un determinado
factor de inters (por ejemplo, el hbito de fumar).
Riesgo relativo
En los diseos prospectivos o de cohortes es posible decidir si las variables factor y respues-
ta estn relacionadas contrastando la hiptesis de independencia con la prueba X 2 de Pear-
son (ver Captulo 10 del primer volumen). Aplicando esta prueba a los datos de a Tabla 3.15
se obtiene un valor de 26,49 con un nivel crtico asociado p < 0,0005. Puesto que el nivel
crtico es muy pequeo (menor que 0,05), se puede concluir que las variables tabaquismo e
infarto estn relacionadas.
Pero en este tipo de diseos, ms que el hecho de saber si existe o no relacin, lo que
suele interesar es comparar lo que ocurre con los sujetos expuestos y los no expuestos. De
hecho, en este tipo de diseos lo habitual es utilizar un estadstico que permite comparar la
proporcin de respuestas o desenlaces del grupo de sujetos expuestos (P1 = n11 / n1+) con esa
misma proporcin en el grupo de sujetos no expuestos (P2 = n21 / n2+). Al cociente entre estas
dos proporciones (ver Miettinen, 1976) se le llama ndice de riesgo relativo RR :
= = [3.10]
88 Anlisis de datos (vol. II)
El numerador del riesgo relativo recoge la proporcin de desenlaces entre los sujetos expues-
tos. El denominador, la proporcin de desenlaces entre los sujetos no expuestos. El cocien-
te entre ambas proporciones indica cunto mayor es la proporcin de desenlaces en el grupo
de sujetos expuestos que en el de sujetos no expuestos.
El valor (siempre no negativo) del ndice de riesgo relativo se interpreta tomando como
referencia el valor 1. Un riesgo relativo de 1 indica que la proporcin de desenlaces es la mis-
ma en ambos grupos. El valor de RR es mayor que 1 cuando la proporcin del numerador es
mayor que la del denominador; un RR = 2 indica que la proporcin de desenlaces del nume-
rador es el doble que la del denominador; un RR = 5 indica que la proporcin del numerador
es 5 veces la del denominador. El valor de RR es menor que 1 cuando la proporcin del nu-
merador es menor que la del denominador; un RR = 0,75 indica que la proporcin de de-
senlaces del numerador es un 25 % menor que la del denominador; un RR = 0,50 indica que
la proporcin del numerador es un 50 % menor (la mitad) que la del denominador. En el
ejemplo de la Tabla 3.15:
= = = =
= [3.11]
donde e se refiere a la base de los logaritmos naturales (2,71828) y al error tpico del
logaritmo de RR:
= [3.12]
Este intervalo de confianza sirve para contrastar la hiptesis nula de que el riesgo es el mis-
mo en los dos grupos comparados (RR = 1 en la poblacin). Si el valor 1 no se encuentra en-
tre los lmites del intervalo de confianza definido en [3.11], puede concluirse que el riesgo
de experimentar el desenlace no es el mismo en los dos grupos comparados. Aplicando la
ecuacin [3.11] a los datos de la Tabla 3.15 se obtiene:
= =
= =
Puesto que el valor 1 no se encuentra dentro de los lmites del intervalo, podemos estimar, con
una confianza del 95 %, que el riesgo poblacional es mayor que 1. Y como el lmite inferior
Captulo 3. Inferencia con dos variables categricas 89
vale 1,93, puede concluirse que la proporcin de desenlaces (infartos) en el grupo de fuma-
dores es al menos 1,93 veces la proporcin de desenlaces en el de no fumadores.
En los estudios epidemiolgicos, el riesgo relativo suele acompaarse del porcentaje de
riesgo atribuible o fraccin etiolgica (PRA) en un intento de cuantificar en qu medida los
desenlaces observados pueden ser atribuidos al factor de riesgo. Puesto que en el grupo de no
expuestos tambin se observan desenlaces, la incidencia en el grupo de expuestos no sirve
como cuantificacin del porcentaje de desenlaces atribuibles al hecho de estar expuestos. Es
decir, como entre los no fumadores tambin se dan infartos (0,04), la proporcin de infartos
del grupo de fumadores (0,12) no puede ser atribuida, toda ella, al hecho de fumar. El riesgo
atribuible se obtiene restando la proporcin de desenlaces de ambos grupos: RA = P1 ! P2. Y
el porcentaje de riesgo atribuible se calcula como una fraccin de RA respecto de P1:
Odds ratio
En este apartado vamos a estudiar un estadstico muy utilizado para cuantificar la relacin
entre dos variables dicotmicas y como componente de algunos modelos estadsticos. Aqu,
de momento, nos limitaremos a utilizarlo como una estimacin del riesgo relativo cuando s-
te no puede calcularse. Comencemos con el concepto de odds. Siendo P la probabilidad de
un suceso cualquiera, la odds de ese suceso se define como:
odds = P (1 ! P ) [3.14]
Es decir, la odds de un suceso es el cociente entre la probabilidad de ese suceso (por ejem-
plo, acierto) y la de su complementario (error). Si la probabilidad del suceso acierto vale
0,75, entonces su odds vale 0,75 / (0,25) = 3. Lo cual significa que la probabilidad del suce-
so acierto es 3 veces la del suceso error.
Una odds siempre toma un valor no negativo: odds = 1 cuando la probabilidad del suce-
so es igual que la de su complementario (esto solamente ocurre cuando la probabilidad del
suceso vale 0,50); odds > 1 cuando la probabilidad del suceso es mayor que la de su com-
plementario (si la probabilidad de un suceso vale 0,80, ese suceso es cuatro veces ms pro-
bable que su complementario: 0,80 / 0,20 = 4); y odds < 1 cuando la probabilidad del suceso
es menor que la de su complementario (si la probabilidad de un suceso vale 0,20, ese suceso
es cuatro veces menos probable que su complementario: 0,20 / 0,80 = 1/ 4).
La probabilidad de un suceso puede conocerse a partir de su odds: P = odds / (odds + 1).
Por ejemplo, si la odds de un suceso vale 3, su probabilidad vale 3 / (3 + 1) = 0,75.
90 Anlisis de datos (vol. II)
En los diseos retrospectivos o de casos y controles, tras formar dos grupos de sujetos
a partir de algn desenlace de inters, se va hacia atrs buscando la presencia de algn fac-
tor de riesgo. El estudio sobre tabaquismo e infarto del apartado anterior (ver Tabla 3.15)
podra disearse seleccionando dos grupos de sujetos (con y sin infarto) y buscando hacia
atrs (por ejemplo, en la historia clnica de los sujetos) la presencia del hbito de fumar. La
Tabla 3.17 reproduce esta nueva situacin3.
Los diseos de casos y controles son muy utilizados en las ciencias de la salud porque tienen
algunas ventajas sobre los diseos de cohortes: no es necesario hacer seguimiento durante
aos para poder identificar factores de riesgo y garantizan que el estudio incluya una muestra
suficientemente grande de pacientes con la enfermedad o el desenlace que interesa estudiar.
Pero se diferencian de los diseos de cohortes en un aspecto importante desde el punto de
vista estadstico: mientras que en un diseo de cohortes se fijan las frecuencias marginales
de las filas, en un diseo de casos y controles se fijan las frecuencias marginales de las co-
lumnas (generalmente eligiendo entre 1 y 4 controles por cada caso). Como consecuencia de
esto, las frecuencias marginales de las filas son resultado del muestreo: puesto que a cada
caso se le puede asignar distinto nmero de controles, los totales marginales de las filas no
dependen nicamente de la verdadera proporcin de desenlaces (es decir, de la verdadera
incidencia del desenlace estudiado), sino de la decisin subjetiva o arbitraria del investiga-
dor (es decir, del nmero de controles que el investigador decida utilizar).
En este escenario no tiene sentido calcular las proporciones de desenlaces de las filas,
pues esas proporciones no reflejan incidencias reales. Y si no tiene sentido calcular las inci-
dencias, tampoco tiene sentido calcular el ndice de riesgo relativo definido en [3.10]. La
solucin a este problema pasa por intentar estimar el riesgo relativo utilizando alguna es-
trategia que no se base en las frecuencias marginales de las filas. Aqu es donde intervienen
las odds que acabamos de presentar.
Consideremos los datos de la Tabla 3.17 y asumamos que se han obtenido utilizando un
diseo de casos y controles (es decir, asumamos que, ahora, las frecuencias marginales fijas
son las de las columnas). Podemos calcular la odds del suceso fumar entre los casos y entre
los controles, es decir, entre los sujetos que han sufrido infarto (oddss) y entre los sujetos que
no han sufrido infarto (oddsno):
oddss = (51 / 80) /(29 / 80) = 51 / 29 = 1,7586
oddsno = (374 / 1.070) / (696 / 1.070) = 374 / 696 = 0,5374
3
Hemos conservado en la Tabla 3.17 las mismas frecuencias que en la Tabla 3.15 para reflejar mejor el paralelismo que
existe entre ambos tipos de estudio (a pesar de que en un diseo de casos y controles el nmero de controles suele fijarse
en no ms de 4 por cada caso).
Captulo 3. Inferencia con dos variables categricas 91
Lo cual significa que, entre los casos (sujetos que han sufrido infarto), el suceso fumar es ms
probable que el suceso no fumar; en concreto, un 76 % ms probable. Y entre los controles
(sujetos que no han sufrido infarto), el suceso fumar es menos probable que el suceso no fu-
mar; en concreto, un 46 % menos probable.
El cociente entre ambas odds indica cunto mayor o menor es la odds del suceso fumar
en el grupo s (casos) que en el grupo no (controles):
oddss / oddsno = 1,7586 / 0,5374 = 3,27
La odds del suceso fumar entre los casos es 3,27 veces la odds del suceso fumar entre los con-
troles. Ahora bien, esto no es lo que estbamos buscando. La informacin que buscamos es
la misma que nos ofrece el ndice de riesgo, a saber: cunto ms se da el desenlace infarto
entre los fumadores que entre los no fumadores (no cunto ms se da el suceso fumar entre
los casos que entre los controles). Pero este problema tiene fcil solucin cuando se trabaja
con el cociente entre dos odds. Ocurre que ese cociente no cambia cuando, en lugar de dividir
las odds de las columnas, se dividen las odds de las filas:
oddsfumadores = (51/ 425) / (374 / 425) = 51 / 374 = 0,1364
oddsno fumadores = (29 / 725) / (696 / 725) = 29 / 696 = 0,0417
oddsfumadores / oddsno fumadores = 0,1364 / 0,0417 = 3,27
Este resultado es idntico al anterior y est indicando que la odds del suceso infarto entre los
fumadores es 3,27 veces las odds del suceso infarto entre los no fumadores.
Cuando se trabaja con sucesos cuyas odds son pequeas, el cociente entre odds toma un
valor muy parecido al del ndice de riesgo relativo (recordemos que, con estos mismos datos,
RR = 3). Por esta razn, en los diseos de casos y controles (que no permiten calcular las in-
cidencias del desenlace estudiado), se utiliza el cociente entre odds como una estimacin del
riesgo relativo. A este cociente entre odds se le llama odds ratio4 (OR ) (Cornfield, 1951) y
se define mediante
= = = = [3.15]
= [3.16]
donde e se refiere a la base de los logaritmos naturales (2,71828) y al error tpico del
logaritmo de OR:
= [3.17]
Este intervalo de confianza sirve para contrastar la hiptesis nula de que la odds ratio vale 1
en la poblacin muestreada. Si el valor 1 no se encuentra entre los lmites del intervalo de
confianza, puede concluirse que la odds de la respuesta o desenlace estudiado no es la mis-
ma en las dos poblaciones comparadas. Aplicando las ecuaciones 3.15 y 3.16 a los datos de
la Tabla 3.17 se obtiene
= =
= =
Puesto que el valor 1 no se encuentra dentro de los lmites del intervalo, podemos estimar,
con una confianza del 95 %, que la odds ratio poblacional es mayor que 1. Y como el lmite
inferior vale 2,04, podemos concluir que la odds del suceso infarto en el grupo de fumado-
res es al menos 2,04 veces la odds del suceso infarto en el grupo de no fumadores.
Ahora bien, aunque una odds ratio no es lo mismo que un ndice de riesgo relativo, ambos
estadsticos se encuentran estrechamente relacionados:
= = [3.18]
Esto significa que cuando P1 y P2 toman valores muy parecidos, la fraccin final de la ecua-
cin [3.18] se aproxima a 1 y el valor de OR se aproxima al de RR. Ciertamente esto no condu-
ce a nada interesante porque cuando se disea un estudio de casos y controles es justamen-
te porque se sospecha que P1 y P2 son diferentes. Ahora bien, en muchos de los estudios que
se llevan a cabo, P1 y P2 suelen ser valores pequeos. Aunque P1 y P2 sean diferentes, si son
lo bastante pequeos, la fraccin final de la ecuacin [3.18] se aproximar a 1 y el valor de
OR se aproximar al de RR. Bajo estas circunstancias, el valor de la odds ratio puede utilizar-
se como una estimacin del riesgo relativo que no es posible calcular (ver Rigby, 1999). Con
los datos de la Tabla 3.17 se obtiene OR = 3,27 y RR = 3. Puesto que las proporciones de
Captulo 3. Inferencia con dos variables categricas 93
desenlaces son ms bien pequeas, no se comete un error importante si se afirma que el riesgo
de experimentar el suceso infarto es 3,27 veces mayor en el grupo de fumadores que en el de
no fumadores.
Riesgo no es causalidad
En todos los ejemplos del prrafo anterior se calculan ndices de riesgo que se utilizan para
tomar decisiones que, muchas veces, afectan de forma importante a las personas: recomen-
daciones sobre comportamientos saludables, precios de los seguros, concesin de crditos,
etc. Sin embargo, no debe perderse de vista el hecho de que un ndice de riesgo no es ms
que un cociente de proporciones (o de odds). Su valor indica cunto mayor o menor es una
proporcin que otra. Y sustituir el trmino proporcin por el de riesgo no cambia la natu-
raleza del ndice. Un factor de riesgo no es lo mismo que un factor causal.
Tanto los diseos de cohortes como los de casos y controles son diseos observaciona-
les (ver Captulo 1 del primer volumen). Dado que no existe asignacin aleatoria de los suje-
tos a las condiciones del estudio (fumar, no fumar), con estos diseos es posible situarse en
un nivel de indagacin de tipo relacional, pero no explicativo. Esto significa que estos dise-
os no permiten determinar si una relacin es o no de tipo causal. Sirven para detectar di-
ferencias y relaciones, pero no para determinar si la variable factor es o no la responsable del
desenlace estudiado. Recordemos que para poder afirmar que una relacin es de naturaleza
causal es necesario utilizar diseos experimentales (con asignacin aleatoria que es imposi-
ble llevar a cabo en los diseos de cohortes y de casos y controles) o fundamentar tal afir-
macin en teoras slidas (ver, en el Captulo 12 del primer volumen, el apartado Relacin
y causalidad). Conviene no pasar esto por alto porque el trmino riesgo, tan caracterstico
de este tipo de diseos, puede llevar fcilmente a conclusiones equivocadas.
En el ejemplo sobre tabaquismo e infarto hemos visto que un riesgo relativo de 3 indica
que el riesgo de sufrir infarto si se fuma es 3 veces mayor que si no se fuma. Del hecho de
interpretar un cociente de proporciones utilizando el trmino riesgo no se sigue que el hbito
de fumar sea la causa de la diferencia observada. Y no se sigue tal cosa porque los sujetos
no se han asignado aleatoriamente a las condiciones del estudio (los grupos de fumadores
y no fumadores vienen dados). En un estudio de estas caractersticas, la diferencia observada
podra deberse a causas distintas del hecho de fumar. De hecho, podra deberse a cualquier
94 Anlisis de datos (vol. II)
variable en que los fumadores difieran de los no fumadores (si es que difieren en algo aparte
del hecho de fumar). A estas terceras variables que podran estar contaminando el resultado
de un estudio se les llama factores de confusin. Y lo ideal, lgicamente, es poder identificar
y controlar estos factores para eliminar su efecto.
La forma ms segura de hacer esto es mediante la asignacin aleatoria de los sujetos a las
condiciones del estudio. Pero la asignacin aleatoria no siempre es posible. Por ejemplo, no
es posible seleccionar aleatoriamente dos grupos de sujetos no fumadores, convertir en fuma-
dores a los sujetos de un grupo y hacer seguimiento a ambos grupos para averiguar en cul
de ellos se producen ms infartos. Y no es posible hacer esto por razones ticas y porque pro-
bablemente sera muy difcil encontrar sujetos que se prestaran a ello. Pero, incluso aunque
esto fuera posible, tampoco servira de mucho, pues no bastara con hacer dos grupos equi-
valentes al principio del estudio, sino que habra que mantenerlos equivalentes a lo largo del
estudio controlando sus hbitos alimentarios, la cantidad de ejercicio fsico, el tipo de traba-
jo, las enfermedades sobrevenidas, etc.
Muchos de los problemas que nos interesa estudiar no pueden abordarse planteando un
diseo experimental. En estos casos, no queda ms remedio que recurrir a diseos correla-
cionales (como los de cohortes y los de casos y controles) donde la equivalencia entre grupos
se intenta establecer, no mediante asignacin aleatoria, sino controlando las variables de con-
fusin que se sabe o se sospecha que pueden alterar los resultados del estudio (hipertensin,
obesidad, nivel de colesterol, sedentarismo, etc.). Si no se consigue controlar estas variables,
es muy difcil aislar factores causales. Y aun cuando se consigue controlarlas, difcilmente
se tiene la certeza de estar controlando todos los posibles factores de confusin. sta es la ra-
zn principal por la cual, al interpretar los ndices de riesgo, debe evitarse realizar afirma-
ciones que atribuyan connotaciones causales a la relacin encontrada.
tal ndice es el porcentaje de desenlaces que se deben a todo aquello en lo que puedan diferir
el grupo de sujetos expuestos y el grupo de sujetos no expuestos (los cuales, recordemos, no
sabemos en qu difieren exactamente porque no hay forma de saber si son o no equivalentes).
La consecuencia ms llamativa de sobrestimar el verdadero porcentaje de riesgo atribuible
se produce cuando la estimacin de ese porcentaje se utiliza para calcular los miles de per-
sonas afectadas por el factor de riesgo o las miles de muertes que se evitaran si la pobla-
cin de sujetos expuestos dejara de estarlo. No es infrecuente encontrar en los informes de
resultados y en los medios de comunicacin cifras disparatadas (supuestamente basadas en
estudios epidemiolgicos serios) que se escapan a toda lgica.
La falacia ecolgica
Una falacia es un error lgico, un error en la argumentacin. La falacia ecolgica es un error
que consiste en atribuir al individuo las caractersticas del grupo. A pesar de que este tipo de
error fue detectado hace ms de medio siglo (Robinson, 1950), todava sigue apareciendo en
las conclusiones de no pocos estudios. Y es particularmente frecuente en la interpretacin del
riesgo relativo.
Recordemos de nuevo el ejemplo sobre tabaquismo e infarto. Hemos visto que un riesgo
relativo de 3 indica que la proporcin de infartos en el grupo de fumadores es 3 veces mayor
que en el grupo de no fumadores. Tambin puede interpretarse este dato como que el riesgo
de sufrir infarto entre los fumadores es 3 veces mayor que entre los no fumadores (sin perder
de vista las consideraciones hechas en el apartado anterior). Se cae en la falacia ecolgica
cuando se afirma que la probabilidad de que un fumador sufra un infarto es 3 veces mayor que
la de un no fumador. En esta interpretacin se est convirtiendo un dato grupal (una propor-
cin referida al grupo) en una caracterstica individual, es decir, en una especie de propen-
sin del individuo a sufrir infarto con una determinada probabilidad.
un diseo de casos y controles, ofrece tanto el riesgo relativo como la odds ratio (la cual apa-
rece con el nombre razn de las ventajas). Hay que elegir el ndice apropiado en cada caso.
La primera fila de la tabla indica que el riesgo estimado se refiere al de fumadores frente
al de no fumadores ( fumadores / no fumadores) en un diseo de casos y controles (razn de
las ventajas). Su valor indica que la odds del suceso infarto en el grupo de fumadores es 3,27
veces la odds del grupo de no fumadores. Y los lmites del intervalo de confianza indican que
la odds del suceso infarto es significativamente mayor que 1: estimamos, con una confianza
del 95 %, que es al menos 2,04 veces mayor en los fumadores que en los no fumadores.
Las dos filas siguientes ofrecen dos estimaciones del riesgo relativo para un diseo de
cohortes (dos estimaciones porque el desenlace de inters puede encontrarse en cualquiera
de las dos categoras de la variable colocada en las columnas). Si el desenlace que interesa
estudiar es la presencia de infarto (infarto = s), la conclusin es que la proporcin de infartos
es 3 veces mayor en los fumadores que en los no fumadores. Si el desenlace que interesa es-
tudiar es la ausencia de infarto (infarto = no), la conclusin es que tal desenlace se da menos
entre los fumadores: en concreto, la proporcin de sujetos sin infarto es un 8,3 % (100 ! 91,7)
menor en el grupo de fumadores que en el de no fumadores. Puesto que el valor 1 no est in-
cluido entre los lmites de los correspondientes intervalos de confianza, puede concluirse que
el valor poblacional del riesgo relativo difiere de 1.
Es importante tener presente que los ndices de riesgo siempre se calculan dividiendo la infor-
macin de la primera fila de la tabla entre la informacin de la segunda fila (en el ejemplo,
la fila fumadores entre la fila no fumadores; ver Tabla 3.15 o 3.17). Como el orden en el que
el SPSS coloca en la tabla las categoras de las filas (tambin las de las columnas) viene deter-
minado por los cdigos que tienen asignados (se ordenan de menor a mayor), es importante
vigilar que la categora cuyo riesgo se desea evaluar reciba un cdigo menor que la otra ca-
tegora (en nuestro ejemplo hemos utilizado el cdigo 1 para los fumadores y el cdigo 2 para
los no fumadores). Reparar en este detalle es importante debido a que este tipo de variables
suelen codificarse como variables indicador, con el cdigo 1 para la presencia y el cdigo
0 para la ausencia (por ejemplo: 1 = fumadores y 2 = no fumadores); una codificacin
tipo indicador hara que el SPSS construyera la tabla con los no fumadores en la primera fila
(con las consiguientes consecuencias sobre los resultados y su interpretacin).
Por supuesto, siempre es posible utilizar ms de dos grupos (factores con ms de dos ni-
veles). Pero debe tenerse en cuenta que las comparaciones siempre se llevan a cabo entre dos
filas. Si se tienen tres filas (fumadores, no fumadores y exfumadores), se puede agrupar a los
exfumadores y a los no fumadores y calcular el riesgo del grupo fumadores respecto del res-
to de grupos tomados juntos. Y si lo que interesa es calcular el riesgo del grupo fumadores
respecto de cada grupo por separado, se tendr que aplicar un filtro al archivo de datos.
Captulo 3. Inferencia con dos variables categricas 97
ndices de acuerdo
Un aspecto interesante de la asociacin entre dos variables categricas tiene que ver con el
grado de acuerdo (parecido, concordancia) existente entre ambas variables5.
Una situacin tpica en la que suele interesar estudiar el grado de acuerdo es la que se de-
riva de aplicar dos criterios de clasificacin (dos jueces o expertos, dos escalas de medida, dos
pruebas diagnsticas, etc.) a una serie de sujetos u objetos. Las categoras utilizadas para la
clasificacin pueden ser nominales (como el tipo de trastorno) u ordinales (como la gravedad
del trastorno). En el primer caso suele utilizarse el ndice de acuerdo kappa de Cohen (1960)
o alguna variante del mismo (Cohen, 1968). En el segundo, alguna medida de asociacin para
variables ordinales; en el siguiente apartado estudiaremos tres: gamma (Goodman y Kruskal,
1979), tau-b (Kendall, 1970) y d (Somers, 1962). Estas medidas de asociacin sirven para
valorar el grado de relacin positiva o negativa existente entre dos variables; por tanto, sus
valores positivos tambin permiten cuantificar el grado de acuerdo. Para una revisin de otros
ndices de acuerdo, puede consultarse Shroukri (2004) o Von Eye y Mun (2005).
La Tabla 3.19 muestra la forma de presentar los datos en una tabla de contingencias bidi-
mensional y la notacin que utilizaremos para identificar cada elemento de la tabla. Ni la es-
tructura de la tabla ni la notacin cambian por el hecho de que las variables codificadas sean
nominales u ordinales. Esta notacin es la misma que ya hemos empezado a utilizar en el Ca-
ptulo 10 del primer volumen y es generalizacin directa de la ya utilizada para tablas 2 2
en apartados anteriores de este mismo captulo (ver Tabla 3.16).
Las I categoras de la variable X (juez 1, prueba diagnstica 1, etc.) definen las filas de
la tabla; para identificar cada una de estas categoras (cada fila), utilizamos el subndice i; por
tanto: i = 1, 2, ..., I. Las J categoras de la variable Y definen las columnas de la tabla; para
identificar cada una de estas categoras (cada columna) utilizamos el subndice j: por tanto:
j = 1, 2, ..., J. El signo + se refiere a todos los valores del subndice al que sustituye; por
tanto, cuando sustituye al subndice i, se refiere a todos los valores de i (es decir, 1, 2, ..., I );
y cuando sustituye al subndice j, se refiere a todos los valores de j (es decir, 1, 2, ..., J ).
Y
X 1 2 AAA j AAA J ni+
1 n11 n12 AAA n1 j AAA n1J n1+ n i j = frecuencias conjuntas de X e Y
2 n21 n22 AAA n2 j AAA n1J n2 + n i+ = frecuencias marginales de X
AAA AAA AAA AAA AAA AAA AAA AAA
i n i1 n i2 AAA nij AAA n iJ n i+ n + j = frecuencias marginales de Y
AAA AAA AAA AAA AAA AAA AAA AAA n = nmero total de casos
I nI 1 nI 2 AAA nI j AAA nI J nI +
n+j n+1 n+2 AAA n+j AAA n+J n
5
Conviene recordar dos cosas: (1) en una tabla de contingencias bidimensional pueden darse diferentes pautas de aso-
ciacin; (2) los diferentes estadsticos disponibles para estudiar esas pautas de asociacin se han diseado para valorar un
determinado tipo de pauta, incluso varias, pero no todas ellas. De ah la importancia de elegir en cada caso el estadstico
capaz de capturar justamente la pauta de asociacin que se desea estudiar.
98 Anlisis de datos (vol. II)
Tabla 3.20. Resultado obtenido por dos expertos al clasificar a 200 pacientes con neurosis
Segundo experto
Primer experto Fbica Histrica Obsesiva Depresiva Total
Fbica 20 8 6 1 35
Histrica 7 36 14 4 61
Obsesiva 1 8 43 7 59
Depresiva 2 6 4 33 45
Total 30 58 67 45 200
El acuerdo o coincidencia est reflejado en las casillas de la diagonal principal (la que va des-
de la parte superior izquierda de la tabla hasta la parte inferior derecha; casillas con i = j). Esta
diagonal contiene el nmero de casos que ambos expertos clasifican de la misma manera. Por
tanto, una forma sencilla e intuitiva de cuantificar el grado de acuerdo consiste simplemente
en valorar en qu medida las frecuencias de la tabla tienden a concentrarse en esa diagonal.
Sumando las frecuencias de las casillas de la diagonal principal se obtienen 132 coinciden-
cias, lo que representa una proporcin de acuerdo de 132 / 200 = 0,66.
El problema es que, al utilizar esta proporcin como una medida del grado de acuerdo,
no se est teniendo en cuenta el hecho de que es posible obtener cierto grado de acuerdo sim-
plemente por azar. Si se asume que ambos expertos realizan la clasificacin de forma inde-
pendiente, los casos que cabra encontrar por azar en las casillas de la diagonal pueden obte-
nerse multiplicando las correspondientes frecuencias marginales y dividiendo ese producto
por el nmero total de casos (ver, en el Captulo 10 del primer volumen, la ecuacin [10.6]).
As, en la primera casilla de la diagonal cabra esperar, por azar, 35(30)/200 = 5,25 casos; en
la segunda casilla, 61(58)/200 = 17,69 casos; etc. Repitiendo la operacin para todas las casi-
llas de la diagonal se obtiene un total de 52,83 casos, lo que representa una proporcin de
acuerdo esperado por azar de 52,83 / 200 = 0,26.
Captulo 3. Inferencia con dos variables categricas 99
= = [3.19]
(ni i se refiere a las frecuencias de las casillas de la diagonal principal, es decir, de las casi-
llas en las que se verifica: i = j). Aplicando [3.19] a los datos de la Tabla 3.20 se obtiene:
= =
= =
= =
El valor del ndice kappa debe interpretarse teniendo en cuenta que toma valores entre 0
(acuerdo nulo) y 1 (acuerdo mximo). Si el grado de acuerdo es menor que el esperado por
azar, kappa toma un valor negativo.
Fleiss, Cohen y Everitt (1969) han demostrado que la varianza del coeficiente kappa debe
estimarse de forma ligeramente distinta para el caso general (es decir, para cualquier valor
poblacional de ) y para el caso particular en el que se asume = 0 (en Wickens, 1989, pgs.
241-243, puede encontrarse una excelente descripcin de ambas estimaciones). Para el caso
particular en el que se asume = 0, la varianza de [3.19] se obtiene mediante:
= [3.20]
La hiptesis nula de que el coeficiente kappa vale cero en la poblacin puede contrastarse
dividiendo el valor de kappa entre su error tpico (raz cuadrada de [3.20]). Se obtiene as un
valor tipificado que se distribuye de forma aproximadamente normal, con media 0 y des-
viacin tpica 1:
= N (0, 1) [3.21]
6
Esta forma de estimar la proporcin de acuerdo por azar no es del todo correcta porque incluye no solo acuerdo por azar
sino acuerdo verdadero. La separacin de estas dos fuentes de acuerdo requiere utilizar modelos loglineales que no estudia-
remos aqu. No obstante, el ndice de acuerdo kappa tal como est definido en [3.19] suele resultar satisfactorio en la mayor
parte de los contextos en los que se aplica.
100 Anlisis de datos (vol. II)
Para contrastar la hiptesis de acuerdo nulo (H0: = 0) comenzamos estimando el error tpi-
co de kappa (raz cuadrada de [3.20]) y calculando a continuacin (ecuacin [3.21]):
= =
= =
=
= =
= =
= = =
En la distribucin normal tipificada, P (Z >$ 12,93) . 0. Y siendo el nivel crtico tan prximo
a cero, la decisin razonable ser rechazar H0 y concluir que el acuerdo entre ambos exper-
tos es significativamente mayor que el esperable por azar.
Saber que el grado de acuerdo entre dos criterios de clasificacin es significativamente
mayor que el esperable por azar no dice gran cosa (aunque s saber que no lo es). Por esta
razn, Landis y Koch (1977) han argumentado que, por lo general, valores por encima de
0,80 reflejan un acuerdo excelente; valores entre 0,60 y 0,80, un buen acuerdo; valores en-
tre 0,40 y 0,60 un acuerdo moderado; y valores por debajo de 0,40, un acuerdo ms bien
pobre. Pero estos puntos de corte no parecen estar suficientemente bien justificados.
Al interpretar el coeficiente kappa hay que tener en cuenta que, aunque permite cuan-
tificar el grado de acuerdo global, no sirve para reflejar la verdadera naturaleza del acuerdo
y del desacuerdo subyacentes. De hecho, puede obtenerse el mismo valor kappa con distin-
tas pautas de variacin entre las frecuencias de la diagonal principal; y pueden obtenerse
valores kappa distintos con la misma pauta de variacin en la diagonal principal (misma pau-
ta de acuerdo) pero con distinta pauta de variacin fuera de ella (distintas pautas de desa-
cuerdo) (Grayson, 2004). sta es la razn por la cual suele recomendarse no comparar coefi-
cientes obtenidos en diferentes estudios o en diferentes poblaciones (Feinstein y Cicchetti,
1990; Thompson y Walter, 1988).
Adems, dependiendo de los criterios de clasificacin utilizados, algunos desacuerdos
pueden ser ms fuertes que otros (puede haber categoras que se parezcan entre s ms que
otras). Y si las categoras de clasificacin son ordinales (por ejemplo, trastorno leve, mode-
rado y severo), el desacuerdo por clasificar al mismo sujeto en categoras adyacentes (leve,
moderado) es menos grave que el desacuerdo por clasificar al mismo sujeto en categoras
ms alejadas (leve, severo). Para resolver estos problemas puede utilizarse una versin
ponderada del ndice kappa (Cohen, 1968; Spitzer, Cohen, Fleis y Endicott, 1967).
La ponderacin consiste en asignar un peso (w) entre 0 y 1 a cada casilla. Por lo gene-
ral, a las casillas de la diagonal principal se les asigna un peso de 1 (wi = j = 1) y al resto de
las casillas se les asigna un peso tanto menor cuanto ms grave se considera el desacuerdo
(siempre con wi j = wj i). En el caso de que la gravedad del desacuerdo sea tanto mayor cuan-
to ms alejada de la diagonal principal se encuentre una casilla, Fleiss y Cohen (1973) pro-
ponen calcular los pesos de las casillas de la siguiente manera:
Captulo 3. Inferencia con dos variables categricas 101
= [3.22]
Por ejemplo, para la casilla (i = 1, j = 1) de la Tabla 3.20, w11 = 1! |1 ! 1| / (4 !1) = 1 (la ecua-
cin [3.22] asigna un peso de 1 a todas las casillas de la diagonal principal). Para la casilla
(i = 1, j = 2), w12 = 1! |1! 2| / (4 ! 1) = 0,667. Para la casilla (i = 1, j = 3), w12 = 1! |1! 3| / (4 ! 1)
= 0,333. Para la casilla (i = 1, j = 4), w12 = 1! |1! 4| / (4 ! 1) = 0. Etctera. Las casillas ms ale-
jadas de la diagonal principal (los desacuerdos ms graves) reciben un peso menor.
Tras asignar los pesos a las casillas, la versin ponderada del coeficiente kappa se obtie-
ne aplicando la ecuacin [3.19] a la tabla resultante de multiplicar cada frecuencia ni j por su
correspondiente peso wi j.
Supongamos que dos tutores de un centro de acogida de nios hurfanos hacen una valo-
racin del comportamiento global de cada uno de sus 43 tutelados durante una determinada
semana. Ambos tutores realizan su evaluacin clasificando el comportamiento de cada nio
en una de 4 categoras ordenadas: malo, regular, bueno y excelente. La Tabla 3.21
resume los resultados obtenidos. Entre parntesis aparecen los coeficientes o pesos que la
ecuacin [3.22] asigna a cada casilla. Con esta forma de asignar los coeficientes de ponde-
racin, las casillas ms alejadas de la diagonal principal reciben un peso menor. Al proceder
de esta manera se est considerando que las frecuencias ms alejadas de la diagonal princi-
pal representan un desacuerdo ms grave que las menos alejadas. Multiplicando la frecuencia
de cada casilla por su correspondiente coeficiente, la nueva tabla de contingencias toma los
valores que muestra la Tabla 3.22.
Tabla 3.21. Resultado obtenido por dos tutores al evaluar el comportamiento de 84 nios (entre parntesis
aparecen los coeficientes de ponderacin que resultan de aplicar la ecuacin [3.22])
Segundo tutor
Primer tutor Malo Regular Bueno Muy bueno Total
Malo 12 (1,00) 8 (0,67) 4 (0,33) 0 (0,00) 24
Regular 7 (0,67) 24 (1,00) 5 (0,67) 0 (0,33) 36
Bueno 0 (0,33) 2 (0,67) 14 (1,00) 3 (0,67) 19
Muy bueno 0 (0,00) 0 (0,33) 2 (0,67) 3 (1,00) 5
Total 19 34 25 6 84
Segundo tutor
Primer tutor Malo Regular Bueno Muy bueno Total
Malo 12,00 5,36 1,32 0,00 18,68
Regular 4,69 24,00 3,35 0,00 32,04
Bueno 0,00 1,34 14,00 2,01 17,35
Muy bueno 0,00 0,00 1,34 3,00 4,34
16,69 30,7 20,01 5,01 72,41
102 Anlisis de datos (vol. II)
= =
= =
= = =
Al ponderar la gravedad de los desacuerdos, el valor de kappa pasa de 0,47 a 0,61. Por
tanto, al ponderar las frecuencias, aumenta el grado de acuerdo estimado.
El ndice de acuerdo kappa no es el nico ndice disponible para valorar el acuerdo en-
tre dos criterios de clasificacin7. Existen varios ndices que difieren entre s y de kappa en
aspectos importantes como, por ejemplo, la forma concreta definir e interpretar el acuerdo o
la manera de cuantificar la proporcin de acuerdos por azar (ver Zwick, 1988). Tambin
existen ndices para valorar el acuerdo entre ms de dos criterios de clasificacin, es decir,
entre ms de dos jueces o entre ms de dos variables (ver, por ejemplo, Posner, Sampson,
Caplan, Ward y Cheney, 1990). Para una revisin de todos estos ndices puede consultarse
Shroukri (2004) o Von Eye y Mun (2005).
7
Especialmente til puede resultar un ndice de acuerdo asimtrico propuesto por Kvlseth (1991):
= [3.23]
Mientras kappa permite evaluar el grado de acuerdo mutuo entre dos criterios de clasificacin, (trata ambos criterios de for-
ma equivalente), el ndice permite valorar el acuerdo entre dos criterios de clasificacin cuando el primero de ellos
se considera un referente para la comparacin (cambiando en el denominador n+j por ni+ se obtiene el valor del coeficiente
para el caso en el que el juez de referencia sea el segundo). Esta forma de cuantificar el grado de acuerdo es til, por ejem-
plo, para valorar la calidad diagnstica de un nuevo mtodo en comparacin con otro estndar que ya se sabe que funciona
bien; o para valorar cmo clasifica un juez novato en comparacin con un juez experto; etc.
Captulo 3. Inferencia con dos variables categricas 103
Aceptando estas elecciones, el Visor ofrece los resultados que muestra la Tabla 3.23. La tabla
incluye: (1) el valor del coeficiente kappa (0,538), el cual coincide con el que hemos obteni-
do aplicando [3.19]; (2) el error tpico asinttico de kappa cuando no se asume acuerdo nulo;
(3) el cociente entre el valor del coeficiente y su error tpico, calculado ste bajo el supuesto
de acuerdo nulo (se indica en una nota a pie de tabla); y (4) el nivel crtico (sig. aproximada)
asociado al estadstico T. Puesto que el nivel crtico es muy pequeo, se puede rechazar la
hiptesis de acuerdo nulo y concluir que el grado de acuerdo entre los dos expertos es mayor
que el esperable por azar.
Con tamaos muestrales grandes, el error tpico asinttico que ofrece la Tabla 3.23 pue-
de utilizarse para construir un intervalo de confianza para el parmetro (el valor de kappa
en la poblacin) siguiendo la misma lgica que se utiliza para construir cualquier otro inter-
valo de confianza basado en la distribucin normal:
= = =
Este resultado permite estimar, con una confianza del 95 %, que el verdadero acuerdo entre
ambos expertos (el valor poblacional de kappa) se encuentra entre 0,45 y 0,63 (un buen acuer-
do segn el criterio propuesto por Landis y Koch).
En el caso de que se desee dar distinta importancia a los desacuerdos de una tabla (es decir,
a las frecuencias que se encuentran fuera de la diagonal), pueden asignarse coeficientes de
ponderacin para obtener la versin ponderada del ndice kappa. Para ello:
' Reproducir en el Editor de datos los datos de la Tabla 3.20 (ver en el Apndice 3 el apar-
tado Cmo reproducir una tabla de contingencias en SPSS ) o abrir el archivo Tabla 3.21
acuerdo kappa ponderada que se encuentra en la pgina web del manual.
' Crear dos nuevas variables en el archivo de datos: (1) la primera (con nombre w u otro
nombre vlido) con los valores de los coeficientes de ponderacin (valores entre parnte-
sis de la Tabla 3.21); (2) la segunda (con nombre ncasos_w u otro nombre vlido), mul-
tiplicando las frecuencias originales (ncasos) por los coeficientes de ponderacin (w).
' Seleccionar la opcin Ponderar casos del men Datos para ponderar el archivo de datos
con la variable ncasos_w.
' Seguir los pasos del ejemplo anterior para obtener el ndice de acuerdo kappa utilizando
el procedimiento Tablas de contingencias (para obtener el valor exacto de kappa es necesa-
rio marcar, en el subcuadro de dilogo Casillas, la opcin No efectuar correcciones).
Tras la ponderacin, las frecuencias originales de la Tabla 3.21 se convierten en las frecuen-
cias ponderadas de la Tabla 3.22. Y al aplicar el ndice de acuerdo kappa a estas nuevas fre-
cuencias se obtiene el ndice de acuerdo kappa ponderada que muestra la Tabla 3.24. Su
104 Anlisis de datos (vol. II)
valor ha pasado de 0,47 (valor no ponderado) a 0,61 (valor ponderado), que es justamente
el valor obtenido anteriormente al aplicar la ecuacin [3.19] a los datos de la Tabla 3.22.
Opinin aborto
Opinin eutanasia 1. En contra 2. Indiferente 3. A favor Total
1. En contra 73 16 3 92
2. Indiferente 18 30 12 60
3. A favor 8 18 80 106
Total 99 64 95 258
No cabe duda de que todos estos contrastes (independencia, homogeneidad marginal, sime-
tra y acuerdo) ofrecen informacin interesante sobre diferentes aspectos de una tabla de
contingencias. Es ms, dependiendo de los objetivos del anlisis, cualquiera de ellos podra
ser la eleccin idnea. No obstante, cuando las dos variables analizadas son ordinales (cate-
goras cuantitativamente ordenadas), lo que suele interesar estudiar es si el aumento de los va-
lores de la primera tiende a ir o no acompaado del aumento (o disminucin) de los valores
de la segunda. Y esta tendencia no est contemplada ni en la hiptesis de independencia, ni
en la de homogeneidad marginal, ni en la de simetra (el acuerdo tiene algo que ver con esto,
pero solo en parte).
Con variables cuantitativas (de intervalo o razn), el estudio de esta tendencia suele
abordarse con el coeficiente de correlacin de Pearson (ver Captulo 12 del primer volumen),
el cual ya sabemos que permite cuantificar el grado de relacin lineal entre variables. Con
variables ordinales no tiene mucho sentido hablar de relacin lineal porque las variables
ordinales no tienen una mtrica definida; sin embargo, dado que sus categoras se encuentran
ordenadas, s es posible hablar de relacin montona. Cuando se da este tipo de relacin, las
frecuencias de la tabla tienden a concentrarse en una de las dos diagonales: en la principal
en el caso de relacin positiva o creciente y en la secundaria en el caso de relacin negativa
o decreciente. Por tanto, estudiar la relacin entre variables ordinales requiere utilizar esta-
dsticos (medidas de asociacin) capaces de valorar en qu medida las frecuencias tienden
a concentrarse en una de las dos diagonales de la tabla.
El ndice de acuerdo kappa (ver Tablas 3.21 y 3.22) hace algo parecido a lo que hacen
las medidas de asociacin ordinales, pero kappa nicamente tiene en cuenta el grado de con-
centracin de las frecuencias en la diagonal principal y se basa en el porcentaje de acuerdo
global; adems, solamente tiene sentido aplicarlo cuando las categoras de las dos variables
son las mismas. Las medidas de asociacin que se incluyen en este apartado se basan en la
comparacin individual de cada caso con cada otro y en los conceptos de concordancia y
discordancia; y no es necesario que las dos variables tengan las mismas categoras.
Medidas de concordancia-discordancia
Dos casos son concordantes (C ) cuando el primero punta ms alto (o ms bajo) que el se-
gundo tanto en X como en Y. Dos casos son discordantes (D ) cuando el primero punta ms
alto (o ms bajo) que el segundo en la variable X y ms bajo (o ms alto) en la variable Y. Dos
casos estn empatados en X (EX ) cuando sus valores son iguales en X y distintos en Y. Dos
106 Anlisis de datos (vol. II)
casos estn empatados en Y (EY ) cuando sus valores son iguales en Y y distintos X. Dos ca-
sos estn empatados en X e Y (EXY ) cuando sus valores son los iguales en ambas variables.
Cuando predominan las concordancias, la relacin es positiva: los valores altos (bajos)
de una de las variables tienden a ir acompaados de valores altos (bajos) de la otra variable.
Cuando predominan las discordancias, la relacin es negativa: los valores altos (bajos) de
una de las variables tienden a ir acompaados de valores bajos (altos) de la otra variable.
Todas las medidas de asociacin que se describen en este apartado utilizan en el nume-
rador la diferencia entre el nmero de concordancias (nC ) y discordancias (nD ) resultantes
de comparar cada caso con cada otro; pero se diferencian en el tratamiento que dan a los em-
pates. En el Apndice 3 se explica cmo se calcula el nmero de concordancias, discordan-
cias y empates en una tabla de contingencias.
Si todas las comparaciones entre casos dan como resultado pares concordantes o discor-
dantes (es decir, si no existen pares empatados), las probabilidades de concordancia (PC ) y
de discordancia (PD ) pueden estimarse dividiendo el nmero de pares concordantes y
discordantes entre el nmero total de comparaciones (que viene dado por las combinaciones
sin repeticin de n elementos tomados de dos en dos):
= y = [3.24]
Y como las concordancias reflejan relacin positiva y las discordancias relacin negativa,
una forma directa y sencilla de cuantificar la relacin entre dos variables consiste simple-
mente en restar ambas proporciones. Esto es precisamente lo que hace el coeficiente tau-a
(Kendall 1938, 1970):
= = [3.25]
Pero esta diferencia, til cuando no existen empates, pasa por alto el hecho de que en una ta-
bla de contingencias existen muchos empates. Para resolver este problema, el coeficiente
gamma (ver Goodman y Kruskal, 1979) excluye del anlisis el nmero de empates:
= [3.26]
Cuando la relacin entre las variables es perfecta y positiva, todos los pares son concordantes
(nC ) y gamma vale 1. Cuando la relacin entre las variables es perfecta pero negativa, todos
los pares de casos son discordantes (nD ) y gamma vale !1. Cuando las variables son inde-
pendientes, hay tantos pares concordantes como discordantes (nC = nD) y gamma vale 0. Por
tanto, gamma oscila, entre !1 y 1. Cuando dos variables son independientes, gamma vale
cero; sin embargo, una gamma de cero no implica independencia (excepto en tablas de con-
tingencias 2 2)8.
8
En tablas de contingencias 2 2, la ecuacin [3.26] equivale a: = (n11 n22 ! n12 n21) / (n11 n22 + n12 n21). Esta expresin fue
inicialmente propuesta por Yule (1900, 1912) como una forma de cuantificar el grado de asociacin existente en una tabla
de contingencias 2 2. Yule, que llam Q a su coeficiente, lleg a l a partir de la odds ratio estudiada en el apartado ante-
rior: Q = (OR ! 1) / (OR + 1). Puesto que en tablas 2 2 se verifica Q = , lo que realmente est haciendo es transformar
un valor como la odds ratio, que vara en el rango [0, 4], en otro valor, ms interpretable, que vara en el rango [!1, 1].
Captulo 3. Inferencia con dos variables categricas 107
La exclusin, sin ms, de los pares empatados suele inflar en exceso la estimacin que
se obtiene de la verdadera relacin subyacente. El coeficiente tau-b de Kendall (1945, 1970)
tiene esto en cuenta incorporando a la ecuacin el nmero de pares empatados en X o en Y
(quedan fuera los pares empatados en ambas variables):
= [3.27]
La inclusin del nmero de empates en X y del nmero de empates en Y hace que el valor
de tau-b sea menor que el de gamma. El coeficiente tau-b toma valores entre !1 y +1 sola-
mente en tablas de contingencias cuadradas y si ninguna frecuencia marginal vale cero. El
coeficiente tau-c (Stuart, 1953) intenta corregir esta limitacin (aunque no lo consigue del
todo; y no faltan quienes, como Freeman, 1986, desaconsejan su uso):
= [3.28]
donde m se refiere al valor menor del nmero de filas (I ) y del nmero de columnas (J ). El
coeficiente tau-c toma valores entre aproximadamente !1 y 1 independientemente del nmero
de categoras de las variables.
Por ltimo, el coeficiente d de Somers (1962) incorpora una ligera modificacin al coefi-
ciente gamma para cuando una de las variables se considera independiente (X ) y la otra de-
pendiente (Y ). Esta modificacin consiste en aadir en el denominador de gamma (ecuacin
[3.26]) el nmero de pares empatados en la variable dependiente:
= [3.29]
El coeficiente d de Somers tiene tres versiones: dos asimtricas y una simtrica. La versin
simtrica se obtiene utilizando en el denominador de [3.29] el promedio de los denomina-
dores correspondientes a las dos versiones asimtricas.
Existen otros coeficientes basados en el concepto de pares concordantes y discordantes
(ver, por ejemplo, Agresti, 1984), pero el SPSS nicamente incluye los cuatro mencionados
en [3.26], [3.27], [3.28] y [3.29].
Para aplicar estas cuatro ecuaciones a las frecuencias de la Tabla 3.25 debemos comenzar
calculando el nmero de pares concordantes, discordantes y empatados (en el Apndice 3 se
explica cmo realizar estos clculos):
= [3.30]
= N (0, 1) [3.31]
Para contrastar la hiptesis nula de no asociacin ordinal con los datos de la Tabla 3.25,
comenzamos estimando el error tpico de nC ! nD y calculando a continuacin :
= =
= =
= =
= =
= = =
' Seleccionar la opcin Estadsticos descriptivos > Tablas de contingencias del men Analizar
para acceder al cuadro de dilogo Tablas de contingencias y trasladar la variable euta-
nasia (opinin sobre la eutanasia) a la lista Filas y la variable aborto (opinin sobre el
aborto) a la lista Columnas.
' Pulsar el botn Estadsticos para acceder al subcuadro de dilogo Tablas de contingen-
cias: Estadsticos y marcar las cuatro opciones del recuadro Ordinal: gamma, d de Somers,
tau-b y tau-c.
Aceptando estas elecciones, el Visor ofrece los resultados que recogen las Tablas 3.26 y 3.27.
La Tabla 3.26 contiene las medidas de asociacin simtricas, es decir, los coeficientes tau-b,
tau-c y gamma. La Tabla 3.27 contiene las tres versiones del coeficiente d de Somers: (1) sin
hacer distincin entre variable independiente y dependiente; sta es la opcin apropiada para
nuestro ejemplo porque en ningn momento hemos hecho tal distincin; (2) tomando la varia-
ble opinin sobre la eutanasia como variable dependiente; y (3) tomando la variable opinin
sobre el aborto como variable dependiente.
Cada coeficiente de correlacin aparece con su correspondiente nivel crtico (sig. aproxi-
mada), el cual permite decidir sobre la hiptesis nula de independencia. Puesto que todos es-
tos niveles crticos son menores que 0,05, se puede rechazar la hiptesis de independencia y
afirmar que las variables opinin sobre la eutanasia y opinin sobre el aborto estn monto-
namente relacionadas. Y puesto que el signo de los coeficientes es positivo, podemos concluir
que las personas que tienden a estar a favor (o en contra) de la eutanasia tienden tambin a
estar a favor (o en contra) del aborto.
Junto con el valor de cada coeficiente de correlacin aparece tambin su valor tipificado
(T aproximada), es decir, el valor del coeficiente dividido por su error tpico. La tabla tambin
ofrece una estimacin del error tpico de cada coeficiente (error tpico asinttico). Estas esti-
maciones se obtienen sin asumir independencia entre las variables y pueden utilizarse para
construir intervalos de confianza de idntica manera a como hemos hecho con el ndice de
acuerdo kappa en el apartado anterior.
Apndice 3
Simetra relativa
El contraste de simetra estudiado al comienzo del captulo (ver, en el apartado Homogeneidad mar-
ginal y simetra, el ejemplo sobre la prueba de McNemar; Tabla 3.7), nos ha llevado a concluir que,
de las 21 + 63 = 84 personas que han cambiado su preferencia, la proporcin que lo ha hecho a favor
del lder A (63 / 84 = 0,75) es mayor que la que lo ha hecho a favor del lder B (21 / 84 = 0,25).
Esta diferencia de 50 centsimas en la proporcin de cambios a favor del lder A tambin est re-
flejada en las proporciones marginales de la tabla (al tratarse de una tabla 2 2, la hiptesis de sime-
tra equivale a la de homogeneidad marginal): la proporcin de personas que prefieren al lder A ha
cambiado de 70 / 250 = 0,28 a 112 / 250 = 0,45; una diferencia de 17 centsimas.
Es importante no olvidar que en la valoracin estadstica de la hiptesis de simetra no intervienen
las personas que no han cambiado su preferencia (49 + 117 = 166). La relevancia del resultado obtenido
debe ser valorada sin perder de vista esta circunstancia. Si, en lugar de encuestar a 250 personas, se
hubiera encuestado a 2.500 y se hubiera obtenido el mismo nmero de cambios (84) con la misma
proporcin inicial de personas a favor (0,28), el contraste de la hiptesis de simetra estara basado en
los 84 cambios observados y llevara a la misma conclusin que con 250 encuestados (a pesar de que
ahora se estaran quedando fuera del anlisis los 2.416 encuestados que no cambian su preferencia).
Con 2.500 encuestados, una proporcin inicial de 0,28 a favor del lder A y un nmero de cambios
total de 84 personas (63 de los cuales prefieren al lder A), la proporcin inicial a favor del lder A ya
no cambia de 0,28 a 0,45 (como en el caso de 250 encuestados), sino de 0,28 a 0,30 (2 centsimas). El
contraste de la hiptesis de simetra con la prueba de McNemar seguir indicando que este cambio es
estadsticamente significativo (pues se basa nicamente en las 84 personas que cambian). Pero los
responsables de disear los debates de sus respectivos lderes probablemente tendrn otra impresin.
Estas consideraciones sugieren que, en situaciones como las descritas en la Tabla 3.7, cabe la po-
sibilidad de que la informacin que proporciona el contraste de la hiptesis de simetra no resulte del
todo satisfactoria. En estos casos puede interesar contrastar, adems de la hiptesis de simetra, la de
simetra relativa. Esta hiptesis permite valorar, no el nmero absoluto de cambios, sino el nmero
relativo de cambios.
Reordenando los datos de la Tabla 3.7 tal como muestra la Tabla 3.28 y considerando fijos los to-
tales marginales del momento antes (pues estos totales marginales condicionan el nmero de cambios
que puede producirse), en lugar de analizar el nmero absoluto de cambios (21 frente a 63) es posible
analizar el nmero relativo de cambios: 21 de 70 posibles frente a 63 de 180 posibles.
Tabla 3.28. Preferencia entre dos lderes polticos antes y despus de un debate televisado
Preferencia despus
Preferencia antes La misma Distinta Total
Lder A 49 (46,5) 21 (23,5) 70
Lder B 117 (119,5) 63 (60,5) 180
Total 166 84 250
Entre parntesis aparecen las frecuencias esperadas bajo la hiptesis de independencia.
Ahora bien, las proporciones que se comparan en la hiptesis de simetra relativa (21/70 = 0,30 frente
a 63/180 = 0,35) son independientes entre s (cosa que no ocurre con las proporciones que se comparan
Captulo 3. Inferencia con dos variables categricas 111
en la hiptesis de simetra, basadas en el nmero absoluto de cambios). Por tanto, la hiptesis de sime-
tra relativa puede contrastarse con la prueba X 2 de Pearson ya estudiada en el Captulo 10 del primer
volumen. Es decir, contrastar la hiptesis de simetra relativa referida a los datos de la Tabla 3.7 equi-
vale a contrastar la hiptesis de independencia referida a los datos de la Tabla 3.28.
Aplicando el estadstico de Pearson a los datos de la Tabla 3.28 (la tabla incluye, entre parntesis,
las frecuencias esperadas en cada casilla bajo la hiptesis de independencia filas-columnas), se obtiene
= =
En la distribucin ji-cuadrado con (I ! 1) (J ! 1) = 1(1) = 1 grado de libertad (ver Tabla C del Apndice
final) se obtiene: p = P( > $ 0,57)] > 0,10. Este nivel crtico no permite rechazar la hiptesis de sime-
tra relativa. Por tanto, con los datos disponibles, no es posible afirmar que la proporcin relativa de
cambios a favor del lder A (0,30) difiera significativamente de la proporcin relativa de cambios a fa-
vor del lder B (0,35). Esta conclusin es distinta de la obtenida anteriormente al contrastar la hiptesis
de simetra a partir del nmero absoluto de cambios.
En este tipo de situaciones, contrastar la hiptesis de independencia con el conjunto de datos agrupa-
dos puede arrojar resultados equvocos. Y aplicar los ndices de riesgo a cada estrato por separado no
ofrece una idea global del efecto de la variable factor.
Se obtiene una informacin ms ajustada utilizando los estadsticos de Cochran y Mantel-Haenszel
para contrastar la hiptesis de independencia condicional, es decir, la hiptesis de independencia entre
las variables factor y respuesta una vez que se ha controlado el efecto de los estratos. El estadstico de
Cochran (1954) adopta la siguiente forma:
= [3.32]
donde k se refiere a cada uno de los estratos; nk a la frecuencia observada en una cualquiera de las
casillas del estrato k (solamente una y siempre la misma en todos los estratos); mk a las frecuencias
112 Anlisis de datos (vol. II)
esperadas correspondientes a nk; y = n1+k n2+k n+1k n+2k / n3 (siendo n1+k, n2+k, n+1k, y n+2k las cuatro fre-
cuencias marginales de las tablas 2 2 de cada estrato).
El estadstico de Mantel-Haenszel (1959) es idntico al de Cochran en todo excepto en dos deta-
lles: (1) utiliza correccin por continuidad (restando medio punto al numerador de la ecuacin antes de
elevar el parntesis al cuadrado) y (2) en el denominador de la varianza utiliza n2 (n 1) en lugar de n3.
Las distribuciones muestrales de ambos estadsticos (el de Cochran y el de Mantel-Haenszel) se
aproximan al modelo de probabilidad 2 con 1 grado de libertad. Si el nivel crtico asociado es menor
que 0,05, se puede rechazar la hiptesis nula de independencia condicional y concluir que, una vez con-
trolado el efecto de la variable estratos, las variables factor y respuesta estn relacionadas.
Para obtener los estadsticos de Cochran y Mantel-Haenszel con SPSS utilizando los datos de la
Tabla 3.29:
' Reproducir en el Editor de datos los datos de la Tabla 3.29 (ver ms adelante el apartado Cmo
reproducir una tabla de contingencias en SPSS ) o abrir el archivo Tabla 3.29 tabaco infarto sexo
que se encuentra en la pgina web del manual.
' Seleccionar la opcin Estadsticos descriptivos > Tablas de contingencias del men Analizar para
acceder al cuadro de dilogo Tablas de contingencias; trasladar la variable tabaco a la lista Filas,
la variable infarto a la lista Columnas y la variable sexo a la lista Capas.
' Pulsar el botn Estadsticos para acceder al subcuadro de dilogo Tablas de contingencias: Esta-
dsticos y marcar la opcin Estadsticos de Cochran y de Mantel-Haenszel. Pulsar el botn Continuar
para volver al cuadro de dilogo principal.
Aceptando estas elecciones, el Visor ofrece los resultados que muestran las Tablas 3.30 a la 3.32. La
Tabla 3.30 ofrece el contraste de la hiptesis de independencia condicional. El estadstico de Cochran
vale 28,565 y tiene asociado un nivel crtico (sig. asinttica bilateral) menor que 0,0005; puesto que
el nivel crtico es muy pequeo, se puede rechazar la hiptesis nula de independencia condicional y
concluir que, una vez controlado el efecto de la variable sexo, las variables tabaquismo e infarto estn
relacionadas. A idntica conclusin se llega con el estadstico de Mantel-Haenszel.
Si se rechaza la hiptesis de independencia condicional, el inters del anlisis debe orientarse hacia la
cuantificacin del grado de relacin existente entre las variables factor y respuesta. Esto puede hacerse
de dos maneras: (1) obteniendo una cuantificacin distinta para cada estrato y (2) obteniendo una nica
cuantificacin tras mezclar todos los estratos como si se tratara de una sola muestra. Si la relacin entre
las variables factor y respuesta es la misma en todos los estratos, lo razonable ser obtener una nica
cuantificacin de la relacin; si la relacin entre las variables factor y respuesta difiere de un estrato
a otro, lo razonable ser obtener una cuantificacin de la relacin distinta para cada estrato.
Por tanto, una vez rechazada la hiptesis de independencia condicional, lo que conviene hacer es
determinar si la relacin detectada es o no la misma en todos los estratos. Esto puede hacerse contras-
tando la hiptesis nula de homogeneidad de las odds ratio inter-estratos. Para contrastar esta hiptesis,
el SPSS incluye los estadsticos de Breslow-Day (1980, 1987) y Tarone (1985; Tarone, Gart y Hauck,
1983; ver tambin Breslow, 1996). Al aplicar estos estadsticos a los datos de la Tabla 3.29 se obtiene
el resultado que muestra la Tabla 3.31. Ambos tienen asociado un nivel crtico menor que 0,05 (sig.
asinttica = 0,009); por tanto, lo razonable es rechazar la hiptesis de homogeneidad de las odds ratio.
Es decir, la odds ratio (el cociente entre la odds de infarto en los fumadores y la odds de infarto en los
Captulo 3. Inferencia con dos variables categricas 113
Puesto que la odds ratio no es la misma en los dos estratos comparados y, consecuentemente, no puede
asumirse que el riesgo relativo sea el mismo en ambos estratos, no tiene sentido obtener una estimacin
comn o global del mismo; lo razonable es obtener una estimacin del riesgo para cada estrato (en el
siguiente prrafo nos ocuparemos de esto). No obstante, independientemente de cul sea el resultado
de las pruebas de homogeneidad, el SPSS ofrece una estimacin comn del riesgo basada en un es-
tadstico propuesto por Mantel y Haenszel (1959) que adopta la siguiente forma:
= [3.33]
La Tabla 3.32 muestra el resultado que ofrece el SPSS como estimacin comn del riesgo. El valor de
la estimacin, 3,41, tiene asociado un nivel crtico (sig. asinttica) menor que 0,0005 y un intervalo de
confianza entre cuyos lmites (2,125; 5,481) no se encuentra el valor 1. Por tanto, puede concluirse que
el riesgo de infarto entre los fumadores es mayor que entre los no fumadores: aproximadamente 3,4
veces mayor (la tabla ofrece esta misma informacin en escala logartmica; en este caso, el valor de
referencia para la interpretacin ya no es el 1, sino el 0).
Pero ya sabemos que esta estimacin comn o global del riesgo solamente tiene sentido si la relacin
detectada entre las variables factor y respuesta es homognea en todos los estratos. Por tanto, en el caso
de que, como en nuestro ejemplo, se rechace la hiptesis de homogeneidad de las odds ratio, lo apro-
piado es obtener una estimacin del riesgo para cada estrato. Para esto, basta con seguir los pasos del
apartado Los ndices de riesgo con SPSS, pero aadiendo la variable sexo a la lista Capas del corres-
pondiente cuadro de dilogo. Al incluir la variable sexo en el anlisis, se obtienen los resultados que
muestra la Tabla 3.33. La diferencia entre lo que ocurre en el grupo de hombres y en el de mujeres es
evidente: la odds ratio (razn de ventajas) entre los hombres vale 4,71; entre las mujeres, 0,95. En el
primer caso, el resultado es significativamente mayor que 1 (intervalo de confianza: 2,73-8,12); en el
segundo, no. Conclusin: en los hombres, el riesgo de infarto entre los fumadores es 4,71 veces mayor
que entre los no fumadores; en las mujeres, no hay evidencia de que el riesgo de infarto entre las fu-
madoras sea distinto del riesgo de infarto entre las no fumadoras.
114 Anlisis de datos (vol. II)
Tabla 3.33. ndices de riesgo
Intervalo de
confianza al 95%
Sexo Valor Inferior Superior
Hombres Razn de las ventajas para Tabaquismo (Fumadores / No fumadores) 4,710 2,733 8,117
Para la cohorte Infarto = S 3,862 2,391 6,240
Para la cohorte Infarto = No ,820 ,757 ,888
N de casos vlidos 569
Mujeres Razn de las ventajas para Tabaquismo (Fumadores / No fumadores) ,953 ,308 2,949
Para la cohorte Infarto = S ,954 ,316 2,879
Para la cohorte Infarto = No 1,001 ,976 1,026
N de casos vlidos 581
La paradoja de Simpson
Los resultados del apartado anterior indican que la relacin entre dos variables puede verse modulada
o alterada por la presencia de terceras variables. Esta circunstancia ha sido especialmente puesta de ma-
nifiesto por Simpson (1951).
Supongamos que se dispone de dos tratamientos, t1 y t2, para tratar un mismo desorden y que para
todos los pacientes de la poblacin g se verifica:
P (R | t1) > P (R | t2)
donde R se refiere al suceso recuperacin. Supongamos adems que la poblacin de pacientes g est
compuesta por dos sub-poblaciones, g1 y g2. En ambas poblaciones el tratamiento t1 es ms eficaz que
el tratamiento t2, pero los pacientes de la primera poblacin tienen peor pronstico que los de la
segunda. En concreto, supongamos que:
P (R | t1, g1) = 0,5 > P (R | t2, g1) = 0,4
P (R | t1, g2) = 0,9 > P (R | t2, g2) = 0,8
Imaginemos que un investigador est interesado en comparar ambos tratamientos. Si utiliza un diseo
correcto, la proporcin de elementos muestrales extrados de cada subpoblacin para cada grupo de
tratamiento ser la misma. Sin embargo, no siempre es posible asignar sujetos aleatoriamente a los
tratamientos, de modo que no siempre es posible seleccionar muestras de tamao proporcional a sus
poblaciones. Supongamos que el 70 % de los pacientes que reciben el tratamiento t1 pertenecen a la
subpoblacin g1 y el 70 % de los pacientes que reciben el tratamiento t2 pertenecen a la subpoblacin
g2. As las cosas, se tendr:
P (R | t1) = P (R | t1, g1) P ( g1 | t1) + P (R | t1, g2) P ( g2 | t1) = (0,5) (0,7) + (0,9) (0,3) = 0,62
P (R | t2) = P (R | t2, g1) P ( g1 | t2) + P (R | t2, g2) P ( g2 | t2) = (0,4) (0,3) + (0,8) (0,7) = 0,68
Parece que la eficacia de los tratamientos ha cambiado (no coincide con la que de hecho sabemos que
es su eficacia real). Pero lo nico que ocurre es que el tratamiento t1 (el ms eficaz) se ha administrado
mayoritariamente a una muestra de la subpoblacin con la que se consiguen los peores resultados;
mientras que el tratamiento t2 (el menos eficaz) se ha administrado mayoritariamente a una muestra de
la subpoblacin con la que se consiguen los mejores resultados. Un anlisis que no contemple esta
circunstancia llevar a conclusiones incorrectas.
Una buena ilustracin de este efecto tiene que ver con la discriminacin sexual existente en el
proceso de admisin de estudiantes de una determinada Universidad (tomado de Bickel, Hammel y
OConnell, 1975). Supongamos que dos facultades (variable X: facultad ) de una Universidad admiten
Captulo 3. Inferencia con dos variables categricas 115
estudiantes procedentes de distintos institutos. Unos aspirantes son admitidos y otros no (variable Y:
admisin). Las tablas de contingencias que aparecen a continuacin recogen unos resultados hipotticos
distinguiendo entre hombres y mujeres (variable Z: sexo).
Consideremos en primer lugar la clasificacin obtenida basada en las tres variables (Tabla 3.34).
Aunque hay ligeramente menos casos en la diagonal principal (OR < 1), las variables admisin y sexo
no estn asociadas en ninguno de los niveles de la variable facultad: en ambas facultades se obtienen
valores X 2 menores que 1. Sin embargo, al combinar los resultados de ambas facultades (Tabla 3.35.a),
la asociacin entre admisin y sexo se vuelve significativa ( p < 0,05). Aparece un exceso de frecuen-
cias en la diagonal principal (OR > 1): se ha pasado de tasas de admisin aproximadamente iguales en
la Tabla 3.34 a una tasa de admisin favorable a los hombres.
Este efecto es idntico al detectado en el ejemplo de los dos tratamientos. Las facultades difieren
tanto en la distribucin de hombres-mujeres de sus aspirantes como en la proporcin de estudiantes que
son admitidos (tal como muestran las Tablas 3.35.b y 3.35.c). Y ocurre que la mayora de las mujeres
son aspirantes a la facultad en la que ms difcil es entrar (la facultad 2). Consecuentemente, la propor-
cin global de admitidos es menor en las mujeres que en los hombres. Las variables sexo y admisin
no son independientes, pero son condicionalmente independientes dada A.
La valoracin de una situacin de este tipo exige algo ms que simplemente listar el conjunto de
asociaciones significativas. Determinar qu asociaciones son importantes depende de qu variables se
considera que dependen de otras. En el ejemplo, la asociacin entre admisin y sexo no depende de un
sesgo en el proceso de admisin, sino de la diferencia en los criterios de admisin de ambas facultades
(en una de ellas se admite a muchos ms aspirantes que en la otra) y de los intereses de los aspirantes
(la mayora de las mujeres optan por la facultad con criterios ms exigentes).
Facultad = 1 Facultad = 2
Sexo Admisin = S Admisin = No Admisin = S Admisin = No
Hombres 23 16 3 25
Mujeres 7 4 7 47
En el Captulo 10 del primer volumen hemos empezado ya a estudiar algunas medidas de asocia-
cin basadas en el estadstico X 2 de Pearson; todas ellas intentan cuantificar el grado de asociacin apli-
cando algn tipo de correccin al valor de X 2 para hacerle tomar un valor comprendido entre 0 y 1. Por
tanto, esas medidas son sensibles al mismo tipo de relacin a la que es sensible el estadstico de Pearson
(diferencia entre las distribuciones condicionales). En este apartado vamos a estudiar tres medidas de
asociacin (los coeficientes lambda y tau; Goodman y Kruskal, 1979) y el coeficiente de incertidumbre;
Theil, 1970) que se basan en un criterio diferente: la reduccin proporcional del error. Son medidas
que expresan la relacin entre dos variables, X e Y, como la proporcin en que se consigue reducir la
probabilidad de cometer un error de prediccin cuando, al clasificar un caso como perteneciente a una
u otra categora de Y, en lugar de utilizar nicamente la informacin que se tiene de Y, tambin se tiene
en cuenta la informacin que aporta X.
Lambda
La medida de asociacin lambda se basa en la siguiente lgica: al pronosticar a qu categora de una
determinada variable, Y, pertenece un caso concreto, podra elegirse la categora ms probable de todas;
con esta estrategia se estara cometiendo un error de clasificacin igual a la probabilidad de pertenecer
a una cualquiera de las restantes categoras; en lugar de esto, podra clasificarse a ese caso en una u otra
categora de la variable Y dependiendo de su valor (categora) en la variable X; con esta segunda estra-
tegia podra reducirse el error de clasificacin si X e Y estuvieran relacionadas. El coeficiente lambda
expresa en qu medida se consigue reducir el error de clasificacin al utilizar la segunda estrategia en
lugar de la primera.
La Tabla 3.36 recoge las frecuencias resultantes de cruzar las variables sexo y grupos de salario.
Si nicamente se tuviera informacin sobre la variable grupos de salario, al estimar a qu grupo de
salario pertenece un sujeto cualquiera podra elegirse el grupo 15 - 30 porque, al ser el grupo ms
numeroso, la probabilidad de pertenecer a ese grupo (270/500 = 0,540) es ms alta que la de pertene-
cer a cualquier otro grupo. Procediendo de esta manera se estara cometiendo un error de clasificacin
de 1 ! 0,540 = 0,460.
En lugar de esto, podra utilizarse la informacin que aporta la variable sexo y clasificar a los hombres
en el grupo salarial 15 - 30 porque se es el grupo al que es ms probable que pertenezca un hombre
(con un error de (19 + 28 + 17) / 500 = 0,128), y a las mujeres en el grupo salarial < 15 porque se es
el grupo al que es ms probable que pertenezca una mujer (con un error de (84 + 16 + 2) / 500 = 0,204).
De esta manera se estara cometiendo un error de clasificacin de 0,128 + 0,204 = 0,332. Por tanto, con
esta segunda estrategia se estara reduciendo el error de clasificacin en 0,460 ! 0,332 = 0,128 puntos,
lo cual representa una proporcin de reduccin del error de clasificacin de 0,128 / 0,460 = 0,278, que
es justamente el valor que toma lambda si se aplica la ecuacin
= [3.34]
Captulo 3. Inferencia con dos variables categricas 117
donde mx i (ni j) se refiere a la mayor de las frecuencias de cada fila y mx (n+j) a la mayor de las fre-
cuencias marginales de las columnas. Efectivamente, aplicando la ecuacin [3.34] a los datos de la
Tabla 3.36 se obtiene:
= =
Lambda tiene tres versiones: dos asimtricas (para cuando una de las dos variables se considera inde-
pendiente y la otra dependiente) y una simtrica (para cuando no hay razn para distinguir entre varia-
ble independiente y dependiente). La ecuacin [3.34] se aplica cuando la clasificacin se efecta to-
mando Y como dependiente. Si se desea tomar X como dependiente basta con sustituir mxi (nij) por
mx j (ni j) (es decir, por la mayor de las frecuencias de cada columna) y mx (n+ j) por mx (ni +)
(es decir, por la mayor de las frecuencias marginales de las filas). La versin simtrica se obtiene pro-
mediando las dos asimtricas.
Un valor de 0 indica que la variable independiente no contribuye en absoluto a reducir el error de
clasificacin. Un valor de 1 indica que se ha conseguido reducir por completo el error de clasificacin,
es decir, que la variable independiente permite predecir con toda precisin a qu categora de la variable
dependiente pertenece cada caso. Cuando las variables son estadsticamente independientes (es decir,
cuando i j = i+ + j ), lambda vale 0. Pero un valor de 0 no implica independencia estadstica, pues
lambda nicamente es sensible al tipo particular de asociacin que se deriva de la reduccin del error
de clasificacin.
Tau
La medida de asociacin tau se parece a lambda, pero su lgica es algo diferente9. Al pronosticar a qu
categora de la variable grupos de salario pertenece un grupo de sujetos, se podra optar por asignar
aleatoriamente el 100(167/500) = 33,4% a la categora < 15, el 100(270/500) = 54,0% a la categora
15-30, etc., tomando como referencia la probabilidad de pertenecer a cada una de las categoras de
la variable (en lugar de considerar, como hace el coeficiente lambda, nicamente la categora ms pro-
bable). Con esta estrategia se estara clasificando correctamente al 33,4% de sujetos del grupo < 15,
al 54,0% de los sujetos del grupo 15 - 30, etc., lo cual supone una proporcin de clasificacin correc-
ta global de 0,412 y, por tanto, una proporcin de clasificacin errnea de 1 ! 0,412 = 0,588.
En lugar de esto, se podra optar por aprovechar la informacin que aporta la variable sexo asig-
nando aleatoriamente el 100 (19 / 250) = 7,6 % de los hombres a la categora < 15, el 100 (186 / 250)
= 74,4 % de los hombres a la categora 15 - 30, etc.; y el 100 (148 / 250) = 59,2 % de las mujeres a la
categora < 15, el 100 (86/216) = 39,81 % de las mujeres a la categora 15 - 30, etc. Con esta estra-
tegia se estara clasificando correctamente al 52,2 % de los sujetos y, por tanto, se estaran efectuando
pronsticos errneos con una probabilidad de 1 ! 0,522 = 0,478. Utilizando esta segunda estrategia,
la probabilidad de clasificar a un sujeto de forma incorrecta se reduce en 0,588 ! 0,478 = 0,110 pun-
tos. Lo cual representa una proporcin de reduccin del error de clasificacin de 0,110 / 0,588 = 0,187,
que es justamente el valor que toma el coeficiente tau si se aplica la ecuacin
= [3.35]
Al igual que lambda, el coeficiente tau tambin toma valores entre 0 y 1, significando el 0 ausencia
de reduccin del error de clasificacin y el 1 reduccin completa. Aplicando [3.35] a los datos de la
Tabla 3.36 se obtiene
9
No confundir esta medida de reduccin proporcional del error, tau, con las medidas de asociacin tau-a, tau-b y tau-c estu-
diadas en el apartado Asociacin entre variables categricas ordinales de este mismo captulo.
118 Anlisis de datos (vol. II)
= =
El coeficiente tau posee dos versiones asimtricas en funcin de cul de las dos variables se considere
independiente. En la ecuacin [3.35] se est tomando la variable Y como dependiente (es decir, la cla-
sificacin se hace en las categoras de Y a partir de la informacin que proporcionan las categoras de
X ). Intercambiando los roles de n i + y n + j en [3.35] se obtiene la ecuacin para el caso en el que se to
ma la variable X como dependiente.
Coeficiente de incertidumbre
Al igual que lambda y tau, tambin el coeficiente de incertidumbre (Theil, 1970) es una medida de aso-
ciacin basada en la reduccin proporcional del error. Por tanto, es una medida que expresa el grado
de incertidumbre que se consigue reducir cuando se utiliza una variable para efectuar pronsticos sobre
otra. Tambin tiene dos versiones asimtricas (dependiendo de cul de las dos variables se considere
dependiente) y una simtrica (para cuando no se hace distincin entre variable independiente y depen-
diente). Se obtiene de la siguiente manera:
= [3.36]
donde: =
= (con ni j > 0)
Para obtener IX basta con intercambiar los roles de I (X ) e I (Y ) en la ecuacin [3.36]. Y la versin
simtrica se obtiene multiplicando por 2 el resultado de [3.36] tras sustituir, en el denominador, I (Y )
por el producto I (X ) I (Y ).
en todos los casos), se puede rechazar la hiptesis nula de independencia y concluir que las variables
sexo y grupos de salario estn relacionadas. Junto con el valor de cada medida de asociacin aparece
una tipificacin o estandarizacin del mismo (T aproximada) que se obtiene dividiendo el valor de la
medida entre su error tpico (calculado ste suponiendo independencia entre las variables). La tabla
muestra el error tpico de cada medida calculado sin asumir independencia (error tpico asinttico).
Estos errores tpicos pueden utilizarse para construir intervalos de confianza utilizando los cuantiles
de la distribucin normal tal como hemos hecho con otros estadsticos, es decir sumando y restando
a cada medida el producto de su error tpico asinttico por el cuantil (1 ! /2) de la distribucin nor-
mal tipificada. Por ltimo, la tabla ofrece algunas notas aclaratorias acerca de aspectos tales como bajo
qu condiciones se han hecho algunos clculos, cmo se han obtenido algunos de los niveles crticos
que se ofrecen y, si procede, cul es el motivo de que no se puedan realizar algunos clculos.
P (n11) = [3.37]
Para contrastar la hiptesis de independencia mediante la prueba exacta de Fisher, el nivel crtico p se
obtiene sumando las probabilidades de obtener frecuencias tan alejadas o ms de la hiptesis de inde-
pendencia como las de hecho obtenidas.
120 Anlisis de datos (vol. II)
En un experimento diseado por el propio Fisher, a un colega suyo que afirmaba ser capaz de dis-
tinguir si en una taza de t con leche se haba servido primero el t o la leche, le present aleatoriamente
8 tazas de t con leche con la nica indicacin de que en cuatro de ellas se haba servido primero el t
y en las otras cuatro se haba servido primero la leche. La Tabla 3.38 muestra un posible resultado.
Conjetura
Orden real T Leche Total
T 3 1 4
Leche 1 3 4
Total 4 4 8
Las frecuencias marginales de la tabla son fijas; y las frecuencias marginales de las filas y de las co-
lumnas son iguales porque el sujeto que realiza la conjetura sabe que hay cuatro tazas de cada tipo.
La hiptesis nula de independencia afirma que las conjeturas son independientes del orden real en
el que se ha servido el t y la leche; la hiptesis alternativa afirma que las conjeturas coinciden con el
orden real en el que se han servido el t y la leche. En este escenario, la distribucin de n11 viene dada
por todas las tablas 2 2 con frecuencias marginales (4, 4) tanto para las filas como para las columnas.
Los posibles valores de n11 son cinco: 0, 1, 2, 3 y 4. De estos cinco posibles valores, solamente el va-
lor 4 se aleja ms de la hiptesis de independencia que el resultado obtenido (3). Por tanto, la proba-
bilidad de obtener valores tan alejados o ms de la hiptesis de independencia que el obtenido es la
probabilidad de obtener n11 = 3 ms la probabilidad de obtener n11 = 4. Aplicando [3.37] se obtiene
P (n11 = 3) = = = = 0,2286
P (n11 = 4) = = = 0,0143
Por tanto, en el escenario definido por la Tabla 3.38, la probabilidad de que n11 tome un valor tan ex-
tremo o ms que 3 vale:
p = P (n11 = 3) + P (n11 = 4) = 0,2286 + 0,0143 = 0,243
Puesto que p = 0,243 es mayor que 0,05, no parece razonable rechazar la hiptesis de independencia.
Solamente con el resultado n11 = 4 se obtendra un nivel crtico p menor que 0,05; por tanto, solamente
el resultado n11 = 4 llevara a rechazar la hiptesis nula de independencia. El SPSS no tiene una opcin
para elegir la prueba exacta de Fisher, pero la ofrece por defecto cuando se marca la opcin Chi-cua-
drado del procedimiento Tablas de contingencias y la tabla analizada es una tabla 2 2.
Al comparar las puntuaciones ordinales de dos casos cualesquiera puede ocurrir una de estas cinco posi-
bilidades (los clculos estn hechos con los datos de la Tabla 3.25):
1. Concordancias (C ): dos casos son concordantes cuando el primero punta ms alto (o ms bajo)
que el segundo tanto en X como en Y. Por ejemplo, los 73 casos de la casilla (1, 1) puntan ms
bajo, tanto en X como en Y, que los 30 de la casilla (2, 2). Al comparar los 73 casos de la casilla
Captulo 3. Inferencia con dos variables categricas 121
(1, 1) con los 30 de la casilla (2, 2) se obtienen 73 (30) = 2.190 pares concordantes. Tambin se
obtienen pares concordantes al comparar los 73 casos de la casilla (1, 1) con los 12 de la casilla
(2, 3), y con los 18 de la casilla (3, 2), y con los 80 de la casilla (3, 3). Por tanto, al comparar los
73 casos de la casilla (1, 1) con el resto de casos que puntan ms alto en ambas variables (casillas
con i > 1 y j > 1) se obtienen: 73 (30 + 12 + 18 + 80) = 10.220 pares concordantes.
Al comparar los 16 casos de la casilla (1, 2) con todos los dems casos que puntan ms alto
tanto en X como en Y (casillas con i > 1 y j > 2) se obtienen: 16 (12 + 80) = 1.472 pares concordan-
tes. Siguiendo con esta lgica, con los 18 casos de la casilla (2, 1) se obtienen: 18 (18 + 80) = 1.764
pares concordantes. Y con los 30 casos de la casilla (2, 2) se obtienen: 30 (80) = 2.400 pares con-
cordantes. Por tanto, el nmero total de pares concordantes de la tabla es:
= 10.220 + 1.472 + 1.764 + 2.400 = 15.856 pares concordantes
2. Discordancias (D): dos casos son discordantes entre s cuando el primero punta ms alto (o ms
bajo) que el segundo en la variable X y ms bajo (o ms alto) en la variable Y. Por ejemplo, los 8
casos de la casilla (3, 1) puntan ms alto en X y ms bajo en Y que los 30 de la casilla (2, 2). Al
comparar los 8 casos de la casilla (3, 1) con los 30 de la casilla (2, 2) se obtienen 8(30) = 240 pares
discordantes. Lo mismo ocurre al comparar los 8 casos de la casilla (3, 1) con los 12 de la casilla
(2, 3), con los 16 de la casilla (1, 2), y con los 3 de la casilla (1, 3). Por tanto, al comparar los 8
casos de la casilla (3, 1) con el resto de casos que puntan ms bajo en X y ms alto Y (casillas con
i > 3 y j > 1) se obtienen: 8 (30 + 12 + 16 + 3) = 488 pares concordantes.
Al comparar los 16 casos de la casilla (3, 2) con todos los dems casos que puntan ms bajo
en X y ms alto en Y (casillas con i < 3 y j > 2) se obtienen: 18 (12 + 3) = 270 pares discordantes.
Siguiendo la misma lgica, con los 18 casos de la casilla (2, 1) se obtienen: 18(16 + 3) = 342 pares
discordantes. Y con los 30 casos de la casilla (2, 2) se obtienen: 30(3) = 90 pares discordantes. Por
tanto, el nmero total de pares concordantes de la tabla es:
= 488 + 270 + 342 + 90 = 1.190 pares discordantes
3. Empates en X (EX): dos casos estn empatados en X cuando sus valores en X son iguales y sus va-
lores en Y distintos. Por tanto, cada caso est empatado en X con todos los casos que se encuentran
en su misma fila. Los 73 casos de la casilla (1, 1) estn empatados en X con los 16 + 3 = 19 de su
misma fila; y los 16 casos de la casilla (1, 2) estn empatados en X con los 3 casos de su misma
fila. Por tanto, en la primera fila hay 73 (19) + 16 (3) = 1.435 empates en X. Haciendo lo mismo en
la segunda fila se obtienen 18(42) + 30(12) = 1.116 empates. Y en la tercera, 8(98) + 18(80) = 2.224.
Por tanto, el nmero total de empates en X es:
= 1.435 + 1.116 + 2.224 = 4.775 pares empatados en X
4. Empates en Y (EY): dos casos estn empatados en Y cuando sus valores en Y son iguales y sus va-
lores en X distintos. Por tanto, cada caso est empatado en Y con todos los casos que se encuentran
en su misma columna. Aplicando a las columnas la misma lgica aplicada en el prrafo anterior
a las columnas se obtienen, para toda la tabla:
= 2.042 + 1.308 + 1.236 = 4.586 pares empatados en Y
5. Empates en X e Y (EXY): dos casos estn empatados en X e Y cuando sus valores son los mismos
en ambas variables. Por tanto, cada caso est empatado en X e Y con el resto de casos que se
encuentran en su misma casilla. El nmero de comparaciones entre los nij casos de la misma casilla
viene dado por las combinaciones de nij elementos tomados de dos en dos: nij (nij ! 1) / 2. Entre los
73 casos de la casilla (1, 1) hay 73(72)/2 = 2.628 pares empatados en X e Y; en la casilla (1, 2) hay
16 (15) / 2 = 120 pares empatados; etc. Por tanto, el nmero total de pares empatados en X e Y es:
= 2.628 + 120 + 3 + 153 + 435 + 66 + 28 + 153 + 3.160 = 6.746 pares empatados en X e Y
122 Anlisis de datos (vol. II)
Al comparar cada caso con cada otro, el nmero de comparaciones que pueden hacerse viene dado por
las combinaciones de n casos tomados de dos en dos, es decir: n (n ! 1) / 2 = 258 (257) / 2 = 33.153.
Este resultado es el que debe obtenerse al sumar el nmero de pares concordantes, discordantes y
empatados: 15.856 + 1.190 + 4.775 + 4.586 + 6.746 = 33.153.
Figura 3.2. Datos de la Tabla 3.36 reproducidos en el Editor de datos (izquierda: valores; derecha: etiquetas)
Para que los 8 casos del archivo de la Figura 3.2 puedan convertirse en los 500 de la Tabla 3.36 es
necesario crear, adems de las variables sexo y salario, una tercera variable con las frecuencias de cada
casilla. En el ejemplo, a esta tercera variable se le ha asignado el nombre ncasos, pero se le puede
asignar cualquier nombre vlido.
Hecho esto, para reproducir la Tabla 3.36 en el Visor de resultados a partir de los datos que mues-
tra el Editor de datos de la Figura 3.2:
' Seleccionar la opcin Ponderar casos del men Datos para acceder al cuadro de dilogo Ponderar
casos, marcar la opcin Ponderar casos mediante y trasladar la variable ncasos al cuadro Variable de
frecuencia.
' Seleccionar la opcin Estadsticos descriptivos > Tablas de contingencias del men Analizar para ac-
ceder al cuadro de dilogo Tablas de contingencias y trasladar la variable sexo a la lista Fila y la
variable salario a la lista Columna.
Aceptando estas elecciones, el Visor de resultados genera la tabla de contingencias que muestra la
Tabla 3.39. Puede comprobarse que esta tabla es idntica a la Tabla 3.36. A pesar de que el archivo
de datos solamente contiene 8 casos, al ponderar el archivo mediante la variable ncasos, los 8 casos
del archivo reproducido en la Figura 3.2 se han convertido en los 500 de la Tabla 3.36.
Captulo 3. Inferencia con dos variables categricas 123
Tabla 3.39. Distribucin del salario por sexos
Recuento
Grupos de salario
< 20 20 - 40 40 - 60 > 60 Total
Sexo Hombres 19 186 28 17 250
Mujeres 148 84 16 2 250
Total 167 270 44 19 500
Figura 3.3. Datos de la Tabla 3.29 reproducidos en el Editor de datos (izquierda: valores; derecha: etiquetas)
3.1. La siguiente tabla recoge algunos datos extrados de una encuesta realizada a 240 jvenes madrileos
de edades comprendidas entre 15 y 25 aos:
Beben
Fuman S No Total
S 64 16 80
No 32 128 160
Total 96 144 240
El investigador A est interesado en averiguar si la variable fumar est relacionada con la variable
beber. El investigador B est interesado en averiguar si la proporcin de bebedores entre los que fuman
difiere o no de la proporcin de bebedores en el grupo de los que no fuman:
124 Anlisis de datos (vol. II)
a. Qu hiptesis nula debe contrastar el investigador A para obtener la informacin que le interesa?
Y el investigador B ?
b. Qu procedimiento estadstico debe utilizar el investigador A para contrastar su hiptesis nula?
Y el investigador B ?
3.2. Siguiendo con los datos del ejercicio anterior, el investigador C quiere saber si la proporcin de fu-
madores difiere de la proporcin de bebedores:
a. Qu hiptesis nula debe contrastar?
b. Qu procedimiento estadstico debe utilizar para contrastar esa hiptesis?
c. Aplicar el procedimiento elegido, tomar una decisin sobre la hiptesis nula planteada ( = 0,05)
y concluir.
3.3. En uno de los primeros estudios sobre tabaquismo y cncer de pulmn se tomaron datos de pacientes
con cncer de pulmn ingresados durante el ltimo ao en 20 hospitales de Londres. En todos los pa-
cientes se registr si consuman o no tabaco (al menos un cigarrillo al da durante al menos un ao).
Por cada paciente con cncer de pulmn se incluy en el estudio un paciente ingresado en el mismo
hospital sin cncer de pulmn, del mismo sexo y del mismo grupo de edad (no ms de 5 aos de dife-
rencia). La siguiente tabla muestra los resultados obtenidos.
Cncer de pulmn
Tabaquismo S No Total
Fumadores 688 650 1.338
No fumadores 21 59 80
Total 709 709 1.418
3.4. Los datos de una encuesta de contenido socio-demogrfico se han utilizado para clasificar una muestra
aleatoria de 240 sujetos segn su salario y su nivel educativo. La siguiente tabla muestra los resulta-
dos obtenidos:
Nivel de estudios
Grupos de salario 1. Primarios 2. Secundarios 3. Medios 4. Superiores Total
1. < 15.000 15 48 10 2 75
2. 15.001 - 30.000 10 46 66 4 126
3. > 30.000 3 2 14 20 39
Total 28 96 90 26 240
El objetivo del estudio es averiguar si los niveles educativos ms altos (bajos) tienden a ir acompaa-
dos de salarios ms altos (bajos):
a. Qu hiptesis estadstica corresponde a la hiptesis de investigacin del estudio?
b. Qu estadstico puede utilizarse para contrastar la correspondiente hiptesis nula?
c. Calcular ese estadstico utilizando el SPSS e interpretar el resultado del contraste ( = 0,05).
Captulo 3. Inferencia con dos variables categricas 125
3.5. Teniendo en cuenta los resultados obtenidos en el ejercicio anterior cul de las siguientes afirmacio-
nes es verdadera y cul falsa?
a. El salario depende del nivel educativo.
b. El salario no depende del nivel educativo.
c. El salario no est relacionado con el nivel educativo.
d. Ha quedado probado de forma inequvoca que el salario est relacionado con el nivel educativo.
e. No existe evidencia suficiente para poder afirmar que el salario est relacionado con el nivel edu-
cativo.
3.6. De una encuesta realizada a 400 personas se han extrado los datos relativos a dos preguntas: X = Con
qu frecuencia recicla vidrio, papel, latas, envases etc.?, Y = Con qu frecuencia consume frutas
y verduras ecolgicas? Las respuestas se han codificado como: 1 = nunca o casi nunca, 2 = algu-
nas veces, 3 = habitualmente. La siguiente tabla muestra los resultados obtenidos:
3.7. Seguimos con los datos del ejercicio anterior, pero descartando a los sujetos de la primera categora
de ambas variables, es decir, quedndonos nicamente con los sujetos que han respondido a ambas pre-
guntas algunas veces (2) o habitualmente (3):
a. Qu hiptesis nula debemos contrastar para decidir si la proporcin de personas que reciclan ha-
bitualmente difiere de la proporcin de personas que consumen productos ecolgicos habitual-
mente.
b. Contrastarla e interpretar el resultado ( = 0,05).
c. Calcular el intervalo de confianza para la diferencia entre ambas proporciones.
3.8. Algunos datos recogidos durante los ltimos aos indican que la odds de sobrevivir a un accidente de
trfico es 1,75 veces mayor entre los hombres que entre las mujeres.
a. Sabiendo que la odds de sobrevivir entre los hombres vale 5,25, averiguar la proporcin de perso-
nas que sobrevive de cada sexo.
b. Encontrar el valor de k en la expresin la proporcin de hombres que sobreviven es k veces ma-
yor que la de mujeres que sobreviven.
3.9. Un psiclogo cree que la opinin que un paciente tiene sobre su terapeuta va cambiando a ms favora-
ble a medida que avanza el proceso teraputico. El psiclogo tiene, incluso, algunos datos relacionados
con esa hiptesis: pregunt a 30 pacientes su opinin sobre el terapeuta recin iniciada la terapia y en-
contr 18 opiniones favorables; pregunt a los mismos 30 pacientes su opinin sobre el terapeuta a
punto de finalizar la terapia y encontr 26 opiniones favorables, siendo 11 los pacientes que haban
126 Anlisis de datos (vol. II)
cambiado su opinin de desfavorable a favorable. El problema de nuestro psiclogo es que cuando era
estudiante no prest suficiente atencin a la asignatura Anlisis de datos y ahora se encuentra con que
no sabe qu hacer o cmo interpretar los datos que tiene. Se trata de que nosotros le demos nuestra opi-
nin fundamentada sobre su sospecha de que la opinin de los pacientes va cambiando a ms favora-
ble a medida que avanza el proceso teraputico ( = 0,05).
3.10. Hemos seleccionado una muestra aleatoria de 100 historias clnicas de nios recin nacidos y las hemos
clasificado utilizando dos criterios. El primero, si la madre ha fumado o no durante la gestacin (varia-
ble con dos niveles: madre fumadora y madre no fumadora); el segundo, el peso del nio al nacer (va-
riable con dos niveles: menos de 2,5 kg y ms de 2,5 kg). Hemos encontrado los resultados que muestra
la siguiente tabla.
Peso al nacer
Madre fumadora 2,5 kg o menos Ms de 2,5 kg
S 15 5
No 16 64
Estamos interesados en averiguar si el peso de los recin nacidos est relacionado con el hecho de que
la madre haya fumado o no durante la gestacin.
a. Qu hiptesis nula habra que plantear?
b. Estimar, utilizando el ndice apropiado, el riesgo relativo del suceso pesar menos de 2,5 kg en
los recin nacidos de madres fumadoras. Interpretar el resultado.
c. Obtener el intervalo de confianza para el ndice utilizado en el apartado anterior ( = 0,05).
3.11. Antes de comenzar un debate sobre la conveniencia de legalizar o no las drogas, se pregunt a 50 per-
sonas si estaban o no a favor de la legalizacin, resultando que 20 de ellas se mostraron a favor y las
restantes en contra. Tras el debate, se volvi a hacer la misma pregunta a las mismas 50 personas,
encontrando que ahora eran 26 las que se mostraban a favor y que 7 de las que al principio estaban en
contra ahora estaban a favor. A partir de estos datos y utilizando = 0,05, se desea averiguar si la pro-
porcin de personas que se muestran a favor de la legalizacin de las drogas ha cambiado tras el debate.
3.12. Dos psiquiatras han evaluado a 25 pacientes para determinar cules de ellos tienen pseudoalucinacio-
nes y cules no. El informe de los psiquiatras nicamente incluye un s cuando consideran que el
paciente sufre pseudoalucinaciones y un no cuando consideran que no las sufre. La siguiente tabla
resume los datos de los informes de ambos psiquiatras. Puede afirmarse que entre los dos psiquiatras
existe un acuerdo significativamente mayor que el que cabra esperar por azar? ( = 0,05).
Psiquiatra 2
Psiquiatra 1 S No Total
S 12 6 18
No 2 5 7
Total 14 11 25
3.13. En una encuesta realizada a 670 espaoles adultos, el 38 % de los encuestados manifiesta creer en que
los espritus habitan entre nosotros y el 32 % manifiesta creer en la astrologa. Si estuviramos inte-
resados en comparar estos porcentajes, cul de las siguientes pruebas podramos utilizar? (Razonar
la eleccin).
Captulo 3. Inferencia con dos variables categricas 127
3.15. El cociente entre las odds de un suceso en los grupos 1 y 2 vale 3. Si la probabilidad del suceso vale
0,60 en el grupo 1, cunto vale la probabilidad del suceso en el grupo 2?
3.16. En cada cohorte de edad, la tasa de mortalidad es mayor en la ciudad A que en la B. Sin embargo, la
tasa de mortalidad global es ms alta en la ciudad B. Es esto posible? Por qu? (en caso necesario,
revisar el apartado La paradoja de Simpson en el Apndice 3).
4
Inferencia con una variable
categrica y una cuantitativa
1
Quiz no est de ms volver a recordar que las pruebas estadsticas diseadas para comparar grupos (y lo mismo vale decir
de cualquier otra herramienta inferencial) nicamente permiten averiguar si los grupos difieren; no permiten ir ms all. Para
poder afirmar que las diferencias encontradas reflejan una relacin de naturaleza causal es necesario atenerse a las carac-
tersticas del diseo. Y ya hemos sealado (ver, en el Captulo 1 del primer volumen, el apartado Niveles de indagacin;
y en el Captulo 12 del primer volumen, el apartado Relacin y causalidad) que solamente en el contexto de los diseos
experimentales es posible hacer afirmaciones sobre la naturaleza causal de una relacin (al margen, por supuesto, de la po-
sible existencia de alguna teora bien fundamentada de la que se deriven tales afirmaciones).
130 Anlisis de datos (vol. II)
Tambin estudiaremos cmo estimar el tamao del efecto al comparar grupos en una
variable cuantitativa y, relacionado con esto, cmo llevar a cabo contrastes de equivalencia
y no-inferioridad, cuestin de especial utilidad en contextos clnicos en los que no es in-
frecuente tener que valorar la eficacia de un nuevo tratamiento comparndolo con otro ya
existente o estndar para demostrar, no que el nuevo tratamiento es mejor que el estndar
(esto puede hacerse mediante un contraste convencional), sino que el nuevo tratamiento es,
como mnimo, tan eficaz como el estndar (cosa muy distinta).
Para contrastar [4.1] o [4.2] se utiliza una tipificacin de la diferencia entre las medias mues-
trales que es la que da nombre al procedimiento:
= [4.3]
La diferencia entre las medias poblacionales del numerador de [4.3] es justamente el valor
propuesto en la hiptesis nula. Y la forma de estimar el error tpico del denominador depende
de si puede o no asumirse que las varianzas poblacionales son iguales. Si puede asumirse que
lo son, nicamente ser necesario estimar un parmetro ( ). Y puesto que los dos estima-
dores de ese parmetro ( y ) son independientes entre s, pues proceden de muestras
independientes, lo ms razonable ser combinar ambos para obtener una nica estimacin de
. Si no puede asumirse que las varianzas poblacionales son iguales, no tendr sentido
realizar una nica estimacin a partir de la combinacin ponderada de los dos estimadores
disponibles. Lo razonable ser, ms bien, utilizar cada varianza muestral como estimador de
la varianza de su propia poblacin (ver, en el Captulo 11 del primer volumen, el apartado La
prueba T de Student para muestras independientes). Esto significa que existen dos versiones
del estadstico [4.3]: una para cuando puede asumirse que las varianzas poblacionales son
iguales y otra para cuando no puede asumirse tal cosa. Y ambas permiten tomar decisiones
sobre la hiptesis de igualdad de medias porque tienen distribucin muestral conocida:
T tgl [4.4]
Los grados de libertad, gl, varan dependiendo de la forma de estimar el denominador de la
ecuacin [4.3] (ver Captulo 11 del primer volumen).
Captulo 4. Inferencia con una variable categrica y una cuantitativa 131
Con la prueba T se estn comparando las medias de dos poblaciones a partir de las medias
muestrales obtenidas en muestras aleatorias extradas de esas poblaciones. Para que el proce-
dimiento funcione bien (es decir, para que el estadstico T se distribuya tal como se dice que
se distribuye) es necesario que las poblaciones muestreadas sean normales. Con muestras
grandes, el incumplimiento de este supuesto no afecta a las conclusiones del contraste; pero
con muestras pequeas pierde precisin. En estos casos es preferible utilizar procedimientos
que no asumen normalidad.
Grupos Sujetos nj
Tenemos una variable categrica (grupo) con dos niveles (1 = experimental, 2 = control)
y una variable cuantitativa (Y = puntuaciones en el test Raven) en la cual se desea comparar
los grupos. Por tanto, tenemos una situacin susceptible de ser analizada mediante la prueba
T de Student para muestras independientes:
1. Hiptesis: H0: $
< ; H 1: > (contraste unilateral derecho).
2. Supuestos: asumimos que las puntuaciones en el test Raven se distribuyen normalmente
en las dos poblaciones; desconocemos las varianzas poblacionales pero asumimos que son
iguales; las muestras se han seleccionado de forma aleatoria e independientemente una de
otra.
3. Estadstico del contraste:
= = = =
132 Anlisis de datos (vol. II)
La prueba de Mann-Whitney
La prueba de Mann-Whitney2 sirve, al igual que la T de Student para muestras independien-
tes, para comparar dos grupos en una variable cuantitativa. Sirve, por tanto, para valorar la
eficacia de dos tratamientos, o para comparar un grupo experimental con un grupo control,
o dos colectivos distintos (hombres y mujeres; fumadores y no fumadores; etc.) en alguna
variable de inters. Representa una excelente alternativa a la prueba T de Student cuando se
incumple el supuesto de normalidad o cuando no es apropiado utilizar la prueba T porque el
nivel de medida de la variable cuantitativa es ordinal (ver Blair, Higgins y Smitley, 1980).
Consideremos dos muestras de tamaos n1 y n2 extradas aleatoria e independiente-
mente de sus respectivas poblaciones Y1 e Y2 . Mezclando las N = n1 + n2 observaciones y
asignando rangos R i a las N puntuaciones como si se tratara de una sola muestra (un 1 a la
ms pequea, un 2 a la ms pequea de las restantes, ..., un N a la ms grande, resolviendo
los empates asignando el rango promedio), se obtendrn n1 rangos R i 1 (los n1 rangos asig-
nados a las observaciones de la muestra Y1) y n2 rangos R i 2 (los n2 rangos asignados a las
observaciones de la muestra Y2). Entre los diferentes estadsticos que podran definirse en este
escenario, consideremos estos dos:
S1 = y S2 = [4.5]
S1 + S2 = N (N +1) / 2 [4.6]
2
El procedimiento que se describe en este apartado con el nombre prueba de Mann-Whitney fue originalmente propuesto
por Wilcoxon (1945) para el caso de grupos del mismo tamao. Festinger (1946) desarroll independientemente un proce-
dimiento equivalente al de Wilcoxon. Pero fueron Mann y Whitney (1947) los primeros en extender el procedimiento al caso
de grupos de tamaos distintos y los primeros tambin en elaborar tablas para poder utilizarlo con muestras pequeas. Fue-
ron precisamente las aportaciones de Mann y Whitney las que ms contribuyeron a la divulgacin del procedimiento; de
ah que, generalmente, se presente como prueba de Mann-Whitney. Sin embargo, en ocasiones, este procedimiento puede
encontrarse con la denominacin de prueba de Wilcoxon-Mann-Whitney; tambin puede encontrarse como prueba de Wil-
coxon para muestras independientes, la cual no debe confundirse con la prueba de Wilcoxon para una muestra (ya estudiada
en el captulo anterior) ni con la prueba de Wilcoxon para dos muestras relacionadas (que estudiaremos en el prximo
captulo).
Captulo 4. Inferencia con una variable categrica y una cuantitativa 133
Si asumimos que las dos muestras se han extrado de la misma poblacin o de dos poblacio-
nes idnticas, cabe esperar que S1 y S2 sean aproximadamente iguales (excepto, claro est,
en la parte atribuible a las fluctuaciones propias del azar muestral). Si los valores de S1 y S2
fueran muy distintos, habra una buena razn para sospechar que las muestras proceden de
poblaciones distintas3. Por tanto, S1 y S2 contienen informacin sobre la hiptesis de que am-
bos promedios poblacionales son iguales. No obstante, para poder utilizar estas sumas como
estadsticos de un contraste, es necesario conocer sus distribuciones muestrales. Ahora bien,
segn [4.6], S1 y S2 son complementarios respecto de N (N + 1) / 2. Por tanto, no es necesario
trabajar con ambos; nos centraremos en S1 y lo llamaremos U (que es la forma habitual de
identificar el estadstico de Mann-Whitney):
U = S1 [4.7]
Con muestras pequeas es relativamente sencillo obtener la distribucin muestral exacta del
estadstico U a partir de los posibles valores que puede tomar la suma de n1 rangos (ver, por
ejemplo, San Martn y Pardo, 1989, pgs. 122-124). La Tabla O del Apndice final ofrece
algunos cuantiles de las distribuciones exactas de U para valores de n1 y n2 iguales o meno-
res que 20. La tabla nicamente ofrece los puntos crticos u de la cola izquierda de cada
distribucin muestral. No obstante, los puntos crticos de la cola derecha pueden obtenerse
mediante u1 ! = n1 (N + 1) ! u .
Con tamaos muestrales ms grandes puede utilizarse una tipificacin4 del estadstico U
basada en su valor esperado y en su error tpico (ver, por ejemplo, San Martn y Pardo, 1989,
pgs. 124-125):
=
Z = con [4.8]
=
3
Si las dos poblaciones tienen la misma forma, una fuerte discrepancia entre S1 y S2 estara indicando, efectivamente, que
los promedios poblacionales no son iguales. Si no puede asumirse que las dos poblaciones tienen la misma forma, una fuerte
discrepancia entre S1 y S2 estara indicando que P (X < Y ) =/ P (X > Y ) =/ 0,5 (ver Conover, 1980, pgs. 224-225). Y esto im-
plica que las distribuciones poblacionales no tienen la misma forma.
4
Existen diferentes versiones de los estadsticos U y Z (ver, por ejemplo, San Martn y Pardo, 1989, pg. 126; o Marascuilo
y McSweeney, 1977, pgs. 267-278), pero todas ellas son equivalentes y conducen al mismo resultado.
5
En el caso de que al asignar rangos a las puntuaciones originales existan empates (puntuaciones a las que les corresponde
el mismo rango), la aproximacin del estadstico Z a la distribucin normal mejora si se incorpora al error tpico una correc-
cin que tiene en cuenta el nmero de puntuaciones empatadas:
[4.9]
(k se refiere al nmero de rangos distintos empatados y ti al nmero de puntuaciones empatadas en el rango i). Este error
tpico apenas difiere del propuesto en [4.8] cuando existen pocos empates o cuando en cada empate no intervienen ms de
dos puntuaciones.
134 Anlisis de datos (vol. II)
1. Hiptesis:
a. Contraste bilateral: H0: E (Y1) = E (Y2); H1: E (Y1) =/ E (Y2).
b. Contraste unilateral derecho: H0: E (Y1) <$ E (Y2); H1: E (Y1) > E (Y2).
$ E (Y2); H1: E (Y1) < E (Y2).
c. Contraste unilateral izquierdo: H0: E (Y1) >
2. Supuestos: tenemos una variable al menos ordinal medida en dos muestras de tamaos
n1 y n2 seleccionadas aleatoria e independientemente de dos poblaciones con la misma
forma: F (Y1) = F (Y2).
3. Estadsticos del contraste (ver [4.5] y [4.8]):
3.1. U = S1 =
3.2. Z =
4. Distribuciones muestrales:
4.1. La Tabla O del Apndice final ofrece la distribucin muestral exacta de U. La
tabla nicamente incluye los puntos crticos u de las colas izquierdas de las
correspondientes distribuciones muestrales. Los puntos crticos de las colas de-
rechas pueden obtenerse mediante: u1 ! = n1 (N + 1) ! u .
4.2. La distribucin de Z se aproxima a N (0, 1) a medida que los tamaos mues-
trales van aumentando.
5. Zona crtica:
a. Contraste bilateral:
a.1. U < u /2 y U > u1 ! /2 .
a.2. Z <$ Z /2 y Z $> Z1 ! /2 .
b. Contraste unilateral derecho:
b.1. U > u1 ! .
$ Z1 ! .
b.2. Z >
c. Contraste unilateral izquierdo:
c.1. U < u .
$ Z .
c.2. Z <
6. Regla de decisin: rechazar H0 si el estadstico del contraste cae en la zona crtica;
en caso contrario, mantenerla.
Captulo 4. Inferencia con una variable categrica y una cuantitativa 135
En el caso de que se desee obtener el estadstico Z utilizando el error tpico que incluye
la correccin por empates hay que aplicar6 la ecuacin [4.9].
4. Distribuciones muestrales:
4.1. U Tabla O del Apndice final.
4.2. Z se aproxima a N (0, 1).
5. Zonas crticas:
5.1. U > u 0,95 = n1 (N + 1) ! u0,05 = 10 (20 + 1) ! 83 = 127.
5.2. Z $
> Z1 ! 0,05 = Z0,95 = 1,645.
6. Decisin:
6.1. Como 136 > 127, se rechaza H0.
6.2. Como 2,34 > 1,645, se rechaza H0.
Ambos estadsticos llevan a la misma decisin. Se puede concluir, por tanto, que el pro-
medio de los sujetos entrenados (grupo experimental) es significativamente ms alto que
el de los sujetos no entrenados (grupo control).
$ 2,34) = 0,0096.
7. Nivel crtico: p = P(Z >
6
Para aplicar la correccin por empates (ver [4.8] y [4.9]) hay que tener en cuenta que se dan empates en 4 rangos distintos
(1,5, 5,5, 7,5 y 16,5) y que en todos los casos el nmero de puntuaciones empatadas son dos. Por tanto,
Captulo 4. Inferencia con una variable categrica y una cuantitativa 137
' Pulsar el botn Opciones para acceder al subcuadro de dilogo Pruebas para dos mues-
tras independientes: Opciones y marcar la opcin Descriptivos. Pulsar el botn Continuar
para volver al cuadro de dilogo principal.
Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 4.3 y 4.4.
La primera de ellas incluye varios estadsticos descriptivos: el tamao de cada grupo y el to-
tal, la media de los rangos asignados a cada grupo (rango promedio) y la suma de los rangos
asignados a cada grupo: S1 =136 y S2 = 74.
La Tabla 4.4 ofrece varios estadsticos y niveles crticos. El estadstico U de Mann-Whit-
ney es el menor de U1 = n1 n2 + n1 (n1 +1) / 2 ! S1 y U2 = n1 n2 !U1. Con los datos de la Tabla 4.1,
U1 = 10 (10) + 10 (10 + 1) / 2 ! 136 = 19 y U2 = 10 (10) ! 19 = 81. Por tanto, U = 19.
El estadstico W de Wilcoxon es el menor de S1 y S2. Puesto que S1 = 136 y S2 = 74 (ver
Tabla 4.3), W = 74.
Y el estadstico Z es una tipificacin de los estadsticos U y W. La tipificacin del esta-
dstico U es idntica a la que nosotros hemos presentado en la ecuacin [4.9] excepto en lo
que se refiere al valor esperado que se utiliza en el numerador; aqu, U = n1 n2 / 2. Y la tipifi-
cacin del estadstico W es idntica a la que nosotros hemos propuesto en [4.9]. Pero en am-
bos casos hay que tener en cuenta un detalle importante: nosotros hemos utilizado U = S1 en
el numerador de Z y el SPSS utiliza el menor de S1 y S2 (razn por la cual el valor de Z en la
Tabla 4.4 es negativo). Esto obliga a tomar algunas precauciones. Puesto que el SPSS siem-
pre utiliza el menor de S1 y S2, la zona crtica siempre est en la cola izquierda de la distribu-
cin. En el caso de rechazar H0, el signo de Z no permite saber a qu grupo le corresponde un
promedio ms alto. Para saber esto hay que fijarse en los rangos promedio de la Tabla 4.3.
Las ltimas dos lneas de la tabla ofrecen el nivel crtico bilateral. El primero de ellos
(sig. asinttica) se obtiene tal como nosotros hemos propuesto en el Cuadro 4.1: multipli-
cando por 2 la probabilidad de obtener valores Z iguales o menores que el obtenido. El se-
gundo (sig. exacta) calcula el nivel crtico exacto7 utilizando un algoritmo propuesto por Di-
neen y Blakesley (1973). El nivel crtico unilateral se obtiene dividiendo entre 2 el bilateral.
7
$ 400 y (2) n1 n2 / 2 + mn (n1, n2) $
Este nivel crtico exacto se calcula siempre que se den dos condiciones: (1) n1 n2 < < 220.
Si no se da alguna de estas condiciones, el procedimiento nicamente ofrece el nivel crtico asinttico.
138 Anlisis de datos (vol. II)
La prueba de Kruskal-Wallis
La prueba de Mann-Whitney para dos muestras independientes fue extendida al caso de ms
de dos muestras por Kruskal y Wallis (1952). Seguimos trabajando con una variable categ-
rica que define grupos y una variable cuantitativa en la cual deseamos comparar los grupos;
pero, ahora, la variable categrica define ms de dos grupos. Por tanto, la prueba de Kruskal-
Wallis sirve para valorar el efecto de varios tratamientos sobre una variable cuantitativa, o
para comparar varios grupos en alguna medida cuantitativa de inters.
Lo habitual es abordar este tipo de situaciones con un procedimiento llamado anlisis
de varianza de un factor (lo estudiaremos ms adelante, en el Captulo 6). Pero, segn vere-
mos, el anlisis de varianza requiere que se den una serie de condiciones (normalidad de las
poblaciones muestreadas, igualdad de las varianzas poblacionales, nivel de medida de inter-
valos o razn) que no siempre se dan. Precisamente las ventajas fundamentales de la prueba
de Kruskal-Wallis frente al anlisis de varianza tienen que ver con estas condiciones: (1) no
necesita establecer supuestos sobre las poblaciones originales tan exigentes como los del
anlisis de varianza y (2) permite trabajar con datos ordinales. Por contra, si se cumplen los
supuestos en los que se basa el anlisis de varianza, su potencia es mayor que la que es posi-
ble alcanzar con la prueba de Kruskal-Wallis.
Teniendo en cuenta que con muchos de los datos que se recogen en el mbito de las cien-
cias sociales y de la salud es demasiado arriesgado asumir normalidad y homocedasticidad
(especialmente si las muestras son pequeas y los tamaos muestrales desiguales), y con-
siderando, adems, que muchas de las variables que interesa analizar son ordinales, se com-
prender que la prueba de Kruskal-Wallis representa una ms que interesante alternativa para
el estudio de una variable categrica y una cuantitativa.
Nos encontramos ante un diseo en el que J muestras son aleatoria e independientemente
seleccionadas de J poblaciones que se asumen iguales con el objetivo de averiguar si efec-
tivamente esas J poblaciones son iguales o, por el contrario, algunas de ellas difieren en sus
promedios. Por tanto, el punto de partida del anlisis lo constituyen J muestras aleatorias e
independientes (Y1, Y2, ..., Yj, ..., YJ ) de tamaos n1, n2, ..., nj, ..., nJ (j = 1, 2, ..., J ) extradas
de la misma poblacin o de J poblaciones idnticas (N = n1 + n2 + + nj + + nJ ). Asignan-
do rangos desde 1 hasta N al conjunto de las Yi j puntuaciones como si se tratara de una sola
muestra (resolviendo los empates con el promedio de los rangos empatados), es posible
definir la variable R i j = rango asignado al sujeto i de la muestra j (i = 1, 2, ..., nj ). La Ta-
bla 4.5 muestra la disposicin de los datos tras asignar rangos.
H = [4.10]
Bajo la hiptesis nula de que las J poblaciones tienen la misma forma, el estadstico H se
distribuye segn el modelo de probabilidad ji-cuadrado, con J ! 1 grados de libertad. El re-
chazo de esta hiptesis implica que los J promedios comparados no son iguales. El Cuadro
4.2 ofrece un resumen del procedimiento.
H =
4. Distribucin muestral: la Tabla P del Apndice final recoge los puntos crticos de la
distribucin muestral de H a partir de los cuales se puede rechazar H0 . La tabla inclu-
ye algunos valores de J y n j . Para otros valores de J o n j puede utilizarse la aproxi-
macin del estadstico H a la distribucin ji-cuadrado con J ! 1 grados de libertad.
$ h1! o H >
5. Zona crtica: H > $ .
6. Decisin: se rechaza H0 si H cae en la zona crtica; en caso contrario, se mantiene.
7. Nivel crtico (valor p): p = P (H > Hh), donde Hh se refiere al valor concreto de H.
8
Si existen muchos empates al asignar rangos, el estadstico H propuesto en [4.10] se vuelve conservador. En ese caso
conviene aplicar una correccin que tiene en cuenta la presencia de empates:
HN [4.11]
(k se refiere al nmero de rangos distintos empatados y ti al nmero de puntuaciones empatadas en cada rango i). Puesto
que H N sirve para corregir el sesgo conservador de H cuando existen empates, si con H ya se rechaza H0 no ser necesario
calcular H. Si existen pocos empates, la diferencia entre H y H N es muy pequea.
140 Anlisis de datos (vol. II)
Muchos estudios coinciden en sealar que el comportamiento de los sujetos en las tareas de
rendimiento est estrechamente relacionado con su nivel de ansiedad o activacin. Al pare-
cer, el rendimiento tiende a mejorar conforme aumenta el nivel de activacin, pero solamen-
te hasta cierto umbral; a partir de ese punto, el aumento en el nivel de activacin comienza
a afectar de forma negativa al rendimiento (este efecto se conoce como ley Yerkes-Dodson).
En este contexto, se ha diseado un estudio con tres grupos, todos ellos formados por 10
sujetos aleatoriamente seleccionados. A cada grupo se le ha inducido un nivel de ansiedad
distinto (bajo, medio y alto) mientras realizaban una tarea de solucin de problemas con un
rompecabezas. Tras evaluar el rendimiento de cada sujeto en una escala de 0 a 20 puntos se
han obtenido los resultados que muestra la Tabla 4.6. Es posible afirmar que el rendimien-
to en la tarea no es el mismo bajo los tres estados de ansiedad inducidos? ( = 0,05).
Tenemos una variable categrica (nivel de activacin) que define tres grupos (bajo, medio y
alto) y una variable cuantitativa (rendimiento) cuyo nivel de medida es al menos ordinal y
en la cual deseamos comparar los grupos. La prueba de Kruskal-Wallis es apropiada para dar
respuesta a la pregunta planteada:
1. Hiptesis:
H0: las 3 distribuciones poblacionales son iguales.
H1: las 3 poblaciones no tienen la misma media.
2. Supuestos: tenemos una variable al menos ordinal medida en 3 muestras aleatoria e in-
dependientemente extradas de sus respectivas poblaciones, las cuales se asume que tie-
nen la misma forma.
3. Estadstico del contraste (ecuacin [4.10]). La Tabla 4.7 ofrece los rangos correspondien-
tes a las puntuaciones de la Tabla 4.6.
H = =
Captulo 4. Inferencia con una variable categrica y una cuantitativa 141
4. Zona crtica: puesto que la Tabla P del Apndice final no incluye puntos crticos para
tamaos muestrales mayores que 8, utilizamos la aproximacin basada en la distribucin
ji-cuadrado. El cuantil 95 de la distribucin ji-cuadrado con J ! 1 = 3 ! 1 = 2 grados de
libertad vale = 5,99.
5. Decisin: puesto que el valor del estadstico del contraste (H = 11,94) es mayor que el
punto crtico (5,99), lo razonable es rechazar H0 y concluir que el rendimiento medio de
las tres poblaciones comparadas no es el mismo9.
6. Nivel crtico: p = P(H > 11,94) < 0,005 (en la distribucin 2 con 2 grados de libertad).
Por primera vez en todo lo que llevamos estudiado hasta ahora, el rechazo de una hiptesis
nula nos deja con la incertidumbre de saber dnde estn las diferencias. Al comparar ms de
dos grupos, el rechazo de la hiptesis nula nos permite afirmar que los promedios compara-
dos no son iguales pero no nos permite precisar qu grupo difiere de qu otro. Para respon-
der a esta pregunta es necesario comparar los grupos por pares. Esto puede hacerse con la
prueba de Mann-Whitney estudiada en el apartado anterior. Ahora bien, puesto que se estn
llevando a cabo varias comparaciones con los mismos datos, es necesario modificar el nivel
de significacin (normalmente 0,05) para que no se incremente la probabilidad de tomar de-
cisiones incorrectas. Estudiaremos esto en el Captulo 6.
' Reproducir en el Editor de datos los datos de la Tabla 4.6 o abrir el archivo Tabla 4.6 an-
siedad rendimiento que se encuentra en la pgina web del manual.
' Seleccionar la opcin Pruebas no paramtricas > K muestras independientes del men Ana-
lizar para acceder al cuadro de dilogo Pruebas para varias muestras independientes y
trasladar la variable rendimiento (puntuaciones en rendimiento) a la lista Contrastar
variables y la variable ansiedad (nivel de activacin) al cuadro Variable de agrupacin.
' Pulsar el botn Definir grupos para acceder al subcuadro de dilogo Pruebas para varias
muestras independientes: Definir grupos e introducir los cdigos 1 y 3 (es decir, los c-
digos menor y mayor de la variable ansiedad). Pulsar el botn Continuar para volver al
cuadro de dilogo principal.
9
Aplicando la correccin por empates propuesta en [4.11] (ver nota a pie de pgina nmero 8) se obtiene un resultado no
muy distinto del obtenido con la ecuacin [4.10], a pesar de que existen muchos empates. Hay cuatro rangos (6,5, 12,5, 20,5
y 27,5) con dos empates (ti = 2) y cinco rangos (4, 9, 15, 18 y 24) con tres empates (ti = 3). Por tanto,
' (23 ! 2) + (23 ! 2) + (23 ! 2) + (23 ! 2) + (33 ! 3) + (33 ! 3) + (33 ! 3) + (33 ! 3) + (33 ! 3) ' 144
HN
142 Anlisis de datos (vol. II)
' Pulsar el botn Opciones para acceder al subcuadro de dilogo Pruebas para dos mues-
tras independientes: Opciones y marcar la opcin Descriptivos. Pulsar el botn Continuar
para volver al cuadro de dilogo principal.
Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 4.8 y 4.9.
La primera de ellas incluye varios estadsticos descriptivos: el tamao de cada grupo y de
toda la muestra, y la media de los rangos asignados a cada grupo (rango promedio).
Existen varios procedimientos para efectuar comparaciones entre pares de grupos tras obte-
ner un resultado significativo (ver, por ejemplo, Pardo y San Martn, 1998, pgs. 437-441),
pero el SPSS no los incluye. Para analizar con el SPSS qu grupos difieren de qu otros pue-
de utilizarse la prueba de Mann-Whitney acompaada de la correccin de Bonferroni. Esta
correccin impide que la tasa de error (probabilidad de cometer errores de tipo I) aumente
por el hecho de estar haciendo varias comparaciones. La correccin consiste en dividir el
nivel de significacin (generalmente 0,05) entre el nmero de comparaciones que se desea
realizar y en utilizar ese nuevo valor como referente con el que comparar el nivel crtico
(valor p) asociado a cada comparacin entre pares de grupos.
Por ejemplo, con tres grupos hay que hacer tres comparaciones por pares: 1-2, 1-3 y 2-3.
Por tanto, la aplicacin de la correccin de Bonferroni llevar a tomar decisiones con un nivel
de significacin de 0,05 / 3 = 0,017. Es decir, se considerar que dos grupos difieren signi-
ficativamente cuando el nivel crtico obtenido al compararlos (valor p) sea menor que 0,017.
Aplicando la prueba de Mann-Whitney a nuestro ejemplo, al comparar los niveles de ansiedad
bajo y medio se obtiene p = 0,008; al comparar los niveles bajo y alto se obtiene p = 0,224;
y al comparar los niveles medio y alto se obtiene p = 0,002. Por tanto, el grupo con nivel de
ansiedad medio difiere significativamente de los otros dos y no existe evidencia de que los
grupos con niveles de ansiedad bajo y alto difieran entre s. Lo cual parece confirmar que,
efectivamente, el rendimiento es ms alto cuando el nivel de ansiedad es intermedio.
Captulo 4. Inferencia con una variable categrica y una cuantitativa 143
En el contexto de los diseos de dos grupos aleatorios10, quiz la ms popular de estas medi-
das sea el ndice de Cohen (1988)11, tambin conocido como diferencia tipificada. Consis-
te en tipificar la distancia entre dos medias poblacionales dividindola entre la desviacin
tpica poblacional, la cual se asume que es la misma en ambas poblaciones12:
= [4.12]
Si se asume que las dos poblaciones comparadas son normales, la transformacin [4.12] es,
en realidad, una puntuacin tpica Z (ver Captulo 4 del primer volumen) que expresa la dis-
tancia entre las dos medias poblacionales en unidades de desviacin tpica en lugar de ha-
cerlo en la mtrica original de las variables.
Las curvas de la Figura 4.1 ilustran el significado del parmetro . Una diferencia de una
desviacin tpica, = 1 (grfico de la izquierda) es en realidad una puntuacin tpica Z = 1 en
una curva normal tipificada N (0, 1); por tanto, = 1 indica que el 84,1% de las puntuaciones
de la poblacin 1 se encuentran por debajo de la media de la poblacin 2, pues, en la curva
10
Diseos en los que interviene una variable dicotmica (que define dos poblaciones distintas de cada una de las cuales
se tiene una muestra aleatoria) y una variable cuantitativa en la cual se desea comparar las dos poblaciones. Es decir, el tipo
de diseos que hemos analizado con la prueba T para muestras independientes y con la prueba de Mann-Whitney.
11
Cohen llam d a su medida del tamao del efecto, pero nosotros seguiremos manteniendo la norma de representar los
parmetros con letras griegas y los estadsticos con letras latinas o con letras griegas con acento circunflejo.
12
Esta formulacin de est referida al caso de dos medias independientes; en el caso de una sola media (ver Captulo 9
del primer volumen): = | Y ! _0 | / Y, donde 0 se refiere al valor propuesto para en H0, Y se refiere a la media pobla-
cional (valor que se estima con Y ) y Y a la desviacin tpica poblacional (valor que, si no se conoce, se estima con SY).
144 Anlisis de datos (vol. II)
Figura 4.1. Tamao del efecto: diferencia entre dos medias en unidades de desviacin tpica
=1 =2
Y Y Y Y
1 2 1 2
= [4.13]
Si existe grupo control, Glass (1976) sugiere estimar la varianza poblacional con la varianza
del grupo control. Pero Hedges (1981; ver tambin Hunter y Schmidt, 2004) ha demostrado
que utilizar la varianza del grupo control conduce a un estimador sesgado y que ese sesgo
se reduce, tanto si hay grupo control como si no, utilizando como estimador de la varianza
poblacional el promedio ponderado de las dos varianzas muestrales13:
= [4.14]
Con esta estrategia se est asumiendo que las dos varianzas poblacionales son iguales; de ah
que se utilice el promedio ponderado de las dos varianzas muestrales para estimar la nica
varianza poblacional.
Existe una correspondencia directa entre y el estadstico T de Student cuando la va-
rianza poblacional se estima mediante [4.14]. Esta correspondencia puede utilizarse para
13
Al valor que se obtiene estimando la varianza poblacional con [4.14] se le suele llamar ndice o coeficiente g. Sigue
siendo un estimador sesgado del parmetro , pero el sesgo puede eliminarse casi por completo multiplicando (es decir,
g ) por el trmino corrector
c = (N ! 3) / ( N ! 2,25) [4.15]
donde N = n1 + n2 (ver Hedges, 1982; Hedges y Olkin, 1985; esta versin simplificada de c se debe a Hunter y Schmidt,
2004). A la versin corregida de g se le suele llamar g N (g N = c g). Por supuesto, con tamaos muestrales grandes, la diferen-
cia entre utilizar o no el trmino corrector c es insignificante (ver, por ejemplo, Bangert, Kulik y Kulik, 1983), de modo que,
con tamaos muestrales grandes, es irrelevante aplicar o no la correccin.
Captulo 4. Inferencia con una variable categrica y una cuantitativa 145
estimar cuando no se tiene otra informacin (por ejemplo, a partir de informes de inves-
tigacin en los que no se incluyen las varianzas):
= [4.16]
RXY = [4.18]
14
Tambin es posible obtener un intervalo de confianza para el parmetro . Cuando H0 es verdadera, el estadstico T se
aproxima a la distribucin t con gl = n1 + n2 ! 2 grados de libertad. Cuando H0 es falsa, el estadstico T se aproxima a una
distribucin asimtrica llamada t no centrada, con los mismos grados de libertad y con parmetro de no centralidad . Este
parmetro de no centralidad depende del tamao del efecto y del tamao de los grupos:
[4.17]
Steiger y Fouladi (1997; ver tambin Kelley, 2005) han demostrado que los lmites de confianza para conducen directa-
mente a los lmites de confianza para . El lmite inferior para es el parmetro de la distribucin t no centrada en la que
el cuantil 1! /2 coincide con el valor del estadstico T; el lmite superior para es el parmetro de la distribucin t no
centrada en la que el cuantil /2 coincide con el valor del estadstico T. Estos lmites pueden obtenerse fcilmente con un
programa informtico. Multiplicando ahora estos lmites por se obtienen los lmites de confianza para (ver
tambin Bird, 2002; Algina y Keselman, 2003). Algina, Keselman y Penfield (2005, 2006) han propuesto una solucin
basada en estimadores resistentes para cuando no puede asumirse que las varianzas poblacionales son iguales.
15
La correlacin se calcula entre las puntuaciones de la variable cuantitativa y las de la variable categrica. La variable
categrica es una variable dicotmica (pertenecer a un grupo o a otro), generalmente con cdigos 0 y 1, o 1 y 2.
16
Construir un intervalo de confianza para el parmetro XY requiere trabajar con la transformacin Z de Fisher (ver Apn-
dice 12 del primer volumen):
[4.19]
(la transformacin puede obtenerse de la Tabla I del Apndice final del primer volumen). Los lmites de confianza
obtenidos con [4.19] estn en unidades de ; para obtener los lmites de XY hay que devolverlos a unidades de RXY uti-
lizando la misma tabla.
146 Anlisis de datos (vol. II)
No obstante, Cohen (1992a) ha sugerido que valores en torno a 0,10, 0,30 y 0,50 se corres-
ponden, en muchos contextos aplicados, con efectos de tamaos pequeo, medio y grande
(estos valores se refieren a RXY, no a su cuadrado).
En el ejemplo utilizado en este mismo captulo a propsito de la prueba T de Student (ver
Tabla 4.1) con N = 20 nios con problemas perceptivos repartidos en dos grupos del mismo
tamao (n1 = n2 = 10) hemos obtenido un valor de 2,70 para el estadstico T. Aplicando aho-
ra [4.16] y [4.18] obtenemos
= = =
RXY = = =
El valor de RXY al cuadrado, 0,542 = 0,29, indica que las puntuaciones en el test Raven y el
hecho de pertenecer al grupo experimental o al control comparten un 29% de la varianza; por
tanto, saber que los sujetos pertenecen a uno u otro grupo permite mejorar nuestro conoci-
miento de las puntuaciones en el test Raven un 29 %. Por otro lado, el valor = 1,21 indica
que las medias de los grupos experimental y control estn separadas 1,21 desviaciones tpicas.
En la curva normal tipificada P (Z < 1,21) = 0,887; por tanto, el 88,7 % de las puntuaciones
del grupo control est por debajo de la puntuacin media del grupo experimental. Siguiendo
la regla propuesta por Cohen para interpretar estos valores, ambos coeficientes coinciden en
sealar que se trata de un efecto de tamao grande. En consecuencia, podra concluirse que,
al comparar las medias de los grupos experimental y control en las puntuaciones del test Ra-
ven, se ha encontrado una diferencia relevante.
Las dos medidas propuestas, y RXY , guardan una estrecha relacin entre s. Conociendo
una es posible conocer la otra mediante
= RXY = [4.20]
Aunque el estadstico RXY puede tomar valores negativos (recordemos que sus posibles valo-
res oscilan entre !1 y 1), stos no tienen sentido cuando RXY se utiliza como medida del ta-
mao del efecto. Por un lado, el tamao del efecto refleja a la intensidad de la relacin, no
si sta es positiva o negativa; por otro, el signo de RXY depende de cmo se codifique el he-
cho de pertenecer a uno u otro grupo (y esta codificacin es arbitraria).
Las preferencias por una u otra medida estn divididas. Quiz la utilizacin de est
ms extendida entre quienes trabajan con diseos experimentales; tiene la ventaja de ser ms
fcil de interpretar que RXY al tratarse de una distancia tipificada. La interpretacin de RXY es
menos intuitiva (proporcin de varianza comn), pero tiene una propiedad muy deseable en
un ndice estadstico: tiene un mnimo y un mximo. McGrath y Meyer (2006) han argu-
mentado que, cuando se trabaja con grupos de distinto tamao, el valor de RXY est artificial-
mente inflado. Pero Ruscio (2008) ha demostrado que esto tambin ocurre con cuando las
varianzas poblacionales no son iguales; y tambin ha destacado la conveniencia de utilizar
medidas del tamao del efecto que no se vean afectadas por el hecho de trabajar con tama-
os muestrales desiguales.
Una de estas medidas, adems de no estar afectada por el tamao de los grupos, es f-
cilmente interpretable y posee interesantes propiedades que no tienen ni ni RXY. Se trata de
Captulo 4. Inferencia con una variable categrica y una cuantitativa 147
la medida de lenguaje comn (McGraw y Wong, 1992), la cual se define como P (Y1 > Y2 ),
es decir, como la probabilidad de que una puntuacin (Y ) aleatoriamente seleccionada de la
poblacin 1 sea mayor que una puntuacin aleatoriamente seleccionada de la poblacin 2.
El nombre de esta medida obedece al hecho de que, segn sus promotores, ofrece informa-
cin sobre el tamao de un efecto en un lenguaje fcil de entender sin necesidad de ser un
experto en estos temas.
La estrategia propuesta por McGraw y Wong para estimar P (Y1 > Y2 ) requiere, al igual
que y RXY, que las poblaciones sean normales y sus varianzas iguales. Pero Delaney y
Vargha (2002) han definido un estadstico, A, que permite estimar esa probabilidad sin ne-
cesidad de establecer ningn supuesto sobre las poblaciones muestreadas:
A = [#(Y1 > Y2 ) + 0,5 #(Y1 = Y2 )] / (n1 n2) [4.21]
Es decir, P(Y1 > Y2) se estima contando el nmero de veces (#) que cada puntuacin Y1 es ma-
yor que cada puntuacin Y2 (ponderando los empates por la mitad) y dividiendo ese recuento
entre el nmero total de comparaciones.
Esta medida del tamao del efecto, adems de ser fcilmente interpretable, no requiere
que el nivel de medida de la variable cuantitativa sea de intervalo o razn; y puede utilizarse
con variables ordinales (de ah que no sea necesario asumir poblaciones normales y varian-
zas iguales).
El valor del estadstico A coincide con el rea bajo la curva COR (ver Apndice 1) cal-
culada con el mtodo de Hanley y McNeil (1982), que es justamente el que utiliza el SPSS.
Y puede obtenerse fcilmente a partir de las sumas de rangos que se obtienen a propsito de
la prueba de Mann-Whitney. En concreto:
A = [n1 n2 + nj (nj + 1) / 2 ! Sj ] / (n1 n2) [4.22]
donde Sj se refiere a la menor de las sumas S1 y S2 (ver ecuacin [4.6]) y j se refiere al gru-
po al que corresponde la suma menor. En el ejemplo utilizado al estudiar la prueba de Mann-
Whitney tenamos N = 20 nios con problemas perceptivos (n1 = 10 en el grupo experimen-
tal y n2 = 10 en el grupo control), S1 = 136 y S2 = 74 (ver Tabla 4.2). Aplicando la ecuacin
[4.22] se obtiene
A = [10 (10) + 10 (10 + 1) / 2 ! 74] / [(10 (10)] = 81 / 100 = 0,81
Este resultado indica que, de cada 10 pares de puntuaciones (una de cada poblacin) selec-
cionados, en 8 de ellos cabe esperar que la puntuacin de la poblacin 1 (grupo experimen-
tal) sea mayor que la de la poblacin 2 (grupo control). Esta conclusin no es muy diferente
de la que hemos formulado unos prrafos atrs al calcular , pero ahora no ha sido necesa-
rio asumir normalidad ni igualdad de varianzas, y nos hemos despreocupado del nivel de
medida de la variable cuantitativa (ver Hsu, 2004, para una discusin sobre las ventajas de
una medida de este tipo).
Por supuesto, , RXY y A no son los nicos estadsticos disponibles para obtener una
cuantificacin del tamao del efecto (aunque s, probablemente, los ms utilizados). Existen
otros muchos estadsticos como la proporcin de casos incorrectamente clasificados (Levy,
1967), el binomial effect size display (Rosenthal y Rubin, 1982), la r-equivalente (Rosenthal
y Rubin, 2003), etc.
Tambin pueden encontrarse estadsticos no parmetricos del tamao del efecto (ver, por
ejemplo, Kraemer y Andrews, 1982; o Hedges y Olkin, 1984).
148 Anlisis de datos (vol. II)
En el caso de que la variable categrica tenga ms de dos niveles, el tamao del efecto puede
cuantificarse mediante un estadstico llamado eta-cuadrado ( ). Aunque este estadstico
es uno de los ms utilizados en el contexto del anlisis de varianza (ver Captulos 6 al 9),
tambin es posible obtenerlo a partir del estadstico H de Kruskal-Wallis (ver Serlin, Carr y
Marascuilo, 1982):
= [4.23]
El valor de expresa el grado de asociacin (no solamente lineal, como R XY, sino de cual-
quier tipo) entre la variable categrica y la variable cuantitativa. Cuando la variable categri-
ca tiene dos categoras, = . El valor de puede interpretarse, al igual que el de ,
como proporcin de varianza comn o compartida, es decir, como el grado en que aumenta
nuestro conocimiento de las puntuaciones de la variable cuantitativa por el hecho de saber
de qu grupo provienen.
Para interpretar el tamao de , Cohen (1988) ha propuesto una especie de regla gene-
ral que puede resultar til en muchos contextos aplicados: valores en torno a 0,01, 0,06 y
0,14 indican, por lo general, asociaciones de intensidad baja, media y alta, respectivamente.
En el ejemplo utilizado al estudiar la prueba de Kruskal-Wallis tenemos N = 30 sujetos
repartidos en tres grupos con diferente nivel de ansiedad o activacin (bajo, medio, alto). Al
comparar los grupos hemos obtenido para el estadstico H un valor de 11,94. Por tanto:
= 11,94 / (30 ! 1) = 0,41
Este resultado (que revela un efecto de tamao grande) indica que el nivel de ansiedad y el
rendimiento comparten el 41 % de su varianza: saber a qu grupo de ansiedad pertenecen los
sujetos permite mejorar nuestro conocimiento del rendimiento en un 41 %.
coincide con el valor del rea bajo la curva (el cual se ofrece en una tabla con ese mismo
encabezamiento).
El valor de tambin puede obtenerse de varias maneras. Por ejemplo, con el procedi-
miento Comparar medias > Medias del men Analizar. A la lista Dependientes hay que trasladar
la variable cuantitativa; a la lista Independientes, la categrica; y en el subcuadro de dilogo
Opciones (se accede a l pulsando el botn Opciones del cuadro de dilogo principal), hay
que marcar la opcin Tabla de ANOVA y eta. El procedimiento ofrece el valor de en una tabla
con el encabezamiento medidas de asociacin (el valor que ofrece este procedimiento para
no se obtiene como se indica en [4.23], sino como se explica en el Captulo 6).
= [4.24]
(recordemos que, al estimar mediante [4.13], se est asumiendo que las poblaciones son
normales y que tienen la misma varianza). Si los tamaos muestrales no son iguales, el valor
de n en [4.24] puede sustituirse por la media armnica de n1 y n2:
= = [4.25]
= = 2,71
Con = 2,71 y = 0,05, la Tabla E del Apndice final indica que la potencia del contras-
te vale 0,85.
Lo que acabamos de hacer (calcular la potencia del contraste despus de llevarlo a cabo)
tiene el inters de saber con qu potencia se ha trabajado asumiendo que el efecto en la po-
blacin es el efecto observado en la muestra (potencia observada o a posteriori). Pero lo
realmente interesante es poder disear un estudio conociendo de antemano la potencia con
la que se va a trabajar (potencia a priori). Y esto pasa por calcular el tamao muestral nece-
sario para alcanzar una determinada potencia. Despejando n en [4.24] se obtiene
n = [4.26]
Supongamos que estamos interesados en realizar un contraste unilateral con dos grupos; y
supongamos que queremos que la potencia del contraste para detectar un efecto de tamao
150 Anlisis de datos (vol. II)
medio ( = 0,50 segn el criterio de Cohen) valga 0,80 (esta es la potencia convencional-
mente aceptada como razonable). Con = 0,05 y 1 ! = 0,80, la Tabla E del Apndice final
ofrece para un valor de 2,50. Y aplicando [4.26] obtenemos
n = 2 (2,50)2 / 0,502 = 50
Lo cual significa que, para detectar un efecto de tamao medio con una potencia de 0,80 en
un contraste unilateral con dos grupos, necesitaramos 100 sujetos (50 por grupo).
Puede ocurrir que un investigador no sepa con exactitud si el tamao del efecto que le
interesa analizar es, en trminos de , pequeo, medio o grande, pero que s sepa cul es el
valor de la diferencia que considera mnimamente relevante (por ejemplo, la diferencia que
se considera, con argumentos tericos o prcticos, que representa un cambio en la respues-
ta de los sujetos). En estos casos, en lugar de fijar el tamao de para calcular el tamao
muestral necesario para alcanzar una determinada potencia, puede fijarse el valor de esa di-
ferencia (el numerador de [4.12]) y obtener estimando el denominador (desviacin tpica
poblacional) a partir de estudios previos o mediante un estudio piloto con unos pocos datos.
yo objetivo es demostrar superioridad. Pero, dado que el punto de partida de todo contras-
te es una hiptesis de no diferencias y que el no rechazo de esa hiptesis no es concluyen-
te17, los contrastes de hiptesis tal como los hemos estudiado hasta ahora no permiten dar
respuesta a las cuestiones que interesa resolver en los estudios cuyo objetivo es demostrar
equivalencia o no-inferioridad. Para esto es necesario utilizar una estrategia distinta.
17
Recordemos que el nivel crtico (valor p) es un indicador del grado de evidencia existente en contra de la hiptesis nula,
no a favor de ella. Si la evidencia en contra de la hiptesis nula es insuficiente para rechazarla ( p > 0,05), eso no significa
que haya suficiente evidencia para aceptarla.
18
No es necesario utilizar un nivel de significacin /2 en cada contraste para que la tasa de error total (la probabilidad de
cometer un error Tipo I) no sea mayor que . Al ser ambas hiptesis nulas mutuamente exclusivas, solamente una de ellas
puede ser verdadera. Por tanto, nicamente cabe la posibilidad de cometer un error Tipo I.
152 Anlisis de datos (vol. II)
afirmar que la diferencia entre las dos medias poblacionales se encuentra dentro de los lmi-
tes de equivalencia y , es decir,
< ( ! ) < [4.28]
Las hiptesis formuladas en [4.27] se contrastan con la prueba T de Student para muestras
independientes ya estudiada en el Captulo 11 del primer volumen y resumida al comienzo
de este mismo captulo:
T1 = , T2 = [4.29]
Si las poblaciones muestreadas son normales (o los tamaos muestrales lo bastante grandes),
la distribucin muestral de los estadsticos T1 y T2 se aproxima al modelo de probabilidad t
$ tgl; ; se
de Student con gl = n1 + n2 ! 2 grados de libertad19. Se rechaza H0 (1) cuando T1 <
$ tgl; 1 ! .
rechaza H0 (2) cuando T2 >
Ls =
= [4.32]
Li =
Se considera que dos grupos son equivalentes cuando los lmites de este intervalo de con-
fianza quedan incluidos dentro de los lmites de equivalencia, es decir, cuando
< < [4.33]
O, lo
_ que _ es lo mismo, cuando se verifica simultneamente Li > y Ls < . Lgicamente,
si |Y 1 ! Y 2 | > sabremos que los grupos no son equivalentes sin necesidad de hacer ningn
19
Si puede asumirse que las varianzas poblacionales son iguales, el error tpico de la diferencia entre las medias mues-
trales se estima (ver Captulo 11 del primer volumen, ecuacin [11.4]) mediante
[4.30]
y los grados de libertad de la distribucin t son, efectivamente, n1 + n2 ! 2. Si no puede asumirse que las varianzas pobla-
cionales son iguales, el error tpico de la diferencia entre las medias muestrales debe estimarse (ver Captulo 11 del primer
volumen, ecuacin [11.9]) mediante
[4.31]
y los grados de libertad de la distribucin t cambian (ver Captulo 11 del primer volumen, ecuacin [11.11]).
Captulo 4. Inferencia con una variable categrica y una cuantitativa 153
clculo. La ecuacin [4.33], que requiere que todo el intervalo de confianza est incluido
dentro de los lmites de equivalencia, puede reducirse a esta otra:
< [4.34]
La Figura 4.2 recoge las tres posibilidades que pueden darse al construir un intervalo de con-
fianza de estas caractersticas. La situacin representada en a es la nica que permite concluir
que las medias son equivalentes; el hecho de que todo el intervalo de confianza est incluido
entre los lmites de equivalencia est indicando que la diferencia estimada entre y
es trivial (es decir, menor que el margen de equivalencia ). En la situacin representada en
b todo el intervalo de confianza est fuera de los lmites de equivalencia; por tanto, no es
posible concluir que la diferencia entre las medias sea trivial; ms bien parece que la dife-
rencia es no trivial (aunque esta conclusin debe evitarse porque, dado que el intervalo se ha
construido con un nivel de confianza de 1 ! 2 , la probabilidad de cometer un error Ti po I
no es , sino 2 ). En la situacin representada en c no es posible llegar a ninguna conclu-
sin; el intervalo de confianza incluye tanto diferencias triviales como no triviales.
Figura 4.2. Intervalo de confianza de Westlake (figura adaptada de Seaman y Serlin, 1998)
Interv. confianza
a
0
Lmites de equivalencia
Interv. confianza
b
0
Lmites de equivalencia
Interv. confianza
c
0
Lmites de equivalencia
pues no incluyen el valor cero. El intervalo de confianza de Westlake no permite hacer esto:
el representado en a llevara a no rechazar la hiptesis de igualdad de medias, pero los repre-
sentados en b y en c no seran concluyentes (al estar calculados con un nivel de confianza
menor que el convencional, podran no incluir el valor cero solo porque son ms estrechos).
Un psiclogo considera que los hombres y las mujeres rinden en matemticas de forma dis-
tinta por razones que no tienen que ver con la capacidad de razonamiento abstracto. Para va-
lidar su sospecha, antes de buscar las razones por las que el rendimiento en matemticas es
distinto, decide buscar algn tipo de evidencia emprica que le permita asumir que, efecti-
vamente, los hombres y las mujeres no difieren en razonamiento abstracto. Su idea es que si
los hombres difieren de las mujeres en matemticas pero no en razonamiento abstracto, ste
no puede ser el responsable de las diferencias en matemticas. Selecciona aleatoria e inde-
pendientemente una muestra de 50 hombres y otra de 50 mujeres, y les pasa una prueba de
razonamiento abstracto, Y, en la que obtiene los siguientes resultados:
Las puntuaciones de la escala de razonamiento abstracto oscilan entre 0 y 40. Nuestro inves-
tigador considera que una diferencia menor de 4 puntos es lo bastante pequea como para
decidir que los grupos son equivalentes (es decir, = 4).
Obviamente, no se trata de valorar si la diferencia observada entre las medias muestra-
les (27 ! 25 = 2) se encuentra entre los lmites de equivalencia = 4 y = 4 (para esto no
es necesario hacer ningn contraste). Se trata de valorar si, a partir de esa diferencia mues-
tral, se puede afirmar, con un nivel de confianza 1 ! , que la diferencia entre las medias
poblacionales se encuentra dentro de los lmites de equivalencia = 4 y = 4. Para ello,
vamos a calcular el intervalo de confianza de Westlake con = 0,05, es decir, con un nivel
de confianza de 1 ! 2 = 0,90 (asumimos que las varianzas poblacionales son iguales):
Captulo 4. Inferencia con una variable categrica y una cuantitativa 155
Puesto que 3,71 es menor que = 4, podemos asumir que los promedios comparados difie-
ren en no ms de una cantidad trivial, es decir, en no ms de la cantidad definida como mar-
gen de equivalencia. Por tanto, podemos concluir que los hombres y las mujeres son grupos
equivalentes en lo referente a su capacidad de razonamiento abstracto.
Con SPSS, al solicitar la prueba T de Student para muestras independientes con las es-
pecificaciones que el procedimiento tiene establecidas por defecto, el intervalo de confianza
que se obtiene para la diferencia entre las medias poblacionales est calculado con un nivel
de confianza de 0,95. Pero el botn Opciones del cuadro de dilogo principal permite acceder
a un subcuadro de dilogo que ofrece la posibilidad de elegir el nivel de confianza con el que
se desea trabajar.
Apndice 4
En este apndice se describen varios procedimientos de los denominados no paramtricos. Todos ellos
han sido diseados, al igual que la prueba T de Student para muestras independientes, para analizar una
variable dicotmica y una cuantitativa. Y representan una alternativa de anlisis a la prueba T cuando
las caractersticas de los datos no se ajustan a las exigencias de la prueba T. En el SPSS, estn dispo-
nibles en la opcin Pruebas no paramtricas > Dos muestras independientes del men Analizar.
promedios), la prueba de Kolmogorov-Smirnov es sensible a cualquier tipo de diferencia entre las dos
distribuciones: tendencia central, variabilidad y forma de la distribucin.
Para obtener las funciones de distribucin de las dos muestras se comienza asignando rangos de
1 a n1 a los valores de Y1 y de 1 a n2 a los valores de Y2. Los eventuales empates se resuelven asignan-
do el rango promedio a las puntuaciones empatadas.
Tras asignar rangos a los valores de ambas muestras, la funcin de distribucin emprica para ca-
da valor de Yi se obtiene mediante F1 (Yi1) = i / n1 para la muestra Y1 y F2 (Yi2) = i / n2 para la muestra Y2
(donde i se refiere al rango correspondiente a cada observacin). A continuacin se obtienen las dife-
rencias Di = F1(Yi1) ! F1(Yi1), donde F1(Yi1) se refiere a la funcin de distribucin de la muestra de ma-
yor tamao. Una vez obtenidas las diferencias Di, la hiptesis de que las dos muestras proceden de la
misma poblacin se pone a prueba utilizando una tipificacin de la diferencia Di ms grande en valor
absoluto (Smirnov, 1939, 1948):
ZKS = [4.35]
Este estadstico ZKS se distribuye segn el modelo de probabilidad normal N (0, 1). El SPSS utiliza el
mtodo de Smirnov (1948) para obtener las probabilidades concretas asociadas a los valores del esta-
dstico ZKS. Este mtodo difiere del estndar (basado en las probabilidades de la curva normal tipi-
ficada), pero es equivalente.
P (R $
< r) =
[4.36]
P (R $
< r) = [4.37]
= [4.38]
Captulo 4. Inferencia con una variable categrica y una cuantitativa 159
El SPSS calcula esta probabilidad tanto para r = 0 como para r = 0,05 nc (en este ltimo caso, si r < 1,
se toma 1; si r > 1, se toma la parte entera de r). Si esta probabilidad es pequea (menor que 0,05), se
podr rechazar la hiptesis de que ambas muestras proceden de poblaciones con la misma amplitud
(dispersin).
4.1. Para estudiar la posible influencia del tipo de instrucciones sobre la ejecucin de una tarea se ha selec-
cionado aleatoriamente una muestra de 12 sujetos. La mitad de ellos ha realizado la tarea tras recibir
instrucciones breves y sencillas (grupo 1); la otra mitad tras recibir instrucciones largas y explcitas
(grupo 2). La siguiente tabla muestra las puntuaciones en rendimiento que han obtenido los 12 sujetos:
Grupo 1 2 3 6 7 8 4
Grupo 2 3 5 8 6 8 9
4.2. Se ha realizado un estudio para comprobar si una sustancia utilizada por la medicina hind para desin-
toxicar opimanos podra ser empleada tambin para deshabituar a los fumadores. La experiencia se
ha realizado con 26 fumadores distribuidos al azar en dos grupos. Al grupo A se le ha administrado
la mencionada sustancia; al grupo B, un placebo. Tras el tratamiento se ha registrado el nmero medio
de cigarrillos/da que ha fumado cada sujeto durante un mes. La siguiente tabla recoge los resultados
obtenidos:
Grupo A 20 10 0 0 0 0 3 7 0 8 7 10 11
Grupo B 19 28 18 14 17 16 13 12 14 11 10 20 8
a. Comprobar si el promedio de cigarrillos consumidos por el grupo tratado es menor que el prome-
dio de cigarrillos del grupo no tratado ( = 0,05).
b. Estimar el tamao del efecto con y con RXY. Interpretar el resultado.
c. Calcular la potencia del contraste.
4.3. Utilizar el procedimiento curva COR del SPSS para obtener el valor del estadstico A (tamao del
efecto) con los datos de los ejercicios 4.1 y 4.2. Comparar los valores de este estadstico con los valo-
res de ya calculados.
4.4. En un experimento diseado para estudiar si el efecto de indefensin aprendida se generaliza de si-
tuaciones de evitacin a situaciones apetitivas, se han utilizado 21 ratas distribuidas aleatoriamente
en tres grupos. Al primer grupo se le ha aplicado un estmulo aversivo del que se poda escapar saltan-
do a un compartimento contiguo. Al segundo grupo se le ha aplicado el mismo estmulo aversivo con
la diferencia de que no se poda escapar de l. El tercer grupo no recibi estimulacin aversiva. En la
160 Anlisis de datos (vol. II)
segunda fase del experimento, las ratas tenan que apretar una palanca para conseguir una bola de ali-
mento. La siguiente tabla muestra el nmero de respuestas (apretar la palanca) dadas por cada animal
en un intervalo de tiempo idntico para todos. La expectativa de los investigadores era que las ratas
a las que se haba inducido indefensin (grupo 2) daran menos respuestas en la segunda fase.
Grupo 1 3 7 6 1 5 4 6
Grupo 2 0 2 1 0 0 1 0
Grupo 3 2 6 4 0 3 9 3
a. Puede afirmarse que los grupos difieren en el nmero medio de respuestas dadas? ( = 0,05).
b. Confirman los datos la expectativa de los investigadores?
c. Estimar el tamao del efecto.
4.5. Con el fin de estudiar el efecto de un determinado frmaco en pacientes aquejados de insomnio, un in-
vestigador ha seleccionado 3 niveles de frmaco (100, 250 y 500 mg) y los ha administrado a 3 grupos
de pacientes aleatoriamente seleccionados. Las dosis fueron administradas una vez al da durante una
semana. La siguiente tabla recoge el nmero medio de minutos/da que ha dormido cada paciente du-
rante la semana de tratamiento. La tabla tambin recoge los datos relativos a un grupo de pacientes que
no recibi el tratamiento sino un placebo (0 mg):
Comparar el nmero medio de horas dormidas de los cuatro grupos y decidir si existen diferencias
significativas ( = 0,01).
4.6. En un determinado estudio se ha obtenido T = 7,3. Sabemos que P (T < 7,3) = 0,025. Si el contraste es
unilateral derecho, esto significa que (sealar la/s alternativa/s correcta/s):
a. Hay que rechazar H0.
b. La probabilidad de que H0 sea verdadera vale 0,025.
c. Lo razonable es mantener H0.
d. Podemos rechazar H0 con una probabilidad de equivocarnos de 0,025.
e. Al mantener H0 siendo verdadera, la probabilidad de equivocarnos vale 0,025 como mnimo.
5
Inferencia con
dos variables cuantitativas
obtenemos una variable aleatoria cuyos valor esperado y varianza (ver Apndice 6 del pri-
mer volumen) son los siguientes:
=
[5.3]
= = =
= = [5.4]
T = [5.5]
Sujetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Y1 = Pre-test 24 38 21 14 19 31 34 33 22 16 17 20 18 23 23,57
Y2 = Post-test 15 22 21 17 11 6 15 20 8 9 5 19 7 8 13,07
Tenemos dos conjuntos de puntuaciones que se han obtenido al medir dos veces en los mis-
mos sujetos (muestras relacionadas) una variable cuantitativa (Y = puntuaciones en la esca-
la Hamilton). Vamos a comparar sus medias con la prueba T para muestras relacionadas:
$ despus; H1: antes > despus (contraste unilateral derecho).
1. Hiptesis: H0: antes <
2. Supuestos: asumimos que la muestra de 14 diferencias se ha seleccionado aleatoriamen-
te de una poblacin normal.
3. Estadstico del contraste:
Sujetos 1 2 3 4 5 13 14
Y1 = Pre-test 24 38 21 14 19 18 23
Y2 = Post-test 15 22 21 17 11 7 8 Total
D _ 9 16 0 !3 8 11 15 147
(D ! D )2 2,25 30,25 110,25 182,25 6,25 0,25 20,25 757,5
T = = = = 5,15
4. Distribucin muestral: T se distribuye segn t con n ! 1 = 14 ! 1 = 13 grados de libertad.
$ t13; 0,95 = 1,771.
5. Zona crtica: T >
6. Decisin: como 5,15 > 1,771, se rechaza H0. Por tanto, puede concluirse que la media del
post-test es menor que la del pre-test.
$ 5,15) < 0,001.
7. Nivel crtico: p = P (T >
164 Anlisis de datos (vol. II)
1. Hiptesis:
a. Contraste bilateral: H0: = (o bien, = 0).
H 1: =/ (o bien, =/ 0).
b. Contraste unilateral derecho: H0: $
< (o bien, $
< 0).
H 1: > (o bien, > 0).
c. Contraste unilateral izquierdo: H0: $
> (o bien, $ 0).
>
H 1: < (o bien, < 0).
2. Supuestos: muestra aleatoria de m pares de puntuaciones cuantitativas de las que se
obtienen las n diferencias no nulas. Se asume que la distribucin de las diferencias es
simtrica (el supuesto de simetra implica que las inferencias efectuadas sobre la me-
diana son trasladables a la media).
3. Estadstico del contraste1: S+ = .
4. Distribucin muestral: los puntos crticos de la distribucin muestral de S+ se encuen-
tran tabulados en la Tabla M del Apndice final.
5. Zonas crticas:
a. Contraste bilateral: S+ < s / 2 y S+ > s 1! / 2 .
b. Contraste unilateral derecho: S+ < s .
c. Contraste unilateral izquierdo: S+ > s1! .
6. Decisin: se rechaza H0 si S+ cae en la zona crtica; en caso contrario, se mantiene.
7. Nivel crtico (valor p):
a. Contraste bilateral: p = 2 [P (S+ < S )], donde S se refiere al menor de S+ y S!.
b. Contraste unilateral derecho: p = P (S+ > Sh), donde Sh se refiere al valor concre-
to que toma S+.
c. Contraste unilateral izquierdo: p = P (S+ > Sh).
Tenemos dos conjuntos de puntuaciones que se han obtenido al medir dos veces a los mis-
mos sujetos (muestras relacionadas) en una variable cuantitativa (Y = puntuaciones en la
escala Hamilton). Tenemos, por tanto, dos variables cuantitativas (no olvidar que se tienen
dos variables cuantitativas tanto si se miden dos variables distintas como si se mide la mis-
ma variable dos veces). Y queremos averiguar si las puntuaciones del post-test, en promedio,
son ms bajas que las del pre-test.
Estos datos ya los hemos analizado con la prueba T para muestras relacionadas (ver Ca-
ptulo 12 del primer volumen) y hemos rechazado la hiptesis de igualdad de medias. Vea-
mos si la prueba de Wilcoxon permite llegar a la misma conclusin:
1. Hiptesis: H0: Mdnantes <$ Mdndespus.
H1: Mdnantes > Mdndespus (contraste unilateral derecho).
2. Supuestos: muestra de 14 diferencias aleatoriamente seleccionadas de una poblacin si-
mtrica.
3. Estadstico del contraste: S+ = = 5 +11+ 4 +13 + + 7 + 1 + 6 +10 = 89.
Para obtener el estadstico S+, hemos comenzado calculando las diferencias D = Y1 ! Y2
y asignando rangos, R i, a sus valores absolutos (ver Tabla 5.3). Tras esto, hemos suma-
do los rangos correspondientes a las diferencias positivas2.
Sujetos 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Y1 = Pre-test 24 38 21 14 19 31 34 33 22 16 17 20 18 23
Y2 = Post-test 15 22 21 17 11 6 15 20 8 9 5 19 7 8
Di 9 16 0 !3 8 25 19 13 14 7 12 1 11 15
Ri 5 11 ! 2 4 13 12 8 9 3 7 1 6 10
2
Puesto que la suma de n rangos vale n (n + 1) / 2, la suma de los 13 rangos de la Tabla 5.2 vale 13 (14) / 2 = 91. Y dado que
nicamente uno de los 13 rangos es negativo (el del cuarto sujeto), la suma de los rangos positivos vale 91 ! 2 = 89.
Captulo 5. Inferencia con dos variables cuantitativas 167
Z = [5.10]
donde S se refiere al menor de S+ y S!, k al nmero rangos distintos en los que existen empa-
tes y ti al nmero de puntuaciones empatadas en el rango i (si al asignar rangos no existen
empates, el sumatorio de denominador vale cero). Como S es el menor de S+ y S!, el resulta-
do de la ecuacin [5.10] siempre es negativo. El SPSS calcula el nivel crtico bilateral mul-
tiplicando por 2 la probabilidad de obtener valores menores o iguales que Z. Para aplicar el
estadstico definido en [5.10] a los datos de la Tabla 5.1:
' Reproducir en el Editor de datos los datos de la Tabla 5.1 asignando a las variables los
nombres pre_test y post_test (o abrir el archivo Tabla 5.1 hamilton que se encuentra en
la pgina web del manual).
' Seleccionar la opcin Pruebas no paramtricas > Dos muestras relacionadas del men Anali-
zar para acceder al cuadro de dilogo Pruebas para dos muestras relacionadas (la prueba
de Wilcoxon est seleccionada por defecto).
' Trasladar las variables pre_test y post_test a la lista Contrastar pares (en caso necesario,
reordenar las variables colocando la variable post_test antes que la variable pre_test).
' Pulsar el botn Opciones para acceder al subcuadro de dilogo Pruebas para dos mues-
tras relacionadas: Estadsticos y marcar las opciones Descriptivos y Cuartiles. Pulsar el
botn Continuar para volver al cuadro de dilogo principal.
Aceptando estas selecciones se obtienen los resultados que muestran las Tablas 5.4 a 5.6. La
Tabla 5.4 ofrece, para cada variable, algunos estadsticos descriptivos: el nmero de casos v-
lidos (N ), la media, la desviacin tpica, los valores mnimo y mximo, y los tres cuartiles
(percentiles 25, 50 y 75). La diferencia entre las medianas vale 21,5 ! 13 = 8,5. La prueba de
Wilcoxon permite contrastar la hiptesis nula de que las medianas poblacionales del pre-test
y del post-test son iguales y, por tanto, permite averiguar si esa diferencia muestral de 8,5
puntos es lo bastante grande como para poder afirmar que las puntaciones del post-test han
disminuido (el supuesto de simetra permite convertir las conclusiones sobre las medianas
en conclusiones sobre las medias).
Las dos tablas siguientes contienen informacin relacionada con la prueba de Wilcoxon. La
Tabla 5.5 ofrece el nmero, media y suma de los rangos negativos y positivos. Las notas a pie
de tabla aclaran qu rangos se estn considerando positivos y negativos (debe tenerse en cuen-
ta que el SPSS calcula las diferencias entre la segunda variable y la primera del par selec-
cionado en el cuadro de dilogo; por eso hemos colocado la variable post_test delante de la
168 Anlisis de datos (vol. II)
variable pre-test). La tabla tambin ofrece el nmero de empates (casos excluidos del anli-
sis) y el nmero total de rangos asignados (incluidos los empates).
Por ltimo, la Tabla 5.6 muestra el estadstico de Wilcoxon (Z ) y su nivel crtico bilateral
(sig. asinttica bilateral). Puesto que estamos planteando un contraste unilateral derecho, el
nivel crtico bilateral hay que dividirlo entre 2. Por tanto: p = 0,002 / 2 = 0,001. Y como el
valor p obtenido es menor que = 0,05, lo razonable es rechazar la hiptesis de igualdad
entre las medianas del pre-test y del post-test, y concluir que las puntuaciones en la escala
Hamilton han disminuido tras el tratamiento (puesto que se est asumiendo que la poblacin
de las diferencias pre-post es simtrica, la conclusin vale igualmente para las medias).
La Figura 5.1 muestra el histograma y el diagrama de caja de las diferencias entre las puntua-
ciones del pre-test y las del post-test3. No existen indicios de asimetra ni se observan casos
atpicos o extremos.
Figura 5.1. Histograma y diagrama de caja de las diferencias entre el pre-test y el post-test
3
Estos diagramas se han obtenido mediante la opcin Diagramas de caja > Simple (Resmenes para distintas variables)
del men Grficos.
Captulo 5. Inferencia con dos variables cuantitativas 169
Z = [5.12]
Para aplicar la prueba de los signos para dos muestras a los datos de la Tabla 5.1 (recorde-
mos que la tabla recoge las puntuaciones de 14 pacientes depresivos antes y despus de apli-
carles un tratamiento):
' Reproducir en el Editor de datos los datos de la Tabla 5.1 asignando a las variables los
nombres pre_test y post_test (o abrir el archivo Tabla 5.1 hamilton que se encuentra en
la pgina web del manual).
Captulo 5. Inferencia con dos variables cuantitativas 171
' Seleccionar la opcin Pruebas no paramtricas > Dos muestras relacionadas del men Anali-
zar para acceder al cuadro de dilogo Pruebas para dos muestras relacionadas y, en el
recuadro Tipo de prueba, marcar la opcin Signos.
' Trasladar las variables pre_test y post_test a la lista Contrastar pares (en caso necesario,
reordenar las variables colocando la variable post_test antes que la variable pre_test).
Aceptando estas elecciones, el Visor ofrece los resultados que muestran las Tablas 5.6 y 5.7.
La Tabla 5.6 muestra las diferencias negativas, las positivas y los empates entre cada par de
puntuaciones; las notas a pie de tabla permiten saber qu diferencias se estn considerando
negativas y cules positivas.
Puesto que el nmero de diferencias en menor que 25, la Tabla 5.7 ofrece la probabili-
dad bilateral exacta de obtener 12 diferencias positivas o ms (de las 13 posibles). Esta pro-
babilidad est multiplicada por 2 (el SPSS siempre asume contraste bilateral). Por tanto, el
nivel crtico de nuestro contraste unilateral vale p = 0,0034 / 2 = 0,0017. Y como este nivel
crtico es menor que 0,05, lo razonable es rechazar la hiptesis nula y concluir que la media-
na poblacional del post-test es menor que la del pre-test.
= [5.13]
Esta ecuacin permite interpretar RXY, antes que nada, como el grado en que la covarianza
alcanza su mximo. Y es equivalente a calcular la covarianza a partir de las puntuaciones
tpicas (puntuaciones Z ). El coeficiente definido en [5.13] mide el grado de relacin lineal
(no de otro tipo); su valor oscila entre !1 y 1 (el signo indica si la relacin es positiva o
negativa) y no se altera si los datos se transforman linealmente (por ejemplo, sumando y/o
multiplicando una constante).
refleja o no un grado de relacin lineal mayor del que cabra esperar por puro azar entre dos
variables realmente independientes en la poblacin.
Para responder a esta pregunta lo que hacemos es contrastar la hiptesis nula de ausencia de
relacin lineal (H0: XY = 0) (ver Captulo 12 del primer volumen) mediante el estadstico
T = [5.14]
T = = 1,42
En la distribucin t de Student con 14 ! 2 = 12 grados de libertad (Tabla D del Apndice final)
obtenemos t12; 0,95 = 1,81 y t12; 0,975 = 2,179. En consecuencia, tanto si decidimos plantear el
contraste unilateral (punto crtico 1,81) como si decidimos plantearlo bilateral (punto crtico
2,179), el valor del estadstico T = 1,42 cae dentro de la zona de aceptacin. No es razonable,
por tanto, rechazar la hiptesis de relacin lineal nula, es decir, no es posible afirmar que las
puntuaciones del pre-test y las del post-test estn linealmente relacionadas en la poblacin.
Debe repararse en el hecho de que, aunque hemos rechazado la hiptesis de igualdad de
medias (ver apartados anteriores), no hemos podido rechazar la de ausencia de relacin lineal.
Esto significa que, aunque las puntuaciones cambian (las del post-test son menores que las
del pre-test), lo hacen independientemente del nivel o gravedad inicial.
174 Anlisis de datos (vol. II)
RS = 1 ! [5.15]
donde D i = R i (X ) ! R i (Y ) se refiere a las diferencias entre los rangos de cada par de pun-
tuaciones (i = 1, 2, ...n). El coeficiente de correlacin de Spearman toma valores entre !1 y
+1; los valores mayores que cero indican relacin positiva o montona creciente; los valores
menores que cero indican relacin negativa o montona decreciente; el valor cero indica
ausencia de relacin montona.
4
A este coeficiente se le suele llamar rho () de Spearman. Nosotros lo llamaremos RS para distinguirlo del parmetro XY
(valor poblacional del coeficiente de correlacin de Pearson).
5
La equivalencia entre [5.13] y [5.15] nicamente se da si no se producen empates al asignar rangos a las puntuaciones ori-
ginales. Cuando existen empates puede utilizarse una correccin para ajustar el valor de RS (ver, por ejemplo, San Martn
y Pardo, 1989, pgs. 401-402), pero quiz resulte ms sencillo aplicar directamente la ecuacin [5.13] a las puntuaciones
transformadas en rangos. Por otro lado, esta correccin solo altera ligeramente a la baja el valor absoluto de RS.
Captulo 5. Inferencia con dos variables cuantitativas 175
Para determinar si el tamao de RS est indicando verdadera relacin entre las variables
estudiadas se puede contrastar la hiptesis nula de que su valor vale cero en la poblacin. No
existe un acuerdo generalizado sobre la forma correcta de realizar este contraste; no obstan-
te, en el Cuadro 5.2 ofrecemos un resumen del procedimiento que, segn los resultados ob-
tenidos por Nijsse (1988), parece el ms recomendable.
1. Hiptesis:
a. Contraste bilateral: H0: X e Y no estn relacionadas.
H1: la relacin entre X e Y es montona.
b. Contraste unilat. derecho: H0: X e Y no estn relacionadas.
H1: la relacin entre X e Y es montona creciente.
c. Contraste unilat. izquierdo: H0: X e Y no estn relacionadas.
H1: la relacin entre X e Y es montona decreciente.
2. Supuestos: muestra aleatoria de n pares de puntuaciones, independientes entre s, ob-
tenidos al medir dos variables al menos ordinales.
3. Estadsticos del contraste:
3.1. RS (ver ecuacin [5.15])
3.2. T = [5.16]
4. Distribucin muestral:
4.1. Los puntos crticos r1 ! de la distribucin muestral de RS se encuentran en la
Tabla R del Apndice final para n < $ 30 y algunos valores de .
4.2. La distribucin del estadstico T se aproxima al modelo de probabilidad t de Stu-
dent con n ! 2 grados de libertad (tn !2).
5. Zona crtica:
a. Contraste bilateral:
a.1. RS < r/ 2 y RS > r1 ! / 2 .
a.2. T <$ tn !2; / 2 y T >
$ tn !2; 1 ! / 2 .
b. Contraste unilateral derecho:
b.1. RS > r .
b.2. T $> tn !2; 1 ! .
c. Contraste unilateral izquierdo:
c.1. RS < r1 ! .
c.2. T <$ tn !2; .
6. Regla de decisin: se rechaza H0 si el estadstico del contraste cae en la zona crtica;
en caso contrario, se mantiene.
176 Anlisis de datos (vol. II)
Tabla 5.9. Datos de 10 sujetos en las variables X = horas de estudio e Y = rendimiento medio
Sujetos 1 2 3 4 5 6 7 8 9 10
X = horas de estudio 5 5 6 6 6 7 7 11 11 16
Y = rendimiento medio 5 4 3,5 5 6 5 8 8,5 9 6
Tenemos dos variables cuantitativas medidas en una muestra aleatoria de 10 sujetos. Tene-
mos, por tanto, 10 pares de puntuaciones. Y queremos averiguar si, en la poblacin de donde
proceden estos 10 pares de puntuaciones, existe relacin positiva o creciente (... las pun-
tuaciones altas... tienden a ir acompaadas de puntuaciones altas...).
Estos datos ya los hemos analizado aplicando el coeficiente de correlacin de Pearson
(ver Captulo 12 del primer volumen; RXY = 0,52). Ahora decidimos analizarlos con el coefi-
ciente de correlacin de Spearman porque nos hemos dado cuenta de que la distribucin de
la variable X no es normal y el nivel de medida de la variable Y es ordinal:
1. Hiptesis:
H0: X e Y no estn relacionadas.
H1: la relacin entre X e Y es montona creciente (contraste unilateral derecho).
2. Supuestos: muestra aleatoria de 10 pares de puntuaciones, independientes entre s, ob-
tenidos al medir dos variables al menos ordinales.
3. Estadsticos del contraste: para facilitar los clculos, la Tabla 5.10 ofrece los rangos
correspondientes a las puntuaciones de X e Y, las diferencias entre cada par de rangos y
esas diferencias elevadas al cuadrado:
3.1. RS = 1 ! = 1 ! 6 (45) (103 ! 10) = 0,73 (ecuacin [5.15])
Sujetos 1 2 3 4 5 6 7 8 9 10 Suma
R i(X ) 1,5 1,5 4 4 4 6,5 6,5 8,5 8,5 10
R i(Y ) 4 2 1 4 6,5 4 8 9 10 6,5
Di !2,5 !0,5 3 0 !2,5 2,5 !1,5 !0,5 !1,5 3,5
Di2 6,25 0,25 9 0 6,25 6,25 2,25 0,25 2,25 12,25 45,00
4. Distribucin muestral:
4.1. Los puntos crticos de la distribucin muestral de RS se encuentran en la Tabla R
del Apndice final.
4.2. La distribucin del estadstico T se aproxima al modelo de probabilidad t de Stu-
dent con 10 ! 2 = 8 grados de libertad (tn !2).
5. Zona crtica (contraste unilateral derecho):
5.1. RS > r1 ! = r0,95 = 0,564.
5.2. T $> tn !2; 1 ! = t8; 0,95 = 1,86.
6. Regla de decisin: con ambos estadsticos se obtienen valores mayores que sus respec-
tivos puntos crticos: 0,73 > 0,564 en el caso de RS y 3,02 > 1,86 en el caso de T. Por
tanto, lo razonable es rechazar H0 y concluir que existe relacin montona creciente, lo
cual significa que las puntuaciones altas (bajas) en horas de estudio tienden a ir acom-
paadas de puntuaciones altas (bajas) en rendimiento medio.
$ 3,02) < 0,001.
7. Nivel crtico (contraste unilateral derecho): p = P (T >
[5.16] (sig. bilateral; el nivel crtico unilateral puede obtenerse dividiendo entre 2 el bilate-
ral); y (3) el nmero de casos vlidos (N).
El coeficiente de correlacin de Spearman vale6 0,72 y el nivel crtico bilateral resultan-
te de contrastar la hiptesis de independencia vale 0,02. Como el contraste es unilateral (ver
ejemplo anterior), el nivel crtico vale 0,02/2 = 0,01. Y como este nivel crtico es menor que
0,05, podemos rechazar la hiptesis de independencia y concluir que la relacin encontrada
es estadsticamente significativa. El signo positivo del coeficiente indica que la relacin es
montona creciente: los valores altos (bajos) de horas de estudio tienden a ir acompaados
de valores altos (bajos) en rendimiento medio.
= = [5.17]
El numerador de [5.17] puede estimarse a partir de la diferencia entre las medias muestrales;
el denominador puede estimarse a partir de la desviacin tpica de las diferencias entre cada
par de puntuaciones (ver ecuacin [5.4]). Es decir,
6
Este valor (0,72) es ligeramente diferente del que hemos obtenido (0,73) aplicando la ecuacin [5.15]. Esto es debido a
que el SPSS utiliza una ecuacin que tiene en cuenta la presencia de rangos empatados dentro de la misma variable. Ver
nota a pie de pgina nmero 5.
Captulo 5. Inferencia con dos variables cuantitativas 179
= [5.18]
En nuestro ejemplo
_ con 14 pacientes
_ sometidos a tratamiento antidepresivo (ver Tabla 5.1)
hemos obtenido Y 1 = 23,57, Y 2 = 13,07, y SD = 7,63. Por tanto,
= = 1,38
Lo cual representa un efecto de tamao grande (esta diferencia tipificada se interpreta en los
trminos ya conocidos: valores en torno a 0,20 indican un efecto pequeo; valores en torno
a 0,50, un efecto medio; valores en torno a 0,80 y mayores, un efecto grande).
= [5.20]
En nuestro ejemplo con 14 pacientes sometidos a tratamiento antidepresivo (ver Tabla 5.1)
hemos obtenido = 1,38 (ver apartado anterior). Por tanto,
= = 5,16
Con = 5,16 y = 0,05 en un contraste unilateral, la Tabla E del Apndice final indica que
la potencia del contraste es mayor de 0,99.
Este valor es la potencia observada (es decir, la potencia del contraste considerando que
la diferencia entre las medias poblacionales es la diferencia observada entre las medias mues-
trales). Para conocer el tamao muestral necesario para alcanzar una determinada potencia
basta con despejar n en la ecuacin [5.20] y utilizar la Tabla E en sentido inverso a como lo
hemos hecho para calcular la potencia observada:
n = [5.21]
Supongamos que queremos disear un contraste unilateral con dos muestras relacionadas
cuya potencia para detectar un efecto de tamao medio ( = 0,50 segn el criterio de Cohen)
valga 0,80. Con = 0,05 y 1 ! = 0,80, la Tabla E del Apndice final ofrece para un va-
lor de 2,50. Aplicando [5.21] obtenemos
n = (2,50)2 / 0,52 = 25
Lo cual significa que, para detectar un efecto de tamao medio con una potencia de 0,80 en
un contraste unilateral con dos muestras relacionadas, necesitaramos una muestra de 25
sujetos.
180 Anlisis de datos (vol. II)
Apndice 5
Correlaciones parciales
Los coeficientes de correlacin estudiados permiten cuantificar la relacin entre dos variables. Un coe-
ficiente de correlacin parcial expresa el grado de relacin lineal existente entre dos variables cuando
se elimina de esa relacin el efecto debido a otras variables. Se trata, por tanto, de una tcnica de con-
trol estadstico que permite cuantificar la relacin neta entre dos variables al eliminar de ambas el
efecto de terceras variables.
Por ejemplo, se sabe que la relacin entre las variables inteligencia y rendimiento escolar es alta
y positiva. Sin embargo, cuando se controla el efecto de terceras variables como el nmero de horas
de estudio o el nivel educativo de los padres, la correlacin entre inteligencia y rendimiento descien-
de sensiblemente, lo cual est indicando que la relacin entre inteligencia y rendimiento est condi-
cionada o modulada por el nmero de horas de estudio y el nivel educativo de los padres.
La ecuacin para obtener el coeficiente de correlacin parcial depende del nmero de variables
cuyo efecto se desea controlar. Comencemos con tres variables: Y1, Y2, Y3. Llamando al coeficien-
te de correlacin de Pearson entre las dos primeras variables, el coeficiente de correlacin parcial en-
tre Y1 e Y2 se obtiene mediante
= [5.22]
Hablamos de correlacin de primer orden para indicar que se est controlando el efecto de una sola
variable. La ecuacin [5.22] es una correlacin de primer orden. Con cuatro variables, el coeficiente
de correlacin parcial entre Y1 e Y2 se obtiene mediante
= [5.23]
Hablamos de correlacin de segundo orden, para indicar que se est controlando el efecto de dos varia-
bles. La ecuacin [5.23] es una correlacin de segundo orden. Siguiendo esta lgica, a la correlacin
entre dos variables cuando no se controla el efecto de terceras variables se le llama correlacin de orden
cero. Los coeficientes de mayor orden se obtienen siguiendo la misma lgica.
Para contrastar la hiptesis nula de que el valor poblacional de un coeficiente de correlacin par-
cial es cero, puede utilizarse el estadstico
T = [5.24]
(n se refiere al nmero de casos con puntuacin vlida en todas las variables que intervienen en el cl-
culo del coeficiente de correlacin parcial y p se refiere al nmero de variables controladas). El estads-
tico T se distribuye segn el modelo de probabilidad t de Student con n ! p ! 2 grados de libertad.
Veamos cmo utilizar el procedimiento Correlaciones parciales del SPSS para cuantificar e inter-
pretar la relacin entre dos variables cuando se controla el efecto de terceras variables. El ejemplo se
basa en el archivo Datos de empleados (se encuentra en la misma carpeta en la que est instalado el
SPSS):
Captulo 5. Inferencia con dos variables cuantitativas 181
' Seleccionar la opcin Correlaciones > Parciales del men Analizar el cuadro de dilogo principal
y trasladar las variables salini (salario inicial) y salario (salario actual) a la lista Variables. stas
son las dos variables que interesa correlacionar.
' Trasladar las variables educ (nivel educativo), tiempemp (meses desde el contrato) y expprev (ex-
periencia previa) a la lista Controlando para. stas son las tres variables cuyo efecto se desea con-
trolar.
' Pulsar el botn Opciones para acceder al cuadro de dilogo Correlaciones parciales: Opciones y
marcar la opcin Correlaciones de orden cero del recuadro Estadsticos.
Aceptando estas selecciones, el Visor ofrece los resultados que muestra la Tabla 5.12. La tabla contie-
ne las correlaciones bivariadas y las parciales. La mitad superior de la tabla (variables controladas =
ninguna) ofrece los coeficientes de correlacin de orden cero entre todas las variables seleccionadas.
El contenido de esta tabla es idntico al estudiado a propsito del coeficiente de correlacin de Pear-
son (ver Captulo 12 del primer volumen).
Esta informacin es doblemente til: por un lado, informa sobre el grado de relacin existente entre
las dos variables que interesa estudiar (salario inicial y salario actual); por otro, permite averiguar si
las variables cuyo efecto se desea controlar (nivel educativo, meses de contrato y experiencia previa)
estn o no relacionas con las dos variables que interesa correlacionar. Puede comprobarse que el coe-
ficiente de correlacin entre salario inicial y salario actual vale 0,88, con un nivel crtico sig. < 0,0005
que permite rechazar la hiptesis nula de no relacin y afirmar que el coeficiente es significativamente
distinto de cero. Tambin puede comprobarse que, de las tres variables incluidas en el anlisis para con-
trolar su efecto, nivel educativo correlaciona significativamente tanto con salario inicial como con sala-
rio actual (sig. < 0,0005 en ambos casos), meses de contrato no correlaciona significativamente ni con
salario inicial (sig. = 0,668) ni con salario actual (sig. = 0,067), y experiencia previa correlaciona sig-
nificativamente con salario actual (sig. = 0,034) pero no con salario inicial (sig. = 0,327).
La mitad inferior de la tabla ofrece el coeficiente de correlacin parcial entre las variables salario ini-
cial y salario actual. El coeficiente (0,812) tiene asociado un nivel crtico (sig. < 0,0005) que permi-
te afirmar que su valor poblacional es distinto de cero. Puesto que el coeficiente de correlacin parcial
sigue siendo significativo y su diferencia con el coeficiente de orden cero es ms bien escasa (ha baja-
do de 0,88 a 0,81), puede afirmarse: (1) que entre las variables salario inicial y salario actual existe
relacin lineal significativa y (2) que tal relacin solo se altera ligeramente tras controlar el efecto del
nivel educativo, los meses de contrato y la experiencia previa.
5.1. Antes de recibir una terapia correctora de 10 sesiones, 7 nios dislxicos han pasado por una prueba
de dictado en la que se ha contabilizado el nmero de errores cometidos. Tras las 10 sesiones de en-
trenamiento, los 7 nios han vuelto a repetir la prueba de dictado y se ha vuelto a contabilizar el n-
mero de errores. La siguiente tabla muestra los resultados obtenidos:
Sujetos 1 2 3 4 5 6 7
Y1: n errores antes 19 13 20 12 15 17 9
Y2: n errores despus 7 9 10 4 3 10 6
a. Aplicar la prueba de Wilcoxon y la de los signos para averiguar si el nmero medio de errores ha
disminuido tras el entrenamiento ( = 0,05).
b. Estimar el tamao del efecto.
c. Cuntos sujetos habra que utilizar para alcanzar una potencia de 0,80?
5.2. Cuando se toman dos medidas a los mismos sujetos (pre-post o antes-despus), lo que suele interesar
es comparar ambas medidas para valorar si se ha producido algn cambio. Esto es lo que se ha hecho,
por ejemplo, en el ejercicio anterior. Pero esto no tiene por qu ser siempre as. Ocasionalmente pue-
de interesar constatar si el cambio observado se ha producido o no de forma lineal, es decir, si todos
los sujetos han cambiado ms o menos lo mismo o de forma proporcional a sus puntuaciones origi-
nales o, por el contrario, unos sujetos han cambiado ms que otros y de forma no proporcional a sus
puntuaciones originales. Esto ltimo no puede saberse comparando los promedios antes-despus, sino
relacionando ambas medidas. Utilizando los datos del ejercicio anterior:
a. Cunto vale el coeficiente de correlacin de Spearman entre los registros efectuados antes y des-
pus del entrenamiento?
b. Es estadsticamente significativa la relacin encontrada?
c. Explicar por qu puede haber diferencias significativas entre las mediciones antes-despus y, sin
embargo, no existir relacin lineal significativa entre ellas.
5.3. Un investigador desea comprobar si la ingestin de alcohol reduce la capacidad de los sujetos para
reconocer letras presentadas mediante taquistoscopio. Para ello, forma 10 pares aleatorios de sujetos
de tal forma que los sujetos de cada par estn igualados en agudeza visual. Un sujeto de cada par, selec-
cionado al azar, recibe una determinada dosis de alcohol. Al cabo de un tiempo preestablecido se
presenta la serie de letras y se registra el nmero de aciertos de cada sujeto. La siguiente tabla muestra
los resultados obtenidos:
Captulo 5. Inferencia con dos variables cuantitativas 183
Pares 1 2 3 4 5 6 7 8 9 10
Y1: con alcohol 2 1 1 3 2 5 1 3 3 2
Y2: sin alcohol 4 3 5 7 8 5 4 6 4 5
a. Apoyan los datos la hiptesis de que la dosis de alcohol administrada reduce el nmero medio de
aciertos? ( = 0,05).
b. Estimar el tamao del efecto.
5.4. Algunos estudios sobre gemelos sealan que el miembro del par nacido en primer lugar suele mostrar
un comportamiento ms agresivo que el nacido en segundo lugar. Para obtener alguna evidencia ms
sobre esto, se ha pasado una escala de agresividad a una muestra aleatoria de 10 parejas de gemelos.
La siguiente tabla muestra los resultados obtenidos:
Pares 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
er
Y1: 1 gemelo 23 10 15 17 22 25 20 25 11 16 13 19 21 23 10
Y2: 2o gemelo 17 5 10 12 15 15 12 18 6 9 10 15 4 3 14
a. Apoyan los datos la hiptesis de que los gemelos nacidos en primer lugar se muestran ms agre-
sivos que los nacidos en segundo lugar?
b. Estimar el tamao del efecto.
c. Cunto vale la potencia del contraste?
d. Cunto vale el coeficiente de correlacin de Spearman?
e. Es estadsticamente significativa la relacin encontrada? ( = 0,05).
5.5. Seguimos con los 15 pares de gemelos del ejercicio anterior. Aunque ya sabemos que el coeficiente
de correlacin de Spearman no alcanza la significacin estadstica (p > 0,05), vamos a intentar formar-
nos una idea lo ms exacta posible sobre lo que est ocurriendo. Para ello:
a. Dibujar el correspondiente diagrama de dispersin.
b. La nube de puntos del diagrama de dispersin revela que hay tres pares de gemelos que podran
estar reduciendo sensiblemente el grado de relacin lineal. Cules son esos tres pares? Dibujar
el diagrama de dispersin eliminando esos tres pares.
c. Cunto vale el coeficiente de correlacin de Spearman si se eliminan esos tres pares de gemelos?
d. Es estadsticamente significativo el nuevo coeficiente de correlacin? ( = 0,05).
5.6. Se ha utilizado el coeficiente de correlacin de Spearman para comprobar si la relacin entre la inten-
sidad luminosa (variable X ) y el rendimiento en una prueba de discriminacin visual (variable Y ) es
montona creciente. Al valorar la significacin estadstica del coeficiente de correlacin en una mues-
tra aleatoria de 15 sujetos se ha obtenido, para el estadstico del contraste, un valor T = 1,562. Sabiendo
que P (T <$ 1,562) = 0,93 y utilizando un nivel de confianza de 0,99, cul de las siguientes decisiones
(y motivos) es correcta?
a. $ 1,562) < 0,99.
Rechazar H0 porque P (T <
b. $ 1,562) > 0,01.
Mantener H0 porque P (T <
c. $ 1,562) < 0,01.
Rechazar H0 porque P (T >
d. $ 1,562) < 0,99.
Mantener H0 porque P (T <
e. $ 1,562) < 0,99.
Rechazar H0 porque P (T <
5.7. En el estudio llevado a cabo en el ejercicio anterior sobre discriminacin visual se ha llegado a la con-
clusin de que lo razonable es no rechazar H0. Pero:
184 Anlisis de datos (vol. II)
5.8. En un estudio sobre la relacin entre rigidez y creatividad, un investigador plantea la hiptesis nula
de independencia frente a la hiptesis alternativa de relacin negativa (montona decreciente). En una
$ !2)
muestra aleatoria obtiene, para el estadstico del contraste, un valor T = !2. Sabiendo que P (T >
= 0,98 y utilizando = 0,05, es razonable rechazar H0 ? Por qu?
5.9. Cules de las siguientes afirmaciones podran servir como conclusin del contraste del ejercicio an-
terior?:
a. La creatividad no tiene nada que ver con la rigidez.
b. La creatividad depende de la rigidez.
c. La rigidez depende de la creatividad.
d. Las puntuaciones altas en rigidez tienden a ir acompaadas de puntuaciones altas en creatividad.
e. Las puntuaciones altas en rigidez tienden a ir acompaadas de puntuaciones bajas en creatividad.
5.10. Qu nivel de significacin se ha utilizado en un estudio si, al contrastar la hiptesis nula H0: D = 0
frente a la alternativa H1: D = 6 con una muestra aleatoria de tamao 31 extrada de una poblacin
normal con = 97, la probabilidad de rechazar la hiptesis nula siendo falsa vale 0,80?
6
Anlisis de varianza (I)
Un factor
completamente aleatorizado
Ya sabemos cmo abordar el anlisis de una variable categrica y una cuantitativa aplican-
do la prueba T de Student para muestras independientes; pero esta prueba solamente sirve
para comparar dos grupos; el anlisis de varianza permite extender el anlisis a ms de dos
grupos. Tambin sabemos cmo comparar variables cuantitativas aplicando la prueba T de
Student para muestras relacionadas; pero esta prueba solamente sirve para comparar dos va-
riables; el anlisis de varianza permite comparar ms de dos variables. Adems, con el an-
lisis de varianza es posible estudiar simultneamente ms de una variable categrica y valo-
rar su efecto conjunto sobre una variable cuantitativa.
El anlisis de varianza o ANOVA (acrnimo de ANalisys Of VAriance) no es una ni-
ca tcnica de anlisis, sino toda una familia de tcnicas que comparten el objetivo de ayudar
a interpretar los datos de un estudio emprico mediante la formulacin de modelos esta-
dsticos. Estos modelos permiten valorar el comportamiento de una variable dependiente o
respuesta cuantitativa (variable medida con una escala de intervalos o de razn) a partir de
una o ms variables independientes o factores categricos (variables medidas con una esca-
la nominal u ordinal). Tambin permiten controlar el efecto de variables extraas (variables
ajenas al estudio) incluyndolas como covariables.
Aunque estos modelos han surgido en el contexto de los diseos experimentales (Fisher,
1935), son aplicables a cualquier tipo de investigacin siempre que se den las circunstancias
apropiadas. Se basan en una estructura matemtica relativamente simple, conocida como
modelo lineal general, que posee la suficiente versatilidad como para adaptarse a contextos
muy diversos (ver Captulo 1 del tercer volumen).
Este captulo se centra en el modelo de un factor completamente aleatorizado, pero tam-
bin incluye una clasificacin de los diferentes modelos de ANOVA y de la lgica en la que
se basan todos ellos. Ms adelante estudiaremos el modelo de dos factores (Captulo 7) y los
modelos de medidas repetidas (Captulos 8 y 9). Para profundizar en los fundamentos de estos
186 Anlisis de datos (vol. II)
modelos (y de otros que no trataremos aqu) pueden consultarse los excelentes manuales de
Keppel y Wickens (2004), Kirk (1995), Maxwell y Delaney (2004), Myers y Well (2003) o
Winer, Brown y Michels (1991).
Nmero de factores
En los modelos de ANOVA, el trmino factor es sinnimo de variable independiente. Y se
refiere a una variable categrica que define grupos. Al modelo que nicamente incluye una
variable independiente se le llama ANOVA de un factor (one-way ANOVA); al que inclu-
ye dos variables independientes se le llama ANOVA de dos factores (two-way ANOVA);
etc. A los modelos de ms de un factor se les llama modelos factoriales.
En un estudio diseado para valorar el efecto del nivel de ansiedad (bajo, medio, alto)
sobre el rendimiento en una tarea tenemos una variable independiente o factor (nivel de an-
siedad) y una variable dependiente cuantitativa (rendimiento); los datos de este estudio se
analizan con un ANOVA de un factor. En un estudio diseado para valorar el efecto del ni-
vel de ansiedad (bajo, medio, alto) y la dificultad de la tarea (fcil, difcil) sobre el rendi-
miento tenemos dos variables independientes o factores (nivel de ansiedad y dificultad de la
tarea) y una variable dependiente cuantitativa (rendimiento); los datos de este estudio se
analizan con un ANOVA de dos factores.
Por lo general, esta asignacin de las unidades de anlisis a las condiciones del estudio
se realiza de forma aleatoria (es decir, al azar) para que todos los sujetos tengan la misma
probabilidad de ser asignados a cada condicin. Se pretende con ello que el conjunto de po-
sibles variables extraas asociadas a las caractersticas de los sujetos (diferencias entre los
sujetos que podran afectar a los resultados del estudio) queden repartidas de forma similar
entre todas las condiciones. Hay dos estrategias bsicas de asignacin aleatoria que suelen
recibir el nombre de grupos aleatorios y bloques aleatorios.
En los diseos de grupos aleatorios cada unidad de anlisis (cada sujeto) es aleato-
riamente seleccionada y asignada a un nivel del factor. Supongamos que interesa valorar la
cantidad de frmaco idnea para aumentar las horas de sueo de pacientes afectados de in-
somnio. Se tiene una variable independiente o factor (cantidad de frmaco) en la que se han
definido tres niveles (0 mg, 250 mg, 500 mg) y una variable dependiente (horas de sueo) de
la que se puede obtener una medida cuantitativa. Para valorar el efecto del frmaco sobre las
horas de sueo con un diseo de grupos aleatorios, se selecciona aleatoriamente una mues-
tra de pacientes insomnes, se forman aleatoriamente tres grupos y se asigna, tambin alea-
toriamente, cada grupo a uno de los tres niveles del factor. Al modelo de ANOVA que per-
mite analizar los datos de este diseo se le llama modelo completamente aleatorizado.
La asignacin aleatoria es la mejor estrategia para formar grupos equivalentes (grupos
con el mximo control sobre posibles variables extraas). Pero la asignacin aleatoria no
siempre es posible; por ejemplo, al comparar hombres y mujeres en una variable cuantitativa
no es posible decidir quin es hombre y quin es mujer; eso es algo que viene dado. Otras ve-
ces, aun siendo posible la asignacin aleatoria, no interesa aplicarla por razones prcticas o
ticas; por ejemplo, al comparar dos mtodos de enseanza se decide aplicar cada mtodo a
los alumnos de un aula simplemente porque no se considera apropiado mezclar los alumnos
aleatoriamente solamente por el inters de la investigacin. No obstante, en ambos ejemplos
se tienen grupos aleatorios: en el ejemplo de hombres y mujeres, los sujetos se seleccionan
aleatoriamente; en el ejemplo del mtodo de enseanza, las aulas se seleccionan aleatoriamen-
te y los mtodos se asignan aleatoriamente a las aulas. Ciertamente, el grado de control sobre
posibles variables extraas no es el mismo en todos estos ejemplos y eso determina el nivel
de indagacin que es posible alcanzar; pero la herramienta estadstica que permite analizar
los datos es la misma en todos ellos: un modelo de ANOVA completamente aleatorizado.
En los diseos de bloques aleatorios se intenta ejercer mayor control sobre posibles va-
riables extraas. Si se sospecha que existe alguna variable que puede alterar de forma apre-
ciable las conclusiones del estudio, se puede ejercer sobre ella un control directo modificando
la forma de asignar las unidades de anlisis a las condiciones del estudio. Supongamos que
el frmaco cuyo efecto sobre el insomnio se desea valorar tiene la peculiaridad de afectar de
forma diferenciada a los pacientes en funcin del grado de insomnio que padecen. Se puede
controlar ese efecto formando bloques: si se clasifica a los pacientes seleccionados como
pacientes con insomnio leve, moderado o severo (tres bloques)1 y, tras esto, los sujetos de
un mismo bloque se asignan aleatoriamente a los diferentes niveles del factor (grupo), se
habr conseguido que dentro de cada grupo haya pacientes con insomnio leve, moderado y
severo; el efecto de la variable extraa habr quedado controlado al estar todos los grupos
igualados en grado de insomnio. Al proceder de esta manera se tiene un diseo de bloques
1
Aunque en este ejemplo concreto se estn formando 3 bloques, el nmero de bloques que pueden formarse oscila entre
un mnimo de 2 (o se forman al menos 2 bloques o no se forma ninguno) y un mximo de n / k, siendo n el tamao de la
muestra y k el nmero de niveles del factor.
188 Anlisis de datos (vol. II)
aleatorios y el modelo de ANOVA que permite analizar los datos as obtenidos recibe el
nombre de modelo aleatorizado en bloques.
En un caso extremo de bloqueo cada bloque est formado por un nico sujeto: a todos
y cada uno de los sujetos se le aplican todos y cada uno de los niveles del factor. La homo-
geneidad dentro de cada bloque es mxima (y por tanto mnima la presencia de variables
extraas atribuibles a diferencias entre los sujetos) porque todas las puntuaciones dentro de
un mismo bloque pertenecen a un mismo sujeto. En este caso ya no se habla de diseo de
bloques aleatorios, sino de diseo intrasujetos o diseo con los mismos sujetos; y al mode-
lo de ANOVA que permite analizar estos datos se le llama modelo de medidas repetidas.
Esta distincin basada en la forma de asignar las unidades de anlisis a las condiciones
del estudio es equivalente a la ya hecha entre muestras independientes y muestras relacio-
nadas: hablar de diseos completamente aleatorizados equivale a hablar de muestras inde-
pendientes (a cada nivel del factor se asigna un grupo distinto de sujetos); y hablar de diseos
de bloques aleatorios o intrasujetos equivale a hablar de muestras relacionadas (bien porque
los sujetos de un mismo bloque han sido igualados atendiendo a algn vnculo relevante pa-
ra el anlisis, bien porque cada bloque est formado por un nico sujeto).
efecto del factor hospital podra seleccionarse aleatoriamente una muestra de hospitales (no
sera necesario ni tal vez posible seleccionar todos los hospitales). Y los resultados del
estudio estaran indicando, no si dos hospitales concretos difieren entre s (aqu no interesa
averiguar si tal hospital concreto difiere de tal otro), sino si el factor hospital se relaciona con
el tiempo de convalecencia post-quirrgica.
de la misma poblacin. Con tres muestras seguimos teniendo variabilidad intragrupos (la que
se da entre los valores de una misma muestra). Pero, adems, tambin tenemos la variabilidad
que se da entre las muestras, pues los valores de una cualquiera de las muestras no tienen por
qu ser iguales, ni siquiera en promedio, a los valores de las dems muestras. A esta segunda
forma de variabilidad entre las muestras la llamamos intergrupos.
La variabilidad intragrupos refleja las diferencias entre las puntuaciones dentro de cada
muestra; la variabilidad intergrupos refleja las diferencias entre las distintas muestras. La
esencia del anlisis de varianza consiste en comparar ambas fuentes de variabilidad para
determinar cmo de grande es la variabilidad intergrupos en comparacin con la variabili-
dad intragrupos.
Comencemos con el diseo ms simple: una variable categrica A (con J categoras o
niveles) y una variable cuantitativa Y (ver Tabla 6.1). Supongamos que la variable cuantita-
tiva Y se distribuye normalmente en las J poblaciones definidas por los J niveles de la varia-
ble categrica A y que todas esas poblaciones normales tienen la misma varianza, es decir,
= = = = = = [6.1]
Supongamos adems que de cada poblacin se extrae una muestra aleatoria de tamao nj de
puntuaciones Yi j (i se refiere a los diferentes elementos de la misma muestra: i = 1, 2, ..., nj;
j se refiere a las diferentes muestras: j = 1, 2, ..., J ; por ejemplo, Y52 se refiere a la 5 puntua-
cin de la 2 muestra).
En este escenario, el valor de cada varianza muestral es una estimacin concreta de
la varianza de su poblacin. Pero como se est asumiendo que las J poblaciones tienen la
misma varianza, la estimacin de esa nica varianza poblacional2 puede mejorarse si, en lu-
gar de hacer J estimaciones distintas, se hace una sola estimacin basada en la media pon-
derada de las J varianzas muestrales3:
MCE = = = [6.2]
2
No debe confundirse (la varianza de Y en cada poblacin) con la varianza de todas las puntuaciones de Y tomadas
juntas (la varianza total). Estas dos varianzas solamente son iguales cuando todas las poblaciones tienen, adems de la misma
varianza, la misma media. Cuando tengamos que utilizar esta segunda varianza quedar claro que nos referimos a ella.
3
En el caso de que todas las muestras tengan el mismo tamao (es decir, si n1 = n2 = = nJ = n), la ecuacin [6.2] se puede
simplificar bastante:
MCE = = = [6.3]
4
La varianza de un conjunto de puntuaciones no se ve alterada si a esas puntuaciones se le aade una constante. Por tanto,
el estimador propuesto en [6.2] no depende del valor de las medias.
Captulo 6. ANOVA de un factor 191
Supongamos ahora que las J poblaciones normales, adems de la misma varianza, tam-
bin tienen la misma media. Si esto es as, las J muestras aleatorias seleccionadas pueden
considerarse muestras de la misma poblacin (pues han sido seleccionadas de J poblaciones
idnticas). Esto significa que las medias de esas muestras pueden utilizarse para obtener un
nuevo estimador de la varianza poblacional. Sabemos que la varianza de la distribucin
muestral de la media5 se relaciona con la varianza poblacional mediante = (n es el
tamao de la muestra). Por tanto, si se tienen J muestras de la misma poblacin, la varianza
de Y puede estimarse mediante6
A este estimador de basado en la variabilidad existente entre las medias de las diferen-
tes muestras se le llama media cuadrtica intergrupos y se representa mediante MCI. Y
puesto que, de momento, esta MCI nicamente incluye la variabilidad debida al factor A,
tambin se le llama MCA.
Por tanto, tenemos dos estimadores de la varianza poblacional. Uno de ellos, MCE, es
independiente del valor de las medias poblacionales, pues se basa en la variabilidad de las
puntuaciones individuales respecto de la media de su propia muestra. El otro, MCA, depen-
de del valor de las medias poblacionales porque se basa en la variabilidad existente entre las
medias muestrales; nicamente es un estimador de la varianza poblacional cuando las mues-
tras se extraen de la misma poblacin o de J poblaciones idnticas.
Por tanto, si MCA y MCE se calculan a partir de muestras aleatorias extradas de pobla-
ciones con la misma media, sus valores sern parecidos. Por el contrario, si se calculan en
muestras extradas de poblaciones que no tienen la misma media, el valor de MCA ser ma-
yor que el valor de MCE, pues MCA estar reflejando no solamente variabilidad aleatoria en-
tre las medias muestrales, sino variabilidad debida al hecho de que las medias poblacionales
son distintas. Esto significa que el tamao relativo de MCA respecto del de MCE est infor-
mando del grado de parecido existente entre las medias poblacionales.
Ahora bien, aunque las medias poblacionales sean iguales, como MCA y MCE son valo-
res muestrales, raramente tomarn valores idnticos. Cabe esperar que, aun siendo iguales
las medias poblacionales, entre MCA y MCE existan ligeras diferencias atribuibles a las fluc-
tuaciones propias del azar muestral. La clave est precisamente en poder determinar cundo
la diferencia entre MCA y MCE es lo bastante grande como para pensar que no se debe al azar
muestral, sino al hecho de que las medias poblacionales son distintas. Justamente esto es lo
que hace el anlisis de varianza comparando MCA y MCE mediante
F = = [6.6]
5
La distribucin muestral de la media es la distribucin de las medias calculadas en todas las muestras de tamao n que
es posible extraer de una determinada poblacin (en caso necesario, repasar el concepto de distribucin muestral en el
Captulo 6 del primer volumen).
6
En el caso de que todas las muestras tengan el mismo tamao (n1 = n2 = = nJ = n), la ecuacin [6.4] se reduce a:
MCA = = n = [6.5]
192 Anlisis de datos (vol. II)
La distribucin muestral de este cociente (ver Apndice 6) fue establecida por Fisher (1924)
y etiquetada distribucin F en su honor por Snedecor (1934). El estadstico F refleja el gra-
do de parecido existente entre las medias poblacionales. Si las medias poblacionales son
iguales, las medias muestrales de los diferentes grupos sern parecidas, existiendo entre ellas
tan solo diferencias atribuibles al azar. En ese caso, el numerador (basado en las diferencias
entre las medias muestrales) reflejar un grado de variacin similar al del denominador (ba-
sado en las diferencias entre las puntuaciones individuales dentro de cada grupo) y el cocien-
te F tomar un valor prximo a 1. Por el contrario, si las medias muestrales son distintas, el
numerador ser mayor que el denominador y el estadstico F tomar un valor mayor que 1.
Cuanto ms diferentes sean las medias muestrales, mayor ser el valor de F.
Si las poblaciones muestreadas son normales y sus varianzas iguales, el estadstico F
se aproxima a la distribucin F con J !1 y N ! J grados de libertad (ver, en el Apndice 6, el
apartado Distribucin muestral del estadstico F ). Y puesto que el estadstico F, adems de
informar del grado de parecido entre las medias, tiene distribucin muestral conocida, te-
nemos todo lo necesario para disear un contraste sobre la hiptesis de igualdad de medias.
Tabla 6.1. Estructura de los datos y notacin en un diseo de un factor completamente aleatorizado (A-CA)
a1
a2
aj
aJ
Los subndices son necesarios para identificar cada elemento de la tabla. A los J grupos o
niveles del factor A los representamos mediante a1, a2, ..., aj..., aJ ; por tanto, j = 1, 2, ..., J.
En el modelo de un factor es necesario utilizar dos subndices para representar cada valor de
Y: el primero de ellos (i) se refiere a los diferentes elementos (generalmente sujetos) del
mismo grupo: i = 1, 2, ..., nj ; el segundo ( j) se refiere a los diferentes grupos. As, por
ejemplo, Y52 se refiere a la puntuacin obtenida por el 5 sujeto del 2 grupo.
Los grupos pueden tener o no el mismo tamao; el tamao de cada grupo lo represen-
taremos mediante nj , con N = n1 + n2 + + nj + + nJ. El signo + colocado como subn-
dice se refiere a todos los valores del subndice al que sustituye. Por ejemplo, Y+2 se refie-
re a todas las puntuaciones (todos los valores i) del segundo grupo ( j = 2). Para representar
estas sumas o totales utilizaremos la letra T. Las sumas o totales de cada grupo ( ) se ob-
tienen sumando desde 1 hasta nj todas las puntuaciones de ese grupo:
= = [6.7]
Por ejemplo, el total del grupo 1 (T1) se obtiene sumando las n1 puntuaciones de la primera
fila de la tabla (es decir, sumando la fila a1). Y el gran total (T ) se obtiene sumando todas las
puntuaciones de la tabla:
= = = [6.8]
A partir de estos totales es fcil obtener las medias de cada grupo y la media total; basta con
dividir los correspondientes totales por el nmero de puntuaciones utilizadas para obtenerlos:
= = y = = [6.9]
La hiptesis nula que se pone a prueba con el ANOVA de un factor es que las J medias po-
blacionales son iguales. El Cuadro 6.1 ofrece un resumen de los pasos que seguiremos para
contrastar esta hiptesis. Para que el estadstico F propuesto en [6.6] permita contrastar la
hiptesis de igualdad de medias estamos asumiendo que se dan ciertas condiciones: muestras
aleatorias extradas de poblaciones normales con la misma varianza. En el siguiente aparta-
do hablaremos de estas condiciones.
194 Anlisis de datos (vol. II)
Tenemos una variable categrica o factor (nivel de ansiedad) con tres niveles que definen tres
grupos y una variable cuantitativa ( puntuaciones en rendimiento) en la cual queremos com-
7
A partir de ahora suprimiremos el subndice Y de las medias poblacionales para simplificar la notacin. Por tanto, siem-
pre que utilicemos el smbolo sin indicacin de la variable a la que se refiere (X, Y, Z, etc.), asumiremos que se trata de
la media poblacional de Y.
Captulo 6. ANOVA de un factor 195
parar los grupos. La Figura 6.1 muestra los diagramas de caja correspondientes a los tres gru-
pos del estudio. En ninguno de ellos se observan casos atpicos; tampoco se aprecian indicios
de asimetra; y el grado de dispersin es parecido en todos ellos. El grupo de nivel de ansie-
dad medio es el que obtiene el rendimiento medio ms alto; el de nivel de ansiedad alto, el
que muestra el rendimiento medio ms bajo.
Figura 6.1. Diagramas de caja correspondientes a los tres grupos de la tabla 6.2
Veamos si las diferencias que se aprecian en los diagramas de caja son estadsticamente sig-
nificativas. Asumiendo que las tres muestras se han seleccionado aleatoriamente de pobla-
ciones normales con la misma varianza, la hiptesis de igualdad de medias puede contras-
tarse aplicando un ANOVA de un factor completamente aleatorizado:
1. Hiptesis: H0: bajo = medio = alto .
H1: j =/ jN para algn j o jN (j =/ jN).
2. Supuestos: tenemos 3 muestras aleatorias extradas de poblaciones que asumimos nor-
males y con la misma varianza.
3. Estadstico del contraste (ver ecuaciones [6.3], [6.5] y [6.6]):
_
Y = (9 + 14 + 7) / 3 = 10.
= [(9 ! 10)2 + (14 ! 10)2 + (7 ! 10)2 ] / 2 = 13.
MCA = 10 (13) = 130.
MCE = (10,89 + 13,33 + 15,11) / 3 = 13,11.
F = MCA MCE = 130 / 13,11 = 9,92.
4. Distribucin muestral: F se distribuye segn FJ !1, N !J = F3 !1, 30 ! 3 = F2, 27.
5. Zona crtica: F >$ F2, 27; 0,95 . 3,35.
6. Decisin: como el valor del estadstico del contraste (9,92) es mayor que el punto crti-
co (3,35), se rechaza H0. Se puede concluir, por tanto, que los promedios poblacionales
comparados no son iguales. El rechazo de la hiptesis de igualdad de medias nos dice que
el rendimiento medio no es el mismo en los tres grupos, pero no nos dice qu grupos di-
fieren de qu otros. Para saber esto es necesario seguir haciendo comparaciones. Estas
comparaciones (llamadas mltiples) se estudian ms adelante en este mismo captulo.
7. Nivel crtico: p = P (F > $ 9,92) < 0,01.
196 Anlisis de datos (vol. II)
En el apartado anterior hemos presentado lo que podramos llamar una versin abreviada del
ANOVA de un factor completamente aleatorizado. Para contrastar la hiptesis de igualdad
de medias basta con conocer esta versin abreviada.
Pero el anlisis de varianza es una concrecin de un modelo estadstico en el que se basan
varios de los procedimientos que hemos estudiando y que estudiaremos ms adelante: el mo-
delo lineal general (ver el Captulo 1 del tercer volumen). Y ocurre que todo modelo estads-
tico necesita ir acompaado de una serie de aclaraciones referidas a las condiciones que deben
darse para que el modelo funcione correctamente. A estas condiciones las llamamos supues-
tos. En este apartado nos vamos a ocupar de los supuestos asociados al modelo de un factor.
El estadstico F propuesto en [6.6] permite tomar decisiones sobre la hiptesis de igual-
dad de medias porque, si se dan ciertas condiciones, se aproxima a la distribucin F con J !1
y N ! J grados de libertad. Estas condiciones (supuestos) son las que garantizan que la pro-
babilidad de cometer errores Tipo I y Tipo II es la que estamos asumiendo que es y no otra.
Al definir el estadstico F hemos considerado en todo momento que estbamos traba-
jando con muestras aleatorias procedentes de poblaciones normales con la misma varianza.
De estas condiciones iniciales es de donde se derivan los tres supuestos del ANOVA de un
factor completamente aleatorizado: independencia entre las puntuaciones, normalidad de las
poblaciones y homocedasticidad (varianzas poblacionales iguales).
El incumplimiento de uno o ms de estos supuestos puede hacer que la distribucin
muestral del estadstico F cambie y, consecuentemente, que el nivel de significacin adopta-
do (generalmente 0,05) no coincida con el nivel de significacin real, pasando a ser menor
(haciendo el contraste ms conservador) o mayor (haciendo el contraste ms liberal). Esto
significa que el incumplimiento de uno o ms de estos supuestos puede llevar a tomar deci-
siones equivocadas. Lo cual es especialmente relevante si se tiene en cuenta que los datos de
los estudios que suelen llevarse a cabo en el mbito de las ciencias sociales y de la salud
raramente cumplen todos los supuestos en los que se basa la distribucin muestral del esta-
dstico F. En general, el estadstico F es robusto (es decir, ofrece resultados correctos en
condiciones desfavorables) frente a desviaciones moderadas de los supuestos en los que se
basa (ver Glass, Peckham y Sanders, 1972), pero desviaciones ms acusadas pueden alterar
de forma importante la probabilidad de cometer errores Tipo I y II, y esto puede tener graves
consecuencias sobre las conclusiones del anlisis. Veamos algunos aspectos relacionados con
estos supuestos.
Independencia
En el anlisis de varianza de un factor, el supuesto de independencia se refiere a que cada
puntuacin debe ser independiente de las dems (independiente de las de su mismo grupo y
de las del resto de los grupos). En la prctica, la independencia se consigue con la seleccin
aleatoria de los sujetos y/o la asignacin aleatoria de los mismos a las condiciones del estu-
dio8. Las consecuencias del incumplimiento del supuesto de independencia pueden ser gra-
8
La independencia entre las puntuaciones no es un requisito exclusivamente estadstico; tambin es un requisito experi-
mental . Recordemos que, si las unidades de anlisis no se asignan aleatoriamente a las condiciones del estudio, no habr
forma de separar el efecto de la variable independiente o factor del efecto de posibles variables extraas.
Captulo 6. ANOVA de un factor 197
ves (ver Kenny y Judd, 1986; Scariano y Davenport, 1987), de modo que es muy importan
te cuidar los aspectos relativos a la seleccin y asignacin de sujetos.
No es infrecuente encontrar incumplimientos de este supuesto. Un ejemplo tpico se da
cuando se realizan repetidas mediciones de los mismos sujetos, de manera que el nmero to-
tal de puntuaciones es mayor que el nmero total de sujetos. En un diseo completamente
aleatorizado hay que procurar que cada puntuacin se corresponda con un sujeto distinto. No
obstante, esto no necesariamente garantiza la independencia entre las puntuaciones. Siempre
es posible encontrar sujetos distintos que no se comportan de forma independiente; es decir,
sujetos distintos que muestran comportamientos similares en la variable estudiada: miembros
de la misma familia, estudiantes de la misma clase, pacientes de un mismo hospital, parti-
cipantes en un experimento que interaccionan entre s en su actividad cotidiana, miembros
de un mismo colectivo social o religioso, etc.
Si existen dudas acerca de la aleatoriedad de las puntuaciones de un estudio concreto,
puede utilizarse la prueba de las rachas para contrastar la hiptesis de que las muestras uti-
lizadas son aleatorias (ver Apndice 2).
Normalidad
El segundo de los supuestos se refiere a que las puntuaciones de cada grupo constituyen una
muestra aleatoria extrada de una poblacin normal. En varios trabajos ha quedado probado
que el estadstico F es robusto frente al incumplimiento de este supuesto (Box, 1953; Jagers,
1980; Lix, Keselman y Keselman, 1996).
Si las desviaciones de la normalidad son muy acusadas, pueden detectarse fcilmente
utilizando sencillos mtodos grficos (Chambers, Cleveland, Kleiner y Tukey, 1983; Iman
y Conover, 1983; Wainer y Thissen, 1993). Los grficos de normalidad ya estudiados (Q-Q
normal y Q-Q normal sin tendencias; ver, en el Captulo 2, el apartado Contrastes sobre la
forma de una distribucin), son una herramienta muy til en este sentido. Pero no olvidemos
que estos grficos son apropiados, sobre todo, para valorar la normalidad de muestras gran-
des; con muestras pequeas es preferible contrastar la hiptesis de normalidad mediante
alguno de los procedimientos descritos en el Captulo 2.
Si las poblaciones muestreadas, aun no siendo normales, son simtricas o tienen forma
parecida (por ejemplo, todas positivamente asimtricas y leptocrticas), el estadstico F ofrece
resultados correctos incluso con tamaos muestrales relativamente pequeos (ver Tan, 1982).
No obstante, siempre es recomendable trabajar con tamaos muestrales moderadamente gran-
des para tener la garanta de que el estadstico F se comportar correctamente incluso cuan-
do las poblaciones originales se desven sensiblemente de la normalidad. En el caso de tener
que trabajar con muestras pequeas procedentes de poblaciones no normales, es preferible
utilizar procedimientos alternativos al estadstico F como, por ejemplo, la prueba de Kruskal-
Wallis estudiada en el Captulo 4 (Wilcox, 1996; Good y Lunneborg, 2006).
y los tamaos muestrales son iguales y no demasiado pequeos. Pero en las ciencias sociales
y de la salud no es infrecuente tener que trabajar con datos en los que la varianza ms grande
es ms de doce veces mayor que la ms pequea (Tomarken y Serlin, 1986; Wilcox, 1987a).
Y cuando las varianzas poblacionales son distintas, el comportamiento del estadstico F puede
resultar insatisfactorio incluso con tamaos muestrales iguales (Harwell, Rubinstein, Hayes
y Olds, 1992; Rogan y Keselman, 1977; Tomarken y Serlin, 1986; Wilcox, 1987a; Wilcox,
Charlin y Thompson, 1986; etc.). Y si los tamaos muestrales son diferentes, varios trabajos
(ver Glass, Peckham y Sanders, 1972, para una revisin) coinciden en sealar que el estads-
tico F deja de ser robusto: se convierte en muy conservador cuando las varianzas ms gran-
des corresponden a los grupos de mayor tamao (perdiendo, adems, potencia) y en marca-
damente liberal cuando las ms grandes corresponden a los grupos de menor tamao.
Estas consideraciones sugieren que, cuando se tiene intencin de utilizar el estadstico
F para contrastar la hiptesis de igualdad de medias, es ms que recomendable contrastar
previamente la hiptesis de igualdad de varianzas. Existen varios procedimientos para esto,
pero no todos ellos son igualmente robustos frente al incumplimiento del supuesto de nor-
malidad (ver OBrien, 1981). Uno de los ms utilizados (incluido en el SPSS) es el propues-
to por Levene (1960). Consiste en transformar las puntuaciones originales en _ desviaciones
D i j en valor absoluto de las medias de sus respectivos grupos (D i j = | Yi j ! Y j |) y aplicar el
estadstico F a las puntuaciones transformadas. Si las varianzas poblacionales son iguales,
las desviaciones Di j tendrn promedios parecidos en todos los grupos y servirn como refe-
rencia del grado del parecido existente entre las varianzas. Una F significativa llevar al
rechazo de la hiptesis de igualdad de varianzas. Brown y Forsythe (1974a) han propuesto
un procedimiento idntico al de Levene, pero utilizando las medianas en lugar de las medias
para obtener las puntuaciones transformadas D i j.
Si alguno de estos procedimientos9 lleva al rechazo de la hiptesis de igualdad de va-
rianzas, lo razonable es contrastar la hiptesis de igualdad de medias con alguna prueba
alternativa al estadstico F. Ya hemos mencionado que la prueba de Kruskal-Wallis estudia-
da en el Captulo 4 representa una alternativa robusta cuando no puede asumirse normali-
dad; pero, cuando no puede asumirse igualdad de varianzas, Vargha y Delaney (1998; ver
tambin Keselman, Games y Rogan, 1979) recomiendan utilizar los estadsticos propuestos
por Welch (1951) y Brown y Forsythe (1974b) basados en una modificacin del estadstico
F (estos estadsticos son los que incluye el SPSS como mtodos alternativos al estadstico F
y se describen al final de este captulo, en el Apndice 6).
Acabamos de sealar que el estadstico F requiere trabajar con poblaciones normales y homo-
cedsticas; y que, cuando no se dan estas condiciones, lo recomendable es utilizar procedi-
mientos alternativos (hemos mencionado la prueba de Kruskal-Wallis ver Captulo 4 y las
de Welch y Brown-Forsythe ver Apndice 6). No obstante, cuando las poblaciones no son
9
En Conover, Johnson y Johnson (1981) se comparan 60 procedimientos diferentes para contrastar la igualdad de varian-
zas. OBrien (1981) ha diseado un mtodo de bastante aceptacin (ver, por ejemplo, Pardo y San Martn, 1998, pg. 271);
Cochran (1941) ha propuesto un estadstico basado en el cociente entre la varianza ms grande y la suma de las J varian-
zas (ver Kirk, 1995, pg. 101); el mtodo de Hartley (1940, 1950), uno de los ms utilizados en el pasado, se basa en el co-
ciente entre la varianza ms grande y la ms pequea (ver Kirk, 1995, pg. 101); etc.
Captulo 6. ANOVA de un factor 199
H0 : = 0 [6.10]
Puesto que la varianza de las medias solamente valdr cero cuando todas las medias sean
iguales, el rechazo de la hiptesis formulada en [6.10] permitir concluir que las medias po-
blacionales no son iguales.
Las hiptesis que se contrastan con uno y otro tipo de factores nos ponen en la pista del
tipo de inferencias que es posible hacer. Con un factor es de efectos fijos, las inferencias se
limitan a los niveles concretos incluidos en el anlisis; los niveles que interesa estudiar son
justamente los que se estn estudiando; ellos constituyen la poblacin de niveles del factor;
si se replicara el experimento, aunque los sujetos seran, muy probablemente, diferentes, los
niveles del factor seran los mismos. Con los factores de efectos aleatorios no ocurre esto:
los niveles concretos incluidos en el anlisis solamente constituyen una muestra aleatoria de
la poblacin de niveles que interesa estudiar; las inferencias, por tanto, se realizan, no sobre
los niveles incluidos en el estudio, sino sobre la poblacin de posibles niveles del factor.
Excepto por lo que se refiere a algn detalle relacionado con la cuantificacin del tama-
o del efecto (ver siguiente apartado), el hecho de que un factor sea de efectos fijos o de efec-
tos aleatorios no tiene consecuencias sobre los clculos involucrados en los modelos de un
factor; s las tiene, sin embargo, en los modelos de ms de un factor, de modo que ms ade-
lante tendremos que volver sobre esto.
= [6.11]
Esta medida (a la que Cohen llama f ) es equivalente a la que ya estudiada para el caso de dos
medias (ver ecuacin [4.12]). Sustituyendo las medias y la varianza poblacionales por sus
correspondientes estimadores muestrales se obtiene
= = [6.12]
Para interpretar , Cohen (1992a) ha propuesto una regla general que puede servir de gua
en la mayor parte de los contextos aplicados: valores en torno a 0,10, 0,25 y 0,40 represen-
tan, respectivamente, efectos de tamao pequeo, mediano y grande.
La variabilidad entre las medias y la variabilidad entre las puntuaciones individuales tam-
bin puede utilizarse para obtener la proporcin de varianza comn, es decir, el grado de re-
lacin existente entre la variable categrica o factor y la variable cuantitativa o dependien-
te. Esto es justamente lo que hacen las medidas del tamao del efecto que estudiaremos a
continuacin: todas ellas intentan estimar el verdadero tamao del efecto en la poblacin (la
verdadera diferencia entre las medias) comparando distintas fuentes de variabilidad para
obtener una estimacin de la proporcin de varianza comn.
La ms antigua de estas medidas, eta-cuadrado, fue inicialmente propuesta por Pearson
(1905) e incorporada ms tarde por Fisher (1925, 1935) al contexto de los modelos de an-
lisis de varianza:
= = [6.13]
El valor de expresa el grado de asociacin (no solo lineal, sino de cualquier tipo) existen-
te entre la variable categrica o factor y la variable cuantitativa o dependiente (si se aplica
al caso de dos medias, = RXY). El numerador de es una cuantificacin de la variabilidad
existente entre las medias; el denominador, una cuantificacin de la variabilidad total; el
cociente entre ambas cuantificaciones indica cmo es de grande la variabilidad entre las
202 Anlisis de datos (vol. II)
medias en comparacin con la variabilidad total. Por tanto, puede interpretarse como la
proporcin de varianza que comparten la variable categrica o factor y la variable cuantita-
tiva o dependiente: indica el grado en que aumenta el conocimiento (o se reduce la incer-
tidumbre) de las puntuaciones de la variable dependiente por el hecho de saber a qu nivel
del factor (a qu grupo) pertenecen.
El problema de es que tiende a ofrecer estimaciones sesgadas de la verdadera pro-
porcin de varianza comn (en concreto, la sobrestima; es decir, tiende a ofrecer valores ms
altos que el del parmetro que estima; ver, por ejemplo, Fowler, 1985). Una correccin debi-
da a Wherry (1931) permite reducir ese sesgo:
= [6.14]
Tambin para corregir el sesgo de , Kelley (1935, pgs. 554-559) y, posteriormente, Pe-
ters y Van Voorhis (1940) y Cohen (1966), han propuesto utilizar una modificacin de
llamada psilon-cuadrado:
= [6.15]
= [6.16]
= [6.17]
(n se refiere al tamao de cada grupo o al promedio de los tamaos en caso de que sean dis-
tintos). La ecuacin [6.17] tambin se conoce como coeficiente de correlacin intraclase,
una medida que indica el grado de parecido entre las puntuaciones del mismo grupo en com-
paracin con el grado de parecido entre las puntuaciones de grupos distintos.
12
No deja de ser sorprendente que, a pesar de ser de la medida de asociacin que acapara las preferencias de los expertos,
muchos programas de anlisis estadstico, incluido el SPSS, no la incluyan como tal entre sus opciones.
13
Si el estadstico F es menor que 1 (es decir, si MCA < MCE ), las ecuaciones [6.16] y [6.17] ofrecen un valor negativo.
Puesto que una proporcin no puede ser negativa, cuando ocurre esto se considera que 2 vale cero.
14
El valor de tambin puede obtenerse a partir del estadstico F. Cuando el factor es de efectos fijos, la ecuacin [6.16]
equivale a = [(J ! 1) (F ! 1)] / [N + (J !1) (F !1)]. Cuando el factor es de efectos aleatorios, la ecuacin [6.17] equivale
a = (F ! 1) / [(N ! 1) + F].
Captulo 6. ANOVA de un factor 203
= = =
= =
= = =
= = =
El valor de es mayor que el del resto de las medidas (ya hemos sealado que, como esti-
mador de la verdadera proporcin de varianza comn, ofrece estimaciones infladas). El
resto de medidas toman el mismo valor. La interpretacin de una medida de este tipo (va-
rianza comn) puede hacerse en trminos del grado de incertidumbre en que se reduce nues-
tro conocimiento de la variable dependiente por el hecho de saber a qu grupo pertenece ca-
da sujeto. En nuestro ejemplo, saber a qu grupo (nivel de ansiedad) pertenecen los sujetos
reduce nuestra incertidumbre (mejora nuestro conocimiento) sobre su rendimiento un 38 %.
Y de acuerdo con la regla de Cohen para este tipo de medidas (0,01; 0,06; 0,14), puede
concluirse que la intensidad de la asociacin encontrada es alta.
Aplicando la ecuacin [6.12] para calcular la medida del tamao del efecto con estos
mismos datos obtenemos
= =
Valor que, de nuevo con la regla de Cohen (0,10; 0,25; 0,40), representa un efecto de tama-
o grande.
Es evidente que las medidas del tamao del efecto ofrecen informacin adicional a la del
estadstico F : contribuyen a distinguir entre la significacin estadstica de un resultado y su
relevancia o importancia prctica (Kirk, 1996); sirven para estimar la potencia de un contras-
te y elegir el tamao muestral idneo al planificar un estudio (Cohen, 1988; ver siguiente
apartado); y facilitan la recopilacin de los resultados de diferentes estudios al realizar un
meta-anlisis (Hunter y Schmidt, 2004; Rosenthal, 1991). stas son, sin duda, algunas de las
razones por las que muchos autores (tambin los editores de las ms importantes revistas
cientficas), recomiendan utilizar las medidas del tamao del efecto e incluirlas en los in-
204 Anlisis de datos (vol. II)
formes de investigacin (Abelson, 1995; Cohen, 1988; Murphy, 1997; Thomson, 1994, 1997;
etc.). Especialmente relevantes en este sentido son las recomendaciones del informe de Wil-
kinson y la APA Task Force on Statistical Inference (1999).
No obstante, ya hemos sealado (ver, en el Captulo 1, el apartado Tamao del efecto)
que las medidas del tamao del efecto no deben ser consideradas una panacea en el anlisis
de datos. La razn principal de esto es que su significado no parece estar del todo claro (en
relacin con esta problemtica merecen destacarse las interesantes reflexiones de Chow,
1996, pgs. 89-118; y OGrady, 1982).
La estrategia que presentamos en este apartado para calcular la potencia asociada al esta-
dstico F se basa en una medida del tamao del efecto llamada (phi) y en la distribucin
F no centrada (Tabla G del Apndice final)15.
Si la hiptesis de igualdad de medias es verdadera, el estadstico F sigue el modelo de
distribucin de probabilidad F con parmetros J !1 y N ! J (sus grados de libertad). Si la
hiptesis de igualdad de medias es falsa, el estadstico F se distribuye segn la F no centra-
da con un tercer parmetro de no-centralidad llamado (letra griega lambda):
= [6.18]
= [6.19]
15
Un tratamiento completo de todo lo relacionado con la definicin y clculo de la potencia puede encontrarse en Cohen
(1988). Kirk (1995, pgs. 182-188) y Maxwell y Delaney (2004, pgs. 120-126) presentan el clculo de la potencia a par-
tir de grficos explcitamente diseados para ello. Y Hays (1994, pgs. 408-410) utiliza un procedimiento basado en su
estadstico 2. Todas estas aproximaciones, incluida la que nosotros proponemos aqu, son equivalentes, es decir, ofrecen
los mismos resultados (ver Winer, Brown y Michels, 1991, pgs. 126-140).
Captulo 6. ANOVA de un factor 205
ra obtener una estimacin de estos parmetros. Cualquiera que sea la forma de obtener esta
informacin, una vez obtenida el valor de puede estimarse mediante16
= = = [6.20]
En nuestro ejemplo sobre la relacin entre ansiedad y rendimiento con J = 3 grupos (ver Ta-
bla 6.2) hemos obtenido MCA = 130 y MCE = 13,11. Por tanto,
= =
Para calcular la potencia del contraste llevado a cabo con los datos de la Tabla 6.2 necesi-
tamos = 0,05, gl1 = J ! 1 = 2, gl2 = N ! J = 27 y = 2,57. En la Tabla G del Apndice fi-
nal (redondeando a gl2 = 30 y = 2,6), encontramos que la probabilidad de cometer errores
Tipo II () vale 0,02. Por tanto, la potencia de este contraste vale 1 ! = 1 ! 0,02 = 0,98.
Puesto que tanto gl2 como se han redondeado por arriba, es muy posible que el valor de
la potencia sea una o dos dcimas menor de 0,98.
Calcular la potencia de un contraste despus de llevarlo a cabo tiene el inters de saber
con qu potencia se ha trabajado (potencia observada) asumiendo que el efecto en la po-
blacin es el efecto observado en la muestra. Si la potencia observada es alta, perfecto; pero
si la potencia observada es baja, ya no hay forma de arreglar el problema. Lo realmente in-
teresante es poder disear cada estudio de tal forma que pueda conocerse de antemano la
potencia con la que se va a trabajar. Y esto pasa por calcular el tamao muestral necesario pa-
ra alcanzar una determinada potencia. Puesto que la potencia depende del nivel de signifi-
cacin (), del tamao del efecto ( ) y del nmero (J ) y tamao (n) de los grupos, una vez
establecido el nivel de significacin (generalmente 0,05), el tamao del efecto que se desea
poder detectar o que se considera mnimamente relevante ( o ), la potencia que se desea
alcanzar (generalmente 0,80) y el nmero de grupos con el que se va a trabajar (J ), tenemos
todo lo necesario para calcular el tamao muestral. Ahora bien, para esto hace falta separar
el tamao muestral del resto de los elementos en la ecuacin [6.20]. Al eliminar el tamao
muestral de [6.20], queda la medida del tamao del efecto definida por Cohen (ver [6.12]):
= n = [6.21]
(n se refiere al tamao de cada grupo). Supongamos que en un estudio con 3 grupos (gl1 = 2)
y = 0,05 queremos que la potencia del contraste para detectar un efecto de tamao medio
( = 0,25 segn la regla de Cohen) valga 0,80 ( = 0,20). Tenemos que utilizar la Tabla G
al revs de como lo hemos hecho antes, pero ahora nos encontramos con que no conocemos
los grados de libertad gl2, pues dependen del tamao muestral que estamos buscando. Esto,
sin embargo, no representa ningn problema porque utilizar un valor de partida de 30 o ma-
yor no hace cambiar las cosas. Podemos elegir, por ejemplo, gl2 = . As, con gl1 = 2, gl2 =
y = 0,20, la Tabla G ofrece un valor de 1,8 para . Por tanto, n = (1,8 / 0,25)2 = 51,8. Es
decir, para alcanzar una potencia de 0,80 hacen falta, redondeando al entero mayor, 52 suje-
tos por grupo.
16
Aunque la ecuacin [6.18] permite entender fcilmente el significado del parmetro de no-centralidad , este parmetro
puede estimarse fcilmente mediante (J ! 1) F. En cuyo caso, puede estimarse mediante = .
206 Anlisis de datos (vol. II)
Para comprobar que nuestros clculos son correctos podemos realizar la accin inver-
sa de averiguar cunto vale la potencia de un estudio con J = 3 grupos (gl1 = 2), 52 sujetos
por grupo (gl2 = 153) y un efecto de tamao medio ( = 0,25). Con estos datos, el parmetro
vale = = 1,80. Y la Tabla G indica que el valor de es algo menor de 0,24.
Por tanto, el valor de la potencia, 1 ! , es algo mayor de 0,76.
Comparaciones lineales
En el contexto de los contrastes sobre medias, una comparacin lineal (o contraste lineal)
es una combinacin lineal (suma ponderada) de medias con pesos o coeficientes, no todos
iguales a cero, que suman cero.
Utilizaremos los smbolos para representar la h-sima comparacin entre J medias
poblacionales y para representar el valor muestral o estimado de esta comparacin.
Aclaremos la definicin de comparacin lineal que acabamos de presentar. Imaginemos
un estudio con cinco tratamientos o grupos y, por tanto, con cinco medias poblacionales: 1,
2, 3, 4 y 5. Con estas cinco medias es posible realizar, por ejemplo, comparaciones en-
tre pares de medias como
= 1 ! 2
[6.23]
= 2 ! 3
Pero las comparaciones entre pares de medias no son las nicas que es posible plantear. Tam-
bin es posible plantear comparaciones del tipo
= ( 1 + 2 ) ! ( 3 + 4 )
= ( 1 + 2 + 3 ) / 3 ! ( 4 + 5 ) / 2 [6.24]
= ( 1 + 2 + 3 + 4 ) / 4 ! 5
17
Los procedimientos diseados para efectuar comparaciones mltiples entre medias son muchos y muy variados. El lector
interesado en ampliar los aqu expuestos puede consultar, por ejemplo, Hochberg y Tamhane (2009), Hsu (1996) , Miller
(1981) y Toothaker (1991, 1999).
Captulo 6. ANOVA de un factor 207
En se estn comparando las medias 1 y 2 tomadas juntas con las medias 3 y 4 tomadas
juntas; en , las medias 1, 2 y 3 tomadas juntas con las medias 4 y 5 tomadas juntas; y en
, las cuatro primeras medias tomadas juntas con la ltima.
Las llamamos comparaciones mltiples porque se estn planteando varias comparacio-
nes simultneamente. Cada una de estas comparaciones (y cualquier otra que se nos ocurra
formular) puede expresarse como una combinacin lineal de J medias con coeficientes cj
conocidos que verifican dos condiciones: (1) al menos uno de los coeficientes cj es distinto
de cero y (2) la suma de todos ellos vale cero. Es decir:
= c1 1 + c2 2 + + cJ J = cj j [6.25]
con cj =/ 0 para algn j, y ' cj = 0. La pregunta que surge en este momento es cmo asignar
coeficientes a las medias para que la comparacin resultante exprese justamente la dife-
rencia entre medias que se desea plantear.
Para asignar coeficientes correctamente hay que tener presente que cualquiera que sea
el tipo de comparacin planteada, en una comparacin concreta siempre se estn comparan-
do dos cosas. Aunque sean varias las medias involucradas, la comparacin siempre consis-
te en comparar una cosa (una media o grupo de medias) con otra cosa (otra media o grupo
de medias). Y esas dos cosas se comparan restndolas (igual que hemos hecho, por ejemplo,
para comparar dos medias con la prueba T de Student).
La asignacin de coeficientes para comparar dos medias (como en las comparaciones
y propuestas en [6.23]) es bastante simple: se asigna un 1 a una de las medias que se de-
sea comparar, un !1 a la otra media (da igual a cul de las dos medias se le asigne el valor
negativo) y ceros al resto de las medias para eliminarlas de la comparacin. As, para defi-
nir las comparaciones y de [6.23] en el formato propuesto en [6.25] haremos
Para comparar dos grupos de medias (situacin que se da cuando en uno de los dos grupos
o en los dos hay al menos dos medias, como en las comparaciones , y propuestas
en [6.24]), se asignan a las medias de cada grupo coeficientes iguales al nmero de medias
que forman parte del otro grupo y, arbitrariamente, se hacen negativos los coeficientes de uno
de los dos grupos. As, al definir las comparaciones y de [6.24] en el formato pro-
puesto en [6.25], nos queda
Vemos, pues, que cualquier tipo de diferencia entre medias puede plantearse como una com-
binacin lineal si se eligen los coeficientes apropiados.
Si, en lugar de utilizar las medias
_ poblacionales j para definir una comparacin , se
utilizan las medias muestrales Y j , el resultado es una comparacin muestral que sirve co-
mo estimador de la comparacin poblacional:
= = [6.26]
Lo interesante de este tipo de combinaciones lineales no es solo que permiten definir cual-
quier comparacin entre medias, sino que es muy fcil trabajar con ellas porque conocemos
tanto su valor esperado como su varianza (ver Pardo y San Martn, 1998, pg. 289):
= y = = [6.27]
No todas las comparaciones que pueden definirse con J medias son independientes entre s:
algunas de ellas pueden obtenerse combinando otras. Por ejemplo, el nmero de compara-
ciones por pares que pueden definirse con J medias es J (J ! 1) / 2 (es decir, combinaciones
de J elementos tomados de 2 en 2). As, con J = 4 medias es posible definir 4 (4 !1) / 2 = 6
comparaciones por pares. Pero no todas ellas son independientes entre s, lo cual significa
que incluyen informacin redundante. Por ejemplo, la comparacin 2 ! 3 puede obtener-
se a partir de las comparaciones 1 ! 2 y 1 ! 3 :
( 1 ! 3) ! ( 1 ! 2) = 2 ! 3
Del mismo modo, la comparacin ( 1 + 2) ! (2) 3 puede obtenerse a partir de las compa-
raciones 1 ! 3 y 2 ! 3 :
( 1 ! 3) + ( 2 ! 3) = ( 1 + 2) ! (2) 3
= 0 [6.28]
Esta condicin es vlida cuando los tamaos muestrales son iguales. Si los tamaos mues-
trales no son iguales debe verificarse
= 0 [6.29]
Supongamos que en un diseo con, por ejemplo, 3 medias, definimos las siguientes dos com-
paraciones (con nj iguales):
pues (1) (1) + (0) (!2) + (!1) (1) = 0. La utilidad de trabajar con comparaciones ortogonales
est precisamente en que no contienen informacin redundante. Y la importancia de esta
propiedad se comprender enseguida al estudiar algunos de los procedimientos incluidos en
los siguientes apartados.
Y la probabilidad de cometer algn error en las seis comparaciones (es decir, la probabilidad
de cometer al menos un error), valdr:
18
Esta probabilidad es exacta si las J (J !1) / 2 comparaciones son independientes entre s. Pero esas comparaciones no son,
de hecho, independientes (ver apartado anterior). Cuando las comparaciones no son independientes, la probabilidad de
cometer algn error Tipo I es difcil de calcular, pero puede demostrarse que siempre es menor o igual que 1!(1! )k.
19
Algunos autores (por ejemplo, Kirk, 1995, pg. 122; ver tambin Hochber y Tamhane, 2009, pgs. 5-12) hablan de la tasa
de error por experimento tomando como referencia el conjunto de posibles comparaciones asociadas a un experimento.
Captulo 6. ANOVA de un factor 211
es un claro sntoma de que ninguno de ellos ofrece una solucin del todo satisfactoria. El con-
trol que consigue cada uno de ellos sobre la tasa de error depende de cosas como el nmero
de grupos (muchos o pocos), el tamao de los grupos (pequeo o grande, el mismo o distin-
to), las varianzas poblacionales (iguales o distintas), el tipo de comparaciones (ortogonales
o no), etc. No obstante, los procedimientos que hemos seleccionado suelen ofrecer un com-
portamiento aceptable cuando se dan las condiciones para las que han sido diseados.
Prueba de Dunn-Bonferroni
20
A este procedimiento tambin se le llama prueba de Dunn; la razn es que, a pesar de tratarse de un procedimiento cono-
cido desde hace tiempo, fue Dunn (1961) el primero en formalizarlo y en presentar las tablas necesarias para poder utilizarlo.
Tambin se le llama prueba de Bonferroni, por estar basado en la desigualdad de Bonferroni (los programas informticos
suelen utilizar este nombre). Nosotros hemos querido reconocer la aportacin de ambos llamando al procedimiento prueba
de Dunn-Bonferroni.
21
idk (1967) ha demostrado que F siempre es menor que 1 ! (1 ! C )k y ha propuesto utilizar C = 1 ! (1 ! F )1/k como
nivel de significacin en cada comparacin. Esta solucin ofrece para C valores ligeramente mayores que /k mantenien-
do al mismo tiempo la tasa de error total en el valor inicialmente establecido (F). Esta forma de controlar la tasa de error
hace el contraste algo ms potente, pero la ganancia en potencia es tan pequea que, en la prctica, la estrategia de Dunn-
Bonferroni, ms sencilla de calcular, ha tenido mayor aceptacin (para ms detalles sobre la solucin de idk puede
consultarse Kirk, 1995, pgs. 140-142; Holland y Copenhaver, 1988).
212 Anlisis de datos (vol. II)
ra demostrar que, al realizar k comparaciones, la tasa de error total (la tasa de error por fami-
lia de comparaciones) siempre es igual o menor que la suma de las tasas de error de cada
comparacin individual:
$ k C
F < [6.33]
Esto significa que, si cada una de las k comparaciones se lleva a cabo con un nivel de signifi-
cacin C = F / k = 0,05/ k, la tasa de error total F siempre ser igual o menor que 0,05.
No debe pasarse por alto el hecho de que la ecuacin [6.33] es una desigualdad. Cuando
se utiliza para corregir la tasa de error de un conjunto de comparaciones ortogonales funciona
correctamente: F vale aproximadamente 0,05. Pero cuando se utiliza para corregir la tasa
de error de un conjunto de comparaciones no ortogonales se vuelve conservadora: F pue-
de ser sensiblemente menor de 0,05 (tanto menor cuanto mayor sea el valor de k) (ver Max-
well y Delaney, 2004, pg. 203). Por tanto, aunque esta forma de corregir la tasa de error pue-
de aplicarse a cualquier tipo de comparacin, lo recomendable es que se utilice solamente
con comparaciones ortogonales o con un nmero reducido de comparaciones no ortogonales.
El procedimiento permite valorar cualquier comparacin lineal del tipo descrito en [6.26]
mediante el contraste de la hiptesis nula de que la comparacin vale cero:
H0 (h) : = c1 1 + c2 2 + + cJ J = 0 [6.34]
Ya sabemos que, cuando se comparan dos medias, la hiptesis nula afirma que la diferencia
entre ellas vale cero; tambin sabemos que, cuando se comparan ms de dos medias, en rea-
lidad se estn comparando dos cosas: una media con varias, o varias medias con varias; la
hiptesis nula recoge la idea de que esas dos cosas que se comparan son iguales; es decir, que
su diferencia vale cero.
Puesto que puede estimarse mediante (ver ecuacin [6.26]), y el valor esperado
y la varianza de son valores conocidos (ver ecuacin [6.27]), es posible tipificar el valor
de mediante
TDB = = [6.35]
En la transformacin [6.35] se est asumiendo que las J varianzas poblacionales son igua-
les, de ah que se utilice MCE como nico estimador de esas varianzas. Si no puede asumirse
que las varianzas poblacionales son iguales, basta con modificar el denominador sustitu-
yendo MCE por cada una de las varianzas muestrales:
T NDB = [6.36]
La Tabla J del Apndice final contiene los puntos crticos t bilaterales22 de la distribucin
muestral de TDB y T NDB para F = 0,05 y F = 0,01, y para diferentes valores de k (nmero de
22
Estos puntos crticos se han obtenido de la distribucin t con glerror grados de libertad dividiendo el correspondiente nivel
de significacin bilateral entre el nmero de comparaciones planeadas: ( /2)/k. La tabla ofrece los puntos crticos de la cola
derecha de la distribucin, de ah que el numerador de TDB se tome en valor absoluto.
Captulo 6. ANOVA de un factor 213
glNerror = [6.37]
Se rechaza la hiptesis nula definida en [6.34] si el valor de TDB (o de T NDB) es mayor que el
correspondiente punto crtico de la Tabla J.
El valor de junto con su error tpico y su distribucin muestral pueden utilizarse pa-
ra construir un intervalo de confianza para la comparacin :
= [6.38]
donde t es el punto crtico que se obtiene de la Tabla J y es el error tpico de (es decir,
el denominador de TDB si las varianzas poblacionales son iguales, y el denominador de T NDB
si no son iguales); k es el nmero de comparaciones; y glerror es igual a N ! J si las varianzas
poblacionales son iguales e igual a [6.37] si no son iguales. El intervalo de confianza indica
entre qu valores cabe esperar que se encuentre el valor poblacional de .
Puesto que se trata de pocas comparaciones y adems son ortogonales (la suma del producto
de sus coeficientes vale cero: (!1) (1) + (2) (0) + (!1) (!_1) = 0),_ la prueba
_ de Dunn-Bonferro-
ni permite controlar la tasa de error. Recordemos que Y 1 = 9, Y 2 = 14, Y 3 = 7 y MCE = 13,11:
1. Hiptesis: H0 (1) : = 0 ; H1 (1) : =/ 0.
H0 (2) : = 0 ; H1 (2) : =/ 0.
2. Supuestos: tenemos 3 muestras de tamao 10 aleatoriamente seleccionadas de poblacio-
nes que asumimos normales y con la misma varianza.
3. Estadsticos del contraste (ecuacin [6.35]):
! = (!1) 9 + (2)14 + (!1) 7 = 12.
= (1) 9 + (0)14 + (!1) 7 = 2.
214 Anlisis de datos (vol. II)
! = = 2,80.
= = 1,62.
! TDB (1) = = 12 / 2,80 = 4,29.
TDB (2) = = 2 / 1,62 = 1,23.
4. Distribucin muestral: los puntos crticos de la distribucin muestral de TDB se encuen-
tran en la Tabla J del Apndice final, con k = 2, glerror = N ! J = 30 ! 3 = 27 y F = 0,05.
5. Zona crtica: TDB > $ t2, 27; 0,95 = 2,37 (hemos tomado un valor intermedio entre los corres-
pondientes a glerror = 25 y glerror = 30).
6. Decisin: nicamente el valor de TDB (1) = 4,29 es mayor que el punto crtico 2,37. Por
tanto, debe rechazarse H0 (1) pero no H0 (2). El rechazo de H0 (1) indica que la media del
grupo 2 (nivel de ansiedad medio) difiere de la media de los otros dos grupos tomados
juntos. Y el no rechazo de H0 (2) indica que, con los datos disponibles, no es posible afir-
mar que el rendimiento medio del grupo 1 difiera del rendimiento medio del grupo 3.
Aunque los contrastes son bilaterales, el valor positivo de indica que el rendimiento
medio del segundo grupo, es decir, del grupo que est ponderado con un coeficiente posi-
tivo en , es mayor que el rendimiento medio de los otros dos grupos tomados juntos.
7. Intervalo de confianza (asumiendo varianzas iguales, ecuacin [6.38]). Al asignar coe-
ficientes para definir cada comparacin lineal utilizamos nmeros enteros para facilitar
los clculos. Esta estrategia no es apropiada cuando se trata de calcular un intervalo de
confianza. Para que los lmites del intervalo se encuentren en la misma mtrica que la
variable dependiente, es necesario que los coeficientes con signo positivo sumen 1 y que
los coeficientes con signo negativo sumen !1 (exactamente igual que cuando se com-
paran dos medias):
! = (!0,5) 9 + (1)14 + (!0,5) 7 = 6.
= (1) 9 + (0)14 + (!1) 7 = 2.
! = = 1,40.
= = 1,62.
encuentra entre 2,7 y 9,3 puntos. Este mismo argumento sirve para la segunda compa-
racin, pero el intervalo obtenido para ella incluye el valor cero y esto significa que no
puede afirmarse que los promedios comparados sean distintos.
Comparaciones de tendencia
Sabemos que el rechazo de la hiptesis global del ANOVA est indicando que las medias
comparadas no son iguales. Esto significa que los valores de la variable dependiente cam-
bian cuando cambian los de la independiente; significa, por tanto, que ambas variables estn
relacionadas. Pero una F significativa no dice nada sobre la pauta concreta que sigue ese
cambio; es decir, no dice nada acerca del tipo de relacin que se da entre las variables.
Sin embargo, conocer el tipo de relacin existente entre la variable independiente o fac-
tor y la dependiente, no solo puede resultar interesante en muchos contextos, sino que pue-
de constituir el objetivo principal de algunos estudios. Tal es el caso de los ensayos clnicos
en los que se analiza la relacin dosis-respuesta, o de los estudios psicolgicos en los que se
valora, por ejemplo, la relacin entre el nivel de ansiedad y el rendimiento.
Para que tenga sentido estudiar el tipo de relacin es imprescindible que los niveles de
la variable independiente o factor se encuentren cuantitativamente ordenados (de no ser as,
no tendra sentido estudiar el tipo de relacin, pues la ordenacin arbitraria de los niveles
dara como resultado diferentes tipos de relacin). Cuando los niveles estn cuantitativamen-
te ordenados pueden darse diferentes pautas de relacin; puede ocurrir, por ejemplo, que los
valores de la variable dependiente aumenten conforme lo hacen los de la independiente, en
cuyo caso la relacin ser de tipo lineal (ver Figura 6.2, grficos a, b y d ); tambin puede
ocurrir que los valores de la variable dependiente vayan aumentando conforme lo hacen los
de la independiente hasta llegar a un punto a partir del cual el aumento en los valores de la
variable independiente se corresponde con una disminucin en los de la dependiente (ver
Figura 6.2, grficos c y e); y tambin puede ocurrir que la relacin sea algo ms compleja,
con subidas y cadas en la variable dependiente conforme los valores de la independiente van
aumentando (ver Figura 6.2, grfico f ).
Por tanto, la relacin entre una variable categrica (con categoras cuantitativamente
ordenadas) y una variable cuantitativa puede ser de tipo lineal, cuadrtico, cbico, etc. Las
comparaciones de tendencia sirven para estudiar estos tipos de relacin.
Debe tenerse en cuenta que las comparaciones de tendencia son comparaciones ortogo-
nales. Por tanto, con J medias, nicamente ser posible definir J ! 1 tendencias ortogonales.
En los grficos de la Figura 6.2 se aprecia con claridad esta idea: con J = 2 solamente pue-
de darse una relacin de tipo lineal (ver Figura 6.2, grfico a); con J = 3, la relacin puede
ser lineal o cuadrtica (ver Figura 6.2, grficos b y c); con J = 4, la relacin puede ser lineal,
cuadrtica o cbica (ver Figura 6.2, grficos d, e y f ); etc.
En todos los contrastes propuestos hasta ahora en el contexto del ANOVA de un factor
y en todos los que estudiaremos ms adelante, la disposicin de los niveles de la variable
independiente o factor es completamente irrelevante: se comparan medias con independen-
cia de la posicin que ocupan. Ahora, sin embargo, el estudio del tipo de relacin existente
entre la variable independiente y la dependiente nicamente tiene sentido si la variable in-
dependiente es, al igual que la dependiente, cuantitativa.
216 Anlisis de datos (vol. II)
Figura 6.2. Diferentes tipos de relacin entre dos variables: lineal (a, b y d), cuadrtica (c y e) y cbica (f )
a b c
a1 a2 a1 a2 a3 a1 a2 a3
d e f
a1 a2 a3 a4 a1 a2 a3 a4 a1 a2 a3 a4
En los grficos de la Figura 6.4 se puede apreciar que los coeficientes !3, !1, 1 y 3 definen
una tendencia lineal; los coeficientes 1, !1, !1 y 1, una tendencia cuadrtica; y los coefi-
cientes !1, 3, !3 y 1, una tendencia cbica. Lo que se hace al valorar cada tendencia es sim-
plemente correlacionar los coeficientes asignados con las medias a las que se asignan.
0 0
-1 -1
-2 -2
1 2 3 1 2 3
Figura 6.4. Coeficientes de polinomios ortogonales con J = 4; tendencias lineal, cuadrtica y cbica
cj lineal cj cuadrtica cj cbica
3 3 3
2 2 2
1 1 1
0 0 0
-1 -1 -1
-2 -2 -2
-3 -3 -3
1 2 3 4 1 2 3 4 1 2 3 4
Tras asignar coeficientes a las medias para definir cada tendencia ( , , etc), es po-
sible contrastar hiptesis del tipo:
H 0: =0
aplicando la prueba de Dunn-Bonferroni exactamente igual que hemos hecho en el apartado
anterior23 (de hecho, las dos comparaciones del ejemplo del apartado anterior son exacta-
mente las correspondientes a las tendencias lineal y cuadrtica, aunque con los coeficientes
cambiados de signo). La hiptesis = 0 significa que no existe relacin lineal; el rechazo
de esta hiptesis indica que existe relacin lineal significativa.
23
Los coeficientes de la Tabla H solamente son apropiados si los niveles del factor estn igualmente espaciados (por ejem-
plo, 1-2-3 frente a 1-2-5) y los tamaos de los grupos son iguales. No es fcil asignar coeficientes cuando no se dan estas
dos condiciones. Afortunadamente, los programas informticos tienen resuelto el problema. El SPSS calcula los coeficien-
tes de cada tendencia teniendo en cuenta el espaciamiento existente entre los niveles del factor: a diferentes espaciamientos
corresponden diferentes coeficientes (ver Pardo y San Martn, 1998, pgs. 301-303). Y cuando los tamaos muestrales no
son iguales, el SPSS ofrece dos soluciones para cada tendencia: una ponderada y una no ponderada. En la solucin no
ponderada, los coeficientes se calculan sin tener en cuenta el tamao de los grupos (el inconveniente de esta estrategia es
que las comparaciones resultantes no son ortogonales; ver ecuacin [6.29]). En la solucin ponderada, los coeficientes se
calculan teniendo en cuenta el tamao de los grupos. No est claro cul de las dos soluciones es mejor, pero parece que,
cuando la nica tendencia real en los datos es la lineal, es preferible la solucin ponderada; mientras que, cuando hay otras
tendencias presentes, es preferible la solucin no ponderada (ver Maxwell y Delaney, 2004, pgs. 267-269).
218 Anlisis de datos (vol. II)
Prueba de Dunnett
Dunnett (1955) ha propuesto un mtodo especficamente diseado para controlar la tasa de
error cuando se realizan las J ! 1 comparaciones entre los grupos experimentales y el grupo
control, si existe. La propuesta de Dunnett consiste en obtener un valor, llamado diferencia
mnima_ significativa
_ (DMS ), que es el valor ms pequeo a partir de la cual una diferencia
= | Y control ! Y j | puede ser declarada significativa (con j =/ control ):
donde t es el valor de la Tabla K del Apndice final que corresponde a un nivel de signifi-
cacin F con J medias (incluida la del grupo control) y N ! J grados de libertad. La tabla
ofrece puntos crticos para F = 0,05 y F = 0,01, y para contrastes bilaterales y unilaterales.
Tanto si el _contraste_ es bilateral como si es unilateral, la diferencia que se compara con
DMS Dunnett es | Y control ! Y j |, es decir, la diferencia en valor absoluto; pero si el contraste es
unilateral, es necesario prestar atencin al signo de esa diferencia para tomar la decisin apro-
piada.
El procedimiento de Dunnett tambin puede utilizarse para construir intervalos de con-
fianza (IC ) para las J ! 1 diferencias entre los grupos experimentales y el control:
_ _
= | Y control ! Y j | DMSDunnett (con j =/ control) [6.40]
Volvamos a los datos de la Tabla 6.2, donde J = 3 grupos de nj = 10 sujetos (N = 30) con di-
ferente nivel de ansiedad (bajo, medio, alto) han realizado una prueba de rendimiento. Su-
pongamos, solamente para poder ilustrar el procedimiento, que el grupo de ansiedad baja (es
decir, el grupo 1) es un grupo control y que estamos interesados en comparar los otros dos
grupos con el control; es decir, supongamos que estamos interesados en llevar a cabo estas
dos comparaciones:
= 1 ! 2
= 1 ! 3
Puesto que J = 3,
_ solamente
_ es posible
_ realizar dos comparaciones con el grupo control. Re-
cordemos que Y 1 = 9, Y 2 = 14, Y 3 = 7 y MCE = 13,11:
1. Hiptesis: H0 (1) : = 0 ; H1 (1) : =/ 0.
H0 (2) : = 0 ; H1 (2) : =/ 0.
2. Supuestos: tenemos 3 muestras aleatoriamente extradas de poblaciones que asumimos
normales y con la misma varianza.
3. Estadstico del contraste (ecuacin [6.39]). Puesto que los tamaos muestrales son igua-
les, basta con calcular una nica DMS; si los tamaos muestrales fueran distintos habra
que calcular una DMS para cada comparacin (debe tenerse en cuenta que la diferencia
entre las DMS de dos comparaciones est nicamente en el tamao del grupo que se com-
para con el control):
Captulo 6. ANOVA de un factor 219
_ _
= | Y_1 ! Y_2 | = | 9 ! 14 | = 5.
= | Y 1 ! Y 3 | = | 9 ! 7 | = 2.
DMS Dunnett = = 2,33 (1,62) = 3,77.
(considerando que ambos contrastes son bilaterales y utilizando F = 0,05).
6. Decisin: nicamente el valor de = 5 es mayor que el valor de la DMSDunnett = 3,77.
Por tanto, nicamente el grupo 2 (nivel de ansiedad medio) difiere del grupo 1 o control
(nivel de ansiedad bajo).
7. Intervalo de confianza (ecuacin [6.40]):
= 5 3,77 = (1,23; 8,77).
= 2 3,77 = (!1,77; 5,77).
El intervalo de no incluye el valor cero, pero s el intervalo de . Este resultado
coincide con la decisin ya tomada sobre ambas comparaciones (rechazar H0 (1) y no
rechazar H0 (2)). En el caso de la primera comparacin, la diferencia entre el rendimien-
to medio del segundo grupo (14) y el del grupo control (9) vale 5 puntos. El intervalo de
confianza obtenido indica que, basndonos en esa diferencia muestral de 5 puntos,
podemos estimar, con una confianza del 95 %, que la diferencia poblacional entre los
promedios comparados se encuentra entre 1,76 y 8,24 puntos. Este mismo argumento
sirve para la segunda comparacin; pero el intervalo obtenido para la segunda compa-
racin incluye el valor cero y esto significa que no puede afirmarse que el tercer grupo
difiera del grupo control.
diseados para controlar la tasa de error cuando se llevan a cabo todas las comparaciones
posibles, ya sean comparaciones por pares (como la prueba de Tukey), ya sean comparacio-
nes de cualquier otro tipo (como la prueba de Scheff).
Prueba de Tukey
La prueba de Tukey (1953) representa uno de los primeros intentos por controlar la tasa de
error cuando se realizan comparaciones mltiples. Est diseada especficamente para contro-
lar la tasa de error cuando se llevan a cabo las J (J ! 1) / 2 posibles comparaciones por pares
(comparaciones dos a dos) entre J medias.
Se basa en la distribucin del rango studentizado (derivada, al igual que la t de Student,
por William Sealy Gosset). La diferencia entre estas dos distribuciones radica en que la dis-
tribucin del rango studentizado tiene en cuenta el nmero de medias involucradas en el
conjunto de comparaciones. Si J = 2, el procedimiento de Tukey, basado en la distribucin
del rango studentizado, es equivalente a la prueba T para dos muestras independientes, basa-
da en la distribucin t de Student. Los puntos crticos q de la distribucin del rango stu-
dentizado se encuentran en la Tabla L del Apndice final (para F = 0,05 y F = 0,01).
La estrategia propuesta por Tukey para realizar las J (J ! 1) / 2 comparaciones por pares
entre J medias consiste en obtener un valor llamado DMS (diferencia mnima significativa)
que
_ es _ la diferencia mnima (en valor absoluto) que debe darse entre dos medias muestrales,
Y j e Y j N, para decidir que las correspondientes medias poblacionales son distintas24:
En las ecuaciones [6.41] y [6.42] se est asumiendo que todos los grupos tienen el mismo ta-
mao (n1 = n2 = = nJ = n). Si los tamaos de los grupos no son iguales, Kramer (1956) ha
demostrado que el procedimiento de Tukey sigue siendo vlido si se aplica la siguiente mo-
dificacin:
24
Lo que estamos llamando diferencia mnima significativa de Tukey (DMSTukey) es la diferencia honestamente significati-
va de Tukey (honestly significant difference: HSD ). El propio Tukey ha desarrollado una variante de este procedimiento
al que ha llamado diferencia completamente significativa (WSD). Este otro procedimiento aparece en el SPSS como Tukey-b
y ofrece una solucin intermedia entre el valor de DMSTukey y el valor de DMSS-N-K (Student-Newman-Keuls) para medias
separadas r pasos (la DMSS-N-K se describe en el Apndice 6, en el apartado Comparaciones mltiples por pares: procedi-
mientos alternativos).
25
En realidad, el error tpico de la diferencia entre dos medias es y el punto crtico con el que se construye el
valor de DMS Tukey es . Los clculos se simplifican eliminando de ambas expresiones.
Captulo 6. ANOVA de un factor 221
Sustituyendo DMS Tukey por DMS Tukey-Kramer en [6.42] pueden obtenerse intervalos de confian-
za cuando los tamaos muestrales no son iguales26.
La prueba de Tukey y la modificacin de Kramer no son los nicos procedimientos post
hoc disponibles para llevar a cabo comparaciones por pares. De hecho, existen multitud de
procedimientos para realizar comparaciones por pares. En el apartado Comparaciones post
hoc: procedimientos alternativos del Apndice 6 se describen varios ms; tambin se des-
criben procedimientos vlidos para cuando no es posible asumir que las varianzas pobla-
cionales son iguales.
6. Decisin: los valores =5y = 7 son mayores que DMS Tukley = 4,02. Por tanto,
podemos afirmar que la media del grupo 2 difiere significativamente tanto de la media
del grupo 1 como de la media del grupo 3. No puede afirmarse, sin embargo, que las
medias de los grupos 1 y 3 sean distintas ( = 2 < 4,02). Parece, por tanto, que el
rendimiento es ms alto con niveles de ansiedad medios que con niveles bajos o altos.
26
Hochberg (1974) ha propuesto el procedimiento GT2 como alternativa al de Tukey-Kramer para el caso de varianzas
poblacionales iguales y tamaos muestrales distintos, pero la solucin de Hochberg es algo ms conservadora que la de
Tukey-Kramer y, por tanto, menos recomendable (ver Dunnett, 1980a). La DMS de Hochberg es idntica a [6.42] con la
nica diferencia de que el cuantil q se busca en la distribucin del mdulo mximo studentizado (ver Pardo y San Martn,
1998, Tabla K del Apndice final) con k = J (J ! 1) / 2 y gl grados de libertad (gl se obtiene con la ecuacin [6.37]).
222 Anlisis de datos (vol. II)
Prueba de Scheff
La prueba de Scheff (1953) permite valorar simultneamente no solo las posibles compa-
raciones por pares entre J medias, sino cualquier otro tipo de comparacin. Es decir, cual-
quier comparacin que pueda plantearse en el formato de la ecuacin [6.25].
Por tanto, la prueba de Scheff permite contrastar el mismo tipo de hiptesis que la prue-
ba de Dunn-Bonferroni. La diferencia entre ellas est en la forma de controlar la tasa de error.
La prueba de Dunn-Bonferroni (que utiliza C = F / k) controla bien la tasa de error cuando
se llevan a cabo unas pocas comparaciones (preferiblemente ortogonales, aunque no nece-
sariamente), pero se va haciendo conservadora conforme va aumentando el nmero de com-
paraciones. La prueba de Scheff controla la tasa de error para el total de posibles compa-
raciones entre J medias; si se utiliza para valorar solamente unas pocas comparaciones (por
ejemplo, para valorar solamente las comparaciones por pares), es muy conservadora.
La prueba de Scheff se basa en la distribucin F y, por tanto, exige, al igual que el es-
tadstico F, trabajar con poblaciones normales y homocedsticas. Como en otros procedi-
mientos estudiados, se considera que una comparacin es significativamente distinta de
cero si su valor absoluto es mayor que
= [6.45]
En el caso de que no pueda asumirse que las varianzas poblacionales son iguales, Brown y
Forsythe (1974b) recomiendan utilizar
6. Decisin: los valores =5y = 7 son mayores que DMS Tukley = 4,19. Por tanto,
puede concluirse que la media del grupo 2 difiere significativamente tanto de la media
del grupo 1 como de la media del grupo 3; y no hay evidencia de que las medias de los
224 Anlisis de datos (vol. II)
Supuestos
Por lo general, la primera tarea que hay que abordar al analizar unos datos es la de intentar
formarnos una idea lo ms exacta posible acerca de sus caractersticas. Con una variable ca-
tegrica o factor y una cuantitativa o dependiente, que es el caso que estamos considerando
en todo este captulo, esta tarea inicial se lleva a cabo calculando varios estadsticos descrip-
tivos y obteniendo algn grfico con el doble objetivo de (1) valorar el centro, la dispersin
y la forma de la distribucin de la variable dependiente en cada grupo y (2) detectar posibles
anomalas en los datos. Esta fase inicial tambin suele incluir el chequeo de los supuestos en
los que se basarn las herramientas inferenciales que se tenga intencin de utilizar ms tar-
de. El procedimiento Explorar suele ser el ms indicado para hacer todo esto.
En este apartado se muestra cmo utilizar el procedimiento Explorar para obtener algu-
nos estadsticos descriptivos y para contrastar los supuestos del ANOVA de un factor: norma-
lidad y homogeneidad o igualdad de varianzas (el supuesto relativo a la independencia de las
puntuaciones puede contrastarse mediante la prueba de las rachas descrita en el Captulo 2):
' Reproducir en el Editor de datos los datos de la Tabla 6.2 (o abrir el archivo Tabla 6.2
ansiedad rendimiento que se encuentra en la pgina web del manual).
' Seleccionar la opcin Estadsticos descriptivos > Explorar del men Analizar para acceder
al cuadro de dilogo Explorar y trasladar la variable rendimiento a la lista Dependientes
y la variable ansiedad a la lista Factores.
' Pulsar el botn Grficos para acceder al subcuadro de dilogo Explorar: Grficos y mar-
car la opcin Grficos con pruebas de normalidad y la opcin No transformados del recuadro
Dispersin por nivel con prueba de Levene27. A las opciones correspondientes a los diagra-
27
Ya hemos sealado (ver, en este mismo captulo, el apartado Transformacin de las puntuaciones) que, cuando se incum-
plen el supuesto de normalidad o el de igualdad de varianzas, existe la posibilidad de aplicar algn tipo de transformacin
a los datos originales para conseguir normalizarlos y homogeneizar las varianzas. Una transformacin basada en potencias
(opcin Estimacin de potencia) consiste en elevar las puntuaciones originales a una potencia especfica. Para determinar el
valor de esa potencia, el SPSS genera un grfico de dispersin comparando, en cada grupo, el logaritmo natural de la media-
na (en el eje de horizontal) con el logaritmo natural de la amplitud intercuartil (en el eje de vertical). Cuando las varianzas
son iguales, los puntos del grfico (tantos como grupos) se encuentran a la misma altura, es decir, alineados horizontalmen-
te. El grfico tambin incluye el valor de la pendiente (inclinacin) de la recta de regresin mnimo-cuadrtica (ver Captu-
lo 10). Basndose en el valor de esa pendiente, el SPSS ofrece una estimacin de la potencia a la que habra que elevar las
puntuaciones originales de la variable dependiente para intentar homogeneizar las varianzas de esa variable en cada nivel
de la variable factor (no siempre se consigue). El valor de esta potencia se estima restando a uno el valor de la pendiente
de la recta de regresin. Aunque la potencia as estimada puede tomar cualquier valor, lo habitual es utilizar potencias re-
dondeadas a mltiplos de 0,5 (incluyendo el cero). Algunas de las potencias ms utilizadas son las siguientes: !1 = rec-
proco; 1/2 = recproco de la raz cuadrada; 0 = logaritmo natural; = raz cuadrada; 1 = sin transformacin;
2 = cuadrado; 3 = cubo. Todas estas transformaciones, que son las habitualmente recomendadas para transformar da-
tos, estn recogidas en la opcin Transformados.
Una vez estimada la potencia apropiada para homogeneizar las varianzas, puede utilizarse la opcin Transformados para
aplicar la transformacin sugerida por el SPSS. Esta opcin incluye, dentro de la lista desplegable Potencia, las siguientes
transformaciones: logaritmo natural, recproco de la raz cuadrada, recproco, raz cuadrada, cuadrado y cubo. Todas ellas
intentan homogeneizar las varianzas alterando (aumentando en unos casos y disminuyendo en otros) las varianzas de las
distribuciones y corrigiendo el grado de asimetra.
Al solicitar un grfico de dispersin por nivel seleccionando algn tipo de transformacin, tanto la prueba de Levene
como el grfico de dispersin se obtienen a partir de los datos transformados. Pero, excepto en el caso de la transformacin
logartmica, al solicitar una transformacin basada en alguna de las potencias disponibles, el grfico de dispersin por ni-
vel se obtiene a partir de la mediana y de la amplitud intercuartlica, no a partir de sus logaritmos (estos logaritmos son los
que se utilizan en las opciones Estimacin de potencia y No transformados).
Captulo 6. ANOVA de un factor 227
mas de caja y al resto de los grficos (tallo y hojas, histograma) no les prestaremos aten-
cin en este ejemplo; para esto, ver el Captulo 4 del primer volumen).
Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 6.3 a 6.5.
Para describir el rendimiento en cada grupo de ansiedad, la Tabla 6.3 incluye algunos esta-
dsticos referidos a las tres propiedades de una distribucin a las que hay que prestar atencin
para poder formarnos una idea precisa sobre las caractersticas de los datos: centro (media,
media recortada y mediana), dispersin (varianza, desviacin tpica, amplitud o rango y am-
plitud intercuartil) y forma (ndices de asimetra y curtosis). A la espera de lo que digan los
contrastes de normalidad e igualdad de varianzas, el hecho de que los ndices de asimetra y
curtosis sean menores que sus respectivos errores tpicos est indicando que en las pobla-
ciones muestreadas no parece haber problemas de asimetra ni de curtosis. Los diagramas de
caja (ver Figura 6.1) apuntan en la misma direccin: no muestran asimetras ni tampoco
excesiva dispersin; tampoco hay indicios de casos anmalos o atpicos.
Las pruebas de normalidad de la Tabla 6.4 (los detalles de estas pruebas se explican en
el en el Captulo 2) indican que no hay motivos para preocuparse por este supuesto. En nin-
guno de los tres casos (tres grupos) se rechaza la hiptesis de normalidad ( p > 0,05 tanto con
la prueba de Kolmogorov-Smirnov como con la de Shapiro-Wilk).
Tampoco parece que haya que preocuparse por el supuesto relativo a la igualdad de las va-
rianzas (ver Tabla 6.5). Tanto la prueba de Levene (basada en las medias y en las medias re-
cortadas) como la de Brown-Forsythe (basada en las medianas, con y sin correccin de los
grados de libertad) tienen asociados valores p (sig.) mayores que 0,05.
28
Puede seleccionarse ms de una variable dependiente: el SPSS genera un anlisis de varianza completo por cada variable
dependiente seleccionada.
Captulo 6. ANOVA de un factor 229
primeras. Puesto que el nivel crtico o valor p asociado al estadstico F (sig. = 0,001) es me-
nor que 0,05, lo razonable es rechazar la hiptesis de igualdad de medias y concluir que el
rendimiento medio no es el mismo en las tres poblaciones compradas.
En el caso de que no pueda asumirse que las varianzas poblacionales son iguales, los esta-
dsticos de Welch y de Brown-Forsythe (ver Apndice 6) ofrecen una solucin robusta pa-
ra el contraste de la hiptesis de igualdad de medias. La Tabla 6.7 incluye el valor de estos
estadsticos junto con sus grados de libertad y niveles crticos. Puesto que el valor p asocia-
do a ambos (sig.) es menor que 0,05, la decisin sobre la hiptesis de igualdad de medias es
la misma que con el estadstico F de la Tabla 6.6.
= = 0,38
230 Anlisis de datos (vol. II)
Tabla 6.8. Resumen del ANOVA de un factor (procedimiento MLG > Univariante)
Variable dependiente: Rendimiento
Suma de Eta al Parmetro
cuadrados Media cuadrado de no Potencia
a
Fuente tipo III gl cuadrtica F Sig. parcial centralidad observada
b
Modelo corregido 260,00 2 130,00 9,92 ,001 ,423 19,831 ,972
Interseccin 3.000,00 1 3.000,00 228,81 ,000 ,894 228,814 1,000
ansiedad 260,00 2 130,00 9,92 ,001 ,423 19,831 ,972
Error 354,00 27 13,11
Total 3.614,00 30
Total corregida 614,00 29
a. Calculado con alfa = ,05
b. R cuadrado = ,423 (R cuadrado corregida = ,381)
29
Todos los estadsticos disponibles en este subcuadro de dilogo persiguen el mismo objetivo: controlar la tasa de error
cuando se realizan comparaciones post hoc. Ya hemos explicado las diferencias entre ellos y hemos recomendado cules
elegir en cada caso. En este ejemplo nos vamos a centrar en uno de ellos: Tukey. El SPSS ofrece para todos ellos la misma
informacin; y todos ellos se interpretan de la misma manera.
Captulo 6. ANOVA de un factor 231
de la hiptesis nula de que esa diferencia vale cero en la poblacin (sig.) y (4) el intervalo
de confianza para a cada diferencia. Por ejemplo, la diferencia entre el nivel de ansiedad
medio y el nivel de ansiedad bajo vale 5 puntos; el error tpico de esa diferencia vale 1,62;
y el nivel crtico o valor p asociado al contraste de esa diferencia vale sig. = 0,012. Puesto
que 0,012 < 0,05, puede concluirse que las medias poblacionales de esos dos grupos son dis-
tintas. Los valores p asociados a cada comparacin indican que el grupo medio difiere tan-
to del grupo bajo como del grupo alto y que estos dos grupos no difieren significativamente.
Los intervalos de confianza de las dos ltimas columnas permiten: (1) estimar entre qu
limites se encuentra la diferencia poblacional entre las medias de los grupos comparados y
(2) contrastar la hiptesis nula de que las medias poblacionales de los dos grupos compara-
dos son iguales. Rechazar esta hiptesis cuando el intervalo de confianza no incluye el valor
cero es equivalente a rechazarla cuando el nivel crtico (sig.) es menor que 0,05.
Tabla 6.9. Comparaciones mltiples post hoc: prueba de Tukey (procedimiento ANOVA de un factor)
Variable dependiente: Rendimiento
HSD de Tukey
Intervalo de confianza
al 95%
(I) Nivel de (J) Nivel de Diferencia de Error
ansiedad ansiedad medias (I-J) tpico Sig. L. inferior L. superior
Bajo Medio -5,00* 1,62 ,012 -9,01 -,99
Alto 2,00 1,62 ,443 -2,01 6,01
Medio Bajo 5,00* 1,62 ,012 ,99 9,01
Alto 7,00* 1,62 ,001 2,99 11,01
Alto Bajo -2,00 1,62 ,443 -6,01 2,01
Medio -7,00* 1,62 ,001 -11,01 -2,99
*. La diferencia de medias es significativa al nivel .05.
La Tabla 6.10 ofrece una clasificacin de los grupos (niveles del factor) basada en el grado
de parecido existente entre sus medias, es decir, basada en los resultados de la Tabla 6.9.
Cada subconjunto de la tabla incluye los grupos cuyas medias no difieren significativamen-
te entre s; los grupos cuyas medias difieren significativamente aparecen en subconjuntos
distintos. En la Tabla 6.10, por ejemplo, en el subconjunto 1 estn incluidos dos grupos (alto
y bajo) cuyas medias no difieren significativamente (sig. = 0,443); y en el subconjunto 2 est
incluido un solo grupo (medio) que difiere de los dos anteriores y que, obviamente, no difie-
re de s mismo (sig. = 1,00). Esta clasificacin de los grupos en subconjuntos no est dispo-
nible con todos los mtodos post-hoc, sino solamente con algunos: S-N-K, Tukey, Tukey-b,
Duncan, Scheff, Gabriel, R-E-G-W F y Q, GT2 de Hochberg y Waller-Duncan.
cia lineal es nula y se concluye que no es posible afirmar que entre la ansiedad y el rendi-
miento exista relacin lineal significativa.
A continuacin aparece informacin referida al resto de tendencias todava no contras-
tadas (desviacin). Puesto que en este ejemplo nicamente es posible valorar las tendencias
lineal y cuadrtica (recordemos que con tres grupos solamente es posible valorar dos ten-
dencias), la nica tendencia todava no contrastada es la cuadrtica. El nivel crtico asociado
a las tendencias no contrastadas (sig. < 0,0005) indica que entre las de orden mayor que el
lineal existe alguna que es significativa. En el ejemplo esa nica tendencia es la cuadrtica.
Y es significativamente distinta de cero. Los resultados correspondientes al trmino cua-
drtico son idnticos a los de la desviacin del trmino lineal.
Puede concluirse, por tanto, que la relacin entre las variables ansiedad y rendimiento
es cuadrtica. El grfico de lneas (Figura 6.2) muestra con claridad lo que est ocurriendo
(este grfico se ha obtenido mediante la opcin Grfico de las medias del subcuadro de dilo-
go ANOVA de un factor: Opciones).
Tabla 6.11. Resumen del ANOVA con comparaciones de tendencia (procedimiento ANOVA de un factor)
Rendimiento
Suma de Media
cuadrados gl cuadrtica F Sig.
Inter-grupos (Combinados) 260,00 2 130,00 9,92 ,001
Trmino lineal Contraste 20,00 1 20,00 1,53 ,227
Desviacin 240,00 1 240,00 18,31 ,000
Trmino cuadrtico Contraste 240,00 1 240,00 18,31 ,000
Intra-grupos 354,00 27 13,11
Total 614,00 29
Las Tablas 6.12 y 6.13 contienen la informacin relativa a las dos comparaciones planeadas
que se han solicitado. La Tabla 6.12 muestra los coeficientes asignados. Estos coeficientes
sirven para identificar las comparaciones que se estn llevando a cabo y, por supuesto, para
comprobar que, efectivamente, se corresponden con las dos comparaciones solicitadas. La
Tabla 6.13 ofrece los resultados de ambas comparaciones agrupados en dos bloques. En el
primero de ellos, las comparaciones estn evaluadas asumiendo que las varianzas pobla-
234 Anlisis de datos (vol. II)
cionales son iguales; en el segundo, sin asumir igualdad de varianzas. Aunque es habitual que
ambas estrategias lleven a la misma conclusin, debe utilizarse la que se ajuste a las carac-
tersticas de los datos; para tomar esta decisin debe tenerse en cuenta el resultado obtenido
previamente al evaluar la hiptesis de igualdad de varianzas mediante la prueba de Levene.
Puesto que el contraste de Levene aplicado a los datos del ejemplo permite asumir varianzas
poblacionales iguales (ver Tabla 6.5), la decisin sobre la hiptesis de que los promedios
comparados son iguales puede basarse en el primer bloque de informacin (asumiendo
igualdad de varianzas).
La tabla muestra, para cada uno de los dos contrastes definidos, el valor del contraste,
su error tpico, el estadstico del contraste (t), sus grados de libertad y el nivel crtico (sig.
bilateral ). La hiptesis nula que se pone a prueba con cada contraste es que los promedios
poblacionales comparados son iguales. Teniendo en cuenta los niveles crticos asociados a
cada contraste debe decidirse: (1) mantener la hiptesis nula referida al primer contraste
(pues 0,227 > 0,05) y (2) rechazar la referida al segundo contraste (pues 0,0005 < 0,05). En
consecuencia, puede concluirse, en primer lugar, que no existe evidencia para pensar que el
rendimiento medio de los grupos 1 y 3 sea distinto; y, en segundo lugar, que el rendimiento
medio del grupo 2 difiere significativamente del rendimiento medio de los dos grupos to-
mados juntos.
Apndice 6
Distribucin muestral del estadstico F
Hemos definido el estadstico F como el cociente entre MCA y MCE. Sabemos que, si es un esti-
mador insesgado de , la transformacin
[6.47]
Captulo 6. ANOVA de un factor 235
es una variable con n ! 1 grados de libertad (ver, en el Apndice 6 del primer volumen, el apartado
Distribucin muestral del estadstico varianza). Tambin sabemos (ver ecuacin [6.4]) que, si las J
medias poblacionales son iguales, MCA es un estimador insesgado de . Por tanto, la transformacin
[6.48]
se distribuye segn con J ! 1 grados de libertad. Y tambin sabemos, por ltimo, que, tanto si las
medias poblacionales son iguales como si no, MCE es un estimador insesgado de (ver ecuacin
[6.2]). Por tanto, la transformacin
[6.49]
= [6.50]
Por tanto, puesto que [6.48] y [6.49] son dos variables independientes, el conciente entre ambas
tras dividirlas por sus respectivos grados de libertad es una variable F con los grados de libertad de
[6.48] y [6.49]:
= = [6.51]
Al igual que ocurre con otras distribuciones de probabilidad tericas (binomial, normal, , t), no exis-
te una nica distribucin F sino toda una familia. La diferencia entre cada distribucin F nicamente
est en los grados de libertad, es decir, en gl1 y gl2.
Puesto que una variable F es el cociente de dos variables ji-cuadrado, es decir, el cociente de dos
variables asimtricas positivas, su distribucin tambin es asimtrica positiva. En relacin con la for-
ma de la distribucin F, los grficos de la Figura 6.3 muestran: (1) asimetra extrema cuando gl1 = 2,
sin importar cmo de grande es gl2 ; y (2) reduccin paulatina del grado de asimetra conforme va
aumentando el valor de gl1.
En el eje horizontal de estos grficos estn representados los valores F ; en el vertical, sus densi-
dades. Cada grfico se corresponde con un valor de gl1: 2, 4, 6, 8, 10 y 12. Y las distintas curvas den-
tro de un mismo grfico se corresponden con diferentes valores de gl2: 20, 50, 100 y 500. El rango de
valores representados permite formarse una idea bastante precisa de cmo va cambiando la forma de
la distribucin. Cuando gl1 = 2, los valores de gl2 apenas alteran la forma de la distribucin; las cua-
tro curvas dibujadas estn tan solapadas que parece que solamente hay una curva; el cuantil 95 (que
es el que habitualmente se utiliza para tomar decisiones en el anlisis de varianza), vara entre el va-
lor F = 3,49 para gl2 = 20 y el valor F = 3,01 para gl2 = 500. Conforme va aumentando gl1, las curvas
correspondientes a los diferentes valores de gl2 se van separando un poco ms; y tambin va dismi-
nuyendo el grado de asimetra (las curvas ms altas y ms estrechas corresponden a ms grados de
libertad). Con gl1 = 12, los valores de gl2 permiten distinguir cuatro curvas distintas; sin embargo, las
30
MCA y MCE son estimadores independientes de , pues MCA se basa en las medias muestrales y MCE se basa en las
varianzas muestrales. Y no olvidemos que la media y la varianza de una distribucin normal, caso en el que nos encontra-
mos, son independientes.
236 Anlisis de datos (vol. II)
diferencias en el cuantil 95 se mantienen en aproximadamente medio punto (igual que con gl1 = 2): el
cuantil 95 vara entre el valor F = 2,28 para gl2 = 20 y el valor F = 1,77 para gl2 = 500.
Figura 6.3. Distribuciones F con diferentes grados de libertad (gl2 = 20, 50, 100, 500).
gl1 = 2 gl1 = 4 gl1 = 6
Tabla de la distribucin F
Al igual que con otras distribuciones de probabilidad estudiadas, el trabajo con la distribucin F sue-
le limitarse a calcular la proporcin de rea bajo la curva asociada a diferentes valores del eje horizon-
tal o a encontrar el valor concreto del eje horizontal asociado a una determinada proporcin de rea
bajo la curva. Para esta tarea, asumimos que toda el rea bajo la curva vale 1 y, por tanto, que hablar
de proporcin de rea es equivalente a hablar de probabilidad.
La Tabla F del Apndice final ofrece los cuantiles 95 y 99 de la distribucin F. Las cabeceras de
las columnas (gl1) contienen los grados de libertad del numerador del estadstico F ; las cabeceras de
las filas (gl2) contienen los grados de libertad del denominador. Por tanto, cada valor del interior de la
tabla corresponde a una distribucin F distinta. Estos valores son los que acumulan, en sus respectivas
distribuciones, un rea bajo la curva de tamao 1 ! = 0,95 y 1 ! = 0,99.
Con 1 ! = 0,95, el valor F que corresponde a gl1 = 2 y gl2 = 24 es 3,40. Esto significa que, en
la distribucin F con 2 y 24 grados de libertad, el valor 3,40 acumula (o sea, deja por debajo o a la
izquierda) una proporcin de rea de tamao 0,95. Es decir,
P (F < 3,40) = F (3,40) = 0,95
Ahora bien, si por debajo del valor 3,40 queda una proporcin de rea de tamao 0,95, entonces la
probabilidad de encontrar valores F menores que 3,40 vale 0,95 (esto es lo que se quiere indicar al de-
cir que proporcin de rea es equivalente a probabilidad). Para representar este resultado utilizamos
la siguiente expresin:
F2, 24; 0,95 = 3,40
Los dos primeros subndices se refieren a los grados de libertad; el tercero, a la proporcin de rea que
queda a la izquierda cada valor F (probabilidad acumulada). La tabla nicamente ofrece los cuantiles
95 y 99 de algunas distribuciones F. Para conocer otros valores puede utilizarse un programa infor-
mtico como el SPSS.
Captulo 6. ANOVA de un factor 237
FWelch = [6.52]
donde
Brown y Forsythe (1974b) han propuesto una modificacin del estadstico F cuya lgica es algo
ms intuitiva que la de FWelch y que sirve igualmente para contrastar la hiptesis global de igualdad de
medias cuando no puede asumirse que las varianzas poblacionales son iguales:
FBrown-Forsythe = [6.53]
gl = con = [6.54]
donde q, al igual que en el procedimiento de Tukey, es el valor de la distribucin del rango studen-
tizado que acumula una probabilidad 1 ! F con J medias y gl grados de libertad (gl se obtiene con la
ecuacin [6.37]). No obstante, el mtodo de Games-Howell se vuelve algo liberal con tamaos mues-
trales pequeos. En estos casos es preferible utilizar la DMS basada en el estadstico T3 de Dunnett32
(1980b):
donde q es el valor de la distribucin del mdulo mximo studentizado (ver Pardo y San Martn, 1998,
Tabla K del Apndice final) que acumula una probabilidad 1 ! F con k = J (J ! 1) / 2 y gl grados de
libertad (gl se obtiene con la ecuacin [6.37]).
Mtodos secuenciales
No todos los procedimientos diseados para llevar a cabo comparaciones a posteriori por pares se ba-
san en la misma lgica. Mientras la prueba de Tukey, por ejemplo, utiliza un mismo nivel de signifi-
cacin y un nico punto crtico (una nica DMS) para las J (J !1) / 2 posibles comparaciones por pares,
31
Dunnett (1980b) ha propuesto una solucin similar a la de Games-Howell: el mtodo C. Este mtodo consiste en utilizar
como estimacin de los grados de libertad del error (gl) la solucin de Cochran y Cox (ver Pardo y San Martn, 1998,
Captulo 4, ecuacin [4.13]), en lugar de la solucin de Welch (que es lo que hace el mtodo de Games-Howell).
32
El estadstico T3 de Dunnett se basa en el T2 de Tamhane (1977, 1979). El estadstico T2 utiliza como estimacin del
error tpico de la diferencia de medias el mismo valor que el estadstico T3 de Dunnett, pero se basa en la distribucin t de
Student y utiliza la desigualdad de Sidk para controlar la tasa de error (ver, en este mismo captulo, la nota a pie de pgina
nmero 21). El valor t que se utiliza en la ecuacin de la DMS es el cuantil 100 (1 ! /2)1/k de la distribucin t de Student
con gl grados de libertad (gl se obtiene con la ecuacin [6.37]) y k = J (J ! 1)/ 2.
Captulo 6. ANOVA de un factor 239
otros procedimientos realizan las comparaciones por pasos o de forma secuencial, cambiando el nivel
de significacin y el punto crtico en cada paso.
En los mtodos secuenciales, tras ordenar de forma ascendente las J medias por su tamao, las
comparaciones entre pares de medias se llevan a cabo teniendo en cuenta el nmero de pasos (r) que
separan a las medias comparadas: con J medias, la media ms pequea y la ms grande estn separa-
das r = J pasos; la media ms pequea y la segunda ms grande estn separadas r = J ! 1 pasos; la
media ms pequea y la tercera ms grande estn separadas r = J ! 2 pasos; etc. Dos medias adya-
centes tras la ordenacin estn separadas r = 2 pasos. El nmero de pasos existente entre las medias
comparadas condiciona el nivel de significacin (y, por tanto, el punto crtico) con el que se evala
cada comparacin. En este apartado se describen dos de estos mtodos secuenciales33: la prueba de
Student-Newman-Keuls y la de Ryan-Einot-Gabriel-Welch.
La prueba de Student-Newman-Keuls (S-N-K) fue propuesta inicialmente por Gosset (1927),
Newman (1939) y Keuls (1952), y ha sido muy revitalizada en las ltimas dcadas (ver Jaccard, Bec-
ker y Wood, 1984; Toothaker, 1991). Utiliza, al igual que la prueba de Tukey, un estadstico basado
en la distribucin del rango studentizado, pero, a diferencia de la de Tukey, la prueba de S-N-K sigue
una estrategia secuencial basada en una ordenacin de las medias por su tamao.
La diferencia mnima significativa de Student-Newman-Keuls (DMSSNK) se calcula de la misma
manera que DMSTukey (ver ecuacin [6.27]), con la nica diferencia de que los grados de libertad que
se utilizan para obtener el cuantil 100(1 ! F) de la distribucin del rango studentizado cambian:
donde el procedimiento de Tukey utiliza J para obtener un nico punto crtico q y, en consecuencia,
un nico valor DMSTukey, el procedimiento S-N-K utiliza r = nmero de pasos entre las medias com-
paradas para obtener tantos puntos crticos como valores r distintos pueda haber con J medias:
DMSS-N-K = [6.57]
Por ejemplo, con cuatro grupos (J = 4), la media ms grande y la ms pequea estn separadas 4 pa-
sos; para comparar esas dos medias, el valor de DMSS-N-K se obtiene utilizando r = 4 grados de liber-
tad. Las medias 1-3 y 2-4, que se encuentran separadas 3 pasos, se comparan utilizando r = 3. Y las
medias 1-2, 2-3 y 3-4, que estn separadas 2 pasos, se comparan utilizando r = 2.
En todos los casos se contrasta la hiptesis nula de que las dos medias comparadas son iguales, es
decir, H0: j = j . Estas comparaciones se llevan a cabo de forma secuencial, por pasos:
1. Se compara la media ms grande con la ms pequea, es decir, las dos medias separadas r = J
pasos. Si se mantiene la hiptesis nula referida a esta primera comparacin, se detiene el proce-
so y se concluye que entre las J medias consideradas no se han encontrado diferencias signifi-
cativas. Si se rechaza la hiptesis nula, se contina con el paso 2.
2. Se comparan las medias separadas r = J ! 1 pasos, pero por orden. Primero se comparan las dos
medias cuya diferencia es mayor; si se mantiene la hiptesis nula referida a esa comparacin, se
detiene el proceso y se consideran no significativas el resto de diferencias; si se rechaza la hip-
tesis nula, se comparan las dos medias cuya diferencia es la siguiente mayor. Si se rechazan todas
las hiptesis referidas a las medias separadas r = J ! 1 pasos, se contina con el paso 3.
3. Se comparan las medias separadas r = J ! 2 pasos, tambin por orden y siguiendo la misma l-
gica del paso 2.
4. Se contina el proceso hasta que se obtiene una diferencia no significativa o hasta que se compa-
ran todas las medias separadas r = 2 pasos.
33
Existen otros mtodos secuenciales adems de los dos incluidos aqu. Duncan (1955), por ejemplo, ha propuesto un m-
todo secuencial, conocido como prueba del rango mltiple, que se basa en la misma lgica que la de Student-Newman-Keuls
pero utilizando como nivel de significacin para cada grupo de medias separadas r pasos el valor r = 1 ! (1 ! ) r!1. A pe-
sar de su amplia utilizacin en el pasado, la prueba del rango mltiple parece ms bien poco recomendable (ver Seaman,
Levin y Serlin, 1991).
240 Anlisis de datos (vol. II)
La consecuencia de esta forma de proceder es que, para J > 3, la tasa de error por familia de compa-
raciones (F) es siempre mayor que el nivel de significacin nominal (ver, por ejemplo, Keselman,
Keselman y Games, 1991). De hecho, lo que hace el procedimiento SNK es controlar F para cada
conjunto de medias separadas r pasos.
Cuantos ms pasos existen entre dos medias, mayor es la diferencia mnima necesaria para consi-
derar que esas medias difieren significativamente. Esto convierte al procedimiento de S-N-K en ms
potente que el de Tukey, pero a costa de incrementar la tasa de error por familia de comparaciones (F).
La prueba de Ryan-Einot-Gabriel-Welsch (R-E-G-W Q) debe su nombre a varios participan-
tes en su diseo final. Ryan (1960) propuso una modificacin del procedimiento de S-N-K para ate-
nuar la disminucin tan rpida que se produce en el valor de DMSSNK como consecuencia de la dismi-
nucin de r. Segn la propuesta de Ryan, es posible controlar F si, al comparar dos medias sepa-
radas r pasos, en lugar de utilizar (como hace el procedimiento de S-N-K), se utiliza r = / (J / r).
Puesto que la fraccin J / r aumenta conforme disminuye r, el valor de r ser tanto ms pequeo cuan-
to menor sea r, lo cual significa que, aunque el valor de la DMS vaya disminuyendo con r, esta dis-
minucin ser ms lenta que la que se produce con el mtodo de S-N-K. De hecho, la solucin pro-
puesta por Ryan permite ejercer un buen control sobre la tasa de error.
La propuesta inicial de Ryan ha sufrido dos modificaciones en un intento de incrementar la po-
tencia del procedimiento sin alterar su control sobre F. En primer lugar, Einot y Gabriel (1975) han
propuesto utilizar r = 1 ! (1 ! )r/J; con esta solucin, r tambin disminuye conforme lo hace r, pero
ms despacio que en la solucin propuesta por Ryan. En segundo lugar, Welsch (1977) ha argumen-
tado que es posible incrementar todava ms la potencia del procedimiento sin perder control sobre F
si, permaneciendo todo igual, las medias separadas r = J ! 1 pasos se comparan utilizando (en lugar
de r ). Estas dos modificaciones de la propuesta inicial de Ryan unidas a la lgica del procedimien-
to de S-N-K es lo que se conoce como mtodo de R-E-G-W Q. La letra Q hace referencia a la distri-
bucin del rango studentizado.
Efectos aleatorios
Recordemos que los niveles concretos que adopta un factor de efectos fijos son los niveles que intere-
sa estudiar; por este motivo la hiptesis nula se plantea justamente sobre las medias poblacionales
correspondientes a esos niveles: H0: 1 = 2 = = J . Por el contrario, los niveles concretos que adop-
ta un factor de efectos aleatorios nicamente constituyen una muestra aleatoria de la poblacin de los
niveles que interesa estudiar; por este motivo la hiptesis nula no se plantea sobre las medias de los
niveles utilizados, sino sobre su varianza:
H0: = 0
( se refiere a la varianza de las medias de todos los posibles niveles del factor). Puesto que los ni-
veles de un factor de efectos aleatorios son solamente algunos de los posibles, la hiptesis debe refle-
jar, no la diferencia entre las medias de los niveles concretos utilizados, sino la diferencia entre todos
los posibles niveles del factor (y la varianza de esas medias ser cero cuando todas ellas sean iguales).
Por tanto, en un modelo de efectos aleatorios, el inters del anlisis no se centra en las medias de los
niveles del factor, sino en su varianza; en concreto, el inters se centra en intentar cuantificar la con-
tribucin de cada trmino aleatorio a la varianza de la variable dependiente.
En el modelo de un factor de efectos aleatorios hay dos trminos aleatorios: el factor y la varia-
ble dependiente (en el modelo de efectos fijos, el factor no se considera una variable aleatoria); y se
asume que la variabilidad de la variable dependiente dentro de cada nivel del factor es independiente
del nivel del factor (ste es el supuesto de igualdad de varianzas al que nos hemos referido repeti-
damente a lo largo de este captulo); por tanto, se verifica:
= + [6.58]
Captulo 6. ANOVA de un factor 241
Es decir, la varianza total (la varianza del conjunto de puntuaciones Y tomadas como si pertenecieran
a un nico grupo) es la suma de dos trminos o componentes independientes: la varianza del factor
( ; la varianza entre las medias de los niveles del factor) y la varianza de Y ( ; la varianza de la
variable dependiente en cada poblacin; se asume que todas las poblaciones tienen la misma varian-
za). De ah el nombre de componentes de la varianza que recibe esta versin del anlisis de varianza
(para profundizar en los modelos de efectos aleatorios, puede consultarse Rao y Kleffe, 1988; o Sear-
le, Casella y McCulloch, 1992).
El procedimiento ANOVA de un factor permite contrastar la hiptesis nula = 0 y estimar tanto
como . Veamos cmo hacer esto con un ejemplo. El ejemplo se basa en los mismos datos que hemos
analizado con el modelo de efectos fijos (Tabla 6.2; ejemplo sobre la relacin entre la ansiedad y el ren-
dimiento). Obviamente, un mismo factor (nivel de ansiedad: bajo, medio, alto) no puede ser de efectos
fijos y al mismo tiempo de efectos aleatorios. Sin embargo, vamos a utilizar los mismos datos para que
se entienda dnde estn las diferencias entre el modelo de efectos fijos y el de efectos aleatorios:
' Reproducir en el Editor de datos los datos de la Tabla 6.2 (o abrir el archivo Tabla 6.2 ansiedad
rendimiento que se encuentra en la pgina web del manual).
' Seleccionar la opcin Comparar medias > ANOVA de un factor del men Analizar para acceder al cua-
dro de dilogo ANOVA de un factor y trasladar la variable rendimiento a la lista Dependiente y la
variable ansiedad al cuadro Factor.
' Pulsar el botn Opciones para acceder al subcuadro de dilogo ANOVA de un factor: Opciones y
marcar la opcin Efectos aleatorios y fijos. Pulsar el botn Continuar para volver al cuadro de dilo-
go principal.
Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 6.14 y 6.15. La Ta-
bla 6.14 muestra el resumen del ANOVA y es idntica a la que ya hemos obtenido cuando hemos
asumido que el factor ansiedad era de efectos fijos (ver Tabla 6.6). Por tanto, en el modelo de un factor,
ni las medias cuadrticas ni el estadstico F cambian porque el factor sea de efectos fijos o de efectos
aleatorios. La nica diferencia en este punto est en que, ahora, la hiptesis nula que se est contras-
tando se refiere a la varianza de las medias del factor. Cuando el factor es de efectos fijos, el rechazo
de la hiptesis de igualdad de medias permite concluir que los promedios comparados no son iguales;
y como los niveles del factor son justamente los que interesa estudiar, tiene sentido realizar compa-
raciones mltiples para indagar entre qu medias en concreto se dan las diferencias. Cuando el factor
es de efectos aleatorios, el rechazo de la hiptesis nula permite concluir que el nivel de ansiedad est
relacionado con el rendimiento; y como los niveles concretos del factor solamente son una muestra
aleatoria de los posibles niveles, no tiene sentido realizar comparaciones mltiples entre ellos.
La novedad del anlisis en relacin con el hecho de estar utilizando un factor de efectos aleatorios se
encuentra en la Tabla 6.15. La ltima columna de la tabla (componentes de la varianza) ofrece una
estimacin de la varianza del factor ( = 11,69). De acuerdo con la relacin establecida en [6.58], es-
ta estimacin de la varianza del factor puede utilizarse para conocer cmo de grande es la variabilidad
debida al factor en comparacin con la variabilidad total:
CCI = [6.59]
242 Anlisis de datos (vol. II)
Puesto que el CCI (coeficiente de correlacin intraclase) est calculado como el tamao relativo de la
varianza de las medias del factor respecto de la varianza total, lo que realmente est expresando es la
proporcin de varianza comn o compartida entre el factor y la variable dependiente.
Para obtener CCI mediante [6.59], adems de , necesitamos , es decir, una estimacin de la va-
rianza de Y en cada poblacin; pero la tenemos. Recordemos que, puesto que estamos asumiendo que
las varianzas poblacionales son iguales, la mejor estimacin de esa nica varianza poblacional se ob-
tiene promediando las J varianzas muestrales, es decir, calculando MCE. Y este clculo lo incluye la
Tabla 6.14 (MCE = 13,11). Por tanto,
Este resultado indica que el factor ansiedad comparte el 47 % de la varianza del rendimiento. Lo cual
significa que nuestro conocimiento del rendimiento de los sujetos mejora un 47 % cuando conocemos
su nivel de ansiedad. Vemos que el CCI se interpreta exactamente igual que las medidas de asociacin
estudiadas en el apartado Medidas del tamao del efecto. En realidad, cuando el factor es de efectos
aleatorios, el CCI coincide con la medida de asociacin omega-cuadrado (ver ecuacin [6.17]):
CCI = = = = 0,47
6.1. En muchos trabajos sobre aprendizaje parece haber quedado demostrado que el rendimiento de los suje-
tos es tanto mejor cuanto mayor es la recompensa (refuerzo) que reciben. En uno de estos trabajos se
formaron aleatoriamente 3 grupos de ratas sedientas. Las seis ratas de cada grupo fueron reforzadas con
diferentes cantidades de agua (5, 10 y 15 cc) por recorrer el laberinto. La siguiente tabla muestra el
nmero de ensayos que ha necesitado cada rata para aprender a recorrer el laberinto bajo cada condicin
experimental:
5 cc 9 8 7 8 7 9
10 cc 6 6 3 4 5 6
15 cc 4 2 3 4 3 2
Utilizando = 0,05,
a. Puede afirmarse que la cantidad de recompensa afecta a la velocidad de aprendizaje de las ratas?
b. Obtener una estimacin del tamao del efecto. Interpretar el resultado.
Captulo 6. ANOVA de un factor 243
6.2. La siguiente tabla muestra las puntuaciones de una muestra de 32 pacientes depresivos en la escala de
depresin de Hamilton tras recibir tratamiento durante 12 semanas. Todos los pacientes seleccionados
tenan puntuaciones iniciales mayores de 30 puntos. Se han formado aleatoriamente 4 grupos del mis-
mo tamao (8 pacientes por grupo) y a cada grupo se le ha asignado, tambin aleatoriamente, un trata-
miento distinto. Al primer grupo se le ha administrado un tratamiento farmacolgico convencional a
base fluoxetina (a1 = control); al segundo, una combinacin de fluoxetina con reboxetina (a2 = com-
puesto); al tercero, fluoxetina y psicoterapia (a3 = mixto); el cuarto grupo solamente ha recibido
psicoterapia (a4 = psicoterapia).
_
Tratamientos Puntuaciones escala Hamilton Yj S j2
Utilizando = 0,05,
a. Contrastar la hiptesis nula de que el nivel medio de depresin es el mismo en los cuatro grupos.
b. Estimar el tamao del efecto. Interpretar el resultado.
c. Calcular la potencia del contraste.
d. Qu grupo difiere del control?
e. Comparar las medias de los dos grupos que han recibido psicoterapia con las de los dos que no la
han recibido.
6.3. En el contexto de la valoracin que se hace anualmente de la calidad percibida del servicio de cafete-
ras del campus de una determinada universidad, se desea estudiar la evolucin que han experimen-
tado esas valoraciones entre los aos 2002 y 2005. La hiptesis de los investigadores es que las valora-
ciones han ido mejorando con los aos. La siguiente tabal recoge las valoraciones medias registradas
cada ao:
Sabiendo que cada ao se ha entrevistado a 100 usuarios, que la media cuadrtica error (MCE ) vale
2,58, y utilizando un nivel de confianza de 0,95, qu puede concluirse sobre la hiptesis de los inves-
tigadores?
6.4. Para estudiar el efecto de la desnutricin proteica sobre el aprendizaje de las ratas se seleccionaron tres
tipos de dieta: A, B y C (cada una con diferente contenido proteico), y_se aplicaron_ a 30 ratas
_ (10 por
tratamiento). Las medias obtenidas por grupo fueron las siguientes: A = 3,8; B = 5,2; C = 6,3. Sa-
biendo que la media cuadrtica error vale 2,22, averiguar si la cantidad de contenido proteico en la
dieta influye sobre el aprendizaje de las ratas ( = 0,05).
244 Anlisis de datos (vol. II)
6.5. Se sospecha que el nivel de bienestar psicolgico est relacionado con la proximidad del periodo vaca-
cional estival. Para estudiar esta relacin se toma una muestra de 30 personas a las que se les pide que
valoren, en una escala de 0 a 10, su bienestar psicolgico en tres meses del ao: febrero, abril y junio.
a. Identificar qu variables estn involucradas y si son cuantitativas o categricas.
b. Qu prueba estadstica podra utilizarse para estudiar si el bienestar psicolgico est relacionado
con la proximidad del periodo vacacional estival?
c. Qu prueba estadstica podra utilizarse para estudiar si el bienestar psicolgico aumenta confor-
me se va aproximando el periodo vacacional estival?
d. Qu prueba estadstica permitira averiguar en qu mes(es) de los estudiados es mayor el nivel
de bienestar psicolgico?
6.7. De un ANOVA A-CA con la variable dependiente Y tenemos la siguiente informacin: MCI = 32,3 y
MCE = 2,70. Si hacemos W = 2Y + 3 y llevamos a cabo un ANOVA con la variable dependiente W,
a. Cunto valdr la media cuadrtica intergrupos MCI ?
b. Cunto valdr la media cuadrtica error MCE ?
c. Cunto valdr el estadstico F ?
6.9. (Sealar la alternativa correcta.) En un ANOVA A-CA, la MCE (media cuadrtica error)...
a. Siempre es mayor que cero.
b. Es, a veces, negativa.
c. Siempre es igual o mayor que cero.
d. Es negativa cuando la variabilidad total es menor que la variabilidad entre los niveles del factor.
e. No puede valer cero.
6.11. Un psiclogo afirma que al aumentar el nivel de adrenalina en sangre tambin aumenta el nmero de
errores que se cometen en una determinada tarea de atencin. Un colega suyo piensa que la relacin
entre la adrenalina y el nmero de errores tiene forma de U invertida. Para aclarar la situacin, toman
una muestra aleatoria de 60 sujetos y la dividen en tres grupos a los que ponen a realizar la tarea tras
inducirles distintos niveles de adrenalina: bajo, medio y alto. Miden los errores cometidos por cada
sujeto y se disponen a analizar los datos obtenidos.
a. Plantea con palabras y estadsticamente las hiptesis nulas que deben formularse para poder con-
trastar las sospechas de ambos psiclogos.
b. Al contrastar la hiptesis del primer psiclogo se obtiene un nivel crtico p = 0,261. Utilizando un
nivel de confianza de 0,95, qu decisin debe tomarse?
c. Al contrastar la hiptesis del segundo psiclogo se obtiene un nivel crtico p = 0,002. Utilizando
un nivel de confianza de 0,95, qu decisin debe tomarse?
d. Con estos resultados, cul es la conclusin razonable?
( ) Tiene razn el primer psiclogo.
( ) Tiene razn el segundo psiclogo.
( ) No tiene razn ninguno de los dos.
( ) Con los datos disponibles no podemos saber cul de los dos tiene razn.
6.12. (Sealar la alternativa correcta.) En un ANOVA de un factor con J grupos independientes, siendo ver-
dadera la hiptesis H0: 1 = 2 = = J , y siendo el nivel de significacin, la probabilidad de que
k hiptesis nulas referidas a comparaciones independientes entre pares de medias sean...
a. Rechazadas, vale .
b. Mantenidas, vale ( k ! 1) .
c. Rechazadas, vale (1 ! ) k !1.
d. Mantenidas, vale (1 ! ).
e. Rechazadas, vale 1 ! (1 ! ) k.
6.13. En un diseo con J = 4 grupos se quiere comparar la media del grupo 4 con las medias de los grupos
1, 2 y 3 tomados juntos. Qu hiptesis nula debe plantearse?
a. H0 : L = (1) 1 + (1) 2 + (1) 3 + (!1) 4 = 0.
b. H0 : L = (!1) 1 + (!1) 2 + (1) 3 + (1) 4 = 0.
c. H0 : L = (1) 1 + (!1) 2 + (!1) 3 + (1) 4 = 0.
d. H0 : L = (1) 1 + (1) 2 + (1) 3 + (!3) 4 = 0.
e. Ninguna de las anteriores hiptesis es correcta.
6.14. Al analizar los datos de un diseo con tres grupos se plantean las siguientes hiptesis:
! H0(1) : L1 = 1 + 2 ! 2 3 = 0.
! H0(2) : L2 = 1 ! 3 = 0.
Son independientes L1 y L2? Por qu?
6.15. Queremos utilizar la prueba de Scheff para contrastar la hiptesis de que los promedios de dos trata-
mientos tomados juntos (a1 y a2) no difieren del promedio de otros cuatro combinados (a3, a4, a5 y a6).
Elegir el conjunto de coeficientes que permiten definir la comparacin:
a1 a2 a3 a4 a5 a6
a. !1 !1 1 1 1 1
b. 1 1 !1 !1 !1 !1
c. 2 2 !2 !2 !2 !2
d. 4 4 !2 !2 !2 !2
e. 2 2 !1 !1 !1 !1
246 Anlisis de datos (vol. II)
6.16. A continuacin se ofrece, incompleta, la tabla resumen de un ANOVA A-CA. Adems de la informa-
cin que contiene la tabla, sabemos que J = 3.
Fuente de variacin gl MC F p
Intergrupos ( ) 30 6 0,010
Trmino lineal ( ) ( ) ( ) 0,005
Trmino cuadrtico ( ) 10 ( ) 0,100
Trmino cbico ( ) ( ) ( )
Intragrupos o error ( ) ( )
Total 17
a. Completar la tabla.
b. Puede concluirse que la VI y la VD estn relacionadas? Por qu? ( = 0,05).
c. La relacin entre la VI y la VD es: lineal?, cuadrtica?, cbica?, ninguna de ellas? Por qu?
d. Cuntos sujetos han participado en el estudio?
e. Qu porcentaje de la varianza de la atencin explica la dosis de frmaco?
6.17. Como parte de un estudio sobre inseguridad ciudadana, un ayuntamiento ha recogido datos del nme-
ro de denuncias registradas en comisara en cuatro das diferentes (martes, jueves, sbado y domingo)
durante cinco semanas. El objetivo del estudio es contrastar dos hiptesis con = 0,05: (1) si el pro-
medio de denuncias registradas en sbado es mayor que el promedio de denuncias registradas en el
resto de los das de la semana tomados juntos y (2) si el nmero de denuncias registradas aumenta a lo
largo de la semana.
a. Qu hiptesis nula debe plantearse para contrastar la hiptesis 1? Con qu prueba estadstica
puede contrastarse esa hiptesis? Cul ser la conclusin si p = 0,001?
b. Qu hiptesis nula debe plantearse para contrastar la hiptesis 2? Con qu prueba estadstica
puede contrastarse esa hiptesis? Cul ser la conclusin si p = 0,001?
6.18. En un diseo con tres grupos, cul de las siguientes hiptesis nulas hay que contrastar para averiguar
si la relacin entre la VI y la VD es lineal?
a. H0: (!1) 1 + 2 + (1) 3 = 0.
b. H0: (!2) 1 + (1) 2 + (1) 3 = 0.
c. H0: 1 + (!1) 2 + (1) 3 = 0.
d. H0: ! 1 + 3 = 0.
e. H0: (!1) 1 + (!1) 2 + (2) 3 = 0.
7
Anlisis de varianza (II)
Dos factores
completamente aleatorizados
En todos los procedimientos estadsticos revisados hasta ahora nos hemos limitado a estudiar
una o dos variables. En este captulo vamos a abordar por primera vez el estudio de ms de
dos variables.
Los modelos factoriales de anlisis de varianza (factorial = ms de un factor) permiten
evaluar el efecto individual y conjunto de dos o ms factores (variables independientes ca-
tegricas) sobre una variable dependiente cuantitativa. En este captulo nos vamos a centrar
en el modelo de dos factores completamente aleatorizados. Este modelo permite analizar el
efecto de dos variables independientes categricas (factores) sobre una variable dependien-
te cuantitativa.
Un ANOVA de dos factores permite estudiar, por ejemplo, si el rendimiento en una tarea
(variable dependiente cuantitativa) cambia con el nivel de ansiedad de los sujetos (bajo, medio,
alto; variable independiente categrica) y con la dificultad de la tarea (fcil, difcil; variable
independiente categrica). Pero, adems, y esto es lo realmente interesante, tambin permite
estudiar si las diferencias entre sujetos con diferente nivel de ansiedad se mantienen o no
cuando cambia la dificultad de la tarea; es decir, permite estudiar si la interaccin entre los
factores nivel de ansiedad y dificultad de la tarea afecta a la variable dependiente rendimiento
de forma diferente a como lo hace cada factor por separado.
Una ventaja de los diseos de dos factores sobre los diseos de un factor es que necesitan
menos sujetos para alcanzar la misma potencia. Supongamos que tenemos dos variables in-
dependientes o factores (A y B), el primero con tres niveles y el segundo con dos. Para com-
parar los niveles de A utilizando un diseo de un factor podemos asignar una muestra aleato-
ria de 20 sujetos a cada nivel; 60 sujetos en total. Para comparar los niveles de B podemos
asignar una muestra aleatoria de 30 sujetos a cada nivel; otros 60 sujetos en total. Entre los
dos experimentos, 120 sujetos. En un diseo factorial las cosas cambian. Al combinar los
niveles de A y B es posible reducir el nmero de sujetos a la mitad: con 10 sujetos por cada
248 Anlisis de datos (vol. II)
combinacin AB tendremos un total de 60 sujetos y tanto los niveles de A como los de B po-
drn evaluarse con el mismo nmero de sujetos que en los correspondientes diseos de un
factor por separado.
Esta ventaja tiene su importancia, sobre todo si se tiene en cuenta que en muchas reas
de conocimiento no resulta nada fcil conseguir muestras grandes. Pero la ventaja verdade-
ramente importante de los diseos factoriales radica en el hecho de que el estudio simultneo
de ms de un factor permite determinar, no ya solo el efecto individual de cada factor sobre
la variable dependiente, sino, adems, si la interaccin entre los factores modifica el efecto
individual que cada factor tiene por separado.
Enseguida nos ocuparemos del importantsimo concepto de la interaccin entre factores.
Antes necesitamos conocer la estructura de un diseo de dos factores y la notacin que uti-
lizaremos para identificar cada elemento del diseo.
Factor B
Factor A b1 b2 bk bK
a1 ab11 ab12 ab1k ab1K
a2 ab21 ab22 ab2k ab2K
aj abj 1 abj 2 abj k abj K
aJ abJ1 abJ 2 abJ k abJ K
Los niveles del factor A definen J poblaciones con medias1 1+, 2+, ..., J +. Los niveles del
factor B definen K poblaciones con medias +1, +2, ..., +K. La combinacin AB entre los
niveles de ambos factores definen JK poblaciones con medias 11, 12, ..., 21, 22, ..., +K.
A la media total la llamaremos . De cada combinacin abj k (es decir, de cada poblacin)
tenemos una muestra aleatoria de puntuaciones Yijk de tamao n (i = 1, 2, ..., n).
El nmero de puntuaciones (sujetos) de cada casilla abj k, es decir, el tamao de las ca-
sillas, puede o no ser el mismo, pero, de momento, nos centraremos en el caso en el que to-
1
Al igual que en el captulo anterior, suprimiremos el subndice Y de las medias poblacionales para simplificar la nota-
cin. Por tanto, siempre que utilicemos el smbolo (media poblacional) sin indicacin de la variable a la que se refiere
(X, Y, Z, etc.), estaremos asumiendo que se refiere a la variable dependiente Y.
Captulo 7. ANOVA de dos factores 249
das las casillas tienen el mismo tamao, es decir, n. Por tanto, N = n JK. Con las n puntua-
ciones de cada casilla abj k obtenemos los totales (sumas) que muestra la Tabla 7.2.
Factor B
Factor A b1 b2 bk bK Suma
a1
a2
aj
aJ
Suma
En el modelo de dos factores es necesario utilizar tres subndices (ijk) para identificar cada
valor de Y: el primero de ellos (i) se refiere a los diferentes elementos (generalmente sujetos)
de la misma muestra o casilla: i = 1, 2, ..., n; el segundo ( j), a los diferentes niveles del fac-
tor A; y el tercero (k), a los diferentes niveles del factor B. As, por ejemplo, Y523 se refiere
a la puntuacin del 5 elemento (sujeto) en la casilla correspondiente a la combinacin del
2 nivel de A con el 3er nivel de B; es decir, a la 5 puntuacin de la casilla ab23.
El signo + colocado como subndice se refiere a todos los valores del subndice al que
sustituye. Por ejemplo, Y+24 se refiere a todas las puntuaciones (todos los valores i) de la ca-
silla correspondiente al cruce del 2 nivel de A ( j = 2) con el 4 nivel de B ( k = 4). Para re-
presentar estas sumas o totales utilizaremos la letra T.
Los totales de cada casilla ( ) se obtienen sumando desde 1 hasta n todas las puntua-
ciones de esa casilla:
= = [7.1]
Los totales correspondientes a cada nivel del factor A ( ) se obtienen sumando todas las
puntuaciones de la fila j:
= = = [7.2]
Los totales correspondientes a cada nivel del factor B ( ) se obtienen sumando todas las
puntuaciones de la columna k:
= = = [7.3]
250 Anlisis de datos (vol. II)
Y el gran total (T ) se obtiene sumando todas las puntuaciones de la tabla, lo cual puede ha-
cerse de diferentes maneras:
= = = = = [7.4]
A partir de estos totales pueden obtenerse las medias de cada casilla, de cada fila, de cada
columna y el total de la tabla simplemente dividiendo los correspondientes totales por el
nmero de puntuaciones utilizadas para obtenerlos:
= , = , = , = [7.5]
b1 b2 b3
a1 11 12 13 1+
a2 21 22 23 2+
+1 +2 +3
2
Ver, por ejemplo, Everitt y Howell (2005, pgs. 930-931); Kirk (1995, pg. 367); o Maxwell y Delaney (2004, pg. 278).
3
Ver, por ejemplo, Everitt y Howell (2005, pg. 931); Maxwell y Delaney (2004, pgs. 279-280); o Winer, Brown y Mi-
chels (1991, pg. 296).
Captulo 7. ANOVA de dos factores 251
4
Las expresiones [7.7] y [7.8] se deducen, ambas, de [7.6]; por tanto, son equivalentes. En efecto, segn [7.7], cuando no
existe interaccin se verifica 11 = 1++ +1 ! y 21 = 2++ +1 ! . De estas igualdades se sigue que
11 ! 1+ ! +1 = ! y 21 ! 2+ ! +1 = !
Por tanto,
11 ! 1+ ! +1 = 21 ! 2+ ! +1
Lo cual lleva a 11 ! 21 = 1+ ! 2+, que no es otra cosa que la expresin [7.8]. De este argumento se desprende que es
irrelevante tomar [7.7] o [7.8] como referente para definir el efecto de la interaccin. Sin embargo, las interpretaciones basa-
das en [7.8] suelen resultar ms fciles de entender. La formulacin basada en [7.7] ha recibido especial atencin por parte
de Rosnow y Rosenthal (1989a, 1989b, 1991, 1995, 1996), quienes han llevado el argumento al extremo insistiendo en que
para poder interpretar correctamente el efecto de la interaccin hay que despojarlo de todos los elementos extraos que inclu-
ye. Es as como se llega a las medias residualizadas o residuos de interaccin que, siempre segn Rosnow y Rosenthal, son
los nicos que informan cabalmente sobre el efecto de la interaccin. Pero no parece que este enfoque haya merecido la
aceptacin de todos (ver Meyer, 1991; Petty, Fabrigar, Wegener y Priester, 1996); y tampoco parece que los investigadores
estn dispuestos a incorporar a sus hbitos el plus de comprensin que exige.
252 Anlisis de datos (vol. II)
La herramienta ms til para entender el concepto de interaccin entre factores es, proba-
blemente, un grfico de lneas basado en las medias de las casillas. En la Figura 7.1 (iz-
quierda) estn representadas las medias de la Tabla 7.4.1. El grfico muestra con claridad
que, cualquiera que sea el nivel de B que se considere, el comportamiento del factor A siem-
pre es el mismo: la media de a1 siempre supera en 2 puntos a la media de a2. La ausencia de
interaccin queda reflejada en el hecho de que las lneas que unen las medias son paralelas
entre cada dos niveles del eje horizontal (las lneas definen perfiles idnticos).
Figura 7.1. Grficos de lneas con las medias de las Tablas 7.4.1 (izquierda) y 7.4.2 (derecha)
En el grfico de la Figura 7.1 (derecha) estn representadas las medias de las casillas de la
Tabla 7.4.2. Ahora, las medias de a1 superan a las de a2 tanto en b1 como en b3, pero no en
Captulo 7. ANOVA de dos factores 253
b2, donde la media de a2 es mayor que la de a1. Es decir, la diferencia entre las medias de a1
y a2 cambia cuando cambian los niveles de B. La presencia de interaccin queda reflejada en
el hecho de que las lneas que unen las medias no son paralelas (definen perfiles distintos).
El significado de la interaccin puede entenderse mejor, quiz, poniendo contenido con-
creto a los factores. Supongamos que el factor A es tipo de tratamiento (a1 = tratamiento
convencional, a2 = nuevo tratamiento) y que el factor B se refiere a tres variantes de una
misma enfermedad (b1 = tipo 1, b2 = tipo 2, b3 = tipo 3). Supongamos adems que al
medir el efecto de los tratamientos hemos encontrado los resultados (medias) que recogen
las Tablas 7.4.1 y 7.4.2 (estas medias son las que estn representadas en la Figura 7.1). Su-
pongamos, por ltimo, que las medias ms altas indican que el tratamiento funciona mejor.
En el caso de la Tabla 7.4.1 (diseo sin interaccin), la media que se obtiene con el tra-
tamiento convencional (6) es ms alta que la que se obtiene con el nuevo tratamiento (4); y
esta pauta se repite con todas las variantes de la enfermedad. Por tanto, el tratamiento con-
vencional (a1) es mejor que el nuevo tratamiento (a2) independientemente de la variante de
la enfermedad tratada.
En el caso de la Tabla 7.4.2 (diseo con interaccin), el efecto global de los dos trata-
mientos es el mismo (ambas medias marginales valen 5), pero este resultado es engaoso
precisamente por la presencia de interaccin. El efecto de los tratamientos est condiciona-
do por la variante de la enfermedad tratada: con las variantes 1 y 3, el tratamiento
convencional (a1) consigue mejores resultados que el nuevo tratamiento (a2); con la varian-
te 2, es el nuevo tratamiento el que consigue mejores resultados. Por tanto, el efecto de los
tratamientos cambia cuando cambia la variante de la enfermedad tratada.
= = = = = = [7.10]
Supongamos, adems, que, de cada una de esas JK poblaciones, extraemos una muestra
aleatoria de tamao n. En este escenario es posible identificar varios tipos de variabilidad.
Comencemos con las dos que ya nos resultan familiares: (1) la variabilidad que existe den-
tro de cada muestra o variabilidad intragrupos y (2) la variabilidad que existe entre las di-
ferentes muestras o variabilidad intergrupos.
Estas dos formas de variabilidad pueden cuantificarse tal como hemos hecho en el ca-
ptulo anterior a propsito del modelo de un factor. En primer lugar, con JK muestras alea-
torias tenemos JK varianzas muestrales cada una de las cuales puede utilizarse para es-
timar la varianza de su propia poblacin. No obstante, como estamos asumiendo que las JK
254 Anlisis de datos (vol. II)
varianzas poblaciones son iguales (ver [7.10]), en lugar de utilizar cada varianza muestral por
separado, obtendremos una mejor estimacin de esa nica varianza poblacional, , combi-
nando en un nico estimador las JK varianzas muestrales:
MCE = = [7.11]
MCI = [7.12]
MCA = [7.13]
MCB = [7.14]
Captulo 7. ANOVA de dos factores 255
MCAB = [7.15]
FA = = [7.16]
es una variable que, adems de informar del grado de parecido entre las medias de los nive-
les del factor A, se distribuye segn F con los grados de libertad del numerador, J ! 1, y los
del denominador, N ! JK. Tambin sabemos que el cociente entre MCB y MCE
FB = = [7.17]
es una variable que informa del grado de parecido existente entre las medias de los niveles
del factor B y que se distribuye segn F con los grados de libertad del numerador, K ! 1, y
los del denominador, N ! JK. Por ltimo, el cociente entre MCAB y MCE
FAB = = [7.18]
es una variable que, adems de informar del grado de parecido existente entre las medias de
las casillas y sus medias marginales (interaccin), sabemos que se distribuye segn F con los
grados de libertad del numerador, (J ! 1) (K ! 1), y los del denominador N ! JK .
Por tanto, los estadsticos FA, FB y FAB pueden utilizarse para evaluar los tres efectos de
inters (A, B y AB) en un diseo de dos factores, de efectos fijos, completamente aleatori-
zados. El Cuadro 7.1 ofrece un resumen del procedimiento.
256 Anlisis de datos (vol. II)
Cuadro 7.1. Resumen del ANOVA de dos factores completamente aleatorizados (AB-CA)
1. Hiptesis:
a. H0 (A) : 1+ = 2+ = = J+ (las medias poblacionales correspondientes a los J
niveles del factor A son iguales). Es decir, no existe efecto del factor A.
H1(A): j + =/ jN+ para algn j o jN (con j =/ jN) (no todas las medias correspondien-
tes a los niveles del factor A son iguales). Es decir, existe efecto del factor A.
b. H0 (B) : +1 = +2 = = +K (las medias poblacionales correspondientes a los K
niveles del factor B son iguales). Es decir, no existe efecto del factor B.
H1 (B): + k =/ + kN para algn k o kN (con k =/ kN) (no todas las medias correspon-
dientes a los niveles del factor B son iguales). Es decir, existe efecto del factor B.
c. H0(AB) : jk ! jNk = j+ ! jN+ para todo j, jN o k (con j =/ jN) (la diferencia entre las
medias de dos casillas cualesquiera de la misma columna es igual a la diferencia
entre las medias marginales correspondientes a esas casillas). Es decir, no existe
efecto de la interaccin.
H1 (AB) : j k ! j Nk =/ j + ! j N+ para algn j, jN o k (con j =/ jN) (no todas las dife-
rencias entre las medias de dos casillas cualesquiera de la misma columna son
iguales a la diferencia entre las medias marginales correspondientes a esas ca-
sillas). Es decir, existe efecto de la interaccin.
2. Supuestos: JK muestras de tamao n aleatoriamente seleccionadas de JK poblacio-
nes normales con la misma varianza.
3. Estadsticos del contraste (ver ecuaciones [7.16], [7.17] y [7.18]):
a. Para H0 (A) : FA = MCA MCE .
b. Para H0 (B) : FB = MCB MCE .
c. Para H0 (AB) : FAB = MCAB MCE .
4. Distribuciones muestrales:
a. FA se distribuye segn F con J !1 y N ! JK grados de libertad.
b. FB se distribuye segn F con K !1 y N ! JK grados de libertad.
c. FAB se distribuye segn F con (J !1)(K !1) y N ! JK grados de libertad.
5. Zonas crticas:
a. FA $
> FJ !1, N !JK; 1! .
b. FB $
> FK !1, N !JK; 1! .
c. FAB $
> F(J !1)(K !1), N !JK; 1! .
6. Reglas de decisin:
a. Se rechaza H0 (A) si el estadstico FA cae en la zona crtica; en caso contrario, se
mantiene. El rechazo de H0 (A) implica que existe efecto significativo del factor A.
b. Se rechaza H0 (B) si el estadstico FB cae en la zona crtica; en caso contrario, se
mantiene. El rechazo de H0 (B) implica que existe efecto significativo del factor B.
c. Se rechaza H0 (AB) si el estadstico FAB cae en la zona crtica; en caso contrario, se
mantiene. El rechazo de H0 (AB) implica que existe efecto significativo de la interac-
cin AB.
Captulo 7. ANOVA de dos factores 257
(B ) Nivel de ansiedad
(A ) Dificultad
de la tarea (b1) Bajo (b2) Medio (b3) Alto Totales
12 15 8
17 12 6
(a1) Fcil 9 18 5 180
14 14 10
13 (65) 16 (75) 11 (40)
8 10 13
6 14 10
(a2) Difcil 9 16 9 150
8 14 12
4 (35) 11 (65) 6 (50)
Totales 100 140 90 330
Los valores entre parntesis son los totales (sumas) de las casillas.
diciones resultantes de combinar los niveles de ambos factores. El anlisis de varianza de dos
factores completamente aleatorizados es el modelo apropiado para analizar estos datos. La
Figura 7.2 muestra los diagramas de caja del rendimiento correspondientes a cada combi-
nacin entre la dificultad de la tarea y el nivel de ansiedad. Ninguno de los diagramas mues-
tra casos anmalos ni asimetras evidentes. Pero el rendimiento medio vara sensiblemente
entre condiciones. Veamos cmo evaluar los tres efectos presentes en el diseo.
1. Hiptesis:
a. H0 (A) : fcil = difcil (el rendimiento medio es el mismo con tareas fciles y con ta-
reas difciles; es decir, la dificultad de la tarea no afecta al rendimiento).
H1 (A): el rendimiento medio no es el mismo con tareas fciles y con tareas difciles
(es decir, la dificultad de la tarea afecta al rendimiento).
b. H0 (B) : bajo = medio = alto (el rendimiento medio es el mismo en los tres niveles de
ansiedad; es decir, el nivel de ansiedad no afecta al rendimiento).
H1 (B): el rendimiento medio no es el mismo en los tres niveles de ansiedad (es decir,
el nivel de ansiedad afecta al rendimiento).
c. H0 (AB) : j k ! j Nk = j + ! j N+ para todo j, j N o k (con j =/ jN) (la interaccin entre la
dificultad de la tarea y el nivel de ansiedad no afecta al rendimiento).
H1 (AB) : jk ! jNk =/ j+ ! jN+ para algn j, jN o k (con j =/ jN) (la interaccin entre la
dificultad de la tarea y el nivel de ansiedad afecta al rendimiento).
2. Supuestos: tenemos 6 muestras de tamao 5 aleatoriamente seleccionadas de 6 pobla-
ciones normales con la misma varianza.
3. Estadsticos del contraste. Para facilitar la obtencin de FA, FB y FAB (ecuaciones [7.16],
[7.17] y [7.18]) hemos transformado las puntuaciones originales de la Tabla 7.5 en las
medias y varianzas que muestra la Tabla 7.6:
b1 b2 b3
a1 13 (8,5) 15 (5,0) 8 (6,5) 12
a2 7 (4,0) 13 (6,0) 10 (7,5) 10
10 14 9 11
Captulo 7. ANOVA de dos factores 259
MCI = 5 [(13 ! 11)2 + (15 ! 11)2 + + (10 ! 11)2] / 5 = 5 (50) / 5 = 50 (ver [7.12])
2 2
MCA = 15 [(12 ! 11) + (10 ! 11) ] / 1 = 15 (2) / (2 ! 1) = 30 (ver [7.13])
MCB = 10 [(130 ! 11)2 + (14 ! 11)2 + (9 ! 11)2] / (3 ! 1) = 10 (14) / 2 = 70 (ver [7.14])
MCAB5 = [5 (50) ! 15 (2) ! 10 (14)] / 2 = (250 ! 30 ! 140)/2 = 40
MCE = (8,5 + 5,0 + 6,5 + 4,0 + 6,0 + 7,5) / 6 = 6,25 (ver [7.11])
a. FA = MCA MCE = 30 / 6,25 = 4,80.
b. FB = MCB MCE = 70 / 6,25 = 11,20.
c. FAB = MCAB MCE = 40 / 6,25 = 6,4.
4. Distribuciones muestrales (con J = 2, K = 3 y N = 30):
a. FA F con J !1 = 1 y N ! JK = 24 grados de libertad, es decir, F1, 24.
b. FB F con K !1 = 2 y N ! JK = 24 grados de libertad, es decir, F2, 24.
c. FAB F con (J !1)(K !1) = 2 y N ! JK = 24 grados de libertad, es decir, F2, 24.
5. Zonas crticas:
a. FA $
> F1, 24; 0,95 = 4,26.
b. FB $
> F2, 24; 0,95 = 3,40.
c. FAB $
> F2, 24; 0,95 = 3,40.
6. Reglas de decisin:
a. Puesto que FA = 4,80 es mayor que el punto crtico 4,26, se rechaza H0(A). Puede con-
cluirse que el rendimiento medio no es el mismo con tareas fciles y con tareas dif-
ciles. Por tanto, la dificultad de la tarea afecta al rendimiento.
b. Puesto que FB = 11,20 es mayor que el punto crtico 3,40, se rechaza H0(B). Puede con-
cluirse que el rendimiento medio no es el mismo en los tres niveles de ansiedad. Por
tanto, el nivel de ansiedad afecta al rendimiento.
c. Puesto que FAB = 6,4 es mayor que el punto crtico 3,40, se rechaza H0(AB). Puede con-
cluirse que el efecto de la interaccin AB es estadsticamente significativo. Por tanto,
el efecto de cada factor sobre el rendimiento est condicionado o modulado por la
presencia del otro factor.
Un estadstico F significativo indica que los promedios comparados no son iguales, pero no
permite concretar qu promedios difieren de qu otros. Para esto es necesario llevar a cabo
comparaciones mltiples. Y en el caso de la interaccin, adems de realizar comparaciones
mltiples, es necesario recurrir a grficos de perfil para precisar su significado. Ms adelan-
te, en el apartado Comparaciones mltiples, veremos cmo hacer todo esto.
5
Teniendo en cuenta que el numerador de MCI es igual a la suma de los numeradores de MCA, MCB y MCAB, y que el clcu-
lo de MCI es sensiblemente ms breve que el de MCAB, la forma ms rpida de calcular MCAB consiste en restar al numera-
dor de MCI = 5(50) = 250 la suma de los numeradores de MCA = 15(2) = 30 y MCB = 10(14) = 140, y dividir el resultado
entre los grados de libertad de MCAB. No obstante, puede comprobarse que aplicando la ecuacin [7.15] se llega exacta-
mente al mismo resultado:
MCAB = [(13 !12 !10 +11)2 + (15 !12 !14 +11)2 (8 !12 ! 9 +11)2 + + (10 !10 ! 9 +11)2] / [(2 !1) (3 !1)] = 40.
260 Anlisis de datos (vol. II)
Por supuesto, los grados de libertad de cada estadstico F son los grados de libertad de las
medias cuadrticas en las que se basan. Por tanto, los grados de libertad del numerador de
todos los estadsticos F son los mismos en los tres modelos, pues las medias cuadrticas del
numerador son las que corresponden a cada efecto; pero los grados de libertad del denomi-
nador cambian dependiendo de la media cuadrtica que interviene.
Captulo 7. ANOVA de dos factores 261
= [7.19]
= =
Este valor indica que el conjunto de efectos presentes en el modelo (la dificultad de la tarea,
el nivel de ansiedad y la interaccin entre la dificultad y la ansiedad) comparten el 63 % de
la varianza del rendimiento. Por tanto, nuestro conocimiento del rendimiento de los sujetos
mejora un 63 % cuando conocemos su nivel de ansiedad y la dificultad de la tarea que rea-
lizan. La ecuacin [7.19] puede formularse de esta otra manera:
= [7.20]
Para obtener una estimacin del tamao de cada efecto (A, B y AB) basta con colocar en
[7.20] los correspondientes estadsticos F y grados de libertad (estas estimaciones se llaman
parciales porque en el denominador no se utiliza la variabilidad total, sino la de cada efec-
to y la del error). Por ejemplo, con el efecto del factor B (nivel de ansiedad), la ecuacin
[7.20] ofrece el siguiente resultado:
= = =
262 Anlisis de datos (vol. II)
Este valor indica que el nivel de ansiedad (factor B) comparte el 48 % de la varianza del rendi-
miento. Por tanto, saber cul es el nivel de ansiedad de los sujetos permite mejorar un 48 %
nuestro conocimiento del rendimiento.
Aunque esta forma de estimar el tamao de un efecto est muy extendida (es, por ejem-
plo, la que utiliza el SPSS), lo cierto es que las estimaciones que se obtienen con (tanto
si son parciales como si no) contienen un sesgo importante (estn infladas; ver, por ejemplo,
Fowler, 1985). Algunas correcciones pueden atenuar este sesgo (ver captulo anterior), pe-
ro, en lugar de aplicar estas correcciones, suele ser ms recomendable utilizar la medida de
asociacin omega-cuadrado ( ).
El valor concreto de depende de si los factores son de efectos fijos o de efectos alea-
torios (ver Winer, Brown y Michels, 1991, pgs. 405-415). Cuando ambos factores son de
efectos fijos (Modelo I), el valor para cada efecto por separado puede obtenerse aplican-
do la siguiente regla6:
= = [7.22]
Sustituyendo efecto por A, B y AB puede obtenerse el valor de para cada efecto. Por ejem-
plo, con el efecto del factor B, tenemos
= = =
que es un valor menor que el obtenido con porque, como ya se ha sealado, suele
ofrecer estimaciones infladas de la verdadera proporcin de varianza compartida.
Para interpretar el tamao de , Cohen (1988) ha propuesto una especie de regla gene-
ral que puede resultar til en muchos contextos aplicados: valores en torno a 0,01, 0,06 y
0,14 indican, por lo general, asociaciones de intensidad baja, media y alta, respectivamente.
La Tabla 7.8 muestra los valores de y obtenidos al aplicar las ecuaciones [7.20]
y [7.22] a los datos de nuestro ejemplo sobre la relacin entre el rendimiento, la dificultad
de la tarea y el nivel de ansiedad (ver Tabla 7.5). Puede comprobarse que, efectivamente, los
valores parciales de son sistemticamente menores que los valores parciales de .
Efecto
A 0,17 0,11
B 0,48 0,40
AB 0,35 0,26
Al igual que para el modelo de un factor (ver captulo anterior, ecuacin [6.11]), Cohen
(1988) ha propuesto, para el modelo de dos factores, una medida del tamao del efecto basada
6
Si el estadstico F es menor que 1, el valor de es negativo. Puesto que una proporcin no puede ser negativa, cuando
ocurre esto se considera que vale cero.
Captulo 7. ANOVA de dos factores 263
en una tipificacin de la diferencia entre los promedios comparados. Su estrecha relacin con
permite obtener este estadstico a partir de lo que ya sabemos:
= [7.23]
(aunque el propio Cohen llama f a su medida del tamao del efecto, nosotros seguiremos
manteniendo la consistencia en nuestra notacin para evitar confusin). Siguiendo la regla
ya conocida, valores en torno a 0,10, 0,25 y 0,40 representan, respectivamente, efectos de
tamao pequeo, mediano y grande.
= [7.24]
Estos estadsticos representan una cuantificacin del tamao de cada efecto. De hecho, estn
estrechamente relacionados con la medida del tamao del efecto de Cohen:
= [7.25]
(donde nefecto = nK para el efecto de A, nefecto = nJ para el efecto de B y nefecto = n para el efec-
to de AB).
En el ejemplo que venimos utilizando sobre la relacin entre el rendimiento, la dificultad
de la tarea y el nivel de ansiedad (ver Tabla 7.5) tenemos J = 2, K = 3, MCA = 30, MCB = 70,
MCAB = 40 y MCE = 6,25. Por tanto,
= =
= =
= =
Para calcular la potencia asociada al contraste del efecto del factor B, por ejemplo, necesita-
mos = 0,05, gl1 = K ! 1 = 2, gl2 = N ! JK = 24 y = 2,73. En la Tabla G del Apndice
264 Anlisis de datos (vol. II)
n = [7.26]
Imaginemos un estudio con J = 3 y K = 4. Supongamos que, para evaluar el efecto del fac-
tor B con = 0,05, queremos que la potencia del contraste para detectar un efecto de tama-
o medio ( = 0,25 siguiendo la regla de Cohen) valga 0,80 ( = 0,20). Tenemos que utilizar
la Tabla G al revs de como lo hemos hecho antes. Conocemos gl1 = 3, pero no gl2 (pues
depende del tamao muestral que estamos buscando). Esto, sin embargo, no representa un
problema serio porque utilizar un valor de partida de 30 o mayor no hace cambiar las cosas.
Vamos a elegir, por ejemplo, gl2 = . Con gl1 = 3, gl2 = y = 0,20 (tomamos 0,23), la
Tabla G arroja un valor = 1,6. Por tanto, n = (1,6 / 0,25)2 = 40,96. Es decir, hacen falta
aproximadamente 41 sujetos por grupo para alcanzar una potencia de 0,80.
Comparaciones mltiples
Los estadsticos FA, FB y FAB permiten valorar los efectos globales de A, B y AB, respec-
tivamente, y decidir cul de ellos es estadsticamente significativo. El rechazo de la hipte-
sis nula referida al efecto del factor A indica que las medias poblacionales correspondientes
a los niveles de ese factor no son iguales, pero no permite precisar qu media en concreto
difiere de qu otra (este problema es el mismo que nos hemos encontrado en el captulo
anterior al estudiar el modelo de un factor). Lo mismo vale decir del efecto de B y de su hi-
ptesis nula. Y el rechazo de la hiptesis nula referida al efecto de la interaccin indica que
el efecto combinado de los factores A y B difiere de la suma de los efectos individuales de
ambos factores, pero no permite precisar cul es el significado de esa diferencia.
Por tanto, en los tres casos (A, B y AB), el rechazo de la correspondiente hiptesis nula
est delatando la presencia de un efecto significativo sin llegar a precisar la naturaleza o el
significado del mismo. Tanto para conocer con exactitud qu niveles de un factor difieren de
qu otros como para poder entender el significado de una interaccin significativa es nece-
sario seguir adelante con el anlisis realizando comparaciones mltiples.
A los efectos individuales de A y B los hemos llamado efectos principales. Al efecto
combinado de A y B lo hemos llamado efecto de la interaccin. En nuestro ejemplo sobre
la relacin entre la dificultad de la tarea (fcil, difcil), el nivel de ansiedad (bajo, medio, al-
to) y el rendimiento, el efecto de la dificultad de la tarea es un efecto principal; el efecto del
nivel de ansiedad es un efecto principal; y el efecto combinado de la dificultad de la tarea y
el nivel de ansiedad es el efecto de la interaccin. Para entender el significado de la interac-
cin entre factores es necesario definir un nuevo tipo de efectos llamados efectos simples,
Captulo 7. ANOVA de dos factores 265
los cuales se refieren al efecto de un factor en cada uno de los niveles del otro. El efecto de
la dificultad de la tarea en un nivel concreto de ansiedad (por ejemplo, nivel bajo) es un efec-
to simple. Volveremos sobre esto enseguida.
Efectos principales
Para realizar comparaciones mltiples con los niveles del factor A y con los niveles del factor
B no es necesario aprender nada nuevo. Todos los procedimientos estudiados en el captulo
anterior para realizar comparaciones mltiples con un factor son aplicables a cada uno de los
efectos principales de un diseo factorial completamente aleatorizado. Esto significa que
puede utilizarse la prueba de Dunn-Bonferroni para realizar comparaciones planeadas y de
tendencia; la prueba de Dunnett para realizar comparaciones con un grupo control, si exis-
te; y las pruebas de Tukey y Scheff para realizar comparaciones post hoc. nicamente hay
que tener en cuenta unas sencillas modificaciones que afectan a las ecuaciones [6.34] a [6.46]:
1. El subndice j debe cambiarse por los subndices j + al analizar los niveles del fac-
tor A y por los subndices + k al analizar los niveles del_ factor B. As, _por ejemplo,
para comparar las medias del factor A, en lugar de utilizar Y j utilizaremos Y j+ y en lugar
de utilizar nj utilizaremos nj +, es decir, nK.
2. El nmero de niveles del factor A sigue siendo J (igual que en el modelo de un factor),
pero el nmero de niveles del factor B es K. Por tanto, al analizar los niveles del factor
B, J debe sustituirse por K.
3. Los grados de libertad asociados a MCE en el modelo de un factor (N ! J ) deben sustituir-
se por los grados de libertad asociados a MCE en el modelo de dos factores (N ! JK ).
Se trata de dos comparaciones ortogonales, pues la suma del producto de sus coeficientes
vale cero: (!1) (1)_+ (2) (0) +
_ (!1) (!1)
_ = 0. Vamos a aplicar la prueba de Dunn-Bonferroni.
Recordemos que Y +1 = 10, Y +2 = 14, Y +3 = 9 y MCE = 6,25:
1. Hiptesis: H0 (1) : = 0 ; H1 (1) : =/ 0.
H0 (2) : = 0 ; H1 (2) : =/ 0.
2. Supuestos: tenemos 3 muestras de tamao nJ = 10 aleatoriamente seleccionadas de po-
blaciones que asumimos normales y con la misma varianza.
3. Estadsticos del contraste (ver ecuacin [6.35] en el captulo anterior):
! = =
= =
! = =
= =
! TDB (1) = = =
TDB (2) = = =
4. Distribucin muestral: los puntos crticos de la distribucin muestral de TDB estn en la
Tabla J del Apndice final, con F = 0,05, k = 2 y glerror = N ! JK = 30 ! 2(3) = 24.
$ t2, 24; 0,05 = 2,39.
5. Zona crtica: TDB >
6. Decisin: nicamente el valor TDB (1) = 4,64 es mayor que el punto crtico 2,39. Por tan-
to, debe rechazarse H0 (1) pero no H0(2). El rechazo de H0(1) indica que la media del grupo
2 (nivel de ansiedad medio) difiere de la media de los otros dos grupos tomados juntos.
Y el no rechazo de H0(2) indica que, con los datos disponibles, no es posible afirmar que
el rendimiento medio de los grupos 1 y 3 (los grupos de menor y mayor ansiedad) sea
distinto. Aunque estos contrastes son bilaterales, el valor positivo de indica que el
rendimiento medio del segundo grupo (es decir, del grupo ponderado con un coeficien-
te positivo en ) es mayor que el rendimiento medio de los otros dos grupos tomados
juntos.
Es importante tener en cuenta que el significado de un efecto principal est condicionado por
el efecto de la interaccin. Aunque volveremos sobre esta cuestin, conviene empezar a to-
mar conciencia de un hecho que no siempre es correctamente tenido en cuenta.
Cuando no existe interaccin, los efectos principales agotan toda la informacin del dise-
o. Imaginemos que, en nuestro ejemplo sobre la relacin entre el rendimiento, la dificultad
de la tarea y el nivel de ansiedad, el efecto de la interaccin no fuera significativo. Si se fue-
ra el caso, el resultado obtenido con el factor A (dificultad de la tarea) estara indicando que
el rendimiento medio es ms alto con tareas fciles (media = 12) que con tareas difciles
(media = 10). Y el resultado obtenido con el factor B estara indicando que el rendimiento
medio es ms alto cuando el nivel de ansiedad es medio (media = 14) que cuando es bajo
(media = 10) o alto (media = 9). Pero el hecho de que el efecto de la interaccin sea signi-
Captulo 7. ANOVA de dos factores 267
ficativo lo cambia todo. Una interaccin significativa acapara todo el protagonismo del dise-
o relegando los efectos principales a un segundo plano. Ms adelante veremos cmo se pro-
duce esto, pero, de momento, puesto que los resultados de nuestro ejemplo indican que el
efecto de la interaccin es significativo, sabemos que no es posible afirmar que el rendi-
miento con las tareas fciles es mejor que con las tareas difciles (efecto principal de la difi-
cultad) pues esto depende del nivel de ansiedad; y tambin sabemos que tampoco es posible
afirmar que el rendimiento es mejor cuando el nivel de ansiedad es medio que cuando es ba-
jo o alto (efecto principal de la ansiedad ) porque esto depende de la dificultad de la tarea.
Volveremos sobre este importante aspecto del anlisis en el apartado Efecto de la interaccin.
Efectos simples
Un efecto simple es el efecto de un factor cuando nicamente se tiene en cuenta un nico
nivel del otro factor.
Consideremos un diseo 2 3 como el que se muestra en la Tabla 7.9. Para valorar el
efecto del factor A se comparan las medias de sus dos niveles, es decir las medias de las filas:
1+ ! 2+. La diferencia entre estas medias representa el efecto principal del factor A.
Un efecto simple consiste en esto mismo pero referido a un nico nivel de B. Por ejem-
plo, la diferencia entre las medias 11 ! 21 es un efecto simple: el efecto simple de A en b1;
la diferencia entre las medias 12 ! 22 es el efecto simple de A en b2; y la diferencia entre
las medias 13 ! 23 es el efecto simple de A en b3. Por tanto, el factor A puede descompo-
nerse en tres efectos simples, uno por cada nivel de B.
b1 b2 b3
a1 11 12 13 1+
a2 21 22 23 2+
+1 +2 +3
Contrastar esta hiptesis nula equivale a llevar a cabo un ANOVA de un factor (el factor A)
con cada nivel del factor B. Haciendo
= [7.28]
tenemos las mismas medias cuadrticas que utilizaramos al aplicar un ANOVA de un fac-
tor K veces para comparar las medias de A en cada nivel de B. La hiptesis [7.27] puede
ponerse a prueba mediante el estadstico
= [7.29]
268 Anlisis de datos (vol. II)
Y, siguiendo la misma lgica que para los efectos simples del factor A, la media cuadrtica
asociada a cada efecto simple del factor B puede obtenerse
= [7.31]
Y, a partir de esta media cuadrtica, es posible contrastar la hiptesis nula [7.30] mediante
el estadstico
= [7.32]
b1 b2 b3
a1 13 15 8 12
a2 7 13 10 10
10 14 9 11
Captulo 7. ANOVA de dos factores 269
Veamos cmo contrastar los efectos simples de A en cada nivel de B aplicando las ecuacio-
nes [7.27], [7.28] y [7.29]:
1. Hiptesis: : 11 = 21
: 12 = 22
: 13 = 23
2. Supuestos: tenemos 6 muestras de tamao n = 5 aleatoriamente seleccionadas de pobla-
ciones que asumimos normales y con la misma varianza.
3. Estadsticos del contraste:
! = = 5 [(13 !10)2 + (7 !10)2 ] / (2 !1) = 90.
= = 5 [(15 !14)2 + (13 !14)2 ] / (2 !1) = 10.
= = 5 [(8 ! 9)2 + (10 ! 9)2 ] / (2 !1) = 10.
! = = 90 / 6,25 = 14,4.
= = 10 / 6,25 = 1,6.
= = 10 / 6,25 = 1,6.
4. Distribuciones muestrales: los tres estadsticos se aproximan a la distribucin de
probabilidad F con J !1 = 2 !1 = 1 y N ! JK = 30 ! 6 = 24 grados de libertad.
5. Zona crtica: $ F1, 24; 0,95 = 4,26.
>
6. Decisiones: solamente el estadstico (14,4) es mayor que el punto crtico (4,26). Es
decir, solamente es significativo el efecto simple de A en b1. Por tanto, puede concluirse
que la dificultad de la tarea (efecto de A) nicamente afecta al rendimiento cuando el nivel
de ansiedad de los sujetos es bajo (b1); cuando el nivel de ansiedad es medio (b2) o alto
(b3), no puede afirmarse que el rendimiento se vea afectado por la dificultad de la tarea.
Conviene llamar la atencin sobre dos cuestiones relativas al anlisis de los efectos simples.
La primera de ellas tiene que ver con el control de la tasa de error. A pesar de que el anli-
sis de los efectos simples implica llevar a cabo varias comparaciones, el procedimiento pro-
puesto no incorpora ningn mecanismo de control de la tasa de error. Cuando los factores
tienen dos o tres niveles, esto no es un problema importante porque el nmero de efectos que
se analizan es muy pequeo. Pero cuando los factores tienen ms niveles, la falta de control
sobre la tasa de error puede convertirse en un problema serio. Aunque no existe un acuerdo
generalizado acerca de cul es la mejor manera de controlar la tasa de error cuando se ana-
lizan efectos simples, siempre cabe la posibilidad de controlar F aplicando la correccin de
Bonferroni, la cual, recordemos, consiste realizar cada contraste utilizando C = F / k en lu-
gar de C = F (k se refiere aqu al nmero de efectos simples que se estn valorando).
La segunda cuestin tiene que ver con las posibilidades que surgen cuando un efecto
simple es declarado significativo. Afirmar que el efecto de A en b1 es significativo es lo mis-
mo que decir que los promedios comparados en no son iguales. En nuestro ejemplo,
como el factor A solamente tiene dos niveles, no es necesario hacer ningn anlisis adicio-
nal: sabemos que los promedios que difieren son justamente esos dos. Pero si un efecto sim-
270 Anlisis de datos (vol. II)
ple incluye ms de dos medias, el rechazo de la hiptesis nula podra estar exigiendo con-
tinuar el anlisis para poder determinar qu medias en concreto difieren de qu otras. Esto
puede hacerse definiendo comparaciones lineales del tipo
= c1 1k + c2 2k + + cJ J k [7.33]
y contrastando la hiptesis nula de que la comparacin vale cero mediante la prueba de Dunn-
Bonferroni (ver captulo anterior). En nuestro ejemplo, los efectos simples de B en a1 y a2 son
ambos significativos. Y estos efectos incluyen tres medias. Para saber qu medias difieren
de qu otras habra que realizar comparaciones del tipo propuesto en [7.33] y contrastarlas
tal como se ha hecho en el captulo anterior.
Efecto de la interaccin
La interaccin entre factores ya la hemos definido al comienzo del captulo. Existe interac-
cin entre dos factores cuando el efecto de uno de ellos sobre la variable dependiente no es
el mismo en todos los niveles del otro factor. Dicho de otro modo, existe interaccin cuan-
do los efectos simples correspondientes a un mismo efecto principal no son iguales.
De la misma manera que es posible definir comparaciones lineales de un grado de liber-
tad para interpretar, descomponindolo, un efecto principal (esto es lo que hacemos, por
ejemplo, con las comparaciones planeadas y las de tendencia), tambin es posible definir
comparaciones lineales de un grado de libertad para conseguir interpretar una interaccin
significativa. El nmero de estas comparaciones puede llegar a ser muy elevado (Abelson y
Prentice, 1997), pero las comparaciones que ms ayudan a los investigadores a interpretar
una interaccin significativa suelen ser aquellas que permiten comparar entre s los efectos
simples. Por ejemplo, en un diseo factorial 2 3 como el propuesto en la Tabla 7.9, la nece-
sidad de interpretar una interaccin significativa quedar cubierta, por lo general, comparan-
do entre s cada efecto de A en cada nivel de B, es decir, comparando entre s los efectos
simples de A (o comparando entre s los efectos simples de B, lo cual es equivalente desde
el punto de vista de las conclusiones a las que se llega).
Ahora bien, para comparar entre s los efectos simples de A no basta con valorar si un
efecto simple es significativo y otro no para, de esta forma, decidir que son distintos. A pe-
sar del uso generalizado de esta estrategia, lo cierto es que no sirve para aislar el efecto de la
interaccin. Un efecto simple incluye parte del correspondiente efecto principal y parte del
efecto de la interaccin (ver Kirk, 1995, pgs. 380-381). Esto implica que un efecto simple
puede ser significativo porque lo es su parte de efecto principal, porque lo es su parte de
interaccin o porque lo son ambas partes. Por tanto, para comparar entre s los efectos sim-
ples no basta con saber cules son significativos y cules no (ver Pardo, Garrido, Ruiz y San
Martn, 2007). Comparar entre s los efectos simples de A requiere:
1. Comparar la diferencia entre 11 y 21 (o efecto simple de A en b1) con la diferencia en-
tre 12 y 22 (o efecto simple de A en b2);
2. Comparar la diferencia entre 11 y 21 (o efecto simple de A en b1) con la diferencia en-
tre 13 y 23 (o efecto simple de A en b3);
3. Comparar la diferencia entre 12 y 22 (o efecto simple de A en b2), con la diferencia en-
tre 13 y 23 (o efecto simple de A en b3).
Captulo 7. ANOVA de dos factores 271
Es decir, comparar entre s los efectos simples de A requiere efectuar estas tres7 compara-
ciones:
1 = ( 11 ! 21 ) ! ( 12 ! 22 )
2 = ( 11 ! 21 ) ! ( 13 ! 23 ) [7.35]
3 = ( 12 ! 22 ) ! ( 13 ! 23 )
Por tanto, comparar los efectos simples requiere comparar diferencias. Ordenando y asignan-
do coeficientes se obtiene
1 = (1) 11 + (!1) 12 + (0) 13 + (!1) 21 + (1) 22 + (0) 23
2 = (1) 11 + (0) 12 + (!1) 13 + (!1) 21 + (0) 22 + (1) 23 [7.36]
3 = (0) 11 + (1) 12 + (!1) 13 + (0) 21 + (!1) 22 + (1) 23
En la Figura 7.3 estn representadas las medias de la Tabla 7.6. Los recuadros 1, 2 y 3que
hemos trazado en el grfico representan los efectos simples de A (dificultad de la tarea) en
cada nivel de B (nivel de ansiedad). Con la comparacin 1 se intenta averiguar si lo que
ocurre en el recuadro 1 difiere de lo que ocurre en el recuadro 2; con la comparacin 2 se
intenta averiguar si lo que ocurre en el recuadro 1 difiere de lo que ocurre en el recuadro 3;
y con la comparacin 3 se intenta averiguar si lo que ocurre en el recuadro 2 difiere de lo
que ocurre en el recuadro 3. Estas tres comparaciones aslan el efecto de la interaccin y son
independientes del efecto principal de A (ver Pardo, Garrido, Ruiz y San Martn, 2007).
Para contrastar hiptesis del tipo h = 0 puede utilizarse la prueba de Dunn-Bonferroni
en los trminos ya conocidos. El siguiente ejemplo muestra cmo hacer esto.
7
En un diseo 2 2 (dos factores con dos niveles cada factor), unas sencillas transformaciones permiten comprobar que
la definicin de no interaccin propuesta en [7.8] equivale a:
11 ! 21 = 12 ! 22 [7.34]
La comparacin [7.34] es la que corresponde al nico grado de libertad asociado a la interaccin en un diseo 2 2. Por
tanto, si el estadstico F asociado al efecto de la interaccin es significativo, una interpretacin basada en las diferencias
comparadas en [7.34] agota el significado de la interaccin, lo cual implica que no es necesario recurrir a comparaciones
adicionales para interpretar una interaccin significativa.
Debe tenerse en cuenta que, si se verifica [7.34], tambin se verifica 11 ! 12 = 21 ! 22 ; y una interaccin significa-
tiva en un diseo 2 2 puede interpretarse recurriendo a cualquiera de estas dos comparaciones, sin necesidad de clculos
adicionales.
272 Anlisis de datos (vol. II)
b1 b2 b3
a1 13 15 8
a2 7 13 10
! = = 2,236.
Puesto que los coeficientes de las tres comparaciones son los mismos (aunque en di-
ferente orden), las tres comparaciones tienen el mismo error tpico.
! TDB (1) = = 4 / 2,24 = 1,79.
TDB (2) = = 8 / 2,24 = 3,58.
TDB (3) = = 4 / 2,24 = 1,79.
Captulo 7. ANOVA de dos factores 273
Tres comentarios ms sobre el efecto de la interaccin. En primer lugar, conviene saber que
el efecto de la interaccin puede ser significativo tanto si los efectos principales son signi-
ficativos como si no. Y al revs.
En segundo lugar, es importante recordar que los efectos simples no informan de lo mis-
mo que el efecto de la interaccin. Interpretar la interaccin requiere comparar efectos sim-
ples; pero, analizar los efectos simples y decidir que difieren cuando unos son significativos
y otros no, no es comparar los efectos simples. En nuestro ejemplo sobre la relacin entre el
rendimiento, la dificultad de la tarea y el nivel de ansiedad, hemos encontrado que el efecto
simple de A en b1 era significativo y que los efectos simples de A en b2 y b3 no lo eran. Sig-
nifica esto que lo que ocurre con el efecto de A en b1 difiere de lo que ocurre con el efecto
de A en b2 y en b3? La respuesta es no: el resultado de las comparaciones entre los efectos
simples indican otra cosa. En el Apndice 7 se discute ms a fondo esta cuestin.
Por ltimo, tambin es importante saber qu hacer con los efectos principales en pre-
sencia de una interaccin significativa. Dado que una interaccin significativa est indican-
do que el efecto de un factor no es el mismo en todos los niveles del otro factor, puede afir-
marse que el significado de los efectos principales queda matizado (incluso alterado) por la
presencia de una interaccin significativa8 (ver Len y Montero, 2003, pgs. 278-282).
8
El grado en que un efecto principal puede verse alterado por la presencia de una interaccin significativa depende de varios
factores, pero uno bastante determinante es que las lneas del grfico de perfiles se crucen (interaccin no ordinal) o no
(interaccin ordinal).
274 Anlisis de datos (vol. II)
Algunos autores sugieren que, siendo significativa la interaccin, todava podra tener senti-
do interpretar los efectos principales en determinadas circunstancias (ver, por ejemplo, Ho-
well, 2002, pg. 432; Keppel y Wickens, 2004, pg. 244; Len y Montero, 2003, pgs. 278-
279 y 295), pero otros muchos recomiendan no prestar atencin a los efectos principales en
presencia de una interaccin significativa (Games, 1973; Kirk, 1995, pg. 370; Maxwell y
Delaney, 2004, pg. 301; Pedhazur y Pedhazur, 1991, pg. 523; Winer, Brown y Michels,
1991, pgs. 326-327). Cualquiera que sea la postura que se adopte, lo importante es tener
presente que, si el efecto de la interaccin es significativo, los efectos principales no solo no
estarn contando toda la historia, sino que, adems, es muy posible que la estn contando
mal. Y esto es algo que no debe pasarse por alto.
9
La lista Factores aleatorios permite ajustar modelos con factores de efectos aleatorios. La lista Covariables permite ajus-
tar modelos de anlisis de covarianza (ver Apndice 10). Y el cuadro Ponderacin MCP permite utilizar una variable de
ponderacin. En los modelos de ANOVA se asume que la varianza de la variable dependiente es la misma en todas las
poblaciones objeto de estudio. Cuando las varianzas poblacionales no son iguales (por ejemplo, cuando las casillas con pun-
tuaciones mayores muestran ms variabilidad que las casillas con puntuaciones menores), el mtodo de mnimos cuadra-
dos no consigue ofrecer estimaciones ptimas. En estos casos, si la diferencia en la variabilidad de las casillas puede esti-
marse a partir de alguna variable, el mtodo de mnimos cuadrados ponderados (MCP) permite tener en cuenta esa variable
de ponderacin al estimar los parmetros de un modelo lineal, dando ms importancia a las observaciones ms precisas (es
decir, a aqullas con menor variabilidad).
Captulo 7. ANOVA de dos factores 275
Aceptando estas selecciones, el Visor ofrece los resultados que muestran las Tablas 7.11 y
7.12. La Tabla 7.11 informa del nombre de las variables independientes (factores), de sus
niveles, incluidos los cdigos que se les ha asignado (valores) y las etiquetas de los valores,
y del nmero de casos en cada nivel de ambos factores (N).
La tabla resumen del ANOVA (Tabla 7.12) contiene la misma informacin que la tabla
resumen del modelo de un factor: las fuentes de variacin, las sumas de cuadrados, los gra-
dos de libertad (gl ), las medias cuadrticas, los estadsticos F y los niveles crticos (sig.)
asociados a cada estadstico F. Pero, ahora, toda esa informacin no est referida a un ni-
co factor, sino a los tres efectos presentes en el modelo de dos factores: A, B y AB.
La fila modelo corregido se refiere a los tres efectos tomados juntos. Por tanto, recoge
la informacin relativa a lo que nosotros hemos llamado variabilidad intergrupos. La media
cuadrtica de esta fila es MCI . El nivel crtico asociado al estadstico F (sig. < 0,0005) indi-
ca que el modelo (los tres efectos tomados juntos) explica una parte significativa de la va-
riabilidad de la variable dependiente (rendimiento).
En la fila interseccin se est contrastando la hiptesis nula de que la media total vale
cero. Por tanto, contiene informacin que no tiene nada que ver con los efectos que realmen-
te interesa analizar en un modelo de dos factores (la suma de cuadrados de la interseccin se
obtiene elevando al cuadrado la media total y multiplicando el resultado por el nmero de
observaciones).
Las tres filas siguientes informan de los efectos principales (dificultad y ansiedad ) y del
efecto de la interaccin (dificultad * ansiedad ). Los correspondientes niveles crticos (sig.)
indican que los tres efectos son significativos (en los tres casos, sig. < 0,05). En consecuen-
cia, tanto la dificultad de la tarea como el nivel de ansiedad afectan al rendimiento. Pero el
hecho de que el efecto de la interaccin sea significativo est indicando que el efecto de la
dificultad de la tarea sobre el rendimiento est condicionado por el nivel de ansiedad; o,
tambin, que el efecto del nivel de ansiedad sobre el rendimiento est condicionado por la
dificultad de la tarea. Enseguida haremos las comparaciones necesarias para interpretar el
efecto de la interaccin.
La fila error contiene la informacin referida a la variabilidad intragrupos o error. Re-
cordemos que MCE es la mejor estimacin que tenemos de la varianza del rendimiento en las
seis poblaciones con las que estamos trabajando.
La penltima fila (total ) ofrece la suma de los cuadrados de todos los valores de la varia-
ble dependiente; sus grados de libertad son el nmero total de casos incluidos en el anlisis.
Y la ltima fila (total corregida) informa sobre la variabilidad total, es decir sobre la
variabilidad de las puntuaciones de la variable dependiente como si todas ellas constituye-
ran una nica muestra extrada de una nica poblacin. Esta variabilidad total (400) es la que
descomponemos en variabilidad intergrupos (250) y variabilidad intragrupos o error (150).
276 Anlisis de datos (vol. II)
= = =
La Tabla 7.15 muestra el resultado de los dos procedimientos post hoc solicitados: Tukey y
Games-Howell. Con ambos procedimientos se llega a la misma conclusin: el rendimiento
de los sujetos con nivel de ansiedad medio es distinto del rendimiento de los sujetos con ni-
278 Anlisis de datos (vol. II)
vel de ansiedad bajo (sig. = 0,004) y alto (sig. < 0,0005); y no puede afirmarse que el ren-
dimiento de estos dos grupos sea distinto (sig. = 0,649).
Si puede asumirse que las varianzas poblacionales son iguales es porque las varianzas
muestrales son parecidas; cuando ocurre esto, calcular el error tpico de cada comparacin
promediando las varianzas o sin promediarlas no supone una diferencia importante; y esto
se traduce en que los resultados obtenidos asumiendo varianzas iguales (Tukey) y sin asumir
tal cosa (Games-Howell) son parecidos. Si no puede asumirse que las varianzas poblaciona-
les son iguales, es posible que las pruebas de Tukey y de Games-Howell no den el mismo
resultado; en ese caso habr que fiarse de lo que diga la prueba de Games-Howell.
Al ejecutar la sintaxis se obtienen los resultados que muestran las Tablas 7.16 a 7.18. La
Tabla 7.16 contiene las medias estimadas10 de las casillas (es decir, de cada combinacin
dificultad*ansiedad ). stas son las medias en las que se basan las comparaciones solicita-
das. Cuando los tamaos muestrales son iguales, el valor de las medias estimadas es el mis-
mo que el de las medias observadas (ver Tabla 7.16).
Las Tablas 7.17 y 7.18 son el resultado de las modificaciones introducidas en la sintaxis. La
Tabla 7.17 ofrece el contraste de los efectos simples de A (dificultad de la tarea) en cada nivel
de B (nivel de ansiedad). En cada contraste se est comparando el rendimiento medio obteni-
do con tareas fciles y con tareas difciles. El nico contraste significativo es el que se refiere
al nivel de ansiedad bajo. Esto quiere decir que la dificultad de la tarea nicamente afecta al
rendimiento cuando el nivel de ansiedad de los sujetos es bajo. Puede comprobarse que estos
resultados son idnticos a los que hemos obtenido en el ejemplo del apartado Efectos simples.
10
Las medias estimadas son medias no ponderadas. Se calculan sin tener en cuenta el tamao de las casillas (ver Searle,
Speed y Milliken, 1980). Todos los contrastes se realizan a partir de estas medias (son las medias que se utilizan en la es-
trategia conocida como sumas de cuadrados Tipo III , que es la que se aplica por defecto):
Las medias observadas son medias ponderadas (se utilizan en los contrastes cuando se opta por aplicar la estrategia cono-
cida como sumas de cuadrados Tipo I ):
, ,
Estas medias son las que se obtienen, por ejemplo, cuando se solicitan estadsticos descriptivos. Cuando todas las casillas
tienen el mismo nmero de casos, las medias estimadas (no ponderadas) y las observadas (ponderadas) son iguales.
280 Anlisis de datos (vol. II)
Por ltimo, la Tabla 7.18 ofrece las comparaciones por pares entre las medias de cada efecto
simple. Estas comparaciones se llevan a cabo controlando la tasa de error con el mtodo de
Bonferroni (recordar la modificacin que hemos introducido en la sintaxis) y se interpretan
exactamente igual que las comparaciones post hoc ya estudiadas. Puesto que en los efectos
simples analizados (dificultad de la tarea) nicamente intervienen dos medias (fcil, difcil),
las comparaciones de esta tabla coinciden con las de la Tabla 7.14 (adems, al comparar
solamente dos medias, la correccin de Bonferroni no tiene ningn efecto).
Tabla 7.18. Comparaciones por pares entre las medias de cada efecto simple (dificultad de la tarea)
Variable dependiente: Rendimiento
Intervalo de confianza al
a
95 % para la diferencia
Nivel de (I) Dificultad (J) Dificultad Diferencia entre Lmite Lmite
a
ansiedad de la tarea de la tarea medias (I-J) Error tp. Sig. inferior superior
Bajo Fcil Difcil 6,00 1,58 ,001 2,74 9,26
Medio Fcil Difcil 2,00 1,58 ,218 -1,26 5,26
Alto Fcil Difcil -2,00 1,58 ,218 -5,26 1,26
Basadas en las medias marginales estimadas.
a. Ajuste para comparaciones mltiples: Bonferroni.
Una rpida inspeccin del grfico permite formarse una primera impresin sobre el posible
significado de la interaccin. Parece que lo que ocurre cuando el nivel de ansiedad es bajo
(se rinde mucho mejor en las tareas fciles) no es lo mismo que lo que ocurre cuando el nivel
de ansiedad es medio (se rinde un poco mejor en las tareas fciles) o alto (se rinde un poco
mejor en las tareas difciles). Tambin parece que lo que ocurre cuando el nivel de ansiedad
es medio no es lo mismo que lo que ocurre cuando el nivel de ansiedad es alto.
Pero todo esto no son ms que conjeturas basadas en las diferencias observadas. Los
contrastes de los efectos simples llevados a cabo en el apartado anterior indican que la nica
diferencia significativa se da en el nivel de ansiedad bajo. Quiere esto decir que lo que
ocurre en ese nivel es distinto de lo que ocurre en los otros dos, y que lo que ocurre en estos
dos es lo mismo? Ya hemos sealado que la respuesta a esta pregunta es no. Para poder ha-
cer una afirmacin de este tipo es necesario comparar entre s los efectos simples; no basta
con decidir cul de ellos es significativo y cul no.
Para comparar entre s los efectos simples vamos a realizar las comparaciones definidas
en [7.36]. Y lo vamos a hacer con el procedimiento ANOVA de un factor. Es decir, vamos a
tratar las 6 casillas de nuestro diseo como si fueran los 6 niveles de un nico factor. Para
hacer esto necesitamos crear una variable con 6 cdigos distintos (uno por casilla). En el ar-
chivo Tabla 7.5 dificultad ansiedad rendimiento hemos creado la variable grupo asignando
el cdigo 1 a la casilla ab11, el cdigo 2 a la casilla ab12, el cdigo 3 a la casilla ab13, el cdi-
go 4 a la casilla ab21, el cdigo 5 a la casilla ab22 y el cdigo 6 a la casilla ab23. Una vez crea-
da esta variable:
' Seleccionar la opcin Comparar medias > ANOVA de un factor del men Analizar para acce-
der al cuadro de dilogo ANOVA de un factor y trasladar la variable rendimiento a la lista
Dependientes y la variable grupo al cuadro Factor.
' Pulsar el botn Contrastes para acceder al cuadro de dilogo ANOVA de un factor: Con-
trastes y comenzar a introducir los coeficientes correspondientes a las tres comparaciones
definidas en [7.36] utilizando el cuadro de texto Coeficientes y el botn Aadir: introducir
los coeficientes de la primera comparacin (1, !1, 0, !1, 1, 0) y pulsar el botn Siguiente;
introducir los coeficientes de la segunda comparacin (1, 0, !1, !1, 0, 1) y pulsar el bo-
tn Siguiente; introducir los coeficientes de la tercera comparacin (0, 1, !1, 0, !1, 1).
Aceptando estas selecciones el Visor ofrece, entre otros, los resultados que muestran las Ta-
blas 7.19 y 7.20. La primera de ellas contiene los coeficientes asignados a las tres compa-
raciones que hemos definido. Estos coeficientes sirven para identificar las comparaciones que
se estn llevando a cabo y, por supuesto, para comprobar que, efectivamente, se correspon-
den con las que hemos definido.
La Tabla 7.20 ofrece los resultados de las tres comparaciones solicitadas agrupados en dos
bloques. En el primer bloque, las comparaciones estn evaluadas asumiendo que las varian-
282 Anlisis de datos (vol. II)
zas poblacionales son iguales; en el segundo, sin asumir tal cosa. Aunque ambas estrategias
suelen llevar a la misma conclusin, debe utilizarse la que se ajuste a las caractersticas de
los datos. Para esto, debe tenerse en cuenta el resultado obtenido previamente al contrastar
la hiptesis de igualdad de varianzas con la prueba de Levene. Puesto que en nuestro ejem-
plo puede asumirse que las varianzas poblacionales son iguales (ver Tabla 7.14), los resul-
tados que deben interpretarse son los del primer bloque (asumiendo igualdad de varianzas).
El contenido de esta tabla ya se ha explicado en el captulo anterior. Incluye, para cada
comparacin solicitada, el valor de la comparacin (contraste), su error tpico, el estadsti-
co del contraste (t), sus grados de libertad y el nivel crtico (sig. bilateral ). La hiptesis nula
que se pone a prueba con cada contraste es que los promedios poblacionales comparados son
iguales. Para tomar decisiones sobre estas hiptesis debe tenerse en cuenta que el procedi-
miento no aplica ninguna correccin para controlar la tasa de error. Para aplicar la correc-
cin de Bonferroni, basta con comparar cada nivel crtico (sig. bilateral) con F dividida por
el nmero de comparaciones; en nuestro ejemplo, C = 0,05/ 3 = 0,017.
Con los niveles crticos obtenidos (sig. bilateral ) debe decidirse: (1) mantener la hip-
tesis nula referida al primer contraste (pues 0,086 > 0,017), (2) rechazar la hiptesis nula re-
ferida al segundo contraste (pues 0,002 < 0,017) y (3) mantener la hiptesis nula referida al
tercer contraste (pues 0,086 > 0,017). En consecuencia, puede concluirse que el efecto de la
dificultad de la tarea no es el mismo cuando el nivel de ansiedad es bajo y cuando es alto. En
el apartado Efecto de la interaccin puede encontrarse un comentario ms detallado de estos
resultados.
Apndice 7
Casillas con tamaos muestrales distintos
Aunque lo habitual es planificar un estudio con la intencin de utilizar el mismo nmero de casos en
todas las condiciones (diseo equilibrado o balanceado), lo cierto es que esta circunstancia raramen-
te se da. Las razones por las que podemos encontrarnos con tamaos muestrales distintos son de diver-
sa naturaleza: puede haber descuido del investigador al seleccionar los sujetos o errores al registrar sus
respuestas; puede que algunos sujetos de los seleccionados no ofrezcan respuestas vlidas para el estu-
dio; puede que se est trabajando con grupos ya formados cuyo tamao no depende del investigador
(estudiantes de un aula); etc. Cuando se trabaja con tamaos muestrales distintos las inferencias se
Captulo 7. ANOVA de dos factores 283
complican bastante, pues los efectos de A, B y AB dejan de ser independientes entre s; no obstante,
todava es posible analizarlos.
Por qu la presencia de tamaos muestrales distintos complica las cosas? Consideremos un di-
seo 2 2 como el que muestra la Tabla 7.21. El factor A (tratamiento) define dos grupos: sujetos tra-
tados y no tratados (grupos experimental y control); el factor B (sexo) define dos grupos: hombres y
mujeres. La variable dependiente es una variable cuantitativa que vamos a llamar recuperacin. Ima-
ginemos que hemos seleccionado una muestra de 10 hombres y otra de 10 mujeres y que hemos
aplicado el tratamiento a la mitad de los sujetos de cada muestra (5 sujetos por condicin o casilla).
Por circunstancias ajenas al investigador, al final del estudio han quedado 6 hombres y 6 mujeres. La
tabla muestra las puntuaciones de los 12 sujetos, las medias de las casillas y las medias marginales.
Tanto las medias de las casillas como las medias marginales de las filas indican que los sujetos
tratados (grupo experimental) puntan en recuperacin el doble que los sujetos no tratados (grupo
control); y esto, tanto en el caso de los hombres como en el de las mujeres. Sin embargo, las medias
marginales de las columnas (las medias de las seis puntuaciones de cada columna) dicen otra cosa:
parece que los hombres (media = 8) se benefician del tratamiento menos que las mujeres (media = 10).
Esta aparente inconsistencia se debe al hecho de que, entre los hombres, el grupo que punta ms alto
es el menos numeroso, mientras que, entre las mujeres, el grupo que punta ms alto es el ms nume-
roso. Por supuesto, esta aparente inconsistencia tambin se debe al hecho de que las medias margi-
nales se han calculado teniendo en cuenta el tamao de las casillas.
Si los tamaos de las casillas reflejaran el tamao de sus respectivas poblaciones, estas medias
marginales (8 y 10) podran tener algn sentido; de hecho, desde el punto de vista descriptivo, estas
medias seran las que mejor estaran informando de lo que ocurre en la poblacin; incluso podra ocu-
rrir que estas medias fueran el objetivo principal de un estudio inferencial. Pero, por lo general, esto
no es lo que suele ocurrir en un diseo factorial; al analizar diferencias, las medias marginales no de-
beran decir nada distinto de lo que estn diciendo las medias de las casillas. No parece razonable que
el efecto de un tratamiento pueda depender del nmero de sujetos a los que se aplica; como tampoco
parece razonable que las posibles diferencias entre hombres y mujeres puedan variar en funcin del
nmero de hombres y mujeres incluidos en el estudio.
Sexo
Tratamiento Hombres Mujeres Medias
11 10, 11
Grupo
13 13, 14 12
experimental
media = 12 media = 12
4, 5 5
Grupo
7, 8 7 6
control
media = 6 media = 6
Medias 8 10 9
La solucin pasa por calcular las medias marginales sin tener el cuenta el tamao de las casillas. Esto
dara para las dos medias marginales de las columnas un valor de (12 + 6) / 2 = 9, que es lo que cabra
esperar despus de ver lo que ocurre en las casillas. Ambas formas de calcular las medias son num-
ricamente correctas, pero informan de cosas distintas (ver nota a pie de pgina n 10).
Aunque se han propuesto diferentes procedimientos para analizar los diseos con tamaos mues-
trales distintos, ninguno de ellos parece representar una solucin definitiva. Si los tamaos de las ca-
284 Anlisis de datos (vol. II)
sillas son proporcionales a los tamaos de sus respectivos marginales (nj k = nj+ n+k /N ), siguen siendo
vlidas las frmulas propuestas en este captulo para el caso de tamaos muestrales iguales. Si los ta-
maos de las casillas no son proporcionales, una solucin sencilla, que funciona bastante bien, consis-
te en aplicar las frmulas descritas en este captulo sustituyendo n por la media armnica de los ta-
maos de las casillas. Otras soluciones ms complejas es preferible abordarlas utilizando algn pro-
grama informtico (Maxwell y Delaney, 2004, pgs. 320-343, ofrecen un amplia discusin de toda
esta problemtica).
Nuestra intencin al incluir este breve apartado sobre la complicacin aadida que supone utili-
zar tamaos muestrales distintos no es que aprendamos a hacer clculos a mano. Las soluciones que
mejor funcionan son lo bastante complejas como para requerir la ayuda de un programa informtico.
Y eso es lo que debemos aprender a hacer. Pero conviene no olvidar que hay distintas formas de calcu-
lar medias marginales y que esas diferentes formas de clculo pueden llevar a conclusiones distintas.
5 5 GE 5
GE
4 4 4
GE
3 3 3
2 GC 2 2
GC
1 1 GC 1
0 0 0
pre- post- pre- post- pre- post-
Por tanto, para poder afirmar que existe efecto del tratamiento no basta con saber que GE y GC no difie-
ren en el pre- y s en el postratamiento, como tampoco basta con saber que GE cambia entre el pre- y
el postratamiento mientras que GC no lo hace (de todo esto es de lo que informan los efectos simples).
Para poder afirmar que existe efecto del tratamiento, la diferencia observada en el post- hay que refe-
rirla a la observada en el pretratamiento (o, de forma equivalente, el cambio observado en GE entre el
pre- y el postratamiento hay que referirlo al cambio observado en GC), y esto solo es posible hacerlo
comparando diferencias, que es justamente lo que se hace cuando se analiza el efecto de la interaccin.
Aunque una interaccin significativa coincidir, en muchos casos, con la presencia de efectos sim-
ples diferenciados (es decir, unos significativos y otros no), esto no tiene por qu ser necesariamente
as. Por tanto, si bien el anlisis de los efectos simples por separado puede llevar a las mismas con-
clusiones que la comparacin entre ellos, esa estrategia debe considerarse inapropiada porque puede
llevar a conclusiones incorrectas.
La sentencia LMATRIX
Al margen de las comparaciones que es posible llevar a cabo desde los cuadros de dilogo del SPSS,
la sentencia LMATRIX permite efectuar cualquier tipo de comparacin mediante sintaxis: permite va-
286 Anlisis de datos (vol. II)
lorar la significacin de los efectos simples, realizar comparaciones entre los diferentes niveles de un
mismo efecto simple para precisar dnde estn las diferencias, realizar comparaciones entre diferentes
efectos simples para interpretar el efecto de la interaccin, etc.
La sentencia LMATRIX permite realizar estas comparaciones asignando valores a los coeficientes
de la matriz L en la hiptesis general LB = 0 (B representa el vector de parmetros). El modelo esta-
dstico correspondiente a un diseo de dos factores completamente aleatorizados (ver Captulo 1 del
tercer volumen) adopta la forma
( j se refiere a los niveles del primer factor y k a los niveles del segundo factor). En nuestro ejemplo,
el modelo puede representarse mediante
rendimiento jk = constante + dificultad j + ansiedad k + dificultad*ansiedad jk
(con j = 1, 2; k = 1, 2, 3). La parte izquierda de la ecuacin recoge los pronsticos del modelo, es de-
cir, el rendimiento que el modelo pronostica para cada combinacin entre los niveles de los factores
(para cada casilla del diseo). La parte derecha de la ecuacin recoge las dos variables independien-
tes y la interaccin entre ambas. El modelo incluye doce parmetros: la constante, los dos niveles de
dificultad, los tres niveles de ansiedad y los seis parmetros resultantes de combinar los dos niveles
de dificultad con los tres niveles de ansiedad. Es decir, el vector de parmetros B incluye los siguien-
tes parmetros:
B N = (constante, dificultad 1, dificultad 2, ansiedad 1, ansiedad 2, ansiedad 3,
dificultad*ansiedad 11, dificultad*ansiedad 12, dificultad*ansiedad 13,
dificultad*ansiedad 21, dificultad*ansiedad 22, dificultad*ansiedad 23)
Y la matriz de coeficientes L incluye el peso o coeficiente asignado a cada parmetro del modelo:
L = (l1, l2, l3, l4, l5, l6, l7, l8, l9, l10, l11, l12)
Para definir contrastes personalizados basta con especificar los valores que deben tomar los coeficien-
tes de la matriz L en la expresin LB:
LB = l1 constante + l2 dificultad 1 + l3 dificultad 2 + l4 ansiedad 1 + l5 ansiedad 2 + l6 ansiedad 3 +
l7 dificultad*ansiedad 11 + l8 dificultad*ansiedad 12 + l9 dificultad*ansiedad 13 +
l10 dificultad*ansiedad 21 + l11 dificultad*ansiedad 22 + l12 dificultad*ansiedad 23
La sentencia LMATRIX permite definir contrastes personalizados asignando a cada parmetro los coe-
ficientes apropiados. Para comparar, por ejemplo, las dos dificultades (fcil, difcil) en el primer nivel
de ansiedad (bajo), a los coeficientes l2 y l7 asociados a los parmetros correspondientes a la primera
categora de dificultad (dificultad 1) y a la combinacin de la primera categora de dificultad con la
primera de ansiedad (dificultad*ansiedad 11) se les asigna un valor de 1; y a los coeficientes l3 y l10
asociados a los parmetros correspondientes a la segunda categora de dificultad (dificultad 2) y a la
combinacin de la segunda categora de dificultad con la primera de ansiedad (dificultad*ansiedad 21)
se les asigna un valor de !1. Al resto de coeficientes se les asignan ceros para excluir del contraste los
efectos que no intervienen en la comparacin. Por tanto, la expresin LB correspondiente a la com-
paracin de las dos dificultades en el primer nivel de ansiedad queda de la siguiente manera:
LB = (1) dificultad 1 + (1) dificultad*ansiedad 11 + (!1) dificultad 2 + (!1) dificultad*ansiedad 21
= (dificultad 1 ! dificultad 2) + (dificultad*ansiedad 11 ! dificultad*ansiedad 21)
Captulo 7. ANOVA de dos factores 287
En la primera parte de la expresin se estn comparando las dos dificultades; en la segunda parte se
indica que la comparacin entre las dos dificultades debe limitarse al primer nivel de ansiedad. De
modo similar, la expresin LB correspondiente a la comparacin de las dos dificultades en el segun-
do nivel de ansiedad adopta la forma
LB = (1) dificultad 1 + (1) dificultad*ansiedad 12 + (!1) dificultad 2 + (!1) dificultad*ansiedad 22
= (dificultad 1 ! dificultad 2) + (dificultad*ansiedad 12 ! dificultad*ansiedad 22)
Por ltimo, la expresin LB correspondiente a la comparacin de las dos dificultades en el tercer nivel
de ansiedad adopta la forma
LB = (1) dificultad 1 + (1) dificultad*ansiedad 13 + (!1) dificultad 2 + (!1) dificultad*ansiedad 23
= (dificultad 1 ! dificultad 2) + (dificultad*ansiedad 13 ! dificultad*ansiedad 23)
Como ya hemos dicho, la sentencia LMATRIX permite valorar cualquier comparacin entre medias
mediante el contraste de hiptesis nulas del tipo LB = 0. Para contrastar estas hiptesis (los datos se
encuentran en el archivo Tabla 7.5 dificultad ansiedad rendimiento):
' En el cuadro de dilogo Univariante, trasladar la variable rendimiento a la lista Dependiente y las
variables dificultad (dificultad de la tarea) y ansiedad (nivel de ansiedad) y trasladarlas a la lis-
ta Factores fijos.
' Pulsar el botn Pegar para obtener la sintaxis correspondiente a las elecciones hechas.
METHOD indica que se van a utilizar las sumas de cuadrados Tipo III; INTERCEPT recuerda que el
modelo solicitado incluye la constante; CRITERIA establece el nivel de significacin que se utilizar
para construir los intervalos de confianza; y DESIGN recoge los efectos incluidos en el modelo. Los
valores asignados a estas cuatro sentencias son los que el procedimiento UNIANOVA utiliza por defec-
to; por tanto, no es necesario incluirlos. Para poder efectuar contrastes personalizados es necesario
aadir a la sintaxis la sentencia LMATRIX:
UNIANOVA
rendimiento BY dificultad ansiedad
/LMATRIX = Comparaciones entre las dos dificultades en cada nivel de ansiedad
dificultad 1 1 dificultad*ansiedad 1 0 0 1 0 0;
dificultad 1 1 dificultad*ansiedad 0 1 0 0 1 0;
dificultad 1 1 dificultad*ansiedad 0 0 1 0 0 1.
La expresin entre apstrofos de la sentencia LMATRIX es una etiqueta descriptiva que servir para
identificar los resultados en el Visor. A continuacin aparecen definidas las tres comparaciones entre
las dos dificultades dentro de cada nivel de ansiedad; es decir, las tres comparaciones correspondien-
tes a los efectos simples del factor A (dificultad ). En la primera lnea, los coeficientes de la primera
parte (dificultad ) comparan las dos dificultades (estos coeficientes son los que en la expresin LB es-
tn asociados a los efectos dificultad1 y dificultad 2); y los coeficientes de la segunda parte (dificultad*
ansiedad ) indican que esa comparacin entre las dos dificultades debe hacerse dentro del primer ni-
288 Anlisis de datos (vol. II)
vel de ansiedad, pues los coeficientes 1 y !1 se han asignado a los parmetros dificultad*ansiedad 11
y dificultad*ansiedad 21 (estos 6 coeficientes se corresponden con las 6 casillas del diseo en el orden
1-1, 1-2, 1-3, 2-1, 2-2 y 2-3 ). En la segunda lnea, los coeficientes indican que la comparacin entre
las dos dificultades debe hacerse dentro del segundo nivel de ansiedad, pues los coeficientes 1 y !1 se
han asignado a los parmetros dificultad*ansiedad 12 y dificultad*ansiedad 22. En la tercera lnea, los
coeficientes indican que la comparacin entre las dos dificultades debe hacerse dentro del tercer nivel
de ansiedad, pues los coeficientes 1 y !1 se han asignado a los parmetros dificultad*ansiedad 13 y
dificultad*ansiedad 23.
Ejecutando esta sintaxis se obtienen, entre otros, los resultados que muestra la Tabla 7.22. Estos
resultados son idnticos a los ya obtenidos al estudiar los efectos simples con otra estrategia diferen-
te (ver Tabla 7.18), con la diferencia de que ahora no se est aplicando la correccin de Bonferroni al
calcular los niveles crticos ni al construir los intervalos de confianza. Los niveles crticos (sig.) per-
miten concluir que la dificultad de la tarea nicamente afecta al rendimiento cuando el nivel de an-
siedad es bajo (contraste L1 ).
Puesto que la variable dificultad nicamente tiene dos niveles, basta con hacer una comparacin entre
dificultades por cada nivel de ansiedad (tres comparaciones en total); cada una de esas tres compara-
ciones capta el efecto de la dificultad en cada nivel de ansiedad; es decir, cada una de esas tres com-
paraciones corresponde a uno de los tres efectos simples del factor dificultad.
Cuando el factor analizado tiene ms de dos niveles, adems de valorar los efectos simples, pue-
de interesar comparar entre s las medias involucradas en cada efecto simple. Por ejemplo, los efectos
simples del factor ansiedad son dos: uno por cada dificultad. Pero cada efecto simple del factor an-
siedad incluye tres medias. Para precisar el significado de cada efecto simple del factor ansiedad hay
que comparar por pares las medias correspondientes a sus tres niveles (tres comparaciones por cada
dificultad; seis comparaciones en total). Estas comparaciones pueden hacerse utilizando dos sentencias
LMATRIX: una con las comparaciones referidas a la primera dificultad (fcil) y otra con las referidas
a la segunda dificultad (difcil). La sintaxis correspondiente a estas comparaciones es la siguiente:
UNIANOVA
rendimiento BY dificultad ansiedad
/LMATRIX = Comparaciones entre los niveles de ansiedad en dificultad = fcil
ansiedad 1 1 0 dificultad*ansiedad 1 1 0 0 0 0;
ansiedad 1 0 1 dificultad*ansiedad 1 0 1 0 0 0;
ansiedad 0 1 1 dificultad*ansiedad 0 1 1 0 0 0
/LMATRIX = Comparaciones entre los niveles de ansiedad en dificultad = difcil
ansiedad 1 1 0 dificultad*ansiedad 0 0 0 1 1 0;
ansiedad 1 0 1 dificultad*ansiedad 0 0 0 1 0 1;
ansiedad 0 1 1 dificultad*ansiedad 0 0 0 0 1 1.
Captulo 7. ANOVA de dos factores 289
Ejecutando esta sintaxis se obtienen los resultados que muestran las Tablas 7.23 a 7.26. La Tabla 7.23
ofrece las comparaciones entre los tres niveles de ansiedad dentro de la primera categora de dificul-
tad (fcil). La nota a pie de tabla muestra la etiqueta incluida en la sintaxis. En L1 se estn compa-
rando los niveles de ansiedad bajo y medio; en L2, los niveles bajo y alto; en L3, los niveles medio y
alto. El nivel crtico asociado a L2 (sig. = 0,004) indica que, cuando la tarea es fcil, el rendimiento
medio de los sujetos con nivel de ansiedad bajo difiere del rendimiento medio de los sujetos con nivel
de ansiedad alto. El nivel crtico asociado a L3 (sig. < 0,0005) indica que, cuando la tarea es fcil, el
rendimiento de los sujetos con nivel de ansiedad medio difiere del rendimiento de los sujetos con nivel
de ansiedad alto (no debe olvidarse que al realizar estas comparaciones no se est aplicando ningn
tipo de correccin para controlar la tasa de error).
Por tanto, cuando la tarea es fcil, el rendimiento en los tres niveles de ansiedad no es el mismo.
La Tabla 7.24 ofrece una valoracin del efecto global del nivel de ansiedad en la primera categora de
dificultad (fcil), es decir, una valoracin del primero de los dos efectos simples del nivel de ansiedad.
El nivel crtico (sig. = 0,001) indica que ese efecto simple es significativamente distinto de cero (con-
firmando lo que ya nos ha dicho la Tabla 7.23, es decir, confirmando que, cuando la tarea es fcil, el
rendimiento medio no es el mismo en los tres niveles de ansiedad).
Tabla 7.23. Comparaciones entre las medias de nivel de ansiedad en el primer nivel de dificultad (fcil)
Variable dependiente: Rendimiento
Intervalo de confianza al
Estimacin Valor Diferencia (Estim. Error 95% para la diferencia
a
Contraste del contraste hipotetizado - Hipotetiz.) tpico Sig. Lm. inferior Lm. superior
L1 -2,00 0 -2,00 1,58 ,218 -5,26 1,26
L2 5,00 0 5,00 1,58 ,004 1,74 8,26
L3 7,00 0 7,00 1,58 ,000 3,74 10,26
a. Basada en la matriz de coeficientes de contraste (L') definida por el usuario: Comparaciones entre los
niveles de ansiedad en dificultad = fcil
Tabla 7.24. Contraste del efecto simple de nivel de ansiedad en el primer nivel de dificultad (fcil)
Variable dependiente: Rendimiento
Suma de Media
Fuente cuadrados gl cuadrtica F Sig.
Contraste 130,00 2 65,00 10,40 ,001
Error 150,00 24 6,25
La Tabla 7.25 ofrece las comparaciones entre los tres niveles de ansiedad dentro del segundo nivel de
dificultad (difcil). Ahora solamente es significativa la comparacin L1 (sig. = 0,001): cuando la tarea
es difcil, el rendimiento de los sujetos con nivel de ansiedad bajo difiere del de los sujetos con nivel
de ansiedad medio. El resto de comparaciones no son significativas. Los resultados de la Tabla 7.26
confirman que el segundo efecto simple de nivel de ansiedad es significativo (sig. = 0,004).
Tabla 7.25. Comparaciones entre las medias de nivel de ansiedad en el segundo nivel de dificultad (difcil)
Variable dependiente: Rendimiento
Intervalo de confianza al
Estimacin Valor Diferencia (Estim. Error 95% para la diferencia
a
Contraste del contraste hipotetizado - Hipotetiz.) tpico Sig. Lm. inferior Lm. superior
L1 -6.00 0 -6.00 1.58 ,001 -9.26 -2.74
L2 -3.00 0 -3.00 1.58 ,070 -6.26 .26
L3 3.00 0 3.00 1.58 ,070 -.26 6.26
a. Basada en la matriz de coeficientes de contraste (L') definida por el usuario: Comparaciones entre los
niveles de ansiedad en dificultad = difcil
290 Anlisis de datos (vol. II)
Tabla 7.26. Contraste del efecto simple de nivel de ansiedad en el segundo nivel de dificultad (difcil)
Variable dependiente: Rendimiento
Suma de Media
Fuente cuadrados gl cuadrtica F Sig.
Contraste 90,00 2 45,00 7,20 ,004
Error 150,00 24 6,25
Esta sintaxis genera, entre otros, los resultados que muestran las Tablas 7.27 y 7.28. La primera es
idntica a la que hemos obtenido al comparar los efectos simples con el procedimiento ANOVA de un
factor (ver Tablas 7.19 y 7.20); por tanto, se interpreta de idntica manera. La Tabla 7.28 ofrece una
valoracin global de las tres comparaciones de la Tabla 7.27. Estos resultados no tendran ningn
inters si no fuera porque permiten comprobar que el efecto global de las tres comparaciones entre
efectos simples llevadas a cabo en la Tabla 7.27 para poder asilar e interpretar el efecto de la interac-
cin es idntico al efecto de la interaccin (ver Tabla 7.12). Lo cual est indicando que estas tres
comparaciones, adems de agotar el efecto de la interaccin, no estn contaminadas por la presencia
de otros efectos distintos del de la interaccin.
7.1. En un centro de salud se vienen realizando estudios sobre la adiccin a una determinada sustancia. En
uno de estos estudios, 30 pacientes aleatoriamente seleccionados se han dividido en 6 grupos en fun-
cin de: (1) el lugar donde han recibido la terapia (en el centro o en el domicilio) y (2) el tiempo que
llevaban consumiendo antes de comenzar la terapia (menos de 2 aos, entre 2 y 5 aos, y ms de 5
aos). Se ha registrado la dosis (en mg) consumida durante una semana. Con los datos obtenidos se ha
construido la siguiente tabla de medias:
Tras realizar el correspondiente anlisis de varianza se ha obtenido la siguiente tabla resumen (in-
completa):
292 Anlisis de datos (vol. II)
7.2. Estamos interesados en estudiar el efecto de ciertas variables motivacionales sobre el rendimiento. Pa-
ra ello, se han aplicado dos programas de entrenamiento motivacional (a1 = instrumental, a2 = atri-
bucional) a dos grupos de sujetos seleccionados al azar. Un tercio de los sujetos de cada grupo ha
recibido el entrenamiento bajo un clima de clase diferente: b1 = cooperativo, b2 = competitivo y
b3 = individual. Al evaluar el rendimiento de los sujetos tras el entrenamiento se han obtenido las
medias que muestra la siguiente tabla (las varianzas se ofrecen entre parntesis):
Clima de clase
Utilizando = 0,05,
a. Plantear las hiptesis estadsticas correspondientes al efecto del factor A, al efecto del factor B y
al efecto de la interaccin AB. Contrastarlas.
b. Estimar el tamao de los tres efectos del apartado a. Interpretar el resultado.
c. Calcular la potencia asociada al contraste del efecto de la interaccin.
d. Aplicar la prueba pertinente para decidir entre qu niveles del factor clima de clase existen dife-
rencias significativas ( = 0,05).
e. Representar grficamente el efecto de la interaccin con la variable tiempo en el eje horizontal.
f. Comparar entre s los efectos simples del factor entrenamiento e interpretar el efecto de la inte-
raccin.
7.3. Para estudiar el efecto de cierta protena sobre la actividad motora de las ratas, un investigador selec-
cion una muestra de 45 ratas que distribuy aleatoriamente en tres grupos de igual tamao. A cada
grupo le aplic durante una semana una de tres dietas distintas (factor A), cada una de ellas con diferen-
te contenido de la protena en cuestin. Sospechando que las horas de sueo tambin podran afectar
Captulo 7. ANOVA de dos factores 293
a la actividad motora de las ratas, el investigador control el nmero de horas dormidas diariamente
por cada rata (factor B), dejando dormir 2 horas o menos a unas, entre 2 y 4 a otras, y ms de 4 al resto.
Al final de la semana de tratamiento contabiliz el nmero de respuestas emitidas por cada rata en una
caja de ensayo durante 3 minutos y obtuvo los resultados que muestra la siguiente tabla:
Horas de sueo
Dieta (b1) < 2 horas (b2) 2 - 4 horas (b3) > 4 horas
8 10 5
12 8 2
(a1) Dieta 1 6 12 10
10 4 2
9 6 6
13 5 4
9 12 8
(a2) Dieta 2 8 8 0
14 16 1
6 14 7
12 16 11
23 8 9
(a3) Dieta 3 17 10 7
9 6 6
14 20 12
7.4. La siguiente tabla se refiere a las medias poblacionales de un diseo de dos factores AB-CA. Com-
pletarla sabiendo que no existe efecto del factor A ni del factor B.
b1 b2 b3
a1 2 ( ) ( ) ( )
a2 ( ) 4 ( ) ( )
( ) ( ) ( ) 4
7.5. Cuando en un ANOVA AB-CA se dice que el efecto de la interaccin es significativo, lo que se est
queriendo decir con ello es que... (elegir la/s alternativa/s correcta/s):
a. El factor A est relacionado con el factor B.
b. Los factores A y B son independientes entre s pero ambos estn relacionados con la VD.
294 Anlisis de datos (vol. II)
c. El efecto principal del factor A difiere del efecto principal del factor B.
d. Los efectos simples del factor A difieren de los efectos simples del factor B.
e. La diferencia entre las medias del factor A cambia cuando cambian los niveles del factor B.
7.6. La siguiente tabla contiene algunas medias poblacionales de un diseo AB-CA. Sabemos que la me-
dia total vale 40 y que no existe efecto de la interaccin.
b1 b2 b3
a1 ( ) ( ) ( ) 50
a2 ( ) ( ) ( ) ( )
( ) 40 20 ( )
a. Completar la tabla.
b. Existe efecto del factor A?
c. Existe efecto del factor B ?
d. Si, tomada una muestra aleatoria y hechos los correspondientes clculos, se decide rechazar la
hiptesis nula referida al factor A, qu error se podra estar cometiendo?
e. Cuntos efectos simples tiene el factor A?
f. En este escenario, es correcto afirmar que los efectos simples del factor A no difieren?
7.7. En un diseo AB-CA, con J = 3 y K = 2 se realizan J ! 1 comparaciones ortogonales entre los nive-
les del factor A y K ! 1 entre los niveles del factor B. Elegir la/s alternativa/s correcta/s:
a. Si FA es significativa, tambin lo sern las J ! 1 comparaciones ortogonales entre los niveles del
factor A.
b. Si FA no es significativa, puede que lo sea alguna de las J ! 1 comparaciones ortogonales entre los
niveles del factor A.
c. Si alguna de las comparaciones ortogonales planteadas es significativa, tambin lo ser FAB.
d. Solamente pueden plantearse 2 comparaciones ortogonales entre los niveles del factor B.
e. Si ninguna de las comparaciones ortogonales entre los niveles del factor A es significativa, puede
que sea significativa FA.
A los modelos de anlisis de varianza estudiados en los Captulos 6 y 7 los hemos llamado
completamente aleatorizados porque a cada condicin del diseo (es decir, a cada nivel del
factor, en el caso de un factor; o a cada combinacin entre los niveles de los factores, en el
caso de dos factores) se asigna una muestra aleatoria de sujetos distintos (grupos aleatorios).
A los modelos que vamos a estudiar en este captulo y en el siguiente se les llama de medi-
das repetidas (MR) porque se utilizan los mismos sujetos en ms de una condicin (bloques
aleatorios).
Consideremos un estudio diseado para conocer la opinin de los consumidores sobre
cinco productos rivales. Podemos seleccionar al azar tantos grupos de sujetos como productos
(cinco) y hacer que cada grupo opine sobre un producto; al proceder de esta manera tenemos
un diseo con un factor (tipo de producto, con cinco niveles) completamente aleatorizado
(tantos grupos de sujetos como niveles tiene el factor). En lugar de esto, podemos seleccionar
un nico grupo y pedir a cada sujeto que exprese su preferencia por cada uno de los cinco pro-
ductos; seguimos teniendo un factor (tipo de producto), pero con medidas repetidas (un nico
grupo de sujetos opina sobre todos los productos).
En este captulo estudiaremos el modelo de un factor con medidas repetidas (A-MR). En
el siguiente estudiaremos los modelos de dos factores: el de dos factores con medidas repe-
tidas en ambos (AB-MR) y el de dos factores con medidas repetidas en uno (AB-CA-MR).
Tambin se obtienen medidas repetidas cuando, en lugar de utilizar los mismos sujetos,
se utilizan bloques de sujetos igualados mediante algn tipo de vnculo relevante para el an-
lisis (bloques aleatorios). Por ejemplo, en un estudio diseado para comparar tres mtodos
de enseanza de las matemticas, se pueden formar bloques de tres sujetos con el mismo
cociente intelectual y asignar cada sujeto del mismo bloque a un mtodo distinto. Aunque los
sujetos del mismo bloque son distintos, el hecho de que sean homogneos en una caracte-
rstica relevante para el anlisis permite considerar cada bloque como unidad de anlisis.
Tanto si se utilizan los mismos sujetos como si se utilizan bloques de sujetos igualados,
lo que caracteriza a las medidas repetidas es que no son independientes entre s; y no lo son
porque, tanto en el caso de puntuaciones pertenecientes a los mismos sujetos como en el de
puntuaciones pertenecientes a sujetos igualados, el conocimiento de una de las puntuaciones
de un sujeto o bloque permite saber algo de las dems puntuaciones del mismo sujeto o
bloque: los buenos estudiantes tienden a obtener puntuaciones altas en lengua, en matem-
ticas y en ingls; los sujetos que ms se benefician de un programa de adelgazamiento tien-
den a ser los que mejor mantienen ese beneficio al cabo de un mes; los sujetos con cociente
intelectual alto tienden a aprender mejor con cualquier mtodo de enseanza; etc. Puede que
una puntuacin no diga mucho de las dems, pero es seguro que algo dice. Y esta circunstan-
cia debe ser tenida en cuenta en el anlisis.
Los modelos de anlisis de varianza con medidas repetidas sirven para valorar el efecto
de uno o ms factores cuando al menos uno de ellos es un factor intrasujetos. En un factor
intersujetos o completamente aleatorizados (ver Captulos 6 y 7), cada nivel del factor se
asocia a un grupo de sujetos. Un factor intrasujetos o con medidas repetidas se distingue
porque todos los niveles del factor se aplican a los mismos sujetos. Los trminos intersu-
jetos e intrasujetos se aplican tanto a los factores como a los diseos. Los trminos diseo
intrasujetos y diseo con medidas repetidas se refieren al mismo tipo de diseo.
Los diseos intrasujetos o con medidas repetidas ya los hemos empezado a estudiar en
el Captulo 12 del primer volumen y en el Captulo 5 de ste. El ms simple de todos ellos
consiste en medir dos variables en una misma muestra de sujetos. Es lo que hemos hecho al
aplicar la prueba T para muestras relacionadas. Pero los diseos de medidas repetidas pue-
den tener ms de dos medidas y ms de un factor. Los ejemplos de las Tablas 8.1 a 8.3 pue-
den ayudar a comprender las diferencias entre los diseos completamente aleatorizados (CA)
y los de medidas repetidas (MR). Cada sujeto (cada participante en el estudio) est repre-
sentado con la letra s ; las letras con el mismo subndice se refieren al mismo sujeto; subn-
dices distintos indican sujetos distintos. Seguimos utilizando a1, a2, ..., aJ para identificar los
niveles del factor A y b1, b2, ..., bK para identificar los niveles del factor B.
En la Tabla 8.1 estn representados dos diseos de un factor. La Tabla 8.1.1 muestra un
diseo CA (grupos aleatorios o muestras independientes, es decir, sujetos distintos en cada
condicin). Con 5 sujetos por condicin, hacen falta 20 sujetos para completar las 4 condi-
ciones del diseo. Cada sujeto genera una puntuacin. Estos datos se analizan con el mode-
lo de un factor CA (ver Captulo 6). Si el factor solamente tiene dos niveles, los datos pue-
den analizarse con la prueba T de Student para muestras independientes (ver Captulo 4).
La Tabla 8.1.2 muestra un diseo MR (bloques aleatorios o muestras relacionadas, es
decir, los mismos sujetos en todas las condiciones). Las 4 condiciones del diseo se com-
pletan con los mismos 5 sujetos. Cada sujeto genera 4 puntuaciones. Estos datos se analizan
con el modelo de un factor MR (lo estudiaremos en este captulo). Cuando un factor con me-
didas repetidas tiene solamente dos niveles, los datos pueden analizarse con la prueba T de
Student para muestras relacionadas (ver Captulo 5).
Captulo 8. ANOVA. Un factor con medidas repetidas 297
1 a1 a2 a3 a4 2 a1 a2 a3 a4
s1 s6 s11 s16 s1 s1 s1 s1
s2 s7 s12 s17 s2 s2 s2 s2
s3 s8 s13 s18 s3 s3 s3 s3
s4 s9 s14 s19 s4 s4 s4 s4
s5 s10 s15 s20 s5 s5 s5 s5
En la Tabla 8.2 estn representados tres diseos de dos factores. En los tres casos se trata de
diseos 2 4. La Tabla 8.2.1 muestra un diseo CA. En este diseo ambos factores son in-
tersujetos. Con 5 sujetos por condicin, hacen falta 40 sujetos para completar las 8 condi-
ciones del diseo. Cada sujeto genera una sola puntuacin. Estos datos se analizan con el
modelo de dos factores completamente aleatorizados (ver Captulo 7).
La Tabla 8.2.2 muestra un diseo con medidas repetidas en ambos factores. Los dos
factores son intrasujetos. Las 8 condiciones del diseo se completan con los mismos 5 su-
jetos. Cada sujeto genera 8 puntuaciones. Estos datos se analizan con el modelo de dos fac-
tores con medidas repetidas en ambos (lo estudiaremos en el Captulo 9).
La Tabla 8.2.3 muestra un diseo con medidas repetidas en el segundo factor: A es un
factor intersujetos; B es un factor intrasujetos. A los niveles de A se han asignado sujetos
distintos; a los de B se han asignado los mismos sujetos. Las 8 condiciones del diseo se
completan con 10 sujetos (los 5 de la condicin a1 ms los 5 de la condicin a2 ). Cada suje-
to genera 4 puntuaciones. Estos datos se analizan con el modelo de dos factores con me-
didas repetidas en uno de ellos (lo estudiaremos en el Captulo 9).
Tabla 8.2. Diseos de dos factores. 1: dos factores completamente aleatorizados (AB-CA); 2: dos factores
con medidas repetidas en ambos (AB-MR); 3: dos factores con medidas repetidas en uno (el B) (AB-CA-MR)
1 b1 b2 b3 b4 2 b1 b2 b3 b4 3 b1 b2 b3 b4
s1 s6 s11 s16 s1 s1 s1 s1 s1 s1 s1 s1
s2 s7 s12 s17 s2 s2 s2 s2 s2 s2 s2 s2
a1 s3 s8 s13 s18 a1 s3 s3 s3 s3 a1 s3 s3 s3 s3
s4 s9 s14 s19 s4 s4 s4 s4 s4 s4 s4 s4
s5 s10 s15 s20 s5 s5 s5 s5 s5 s5 s5 s5
s21 s26 s31 s36 s1 s1 s1 s1 s6 s6 s6 s6
s22 s27 s32 s37 s2 s2 s2 s2 s7 s7 s7 s7
a2 s23 s28 s33 s38 a2 s3 s3 s3 s3 a2 s8 s8 s8 s8
s24 s29 s34 s39 s4 s4 s4 s4 s9 s9 s9 s9
s25 s30 s35 s40 s5 s5 s5 s5 s10 s10 s10 s10
Las ventajas de los diseos con medidas repetidas son evidentes: requieren menos sujetos que
un diseo completamente aleatorizado (ver Kirk, 1995, pgs. 286-288) y permiten eliminar
la variabilidad debida a las diferencias entre los sujetos (pues se utilizan los mismos). Como
contrapartida, los supuestos del anlisis se vuelven algo ms exigentes (estudiaremos esto ms
298 Anlisis de datos (vol. II)
adelante) y es necesario vigilar algunos efectos derivados del hecho de utilizar los mismos
sujetos. Por ejemplo, el efecto de arrastre, que ocurre cuando se aplica una condicin antes
de que haya finalizado el efecto de otra aplicada previamente, o el efecto del aprendizaje por
la prctica, que ocurre cuando las respuestas de los sujetos pueden mejorar con la repeticin
y, como consecuencia de ello, los tratamientos administrados en ltimo lugar parecen ms
efectivos que los administrados en primer lugar, sin que haya diferencias reales entre ellos
(cuando se sospecha de la presencia de este efecto es importante controlar el orden de pre-
sentacin de las condiciones). Conviene conocer las fortalezas y debilidades de estos dise-
os para decidir correctamente cundo utilizarlos (ver Len y Montero, 2003, pgs. 233-258).
Tabla 8.3. Estructura de los datos y notacin en un diseo de un factor con medidas repetidas (A-MR)
Factor A
Sujetos a1 a2 aj aJ Suma
s1
s2
si
sn
Suma
Captulo 8. ANOVA. Un factor con medidas repetidas 299
Recordemos que el signo + colocado como subndice se refiere a todos los valores del
subndice al que sustituye. Por ejemplo, Y2+ se refiere a todas las puntuaciones del segundo
sujeto (todos los valores j cuando i = 2). Los totales de cada nivel del factor ( ) se obtie-
nen sumando las n puntuaciones de cada columna; los de cada sujeto ( ) se obtienen su-
mando las J puntuaciones de cada fila; y el gran total (T ) se obtiene sumando todas las pun-
tuaciones de la tabla. Con estos totales se obtienen las medias de cada nivel del factor (me-
dias de las columnas), de cada sujeto (medias de las filas) y del total de la tabla; basta con
dividir esos totales entre el nmero de observaciones utilizadas para obtenerlos:
= , = , = = [8.1]
Los niveles del factor A definen J poblaciones. Supongamos que la variable cuantitativa Y
se distribuye normalmente en esas J poblaciones y que todas ellas tienen la misma varianza.
Y supongamos que, de cada una de esas J poblaciones, extraemos una muestra de n obser-
vaciones con la particularidad de que esas observaciones no son independientes entre s por-
que pertenecen a los mismos sujetos o a bloques de J sujetos igualados. En este escenario es
posible identificar varios tipos de variabilidad.
La variabilidad total recoge la variabilidad entre cada observacin y la media total. Es-
ta variabilidad total se puede descomponer en tres fuentes de variabilidad1: (1) la que se da
entre los diferentes niveles del factor o variabilidad intergrupos, tambin llamada intra-
sujetos por ser la variabilidad entre las puntuaciones de los mismos sujetos, (2) la que se da
entre los diferentes sujetos o variabilidad intersujetos y (3) la que se da entre cada obser-
vacin y sus respectivas medias marginales (es decir, la variabilidad de cada observacin
individual respecto de la media de su misma fila y columna); a esta forma de variabilidad la
llamamos variabilidad error porque representa el alejamiento de cada puntuacin respecto
de lo esperado en funcin de sus valores marginales.
Estas tres fuentes de variabilidad pueden cuantificarse aplicando la lgica ya utilizada
a propsito del modelo de un factor CA. As, la variabilidad intergrupos o intrasujetos, que
se refiere a las diferencias existentes entre las medias de las diferentes medidas (niveles del
factor), puede cuantificarse mediante la varianza o media cuadrtica intergrupos:
(puesto que la MCI nicamente incluye la variabilidad debida al factor A, tambin podemos
llamarla MCA ). La variabilidad intersujetos o variabilidad entre las medias de los sujetos
puede cuantificarse mediante la varianza o media cuadrtica intersujetos:
MCS = [8.3]
1
Por supuesto, esta descomposicin de la variabilidad total en tres fuentes de variabilidad tiene su justificacin matem-
tica (ver Pardo y San Martn, 1998, pgs. 256-259 ). Pero esto es justamente lo que estamos intentando evitar aqu.
300 Anlisis de datos (vol. II)
Esta media cuadrtica refleja, en realidad, la interaccin entre los sujetos (filas) y los niveles
del factor (columnas), es decir, la interaccin AS, y sustituye a la variabilidad intragrupos o
error de los modelos CA que aqu no existe porque solamente hay una observacin por casilla.
Aplicando ahora la lgica estudiada a propsito del modelo completamente aleatoriza-
do, sabemos que el cociente entre MCA y MCA S expresa cmo de grande es la variabilidad
entre las medias de las diferentes medidas o niveles del factor (MCA) en comparacin con la
variabilidad error (MCA S ), que es la variabilidad que cabra esperar por azar independien-
temente del tamao de las medias poblacionales. Por tanto, el estadstico
F = = [8.5]
que sabemos que se distribuye segn el modelo de probabilidad F con los grados de libertad
del numerador (J ! 1), y los del denominador [(J !1) (n !1)], puede utilizarse para contrastar
la hiptesis de que las J medias poblacionales son iguales2. El Cuadro 8.1 ofrece un resumen
del procedimiento3.
El estadstico F propuesto en [8.5] permite contrastar la hiptesis de igualdad de medias
si, al igual que en cualquier otro modelo de ANOVA, se dan ciertas condiciones. Estas con-
diciones son las mismas que en el modelo completamente aleatorizado ms alguna otra adi-
cional que trataremos en el siguiente apartado.
Cuadro 8.1. Resumen del ANOVA de un factor con medidas repetidas (A-MR)
2
El cociente entre MCS y MCA S podra utilizarse para comparar las n medias de los sujetos, pero esto es algo que, en este
contexto, no suele tener inters. Se da por hecho que los sujetos difieren (razn por la cual se utilizan varios). La variabi-
lidad entre los sujetos nicamente se tiene en cuenta para eliminarla de la variabilidad error.
3
La diferencia entre el modelo completamente aleatorizado (CA) y el de medidas repetidas (MR) est nicamente en la
variabilidad intersujetos. Recordemos que, en el modelo CA, la variabilidad total se descompone en dos fuentes de varia-
bilidad: intergrupos y error. Ahora, en el modelo MR, la variabilidad total se descompone en tres fuentes de variabilidad:
intergrupos, intersujetos y error. Puesto que las variabilidades total e intergrupos son idnticas en ambos modelos, la va-
riabilidad error es menor en el modelo MR que en el CA en la cantidad correspondiente a la variabilidad intersujetos. C-
mo de grande es esa cantidad es algo que depende del grado de relacin existente entre las medidas repetidas. Si la relacin
es alta, tambin lo ser la variabilidad intersujetos, pues los sujetos que tienden a puntuar bajo (alto) en una medida ten-
dern a puntuar bajo (alto) en las dems y las medias de los sujetos sern distintas. Pero si las medidas repetidas son in-
dependientes, la variabilidad intersujetos ser pequea, pues los sujetos tendern a puntuar indistintamente bajo y alto en
las diferentes medidas y sus medias sern parecidas. Por tanto, si las medidas repetidas no estn relacionadas, no se obten-
dr ningn beneficio aplicando un modelo MR (es decir, no se conseguir reducir la variabilidad error debida a las dife-
rencias entre los sujetos y, consecuentemente, no habr diferencia entre aplicar un modelo CA y un modelo MR).
Captulo 8. ANOVA. Un factor con medidas repetidas 301
Tabla 8.4. Datos de un diseo A-MR. Calidad del recuerdo en cuatro momentos
Medias 17 12 8 7 11
Se trata de un diseo con una variable independiente o factor (al que podemos llamar tiempo)
con cuatro niveles (J = 4). Los n = 6 sujetos incluidos en el estudio pasan por los 4 niveles
del factor (medidas repetidas). La variable dependiente, calidad del recuerdo (en realidad se
trata de 4 variables cuantitativas) se ha obtenido a partir de las valoraciones de varios exper-
tos. Tenemos, por tanto, un diseo de un factor con medidas repetidas.
Antes de comenzar el anlisis siempre es recomendable formarse una idea sobre los datos
que se van a analizar. Para esto, nada como un diagrama de cajas representando las puntua-
ciones individuales de las variables (de las medidas repetidas) y un grfico de lneas repre-
sentando las medias. La Figura 8.1 muestra ambas cosas. Aunque el diagrama correspon-
diente a un mes muestra una distribucin algo asimtrica, no da la impresin de que estemos
ante distribuciones muy asimtricas; de hecho, la prueba de normalidad de Shapiro-Wilk (ver
302 Anlisis de datos (vol. II)
Figura 8.1. Diagramas de caja (izquierda) y grfico de lneas (derecha) de la calidad del recuerdo al cabo
de una hora, un da, una semana y un mes
1. Hiptesis:
H0: hora = da = semana = mes (el paso del tiempo no afecta a la calidad del recuerdo).
H1: j =/ jN para algn valor de j o jN (j =/ jN) (el paso del tiempo afecta a la calidad del
recuerdo).
2. Supuestos: tenemos 4 muestras aleatorias de puntuaciones extradas de poblaciones que
asumimos normales y con la misma varianza; asumimos tambin que las varianzas de las
diferencias entre cada par de medidas son iguales (ver siguiente apartado).
3. Estadstico del contraste (ver ecuacin [8.5]). Para obtener el estadstico F nicamente
necesitamos las puntuaciones y las medias que ofrece la Tabla 8.3:
MCA = 6 [(17 ! 11)2 + (12 ! 11)2 + (8 ! 11)2 + (7 ! 11)2 ] / (4 ! 1) = 124.
MCA S = [(16 ! 11 ! 17 + 11)2 + (14 ! 7 ! 17 + 11)2 + (19 ! 12 ! 17 + 11)2 +
+ (9 ! 11 ! 7 + 11)2 + (5 ! 11 ! 7 + 11)2 + (8 ! 7 ! 14 + 11)2 ] / [(4 ! 1)(6 ! 1) =
= 42 / 15 = 2,133.
F = MCA MCA S = 124 / 2,133 = 58,13.
4. Distribucin muestral: F se distribuye segn FJ ! 1, (J !1) (n ! 1) = F4 !1, (4 !1) (6 !1) = F3, 15 .
5. Zona crtica: F >$ F3, 15; 0,95 = 3,29.
6. Decisin: como el valor del estadstico del contraste (58,13) es mayor que el punto crti-
co (3,29), se rechaza H0. Se puede concluir, por tanto, que los promedios poblacionales
comparados no son iguales. El rechazo de la hiptesis de igualdad de medias indica que
la calidad del recuerdo no es la misma en los cuatro momentos considerados. Sin em-
bargo, no permite precisar qu momentos difieren de qu otros; para esto es necesario
realizar las comparaciones mltiples que estudiaremos ms adelante.
7. Nivel crtico: p = P (F > $ 58,13) < 0,01.
Captulo 8. ANOVA. Un factor con medidas repetidas 303
Alternativas al estadstico F
En condiciones de no-esfericidad, el estadstico F se vuelve liberal (aumenta la probabilidad
de cometer errores Tipo I). Y esto puede afectar seriamente a las conclusiones basadas en el
rechazo de la hiptesis de igualdad de medias. Por tanto, antes de elaborar conclusiones ba-
sadas en el rechazo de esta hiptesis, es importante asegurarse de que puede asumirse que la
matriz de varianzas-covarianzas es esfrica. Para esto existen varios procedimientos. El ms
popular (aunque no el ms recomendable) es, quiz, el propuesto por Mauchly (1940); y es
el que incluye el SPSS4.
Qu hacer cuando se incumple el supuesto de esfericidad? El procedimiento SPSS que
utilizaremos en este captulo ofrece dos soluciones alternativas: (1) modificar los grados de
libertad de la distribucin F y (2) utilizar estadsticos multivariados que no asumen esferi-
cidad (en el Volumen III estudiaremos otras soluciones).
Aproximacin multivariada
La segunda solucin consiste en analizar los datos procedentes de un diseo de medidas re-
petidas mediante una serie de estadsticos agrupados bajo la denominacin aproximacin
multivariada (ver, por ejemplo, Maxwell y Delany, 2004, cap. 13). Para obtener estos esta-
dsticos es necesario recurrir al clculo matricial. No obstante, el SPSS ofrece los estadsticos
multivariados comnmente utilizados para este propsito (lamda de Wilks, T 2 de Hotelling-
4
La mayora de los procedimientos disponibles para chequear el supuesto de esfericidad son sensibles a la no normalidad
de las poblaciones originales (Keselman, Rogan, Mendoza y Breen, 1980). No obstante, Cornell, Young, Seaman y Kirk
(1992), tras comparar ocho de estos procedimientos, han llegado a la conclusin de que el locally best invariant test (John,
1971, 1972; Nagao, 1973; Sugiura, 1972) es el ms potente al tiempo que ofrece un buen control sobre la tasa de error (Kirk,
1995, pg. 278, explica cmo aplicar este procedimiento).
Captulo 8. ANOVA. Un factor con medidas repetidas 305
Lawley, raz mayor de Roy y traza de Pillai) acompaados de sus correspondientes niveles
crticos; y eso es todo lo que se necesita para contrastar la hiptesis de igualdad de medias.
La ventaja principal de estos estadsticos multivariados es que no exigen que la matriz
de varianzas-covarianzas sea esfrica (condicin que constituye la principal fuente de pro-
blemas con el estadstico F convencional). Como contrapartida, pierden potencia cuando se
utilizan con tamaos muestrales pequeos.
Qu solucin elegir
La pregunta inevitable en este momento es qu solucin de las disponibles debe adoptarse.
Aunque no pocos expertos se inclinan por la aproximacin multivariada (ver, por ejemplo,
Maxwell y Delaney, 2004, pgs. 671-676), la respuesta a esta pregunta es compleja. Podra
parecer que, puesto que la aproximacin multivariada no exige esfericidad, est libre de pro-
blemas. Pero las cosas no son exactamente as. Si puede asumirse esfericidad, el estadstico
F es ms potente que los multivariados. Y si no puede asumirse esfericidad, ninguna solu-
cin es sistemticamente ms potente que la otra. Aunque, en teora, la aproximacin multiva-
riada no exige esfericidad, lo cierto es que, en condiciones de no-esfericidad, va perdiendo
potencia conforme va disminuyendo el tamao muestral, hasta el punto de que con tamaos
muestrales pequeos no es nada recomendable (ver Davidson, 1972; o Jensen, 1982, 1987).
As las cosas, consideramos que, con los estadsticos mencionados, la forma razonable
de proceder es la siguiente:
1. Si puede asumirse esfericidad, utilizar el estadstico F (es la mejor estrategia cuando se
cumplen los supuestos del anlisis). Si no puede asumirse esfericidad, continuar con el
siguiente paso.
2. Utilizar la aproximacin multivariada (solucin apropiada con muestras grandes pero
poco potente con muestras pequeas). Si se rechaza la hiptesis nula, terminar el anli-
sis; si no se rechaza, continuar con el siguiente paso.
En algunos casos (por ejemplo, cuando el nmero de sujetos o bloques es menor que
el nmero de medidas repetidas) no es posible aplicar la aproximacin multivariada.
Cuando ocurre esto, puede utilizarse el estadstico F modificando los grados de libertad
con el valor mnimo o lmite inferior de (la estrategia ms conservadora de todas). Es-
ta estrategia consiste en asumir que el cociente MCA / MCA S se aproxima a la distri-
bucin F con 1 y n ! 1 grados de libertad. Si se rechaza la hiptesis nula, terminar el
anlisis; si no se rechaza, continuar con el siguiente paso.
3. Utilizar el estadstico F con los grados de libertad modificados mediante el valor esti-
mado de , es decir, con las soluciones propuestas para por Geisser-Greenhouse y
Huynh-Feldt (ninguna de ellas parece ser sistemticamente mejor que la otra, pero la
solucin de Greenhouse-Geisser es algo ms conservadora). Si se ha llegado hasta aqu,
adoptar como buena la decisin a la que lleve este paso.
Por supuesto, las peculiaridades de cada diseo (nmero de casos, nmero de medidas repeti-
das, grado de cumplimiento o incumplimiento de los supuestos de normalidad y esfericidad,
etc.), podran hacer preferible alguna solucin sobre otra. Pero los pasos propuestos llevarn
a una solucin aceptable en trminos de potencia y control de la tasa de error. Y, aunque esta
estrategia secuencial puede parecer engorrosa, debe tenerse en cuenta que este tipo de anlisis
suele realizarse con la ayuda de programas informticos.
306 Anlisis de datos (vol. II)
= [8.6]
y si es de efectos aleatorios,
= [8.7]
Recordemos que este estadstico se interpreta como proporcin de varianza comn o com-
partida: indica cmo de grande es la variabilidad entre las medidas repetidas en compara-
cin con la variabilidad total (excluyendo la variabilidad entre los sujetos7 ). La ecuacin
[8.7] tambin se conoce como coeficiente de correlacin intraclase, una medida del grado
de parecido (relacin) existente entre las respuestas de los sujetos8.
El estadstico est estrechamente relacionado con la medida del tamao del efecto
de Cohen (1988):
= [8.8]
La regla propuesta por Cohen para interpretar estas medidas sigue siendo vlida aqu. En lo
relativo a , valores de 0,01, 0,06 y 0,14 indican efectos de tamaos pequeo, mediano y
grande. En el caso de ( f en la notacin utilizada por Cohen), los valores de referencia son
0,10, 025 y 0,40.
En nuestro ejemplo sobre la relacin entre la calidad del recuerdo y el paso del tiempo
(ver Tabla 8.4) tenemos J = 4 medidas repetidas, n = 6 sujetos, MCA = 124 y MCAS = 2,80.
Asumiendo que el factor (momentos en los que se registra el recuerdo) es de efectos fijos,
= = 0,88
5
Si el estadstico F es menor que 1 (es decir, sin MCA < MCAS ), las ecuaciones [8.6] y [8.7] ofrecen un valor negativo.
Puesto que una proporcin no puede ser negativa, cuando ocurre esto se considera que 2 vale cero.
6
El valor de tambin puede obtenerse a partir del estadstico F. Cuando el factor es de efectos fijos, la ecuacin [8.6]
equivale a = [(J ! 1) (F ! 1)] / [n J + (J !1) (F !1)]. Cuando el factor es de efectos aleatorios, la ecuacin [8.7] equiva-
le a = (F ! 1) / [(n ! 1) + F ].
7
Los estadsticos definidos en [8.6] y en [8.7] son medidas parciales, por contraposicin a las medidas completas, que
utilizan la variabilidad total en el denominador. En general, las medidas de asociacin parciales son preferibles a las com-
pletas, pues comparan la variabilidad debida al factor con una estimacin neta de la variabilidad error (Keppel y Wickens,
2004, pg. 235; Maxwell, Camp y Arvey, 1981).
8
Sustituyendo en [8.7] MCA por MCS y n ! 1 por J ! 1 se obtiene una estimacin del grado de variabilidad existente entre
los sujetos o bloques. Esta estimacin refleja el grado de parecido existente entre las medidas repetidas y es muy utiliza-
da en el contexto de la fiabilidad de las escalas (ver Abad, Olea, Ponsoda y Garca, 2010, Cap. 9).
Captulo 8. ANOVA. Un factor con medidas repetidas 307
= = 2,71
Ambos estadsticos indican que el efecto del paso del tiempo sobre la calidad del recuerdo
es de gran tamao. En concreto, conocer en qu momento se registra el recuerdo (hora, da,
semana, mes) mejora nuestro conocimiento sobre su calidad un 84 %.
= , = [8.9]
= = = [8.10]
= = 6,60
= n = [8.11]
Supongamos que en un estudio con 4 medidas repetidas (gl1 = 3) y = 0,05 queremos que
la potencia del contraste para detectar un efecto de tamao medio ( = 0,25 segn la regla de
308 Anlisis de datos (vol. II)
Cohen) valga 0,80 ( = 0,20). Tenemos que utilizar la Tabla G al revs de como lo hemos
hecho antes, pero ahora nos encontramos con que no conocemos los grados de libertad gl2,
pues dependen del tamao muestral que estamos buscando. Esto, sin embargo, no represen-
ta ningn problema porque utilizar un valor de partida de 30 o mayor no hace cambiar las
cosas. Podemos elegir, por ejemplo, gl2 = . As, con gl1 = 3, gl2 = y = 0,20 (tomamos
0,23), la Tabla G ofrece un valor de 1,6 para . Por tanto, n = (1,6 / 0,25)2 = 40,96. Es decir,
hacen falta al menos 41 sujetos para alcanzar una potencia de 0,77.
Comparaciones mltiples
El rechazo de la hiptesis global de igualdad de medias permite afirmar que hay medias que
no son iguales, pero no permite precisar qu medias difieren de qu otras. Para esto es nece-
sario realizar comparaciones mltiples.
En el caso de que pueda asumirse esfericidad, los procedimientos descritos a propsi-
to del modelo de un factor completamente aleatorizado (ver, en el Captulo 6, el apartado
Comparaciones mltiples) sirven para el modelo de un factor con medidas repetidas. ni-
camente hay que tener en cuenta que la media cuadrtica error, que ahora es MCA S , se
calcula de forma distinta y que sus grados de libertad son (J ! 1) (n ! 1) en lugar de N ! J.
En el caso de que no pueda asumirse esfericidad, los procedimientos ya estudiados pa-
ra realizar comparaciones planeadas o a priori siguen siendo vlidos si se tiene la precau-
cin de utilizar las ecuaciones propuestas para el caso en que no puede asumirse que las va-
rianzas poblacionales son iguales (por ejemplo, utilizando la ecuacin [6.36] en lugar de la
[6.35]; ver, por ejemplo, Mitzel y Games, 1981).
Y en lo relativo a las comparaciones post hoc o a posteriori, es preferible (ver Kesel-
man y Keselman, 1988; Keselman, Keselman y Shaffer, 1991; Maxwell, 1980) estudiar las
comparaciones por pares utilizando la prueba T de Student para muestras relacionadas (ver
Captulo 5) corrigiendo la tasa de error por comparacin (C) mediante el mtodo de Dunn-
Bonferroni, es decir, dividiendo F , generalmente 0,05, entre el nmero de comparaciones
por pares llevadas a cabo (lo cual equivale a utilizar la tabla de Dunn-Bonferroni en lugar de
la tabla de la distribucin t)9. En el siguiente apartado se explica cmo hacer todo esto con
el SPSS.
9
Puede obtenerse un ligero incremento en la potencia (ver Hochberg y Tamhane, 2009) si el valor del estadstico T para
muestras relacionadas se compara con el cuantil 100 (1 ! ) de la distribucin del mdulo mximo studentizado (ver Par-
do y San Martn, 1998, Tabla M del Apndice final) con k = J (J ! 1) / 2 y n ! 1 grados de libertad.
Captulo 8. ANOVA. Un factor con medidas repetidas 309
variables del archivo de datos. Mientras que un factor CA es una variable del archivo (una
variable categrica que toma distintos valores, cada uno de los cuales define un nivel del
factor), un factor MR no es una variable del archivo de datos; no existe como tal; sus niveles
son las medidas repetidas; y cada medida repetida es una variable del archivo. Por tanto, pa-
ra poder ajustar un modelo de un factor MR, es necesario realizar algunas tareas extra: hay
que dar nombre al factor MR, fijar su nmero de niveles e indicar qu variable del archivo
de datos se corresponde con cada nivel.
En este apartado se explica cmo utilizar el procedimiento GLM Medidas repetidas para
analizar los datos de nuestro ejemplo sobre la relacin entre el paso del tiempo y la calidad
del recuerdo (ver Tabla 8.4). En concreto, vamos a realizar 6 tareas: (1) chequear el supues-
to de esfericidad 10, (2) obtener un grfico de lneas o de perfil representando las medias de
las medidas repetidas, (3) contrastar la hiptesis de igualdad de medias con los diferentes
estadsticos propuestos (es decir, con el estadstico F convencional, con el estadstico F con
los grados de libertad modificados y con los estadsticos de la aproximacin multivariada),
(4) estimar el tamao del efecto y calcular la potencia observada, (5) realizar comparacio-
nes planeadas o a priori (incluidas las comparaciones de tendencia) y (6) realizar compa-
raciones post hoc o a posteriori. Para llevar a cabo todas estas tareas:
' Reproducir en el Editor de datos los datos de la Tabla 8.4 (o abrir el archivo Tabla 8.4
tiempo recuerdo que se encuentra en la pgina web del manual).
' Seleccionar la opcin Modelo lineal general > Medidas repetidas del men Analizar para acce-
der al cuadro de dilogo Medidas repetidas: Definir factores (en este cuadro de dilogo,
previo al principal, es donde se define el factor de medidas repetidas).
' Introducir el nombre del factor MR (tiempo) en el cuadro de texto Nombre del factor intra-
sujetos y el nmero de niveles de que consta el factor (4) en el cuadro de texto Nmero
de niveles. Pulsar el botn Aadir para validar y el botn Definir para acceder al cuadro de
dilogo principal Medidas repetidas.
' Seleccionar las variables hora, da, semana y mes, y trasladarlas (en el orden correcto)
a la lista Variables intrasujetos.
' Pulsar el botn Opciones para acceder al subcuadro de dilogo Medidas repetidas: Opcio-
nes y marcar las casillas Estadsticos descriptivos, Estimaciones del tamao del efecto y Po-
tencia observada.
' Seleccionar la variable tiempo en la lista Factores e interacciones de los factores y trasla-
darla, con el botn flecha, a la lista Mostrar las medias para.
' Marcar la opcin Comparar los efectos principales y seleccionar la opcin Bonferroni den-
tro del men desplegable Ajuste del intervalo de confianza (las comparaciones post hoc no
estn disponibles para los factores intrasujetos o de medidas repetidas; para realizar es-
te tipo de comparaciones con un factor intrasujetos es necesario utilizar la opcin Com-
parar efectos principales del cuadro de dilogo Opciones.). Pulsar el botn Continuar para
volver al cuadro de dilogo principal.
10
Los supuestos de independencia y normalidad se pueden contrastar aplicando a cada medida repetida la prueba de las
rachas (ver Apndice 2) y la prueba de normalidad de Shapiro-Wilk (ver, en el Captulo 2, el apartado Contrastes y grficos
de normalidad). Aplicando estas dos pruebas a los datos de la Tabla 8.4, con ninguna de las cuatro medidas repetidas se
rechaza la hiptesis de independencia o aleatoriedad ( p > 0,377 en todos los casos) ni la de normalidad ( p > 0,05 en todos
los casos).
310 Anlisis de datos (vol. II)
' Pulsar el botn Grficos para acceder al subcuadro de dilogo Medidas repetidas: Gr-
ficos de perfil, trasladar la variable tiempo de la lista Factores al cuadro Eje horizontal y
pulsar el botn Aadir para trasladar la variable seleccionada a la lista inferior y hacer
efectiva la seleccin.
Aceptando estas elecciones, el Visor ofrece los resultados que muestran las Tablas 8.5 a la
8.11 y el grfico de lneas que muestra la Figura 8.1 (derecha). La Tabla 8.5 comienza ofre-
ciendo informacin descriptiva: las medias y las desviaciones tpicas de cada medida (es
decir, de cada nivel del factor tiempo); tambin ofrece el nmero de casos vlidos en cada
medida (este dato permite saber si existe algn valor perdido). En el grfico de lneas de la
Figura 8.1 (pg. 302) estn representadas estas medias; en l se aprecia un evidente descenso
de la calidad media del recuerdo conforme pasa el tiempo; el anlisis de varianza permite
decidir si ese descenso es real o puede explicarse por las fluctuaciones del azar muestral.
Esfericidad
La Tabla 8.6 ofrece la prueba de esfericidad de Mauchly. Esta prueba permite contrastar la
hiptesis nula de que la matriz de varianzas-covarianzas correspondiente a las J medidas
repetidas es esfrica. El rechazo de esta hiptesis implica que no es posible asumir esferi-
cidad. Puesto que el nivel crtico asociado al estadstico W (sig. = 0,743) es mayo que 0,05,
no puede rechazarse la hiptesis de esfericidad; es decir, puede asumirse que la matriz de
varianzas-covarianzas es esfrica. Las tres ltimas columnas de la tabla (psilon) se expli-
can a continuacin.
psilon
W de Chi-cuadrado Greenhouse- Huynh- Lmite-
Efecto intra-sujetos Mauchly aprox. gl Sig. Geisser Feldt inferior
tiempo ,47 2,77 5 ,743 ,69 1,00 ,33
Igualdad de medias
Las Tablas 8.7 y 8.8 recogen todos los estadsticos que incluye el procedimiento para el
contraste de la hiptesis global de igualdad de medias.
Si puede asumirse esfericidad, el estadstico F es la mejor eleccin. Este estadstico se
encuentra en la Tabla 8.8 en la fila encabezada esfericidad asumida (ste es el estadstico
que hemos calculado a mano con los datos de la Tabla 8.4). El nivel crtico asociado al es-
Captulo 8. ANOVA. Un factor con medidas repetidas 311
tadstico F = 58,12 (sig. < 0,0005) permite rechazar la hiptesis de igualdad de medias y
concluir que los promedios comparados no son iguales. Por tanto, la calidad del recuerdo no
es la misma en los cuatro momentos definidos por el factor tiempo (en una situacin real, el
contraste de la hiptesis global de igualdad de medias debera detenerse aqu; pero esto es
un ejemplo y debemos seguir explicando el resto de posibilidades).
Si no puede asumirse esfericidad, tenemos dos soluciones alternativas: (1) los estads-
ticos multivariados de la Tabla 8.7 y (2) el estadstico F con los grados de libertad modi-
ficados mediante el ndice corrector psilon.
La Tabla 8.7 ofrece cuatro estadsticos multivariados: traza de Pillai, lambda de Wilks,
T 2 de Hotelling y raz mayor de Roy (para una descripcin de estos estadsticos puede con-
sultarse Bock, 1975, o Tabachnik y Fidel, 2001). Se interpretan de la misma manera que el
resto de estadsticos ya estudiados: puesto que el nivel crtico (sig.) asociado a cada uno de
ellos (en el ejemplo es el mismo para todos: 0,003) es menor que 0,05, se puede rechazar la
hiptesis nula de igualdad de medias.
Tabla 8.8. Contrastes univariados (estadsticos F con y sin modificacin de los grados de libertad)
Medida: MEASURE_1
a
Suma de cuadrados
Potencia observada
Media cuadrtica
Parmetro de no
Eta al cuadrado
centralidad
parcial
tipo III
Sig.
gl
Fuente
tiempo Esfericidad asumida 372,00 3,00 124,00 58,12 ,000 ,92 174,37 1,00
Greenhouse-Geisser 372,00 2,06 180,19 58,12 ,000 ,92 120,00 1,00
Huynh-Feldt 372,00 3,00 124,00 58,12 ,000 ,92 174,37 1,00
Lmite-inferior 372,00 1,00 372,00 58,12 ,001 ,92 58,12 1,00
Error (tiempo) Esfericidad asumida 32,00 15,00 2,13
Greenhouse-Geisser 32,00 10,32 3,10
Huynh-Feldt 32,00 15,00 2,13
Lmite-inferior 32,00 5,00 6,40
a. Calculado con alfa = ,05
= = = 0,92
El procedimiento GLM Medidas repetidas no calcula (Ver ecuacin [8.6]), pero la Tabla 8.8
contiene la informacin necesaria para hacerlo:
= = = 0,88
Comparaciones planeadas
El procedimiento Medidas repetidas asigna, por defecto, contrastes de tipo polinmico a los
factores MR. Estos contrastes permiten estudiar el tipo de relacin (lineal, cuadrtica, cbi-
ca, etc.) existente entre el factor y la variable dependiente11.
Si no se modifica la opcin por defecto del botn Contrastes (subcuadro de dilogo Me-
didas repetidas: Contrastes), el Visor ofrece los contrastes polinmicos (comparaciones de
tendencia) que muestra la Tabla 8.9. Puesto que se trata de contrastes ortogonales, la tabla
muestra tantos contrastes como niveles tiene el factor, menos uno; dado que el factor tiem-
po del ejemplo tiene cuatro niveles, aparecen tres contrastes: lineal, cuadrtico y cbico.
La tabla recoge la informacin necesaria para contrastar la hiptesis nula de que el po-
linomio (tendencia) evaluado vale cero en la poblacin; es decir, la hiptesis nula de que no
existe relacin lineal, cuadrtica, etc. En el ejemplo, los valores de los niveles crticos (sig.)
asociados a cada estadstico F permiten rechazar las hiptesis referidas a los componentes
11
Aunque el SPSS los ofrece por defecto, debe tenerse en cuenta que, dependiendo de las caractersticas del factor, estos
contrastes podran no tener sentido (ver, en el Captulo 6, el apartado Comparaciones de tendencia).
Captulo 8. ANOVA. Un factor con medidas repetidas 313
lineal y cuadrtico, pero no la referida al componente cbico. Esto significa que las medias
de la calidad del recuerdo en cada momento temporal se ajustan tanto a una lnea recta (ten-
dencia lineal) como a una curva (tendencia cuadrtica).
Cuando existe ms de un componente significativo, es probable que el de mayor orden
se ajuste mejor, pero las funciones ms parsimoniosas (ms simples) son ms fciles de in-
terpretar y, generalmente, ms tiles. No obstante, decidir qu componente de los signifi-
cativos se interpreta depende, fundamentalmente, de las hiptesis del estudio.
No es infrecuente encontrar ms de un componente significativo. En concreto, no es in-
frecuente encontrar que tanto el componente lineal como el cuadrtico son significativos. Esto
indica, por lo general, que la relacin subyacente no es estrictamente lineal sino montona
(creciente o decreciente). Un grfico de perfil (ver siguiente apartado) suele ayudar bastan-
te a entender lo que est ocurriendo.
factores intrasujetos. Para comparar por pares los niveles de un factor intrasujetos debe uti-
lizarse la opcin Comparar los efectos principales del subcuadro de dilogo Medidas repetidas:
Opciones. Al seleccionar esta opcin, lo recomendable es seleccionar tambin algn mto-
do de control de la tasa de error. El procedimiento permite elegir entre el mtodo de Bon-
ferroni y el de idk12.
Con esta opcin se obtienen los resultados que muestran las Tablas 8.10 y 8.11. La pri-
mera de ellas es la tabla de Medias estimadas: ofrece, para cada nivel del factor tiempo, la
media estimada y su correspondiente error tpico e intervalo de confianza (calculado al 95%).
Debe tenerse en cuenta que estos intervalos de confianza se refieren a cada media indivi-
dualmente considerada, no a diferencias entre pares de medias; por tanto, el hecho de que
exista o no solapamiento entre los intervalos de confianza de dos medias concretas no pue-
de utilizarse para contrastar la hiptesis de igualdad entre las correspondientes medias po-
blacionales.
La Tabla 8.11 ofrece las comparaciones dos a dos entre los cuatro niveles del factor (entre
las cuatro medidas repetidas). La tabla incluye, para cada comparacin, la diferencia obser-
vada entre cada par de medias, el error tpico de esa diferencia y el nivel crtico asociado a
esa diferencia bajo la hiptesis de igualdad de medias. Una nota a pie de tabla recuerda que
se est aplicando el mtodo de Bonferroni para controlar la tasa de error. Los resultados de
la tabla indican que todas las comparaciones entre momentos son significativamente dis-
tintas de cero (sig. < 0,05 en todos los casos).
12
Ver, en el Captulo 6, el apartado Prueba de Dunn-Bonferroni. Ver tambin, en ese mismo captulo, la nota a pie de p-
gina nmero 21.
Captulo 8. ANOVA. Un factor con medidas repetidas 315
La prueba de Friedman
El estadstico F asume que los datos proceden de poblaciones normales y que la matriz de
varianzas-covarianzas es esfrica. Los estadsticos estudiados en el apartado Alternativas al
estadstico F no asumen esfericidad, pero s normalidad. Y todos ellos requieren trabajar con
una variable dependiente cuantitativa (de intervalos o de razn).
Friedman (1937) ha propuesto un procedimiento que puede aplicarse con datos ordina-
les (no exige, por tanto, nivel de medida de intervalos o razn) y, como consecuencia de esto,
no requiere asumir normalidad ni esfericidad. Como contrapartida, nicamente aprovecha
informacin ordinal. En realidad se trata de una extensin de la prueba de Wilcoxon para dos
muestras relacionadas (ver Captulo 5) al caso de ms de dos muestras relacionadas, es de-
cir, al caso de J medidas repetidas.
Para aplicar la prueba de Friedman se comienza transformando las puntuaciones origi-
nales en rangos . Esto se hace asignando, a las puntuaciones de cada sujeto o bloque,
enteros consecutivos de 1 a J (es decir, asignando un 1 a la puntuacin ms pequea, un 2 a
la ms pequea de las restantes, etc.; los empates se resuelven asignando el rango prome-
dio). Puesto que los rangos se asignan independientemente a cada sujeto o bloque, todas las
filas de la tabla (sujetos) pasan a sumar lo mismo: = J (J + 1) / 2 (ver Tabla 8.3). De don-
de cabe deducir que la media y la varianza de cada casilla vendrn dadas por
= y = [8.12]
Pero los totales que nos interesan, es decir, los totales que nos informan de las posibles dife-
rencias entre los niveles del factor, son las sumas de los n rangos de cada columna ( ). Si
las J medias poblacionales son iguales, entonces
= y = [8.13]
Una sencilla manera de formarnos una idea sobre el grado de parecido entre las J medias
poblacionales consiste en obtener una cuantificacin del grado en que cada total se des-
va de su valor esperado, es decir,
= [8.14]
Si las medias poblacionales son iguales, los sern parecidos y S tomar un valor prxi-
mo a cero. El problema de S es que su valor depende (ver Pardo y San Martn, 1998, pg.
443) tanto del nmero de medidas repetidas del diseo (J ) como del nmero de sujetos (n).
Es preferible utilizar una variante de S,
= [8.15]
que no depende del nmero de sujetos sino solamente del nmero de medidas repetidas. Unas
sencillas operaciones permiten transformar la ecuacin [8.9] en la expresin habitual del
estadstico de Friedman:
= [8.16]
316 Anlisis de datos (vol. II)
La Tabla Q del Apndice final ofrece las probabilidades exactas asociadas los puntos crti-
cos de la distribucin muestral de para algunos valores de J y n. Para valores diferentes
de J o n puede utilizarse la distribucin 2 con J ! 1 grados de libertad13.
El estadstico y su distribucin muestral pueden utilizarse para contrastar la hipte-
sis nula de que las J poblaciones tienen el mismo centro14 frente a la alternativa de que al me-
nos una poblacin contiene puntuaciones ms altas que la otra15. Para ello, basta con asumir
que el nivel de medida es al menos ordinal y que los sujetos o bloques son independientes
entre s (muestra aleatoria) e independientes de los niveles del factor (el efecto del factor y
el de los sujetos o bloques se combinan aditivamente)16.
Para contrastar la hiptesis de igualdad de medias con los datos de nuestro ejemplo so-
bre la relacin entre la calidad del recuerdo y el paso del tiempo, hemos comenzado asig-
nando rangos a los datos de la Tabla 8.4. La Tabla 8.12 muestra el resultado obtenido.
13
Ver, por ejemplo, San Martn y Pardo, 1989, pgs. 248-249, para una justificacin de la aproximacin de a la dis-
tribucin 2 con J!1 grados de libertad.
14
La hiptesis nula que se contrasta con el estadstico de Friedman (ecuacin [8.16]) es que, dentro de cada sujeto o bloque,
cualquier combinacin de J rangos es igualmente probable. Esta hiptesis aplicada a nuestro ejemplo sobre la relacin entre
la calidad del recuerdo y el paso del tiempo significa que la calidad del recuerdo es la misma en los cuatro momentos con-
siderados en el ejemplo.
15
El estadstico F aplicado, no a las puntuaciones originales, sino a las puntuaciones transformadas en rangos, adopta la
siguiente forma
[8.17]
y se distribuye segn el modelo de probabilidad F con J ! 1 y (J ! 1) (n ! 1) grados de libertad. Iman y Davenport (1980)
y Zimmerman y Zumbo (1993) han sealado que esta solucin ofrece mejores resultados que el estadstico de Friedman.
16
Si existen muchos rangos empatados, el estadstico tiene un comportamiento algo conservador (tiende a rechazar
la hiptesis nula menos de lo que debera). En estos casos conviene dividir el valor de por un trmino corrector que tie-
ne en cuenta la presencia de empates:
[8.18]
donde tg es el nmero de puntuaciones empatadas en un rango dado (t1, t2, ..., tg, ..., tG) y G el nmero de conjuntos de em-
pates. Por supuesto, los empates que importan son los que se dan dentro del mismo sujeto o bloque pues, recordemos, los
rangos se asignan independientemente para cada sujeto o bloque. Esta correccin por empates se realiza para corregir el
sesgo conservador que afecta a cuando existen empates, por lo que no tiene sentido utilizarla cuando sin ella ya se re-
chaza la hiptesis de igualdad de medias.
Captulo 8. ANOVA. Un factor con medidas repetidas 317
= = 16,40
17
El SPSS calcula el estadstico de Friedman aplicando la correccin por empates propuesta en la ecuacin [8.18]. Pues-
to que en nuestro ejemplo no existen rangos empatados, el resultado que se obtiene con las ecuaciones [8.16] y [8.18] es
exactamente el mismo.
318 Anlisis de datos (vol. II)
Apndice 8
Cmo estimar psilon ()
Al mencionar los supuestos en los que se basa el modelo de un factor con medidas repetidas hemos
tenido que hacer constantes referencias a la matriz de varianzas-covarianzas. Esta matriz es una ma-
triz cuadrada de orden J (es decir, con J filas y J columnas, tantas como medidas repetidas) con las
varianzas de cada medida en la diagonal principal y las covarianzas entre cada par de medidas fuera
de la diagonal.
Cuando se utiliza el estadstico F convencional para contrastar efectos intrasujetos, la matriz de
varianzas-covarianzas debe ajustarse a una determinada estructura. A esta estructura la hemos llamado
esfericidad. Y Box (1954a, 1954b) ha demostrado que, cualquiera que sea el grado de incumplimiento
del supuesto de esfericidad, el cociente MCefecto / MCerror referido a un efecto intrasujetos se distribuye
aproximadamente segn el modelo de probabilidad F con (glefecto ) y (glerror) grados de libertad, don-
de es un parmetro que expresa el grado en que la matriz de varianzas-covarianzas se aleja de una es-
tructura esfrica (recordemos que vale 1 en condiciones de esfericidad perfecta y que va disminu-
yendo alejandose de 1 conforme la matriz de varianzas-covarianzas se va haciendo menos esfrica).
Para estimar se han propuesto varios mtodos. El SPSS recoge dos de ellos: Greenhouse-Geisser
y Huynh-Feldt (ver Tabla 8.6). La estimacin de que el SPSS presenta con el nombre de Greenhouse-
Geisser (Geisser y Greenhouse, 1958; Greenhouse y Geiser, 1959) se obtiene mediante
= [8.19]
_
donde Sj =j se refiere a los elementos de la diagonal principal, S es la media de todos los elementos de
la matriz, S j j se refiere al elemento de la j-sima fila y de la j-sima columna, y S j se refiere a los ele-
mentos de la j-sima fila. Puesto que la solucin basada en resulta algo conservadora, Huynh y Feldt
(1976) han propuesto corregir mediante
= [8.20]
En nuestro ejemplo sobre la relacin entre la calidad del recuerdo y el paso del tiempo (ver Tabla 8.4)
tenemos J = 4 medidas repetidas (hora, da, semana, mes). Con estas 4 variables (medidas repetidas)
se obtiene la matriz de varianzas-covarianzas que muestra la Tabla 8.15 (la tabla incluye las sumas de
los elementos de las filas, de las columnas y de toda la tabla).
= = 0,69
= > 1
que son justamente los valores que ofrece el SPSS para las estimaciones Greenhose-Geisser y Huynh-
Feldt (ver Tabla 8.6). El valor de siempre es mayor que el de , excepto cuando toma su valor m-
nimo, 1/(J ! 1), en cuyo caso ambos valores son iguales.
Prueba de Cochran
Cabe la posibilidad de que en un diseo de un factor con medidas repetidas (A-MR) la variable de-
pendiente o respuesta no sea una variable cuantitativa sino dicotmica (presencia, ausencia; a favor,
en contra; recuperados, no recuperados; etc.). En este escenario, en lugar de J variables cuantitativas,
tenemos J variables dicotmicas que siguen estando relacionadas porque se miden en los mismos su-
jetos o bloques. Y lo que procede en estos casos no es comparar medias, sino proporciones.
El procedimiento para comparar J proporciones relacionadas es una generalizacin del proce-
dimiento estudiado en el Captulo 3 para el caso de dos proporciones relacionadas (ver el aparatado
Simetra con variables dicotmicas: la prueba de McNemar).
La estructura de los datos es idntica a la presentada en la Tabla 8.3. La nica diferencia es que,
ahora, las puntuaciones Yij son unos y ceros. La suma de cada columna, T+j, representa el nmero total
de unos en cada nivel del factor. Consecuentemente, las proporciones marginales P+ j representan la
proporcin de unos en cada nivel del factor: P+ j = T+ j /n.
Si las J muestras proceden de poblaciones idnticas, cabe esperar que las proporciones margina-
les P+ j sean iguales, excepto en la parte atribuible a las fluctuaciones propias del azar muestral. Ba-
sndose en este hecho, Cochran (1950) ha diseado un procedimiento18 que permite poner a prueba la
hiptesis nula de igualdad entre las J proporciones poblacionales (H0: +1 = +2 = ... = +J ):
Q= [8.21]
El estadstico Q se distribuye segn 2 con J 1 grados de libertad. Y para contrastar la hiptesis nula
de igualdad de proporciones nicamente hay que asumir que se tiene una muestra aleatoria de n sujetos
o bloques independientes entre s en los que se miden J variables dicotmicas.
El SPSS incluye la prueba de Cochran en el procedimiento Pruebas no paramtricas. Para ilustrar
su aplicacin, vamos a utilizar los datos de una encuesta realizada a 906 espectadores de televisin
sobre los motivos por los que estaran dispuestos a seguir viendo un determinado programa en la
siguiente temporada. Los datos estn disponibles en el archivo tv-survey, el cual se encuentra en la
carpeta de ejemplos que incluye el SPSS. Las siete variables del archivo (cada variable representa un
motivo) son dicotmicas: 1 = s, 0 = no.
Puesto que todos los sujetos responden a las siete preguntas, se trata de un diseo de medidas re-
petidas (muestras relacionadas). Y puesto que las variables que interesa analizar son dicotmicas,
puede aplicarse la prueba de Cochran para comparar J proporciones relacionadas. Para ello,
18
Este procedimiento es generalizacin del de McNemar para dos proporciones relacionadas. De hecho, si J = 2, el estads-
tico de McNemar y el de Cochran son exactamente el mismo (ver, por ejemplo, Conover, 1980, pg. 204).
320 Anlisis de datos (vol. II)
' Seleccionar la opcin Pruebas no paramtricas > K muestras relacionadas del men Analizar para ac-
ceder al cuadro de dilogo Pruebas para varias muestras relacionadas.
' Trasladar todas las variables (siete en total) a la lista Contrastar variables y, en el recuadro Tipo de
prueba, marcar la opcin Cochran.
' Pulsar el botn Estadsticos para acceder al subcuadro de dilogo Varias muestras relacionadas:
Estadsticos y marcar la opcin Descriptivos. Pulsar el botn Continuar para volver al cuadro de
dilogo principal.
Aceptando estas elecciones, el Visor ofrece los resultados que muestran las Tablas 8.16 a 8.18. La Ta-
bla 8.16 contiene algunos descriptivos bsicos: el nmero de casos vlidos (no hay casos con valor
perdido), la media (que al tratarse de variables dicotmicas no es otra cosa que la proporcin de unos),
la desviacin tpica insesgada, y los valores mnimo y mximo. La Tabla 8.17 muestra el nmero (fre-
cuencia) de respuestas de cada tipo observadas en cada pregunta (1 = s, 0 = no). Estas frecuen-
cias constituyen la base de clculo de la informacin que aparece en la Tabla 8.16.
Finalmente, la Tabla 8.18 ofrece el nmero de casos vlidos (N = 906), el estadstico de Cochran
(Q de Cochran = 1.491,561), los grados de libertad ( gl = 6) y el nivel crtico (sig. asintt. < 0,0005).
Puesto que el nivel crtico es menor que 0,05, se puede rechazar la hiptesis de igualdad de propor-
ciones y concluir que la proporcin de televidentes que elige cada motivo no es la misma.
Aunque existen procedimientos para efectuar comparaciones mltiples cuando el estadstico de
Cochran resulta significativo (ver, por ejemplo, Pardo y San Martn, 1998, pgs. 508-510), para con-
trastar con el SPSS qu proporciones difieren entre s puede utilizarse la prueba de McNemar para dos
muestras relacionadas (ver Captulo 3) aplicando la correccin de Bonferroni para controlar la tasa de
error.
= [8.22]
Los rangos se asignan por filas, es decir, de la misma manera que para aplicar la prueba de Friedman.
La Tabla 8.12 muestra los rangos asignados a las puntuaciones de la Tabla 8.4.
En el diseo de un factor MR, el objetivo del anlisis es comparar los promedios correspondientes
a los J niveles del factor. Con la prueba de Friedman se persigue el mismo objetivo que con el estads-
tico F, pero asignando rangos a las puntuaciones de cada sujeto o bloque. Con los datos de las Tablas
8.4 y 8.12, ambos estadsticos permiten valorar cmo cambia el recuerdo medio con el paso del tiempo.
Otra forma equivalente de ver el problema consiste en valorar la relacin, acuerdo o concordan-
cia existentes entre los n = 6 conjuntos de rangos de la Tabla 8.12. Existir concordancia perfecta en-
tre ellos cuando todos los sujetos se comporten del mismo modo (por ejemplo, cuando todos los suje-
tos recuerden ms al principio y menos al final, en cuyo caso todos los sujetos obtendrn el rango 4 en
el primer momento, el rango 3 en el segundo, ..., el rango 1 en el ltimo). Cuando ocurra esto, los to-
tales correspondientes a los diferentes niveles del factor (a las diferentes columnas) alcanzarn
la mxima diferencia entre ellos (en concreto valdrn 1J, 2 J, 3 J, ..., n J ).
Por el contrario, la relacin o concordancia entre los n conjuntos de rangos de la Tabla 8.12 ser
baja cuando los sujetos se comporten de forma distinta (por ejemplo, cuando unos recuerden mejor al
principio y otros mejor al final). Cuando ocurra esto, los totales tomarn valores parecidos. Y en
el hipottico caso de concordancia nula sern iguales:
= = = = = = [8.23]
(pues la suma de J conjuntos de rangos vale J (J + 1) / 2). Por tanto, el grado de parecido existente entre
los J totales est reflejando el grado de relacin o concordancia existente entre los n conjuntos de
rangos. Traducido esto a los datos de la Tabla 8.12 significa que estudiar si el recuerdo cambia entre
los J = 4 momentos (hiptesis de igualdad de promedios) equivale a estudiar si los n = 6 conjuntos de
rangos correspondientes a cada sujeto estn relacionados (hiptesis de relacin o concordancia).
As pues, cuando la concordancia entre n conjuntos de rangos es perfecta, la variabilidad entre los
es mxima; cuando la concordancia es nula, la variabilidad entre los es mnima. Teniendo esto
en cuenta, el estadstico:
S= [8.24]
representa la variabilidad observada entre cada total y el total definido en [8.23], que es el que
cabra esperar si la concordancia fuera nula. S valdr cero cuando la concordancia existente entre los
n conjuntos de rangos sea nula (pues, en ese caso, todos los totales sern iguales entre s e igua-
322 Anlisis de datos (vol. II)
Smx = [8.25]
Para obtener un coeficiente que valga 0 en el caso de concordancia nula y 1 en el caso de concordan-
cia perfecta puede utilizarse una transformacin consistente en dividir S entre su valor mximo. Esta
solucin es justamente lo que se conoce como coeficiente de concordancia de Kendall:
= [8.26]
= [8.27]
Y sabemos que este estadstico se distribuye segn el modelo de probabilidad 2 con J ! 1 grados
de libertad.
En el ejemplo que venimos utilizando en este captulo sobre la relacin entre la calidad del recuer-
do y el paso del tiempo (ver Tablas 8.4 y 8.12), tenemos J = 4, n = 6 y = 1.066,5. Aplicando
[8.26] se obtiene19
= = 0,91
19
La presencia de empates dentro de un mismo conjunto de rangos hace que tome un valor ms pequeo del que le
corresponde. El SPSS utiliza el coeficiente de Kendall aplicando una correccin por empates:
= [8.28]
donde tg tiene el mismo significado que en [8.18]. Esta correccin es importante solamente cuando hay muchos empates.
Captulo 8. ANOVA. Un factor con medidas repetidas 323
Puesto que toma comprendidos entre 0 (acuerdo mnimo) y 1 (acuerdo mximo ), el valor obtenido
indica que el grado de concordancia entre las respuestas de los sujetos es muy alto. Es importante
recordar que no se est valorando el grado de parecido existente entre las medidas repetidas, sino entre
las respuestas de los sujetos (lo cual equivale a valorar el parecido entre los promedios de las medidas
repetidas). Aplicando ahora [8.27] se obtiene20
= 6 (4 ! 1) 0,91 = 16,40
es decir, el mismo valor obtenido al calcular el estadstico de Friedman con estos datos. La significa-
cin estadstica de se valora tal como ya hemos hecho al estudiar la prueba de Friedman.
El coeficiente de concordancia de Kendall est disponible en el SPSS dentro de la opcin Prue-
bas no paramtricas. Para aplicarlo a los datos de la Tabla 8.4:
' Reproducir en el Editor de datos los datos de la Tabla 8.4 (o abrir el archivo Tabla 8.4 tiempo
recuerdo que se encuentra en la pgina web del manual).
' Seleccionar la opcin Pruebas no paramtricas > K muestras relacionadas del men Analizar para ac-
ceder al cuadro de dilogo Pruebas para varias muestras relacionadas, trasladar las variables
hora, da, semana y mes a la lista Contrastar variables y marcar la opcin W de Kendall.
Aceptando estas selecciones, el Visor ofrece, entre otros, los resultados que muestra la Tabla 8.19. La
tabla incluye el nmero de casos vlidos (N = 6), el valor del coeficiente de concordancia de Ken-
dall (0,91; este valor se obtiene aplicando la correccin por empates propuesta en la ecuacin [8.28]),
su transformacin en (chi-cuadrado = 16,40; ver [8.27]), los grados de libertad (gl = 3) y el
correspondiente nivel crtico (sig. asinttica = 0,001). Puesto que el nivel crtico obtenido es menor
que 0,05, se puede rechazar la hiptesis de concordancia nula y concluir que existe acuerdo estadsti-
camente significativo entre las respuestas de los sujetos (lo cual equivale a afirmar que los promedios
de los cuatro momentos no son iguales).
20
Aplicando la correccin por empates propuesta en [8.28] se obtiene = 6 (4 ! 1) 0,94 = 16,92, que es el mismo valor
que ofrece el SPSS para el estadstico de Friedman.
324 Anlisis de datos (vol. II)
este escenario, la variabilidad error incluye dos componentes: (1) el relacionado con la interaccin en-
tre el factor y los sujetos, que sera el responsable de la eventual falta de independencia (no-aditividad)
entre el factor y los sujetos o bloques; y (2) el no relacionado con la interaccin entre el factor y los
sujetos, que estara formado por el resto de fuentes de variabilidad error (el efecto debido a los factores
no tenidos en cuenta, los errores de medida, etc.).
El primer componente (al que llamaremos no-aditividad por reflejar el efecto atribuible a la in-
teraccin entre el factor y los sujetos) puede cuantificarse mediante
MCno-aditividad = [8.29]
Y el segundo (al que llamaremos resto por reflejar la parte de la variabilidad error no atribuible a la
interaccin entre el factor y los sujetos), mediante
El cociente entre las medias cuadrticas [8.29] y [8.30] permite valorar cmo de grande es la variabili-
dad debida a la interaccin entre el factor y los sujetos en comparacin con el resto de la variabilidad
error:
Bajo la hiptesis de independencia entre las medidas repetidas y los sujetos o bloques (es decir, bajo
la hiptesis de aditividad), el estadstico [8.31] se distribuye segn el modelo de probabilidad F con 1
y (J ! 1) (n ! 1) ! 1 grados de libertad. Debe rechazarse la hiptesis nula de independencia o aditividad
cuando el valor de [8.31] sea mayor que el cuantil 95 de la distribucin F con 1 y (J ! 1) (n ! 1) ! 1
grados de libertad. El rechazo de esta hiptesis de aditividad indica que no es razonable asumir inde-
pendencia entre las medidas repetidas y los sujetos o bloques y, consecuentemente, que el modelo adi-
tivo podra no ser el ms apropiado.
El estadstico propuesto en [8.31] es sensible a un tipo particular de no-aditividad. En concreto,
a situaciones en las que las medidas repetidas van aumentando o disminuyendo pero no lo hacen de
la misma forma en todos los sujetos o bloques. Por tanto, el no rechazo de la hiptesis de aditividad
no es garanta de que las medidas repetidas sean independientes de los sujetos o bloques. No obstan-
te, es una buena forma de comenzar, pues el no rechazo de la hiptesis de aditividad indica que no
existe evidencia de que las formas habituales de no-aditividad estn presentes en los datos.
El SPSS incluye la prueba de no-aditividad de Tukey en el procedimiento Anlisis de fiabilidad.
Para aplicarla a los datos de nuestro ejemplo sobre la relacin entre el paso del tiempo y la calidad
del recuerdo (ver Tabla 8.4):
' Reproducir en el Editor de datos los datos de la Tabla 8.4 (o abrir el archivo Tabla 8.4 tiempo re-
cuerdo que se encuentra en la pgina web del manual).
' Seleccionar la opcin Escalas > Anlisis de fiabilidad del men Analizar para acceder al cuadro de di-
logo Anlisis de fiabilidad y trasladar las variables hora, da, semana y mes a la lista Elementos.
' Pulsar el botn Estadsticos para acceder al subcuadro de dilogo Anlisis de fiabilidad: Esta-
dsticos y marcar la opcin Prueba de aditividad de Tukey. Pulsar el botn Continuar para volver al
cuadro de dilogo principal.
Aceptando estas selecciones, el Visor ofrece, entre otros, los resultados que muestra la Tabla 8.20. Es-
ta tabla incluye parte de la informacin que ya hemos obtenido con el procedimiento MLG Medidas
repetidas (ver Tabla 8.8). Por ejemplo, el valor del estadstico F de la fila encabezada inter-elementos
(58,13) es el mismo que se obtiene al contrastar el efecto del factor intrasujetos (tiempo en la Tabla 8.8).
Captulo 8. ANOVA. Un factor con medidas repetidas 325
El estadstico [8.31] aparece en la fila encabezada no aditividad: vale 0,05 y tiene asociado un nivel
crtico de 0,821. Por tanto, no existe evidencia de que el efecto del paso del tiempo dependa o est
relacionado con los sujetos incluidos en el anlisis, es decir, no existe evidencia de que el modelo adi-
tivo sea inapropiado.
En una nota a pie de tabla (estimacin de Tukey = 1,096) se ofrece una estimacin del valor al que
habra que elevar cada una de las puntuaciones originales para reducir o eliminar la eventual presen-
cia de interaccin entre las medidas repetidas y los sujetos o bloques.
8.1. Para evaluar el efecto de un determinado frmaco sobre la ansiedad de pacientes diagnosticados de
neurosis, un investigador administr tres dosis diferentes del frmaco a un grupo de pacientes. Pen-
sando que el tipo de neurosis podra alterar el efecto del frmaco, seleccion tres pacientes con neu-
rosis obsesiva, tres con neurosis fbica, tres con neurosis de angustia y tres con neurosis histrica.
Aplic cada nivel del frmaco a un paciente de cada uno de los grupos de neurosis y obtuvo los re-
sultados que muestra la tabla:
Dosis
Neurosis 100 mg 250 mg 500 mg Medias
Obsesiva 72 73 80 75
Fbica 64 77 84 75
De angustia 70 83 90 81
Histrica 62 71 86 73
Medias 67 76 85 76
Asumiendo que se cumplen los supuestos en los que se basa el estadstico F del ANOVA A-MR y
utilizando = 0,05,
a. Contrastar la hiptesis nula de que el nivel de ansiedad no cambia con la dosis.
b. Estimar el tamao del efecto e interpretar el resultado.
c. Calcular la potencia del contraste.
326 Anlisis de datos (vol. II)
8.2. Reproducir en el SPSS los datos del ejercicio anterior (cada dosis en una columna) y responder a las
siguientes preguntas:
a. Es razonable asumir esfericidad?
b. Cunto vale la psilon de Greenhouse-Geisser?
c. Cambia la decisin sobre la hiptesis nula cuando se utilizan los estadsticos F con los grados de
libertad corregidos?
d. Cambia la decisin sobre la hiptesis nula cuando se utiliza los estadsticos de la aproximacin
multivariada?
e. Es apropiado utilizar la solucin multivariada con estos datos?
f. Comprobar si con la prueba de Friedman se llega a la misma conclusin que con el estadstico F.
8.3. Un educador est interesado en comprobar si las puntuaciones de una prueba de razonamiento verbal
se mantienen constantes o se modifican entre los 7, 8 y 9 aos de edad. Selecciona una muestra alea-
toria de 10 nios de 7 aos de edad y les mide su nivel de razonamiento verbal. Vuelve a efectuar el
mismo registro a los 8 y a los 9 aos. La siguiente tabla muestra los resultados obtenidos.
Sujetos
Edad 1 2 3 4 5 6 7 8 9 10 Medias
7 aos 20 28 24 15 30 39 15 21 10 38 24
8 aos 28 29 29 20 32 41 19 25 12 45 28
9 aos 24 33 31 16 34 43 23 29 14 43 29
Medias 24 30 28 17 32 41 19 25 12 42 27
Asumiendo que se cumplen los supuestos en los que se basa el estadstico F del ANOVA A-MR y
utilizando = 0,05,
a. Contrastar la hiptesis nula de que las puntuaciones en razonamiento verbal no cambian entre los
7 y los 9 aos.
b. Estimar el tamao del efecto e interpretar el resultado.
c. Calcular la potencia del contraste.
d. Averiguar si la relacin entre la edad y las puntuaciones en razonamiento verbal es de tipo lineal.
e. Contrastar la hiptesis del apartado a como si se tratara de un diseo completamente aleatorizado
y comparar ambos resultados.
f. La comparacin entre los resultados de los apartados a y e refleja una de las principales ventajas
de los diseos de medidas repetidas. De qu ventaja se trata?
8.4. En un estudio sobre memoria a corto plazo se han utilizando 3 listas diferentes: (1) nmeros, (2) pa-
labras con sentido y (3) palabras sin sentido. Al poner a prueba mediante un ANOVA A-MR la hip-
tesis de que el rendimiento en las tres tareas es el mismo, hemos obtenido F = 12,86. Sabiendo que en
el estudio han intervenido 7 sujetos,
a. Contrastar la hiptesis nula de igualdad de medias, es decir, la hiptesis nula de que el rendimien-
to es el mismo en las tres tareas ( = 0,05).
b. Estimar el tamao del efecto e interpretar el resultado.
Captulo 8. ANOVA. Un factor con medidas repetidas 327
8.5. Imaginemos una situacin en la que 6 sujetos son evaluados de 0 a 10 por 3 jueces independientes (por
ejemplo, 6 alumnos son calificados por 3 profesores, 6 candidatos a un puesto de trabajo son clasifica-
dos por 3 entrevistadores, etc.). La siguiente tabla ofrece unos datos ficticios:
Sujetos
Jueces 1 2 3 4 5 6
1 8 7 2 1 6 3
2 4 9 3 1 6 2
3 6 9 4 2 5 3
Reproducir los datos de la tabla en el SPSS y responder a las siguientes preguntas utilizando en todos
los casos = 0,05.
a. Utilizar la prueba de Friedman para contrastar la hiptesis nula de que los seis sujetos han recibi-
do la misma valoracin promedio.
b. Utilizar la prueba de Friedman para contrastar la hiptesis nula de que los tres jueces estn asig-
nando la misma valoracin promedio.
c. Cul de los dos contrastes anteriores est informando del grado de acuerdo existente entre las va-
loraciones de los jueces? Por qu?
8.6. En un experimento sobre percepcin visual se han utilizado 5 estmulos luminosos (A, B, C, D y E)
de diferente intensidad. Los estmulos se han presentado aleatoriamente a 8 sujetos seleccionados al
azar. Cada sujeto ha ordenado los estmulos segn su propia percepcin de la intensidad luminosa de
los mismos. La tabla muestra los resultados obtenidos:
Orden de Sujetos
clasificacin de
los estmulos 1 2 3 4 5 6 7 8
1 C C B C D D C C
2 D B C B B C D A
3 B D E D C E B D
4 A E D E E A A B
5 E A A A A B E E
Contrastar, con = 0,05, la hiptesis nula de que los cinco estmulos son percibidos como igualmen-
te intensos.
8.7. Hemos presentado a 6 sujetos elegidos al azar 4 discos de colores: rojo (R), verde (V), azul (A) y ne-
gro (N). A cada sujeto se le ha pedido situar los 4 estmulos en un continuo subjetivo con los polos
alegre y triste. La siguiente tabla muestra los resultados obtenidos.
Reproducir los datos de la tabla en el SPSS y responder a las siguientes preguntas utilizando en todos
los casos = 0,05 (para reproducir estos datos en el SPSS debe tenerse en cuenta que los niveles del
factor son los cuatro colores y que las puntuaciones que cada sujeto asigna a los colores vienen dadas
por la posicin que ocupan los colores en el continuo alegre-triste):
a. Contrastar la hiptesis nula de que los cuatro colores son percibidos como igualmente alegres o
tristes.
b. Utilizar el resultado del apartado anterior para decidir si existe acuerdo significativo entre las res-
puestas de los sujetos.
9
Anlisis de varianza (IV)
Dos factores
con medidas repetidas
La Tabla 9.1 muestra la estructura de los datos y la notacin que utilizaremos en un dise-
o de dos factores con medidas repetidas en ambos. Seguimos llamando A y B a los factores
e Y a la variable dependiente (la variable cuantitativa de la que se toman varias medidas). A
los J niveles del factor A los representamos mediante a1, a2, ..., aj..., aJ ( j = 1, 2, ..., J ). A los
K niveles del factor B los representamos mediante b1, b2, ..., bk..., bK (k = 1, 2, ..., K ). A ca-
da sujeto lo representamos mediante si (i = 1, 2, ..., n). Los n sujetos incluidos en el estudio
participan en todas las condiciones del diseo, es decir, en las JK condiciones resultantes de
combinar los J niveles del factor A con los K niveles del factor B.
Tabla 9.1. Estructura de los datos en un diseo de dos factores con medidas repetidas en ambos (AB-MR)
a1 aj aJ
Sujetos b1 bk bK b1 bk bK b1 bk bK
s1
s2
si
sn
Sumando puntuaciones se obtienen los totales y las medias necesarios para el anlisis. As,
por ejemplo, con las puntuaciones de cada fila de la tabla se obtienen los totales y las medias
correspondientes a cada sujeto; con las puntuaciones de cada columna se obtienen los tota-
les y las medias correspondientes a cada combinacin AB; etc. Siguiendo la lgica ya apli-
cada a propsito del modelo completamente aleatorizado (ver ecuaciones [7.1] a [7.5]) se
obtienen el resto de totales y medias.
En un modelo de dos factores, los efectos que interesa analizar son tres: los dos efectos
principales (es decir, los efectos de cada factor individualmente considerado, A y B ) y el
efecto de la interaccin entre ambos factores (es decir, el efecto conjunto o combinado de
ambos factores, AB). El hecho de que el diseo sea completamente aleatorizado o de medidas
repetidas no cambia esto. Y para poder analizar estos tres efectos, es necesario identificar las
diferentes fuentes de variabilidad presentes en el diseo.
Ya hemos visto que, en un diseo completamente aleatorizado (CA), la variabilidad to-
tal (la variabilidad que se da entre cada observacin y la media total) se descompone en va-
riabilidad intergrupos y variabilidad intragrupos o error. Tambin hemos visto que en un
diseo con medidas repetidas (MR) hay una forma ms de variabilidad: la debida a las di-
ferencias entre los sujetos o variabilidad intersujetos (esta fuente de variabilidad tambin
existe en un diseo CA, pero no hay forma de aislarla).
Adems, si el diseo tiene dos factores (tanto si es CA como si es MR), la variabilidad
intergrupos puede descomponerse, a su vez, en la variabilidad asociada al factor A, la aso-
ciada al factor B y la asociada a la interaccin AB. Todas estas fuentes de variabilidad ya
las hemos estudiado en alguno de los tres captulos anteriores.
Captulo 9. ANOVA. Dos factores con medidas repetidas 331
En esta forma de descomponer la variabilidad total se est asumiendo que los sujetos son
independientes del resto de efectos. Por tanto, las interacciones AS, B S y AB S constitu-
yen variabilidad error. En el diseo de un factor MR (ver captulo anterior), la variabilidad
error es precisamente la variabilidad asociada a la interaccin entre el factor A y los sujetos.
En el diseo de dos factores MR la variabilidad error tambin incluye la variabilidad debi-
da a la interaccin entre los sujetos y cada uno de los efectos intrasujetos, es decir, la debida
a la interaccin entre el efecto de A y los sujetos (AS ), la debida a la interaccin entre el
efecto de B y los sujetos (BS ) y la debida a la interaccin entre el efecto de AB y los sujetos
(ABS ). En consecuencia, en un diseo de dos factores, ambos con medidas repetidas, la va-
riabilidad total puede descomponerse en siete fuentes distintas de variabilidad. La Tabla 9.2
muestra cmo cuantificarlas.
Tabla 9.2. Medias cuadrticas en un diseo de dos factores con medidas repetidas en ambos (AB-MR)
MCA =
MCB =
MCAB =
MCS =
MCAS =
MCBS =
MCABS =
Por tanto, no existe una nica fuente de variabilidad error, sino tres. Y para valorar la sig-
nificacin de los efectos presentes en el diseo (A, B y AB), cada uno debe compararse con
su correspondiente variabilidad error:
= [9.1]
As, para valorar el efecto del factor A se utiliza el cociente entre la media cuadrtica de A
y la media cuadrtica de la interaccin AS. Para valorar el efecto del factor B se utiliza el
cociente entre la media cuadrtica de B y la media cuadrtica de la interaccin BS. Y Para
valorar el efecto de la interaccin AB se utiliza el cociente entre la media cuadrtica de AB
y la media cuadrtica de la interaccin ABS.
La lgica de estos tres cocientes se entender fcilmente si se considera que valorar el
efecto del factor A consiste en comparar las medias marginales correspondientes a los nive-
les del factor A tras promediar el resto de efectos. Ahora bien, al promediar las K puntua-
ciones de cada sujeto se obtiene un diseo de un factor MR idntico al estudiado en el cap-
332 Anlisis de datos (vol. II)
tulo anterior. Analizando estos promedios con el estadstico F del modelo de un factor MR
se obtiene el mismo resultado que con la solucin propuesta en [9.1]. Exactamente lo mismo
vale decir del efecto del factor B.
En relacin con el efecto de la interaccin, la nica variabilidad error es la que se da en-
tre cada puntuacin individual y las medias marginales de su propia columna (ver Tabla 9.1).
Y esa variabilidad es justamente la debida a la interaccin entre AB y los sujetos.
El Cuadro 9.2 ofrece un resumen de cmo analizar los tres efectos del diseo (A, B y AB)
mediante la aplicacin de los estadsticos F propuestos en [9.1]. Estos estadsticos se dis-
tribuyen segn el modelo de probabilidad F con los grados de libertad correspondientes al
numerador y al denominador de cada cociente. Ahora bien, para que esto sea as, es necesa-
rio seguir asumiendo, como en cualquier otro modelo de ANOVA, que se dan ciertas con-
diciones. Estas condiciones son las mismas que las estudiadas a propsito del modelo de un
factor MR, pero con algunos matices que trataremos en el siguiente apartado.
Cuadro 9.2. Resumen del ANOVA de dos factores con medidas repetidas en ambos (AB-MR)
1. Hiptesis: las hiptesis sobre los efectos del factor A, el factor B y la interaccin AB
son las mismas que en el modelo de dos factores completamente aleatorizados (ver
Cuadro 7.1).
2. Supuestos: muestra de tamao n aleatoriamente seleccionada de JK poblaciones nor-
males con la misma varianza; tambin se asume que la matriz de varianzas-covarian-
zas de las JK medidas repetidas es esfrica (ver siguiente apartado).
3. Estadsticos del contraste (ver ecuacin [9.1] y Tabla 9.12):
a. Para H0 (A) : FA = MCA MCAS .
b. Para H0 (B) : FB = MCB MCBS .
c. Para H0 (AB) : FAB = MCAB MCABS .
4. Distribuciones muestrales:
a. FA se distribuye segn F con J !1 y (J !1)(n !1) grados de libertad.
b. FB se distribuye segn F con K !1 y (K !1)(n !1) grados de libertad.
c. FAB se distribuye segn F con (J !1)(K !1) y (J !1)(K !1)(n !1) grados de libertad.
5. Zonas crticas:
a. FA $
> FJ !1, (J !1)(n !1); 1! .
b. FB $
> FK !1, (K !1)(n !1); 1! .
c. FAB $
> F(J !1)(K !1), (J !1)(K !1)(n !1); 1! .
6. Reglas de decisin: las mismas que en el modelo de dos factores completamente
aleatorizados (ver Cuadro 7.1).
7. Niveles crticos (valores p): los mismos que en el modelo de dos factores comple-
tamente aleatorizados (ver Cuadro 7.1).
La Tabla 9.2 y el Cuadro 9.2 contienen la informacin necesaria para resolver las ecua-
ciones que permiten analizar los tres efectos del diseo. No obstante, en lugar de realizar
clculos a mano, explicaremos todos los detalles del anlisis utilizando el SPSS.
Captulo 9. ANOVA. Dos factores con medidas repetidas 333
= [9.2]
Esta medida de asociacin parcial es la que ofrece el SPSS como estimacin del tamao del
efecto. No obstante, puesto que tiende a ofrecer una estimacin inflada de la verdadera
proporcin de varianza compartida, la medida de asociacin que tiende a acaparar las prefe-
rencias de los expertos para cuantificar el tamao de un efecto intrasujetos es omega-cua-
drado ( ).
Cuando los factores son de efectos fijos, el tamao del efecto puede estimarse (ver Kirk,
1995, pg. 460) mediante
= [9.3]
1
En el caso de que pueda asumirse esfericidad global, los tres estadsticos F propuestos en el Cuadro 9.2 podran cal-
cularse utilizando en el denominador la media cuadrtica error resultante de combinar las tres medias cuadrticas error
propuestas (ver Kirk, 1995, pgs. 463-464).
334 Anlisis de datos (vol. II)
El estadstico est estrechamente relacionado con la medida del tamao del efecto de
Cohen (1988):
= [9.4]
La regla propuesta por Cohen para interpretar estas medidas sigue siendo vlida aqu. En lo
relativo a y , valores de 0,01, 0,06 y 0,14 indican efectos de tamaos pequeo, media-
no y grande. En el caso de ( f en la notacin de Cohen), los valores de referencia son 0,10,
0,25 y 0,40.
= , = [9.5]
La potencia asociada al contraste de cada efecto puede obtenerse de la Tabla G del Apndi-
ce final a partir del valor de y de los grados de libertad de cada estadstico Fefecto. Para
estimar el tamao muestral necesario para alcanzar una determinada potencia al contrastar un
efecto concreto, puede utilizarse la ecuacin [7.26] y los pasos descritos en ese apartado.
Comparaciones mltiples
El hecho de que un diseo sea de medidas repetidas no cambia las cosas a la hora de cmo
proceder tras detectar un efecto significativo. En el caso de que resulte significativo un efec-
to principal (A, B), el anlisis debe continuar comparando los niveles correspondientes a ese
efecto para poder precisar dnde se encuentran las diferencias. En el caso de que resulte sig-
nificativo el efecto de la interaccin (AB), el anlisis debe continuar comparando entre s los
efectos simples. Todo esto, al margen de que el estudio incluya objetivos concretos que exi-
jan comparaciones planeadas.
Si puede asumirse esfericidad, los procedimientos descritos a propsito del modelo de
dos factores CA (ver, en el Captulo 7, el apartado Comparaciones mltiples) sirven tambin
para el modelo de dos factores MR. nicamente hay que tener en cuenta que, ahora, cada
efecto tiene su propia media cuadrtica y sus propios grados de libertad.
En el caso de que no pueda asumirse esfericidad, los procedimientos ya estudiados para
realizar comparaciones planeadas o a priori siguen siendo vlidos si se tiene la precaucin
de utilizar las ecuaciones propuestas para el caso en que no pueda asumirse que las varianzas
poblacionales son iguales.
Y en lo relativo a las comparaciones post hoc o a posteriori, es preferible (ver Kesel-
man y Keselman, 1988; Keselman, Keselman y Shaffer, 1991; Maxwell, 1980) realizar com-
paraciones por pares aplicando la prueba T de Student para muestras relacionadas y corri-
giendo la tasa de error por comparacin ( C) mediante el mtodo de Dunn-Bonferroni, es
decir, dividiendo F, generalmente 0,05, entre el nmero de comparaciones por pares lle-
vadas a cabo. En el siguiente apartado se explica cmo hacer todo esto con el SPSS.
Captulo 9. ANOVA. Dos factores con medidas repetidas 335
ANOVA de dos factores con medidas repetidas en ambos (AB-MR) con SPSS
En este apartado se explica cmo utilizar el SPSS para aplicar un ANOVA de dos factores
con medidas repetidas en ambos2. Para ello, vamos a realizar 6 tareas: (1) chequear el supues-
to de esfericidad con cada uno de los tres efectos presentes en el diseo (A, B y AB), (2) con-
trastar las hiptesis globales referidas a esos tres efectos, (3) estimar el tamao del efecto y
la potencia asociada al contraste de cada uno de esos tres efectos, (4) realizar comparaciones
post hoc para interpretar los efectos principales, (5) realizar comparaciones mltiples para
analizar los efectos simples y (6) obtener un grfico de lneas y comparar entre s los efectos
simples para interpretar el efecto de la interaccin.
Estas 6 tareas las vamos a realizar con los datos de un estudio diseado para valorar la
relacin entre la calidad del recuerdo, el tipo de material recordado y el paso del tiempo. A
seis sujetos aleatoriamente seleccionados se les ha hecho memorizar durante 20 minutos dos
listas distintas: una de nmeros de dos cifras y otra de slabas de dos letras. Ms tarde, al
cabo de una hora, un da, una semana y un mes, se les ha solicitado reproducir ambas listas
y, como una medida de la calidad del recuerdo, se ha contabilizado el nmero de aciertos. La
Tabla 9.3 recoge los resultados obtenidos.
El propsito del estudio es averiguar si existen diferencias en la calidad del recuerdo
(variable dependiente cuantitativa) en funcin de dos variables independientes o factores: el
contenido del material memorizado (nmeros o letras) y el paso del tiempo (una hora, un da,
una semana, un mes). Puesto que todos los sujetos pasan por todas las condiciones (a todos
los sujetos se les hace memorizar y reproducir las dos listas en los cuatro momentos), se tra-
ta de un diseo con dos factores MR (tiempo, con cuatro niveles, y contenido, con dos ni-
veles) y una variable dependiente cuantitativa (la calidad del recuerdo, cuantificada como
el nmero de aciertos.
Tabla 9.3. Datos de un diseo de dos factores (contenido tiempo) con medidas repetidas en ambos
Nmeros Letras
Sujetos Hora Da Semana Mes Hora Da Semana Mes
1 6 6 3 2 8 6 4 3
2 7 5 5 5 10 8 5 2
3 4 2 1 3 7 7 2 2
4 7 5 3 4 11 9 3 6
5 6 4 4 5 10 6 4 3
6 5 2 1 1 9 4 3 5
Para reproducir los datos de la Tabla 9.3 en el Editor de datos del SPSS es necesario crear
tantas variables como condiciones resultan de combinar los niveles de ambos factores. Pues-
to que el estudio incluye un factor con 4 niveles y otro con 2, es necesario crear 4 2 = 8
variables. Para nombrar estas variables puede utilizarse cualquier nombre vlido, pero, ob-
2
En la explicacin de algunos de los resultados obtenidos se asumir que el lector est familiarizado con el modelo de un
factor con medidas repetidas estudiado en el captulo anterior.
336 Anlisis de datos (vol. II)
La Figura 9.2 muestra los diagramas de caja de la calidad del recuerdo correspondientes a
cada medida repetida. Ninguno de los diagramas de caja muestra casos anmalos ni asime-
tras evidentes. Y en la dispersin de las diferentes medidas no parece haber diferencias
sustanciales. Pero el rendimiento medio vara sensiblemente entre condiciones: la calidad del
recuerdo va disminuyendo con el paso del tiempo, si bien esta disminucin es ms acusada
en el caso de la lista de letras (los cuatro diagramas de la mitad derecha); y el punto de par-
tida de esta lista es claramente ms alto que el de la de nmeros.
Todas estas selecciones son necesarias para llevar a cabo el anlisis bsico, es decir, para
contrastar las tres hiptesis globales referidas a los tres efectos del diseo: contenido, tiempo
y contenido*tiempo. Las selecciones que se ofrecen a continuacin sirven para seguir avan-
zando en el anlisis. Para obtener un grfico de lneas basado en las medias de las casillas:
' Pulsar el botn Grficos para acceder al subcuadro de dilogo Medidas repetidas: Gr-
ficos de perfil; trasladar el factor tiempo al cuadro Eje horizontal y el factor contenido al
cuadro Lneas separadas, y pulsar el botn Aadir para trasladar las variables seleccio-
nadas a la lista inferior y, con ello, hacer efectiva la seleccin. Pulsar el botn Continuar
para volver al cuadro de dilogo principal.
Para llevar a cabo comparaciones post hoc entre los niveles del factor tiempo y para analizar
los efectos simples:
' Pulsar el botn Opciones para acceder al subcuadro de dilogo Medidas repetidas: Op-
ciones; trasladar el factor tiempo y la interaccin contenido*tiempo a la lista Mostrar las
medias para, marcar la opcin Comparar los efectos principales y seleccionar la opcin
Bonferroni dentro del men desplegable Ajuste del intervalo de confianza (para controlar la
tasa de error). Pulsar el botn Continuar para volver al cuadro de dilogo principal.
Puesto que el factor contenido solamente tiene dos niveles, no es necesario solicitar
este tipo de comparaciones. Y la seleccin de la interaccin contenido*tiempo sirve para
obtener informacin sobre los efectos simples si, ms tarde, en lugar de ejecutar el pro-
cedimiento, se pega la sintaxis y se modifica la lnea /EMMEANS = TABLES(contenido*
tiempo) aadiendo: COMPARE(contenido) ADJ(BONFERRONI). La lnea completa debe
quedar de la siguiente manera:
/EMMEANS = TABLES(tiempo*contenido) COMPARE(contenido) ADJ(BONFERRONI).
338 Anlisis de datos (vol. II)
Para obtener estimaciones del tamao de los efectos del diseo y para calcular la potencia
asociada a cada contraste:
' Pulsar el botn Opciones para acceder al subcuadro de dilogo Medidas repetidas: Opc-
iones y marcar las casillas Estadsticos descriptivos, Estimaciones del tamao del efecto y
Potencia observada (siempre es conveniente solicitar estadsticos descriptivos e informar
de ellos antes que de ninguna otra cosa).
Para comparar los efectos simples entre s, es decir, para realizar las comparaciones necesa-
rias para interpretar el efecto de la interaccin:
' Pulsar el botn Contrastes para acceder al subcuadro de dilogo Medidas repetidas: Con-
trastes; seleccionar el factor contenido, seleccionar la opcin Simple del men desple-
gable Contrastes, seleccionar Primera como categora de referencia y pulsar el botn Cam-
biar para validar la seleccin hecha. Repetir la operacin para el factor tiempo.
El procedimiento Medidas repetidas asigna, por defecto, contrastes de tipo polinmi-
co a los factores MR; estos contrastes permiten estudiar el tipo de relacin (lineal, cua-
drtica, cbica, etc.) existente entre el factor y la variable dependiente. Pero tambin es
posible solicitar comparaciones distintas de las de tendencia seleccionando alguna de las
opciones del men desplegable Contraste. La opcin Simple (que es la que nosotros he-
mos elegido) permite comparar cada categora o nivel con la categora de referencia. Se
puede elegir como categora de referencia la primera o la ltima (tambin se puede ele-
gir cualquier otra categora mediante sintaxis; veremos cmo hacerlo ms adelante).
Aceptando estas selecciones se obtienen los resultados que muestran las Tablas 9.4 a 9.14
y el grfico de lneas que muestra la Figura 9.3.
La Tabla 9.4 ofrece algunos estadsticos descriptivos para cada medida repetida: la me-
dia, la desviacin tpica y el nmero de observaciones. Estas medias son las que se utilizan
para construir el grfico de lneas que se muestra ms adelante en la Figura 9.3 y es la in-
formacin que hay que revisar en primer lugar, junto con los diagramas de caja de la Figu-
ra 9.2, y de la que hay que informar en primer lugar.
Esfericidad
La Tabla 9.5 ofrece la prueba de esfericidad de Mauchly. La tabla incluye un estadstico pa-
ra cada uno de los efectos presentes en el modelo (esfericidad local). Puesto que el nivel
crtico (sig.) es mayor que 0,05 en todos los casos, puede asumirse que las correspondientes
Captulo 9. ANOVA. Dos factores con medidas repetidas 339
matrices son esfricas (la significacin referida al factor contenido no aparece porque cuan-
do un factor tiene dos niveles no tiene sentido hablar de esfericidad; con dos niveles sola-
mente existe una covarianza que, obviamente, es igual a s misma).
psilon
Efectos W de Chi-cuadrado Greenhouse- Huynh- Lmite-
intra-sujetos Mauchly aprox. gl Sig. Geisser Feldt inferior
contenido 1,00 ,00 0 . 1,00 1,00 1,00
tiempo ,42 3,25 5 ,672 ,75 1,00 ,33
contenido * tiempo ,22 5,65 5 ,356 ,52 ,71 ,33
Tabla 9.7. Contrastes univariados (estadsticos F con y sin modificacin de los grados de libertad)
Medida: MEASURE_1
Media cuadrtica
Parmetro de no
Eta al cuadrado
Significacin
Potencia a
centralidad
observada
Suma de
parcial
Fuente
gl
F
contenido Esfericidad asumida 35,02 1,00 35,02 20,35 ,006 ,80 20,35 ,94
Greenhouse-Geisser 35,02 1,00 35,02 20,35 ,006 ,80 20,35 ,94
Huynh-Feldt 35,02 1,00 35,02 20,35 ,006 ,80 20,35 ,94
Lmite-inferior 35,02 1,00 35,02 20,35 ,006 ,80 20,35 ,94
Error Esfericidad asumida 8,60 5,00 1,72
(contenido) Greenhouse-Geisser 8,60 5,00 1,72
Huynh-Feldt 8,60 5,00 1,72
Lmite-inferior 8,60 5,00 1,72
tiempo Esfericidad asumida 145,73 3,00 48,58 38,06 ,000 ,88 114,2 1,00
Greenhouse-Geisser 145,73 2,26 64,50 38,06 ,000 ,88 85,99 1,00
Huynh-Feldt 145,73 3,00 48,58 38,06 ,000 ,88 114,2 1,00
Lmite-inferior 145,73 1,00 145,73 38,06 ,002 ,88 38,06 1,00
Error Esfericidad asumida 19,15 15,00 1,28
(tiempo) Greenhouse-Geisser 19,15 11,30 1,69
Huynh-Feldt 19,15 15,00 1,28
Lmite-inferior
19,15 5,00 3,83
contenido * Esfericidad asumida 21,06 3,00 7,02 5,32 ,011 ,52 15,95 ,85
tiempo Greenhouse-Geisser 21,06 1,56 13,48 5,32 ,040 ,52 8,30 ,61
Huynh-Feldt 21,06 2,14 9,82 5,32 ,023 ,52 11,40 ,73
Lmite-inferior 21,06 1,00 21,06 5,32 ,069 ,52 5,32 ,46
Error Esfericidad asumida 19,81 15,00 1,32
(contenido*tiempo) Greenhouse-Geisser 19,81 7,81 2,54
Huynh-Feldt 19,81 10,72 1,85
Lmite-inferior 19,81 5,00 3,96
a. Calculado con alfa = ,05.
Si no puede asumirse esfericidad, tenemos dos soluciones alternativas: (1) los estadsticos
multivariados de la Tabla 9.6 y (2) los estadsticos F de la Tabla 9.7 con los grados de liber-
tad modificados mediante el ndice corrector psilon. La Tabla 9.6 ofrece la solucin basa-
da en los estadsticos multivariados. Al contrastar los dos efectos principales (contenido y
tiempo) se llega a la misma conclusin que con los estadsticos F, pero al contrastar el efecto
de la interaccin se llega a una conclusin distinta (pues 0,083 > 0,05). Ya hemos sealado
que, con muestras muy pequeas, la aproximacin multivariada es poco potente (particu-
larmente cuando el nmero de casos es menor que el de medidas repetidas).
En el caso de que la solucin basada en los estadsticos multivariados no lleve al recha-
zo de alguna hiptesis (como ocurre aqu con la hiptesis referida la interaccin), el anlisis
debe continuar tomando como referencia los estadsticos F con los grados de libertad mo-
dificados (ver, en el captulo anterior, el apartado Alternativas al estadstico F ). Estos esta-
dsticos se encuentran en la Tabla 9.7. La peculiaridad que los distingue es que su distribu-
cin muestral est modificada multiplicando los grados de libertad originales por el ndice
Captulo 9. ANOVA. Dos factores con medidas repetidas 341
corrector psilon (). Este ndice corrector (Tabla 9.5, mitad derecha) expresa el grado de
esfericidad de la matriz de varianzas-covarianzas. La tabla ofrece dos estimaciones de psi-
lon: Greenhouse-Geisser y Huynh-Feldt; un tercer valor, lmite inferior, expresa el valor que
adoptara psilon en el caso de incumplimiento extremo del supuesto de esfericidad. Las dos
versiones corregidas del estadstico F que incluye la Tabla 9.7 (Greenhouse-Geisser y Huynh-
Feldt) llevan a la misma conclusin que el estadstico F convencional (esfericidad asumida);
no as la solucin ms conservadora de todas (lmite inferior).
El procedimiento GLM Medidas repetidas no calcula (ecuacin [9.3]), pero todo lo que hace
falta para obtenerlo es el estadstico F asociado a cada efecto y sus grados de libertad. Y la
Tabla 9.7 ofrece esa informacin. La penltima columna de la tabla contiene las estima-
ciones de los parmetros de no-centralidad de las correspondientes distribuciones F no cen-
tradas (ver ecuacin [9.4]). Estos parmetros son los que se utilizan para calcular la poten-
cia observada que aparece en la ltima columna de la tabla. En el caso de esfericidad asu-
mida, los tres contrastes tienen una potencia observada mayor de 0,80.
La Tabla 9.9 muestra las comparaciones por pares entre los niveles del factor tiempo. Para
controlar la tasa de error, tanto los niveles crticos (sig.) como los intervalos de confianza
estn ajustados mediante la correccin de Bonferroni (se han eliminado las filas redundan-
tes). El resultado de las comparaciones indica que la calidad del recuerdo en el nivel 1 (hora)
es significativamente mejor (Sig. < 0,05) que en el resto de niveles; y significativamente me-
jor tambin en el nivel 2 (da) que en el nivel 3 (semana). Los intervalos de confianza per-
miten llegar a la misma conclusin. No obstante, esta conclusin es provisional. El hecho de
que el efecto de la interaccin sea significativo indica que este resultado podra ser matizado.
La Tabla 9.11 contiene las comparaciones entre los efectos simples, es decir las compara-
ciones entre los niveles del factor contenido (1 = nmeros, 2 = letras) en cada nivel del
factor tiempo (1 = hora, 2 = da, 3 = semana, 4 = mes). Tanto los niveles crticos
(sig.) como los intervalos de confianza se han ajustado mediante la correccin de Bonferroni
Captulo 9. ANOVA. Dos factores con medidas repetidas 343
(se indica en una nota a pie de tabla; aunque esto aqu es irrelevante porque el factor conte-
nido solamente tiene dos niveles). Los resultados indican que la diferencia entre el recuerdo
de nmeros y letras es significativa en los momentos 1 y 2 ( phora < 0,0005, pda = 0,014), pe-
ro no en los momentos 3 y 4 (psemana = 0,102, pmes = 0,883). Por tanto, las letras se recuerdan
mejor que los nmeros al cabo de una hora y de un da, pero no hay evidencia de que esto
sea as al cabo de una semana y de un mes.
Tabla 9.11. Comparaciones por pares (efectos simples del factor contenido)
Medida: MEASURE_1
Intervalo de confianza al 95%
a
(I) (J) Diferencia entre Error para la diferencia
a
tiempo contenido contenido medias (I-J) tp. Sig. Lmite inferior Lmite superior
1 1 2 -3,33 ,33 ,000 -4,19 -2,48
2 1 2 -2,67 ,71 ,014 -4,50 -,83
3 1 2 -,67 ,33 ,102 -1,52 ,19
4 1 2 -,17 1,08 ,883 -2,94 2,60
Basadas en las medias marginales estimadas.
a. Ajuste para comparaciones mltiples: Bonferroni.
Figura 9.3. Grfico de lneas (perfiles) correspondiente a los datos de la Tabla 9.3
344 Anlisis de datos (vol. II)
Pero, qu momentos difieren de qu otros? El anlisis de los efectos simples indica que la
diferencia entre el recuerdo de nmeros y letras solamente es significativa al cabo de una ho-
ra y de un da (ver Tabla 9.11). Quiere esto decir que lo que ocurre al cabo de una hora y
un da difiere de lo que ocurre al cabo de una semana y de un mes? No exactamente. Para
saber qu efectos simples difieren entre s hay que compararlos.
Parte de estas comparaciones aparecen en la Tabla 9.12 (se ha eliminado de la tabla ori-
ginal la informacin relativa a los efectos principales). Puesto que el factor tiempo tiene 4
niveles, hay 4 efectos simples asociados al factor contenido (es decir, 4 diferencias nmeros-
letras). Para comparar entre s estos 4 efectos simples es necesario realizar 6 comparacio-
nes; hay que comparar lo que ocurre en el momento 1 con lo que ocurre en los momentos 2,
3 y 4; lo que ocurre en el momento 2 con lo que ocurre en los momentos 3 y 4; y lo que ocurre
en el momento 3 con lo que ocurre en el momento 4.
De estas 6 comparaciones, la Tabla 9.12 incluye las 3 primeras: lo que ocurre en el mo-
mento 1 comparado con lo que ocurre en los momentos 2, 3 y 4. En la primera de ellas se est
comparando el efecto simple de contenido (nivel 2 ! nivel 1) en el momento 1 con el efecto
simple de contenido en el momento 2 (tiempo = nivel 2 ! nivel 1). Es decir, se est compa-
rando la diferencia entre letras (contenido = nivel 2) y nmeros (contenido = nivel 1) al cabo
de un da (tiempo = nivel 2) con la diferencia entre letras (contenido = nivel 2) y nmeros
(contenido = nivel 1) al cabo de una hora (tiempo = nivel 1). Los resultados se presentan en
el formato de una tabla convencional de ANOVA: sumas de cuadrados, grados de libertad,
medias cuadrticas, estadsticos F y niveles crticos. Puesto que esta comparacin tiene aso-
ciado un nivel crtico mayor que 0,05 (sig. = 0,363), no puede afirmarse que el efecto simple
de contenido en el momento 1 difiera del efecto simple de contenido en el momento 2.
En la segunda lnea se est comparando el efecto simple de contenido en el momento 1
con el efecto simple de contenido en el momento 3 (tiempo = nivel 3 ! nivel 1). Puesto que
esta comparacin tiene asociado un nivel crtico menor que 0,05 (sig. = 0,003), puede afirmar-
se que el efecto simple de contenido en el momento 1 difiere del efecto simple de contenido
en el momento 3.
Y en la tercera lnea se est comparando el efecto simple de contenido en el momento 1
con el efecto simple de contenido en el momento 4 (tiempo = nivel 4 ! nivel 1). Puesto que
esta comparacin tiene asociado un nivel crtico menor que 0,05 (sig. = 0,029), puede afir-
marse que el efecto simple de contenido en el momento 1 difiere del efecto simple de con-
tenido en el momento 4.
La Tabla 9.12 contiene informacin sobre las comparaciones entre los momentos 1-1, 1-3 y
1-4; faltan las comparaciones entre los momentos 2-3, 2-4 y 3-4. Esta tabla es la que se ob-
Captulo 9. ANOVA. Dos factores con medidas repetidas 345
El valor 1 colocado entre parntesis en tiempo 4 Simple(1) indica que la categora de referen-
cia (el nivel del factor tiempo con el que se comparan los dems niveles) es la primera. Cam-
biando ese valor a 2, la categora de referencia pasa a ser la segunda. Y cambiando ese valor
a 3, la categora de referencia pasa a ser la tercera. Ejecutando la sintaxis con estos cambios
se obtienen los resultados que muestran las Tablas 9.13 y 9.14.
En la primera lnea de la Tabla 9.13 se est comparando el efecto simple de contenido en
el momento 2 con el efecto simple de contenido en el momento 3 (tiempo = nivel 3 ! nivel 2).
Puesto que esta comparacin tiene asociado un nivel crtico mayor que 0,05 (sig. = 0,067),
no puede afirmarse que el efecto simple de contenido en el momento 2 difiera del efecto sim-
ple de contenido en el momento 3. En la segunda lnea de la tabla se est comparando el
efecto simple de contenido en el momento 2 con el efecto simple de contenido en el momen-
to 4 (tiempo = nivel 4 ! nivel 2). Puesto que esta comparacin tiene asociado un nivel crti-
co mayor que 0,05 (sig. = 0,136), no puede afirmarse que el efecto simple de contenido en el
momento 2 difiera del efecto simple de contenido en el momento 4.
Por ltimo, en la Tabla 9.14 se est comparando el efecto simple de contenido en el
momento 3 con el efecto simple de contenido en el momento 4 (tiempo = nivel 4 ! nivel 3).
Puesto que esta comparacin tiene asociado un nivel crtico mayor que 0,05 (sig. = 0,597),
no puede afirmarse que el efecto simple de contenido en el momento 3 difiera del efecto
simple de contenido en el momento 4.
Resumiendo, al comparar entre s los efectos simples de contenido nicamente existen
diferencias significativas entre el momento 1 y los momentos 3 y 4. Cuando nos preguntamos
por la diferencia en el recuerdo entre nmeros y letras, lo que encontramos es que esa diferen-
cia es mayor al cabo de una hora que al cabo de una semana y al cabo de un mes.
Aunque esta tarea puede parecer algo engorrosa, permite obtener las 6 comparaciones ne-
cesarias para interpretar el efecto de la interaccin. Si se est dispuesto a utilizar la sintaxis
con algo ms de profundidad, estos mismos resultados y otros relacionados pueden obte-
nerse mediante la sentencia MMATRIX (ver Apndice 9).
3
A este tipo de diseos tambin se les llama split-plot. Y, dado que se trata de diseos que combinan factores intersujetos
e intrasujetos, tambin reciben, a veces, el nombre de mixtos; no obstante, lo habitual es reservar este trmino para resal-
tar la presencia simultnea de efectos fijos y aleatorios en un mismo modelo (ver el Captulo 2 del Volumen III).
Captulo 9. ANOVA. Dos factores con medidas repetidas 347
lizado en el mbito de las ciencias sociales y de la salud (ver Micceri, 1989). De hecho, este
diseo constituye el paradigma de lo que se conoce como ensayo clnico.
La estructura de los datos se corresponde con la representada en la Tabla 8.2.3. Y la no-
tacin utilizada es la misma que en el modelo de dos factores MR (ver Tabla 9.1).
Puesto que se trata de un modelo de dos factores, los efectos que interesa analizar siguen
siendo tres: los dos efectos principales (los efectos de cada factor individualmente conside-
rado, A y B) y el efecto de la interaccin entre ambos factores (el efecto conjunto o combi-
nado de ambos factores, AB). Y, al igual que en el resto de diseos estudiados, para poder
analizar estos tres efectos es necesario identificar las diferentes fuentes de variabilidad pre-
sentes en el diseo.
En un diseo completamente aleatorizado (CA), la variabilidad total se descompone en
variabilidad intergrupos y variabilidad intragrupos o error. En un diseo con medidas re-
petidas (MR) hay una forma ms de variabilidad: la debida a las diferencias entre los sujetos
o variabilidad intersujetos (recordemos que esta forma de variabilidad tambin existe en un
diseo CA, pero no hay forma de aislarla).
Adems, si el diseo tiene dos factores (tanto si los factores son CA como si son MR),
la variabilidad intergrupos puede descomponerse, a su vez, en la variabilidad asociada al fac-
tor A, la asociada al factor B y la asociada a la interaccin AB. Todas estas fuentes de varia-
bilidad son las mismas que hemos estudiado en el apartado anterior a propsito del diseo de
dos factores MR.
En esta forma de descomponer la variabilidad total se est asumiendo que los sujetos no
interaccionan ni con A, ni con B ni con AB. Por tanto, se est asumiendo que estas interac-
ciones reflejan variabilidad error. En el diseo de un factor A-MR hemos visto que la va-
riabilidad error es precisamente la variabilidad debida a la interaccin entre el factor y los
sujetos. En el diseo de dos factores AB-CA-MR ocurre lo mismo: la variabilidad error se
estima a partir de la variabilidad debida a la interaccin entre el factor intrasujetos y los
sujetos, es decir, a partir de la interaccin entre el factor B y los sujetos: B S . La interac-
cin entre el factor A y los sujetos no se contempla porque cada sujeto participa en un nico
nivel del factor A. Y tampoco se contempla la triple interaccin entre A, B y los sujetos por-
que cada combinacin B S nicamente se da en un nivel del factor A.
Esto significa que, en un diseo de dos factores con medidas repetidas en uno, la varia-
bilidad total puede descomponerse en cinco fuentes distintas de variabilidad. La Tabla 9.15
muestra cmo cuantificar estas fuentes de variabilidad.
Tabla 9.15. Medias cuadrticas en un diseo de dos factores con medidas repetidas en uno (AB-CA-MR)
MCA =
MCB =
MCAB =
MCS =
MCB S =
348 Anlisis de datos (vol. II)
Por tanto, no existe una nica fuente de variabilidad error, sino dos. Y para valorar la sig-
nificacin de los efectos presentes en el diseo (A, B y AB) cada uno debe compararse con
su correspondiente variabilidad error:
=
= [9.6]
=
Para valorar el efecto del factor A se utiliza el cociente entre la media cuadrtica de A y la
media cuadrtica de los sujetos (MCS). Valorar el efecto de A consiste en comparar las me-
dias marginales correspondientes a los niveles del factor A tras promediar el resto de efectos.
Ahora bien, al promediar las K puntuaciones de cada sujeto se obtiene un diseo de un ni-
co factor CA. Analizando estos promedios con el estadstico F del modelo de un factor CA
se obtiene el mismo resultado que con el estadstico FA en [9.6].
Para valorar el efecto del factor B y el de la interaccin AB se utiliza el cociente entre la
media cuadrtica correspondiente al factor B y la media cuadrtica de la interaccin entre el
factor B y los sujetos (MCB S ). En lo relativo al factor B, valorar su efecto consiste en com-
parar las medias marginales de cada uno de sus niveles. Con un solo grupo (J = 1), la situa-
cin sera idntica a la del modelo de un factor MR, donde el trmino error es justamente la
interaccin entre el factor y los sujetos. Con J > 1 grupos tenemos J diseos de un factor.
Aplicando el modelo de un factor MR a cada grupo obtendramos J medias cuadrticas referi-
das a la interaccin entre el factor y los sujetos. Lo que se hace en el modelo de dos factores
es utilizar como variabilidad error para el factor intrasujetos el promedio de esas J medias
cuadrticas (lo cual, como veremos en el siguiente apartado, tiene algunas implicaciones
sobre los supuestos del anlisis).
Con el efecto de la interaccin AB ocurre algo parecido a lo que ocurre con el efecto del
factor B. Para valorar el efecto de la interaccin se analiza lo que ocurre con el efecto de B
en cada nivel de A. Y esto nos lleva a la misma solucin adoptada para el factor B. Por tan-
to, cuando un efecto contiene una mezcla de factores inter e intrasujetos, el efecto de la in-
teraccin se considera intrasujetos y se analiza como tal.
El Cuadro 9.3 ofrece un resumen del procedimiento para contrastar las hiptesis relativas
a los efectos de A, B y AB mediante los estadsticos propuestos en [9.6]. Bajo ciertas condi-
ciones (ver el siguiente apartado sobre los supuestos del modelo), estos estadsticos F se
aproximan a la distribucin F con los grados de libertad correspondientes al numerador y al
denominador de cada estadstico.
Cuadro 9.3. Resumen del ANOVA de dos factores con medidas repetidas en uno (AB-CA-MR)
1. Hiptesis: las hiptesis sobre los efectos del factor A, el factor B y la interaccin AB
son las mismas que en el modelo de dos factores completamente aleatorizados (ver
Cuadro 7.1).
2. Supuestos: J muestras de tamao n aleatoriamente seleccionadas de K poblaciones
normales con la misma varianza; tambin se asume que las J matrices de varianzas-
covarianzas de las K medidas repetidas (una por cada nivel del factor A), adems de
esfricas, son iguales (ver siguiente apartado).
Captulo 9. ANOVA. Dos factores con medidas repetidas 349
Con la informacin de la Tabla 9.15 y del Cuadro 9.3 tenemos todo lo necesario para resol-
ver las ecuaciones que permiten analizar los tres efectos del diseo. No obstante, en lugar de
hacer clculos a mano, explicaremos todos los detalles del anlisis utilizando el SPSS.
= [9.7]
Pero la medida de asociacin que acapara las preferencias de los expertos, tanto para los efec-
tos intersujetos como para los intrasujetos, sigue siendo omega-cuadrado ( ). Cuando los
factores son de efectos fijos, el tamao del efecto puede estimarse (ver Kirk, 1995, pg. 519)
mediante
= [9.8]
El estadstico est estrechamente relacionado con la medida del tamao del efecto de Co-
hen (1988):
= [9.9]
La regla propuesta por Cohen para interpretar estas medidas sigue siendo vlida aqu. En lo
relativo a y , valores de 0,01, 0,06 y 0,14 indican efectos de tamaos pequeo, mediano
y grande. En el caso de ( f en la notacin utilizada por Cohen), los valores de referencia son
0,10, 025 y 0,40.
Captulo 9. ANOVA. Dos factores con medidas repetidas 351
= , = [9.10]
La potencia asociada al contraste de cada efecto puede obtenerse de la Tabla G del Apndice
final a partir del valor de y de los grados de libertad del correspondiente estadstico Fefecto.
Para estimar el tamao muestral necesario para alcanzar una determinada potencia al contrastar
un efecto concreto, puede utilizarse la ecuacin [7.26] y los pasos descritos en ese apartado.
Comparaciones mltiples
En el caso de que resulte significativo un efecto principal (A, B ), el anlisis debe continuar
comparando los niveles correspondientes a ese efecto para poder precisar dnde se encuentran
las diferencias. En el caso de que resulte significativo el efecto de la interaccin (AB ), el an-
lisis debe continuar comparando entre s los efectos simples. Todo esto, al margen de que el
estudio incluya objetivos concretos que exijan comparaciones planeadas.
Para realizar comparaciones entre los niveles del factor intersujetos (A ) sirve todo lo
dicho a propsito del modelo de un factor CA (ver, en el Captulo 6, el apartado Compara-
ciones mltiples). Y sirve tanto para las comparaciones planeadas como para las compara-
ciones post hoc.
Por lo que se refiere a los efectos intrasujetos (B y AB ), si puede asumirse esfericidad,
sirven aqu los procedimientos ya descritos a propsito del modelo de dos factores CA (ver,
en el Captulo 7, el apartado Comparaciones mltiples). nicamente hay que tener en cuen-
ta cules son las medias cuadrticas y los grados de libertad que intervienen al valorar cada
efecto.
En el caso de que no pueda asumirse esfericidad, los procedimientos ya estudiados para
realizar comparaciones planeadas siguen siendo vlidos si se tiene la precaucin de utilizar
las ecuaciones propuestas para el caso en que no puede asumirse que las varianzas pobla-
cionales son iguales. Y en lo relativo a las comparaciones post hoc, es preferible estudiar las
comparaciones por pares utilizando la prueba T para muestras relacionadas ajustando la ta-
sa de error por comparacin (C) mediante el mtodo de Bonferroni (Keselman y Keselman,
1988; Keselman, Keselman y Shaffer, 1991; Maxwell, 1980). En el siguiente apartado se
explica cmo hacer todo esto con el SPSS.
ANOVA de dos factores con medidas repetidas en uno (AB-CA-MR) con SPSS
Veamos cmo utilizar el SPSS para llevar a cabo un ANOVA de dos factores con medidas
repetidas en uno4. Para ello, vamos a realizar 6 tareas: (1) chequear el supuesto de igualdad
de varianzas referido al efecto intersujetos (A) y los de esfericidad y esfericidad multi-mues-
4
En la explicacin de algunos de los resultados obtenidos se asumir que el lector est familiarizado con el modelo de un
factor con medidas repetidas estudiado en el captulo anterior.
352 Anlisis de datos (vol. II)
tra referidos a los efectos intrasujetos (B y AB), (2) contrastar las hiptesis globales referidas
a los tres efectos del diseo, (3) estimar el tamao de cada efecto y calcular la potencia ob-
servada asociada a cada contraste, (4) realizar comparaciones post hoc para interpretar los
efectos principales, (5) realizar comparaciones mltiples para valorar e interpretar los efec-
tos simples y (6) obtener un grfico de lneas y comparar entre s los efectos simples para
interpretar el efecto de la interaccin.
Estas tareas las vamos a realizar con los datos de un estudio diseado para comparar dos
tratamientos antidepresivos. A un grupo de pacientes con depresin se les ha aplicado la es-
cala de depresin de Hamilton para obtener una medida inicial o basal del nivel de depresin
de cada paciente. Tras esto, se han seleccionado aleatoriamente 40 pacientes entre los que
han alcanzado o superado la puntuacin 30 (puntuacin basal). Con estos 40 pacientes se han
formado al azar dos grupos del mismo tamao y uno de ellos ha comenzado a recibir un tra-
tamiento estndar (basado en fluoxetina) y el otro un tratamiento combinado (fluoxetina ms
psicoterapia). Al cabo de cuatro semanas de iniciado el tratamiento se ha vuelto a administrar
la escala de depresin para obtener una medida de la evolucin de los pacientes. Al cabo de
ocho semanas se ha vuelto a administrar la escala y se ha dado por finalizado el estudio. La
Tabla 9.16 recoge los resultados obtenidos.
Tabla 9.16. Puntuaciones de 40 pacientes depresivos en la escala Hamilton. Diseo con dos factores: trata-
miento (estndar, combinado) y tiempo (basal, semana 4, semana 8) con medidas repetidas en el factor tiempo
Estndar Combinado
Basal Semana 4 Semana 8 Basal Semana 4 Semana 8
s1 30 28 21 s21 32 25 20
s2 31 33 32 s22 37 29 25
s3 31 32 27 s23 30 24 19
s4 30 22 23 s24 32 27 16
s5 34 37 36 s25 38 36 29
s6 35 30 26 s26 37 35 28
s7 32 25 22 s27 30 22 19
s8 34 35 30 s28 36 32 24
s9 35 32 31 s29 30 26 22
s10 31 29 27 s30 33 30 26
s11 31 30 32 s31 33 30 26
s12 34 33 30 s32 31 29 26
s13 30 26 22 s33 32 26 14
s14 30 28 25 s34 31 27 25
s15 37 32 31 s35 36 31 24
s16 35 29 30 s36 31 26 22
s17 33 32 28 s37 38 33 26
s18 34 31 24 s38 37 29 19
s19 36 34 28 s39 34 22 12
s20 30 26 24 s40 39 34 28
Captulo 9. ANOVA. Dos factores con medidas repetidas 353
Tenemos un factor intersujetos (tratamiento; con dos niveles: estndar y combinado; a cada
nivel se asigna un grupo distinto de sujetos) y un factor intrasujetos (tiempo; con tres nive-
les: basal, semana 4 y semana 8; todos los sujetos pasan por los tres niveles). La variable
dependiente es el nivel de depresin (cuantificado con la escala de depresin de Hamilton).
El objetivo del estudio es valorar la eficacia del tratamiento combinado en comparacin con
el tratamiento estndar.
Para reproducir los datos de la Tabla 9.16 en el Editor de datos del SPSS es necesario
crear cuatro variables: una para definir el factor intersujetos y tres para definir los tres nive-
les del factor intrasujetos. La Figura 9.4 muestra el aspecto del Editor de datos despus de
introducir en l los datos de la Tabla 9.16. Hemos creado la variable tto (tratamiento) ha-
cindole tomar los valores 1 y 2 (con etiquetas: 1 = estndar, 2 = combinado). Y para de-
finir los tres niveles del factor intrasujetos tiempo se han creado tres variables: basal, cuatro
y ocho. Estas variables recogen las puntuaciones en la escala Hamilton al inicio del estudio
y al cabo de cuatro y ocho semanas de tratamiento. Tambin hemos creado una variable de
identificacin de caso (sujeto).
Como primera aproximacin a los resultados de este estudio, la Figura 9.5 muestra los dia-
gramas de caja correspondientes a las puntuaciones obtenidas por cada grupo en cada uno de
los tres momentos evaluados. Ninguno de los diagramas muestra casos anmalos ni asimetras
evidentes. Y en la dispersin de las diferentes medidas no parece haber diferencias sustan-
ciales. Pero el nivel de depresin vara sensiblemente entre condiciones: tanto en el grupo que
ha recibido el tratamiento estndar como en el que ha recibido el tratamiento combinado se
observa una clara disminucin del nivel de depresin conforme avanza el tratamiento; sin
embargo, en el grupo que ha recibido el tratamiento combinado, parece que esta disminucin
es ms evidente.
354 Anlisis de datos (vol. II)
Para analizar los efectos presentes en el diseo (los dos efectos principales y el efecto de la
interaccin):
' Reproducir en el Editor de datos los datos de la Tabla 9.16 tal como se muestra en la
Figura 9.4 (o abrir el archivo Tabla 9.16 depresin hamilton que se encuentra en la p-
gina web del manual).
' Seleccionar la opcin Modelo lineal general > Medidas repetidas del men Analizar para ac-
ceder al cuadro de dilogo (previo al principal) Medidas repetidas: Definir factores.
' Para definir el factor de medidas repetidas, asignarle nombre (tiempo) en el cuadro de
texto Nombre del factor intra-sujetos y nmero de niveles (3) en el cuadro de texto Nme-
ro de niveles, y pulsar el botn Aadir para validar (si fuera necesario, utilizar los botones
Cambiar y Borrar para realizar modificaciones).
' Pulsar el botn Definir para acceder al cuadro de dilogo principal Medidas repetidas. La
lista Variables intra-sujetos est preparada para recibir los nombres de las variables que
corresponden a los niveles del factor previamente definido.
' Seleccionar las tres variables que definen los niveles del factor intrasujetos (basal, cua-
tro y ocho) y trasladarlas, en el orden correcto, a la lista Variables intra-sujetos; selec-
cionar la variable que define el factor intersujetos (tto) y trasladarla a la lista Factores
inter-sujetos.
Las elecciones hechas hasta aqu permiten realizar el anlisis bsico, es decir, contrastar las
tres hiptesis globales referidas a los tres efectos del diseo: tto, tiempo y tto*contenido. Las
siguientes elecciones sirven para seguir avanzando en el anlisis. Para obtener un grfico de
lneas basado en las medias de las casillas:
' Pulsar el botn Grficos para acceder al subcuadro de dilogo Medidas repetidas: Gr-
ficos de perfil.
' Trasladar el factor tiempo al cuadro Eje horizontal y el factor tto al cuadro Lneas separa-
das, y pulsar el botn Aadir para trasladar las variables seleccionadas a la lista inferior
y, con ello, hacer efectiva la seleccin. Pulsar el botn Continuar para volver al cuadro
de dilogo principal.
Captulo 9. ANOVA. Dos factores con medidas repetidas 355
Para llevar a cabo comparaciones post hoc entre los niveles del factor tiempo y para analizar
los efectos simples:
' Pulsar el botn Opciones para acceder al subcuadro de dilogo Medidas repetidas: Op-
ciones; trasladar el factor tiempo y la interaccin tto*tiempo a la lista Mostrar las medias
para, marcar la opcin Comparar los efectos principales y seleccionar la opcin Bonferro-
ni dentro del men desplegable Ajuste del intervalo de confianza (para controlar la tasa de
error). Pulsar el botn Continuar para volver al cuadro de dilogo principal.
Puesto que el factor tto solamente tiene dos niveles, no es necesario solicitar este tipo
de comparaciones. Con todo, con los factores intersujetos pueden utilizarse los procedi-
mientos del botn Post hoc de idntica manera a como se ha hecho en el Captulo 6 con
el modelo de un factor CA. La seleccin de la interaccin tto*tiempo sirve para obtener
informacin sobre los efectos simples si, ms tarde, en lugar de ejecutar el procedimiento,
se pega la sintaxis y se modifica la lnea /EMMEANS = TABLES(tto* tiempo) aadiendo:
COMPARE(tto) ADJ(BONFERRONI). La sentencia completa debe quedar de esta manera:
/EMMEANS = TABLES (tto*tiempo) COMPARE(tto) ADJ(BONFERRONI).
Para chequear el supuesto de igualdad de varianzas y el de esfericidad multi-muestra:
' Pulsar el botn Opciones para acceder al subcuadro de dilogo Medidas repetidas: Op-
ciones y marcar las casillas Estadsticos descriptivos y Pruebas de homogeneidad. Las op-
ciones Estimaciones del tamao del efecto y Potencia observada ya se han explicado con
detalle en ejemplos anteriores y, puesto que siempre generan los mismos resultados, no
las incluiremos aqu. Pulsar el botn Continuar para volver al cuadro de dilogo principal.
Para comparar los efectos simples entre s, es decir, para realizar las comparaciones necesa-
rias para interpretar el efecto de la interaccin:
' Pulsar el botn Contrastes para acceder al subcuadro de dilogo Medidas repetidas: Con-
trastes; seleccionar el factor tiempo, seleccionar la opcin Simple del men desplegable
Contraste, seleccionar Primera como categora de referencia y pulsar el botn Cambiar pa-
ra validar las elecciones hechas.
El procedimiento Medidas repetidas asigna, por defecto, contrastes de tipo polinmi-
co a los factores MR; estos contrastes permiten estudiar el tipo de relacin (lineal, cua-
drtica, cbica, etc.) existente entre un factor MR y la variable dependiente. Pero tambin
es posible llevar a cabo comparaciones planeadas distintas de las de tendencia seleccio-
nando alguna de las opciones del men desplegable Contraste. La opcin Simple (que es
la que hemos elegido) permite comparar cada categora con la categora de referencia. Se
puede elegir como categora de referencia la primera o la ltima (tambin se puede elegir
cualquier otra categora mediante sintaxis; veremos cmo hacerlo ms adelante).
Aceptando estas selecciones se obtienen los resultados que muestran las Tablas 9.17 a 9.28
y el grfico de lneas que muestra la Figura 9.6. Muchas de estas tablas son idnticas a las
ya estudiadas en apartados anteriores, pero ahora existe informacin nueva relativa al efec-
to del factor intersujetos.
La Tabla 9.17 contiene algunos estadsticos descriptivos para cada grupo y medida repe-
tida: la media, la desviacin tpica y el nmero de observaciones. Estas medias son las que
se utilizan para construir el grfico de lneas que se ofrece ms adelante en la Figura 9.6 y
es la informacin que hay que revisar en primer lugar, junto con los diagramas de caja de la
Figura 9.5, y de la que hay que informar en primer lugar.
356 Anlisis de datos (vol. II)
psilon
Efecto W de Chi-cuadrado Greenhouse- Huynh- Lmite-
intra-sujetos Mauchly aprox. gl Sig. Geisser Feldt inferior
tiempo ,74 11,36 2 ,003 ,79 ,84 ,50
5
Aunque esta forma de interpretar el efecto global de la interaccin puede resultar ms sencilla de entender, el efecto de
la interaccin tambin puede interpretarse tomando como referencia el otro factor: el cambio que se produce entre los tres
momentos analizados no es el mismo con los dos tratamientos.
358 Anlisis de datos (vol. II)
la correccin de Bonferroni (se indica en una nota a pie de tabla). El resultado de estas
comparaciones indica que el nivel medio de depresin en el momento basal (nivel 1) es sig-
nificativamente ms alto (sig. < 0,0005) que en el resto de momentos; y significativamente
ms alto tambin (sig. < 0,0005) en la semana 4 que en la 8 (niveles 2 y 3). Los intervalos de
confianza indican exactamente lo mismo (ninguno de ellos incluye el valor cero). Por tanto,
puede concluirse que el nivel medio de depresin va disminuyendo conforme va avanzando
el tratamiento (debe tenerse en cuenta que esta conclusin es provisional; el hecho de que el
efecto de la interaccin sea significativo indica que este resultado podra ser matizado).
Tabla 9.27. Comparaciones por pares (efectos simples del factor tto)
Medida: MEASURE_1
Intervalo de confianza al 95%
a
(I) (J) Diferencia entre Error para la diferencia
a
tiempo Tratamiento Tratamiento medias (I-J) tp. Sig. Lmite inferior Lmite superior
1 Estndar Combinado -1,20 ,86 ,171 -2,94 ,54
2 Estndar Combinado 1,40 1,24 ,266 -1,11 3,91
3 Estndar Combinado 4,95 1,40 ,001 2,11 7,79
Basadas en las medias marginales estimadas.
a. Ajuste para comparaciones mltiples: Bonferroni.
Figura 9.6. Grfico de lneas (perfiles) correspondiente a los datos de la Tabla 9.16
Parte de las comparaciones entre efectos simples aparecen en la Tabla 9.28 (se ha elimina-
do de la tabla original la informacin relativa a los efectos principales y se ha dejado ni-
camente la relativa al efecto de la interaccin). Puesto que el factor tiempo tiene 3 niveles,
hay 3 efectos simples asociados al factor tiempo (es decir, 3 diferencias entre los dos trata-
mientos). Para comparar entre s estos 3 efectos simples es necesario realizar 3 compara-
ciones; hay que comparar lo que ocurre en el momento 1 con lo que ocurre en los momentos
2 y 3, y lo que lo que ocurre en el momento 2 con lo que ocurre en el momento 3.
De estas 3 comparaciones, la Tabla 9.28 incluye las 2 primeras, es decir, lo que ocurre
en el momento 1 comparado con lo que ocurre en los momentos 2 y 3. En la primera de ellas
se est comparando el efecto simple de tto en el momento 1 con el efecto simple de tto en el
momento 2 (tiempo = nivel 2 - nivel 1). Los resultados se presentan en el formato de una ta-
bla de ANOVA. Puesto que esta comparacin tiene asociado un nivel crtico menor que 0,05
(sig. = 0,006), puede afirmarse que el efecto simple de tto en el momento 1 (basal) difiere del
efecto simple de tto en el momento 2 (semana 4). Debe repararse en el hecho de que este re-
sultado (diferencia significativa entre los dos primeros efectos simples de tto) no coincide con
el que se desprende del anlisis individual de los efectos simples del apartado anterior, pues
ambos efectos simples han resultado no significativos (ver Tabla 9.27).
En la segunda lnea se est comparando el efecto simple de tto en el momento 1 con el
efecto simple de tto en el momento 3 (tiempo = nivel 3 ! nivel 1). Puesto que esta compa-
racin tiene asociado un nivel crtico menor que 0,05 (sig. < 0,0005), puede afirmarse que
el efecto simple de tto en el momento 1 difiere del efecto simple de tto en el momento 3.
La Tabla 9.28 contiene informacin sobre las comparaciones entre los momentos 1-2 y 1-3
(falta la comparacin entre los momentos 2-3). Esta tabla es la que se obtiene al seleccionar
362 Anlisis de datos (vol. II)
Apndice 9
La sentencia MMATRIX
Al margen de las comparaciones que es posible llevar a cabo desde los cuadros de dilogo del SPSS,
la sentencia MMATRIX permite realizar cualquier tipo de comparacin entre los niveles de un efecto
intrasujetos. En lo que aqu nos interesa ms, esta sentencia permite valorar la significacin individual
de los efectos simples, realizar comparaciones entre los niveles de un mismo efecto simple y realizar
comparaciones entre diferentes efectos simples. En este apartado se explica cmo utilizar la sentencia
MMATRIX para llevar a cabo estos tres tipos de comparaciones.
La lgica en la que se basa la sentencia MMATRIX es similar a la ya utilizada a propsito de la sen-
tencia LMATRIX en el Apndice 7. Pero trabajar con la sentencia MMATRIX es ms sencillo porque los
coeficientes que hay que elegir para definir cada comparacin se asignan directamente a las medidas
repetidas del diseo.
Captulo 9. ANOVA. Dos factores con medidas repetidas 363
Retomemos nuestro ejemplo (ver Tabla 9.3) sobre la relacin entre la calidad del recuerdo, el contenido
del material recordado (nmeros, letras) y el paso del tiempo (hora, da, semana, mes). Para valorar, por
ejemplo, los efectos simples del factor contenido, es decir, la diferencia entre nmeros y letras en cada
uno de los cuatro momentos:
' En el cuadro de dilogo Medidas repetidas, trasladar las 8 variables (medidas repetidas) del ejem-
plo (n_hora, n_da, n_semana, n_mes, l_hora, l_da, l_semana, l_mes) a la lista Factores intra-
sujetos y pulsar el botn Pegar para obtener la sintaxis correspondiente a las elecciones hechas.
Los valores asignados a las sentencias WSFACTOR, METHOD, CRITERIA y WSDESIGN son los que
el procedimiento GLM utiliza por defecto; no es necesario modificarlos. Para valorar los cuatro efec-
tos simples del factor contenido vamos a aadir la sentencia MMATRIX con las especificaciones que
se muestran a continuacin:
GLM n_hora n_da n_semana n_mes l_hora l_da l_semana l_mes
/WSFACTOR = contenido 2 Polynomial tiempo 4 Polynomial
/METHOD = SSTYPE(3)
/CRITERIA = ALPHA(.05)
/MMATRIX =
n_hora 1 l_hora !1;
n_da 1 l_da !1;
n_semana 1 l_semana !1;
n_mes 1 l_mes !1;
/WSDESIGN = contenido tiempo contenido*tiempo.
Los cuatro efectos simples del factor contenido (uno por cada nivel del factor tiempo) se han definido
en las cuatro lneas adosadas a la sentencia MMATRIX. La primera lnea, por ejemplo, define la com-
paracin entre las variables n_hora (cdigo 1) y l_hora (cdigo !1); es decir, define el efecto simple
del factor contenido en el momento una hora (primer nivel del factor tiempo). Las otras tres lneas
definen la misma comparacin pero referida a los otros tres momentos del factor tiempo (ntese que
cada lnea de la sentencia termina con punto y coma).
Ejecutando esta sintaxis se obtienen, entre otros, los resultados que muestra la Tabla 9.30. Estos
resultados son equivalentes a los ya obtenidos al estudiar los efectos simples con otra estrategia dife-
rente (ver Tabla 9.11), con la diferencia de que ahora no se est aplicando la correccin de Bonferro-
ni al calcular los niveles crticos ni al construir los intervalos de confianza (cosa que en este ejemplo
es del todo irrelevante porque el factor contenido tiene dos niveles). El procedimiento asigna el nom-
bre T# a cada contraste. As, T1 se refiere al primer contraste solicitado (primer efecto simple del fac-
tor contenido), T2 al segundo contraste solicitado (segundo efecto simple del factor contenido), etc.
Los resultados obtenidos (sig.) indican que la diferencia entre el recuerdo de nmeros y letras
es significativa en los momentos 1 y 2 ( p < 0,0005 y p = 0,014, respectivamente) pero no en los mo-
mentos 3 y 4 ( p = 0,102 y p = 0,883, respectivamente). Por tanto, las letras se recuerdan mejor que los
nmeros al cabo de una hora y de un da, pero no hay evidencia de que esto sea as al cabo de una se-
mana y de un mes.
364 Anlisis de datos (vol. II)
Tabla 9.30. Efectos simples del factor contenido
Variable Suma de Media
Fuente transformada cuadrados gl cuadrtica F Sig.
Contraste T1 66,67 1 66,67 100,00 ,000
T2 42,67 1 42,67 13,91 ,014
T3 2,67 1 2,67 4,00 ,102
T4 ,17 1 ,17 ,02 ,883
Error T1 3,33 5 ,67
T2 15,33 5 3,07
T3 3,33 5 ,67
T4 34,83 5 6,97
Y la siguiente sentencia MMATRIX solicita comparar los niveles del factor tiempo cuando el material
recordado es letras:
/MMATRIX =
l_hora 1 l_da 1;
l_hora 1 l_semana 1;
l_hora 1 l_mes 1;
l_da 1 l_semana 1;
l_da 1 l_mes 1;
l_semana 1 l_mes 1;
Ejecutando esta sintaxis se obtienen los resultados que muestran las Tablas 9.31 y 9.32. La Tabla 9.31
ofrece los 6 contrastes (comparaciones por pares) entre los 4 niveles del factor tiempo dentro del pri-
mer nivel de contenido (nmeros). El orden de los contrastes T1, T2, etc., es el que se ha definido en
la sentencia MMATRIX. Por tanto, en T1 se est comparando una hora con un da; en T2 se est com-
parando una hora con una semana; ...; en T6 se est comparando una semana con un mes. El resulta-
Captulo 9. ANOVA. Dos factores con medidas repetidas 365
do de los contrastes T1, T2 y T3 indica que, al recordar nmeros, la calidad del recuerdo al cabo de una
hora es mejor que al cabo de un da ( p = 0,006), mejor que al cabo de una semana ( p < 0,0005) y me-
jor que al cabo de un mes ( p = 0,007). Los resultados de los contrastes T4, T5 y T6 indican que no
existe evidencia de diferencias entre el resto de los momentos ( p > 0,05 en los tres casos).
La Tabla 9.32 ofrece los mismos 6 contrastes pero dentro del segundo nivel de contenido (letras).
El resultado de los contrastes T1, T2 y T3 indica que, al recordar letras, la calidad del recuerdo al cabo
de una hora es mejor que al cabo de un da ( p = 0,018), mejor que al cabo de una semana ( p < 0,0005)
y mejor que al cabo de un mes ( p < 0,0005). El resultado de los contrastes T4 y T5 indica que la cali-
dad del recuerdo al cabo de un da es mejor que al cabo de una semana ( p = 0,010) y mejor que al ca-
bo de un mes ( p = 0,023). El resultado del contraste T6 indica que no existe evidencia de que lo que
ocurre al cabo de una semana difiera de lo que ocurre al cabo de un mes ( p = 1,000). No olvidar que
en todos estos contrastes no se est aplicando ningn tipo de correccin para controlar la tasa de error.
Tabla 9.31. Comparaciones por pares entre los niveles del factor tiempo en el primer contenido (nmeros)
Variable Suma de Media
Fuente transformada cuadrados gl cuadrtica F Sig.
Contraste T1 20,17 1 20,17 20,86 ,006
T2 54,00 1 54,00 67,50 ,000
T3 37,50 1 37,50 19,74 ,007
T4 8,17 1 8,17 5,98 ,058
T5 2,67 1 2,67 ,77 ,421
T6 1,50 1 1,50 1,36 ,296
Error T1 4,83 5 ,97
T2 4,00 5 ,80
T3 9,50 5 1,90
T4 6,83 5 1,37
T5 17,33 5 3,47
T6 5,50 5 1,10
Tabla 9.32. Comparaciones por pares entre los niveles del factor tiempo en el segundo contenido (letras)
Variable Suma de Media
Fuente transformada cuadrados gl cuadrtica F Sig.
Contraste T1 37,50 1 37,50 12,10 ,018
T2 192,67 1 192,67 103,21 ,000
T3 192,67 1 192,67 85,00 ,000
T4 60,17 1 60,17 15,97 ,010
T5 60,17 1 60,17 10,43 ,023
T6 ,00 1 ,00 ,00 1,000
Error T1 15,50 5 3,10
T2 9,33 5 1,87
T3 11,33 5 2,27
T4 18,83 5 3,77
T5 28,83 5 5,77
T6 24,00 5 4,80
Veamos cmo comparar entre s los 4 efectos simples de contenido. Cada efecto simple de conte-
nido representa la diferencia entre nmeros y letras en cada uno de los cuatro niveles del factor tiempo
(hora, da, semana, mes). Para comparar cada efecto simple (cada diferencia nmeros-letras) con cada
otro hay que realizar 6 comparaciones: hora-da, hora-semana, hora-mes, da-semana, da-mes y
semana-mes. En cada una de estas comparaciones hay involucradas 4 medias. Por ejemplo, en la
comparacin hora-da se est comparando la diferencia nmeros-letras
_ en
_ el momento
_ una _hora con
la diferencia nmeros-letras en el momento un da; es decir, (Y n_hora ! Y l_hora) ! (Y n_da ! Y l_da). La
sintaxis que permite realizar estas 6 comparaciones es la siguiente (ver, en el Apndice 7, la lgica
seguida al asignar coeficientes con la sentencia LMATRIX):
/MMATRIX =
n_hora 1 n_da 1 n_semana 0 n_mes 0 l_hora 1 l_da 1 l_semana 0 l_mes 0;
n_hora 1 n_da 0 n_semana 1 n_mes 0 l_hora 1 l_da 0 l_semana 1 l_mes 0;
n_hora 1 n_da 0 n_semana 0 n_mes 1 l_hora 1 l_da 0 l_semana 0 l_mes 1;
n_hora 0 n_da 1 n_semana 1 n_mes 0 l_hora 0 l_da 1 l_semana 1 l_mes 0;
n_hora 0 n_da 1 n_semana 0 n_mes 1 l_hora 0 l_da 1 l_semana 0 l_mes 1;
n_hora 0 n_da 0 n_semana 1 n_mes 1 l_hora 0 l_da 0 l_semana 1 l_mes 1;
Esta sintaxis genera, entre otros, los resultados que muestran las Tablas 9.33 y 9.34. La primera de ellas
es idntica a las de los dos apartados anteriores. Y puede comprobarse que ofrece idntico resultado
al obtenido al comparar los efectos simples del factor contenido con la opcin Contrastes (ver Tablas
9.12 a la 9.14). Por tanto, se interpreta de idntica manera.
La Tabla 9.34 ofrece una valoracin global de los 6 contrastes de la Tabla 9.33. El resultado de
esta tabla no tendra inters si no fuera porque permite constatar que el efecto global de los 6 con-
trastes entre efectos simples llevados a cabo en la Tabla 9.33 para aislar e interpretar el efecto de la
interaccin es idntico al resultado obtenido al analizar el efecto global de la interaccin (Tabla 9.6).
Lo cual est indicando, por un lado, que estos 6 contrastes agotan el efecto de la interaccin y, por otro,
que no estn contaminados por la presencia de efectos distintos del de la interaccin.
Tabla 9.33. Comparaciones entre los efectos simples del factor contenido
Variable Suma de Media
Fuente transformada cuadrados gl cuadrtica F Sig.
Contraste T1 2,67 1 2,67 1,00 ,363
T2 42,67 1 42,67 29,09 ,003
T3 60,17 1 60,17 9,16 ,029
T4 24,00 1 24,00 5,45 ,067
T5 37,50 1 37,50 3,15 ,136
T6 1,50 1 1,50 ,32 ,597
Error T1 13,33 5 2,67
T2 7,33 5 1,47
T3 32,83 5 6,57
T4 22,00 5 4,40
T5 59,50 5 11,90
T6 23,50 5 4,70
Cuando el diseo incluye un factor intersujetos y un factor intrasujetos (modelo AB-CA-MR), las
comparaciones relativas al efecto principal del factor intersujetos pueden llevarse a cabo con la sen-
tencia LMATRIX (tal como hemos hecho en el Apndice 7) y las relativas al efecto principal del factor
intrasujetos con la sentencia MMATRIX (tal como acabamos de hacer en este mismo apartado). Para
llevar a cabo las comparaciones relacionadas con el efecto de la interaccin es necesario utilizar am-
bas sentencias simultneamente.
Volvamos a nuestro ejemplo (ver Tabla 9.16) sobre los dos tratamientos antidepresivos (factor
intersujetos tto: estndar, combinado) y las tres mediciones en el tiempo (factor intrasujetos tiempo:
basal, semana 4 y semana 8). Puesto que el efecto de la interaccin tto*tiempo incluye un factor inter-
sujetos (tto) y un factor intrasujetos (tiempo), las comparaciones relacionadas con este efecto es ne-
cesario solicitarlas combinando las sentencias LMATRIX y MMATRIX. La forma de hacerlo consiste en
intercalar en la sintaxis del procedimiento GLM lo siguiente:
/LMATRIX =
tto 1 1
/MMATRIX =
basal 1 cuatro 1 ocho 0;
basal 1 cuatro 0 ocho 1;
basal 0 cuatro 1 ocho 1;
En la sentencia LMATRIX se est solicitando que se comparen los dos tratamientos (estndar, combi-
nado) asignando a sus niveles los coeficientes6 1 y !1.
En la primera lnea de la sentencia MMATRIX se est solicitando que se compare el momento ba-
sal con la semana 4; en la segunda, el momento basal con la semana 8; en la tercera, la semana 4 con
la semana 8. Puesto que lo que se est comparando en cada lnea de la sentencia MMATRIX es la di-
ferencia definida en LMATRIX, lo que realmente se est haciendo con este conjunto de sentencias es
comparar entre s los tres efectos simples de la variable tto.
La Tabla 9.35 muestra el resultado que se obtiene con estas sentencias. En el contraste T1 se es-
t comparando la diferencia entre los dos tratamientos en el momento basal con la diferencia entre los
dos tratamientos en la semana 4; la diferencia es significativa ( p = 0,006). En el contraste T2 se est
comparando la diferencia entre los dos tratamientos en el momento basal con la diferencia entre los
dos tratamientos en la semana 8; la diferencia es significativa ( p < 0,0005). En el contraste T3 se es-
t comparando la diferencia entre los dos tratamientos en la semana 4 con la diferencia entre los dos
tratamientos en la semana 8; la diferencia es significativa ( p < 0,0005). Por tanto, todas las diferen-
cias entre los efectos simples del factor tratamiento son significativas.
Tabla 9.35. Comparaciones entre los efectos simples del factor tratamiento
Variable Suma de Media
Fuente transformada cuadrados gl cuadrtica F Sig.
Contraste T1 67,60 1 67,60 8,45 ,006
T2 378,23 1 378,23 24,29 ,000
T3 126,03 1 126,03 17,23 ,000
Error T1 303,90 38 8,00
T2 591,75 38 15,57
T3 277,95 38 7,31
6
Estos dos coeficientes se asignan automticamente a los dos niveles del factor tto. El primer coeficiente (1) se asigna al
primer nivel; el segundo (!1), al segundo nivel. El orden de los niveles del factor viene impuesto por los cdigos utiliza-
dos para identificar cada nivel: el primer nivel es el que tiene asignado el cdigo menor; el segundo nivel, el que tiene asig-
nado el siguiente cdigo menor; etc. Esta consideracin tiene su importancia porque si los dos tratamientos se han codifi-
cado como 1 = estndar y 2 = combinado, el primer nivel es estndar; pero si se han codificado como 1 = estndar
y 0 = combinado, el primer nivel es combinado.
368 Anlisis de datos (vol. II)
9.1. Para comprobar si el nivel de ansiedad (factor A) y el nivel de dificultad de la tarea (factor B) afectan
al rendimiento en una tarea visomotora, un investigador ha seleccionado 4 sujetos bajos en ansiedad
y otros 4 altos en ansiedad (basndose en las puntuaciones obtenidas en una escala de ansiedad) y les
ha presentado, de forma aleatoria, tres tareas de diferente dificultad (baja, media y alta). Tras evaluar
el rendimiento de los sujetos ha obtenido los resultados que muestra la tabla:
Dificultad de la tarea
Ansiedad Sujetos (b1) Baja (b2) Media (b3) Alta
s1 7 9 5
s2 7 8 8
(a1) Baja
s3 5 7 6
s4 6 8 4
s5 6 4 3
s6 6 5 6
(a2) Alta
s7 7 3 5
s8 4 2 4
Reproducir los datos de la tabla en el SPSS. Asumiendo que se cumplen los supuestos en los que se
basan los estadsticos F del correspondiente modelo de ANOVA y utilizando = 0,05,
a. Qu modelo de ANOVA debe utilizarse para analizar estos datos?
b. Es razonable asumir esfericidad? A qu matriz se refiere este supuesto?
c. Es razonable asumir que las matrices de varianzas-covarianzas son homogneas? A qu matrices
se refiere este supuesto?
d. Qu decisin debe tomarse sobre la hiptesis nula de que no existe efecto del nivel de ansiedad?
e. Y sobre la hiptesis nula de que no existe efecto de la dificultad de la tarea?
f. Y sobre la hiptesis nula de que no existe efecto de la interaccin entre el nivel de ansiedad y la
dificultad de la tarea?
g. Cunto vale la psilon de Greenhouse-Geisser?
h. Cambia la decisin sobre las hiptesis nulas contrastadas en los apartados d, e y f cuando se uti-
liza el corrector psilon?
i. Cambia la decisin sobre las hiptesis nulas contrastadas en los apartados d, e y f cuando se uti-
lizan los estadsticos de la aproximacin multivariada?
j. Es apropiado utilizar la aproximacin multivariada con estos datos?
k. Puede afirmarse que la relacin entre la dificultad de la tarea y el rendimiento es cuadrtica?
l. Utilizar para estimar el tamao de los efectos analizados en los apartados d, e y f. Interpretar
los resultados obtenidos.
m. Cunto vale la potencia asociada a los contrastes realizados en los apartados d, e y f ?
9.2. Seguimos con los datos del ejercicio anterior, pero ahora nos vamos a centrar en los efectos simples y
en el efecto de la interaccin:
a. En qu niveles de dificultad difiere el rendimiento medio de los sujetos con ansiedad baja del de
los sujetos con ansiedad alta?
Captulo 9. ANOVA. Dos factores con medidas repetidas 369
9.3. Algunos estudios han puesto de manifiesto que las enfermedades de tipo alrgico se ven agravadas por
la presencia de estrs. Adems, la poca del ao parece afectar de forma decisiva a la intensidad de la
respuesta alrgica. En un estudio concreto se ha utilizado una muestra aleatoria de 10 pacientes alr-
gicos (todos con el mismo tipo de alergia), la mitad de ellos con condiciones de vida calificables de
bajo estrs y la otra mitad con condiciones de vida calificables de alto estrs. Un grupo de especia-
listas ha evaluado la gravedad de la alergia de cada paciente (en una escala de 0 a 10) en los cuatro
periodos estacionales: primavera, verano, otoo e invierno. Los resultados de esta evaluacin apare-
cen en la siguiente tabla:
poca del ao
Estrs Sujetos (b1) Primavera (b2) Verano (b3) Otoo (b4) Invierno
s1 6 5 5 1
s2 5 2 3 3
(a1) Bajo s3 7 3 4 4
s4 8 4 7 5
s5 6 1 3 2
s6 7 6 8 5
s7 9 5 5 7
(a2) Alto s8 10 4 9 5
s9 10 6 6 4
s10 9 3 7 6
Reproducir los datos de la tabla en el SPSS. Asumiendo que se cumplen los supuestos en los que se
basan los estadsticos F del correspondiente modelo de ANOVA y utilizando = 0,05,
a. Qu modelo de ANOVA debe utilizarse para analizar estos datos?
b. Es razonable asumir esfericidad? Cuntas filas tiene la matriz a la que se refiere este supuesto?
c. Es razonable asumir que las matrices de varianzas-covarianzas son homogneas? Cuntas ma-
trices se estn comparando para valorar este supuesto?
d. Qu decisin debe tomarse sobre la hiptesis nula de que no existe efecto del estrs?
e. Y sobre la hiptesis nula de que no existe efecto de la dificultad de la poca del ao?
f. Y sobre la hiptesis nula de que no existe efecto de la interaccin entre el nivel de ansiedad y la
dificultad de la tarea?
g. Cuntos grados de libertad tiene la variabilidad asociada al error correspondiente a la poca del
ao?
h. Cunto vale la psilon de Greenhouse-Geisser?
i. Cambia la decisin sobre las hiptesis nulas contrastadas en los apartados d, e y f cuando se uti-
liza el corrector psilon?
j. Cambia la decisin sobre las hiptesis nulas contrastadas en los apartados d, e y f cuando se uti-
lizan los estadsticos de la aproximacin multivariada?
k. Es apropiado utilizar la aproximacin multivariada con estos datos?
l. Utilizar para estimar el tamao de los efectos analizados en los apartados d, e y f. Interpretar
los resultados obtenidos.
m. Cunto vale la potencia asociada a los contrastes realizados en los apartados d, e y f ?
370 Anlisis de datos (vol. II)
9.4. Seguimos con los datos del ejercicio anterior. Vamos a realizar algunas comparaciones (siempre con
= 0,05):
a. Ya sabemos que la gravedad de la alergia no es la misma en las cuatro estaciones. Qu estacio-
nes difieren de qu otras?
b. En qu pocas del ao difiere la gravedad de la alergia de los sujetos con estrs bajo de la de los
sujetos con estrs alto?
c. Entre qu efectos simples del factor estrs existen diferencias significativas?
d. Utilizar el resultado del apartado anterior y un grfico de perfil (con la poca del ao en el eje ho-
rizontal) para interpretar el efecto de la interaccin.
9.5. La siguiente tabla muestra el nmero de errores que han cometido 6 sujetos en una tarea de memori-
zacin realizada en dos condiciones de recuerdo (a1: reconocimiento; a2: evocacin libre) y despus
de distintos intervalos de tiempo (b1: una hora; b2: un da; b3: una semana):
a1 a2
Sujetos b1 b2 b3 b1 b2 b3
s1 1 5 2 4 5 7
s1 3 6 6 6 8 10
s1 3 5 4 1 6 5
s1 1 4 7 2 10 12
s1 5 6 5 5 10 10
s1 2 8 7 1 7 8
Reproducir los datos en el SPSS. Asumiendo que se cumplen los supuestos en los que se basan los esta-
dsticos F del correspondiente modelo de ANOVA y utilizando = 0,05,
a. Qu modelo de ANOVA debe utilizarse para analizar estos datos?
b. Es razonable asumir esfericidad?
c. Valorar el efecto del factor recuerdo, el del factor tiempo y el de la interaccin recuerdo-tiempo.
d. Utilizar para estimar el tamao de los efectos analizados en el apartado anterior. Interpretar los
resultados obtenidos.
e. En qu momentos (hora, da, semana) puede afirmarse que el nmero medio de errores que se
comete en condiciones de reconocimiento difiere del que se comete en condiciones de evocacin?
f. Entre qu efectos simples del factor recuerdo existen diferencias significativas?
g. Utilizar el resultado del apartado anterior y un grfico de perfil (con el factor tiempo en el eje ho-
rizontal) para interpretar el efecto de la interaccin.
10
Anlisis de regresin lineal
2
El trmino regresin procede de los trabajos de Galton sobre la naturaleza hereditaria de algunas caractersticas fsicas.
Galton observ que los padres con alturas muy altas o muy bajas tendan a tener hijos cuya altura media estaba ms cerca
de la media global que la de sus padres. Galton (1885) llam a este efecto regresin hacia la mediocridad (regresin o acer-
camiento de las alturas individuales a la altura media).
3
Los trminos independiente y dependiente deben despojarse de cualquier connotacin de tipo causal. Segn veremos, el
anlisis de regresin se basa en una ecuacin que permite obtener para Y valores que dependen de los que se asignan a X.
Pero esta dependencia es de tipo funcional: indica cmo cambia la variable Y cuando cambia la variable X. Lo cual no sig-
nifica que Y cambie porque cambia X (podra ocurrir, por ejemplo, que el cambio en ambas variables se debiera al efecto
de terceras variables). Recordemos que las herramientas estadsticas nicamente permiten detectar diferencias y relaciones.
El hecho de que una diferencia o una relacin permita o no extraer conclusiones de tipo causal es algo que no depende de
la herramienta estadstica aplicada sino del diseo utilizado y de la teora subyacente, si existe (ver, en el Captulo 12 del
primer volumen, el apartado Relacin y causalidad).
4
La relacin lineal solamente es una de las posibles formas de relacin entre dos variables cuantitativas, pero es, sin du-
da, la ms estudiada en el mbito de las ciencias sociales y de la salud; y tambin es la ms fcil de analizar e interpretar.
Esto no significa que no sea interesante estudiar otros tipos de relacin (por ejemplo, una ley muy conocida en psicologa,
llamada ley de Yerkes-Dodson, afirma que la relacin entre la ansiedad y el rendimiento es cuadrtica). Pero el grado de
elaboracin que alcanzan las teoras que se construyen en el mbito de las ciencias sociales y de la salud no permite, por
lo general, realizar predicciones no lineales precisas. Lo habitual es, ms bien, que nicamente se tenga una sospecha de
relacin montona. No obstante, en el apartado Comparaciones de tendencia del Captulo 6 hemos presentado una apro-
ximacin al estudio de relaciones no lineales (cuadrtica, cbica). Y en el Apndice 10 se describen brevemente algunas
ecuaciones de regresin curvilneas que pueden resultar tiles en algunos contextos.
Captulo 10. Anlisis de regresin lineal 373
La Tabla 10.1 recoge los datos de una muestra de 20 pacientes con trastorno depresivo
que han participado en un estudio diseado para valorar la eficacia de dos tratamientos anti-
depresivos (tto: 1 = estndar, 2 = combinado). El estudio, realizado en tres centros dis-
tintos (A, B, C), comenz administrando la Escala de Depresin de Hamilton para obtener
una medida inicial (basal ) del nivel de depresin de los pacientes. Al finalizar el tratamiento
se volvi a administrar la escala ( final ) y se dio por finalizado el estudio. La variable re-
cuperacin se ha obtenido restando las puntuaciones basal y final (los datos se encuentran
en el archivo Tabla 10.1 depresin hamilton reducido, en la pgina web del manual).
Diagramas de dispersin
La manera ms directa e intuitiva de formarse una primera impresin sobre el tipo de relacin
existente entre dos variables cuantitativas es un diagrama de dispersin (ver Captulo 12 del
primer volumen). La disposicin de los puntos del diagrama est informando sobre el tipo de
relacin subyacente.
De las variables incluidas en la Tabla 10.1, solamente final y recuperacin tienen la
condicin de dependientes (pues, en principio, solamente ellas dos pueden depender de algu-
na de las restantes variables consideradas en el estudio). Vamos a comenzar preguntndonos
374 Anlisis de datos (vol. II)
si las puntuaciones basales o la edad de los pacientes ayudan a entender o anticipar, en algu-
na medida, su recuperacin. En un primer intento por responder a esta pregunta, podemos
obtener los diagramas de dispersin correspondientes a basal y recuperacin (Figura 10.1,
izquierda) y a edad y recuperacin (Figura 10.1, derecha). En ambos diagramas se aprecia
cierto grado de relacin lineal (las lneas discontinuas se han trazado tomando como referen-
cia las medias de cada variable). En el caso de las puntuaciones basales, la nube de puntos
muestra una pauta lineal positiva: las puntuaciones basales altas tienden a ir acompaadas
de recuperaciones altas y las puntuaciones basales bajas de recuperaciones bajas. En el caso
de la edad, la nube de puntos muestra una pauta lineal negativa: las edades altas tienden a ir
acompaadas de recuperaciones bajas y las edades bajas de recuperaciones altas. Y en nin-
guno de los dos casos se aprecian tendencias distintas de la lineal. En principio, tanto las pun-
tuaciones basales como la edad podran ayudarnos a entender o anticipar, en alguna medida,
el comportamiento de la variable recuperacin.
Ahora bien, aunque un diagrama de dispersin ayuda a formarse una primera impresin
ms o menos acertada sobre el tipo de relacin existente entre dos variables, no permite cuan-
tificar con precisin el grado o intensidad de la relacin ni tampoco aclara en qu medida una
variable puede ayudar a entender el comportamiento de la otra. En realidad, nicamente a
partir de la inspeccin de un diagrama de dispersin, no resulta nada fcil precisar si el gra-
do de relacin lineal subyacente es bajo, medio o alto.
Qu podemos hacer para mejorar nuestra comprensin de una nube de puntos? Quiz
bastara con decir, simplemente, que las puntuaciones basales ms altas (bajas) van acompa-
adas de mayor (menor) recuperacin; o que las edades ms altas (bajas) van acompaadas
de menor (mayor) recuperacin. Pero esto, aunque correcto, es poco preciso. Tambin podra
ofrecerse un listado de todos los datos; pero esto, aunque preciso, es poco informativo.
Recordemos que, para describir una variable cuantitativa, recurrimos a tres propiedades
de su distribucin: centro, dispersin y forma. Para describir conjuntamente dos variables
cuantitativas podemos hacer algo parecido: (1) forma: determinar si la nube de puntos delata
o no una pauta lineal, (2) centro: resumir la nube de puntos en una recta y (3) dispersin: va-
lorar el grado de concentracin o alejamiento de los puntos a esa recta.
Ya sabemos cmo utilizar los diagramas de dispersin y el coeficiente de correlacin de
Pearson para determinar si existe relacin lineal y su intensidad. En los siguientes apartados
aprenderemos a resumir la nube de puntos en una recta y a valorar el grado de dispersin de
los puntos en torno a ella.
Figura 10.1. Diagramas de dispersin. Izquierda: basal por recuperacin. Derecha: edad por recuperacin
Captulo 10. Anlisis de regresin lineal 375
La recta de regresin
Cuando la relacin entre dos variables sigue una pauta lineal, la correspondiente nube de pun-
tos puede resumirse mediante una funcin matemtica tan simple como una lnea recta:
= [10.1]
El valor B0 es el punto en el que la recta corta el eje vertical; se le suele llamar ordenada en
el origen o interseccin. El valor B1 refleja el grado de inclinacin de la recta; se le suele lla-
mar pendiente. En el contexto del anlisis de regresin, a B0 y B1 se les llama coeficientes
de regresin parcial o, simplemente, coeficientes de regresin. Una vez fijados los valores
de B0 y B1 (enseguida veremos cmo hacer esto), ya es posible asignar valores a la variable
independiente X para obtener los pronsticos que la ecuacin [10.1] atribuye a la variable
dependiente Y.
A la ecuacin [10.1] se le llama ecuacin de regresin de Y sobre X (y es distinta de la
ecuacin de regresin de X sobre Y ). La recta concreta que se obtiene con ella depende de los
valores concretos elegidos para B0 y B1. La Figura 10.2 muestra algunas posibles rectas. Las
representadas en el grfico a tienen la misma interseccin B0 pero distinta pendiente B1. Las
rectas del grfico b tienen distinta interseccin pero la misma pendiente. Y las del grfico c
tienen distinta interseccin y distinta pendiente.
Y Y Y
X X X
Por tanto, sobre una nube de puntos cualquiera es posible trazar tantas rectas distintas como
valores distintos se asignen a B0 y a B1. Y esto nos lleva a la cuestin clave de un anlisis de
regresin lineal: cul de todas las rectas posibles es la que mejor representa o resume la nube
de puntos?, es decir, cul de todas ellas es la que mejor se ajusta a la nube de puntos?
En una situacin ideal en la que todos los puntos del diagrama de dispersin se encontra-
ran perfectamente alineados, no habra que preocuparse por encontrar la recta que mejor resu-
me los puntos del diagrama porque, simplemente uniendo los puntos entre s, se obtendra la
recta con el mejor ajuste posible5. Pero en nubes de puntos algo ms realistas como las de la
Figura 10.1 es posible trazar muchas rectas distintas. Y, obviamente, no todas ellas se ajus-
tarn igualmente bien a la nube de puntos. En un anlisis de regresin lineal se trata de en-
contrar la recta que mejor representa o resume la nube de puntos.
5
En algunos contextos es relativamente fcil y frecuente encontrar o definir relaciones lineales perfectas. Por ejemplo, la
relacin entre la temperatura en escala Fahrenheit es una funcin lineal perfecta de las temperaturas en escala Celsius; en
concreto, F = 32 + 1,8 C. Pero, en el mbito de las ciencias sociales y de la salud, no se dan relaciones perfectamente
lineales; segn veremos, los errores de prediccin forman parte inseparable de los pronsticos.
376 Anlisis de datos (vol. II)
Mnimos cuadrados
Para elegir la mejor recta pueden utilizarse diferentes criterios (ver Rousseeuw y Leroy,
1987), pero el de mayor aceptacin es el que se basa en la suma de los cuadrados de las dis-
tancias verticales entre cada punto y la recta. La Figura 10.3 muestra estas distancias mar-
cadas con lneas discontinuas. Los valores observados representan la distancia de cada
punto al eje horizontal. Los valores pronosticados representan la distancia de la recta al
eje horizontal. A las diferencias entre los valores observados y los pronosticados se
les llama residuos y representan la parte de Y que la ecuacin lineal (la recta) no es capaz
de pronosticar, es decir, los errores de prediccin. Utilizar el criterio de mnimos cuadra-
dos supone aceptar que la recta es tanto mejor (es un representante tanto mejor de la nube de
puntos) cuanto ms pequeos son los residuos o errores de prediccin.
Sumando todos los residuos podra obtenerse una medida del error de prediccin total.
Pero en esta suma se estara olvidando que unos residuos son positivos y otros negativos, y
que tienden a compensarse entre s. Una forma de superar este inconveniente consiste en
elevar al cuadrado los residuos antes de sumarlos (tambin podran sumarse los residuos en
valor absoluto, pero esta solucin es ms compleja de tratar). El criterio de mnimos cua-
drados consiste en elegir para B0 y B1 los valores que minimizan la suma de los residuos al
cuadrado, es decir, los valores que hacen mnima la expresin
= [10.2]
Y^i
(Yi Y^i )
Yi
Y^i
Yi
X
Coeficientes de regresin
Los valores que minimizan [10.2] se obtienen resolviendo, tras igualarlas a cero, sus deriva-
das parciales respecto de B0 y B1 (ver, por ejemplo, Amn, 1979, pgs. 205-209):
= [10.3]
= [10.4]
(SXY es la covarianza entre X e Y ). De todas las rectas que es posible definir, justamente la
que se basa en la interseccin [10.3] y en la pendiente [10.4] es la que minimiza las distancias
Captulo 10. Anlisis de regresin lineal 377
verticales (al cuadrado) entre cada punto del diagrama y la recta de regresin._ _De la ecua-
cin [10.3] se desprende que la recta mnimo-cuadrtica pasa por el punto (X , Y ).
Los diagramas de la Figura 10.4 ofrecen una aclaracin del significado de estos coeficien-
tes (se han utilizado enteros consecutivos en ambos ejes de los diagramas para facilitar la
explicacin). El coeficiente B0 es el pronstico que ofrece [10.1] cuando X = 0. Por tanto, B0
solamente tiene significado si tambin lo tiene X = 0. Es un valor necesario para poder efec-
tuar pronsticos (acta como una especie de trmino corrector para ajustar la mtrica de la
variable X a la de la variable Y ), pero no aporta informacin sobre la relacin entre X e Y.
Cuando la relacin es positiva (recta ascendente; diagrama de la izquierda), el valor de
B1 es positivo: a un aumento en X, la ecuacin asigna un aumento en . Cuando la relacin
es negativa (recta descendente; diagrama de la derecha), el valor de B1 es negativo: a un au-
mento en X, la ecuacin asigna una disminucin en . Ms concretamente, B1 es el cambio
(aumento o disminucin) que la ecuacin de regresin [10.1] asigna a por cada unidad que
aumenta X. Cuando no existe relacin lineal, el coeficiente B1 vale cero (recta paralela al eje
horizontal, pendiente nula). Aplicando [10.3] y [10.4] a los datos obtenidos con las variables
basal y recuperacin (ver Tabla 10.1) se obtiene B0 = !7,138 y B1 = 0,585, es decir,
Pronstico (recuperacin) = !7,138 + 0,585 (basal )
.
Y
B0
B1 < 0
B1 > 0
. B0
X X
La Figura 10.5 (izquierda) muestra esta recta sobre el diagrama de dispersin. El valor de B0
es la recuperacin que pronostica la ecuacin [10.1] para una puntuacin basal de cero
(recordemos que B0 solamente tiene significado si X = 0 tambin lo tiene)6. El valor de B1
indica que, por cada unidad que aumenta basal, la ecuacin de regresin [10.1] pronostica
un aumento de 0,585 puntos en recuperacin. Por supuesto, asignando valores a X (basal )
pueden obtenerse los pronsticos en Y (recuperacin).
Debe tenerse en cuenta que, puesto que la relacin entre basal y recuperacin no es per-
fecta, los pronsticos basados en la ecuacin de regresin incluyen un error de prediccin.
6
El hecho de que B0 tome un valor negativo nos est advirtiendo de un hecho importante: no deben efectuarse pronsticos
fuera del rango de valores que toma la variable X. Una inspeccin del diagrama indica que no existen puntuaciones basales
menores que 20. Puesto que la ecuacin de regresin se basa en el rango de valores disponible, extrapolar los pronsticos
a otros valores de X puede llevar a resultados absurdos. Aunque ciertamente la recuperacin podra ser negativa (los pacien-
tes podran empeorar con el tratamiento), no tiene sentido hablar de un sujeto con puntuacin basal cero, pues se tratara
de un sujeto sin problemas de depresin al que no habra que aplicar ningn tratamiento antidepresivo.
378 Anlisis de datos (vol. II)
Por tanto, con la ecuacin obtenida no es posible afirmar que un aumento de un punto en la
puntuacin basal de un paciente concreto ir acompaado de un aumento de 0,585 puntos en
su recuperacin, pero s que, en el conjunto de pacientes cuya puntuacin basal es un punto
mayor, se espera una recuperacin media 0,585 puntos mayor.
Aplicando [10.3] y [10.4] a los datos obtenidos con las variables edad y recuperacin
(ver Tabla 10.1) se obtiene B0 = 27,204 y B1 = !0,336. La Figura 10.5 (derecha) muestra esta
recta sobre el diagrama de dispersin. El valor de B0 es la recuperacin que la ecuacin de
regresin [10.1] pronostica para cero aos (de nuevo tenemos una interseccin sin signifi-
cado porque X = 0 tampoco lo tiene). El signo negativo de B1 indica que el aumento en edad
tiende a ir acompaado de menos recuperacin; en concreto, por cada ao que aumenta edad,
la ecuacin de regresin pronostica una disminucin de 0,336 puntos en recuperacin.
Y, dado que la desviacin tpica de las puntuaciones Z vale 1 (ver Captulo 5 del primer volu-
men), si la ecuacin de regresin se obtiene despus de transformar las puntuaciones origina-
les en puntuaciones Z, el nuevo coeficiente de regresin, B1 (Z) (que suele recibir el nombre
de tipificado o estandarizado), coincide con RXY. Es decir, B1 (Z) = RXY. Y esto nos da un
nuevo significado para RXY : cuando X aumenta una desviacin tpica, la ecuacin de regre-
sin pronostica un cambio de RXY desviaciones tpicas en Y.
Aplicando [10.3] y [10.4] despus de tipificar las variables basal y recuperacin se obtie-
ne B1 (Z) = 0,676, es decir, pronstico (Zrecuperacin ) = 0,676 (Zbasal ). Por tanto, por cada des-
viacin tpica que aumenta basal, la ecuacin de regresin pronostica un aumento de 0,676
desviaciones tpicas en recuperacin. Puesto que la recta de regresin pasa por las medias
de X e Y, y stas valen cero cuando X e Y estn tipificadas, la interseccin B0 (Z) vale cero.
Captulo 10. Anlisis de regresin lineal 379
Bondad de ajuste
Aun aceptando que la recta de regresin mnimo-cuadrtica es la que mejor resume una nube
de puntos dada, el grado de ajuste de esa recta (lo bien o mal que la recta resume la nube de
puntos) no tiene por qu ser bueno. De hecho, el grado de ajuste de la mejor recta posible
puede ir desde muy malo a excelente. Esto puede comprenderse fcilmente observando los
diagramas de dispersin de la Figura 10.6. Aunque en los tres casos se trata de rectas m-
nimo-cuadrticas, el ajuste es claramente mejor en el diagrama de la izquierda que en el del
centro, y mejor en ste que en el de la derecha. Para poder afirmar esto nos basamos en el
grado de dispersin (es decir, en el grado de alejamiento) de los puntos alrededor de la rec-
ta de regresin.
Ahora bien, el grado de dispersin de los puntos en torno a la recta de regresin viene
dado por las distancias verticales que ya hemos identificado como residuos o errores de pre-
diccin: Ei = . Consecuentemente, el tamao de los residuos est informando de lo
bien o mal (bondad de ajuste) que la recta de regresin consigue resumir la nube de puntos.
Figura 10.6. Rectas de regresin con distinto grado de ajuste a la nube de puntos
Y Y Y
X X X
Una manera de cuantificar el tamao de los residuos (dispersin en torno a la recta) consiste
en obtener su varianza:
= = [10.6]
Esta varianza valdr cero cuando todos los residuos valgan cero (es decir, cuando el ajuste
de la recta a la nube de puntos sea perfecto) y tomar un valor tanto mayor cuanto mayor sea
el tamao de los residuos en valor absoluto (es decir, cuanto peor sea el ajuste).
Pero sabemos que el peor ajuste posible se da cuando las variables X e Y son lineal-
mente independientes, es decir, cuando la recta de regresin es horizontal (pendiente nula;
ver Figura 10.6, grfico de la derecha). Y esto solamente ocurre cuando todos los pronsti-
cos se realizan con la media de Y (elegimos la media en lugar de cualquier otro valor porque,
a falta de otra informacin, las desviaciones de la media elevadas al cuadrado son menores
que respecto de cualquier otro valor; ver, en el Apndice 7 del primer volumen, el apartado
Estimacin por mnimos cuadrados).
Cuando _a todos los casos se pronostica la media de Y se comete un error de prediccin
igual a Yi ! Y . Y la varianza de estos residuos (es decir, el valor mximo de ) no es otra
cosa que la varianza de Y:
= = [10.7]
380 Anlisis de datos (vol. II)
Ahora bien, si [10.7] es el mximo de [10.6], entonces la diferencia entre [10.7] y [10.6] nece-
sariamente representa la cantidad en que se consigue reducir
_ los residuos (errores de predic-
cin) cuando, en lugar de hacer pronsticos basados en Y , se hacen pronsticos basados en
la ecuacin de regresin. Esta reduccin debida a la regresin puede cuantificarse mediante
= = [10.8]
Por tanto, tenemos tres medidas (varianzas) que permiten cuantificar diferentes aspectos de
la variabilidad o dispersin presente en una nube de puntos. En la Figura 10.7 estn identifi-
cadas las desviaciones en las que se basa cada una de estas medidas:
1. es la varianza de Y, es decir, la varianza total o mxima que se obtiene
_ cuando X e Y
son linealmente independientes. Se basa en las desviaciones Y , es decir, en la dis-
persin de la nube de puntos en torno a la recta horizontal que pasa por la media de Y .
2. es la varianza de los residuos o errores de prediccin. Se basa en las desviaciones
, es decir, en la dispersin de la nube de puntos en torno a la recta de regresin.
_
3. es la varianza de los pronsticos. Se basa en las desviaciones Y , es decir, en la
dispersin de los pronsticos en torno la recta horizontal que pasa por la media de Y. Por
tanto, representa la diferencia entre la dispersin en torno a la recta horizontal, ,
y la dispersin en torno a la recta de regresin, . En consecuencia,
= + [10.9]
Y^ i
Yi
(Yi Y^i )
_
Y Y^i _
(Yi Y )
_
(Y^i Y )
_
X Y
Unas pocas transformaciones (ver Amn, 1979, pg. 231) permiten comprobar que la pro-
porcin de varianza de los errores de prediccin (varianza no explicada) y la proporcin de
Captulo 10. Anlisis de regresin lineal 381
= 1! / [10.10]
= / [10.11]
Este valor indica: (1) que la recta de regresin de Y sobre X permite reducir los errores de
prediccin en un 46 % y (2) que las variables X e Y comparten el 46 % de la varianza. Y esto
significa que conocer las puntuaciones basales (X ) permite entender (anticipar, explicar, etc.)
un 46 % de la variabilidad de la recuperacin de los pacientes (Y ).
7
Cuando a un mismo valor de X le corresponde ms de un valor distinto de Y, no puede alcanzar el valor 1 (con un
mismo valor X no es posible pronosticar ms de un valor Y sin error).
8
Interpretar correctamente el tamao y el significado del coeficiente de determinacin requiere tener en cuenta diferentes
aspectos relativos al contexto en el que se obtiene, al tipo de relacin subyacente entre las variables y a la disposicin de
los puntos en el diagrama de dispersin (ver, en el Captulo 12 del primer volumen, el apartado Cmo interpretar el coefi-
ciente de correlacin RXY ).
9
Debe tenerse en cuenta que es una medida de lo bien o mal que la recta resume la nube de puntos, lo cual no debe con-
fundirse con el hecho de que la relacin subyacente sea o no de tipo lineal. Un valor alto no necesariamente est in-
dicando que la relacin subyacente es efectivamente lineal. El valor de puede ser relativamente alto incluso cuando
la relacin subyacente no es lineal. Por ejemplo, en una relacin cuadrtica puede haber un componente lineal importan-
te (ver, en el Captulo 12 del primer volumen, el segundo grfico de la Figura 12.9). De ah la importancia de acompaar
toda ecuacin de regresin de su correspondiente grfico de dispersin.
382 Anlisis de datos (vol. II)
= , con = [10.12]
= , con = [10.13]
Cuando se dan ciertas condiciones (ver, ms abajo, el apartado Supuestos del modelo de re-
gresin), ambos estadsticos T se aproximan a la distribucin de probabilidad t de Student
con n ! 2 grados de libertad. Siguiendo la lgica habitual, puede rechazarse la correspondien-
te H0 cuando el valor absoluto de estos estadsticos T es mayor que el cuantil 100 (1 ! / 2)
de la distribucin t de Student con n ! 2 grados de libertad.
Por lo general, el inters del anlisis ir orientado a determinar si las variables X e Y estn
linealmente relacionadas, es decir, a determinar si, a partir de la relacin encontrada en la
muestra, es posible afirmar que existe relacin en la poblacin. Esto significa que, por lo
general, la hiptesis que interesar contrastar ser la hiptesis de pendiente o relacin nula:
H0 : 1 = 0 [10.14]
El rechazo de esta hiptesis indica que entre X e Y existe relacin lineal significativa y, con-
secuentemente, que la variable X contribuye en alguna medida a reducir los errores de predic-
cin. El no rechazo no significa que X e Y no estn linealmente relacionadas, sino que no se
ha podido demostrar que lo estn (puede que no se haya utilizado un rango de valores X lo
bastante amplio, puede que los errores de medida estn ocultando la relacin, etc.).
Tanto en la varianza de B0 como en la de B1 est interviniendo el error cuadrtico me-
dio o media cuadrtica error:
MCE = [10.15]
Esta media cuadrtica es el mejor estadstico de que disponemos para estimar la varianza de
Y asociada a cada valor distinto de X ( hablaremos de esto ms adelante, en el apartado Su-
puestos del modelo de regresin). A la raz cuadrada de [10.15] se le llama error tpico de
la estimacin y representa el error medio que se comete al efectuar pronsticos utilizando
la ecuacin de regresin.
En nuestro ejemplo sobre la relacin entre las puntuaciones
_ basales y la recuperacin
(ver Tabla 10.1) tenemos ' ( ! )2 = 179,846 y ' ( X ! X ) 2 = 441,20. Aplicando [10.13]
y [10.15] para contrastar la hiptesis [10.14] obtenemos
Captulo 10. Anlisis de regresin lineal 383
F = = = [10.16]
Cuando se dan ciertas condiciones (ver, ms adelante, el apartado Supuestos del modelo de
regresin), este estadstico se aproxima a la distribucin de probabilidad F con 1 y n ! 2 gra-
dos de libertad. Y, en regresin simple, coincide con el cuadrado del estadstico definido
en [10.13])11.
Intervalos de confianza
Siguiendo la lgica ya estudiada en el Captulo 7 del primer volumen, los errores tpicos pro-
puestos en [10.12] y [10.13] pueden utilizarse para construir intervalos de confianza para los
valores poblacionales de los coeficientes de regresin. As, por ejemplo, el intervalo de con-
fianza para la pendiente de la recta de regresin poblacional, 1, puede obtenerse mediante
= [10.17]
Aplicando [10.17] a nuestro ejemplo sobre la relacin entre las puntuaciones basales y la
recuperacin (ver Tabla 10.1 ), obtenemos
= = 0,585 2,101 (0,15) = (0,27; 0,90)
Por tanto, estimamos, con una confianza del 95%, que el verdadero valor de la pendiente de
regresin se encuentra entre 0,27 y 0,90.
10
Este estadstico es exactamente el mismo que se utiliza para valorar el componente o tendencia lineal en un anlisis de
varianza (ver Captulo 6). El numerador de F es un estimador de la varianza de la poblacin basado en la dispersin que se
consigue reducir con la recta de regresin (variabilidad debida a la regresin). El denominador es un estimador de la varianza
de la poblacin basado en la variabilidad de los residuos (variabilidad no debida a la regresin).
11
El cual coincide con el estadstico T ya estudiado en el Captulo 12 del primer volumen para contrastar la hiptesis nula
de que el coeficiente de correlacin de Pearson vale cero en la poblacin (ver ecuacin [12.14] y el contraste propuesto en
el Cuadro 12.2).
384 Anlisis de datos (vol. II)
= [10.18]
= [10.19]
La expresin [10.18] es mayor que la [10.19] en la cantidad MCE. Por tanto, la varianza de
los pronsticos individuales es mayor que la varianza de los pronsticos promedio. Y puesto
que ambas varianzas son distintas, al construir intervalos de confianza para un pronstico es
importante especificar de qu tipo de pronstico se trata. A partir de las ecuaciones [10.18]
y [10.19] es posible construir intervalos de confianza mediante,
= [10.20]
= [10.21]
En nuestro ejemplo sobre las_ puntuaciones basales y la recuperacin (ver Tabla 10.1) tene-
mos MCE = 9,99, ' (X i ! X )2 = 441,20 y X = 29,20. Y el pronstico que la ecuacin de
_
regresin asigna al primer sujeto (puntuacin basal 25) vale = !7,138 + 0,585 (25) = 7,49.
Aplicando a este pronstico las ecuaciones [10.18] a la [10.21] obtenemos
12
Recordemos, por ejemplo, que la varianza de Y es , mientras que la varianza de la media de Y es . Es decir, la
varianza de la media de Y es n veces ms pequea que la varianza de Y.
Captulo 10. Anlisis de regresin lineal 385
Figura 10.8. Intervalos de confianza para los pronsticos individuales (lneas continuas) y para los prons-
ticos promedio (lneas discontinuas)
Recuperacin (basal final)
Y^i
La ecuacin de regresin
Al presentar el anlisis de regresin simple hemos visto que un diagrama de dispersin es una
buena manera de formarse una primera impresin sobre el tipo de relacin existente entre dos
variables cuantitativas. Pero al aumentar el nmero de variables las cosas cambian.
Para construir un diagrama de dispersin con tres variables (dos independientes) es ne-
cesario utilizar tres ejes, es decir, tres dimensiones; esto es posible hacerlo, pero ya no tiene
la utilidad que tiene en el caso de dos variables. Para construir un diagrama de dispersin con
cuatro variables (tres independientes) sera necesario utilizar un espacio de cuatro dimen-
siones. Y un espacio de cinco dimensiones para construir un diagrama con cinco variables
(cuatro independientes). As pues, con dos variables independientes, un diagrama de disper-
sin resulta poco intuitivo y, por tanto, poco til. Y con ms de dos variables independien-
tes, la representacin grfica simplemente no resulta posible.
No obstante, a pesar de que una ecuacin de regresin mltiple no define una recta en
un plano sino un hiperplano en un hiperespacio multidimensional (algo imposible de repre-
sentar grficamente), la complejidad de su representacin grfica contrasta con la simplicidad
de su expresin algebraica:
= B0 + B1 X1 + B2 X2 + + Bp X p [10.22]
En una ecuacin de estas caractersticas, los pronsticos se obtienen combinando lineal-
mente (es decir, sumando) las p variables independientes X j , cada una de ellas ponderada (es
decir, multiplicada) con un coeficiente de regresin Bj que indica el peso de esa variable en
los pronsticos.
Al igual que en el caso de la regresin simple, existen tantas ecuaciones de regresin
mltiple como valores distintos puedan asignarse a los coeficientes de regresin B0 y B j. Y,
de nuevo, para elegir la mejor de esas ecuaciones posibles, seguimos utilizando el criterio de
mnimos cuadrados, el cual, recordemos, consiste en elegir para B0 y Bj los valores que con-
siguen minimizar la suma de los residuos al cuadrado: = .
Captulo 10. Anlisis de regresin lineal 387
Coeficientes de regresin
Aunque los clculos se complican algo cuando la ecuacin de regresin incluye ms de una
variable independiente13, el significado de los coeficientes de regresin sigue siendo el mis-
mo. As, B0 sigue siendo el origen o interseccin. Con dos variables independientes, por
ejemplo, B0 es el punto en el que el plano de regresin corta el eje correspondiente a la va-
riable dependiente Y, es decir, el valor que pronostica la ecuacin de regresin cuando todas
las variables X toman el valor cero. Al igual que en regresin simple, B0 no tiene un signi-
ficado til a no ser que el valor cero tenga un significado concreto en todas las variables in-
dependientes14.
Los coeficientes B1, B2, ..., Bp son coeficientes de regresin parciales, pues el valor
concreto que toma cada uno de ellos depende del resto de coeficientes incluidos en la ecua-
cin: se estiman intentando minimizar , es decir, intentando que la combinacin
de las variables X j consiga explicar la mayor cantidad posible de la variabilidad de Y. Re-
presentan el cambio esperado en Y cuando, permaneciendo constantes el resto de variables,
la correspondiente X j aumenta una unidad. Por ejemplo, B1 representa el cambio estimado
en Y cuando, permaneciendo constantes el resto de variables, X1 aumenta una unidad.
Aadiendo las variables edad y tto a nuestro ejemplo sobre la relacin entre la recupe-
racin y las puntuaciones basales (ver Tabla 10.1), la ecuacin de regresin que minimiza
la suma de los residuos al cuadrado es:
Pronstico (recuperacin) = !8,88 + 0,40 (basal ) ! 0,01 (edad ) + 4,93 (tto) [10.23]
Por tanto, para una edad y un tto dados, un aumento de un punto en las puntuaciones basales
representa un aumento de 0,40 puntos en la recuperacin pronosticada (B1 = 0,40). Para una
puntuacin basal y un tto dados, un aumento de un ao de edad representa una disminucin
de 0,01 puntos en la recuperacin pronosticada (B2 = !0,01). Y para unas puntuaciones ba-
sales y una edad dadas, un aumento de una unidad en tto representa un aumento de 4,93
puntos en la recuperacin pronosticada; es decir, a los pacientes que han recibido el trata-
miento 2 (combinado) se les pronostica una recuperacin 4,93 puntos mejor que a los que
han recibido el tratamiento 1 (estndar).
13
En notacin matricial, el vector de coeficientes de regresin B = (B0, B1, B2, ..., Bp ) se obtiene multiplicando el vector
de puntuaciones Y por una transformacin de la matriz de datos que refleja la variabilidad del conjunto de las variables in-
dependientes En concreto, B = [X X]!1 [X Y], donde Y es el vector de puntuaciones de la variable dependiente Y y X es
una matriz n ( p + 1), con unos en la primera columna y con las puntuaciones de las p variables independientes en las
restantes columnas.
14
El coeficiente B0 no siempre est desprovisto de significado. Si la ecuacin de regresin se obtiene a partir de las pun-
tuaciones diferenciales o de desviacin de las variables independientes, entonces B0 es la media de Y, es decir, el prons-
tico que la ecuacin de regresin asigna cuando todas las variables independientes toman su valor medio (el cual vale cero
en todas ellas porque todas ellas se han transformado en puntuaciones de desviacin).
388 Anlisis de datos (vol. II)
Bondad de ajuste
Aun aceptando que la ecuacin de regresin mnimo-cuadrtica es la mejor, sabemos que esto
no significa que sea buena. Para valorar la calidad de una ecuacin es necesario utilizar algn
indicador de la precisin con que permite efectuar pronsticos. Y, para ello, de nuevo sirve
aqu lo ya dicho a propsito de la ecuacin de regresin simple. La nica diferencia es que,
ahora, la relacin entre la parte izquierda y la parte derecha de la ecuacin no es la relacin
15
En regresin simple, el coeficiente de regresin tipificado coincide con el coeficiente de correlacin de Pearson RXY. En
regresin mltiple, los coeficientes de regresin tipificados no son coeficientes de correlacin. De hecho, pueden tomar
valores mayores que 1 y menores que !1.
Captulo 10. Anlisis de regresin lineal 389
entre X e Y (es decir, la relacin entre dos variables), sino la relacin entre Y y X1, X2, ..., Xp
(es decir, la relacin entre p + 1 variables). Y para cuantificar esa relacin utilizamos el coe-
ficiente de correlacin mltiple, el cual suele representarse mediante o, ms
brevemente, mediante .
Este coeficiente de correlacin expresa el grado de relacin lineal existente entre la va-
riable dependiente Y y la mejor combinacin lineal entre las variables independientes Xj
(variables 1, 2, ..., p). Lo cual no es otra cosa que la relacin lineal entre Y y los pronsticos
derivados de la ecuacin de regresin:
= [10.25]
De esta definicin se deduce que tomar siempre valores entre cero y uno, pues no
cabe esperar que la relacin entre Y y los pronsticos sea negativa (adems, tampoco tiene
sentido hablar de relacin negativa entre ms de dos variables). Unas sencillas transforma-
ciones permiten definir el cuadrado del coeficiente de correlacin mltiple, decir, el coefi-
ciente de determinacin, exactamente de la misma manera que en regresin simple:
= 1! / [10.26]
= / [10.27]
Por tanto, puede interpretarse, al igual que en regresin simple, como propor-
cin de reduccin de los errores de prediccin (ecuacin [10.26]) y como proporcin de
varianza comn o explicada (ecuacin [10.27]).
En nuestro ejemplo sobre la recuperacin de pacientes sometidos a tratamiento antide-
presivo, el coeficiente de correlacin mltiple vale 0,89; y, elevado al cuadrado, 0,79. Este
valor indica, en primer lugar, que las variables incluidas en la ecuacin (basal, edad y tto)
permiten reducir los errores de prediccin un 79 % y, en segundo lugar, que esas tres va-
riables, tomadas juntas, comparten el 79 % de la varianza de la recuperacin; por tanto,
conocer las puntuaciones basales de los pacientes, su edad y el tratamiento que han recibido
permite entender (anticipar, explicar) el 79 % de la variabilidad de su recuperacin.
El coeficiente es un estimador positivamente sesgado de su correspondiente
parmetro poblacional (tiende a ofrecer estimaciones infladas). Este sesgo depende del n-
mero de variables independientes (p) y del nmero de casos (n). Cuanto menor es la relacin
n: p, mayor es el sesgo16. Para atenuar este sesgo es habitual aplicar la siguiente correccin:
= [10.28]
F = = [10.30]
Cuando se dan ciertas condiciones (ver, ms adelante, el apartado Supuestos del modelo de
regresin), este estadstico se aproxima a la distribucin de probabilidad F con p y n ! p ! 1
grados de libertad. Puede rechazarse la hiptesis [10.29] si el estadstico F toma un valor
mayor que el cuantil 100 (1 ! ) de la distribucin F con p y n ! p ! 1 grados de libertad. En
nuestro ejemplo hemos obtenido = 0,79; por tanto,
F = = 20,06
MCE = [10.31]
distintos valores de las Xj (ver el apartado Supuestos del modelo de regresin). La raz cua-
drada de [10.31] es el error tpico de la estimacin (desviacin tpica de los residuos).
Representa el error medio que se comete al efectuar pronsticos utilizando la ecuacin de
regresin. Y, al igual que , sirve como un indicador de la bondad del ajuste del plano
de regresin: cuanto menor es la desviacin tpica de los residuos, mejor es el ajuste.
nunca disminuye al incorporar una nueva variable a la ecuacin. Pero eso no
significa que la ecuacin que incluye la nueva variable sea mejor que la que no la incluye. En-
tre dos ecuaciones rivales, la que mejor se ajusta es aquella a la que le corresponde una MCE
menor . Y puesto que al incorporar una nueva variable la MCE pierde un grado de libertad,
para poder afirmar que la nueva ecuacin ofrece un mejor ajuste que la original, debe ocurrir
que la nueva variable consiga reducir la suma de los residuos al cuadrado en una cantidad
mayor que la MCE original.
La hiptesis propuesta en [10.29] es una hiptesis global referida a los p coeficientes de
regresin incluidos en la ecuacin (excluido 0). El rechazo de esta hiptesis indica que al
menos un coeficiente j es distinto de cero, pero sin precisar cul. Para identificar qu coe-
ficiente es distinto de cero es necesario valorar cada uno por separado. Esto puede hacerse
de la misma manera que en regresin simple, es decir, contrastando, para cada coeficiente,
H0 : j = 0 [10.32]
mediante estadsticos T del tipo
= [10.33]
Cuando se dan ciertas condiciones (ver, ms adelante, el apartado Supuestos del modelo de
regresin), el estadstico se aproxima a la distribucin de probabilidad t de Student con
n ! p ! 1 grados de libertad. Puede rechazarse la hiptesis [10.32] si el valor absoluto de
es mayor que el cuantil 100 (1 ! / 2) de la distribucin t con n ! p ! 1 grados de libertad.
El rechazo de [10.32] indica que la correspondiente X j contribuye significativamente al
ajuste del plano de regresin. El no rechazo de indica que la correspondiente X j puede eli-
minarse de la ecuacin sin prdida de ajuste.
El denominador de [10.33], , es el error tpico de y, aunque es algo ms comple-
jo de calcular que en el caso de la regresin simple17, los programas informticos de anlisis
estadstico lo incluyen de forma rutinaria. En nuestro ejemplo, en el caso de las variables
basal y tto se obtienen valores que llevan al rechazo de la hiptesis [10.32]. No as en
el caso de la variable edad. Por tanto, la variable edad puede eliminarse de la ecuacin de
regresin sin prdida de ajuste18.
Este resultado nos recuerda que los coeficientes de regresin son coeficientes parciales.
A pesar de que la edad est significativamente relacionada con la recuperacin (RXY = !0,58,
p = 0,007), esta relacin se desvanece cuando entran en juego las variables basal y tto. Y es-
to ocurre porque la variable edad correlaciona !0,78 con la variable tto: la edad media de los
sujetos que han recibido el tratamiento 1 (estndar = 56,8) es mayor que la de los sujetos que
17
= , donde es la varianza de X j y es el coeficiente de determinacin que se ob-
tiene con la ecuacin de regresin de X j sobre el resto de variables independientes.
18
El valor de no cambia si se elimina la variable edad de la ecuacin. Y tampoco cambia el valor de los coe-
ficientes de regresin tipificados correspondientes a basal y a tto.
392 Anlisis de datos (vol. II)
han recibido el tratamiento 2 (combinado = 45,9). Como adems ocurre que los sujetos que
reciben el tratamiento 2 se recuperan mejor que los que reciben el tratamiento 1, la relacin
entre edad y recuperacin podra ser simplemente resultado de la relacin entre tto y re-
cuperacin: la edad podra estar correlacionando negativamente con la recuperacin porque
los sujetos ms jvenes han recibido el tratamiento ms eficaz19. En el siguiente apartado se
trata ms a fondo esta idea.
Los errores tpicos pueden utilizarse para construir intervalos de confianza siguien-
do la misma estrategia que en regresin simple (ver ecuacin [10.17]).
No existe una nica forma de valorar la importancia o peso relativo de una variable dentro
de una ecuacin de regresin. Entre otras cosas, porque para poder hacer esto es necesario
aclarar qu se entiende por importancia de una variable.
Si se considera que la variable ms importante es la que ms contribuye al cambio es-
perado en Y, entonces la importancia relativa de las variables puede establecerse a partir de
los coeficientes de regresin tipificados: cuanto mayor es un coeficiente tipificado, mayor
es el cambio esperado en Y asociado a un cambio de una unidad en X j . Y esto, indepen-
dientemente de cul sea la mtrica original de las variables.
Si se considera que la variable ms importante es la que ms contribuye al ajuste global,
es decir, la que ms contribuye a reducir los errores de prediccin, entonces la importancia
relativa de las variables puede establecerse mediante el cuadrado del coeficiente de corre-
lacin semiparcial: .
En el Apndice 5 hemos estudiado el coeficiente de correlacin parcial como una medida
del grado de relacin neta entre dos variables, es decir, del grado de relacin entre dos varia-
bles cuando se elimina de ambas (se controla o parcializa) el efecto de terceras variables. Por
ejemplo, R12|3 es la relacin entre las variables 1 y 2 cuando se elimina de ambas el efecto de
19
Por supuesto, tambin podra estar ocurriendo lo contrario, es decir, que el tratamiento 2 fuera ms eficaz que el 1 porque
se ha aplicado a pacientes que se recuperan mejor (pacientes ms jvenes). Pero el hecho de que el peso de la variable tto
sea distinto de cero y sensiblemente mayor que el de la variable edad, y que el peso de sta no sea distinto de cero est indi-
cando: (1) que la variable tto explica una parte de la recuperacin que no puede explicar la variable edad y (2) que la varia-
ble edad no puede explicar algo distinto de lo que estn explicando las variables tto y basal.
Es posible precisar qu es lo que realmente est ocurriendo formando cuatro grupos de pacientes en funcin del trata-
miento recibido y de la edad (separando a los 5 sujetos ms jvenes de los 5 menos jvenes en cada tratamiento). La siguien-
te tabla muestra la recuperacin media de estos cuatro grupos:
Un anlisis de estas medias indica, en primer lugar, que la recuperacin media es mayor con el tratamiento 2 tanto entre los
pacientes ms jvenes (t8 = !3,39, p = 0,009) como entre los menos jvenes (t8 = !3,67, p = 0,006); y, en segundo lugar,
que la recuperacin media de los pacientes ms jvenes no difiere significativamente de la de los menos jvenes ni cuando
reciben el tratamiento 1 (t8 = !0,24, p = 0,819) ni cuando reciben el tratamiento 2 (t8 = !0,75, p = 0,476). Y esto permite
afirmar que la relacin entre edad y recuperacin es una relacin espuria resultado de haber aplicado el tratamiento ms
eficaz a pacientes ms jvenes.
Captulo 10. Anlisis de regresin lineal 393
= ! [10.34]
= [10.35]
= + [10.36]
20
Aunque el signo de un coeficiente de regresin suele indicar el sentido positivo o negativo de la relacin entre Y y la
correspondiente X j , esto no tiene por qu ser necesariamente as. Puede ocurrir que el signo de un coeficiente sea distinto
del sentido de la relacin. La razn de esto es que los coeficientes de una ecuacin de regresin mltiple son parciales y,
por tanto, su valor depende del resto de elementos presentes en la ecuacin. Una variable independiente tiene un peso sig-
nificativo en una ecuacin de regresin cuando, independientemente de su relacin con Y, consigue explicar una parte de
Y que otras variables no explican; y su relacin con esa parte de Y podra no tener el mismo signo que su relacin con Y.
394 Anlisis de datos (vol. II)
Por tanto, en una ecuacin de regresin con dos variables independientes (variables 1 y 2),
el cuadrado del coeficiente de correlacin mltiple (es decir, el coeficiente de determinacin
) es la suma del cuadrado de la correlacin simple entre la variable dependiente y una
cualquiera de las dos variables independientes ( ) ms el cuadrado de la correlacin entre
la variable dependiente y la parte de la segunda variable independiente que no depende o no
est explicada por la primera ( ).
Y esto implica que el coeficiente de determinacin se compone de la informa-
cin que aporta la primera variable ( ), ms la informacin adicional no redundante que
aporta una segunda variable ( ), ms la informacin adicional no redundante que aporta
una tercera variable ( ), y as sucesivamente. Es decir,
= + + + + [10.37]
En nuestro ejemplo sobre la relacin entre las variables basal, tto y recuperacin (hemos de-
sechado la variable edad por no tener un peso significativo en la ecuacin), los coeficientes
de correlacin semiparcial entre la variable dependiente y cada una de las dos independientes
valen, respectivamente, 0,438 y 0,579. Esto significa que, en una ecuacin de regresin que
ya contiene la variable tto, la incorporacin de la variable basal hace aumentar la proporcin
de varianza explicada en 0,4382 = 0,19 puntos; y en una ecuacin que ya contiene la variable
basal, la incorporacin de la variable tto hace aumentar la proporcin de varianza explicada
en 0,5792 = 0,34 puntos. Y sabemos que ambos aumentos son estadsticamente significativos
(es decir, representan un incremento significativo en el ajuste de la ecuacin de regresin)
porque ya hemos comprobado que sus correspondientes coeficientes de regresin son signi-
ficativamente distintos de cero.
En resumen, la importancia relativa de una variable dentro de una ecuacin de regresin
puede valorarse atendiendo a dos criterios diferentes: su peso en los pronsticos (coeficientes
de regresin tipificados) y su contribucin neta al ajuste global (coeficiente de correlacin
semiparcial elevado al cuadrado). En nuestro ejemplo, tanto el coeficiente de regresin tipi-
ficado mayor (en valor absoluto) como el coeficiente de correlacin semiparcial ms alto
(tambin en valor absoluto) corresponden a la variable tto.
21
A estas variables se les suele llamar variables dummy (ficticias) o variables indicador. Nosotros seguiremos llamndo-
las dicotmicas.
Captulo 10. Anlisis de regresin lineal 395
centro (ver Tabla 10.1), que tiene J = 3 categoras, puede convertirse en J ! 1 = 2 variables
dicotmicas creando las variables centro_A (con cdigo 1 para el centro A y cdigo 0 para
los centros B y C) y centro_B (con cdigo1 para el centro B y cdigo 0 para los centros A y
C). Las variables centro_A y centro_B, tomadas juntas, contienen exactamente la misma in-
formacin que la variable centro. El centro A queda identificado con el cdigo 1 en centro_A
y el cdigo 0 en centro_B; el centro B, con el cdigo 0 en centro_A y el cdigo 1 en cen-
tro_B; y el centro C, con el cdigo 0 tanto en centro_A como en centro_B. No es necesario
crear una tercera variable para identificar el centro C (sera redundante), como tampoco es
necesario crear dos variables, sino una, para identificar las dos categoras de una variable
dicotmica.
Al calcular la ecuacin de regresin utilizando la variable recuperacin como variable
dependiente y las variables centro_A y centro_B como variables independientes se obtiene
el siguiente resultado:
Pronstico (recuperacin) = 8,25 + 5,42 (centro_A) + 0,25 (centro_B )
El valor de la interseccin (8,25) representa la recuperacin estimada para los pacientes del
centro C (el valor pronosticado cuando tanto centro_A como centro_B toman el valor 0). Este
valor, 8,25, sirve de referente para interpretar el resto de los coeficientes de la ecuacin. El
coeficiente asociado a centro_A (5,42) representa la recuperacin estimada para los pacientes
del centro A en comparacin con la de los pacientes del centro C (esta diferencia de 5,42 pun-
tos es significativamente distinta de cero; t17 = 2,84; p = 0,011). Y el coeficiente asociado a
centro_B representa la recuperacin estimada para los pacientes del centro B en comparacin
con la de los pacientes del centro C (esta diferencia de 0,25 puntos no es significativamente
distinta de cero; t17 = 0,13; p = 0,897). Por tanto, a los pacientes del centro A (centro_A = 1,
centro_B = 0) se les est estimando una recuperacin de 8,25 + 5,42 = 13,67 puntos; a los del
centro B (centro_A = 0, centro_B = 1), de 8,25 + 0,25 = 8,50 puntos; y a los del centro C (cen-
tro_A = 0, centro_B = 0), de 8,25. Todo lo cual no es otra cosa que la recuperacin media
de cada centro.
Por supuesto, si se aaden nuevas variables a la ecuacin, el valor de los coeficientes de
regresin cambia. Aadiendo, por ejemplo, la variable tto se obtiene el siguiente resultado:
Pronstico (recuperacin) = 0,63 + 3,80 (centro_A) + !0,44 (centro_B ) + 5,54 (tto)
Ahora, a los pacientes del centro C que han recibido el tratamiento estndar (centro_A = 0,
centro_B = 0, tto = 1) se les pronostica una recuperacin de 0,63 + 5,54 = 6,17 puntos; y a
los que han recibido el tratamiento combinado (centro_A = 0, centro_B = 0, tto = 2), se les
pronostica una recuperacin de 0,63 + 2 (5,54) = 11,71 puntos.
A los pacientes del centro A que han recibido el tratamiento estndar (centro_A = 1, cen-
tro_B = 0, tto = 1) se les pronostica una recuperacin de 0,63 + 3,80 + 5,54 = 9,97 puntos; y
a los que han recibido el tratamiento combinado (centro_A = 1, centro_B = 0, tto = 2), se les
pronostica una recuperacin de 0,63 + 3,80 + 2 (5,54) = 15,51 puntos. El coeficiente asociado
a centro_A (3,80) sigue indicando el aumento en la recuperacin que se pronostica a los pa-
cientes del centro_A en comparacin con los del centro_B.
Por ltimo, a los pacientes del centro B que han recibido el tratamiento estndar (cen-
tro_A = 0, centro_B = 1, tto = 1) se les pronostica una recuperacin de 0,63 ! 0,44 + 5,54 =
5,73 puntos; y a los que han recibido el tratamiento combinado (centro_A = 0, centro_B = 1,
tto = 2), una recuperacin de 0,63 ! 0,44 + 2 (5,54) = 11,27 puntos.
396 Anlisis de datos (vol. II)
= ! [10.38]
= [10.39]
22
El estadstico F propuesto en [10.39] coincide con el cuadrado del estadstico propuesto en [10.33] y utilizado para
contrastar la significacin individual de cada coeficiente de regresin.
23
Recordemos que el criterio de seleccin es que la variable incorporada a la ecuacin genere un incremento significativo
en el coeficiente de determinacin. En el primer paso, este incremento es el que va desde cero hasta el valor del coeficiente
de determinacin correspondiente a la primera variable seleccionada.
398 Anlisis de datos (vol. II)
24
Esta estrategia de construccin de una ecuacin de regresin por pasos no debe confundirse con la regresin multinivel
(la estudiaremos en el siguiente volumen), la cual, a veces, tambin recibe el nombre de jerrquica.
25
Al incorporar o eliminar bloques de variables, las ecuaciones [10.38] y [10.39] para cuantificar el cambio en el coefi-
ciente de determinacin y para valorar la significacin estadstica de ese cambio, quedan de la siguiente manera:
= ! [10.40]
= [10.41]
Linealidad
En un anlisis de regresin lineal se est asumiendo que las variables independientes estn
linealmente relacionadas con la dependiente. Y para representar esta relacin se utiliza una
ecuacin lineal, es decir, una ecuacin que estima para Y un cambio constante (lineal) de
tamao B j por cada unidad que aumenta X j (permaneciendo el resto de variables constan-
tes). El supuesto de linealidad es crucial: no tiene sentido utilizar una ecuacin lineal si la
relacin subyacente entre las dos partes de la ecuacin no es lineal.
Al error consistente en utilizar un modelo lineal para dar cuenta de una relacin que no
es lineal se le llama error de especificacin. Este tipo de error ocurre cuando no se eligen bien
las variables independientes (porque hay otra u otras variables que podran explicar mejor el
comportamiento de la variable dependiente, o porque se han incluido en el modelo variables
irrelevantes) o cuando, habiendo elegido bien las variables independientes, su relacin con
la dependiente no es de tipo lineal. La consecuencia de un error de especificacin es que los
coeficientes de regresin Bj se convierten en estimadores sesgados y poco eficientes de sus
400 Anlisis de datos (vol. II)
Figura 10.9. Diagramas de dispersin. Izquierda: basal por recuperacin. Derecha: basal por residuos
En regresin mltiple, los diagramas de dispersin de Y con cada X j pueden resultar en-
gaosos porque no cuentan toda la historia. En regresin mltiple interesa valorar las rela-
ciones parcializadas. Y esto puede hacerse obteniendo un diagrama de dispersin parcial
para cada variable independiente. Los diagramas de dispersin parcial representan la relacin
entre dos conjuntos de residuos: los que se obtienen al pronosticar Y con todas las variables
independientes excepto X j y los que se obtienen al pronosticar X j con el resto de variables
independientes. La correlacin entre estos dos conjuntos de residuos es el coeficiente de
correlacin parcial entre Y y X j ; y la pendiente de la recta de regresin es Bj (es decir, el
coeficiente de regresin asociado a X j en la ecuacin de regresin mltiple).
La Figura 10.10 muestra dos de los diagramas de dispersin parciales correspondientes
a la ecuacin de regresin que incluye las variables independientes basal, edad y tto. El dia-
grama de la izquierda recoge la relacin entre las variables basal y recuperacin tras elimi-
nar de ambas el efecto atribuible a las variables edad y tto. El de la derecha recoge la rela-
cin entre las variables edad y recuperacin tras eliminar de ambas el efecto atribuible a las
26
Suele ser buena idea construir este diagrama de dispersin con variables no incluidas en la ecuacin. Si los residuos
muestran una pauta no aleatoria con alguna de esas variables, podra interesar incluir esa variable en la ecuacin.
Captulo 10. Anlisis de regresin lineal 401
Adems de asumir que la relacin subyacente es lineal, la ecuacin de regresin estima los
valores de Y combinando aditivamente las variables independientes, es decir, sumndolas. Y
esto implica que el cambio estimado para Y por cada unidad que aumenta Xj (permaneciendo
el resto de variables constantes) es siempre el mismo independientemente del valor concreto
que tomen el resto de las variables incluidas en la ecuacin, es decir, independientemente del
valor concreto en el que permanezcan constantes el resto de las variables. Y esto significa
que se est asumiendo que no existe interaccin entre las variables independientes. Si la rela-
cin entre Y y una determinada X j depende de los valores que tome alguna otra X j , entonces
el modelo aditivo no es un modelo apropiado. En presencia de interaccin entre variables
independientes es recomendable incluir en la ecuacin el producto de las variables que in-
teraccionan (ver Jaccard y Turrisi, 2003).
No colinealidad
El concepto de colinealidad se refiere a la relacin entre variables independientes (si hay
involucradas ms de dos variables tambin se habla de multicolinealidad). Existe colinealidad
perfecta cuando una variable independiente es funcin lineal perfecta de otra u otras variables
independientes. Para que el mtodo de mnimos cuadrados pueda estimar los coeficientes de
regresin es imprescindible que no exista colinealidad perfecta. En condiciones de colinea-
lidad perfecta no existe una solucin nica para las estimaciones mnimo-cuadrticas.
La colinealidad perfecta es infrecuente27, pero no lo es cierto grado de colinealidad. Y el
problema de una colinealidad elevada es que la varianza de los coeficientes de regresin
27
Se da, por ejemplo, cuando se incluye una variable que es suma de otras que tambin se incluyen (los tems de una escala
y la puntuacin total en la escala obtenida como la suma de los tems), o cuando se incluyen variables cuyos valores suman
una constante (el porcentaje de tiempo libre dedicado a cada una de un conjunto de actividades).
402 Anlisis de datos (vol. II)
aumenta sensiblemente28. Y eto hace que las estimaciones se vuelven inestables: pequeos
cambios en los datos pueden llevar a cambios importantes en las estimaciones.
Lo habitual en una ecuacin de regresin mltiple es que exista algn grado de colineali-
dad, pues es improbable que un conjunto de variables sean completamente independientes.
La cuestin no es si existe o no colinealidad, sino si el grado de colinealidad existente es lo
bastante grande como para representar un problema.
Existen algunos indicios que alertan sobre un posible problema con el grado de colinea-
lidad. Por ejemplo, que el estadstico F que contrasta la hiptesis global de no relacin sea
significativo y, sin embargo, no lo sea ninguno de los coeficientes de regresin (lo cual puede
ocurrir cuando las varianzas de los coeficientes son muy grandes); o que algn coeficiente de
regresin tenga un signo distinto del esperado; o que algn coeficiente de regresin tipificado
sea excesivamente grande (mayor que uno en valor absoluto).
Tambin existen algunos estadsticos que pueden ayudar a detectar un posible problema
con el grado de colinealidad. El nivel de tolerancia de una variable independiente X j se ob-
tiene restando a 1 el coeficiente de determinacin correspondiente a la ecuacin de regresin
de X j sobre el resto de variables independientes (1 ! ). Un nivel de tolerancia prximo a
1 indica que la variable X j no est relacionada con el resto de variables independientes; un
nivel de tolerancia prximo a 0 indica que la variable X j est muy relacionada con el resto
de variables independientes. Suele asumirse que los problemas asociados a la presencia de
colinealidad empiezan con tolerancias menores que 0,10.
A los valores inversos de los niveles de tolerancia, 1/ (1 ! ), se les llama factores de
inflacin de la varianza (FIVj ). Reciben este nombre porque reflejan el aumento que expe-
rimenta la varianza de cada coeficiente de regresin como consecuencia de la relacin
existente entre las variables independientes (las races cuadradas de los FIVj indican cun-
to aumentan los errores tpicos de los coeficientes de regresin Bj , los cuales intervienen en
los estadsticos T y en los intervalos de confianza). Los FIVj informan exactamente de lo
mismo que los niveles de tolerancia. Valores mayores que 10 suelen ir acompaados de los
problemas de estimacin asociados a un exceso de colinealidad.
Para solucionar los problemas derivados de un exceso de colinealidad se han propues-
to diferentes soluciones. La ms sencilla consiste en eliminar alguna de las variables inde-
pendientes que est causando el problema, pero esta solucin puede llevar a un error de espe-
cificacin al dejar fuera variables importantes desde el punto de vista terico. Otra solucin
consiste en combinar las variables muy relacionadas entre s en nuevas variables que, aun no
correlacionando entre s, todava reflejen la pauta de relacin subyacente (esta combinacin
puede hacerse a partir de criterios tericos o mediante alguna herramienta estadstica de
reduccin de datos como componentes principales). Por ltimo, siempre existe la posibili-
dad de utilizar modelos de regresin que no se vean tan afectados como el lineal por la pre-
sencia de colinealidad, como, por ejemplo, la regresin ridge (Rozeboom, 1979); en algunos
contextos puede ser preferible obtener estimaciones sesgadas con varianza mnima en lugar
de estimaciones insesgadas con varianzas grandes.
28
Esto puede apreciarse fcilmente si nos fijamos en la ecuacin que define el error tpico de un coeficiente de regresin
(ver nota a pie de pgina nmero 17). El denominador de esta ecuacin incluye el trmino 1 ! . Puesto que refleja
el grado de relacin existente entre la variable Xj y las dems variables independientes, cuanto mayor sea esta relacin (es
decir, cuanto mayor sea el grado de colinealidad), menor ser el trmino 1 ! y , consecuentemente, mayor el error tpico
del correspondiente coeficiente B j .
Captulo 10. Anlisis de regresin lineal 403
Independencia
Ya hemos definido los residuos como la diferencia entre los valores observados y los pro-
nosticados: Ei = . Estos residuos (valores muestrales) son estimaciones de los errores
poblacionales, es decir de las desviaciones de los verdaderos valores de Y respecto del plano
de regresin poblacional (Berry, 1993). En un modelo de regresin lineal se asume que los
errores tienen media cero y que son independientes entre s.
En primer lugar, las estimaciones mnimo-cuadrticas de los coeficientes de regresin no
se ven afectadas por el valor de la media poblacional de los errores. No as las estimaciones
de la interseccin, que se vuelven sesgadas cuando la media de los errores es distinta de cero
(el valor esperado de B0 se aleja de su parmetro en la misma cantidad que la media de los
errores se aleja de cero). Aunque la interseccin de una ecuacin de regresin suele tener po-
co inters, cuando se trabaja con variables independientes centradas (puntuaciones diferencia-
les o de desviacin) la interseccin es una estimacin de la media de Y; en estos casos, si la
media de los errores es distinta de cero, B0 ofrecer estimaciones sesgadas de la media de Y.
En segundo lugar, la independencia entre errores significa que no estn autocorrelacio-
nados, es decir, que no aumentan o disminuyen siguiendo una pauta discernible. Este supuesto
suele incumplirse en datos que proceden de estudios longitudinales (como en el caso de las
series temporales), en datos recogidos secuencialmente (donde los terapeutas pueden mejorar
su forma de administrar un tratamiento, los sujetos mostrar fatiga, los aparatos sufrir algn
tipo de desgaste, etc.), en datos recogidos en grupos homogneos de sujetos pero diferentes
entre s (grupos de diferente ideologa poltica o religiosa, grupos de diferente estatus socio-
econmico, etc.). En este tipo de estudios, el error asociado a un caso tiende a parecerse a los
errores de los casos adyacentes. Cuando ocurre esto es preferible utilizar otros mtodos de
estimacin, como el de mnimos cuadrados generalizados, o analizar los datos con otro tipo
de estrategias (ver Montgomery, Johnson y Gardiner, 1990; Ostrom, 1990).
Cuando los errores estn autocorrelacionados, aunque las estimaciones de los coeficientes
de regresin todava son insesgadas, sus varianzas tienden a tomar valores ms pequeos de
lo que deberan. Y la consecuencia de esto es que las pruebas de significacin y los intervalos
de confianza tienden a detectar coeficientes de regresin significativamente distintos de cero
con demasiada frecuencia.
Los residuos (valores muestrales) son las mejores estimaciones que tenemos de los erro-
res (valores poblacionales). Pero, debido a la forma de calcularlos, aunque su media siempre
vale cero, no son completamente independientes entre s (ver Montgomery, Peck y Vining,
2001, pgs. 132-133). La cuestin es si el grado de autocorrelacin existente entre los resi-
duos es o no lo bastante grande como para sospechar que los errores poblacionales no son in-
dependientes. Para decidir sobre esta cuestin puede utilizarse un diagrama de dispersin con
los casos en el eje horizontal y los residuos en el vertical (siempre, claro est, que el orden
de los casos obedezca a algn tipo de secuencia). Si los residuos son aproximadamente in-
dependientes, los puntos de este diagrama deben estar aleatoriamente repartidos en torno al
valor cero del eje vertical.
Los diagramas de la Figura 10.11 muestran diferentes pautas de autocorrelacin. En con-
diciones de autocorrelacin nula, la nube de puntos est aleatoriamente repartida en torno al
valor cero del eje vertical (diagrama de la izquierda); las subidas y bajadas de las lneas dis-
continuas que unen los puntos siguen una pauta aleatoria. En condiciones de autocorrelacin
positiva, los puntos se encuentran alineados de forma creciente o decreciente, o a intervalos
404 Anlisis de datos (vol. II)
Residuos
Residuos
Residuos
El grado de autocorrelacin entre los residuos tambin puede valorarse mediante el estads-
tico de Durbin-Watson (1950, 1951, 1971):
DW = [10.42]
(con = ). Este estadstico toma valores entre 0 y 4. Los valores en torno a 2 indican
que los residuos son independientes; los valores menores que 2 indican autocorrelacin po-
sitiva; los mayores que 2, autocorrelacin negativa. Suele asumirse que los errores son in-
dependientes cuando el estadstico DW toma valores comprendidos entre 1,5 y 2,5 (existen
tablas para tomar decisiones sobre la hiptesis de autocorrelacin nula; ver Draper y Smith,
1998, Cap. 9).
El supuesto de independencia tambin afecta a las variables independientes. Puesto que
los errores representan la parte de Y que el modelo de regresin no explica, es razonable espe-
rar que los errores no estn relacionados con las variables incluidas en la ecuacin; si lo estn,
entonces las variables independientes no estn aportando al modelo todo lo que pueden. Es-
to puede valorarse elaborando diagramas de dispersin con cada variable independiente en
el eje horizontal y los residuos en el eje vertical. Los puntos de este diagrama deben estar
aleatoriamente repartidos en torno al valor cero del eje vertical (Figura 10.9, derecha).
Normalidad
Este supuesto y el siguiente son idnticos a los ya estudiados con el mismo nombre a prop-
sito de los modelos de anlisis de varianza. En el modelo de regresin simple se asume que
a cada valor de X le corresponde una poblacin de valores Y. La Figura 10.12 ilustra esta cir-
cunstancia. Cada una de estas poblaciones de valores Y se asume que son normales y que
estn centradas en el valor esperado de Y, que es justamente por donde pasa la recta po-
blacional. En regresin mltiple se asume que existe una poblacin normal de valores Y por
cada combinacin distinta de valores Xj . El supuesto de normalidad es necesario para ga-
rantizar que los estadsticos utilizados al contrastar hiptesis del tipo j = 0 se aproximan a
sus respectivas distribuciones muestrales.
Captulo 10. Anlisis de regresin lineal 405
E (Y | Xi )
X
X1 X2 Xn
Homocedasticidad
Las poblaciones de la Figura 10.12, adems de normales, se asume que son homocedsticas,
es decir, que tienen la misma varianza. La media cuadrtica error (MCE, ver ecuacin [10.15])
que se utiliza en los estadsticos T y F y en los intervalos de confianza es una estimacin de
la varianza de esas poblaciones normales. Cuando se calcula en una muestra concreta, la MCE
se obtiene promediando las varianzas de Y correspondientes a cada valor de X (o combinacin
de valores Xj ). Si el promedio de esas varianzas muestrales, es decir, MCE , ha de utilizarse
con algn sentido, es necesario asumir que es el promedio de varianzas muestrales que es-
timan la misma varianza poblacional.
En condiciones de heterocedasticidad (varianzas distintas) los coeficientes Bj siguen
siendo estimadores insesgados de sus respectivos parmetros, pero se vuelven poco eficientes
(es decir, aumenta su varianza). Y esto implica, una vez ms, que las pruebas de significacin
y los intervalos de confianza podran llevar a conclusiones errneas.
Para valorar este supuesto puede utilizarse un diagrama de dispersin con los pronsti-
cos en el eje horizontal y los residuos en el vertical. Puesto que cada pronstico es una com-
binacin lineal de valores X, cada pronstico distinto refleja una combinacin distinta de
valores X. Al representar los pronsticos con los residuos se est obteniendo informacin
acerca de la dispersin de las distribuciones empricas correspondientes a las distribuciones
poblacionales representadas en la Figura 10.12. Si la varianza de los residuos es constante,
la nube de puntos estar distribuida homogneamente en torno al valor cero del eje vertical
406 Anlisis de datos (vol. II)
(es decir, la nube de puntos tendr aproximadamente la misma altura a lo largo de todo el eje
horizontal; ver Figura 10.13, izquierda). Los diagramas del centro y de la derecha de la Figu-
ra 10.13 muestran incumplimientos ms o menos frecuentes de este supuesto.
Residuos
Residuos
Residuos
Pronsticos Pronsticos Pronsticos
Casos atpicos
Un caso atpico es un caso inusual, un caso que no se parece a los dems. Una exploracin
descriptiva inicial de los datos, adems de ofrecer una primera impresin sobre las caracte-
rsticas de cada variable, tambin sirve para detectar posibles casos atpicos. Sin embargo,
esto, que es algo muy til en el caso de la regresin simple, no lo es tanto en el caso de la
regresin mltiple. El hecho de que no existan casos atpicos en ninguna variable indivi-
Captulo 10. Anlisis de regresin lineal 407
dualmente considerada no significa que todo est bien. Es necesario valorar la posibilidad
de que existan casos atpicos multivariados: un caso puede tener una puntuacin razonable
en dos variables individualmente consideradas y ser un caso atpico al combinar ambas va-
riables. Por ejemplo, no es inusual que una persona tenga una altura de 180 cm; tampoco lo
es que una persona tenga un peso de 55 kg; pero s es inusual que una persona con una altura
de 180 cm tenga un peso de 55 kg.
Casos atpicos en Y
Puesto que los pronsticos de una ecuacin de regresin representan el centro estimado de
cada distribucin poblacional de Y (ver Figura 10.12), los residuos = son una es-
timacin del grado en que cada valor de Y se aleja del valor esperado de su distribucin. En
consecuencia, los casos atpicos en Y tendrn asociados residuos grandes (en valor absoluto).
Suele considerarse que los residuos que se alejan ms de tres desviaciones tpicas de su
media corresponden a casos mal pronosticados. Y los casos mal pronosticados son, proba-
blemente, casos atpicos en Y . El tamao de los residuos puede valorarse tipificndolos:
= [10.43]
A estos residuos se les llama tipificados o estandarizados y tienen una media de cero y una
desviacin tpica de uno (aproximadamente). Por tanto, un residuo tipificado mayor que 3 (en
valor absoluto) est delatando un posible caso atpico en Y (es seguro que se trata de un caso
mal pronosticado y, por tanto, es probable que se trate de un caso atpico en Y ).
Tipificar los residuos a partir de MCE es solo una aproximacin. Del mismo modo que
cada pronstico tiene su propio error tpico (ver ecuacin [10.18]), cada residuo tambin tiene
el suyo29. Si cada residuo se tipifica dividindolo por su error tpico, se obtienen unos residuos
muy utilizados en regresin lineal: los residuos studentizados:
= [10.46]
29
La varianza de un residuo Ei es tanto mayor cuanto ms se aleja un caso de la media de X. En regresin simple, esta
varianza se obtiene mediante
= [10.44]
Puesto que la MCE est multiplicada por 1 menos una cantidad que depende de , el valor de [10.44] ser tanto ms
pequeo cuanto ms alejado se encuentre de su media. En regresin mltiple, la varianza de E i se obtiene mediante
= [10.45]
donde hi se refiere a los elementos diagonales de la matriz H = X(X X)!1 X. Esta matriz, de dimensiones n n, recibe el
nombre de matriz hat y desempea un importantsimo rol en el anlisis de regresin lineal (contiene la informacin necesaria
para transformar el vector de valores observados en el de valores pronosticados: = HY ). Los elementos diagonales de H
representan el grado de alejamiento de cada caso respecto del centroide del espacio definido por el conjunto de variables
independientes X j . Reflejan la influencia (leverage) de cada caso en la forma final de la ecuacin de regresin. El valor de
hi asociado a un caso es tanto mayor cuanto ms alejado se encuentra ese caso de su centroide (es decir, del centro comn
de las Xj ). Esto significa que la varianza de un residuo es tanto mayor cuanto ms centrado se encuentra el caso (recurdese
que con las varianzas de los pronsticos ocurre justamente lo contrario). No obstante, en [10.44] se puede_ apreciar que la
correccin que se aplica sobre MCE no depende nicamente de la distancia de un caso a su centro (Xi ! X ), sino del tamao
muestral: cuanto mayor es el tamao muestral, menor es la correccin que sufre MCE. Por tanto, con tamaos muestrales
grandes, los residuos studentizados definidos en [10.46] sern muy parecidos a los tipificados definidos en [10.43].
408 Anlisis de datos (vol. II)
A estos residuos se les lama studentizados porque se distribuyen segn el modelo de proba-
bilidad t de Student con n ! p ! 1 grados de libertad. Si puede asumirse que la variable Y se
distribuye normalmente en torno a la recta de regresin poblacional (ver Figura 10.12), en-
tonces los residuos studentizados pueden utilizarse para decidir si un determinado caso se
aleja significativamente de su valor pronosticado. Para ello, basta con comprobar si el valor
absoluto de es mayor que el cuantil 100 (1 ! /2) de la distribucin t con n ! p ! 1 grados
de libertad. Con muestras grandes, sigue siendo vlido (y generalmente ms til) el criterio
de revisar aquellos casos con residuos studentizados mayores que 3 (en valor absoluto). Un
residuo que se aleja ms de tres desviaciones tpicas de su valor esperado est delatando un
caso mal pronosticado y, como tal, un caso que conviene revisar.
Un diagrama de dispersin con los pronsticos en el eje horizontal y los residuos en el
vertical suele ser bastante til para identificar posibles casos atpicos en Y.
Casos atpicos en X j
El grado en que un caso es inusual o atpico en el conjunto de variables independientes X j
suele cuantificarse mediante una medida llamada influencia (leverage). Esta medida se repre-
senta mediante h i (ver nota a pie de pgina nmero 29, en la pgina anterior) y refleja el gra-
do de alejamiento de cada caso respecto del centro de su distribucin, es decir, el grado de
alejamiento del conjunto de puntuaciones de un caso respecto de las puntuaciones medias de
todos los casos.
Los valores h i oscilan30 entre 1/n y 1, y su media vale ( p + 1) / n. Cuanto mayor es el valor
h i asociado a un caso, ms inusual o atpico es en X j .
Para interpretar la magnitud de hi se han propuesto diferentes reglas (ver Chatterjee y
Hadi, 1988; Stevens, 1984). Hoaglin y Welsch (1978) sugieren revisar los casos con valores
h i mayores que 2 ( p + 1) / n. Pero Belsley, Kuh y Welsch (1980) consideran que este criterio
arroja demasiados casos atpicos, particularmente si se trabaja con pocas variables indepen-
dientes y muestras grandes. Stevens (1992) sugiere revisar los casos con valores h i mayores
que 3( p + 1)/n. Y una regla que funciona razonablemente bien para identificar casos atpicos
en Xj es la siguiente: los valores hi menores que 0,2 son poco problemticos, los valores com-
prendidos entre 0,2 y 0,5 son arriesgados; los valores mayores que 0,5 deben revisarse.
Casos influyentes
Al calcular, por ejemplo, una media, todos los casos de la muestra tienen el mismo peso en
el resultado. En una ecuacin de regresin no ocurre lo mismo. Aunque todos los casos contri-
buyen a estimar los coeficientes de la ecuacin, no todos lo hacen en la misma medida. Los
casos influyentes son casos que afectan de forma importante a los resultados del anlisis.
Un caso influyente no debe confundirse con un caso atpico. Los casos atpicos son casos
que conviene revisar, pero no necesariamente son casos influyentes. Para que un caso pueda
ser etiquetado de influyente, adems de ser atpico, debe alterar de forma importante los resul-
tados del anlisis.
30
Algunos programas informticos, entre los que se encuentra el SPSS, no calculan los valores de influencia (valores de
la diagonal de la matriz H), sino los valores de influencia centrados (hi ! 1/ n), que oscilan entre 0 y (n ! 1) / n. Esta peque-
a variante no afecta a la interpretacin de los resultados, pero s a la media de hi , que vale p / n en lugar de ( p + 1) / n.
Captulo 10. Anlisis de regresin lineal 409
Los ejemplos de la Figura 10.14 muestran casos atpicos que no pueden ser considerados
influyentes. La lnea continua es a la recta de regresin basada en todos los casos; la lnea dis-
continua es a la recta de regresin basada en todos los casos menos el atpico (el caso alejado
de los dems). El diagrama de la izquierda incluye un caso atpico en Y (su residuo es muy
grande), pero no en X (toma un valor intermedio en X ); el diagrama de la derecha incluye un
caso atpico en X (toma un valor muy grande X ) pero no en Y (su residuo es muy pequeo).
A pesar de que ambos son casos atpicos, las pendientes de las rectas de regresin apenas se
alteran al eliminar estos casos del anlisis.
Figura 10.14. Diagramas de dispersin y rectas de regresin con casos atpicos no influyentes
Y Y
X X
Los ejemplos de la Figura 10.15 muestran casos que, adems de atpicos, son influyentes. El
diagrama de la izquierda incluye un caso atpico tanto en Y como en X (su residuo es grande
y su valor en X es claramente mayor que el del resto de los casos); el de la derecha incluye
un caso atpico en X pero no en Y (toma un valor grande en X pero su residuo es pequeo).
Ahora, a diferencia de lo que ocurra en los diagramas de la Figura 10.14, las pendientes de
las rectas de regresin cambian sensiblemente al eliminar estos casos del anlisis.
Figura 10.15. Diagramas de dispersin y rectas de regresin con casos atpicos e influyentes
Y Y
X X
Los diagramas de dispersin sirven para identificar con relativa facilidad la presencia de po-
sibles casos influyentes en regresin simple, pero son poco tiles en regresin mltiple. Al
aumentar el nmero de variables, la forma de valorar el grado de influencia de un caso consis-
410 Anlisis de datos (vol. II)
te en comparar lo que ocurre cuando se utilizan todos los casos con lo que ocurre al eliminar
ese caso del anlisis. Esta comparacin se centra, por lo general, en tres resultados del an-
lisis: (1) los coeficientes de regresin, (2) los pronsticos y (3) los residuos.
Para realizar estas comparaciones se estiman n + 1 ecuaciones de regresin: una basada
en todos los casos y las n restantes eliminando un caso cada vez. A los resultados basados en
todos los casos los hemos llamado , , , etc. A los resultados basados en todos los casos
menos uno los llamaremos , , , etc. Por ejemplo, mientras que es el pronstico
obtenido para el caso i con la ecuacin de regresin que incluye todos los casos, es el pro-
nstico obtenido para el caso i con la ecuacin de regresin que incluye todos los casos menos
el caso i.
El subndice j indica que estas diferencias pueden calcularse con cualquier coeficiente de
regresin (incluida la interseccin); el subndice i indica que hay una de estas diferencias
para cada caso. Por tanto, a cada caso le corresponde un valor DFBETAS j (i) por cada coefi-
ciente de regresin presente en la ecuacin.
Para interpretar estas diferencias, lo habitual es tipificarlas dividindolas entre su error
tpico (ver Montgomery, Peck y Vining, 2001, pgs. 213-214). Los promotores de este esta-
dstico sugieren revisar los casos a los que les corresponde alguna DFBETAS j (i) tipificada
mayor que .
Cook (1977, 1979) ha propuesto el estadstico probablemente ms conocido y utilizado
para valorar la influencia de cada caso sobre los resultados de la regresin. Este estadstico
se conoce como distancia de Cook ( ) y se basa en la suma de los cambios que se produ-
cen en los coeficientes de regresin al ir eliminando cada caso del anlisis31. Por tanto, a
diferencia de lo que ocurre con el estadstico DFBETAS j (i) , que se centra en el cambio de
cada coeficiente, el estadstico refleja el cambio que experimentan todos los coeficien-
tes de forma simultnea o conjunta. Cook y Weisberg (1982) sealan que este estadstico se
aproxima a una distribucin F con p + 1 y n ! p ! 1 grados de libertad, y sugieren que un caso
debe ser considerado influyente (y por tanto, que debe ser revisado) cuando es mayor que
el cuantil Fp + 1, n ! p ! 1; 0,50 (cuantil 50). Esto equivale, en la mayora de los casos, a considerar
que un caso es influyente cuando > 1.
31
La distancia de Cook puede calcularse mediante:
= [10.48]
En esta forma concreta de definir se observa claramente que la distancia asociada a un caso concreto depende del ta-
mao de hi y del tamao de . Ambos valores tienen que ser altos para que tambin lo sea. Ahora bien, puesto que
hi es una medida del grado en que un caso es atpico en X j y es una medida del grado en que un caso es atpico en Y,
el estadstico est identificando un caso como influyente cuando es atpico simultneamente en X j y en Y.
Captulo 10. Anlisis de regresin lineal 411
A cada caso le corresponde un valor DFFITS(i). Para interpretar estas diferencias, se tipifican
dividindolas entre su error tpico (ver Montgomery, Peck y Vining, 2001, pg. 214). Debe
prestarse especial atencin a los casos a los que les corresponde una DFFITS(i) tipificada ma-
yor que .
Hemos visto que la mejor manera de valorar el tamao de un residuo consiste en studentizar-
lo, es decir, en dividirlo por su error tpico individual32 en lugar de hacerlo por el error tpico
promedio de todos los residuos. Con los residuos eliminados se hace lo mismo. A la versin
tipificada de un residuo eliminado se le llama residuo eliminado studentizado. Si un caso
es influyente, estos residuos tomarn valores alejados de cero. Puesto que la distribucin de
estos residuos se aproxima a una t con n ! p ! 2 grados de libertad, lo razonable es revisar
los casos cuyo residuo eliminado studentizado (en valor absoluto) sea mayor que 3.
32
La varianza de un residuo se obtiene a partir de la ecuacin [10.45]. La varianza de un residuo eliminado se obtiene de
forma algo distinta: = .
412 Anlisis de datos (vol. II)
Puede ocurrir que un caso atpico se corresponda con una respuesta deseable o incluso
ideal (una recuperacin espectacular, un rendimiento excelente, etc.). En estos casos, conocer
los valores que toma un caso atpico en las variables independientes puede aportar informa-
cin muy valiosa para futuros estudios.
No existe un acuerdo generalizado sobre la conveniencia o no de eliminar los casos atpi-
cos. No existe, por tanto, una nica regla en la que basar esta decisin. Pero es innegable que,
para tomarla, puede ayudar el hecho de saber que, cuando se decide eliminar un caso del an-
lisis, hay que informar de las razones que han llevado a hacer tal cosa.
Los casos atpicos podran ser eliminados del anlisis con la excusa de que estn entor-
peciendo o inflando el ajuste. Pero, sin otro tipo de justificacin, estaramos pasando por alto
el hecho de que el aspecto ms relevante de los relacionados con los casos atpicos consiste
precisamente en identificar las causas por las que son atpicos.
Tambin podran eliminarse los casos muy atpicos con el argumento de que el objetivo
del anlisis es construir una ecuacin para entender lo que ocurre con los casos tpicos, no con
los atpicos. Este argumento es ms convincente si los casos atpicos representan a una sub-
poblacin especial que se sale del rango de variacin tpico o esperable en la poblacin es-
tudiada. Sin embargo, si existe un conjunto de casos atpicos que parece formar un subgrupo
separado del resto, lo razonable es incorporarlos a la ecuacin de regresin creando una varia-
ble dicotmica (con unos y ceros para diferenciar ambos subgrupos) o desarrollar diferentes
ecuaciones de regresin para los diferentes subgrupos (como se hace con los modelos multi-
nivel que estudiaremos en el volumen 3).
Una solucin intermedia entre retener y eliminar los casos atpicos consiste en utilizar
mtodos de estimacin robustos, es decir, mtodos cuyas estimaciones se ven menos alteradas
que las mnimo-cuadrticas por la presencia de casos atpicos o influyentes (ver por ejemplo,
Huynh, 1982; Neter, Kutner, Nachtscheim y Wasserman, 1996; Rousseeuw & Leroy, 1987).
Y cualquiera que sea la decisin que finalmente se decida adoptar con un caso atpico o
influyente, no debe olvidarse que el hecho de que un caso sea considerado atpico o influyente
siempre se hace tomando como referencia una ecuacin de regresin concreta. Si la ecuacin
cambia porque se incorporan nuevas variables o porque se elimina alguna de las incluidas,
los casos etiquetados como atpicos o influyentes pueden dejar de serlo y otros que antes no
lo eran pueden pasar a serlo.
Este apartado muestra cmo utilizar el SPSS para llevar a cabo un anlisis de regresin lineal
con los datos de la Tabla 10.1 (los datos se encuentran en el archivo Tabla 10.1 depresin
hamilton reducido, en la pgina web del manual).
Para cubrir los diferentes objetivos del anlisis vamos a realizar siete tareas: (1) obtener
la recta de regresin en puntuaciones directas y en puntuaciones tpicas; (2) valorar el ajuste
de la recta mediante el coeficiente de determinacin; (3) contrastar si los coeficientes de
regresin son distintos de cero y calcular sus intervalos de confianza; (4) obtener los pro-
nsticos que se derivan de la ecuacin de regresin; (5) valorar la importancia relativa de
Captulo 10. Anlisis de regresin lineal 413
cada variable independiente; (6) chequear los supuestos del anlisis; y (7) averiguar si exis-
ten casos atpicos e influyentes. Para llevar acabo estas siete tareas,
' Seleccionar la opcin Regresin > Lineal del men Analizar para acceder al cuadro de di-
logo Regresin lineal.
' Trasladar la variable recuperacin al cuadro Dependiente y las variables basal, edad y tto
a la lista Independientes.
Con estas selecciones ya se obtiene la ecuacin de regresin, el coeficiente de determinacin
y la significacin de los coeficientes, es decir, la informacin necesaria para cubrir los tres
primeros objetivos del anlisis. Para terminar de completar estos tres objetivos nicamente
faltan los intervalos de confianza de los coeficientes de regresin. Para obtenerlos,
' Pulsar el botn Estadsticos para acceder al subcuadro de dilogo Regresin lineal: Esta-
dsticos y marcar la opcin Intervalos de confianza del recuadro Coeficientes de regresin.
Bondad de ajuste
Los resultados del anlisis comienzan con la Tabla 10.2, la cual incluye informacin relativa
al ajuste global de la ecuacin de regresin: el coeficiente de correlacin mltiple (R = 0,89;
ver ecuacin [10.25]), el coeficiente de determinacin (R cuadrado = 0,79; ver ecuaciones
[10.26] y [10.27]), el coeficiente de determinacin corregido (R cuadrado corregida = 0,75;
ver ecuacin [10.28]) y la raz cuadrada de la media cuadrtica error (error tpico de la esti-
macin = 2,08; raz cuadrada de la ecuacin [10.31]).
Recordemos que cuanto mayor es el coeficiente de determinacin, mejor es el ajuste. Un
valor corregido de 0,75 indica, en primer lugar, que la ecuacin de regresin permite reducir
los errores de prediccin en un 75 % y, en segundo lugar, que las variables basal, edad y tto
comparten el 75 % de la varianza de la variable recuperacin. Por tanto, conocer las puntua-
ciones basales de los pacientes, su edad y el tratamiento que han recibido permite entender
(anticipar, explicar, etc.) el 79% de la variabilidad de su recuperacin.
Ecuacin de regresin
La mitad izquierda de la Tabla 10.4 recoge la informacin relativa a la ecuacin de regresin
(ver ecuacin [10.23]). La columna etiquetada coeficientes no tipificados contiene las esti-
maciones de los coeficientes de regresin parcial Bj que definen la ecuacin de regresin en
puntuaciones directas (ver ecuacin [10.23]):
Los coeficientes beta (coeficientes tipificados) son los coeficientes que definen la ecuacin
de regresin en puntuaciones tpicas, es decir, los coeficientes de regresin que se obtienen
cuando la ecuacin de regresin se estima despus de transformar las puntuaciones originales
en puntuaciones Z (ver ecuacin [10.24]). Estos coeficientes tipificados tambin pueden ob-
tenerse multiplicando el correspondiente coeficiente de regresin no tipificado por .
El valor de estos coeficientes indica que la variable tratamiento es la que ms peso tiene en
los pronsticos (0,61), seguida de basal (0,47).
Pronsticos
Hasta aqu, la informacin que ofrece el procedimiento por defecto. Para cubrir el resto de los
objetivos del anlisis es necesario solicitar informacin de forma explcita. Para obtener los
pronsticos que ofrece la ecuacin de regresin,
' Pulsar el botn Guardar para acceder al subcuadro de dilogo Regresin lineal: Guardar
nuevas variables y marcar la opcin No tipificados del recuadro Valores pronosticados y las
opciones Media e Individuos del recuadro Intervalos de pronstico.
Estas selecciones crean en el archivo de datos cinco variables. La opcin No tipificados crea
una variable con los pronsticos: PRE_#. La opcin Media crea dos variables con los lmites
inferior y superior del intervalo de confianza correspondiente a los pronsticos promedio:
LMCI_# y UMCI_#. La opcin Individuos crea dos variables con los lmites inferior y supe-
rior del intervalo de confianza correspondiente a los pronsticos individuales: LICI_# y
UICI_# (para una aclaracin del significado de estos intervalos de confianza, ver el apartado
Cmo efectuar pronsticos; pg. 384). El smbolo # va cambiando (1, 2, 3...) si el procedi-
miento se ejecuta varias veces durante la misma sesin.
Al marcar esta opcin, la tabla de coeficientes (ver Tabla 10.4) incluye informacin adicional
(ver Tabla 10.5) referida a tres coeficientes de correlacin entre cada variable independiente
y la dependiente: el simple o de orden cero, el parcial y el semiparcial. Las correlaciones se-
miparciales informan del grado de relacin existente entre cada variable independiente y la
dependiente tras eliminar de la variable independiente el efecto atribuible al resto de variables
independientes incluidas en la ecuacin. En nuestro ejemplo, la correlacin simple entre la
edad y la recuperacin vale !0,58; sin embargo, la correlacin semiparcial vale !0,01. Esto
significa que, al eliminar de la edad el efecto atribuible a las variables basal y tratamiento,
la relacin entre la edad y la recuperacin se desvanece.
Elevando al cuadrado los coeficientes de correlacin semiparcial se obtiene la contri-
bucin neta de cada variable al ajuste global: la variable basal contribuye con un 19 % (pues
416 Anlisis de datos (vol. II)
0,442 = 0,19); la variable edad no contribuye al ajuste global (pues !0,012 = 0,0001); y la va-
riable tratamiento contribuye con un 13 % (pues 0,362 = 0,13).
Estos resultados indican que, aunque la variable tratamiento es la que ms peso tiene en
los pronsticos, la variable basal es la que ms contribuye al ajuste global. Sin embargo, es-
ta incongruencia entre ambos criterios de importancia es solo aparente. La presencia en la
ecuacin de una variable irrelevante (la edad ) est distorsionando ligeramente los resulta-
dos del anlisis. Al excluir la variable edad (ver Tabla 10.6), ocurre que tanto el coeficiente
de regresin tipificado ms alto (0,62) como el coeficiente de correlacin semiparcial ms
alto (0,58) corresponden a la variable tratamiento.
Tabla 10.5. Coeficientes de regresin y coeficientes de correlacin parcial y semiparcial (basal, edad, tto)
Modelo: 1
Coeficientes no Coeficientes
tipificados tipificados Correlaciones
B Error tp. Beta t Sig. Orden cero Parcial Semiparcial
(Constante) -8,88 7,54 -1,18 ,257
Basal ,40 ,11 ,47 3,82 ,001 ,68 ,69 ,44
Edad -,01 ,11 -,01 -,07 ,947 -,58 -,02 -,01
Tratamiento 4,93 1,56 ,61 3,16 ,006 ,77 ,62 ,36
Tabla 10.6. Coeficientes de regresin y coeficientes de correlacin parcial y semiparcial (basal, tto)
Modelo: 1
Coeficientes no Coeficientes
tipificados tipificados Correlaciones
B Error tp. Beta t Sig. Orden cero Parcial Semiparcial
(Constante) -9,35 2,87 -3,26 ,005
Basal ,40 ,10 ,47 3,96 ,001 ,68 ,69 ,44
Tratamiento 5,01 ,96 ,62 5,23 ,000 ,77 ,79 ,58
sin estn linealmente relacionadas con la dependiente. Para esto utilizamos diagramas de
dispersin parcial. Para obtener estos diagramas,
' En el cuadro de dilogo principal, pulsar el botn Grficos para acceder al subcuadro de
dilogo Regresin lineal: Grficos y marcar la opcin Generar todos los grficos parciales.
Esta opcin permite obtener un grfico de dispersin parcial por cada variable independiente.
Los diagramas correspondientes a las variables basal y edad ya los hemos presentado en la
Figura 10.10. All tuvimos ocasin de comprobar que la relacin parcializada entre basal y
recuperacin contiene un componente lineal que no se observa en la relacin parcializada en-
tre edad y recuperacin. La informacin que ofrecen estos grficos parciales es exactamen-
te la misma que la que ofrecen los coeficientes de correlacin parcial (ver Tabla 10.5). Y la
significacin estadstica de estos coeficientes de correlacin parcial es idntica a la de los
correspondientes coeficientes de regresin B j . En nuestro ejemplo, la relacin parcializada
entre la edad y la recuperacin no es significativa ( sig. = 0,947). Y esto indica que, una vez
eliminado el efecto atribuible a basal y tratamiento, no existe evidencia de relacin lineal
entre edad y recuperacin (ver nota a pie de pgina nmero 19).
Para chequear el supuesto de no colinealidad hay que valorar el grado de relacin lineal
existente entre las variables independientes. En nuestro ejemplo no se observa ninguno de los
indicios que podran delatar la presencia de elevada colinealidad: no hay incongruencia en-
tre la significa cin del estadstico F y la de los coeficientes de regresin (el estadstico F es
significativo y tambin lo son algunos de los coeficientes de regresin); no existen coefi-
cientes de regresin con signo distinto del esperado (todos los coeficientes de regresin tienen
el mismo signo que las correlaciones de orden cero); y no existen coeficientes de regresin
tipificados mayores que uno en valor absoluto. Adems de estos sencillos indicios, conviene
revisar algunos estadsticos relacionados con este supuesto de no colinealidad; en concreto,
los niveles de tolerancia y los factores de inflacin de la varianza. Para ello,
' En el cuadro de dilogo principal, pulsar el botn Estadsticos para acceder al subcuadro
de dilogo Regresin lineal: Estadsticos y marcar la opcin Diagnsticos de colinealidad.
Con esta opcin, la tabla de coeficientes (ver Tabla 10.4) incluye informacin adicional (ver
Tabla 10.7); en concreto, los niveles de tolerancia y los factores de inflacin de la varianza
(FIV ). Recordemos que los posibles problemas asociados a un exceso de colinealidad solo
empiezan a aparecer con tolerancias pequeas (menores que 0,10) y valores FIV grandes
(mayores que 10). No parece que en nuestro ejemplo haya problemas de colinealidad33.
33
Al solicitar los diagnsticos de colinealidad tambin se obtiene una tabla con autovalores, ndices de condicin y propor-
ciones de varianza. Una explicacin detallada de estos estadsticos excede el alcance de este manual, pero es posible enten-
derlos e interpretarlos con una breve explicacin. En primer lugar se lleva a cabo un anlisis de componentes principales
para identificar las variables independientes que correlacionan entre s (se trata de una tcnica de reduccin de datos en la
que el primer componente es la combinacin entre variables que explica la mayor cantidad de la variabilidad total; el segun-
do componente es la combinacin entre variables que, adems de ser independiente de la anterior, explica la mayor cantidad
de la variabilidad restante; etc.). Los autovalores indican la cantidad de varianza que explica cada componente; si uno o
ms autovalores valen cero, entonces una o ms variables estn perfectamente relacionadas entre s (colinealidad perfecta).
Los ndices de condicin son las races cuadradas de los cocientes entre el autovalor ms grande y el autovalor de cada com-
ponente; por lo general, un ndice mayor que 15 suele estar delatando un problema de colinealidad; y un ndice mayor que
30 suele ir asociado a graves problemas de colinealidad. Las proporciones de varianza indican qu proporcin de la va-
rianza de cada coeficiente de regresin est asociada a cada componente; existen problemas de colinealidad cuando un mis-
mo componente explica ms del 50 % de la varianza de al menos dos coeficientes de regresin (excluida la interseccin).
418 Anlisis de datos (vol. II)
' En el cuadro de dilogo principal, pulsar el botn Grficos para acceder al subcuadro de
dilogo Regresin lineal: Grficos y marcar las opciones Histograma y Grfico de probabi-
lidad normal del recuadro Grficos de los residuos tipificados.
En el histograma de los residuos hay que vigilar, sobre todo, si existen residuos que se alejan
excesivamente por una de las dos colas de la distribucin. Se tratara de casos mal pronos-
ticados (probablemente atpicos en Y ), que estaran causando un alejamiento serio de la nor-
malidad. El histograma de nuestro ejemplo (ver Figura 10.17, grfico de la izquierda) indica
que faltan casos por la cola izquierda de la distribucin; pero no se observan residuos muy
alejados del centro por ninguna de las dos colas.
En un grfico de probabilidad normal (Figura 10.17, grfico de la derecha) se comparan
las probabilidades observadas con las probabilidades tericas de una distribucin normal. En
el eje horizontal estn representadas las probabilidades acumuladas hasta cada residuo, orde-
nados stos desde el ms pequeo al ms grande; en el eje vertical estn representadas las pro-
babilidades normales acumuladas hasta la puntuacin tpica correspondiente a cada residuo.
Cuando una distribucin emprica se aproxima a una distribucin terica normal, los puntos
del diagrama se encuentran alineados en torno a la diagonal representada en el diagrama. Las
desviaciones de la diagonal indican desviaciones de la normalidad. En el diagrama de nuestro
ejemplo se observa cierto alejamiento de la normalidad en la parte inferior de la distribucin.
Tambin es posible contrastar la hiptesis de normalidad con alguno de los estadsticos
propuestos en el apartado Contrastes sobre bondad de ajuste del Captulo 2 (sin olvidar que
estos estadsticos son demasiado sensibles a pequeas desviaciones de la normalidad, parti-
cularmente con muestras grandes).
' En el cuadro de dilogo principal, pulsar el botn Grficos para acceder al subcuadro de
dilogo Regresin lineal: Grficos y trasladar la variable *ZPRED al eje X y la variable
*ZRESID al eje Y (el asterisco colocado delante del nombre de la variable indica que se
trata de variables del sistema; no son variables del archivo de datos).
La Figura 10.18 muestra una nube de puntos homogneamente dispersa (aproximadamente)
a lo largo del eje horizontal. Quiz es menor la dispersin asociada a los pronsticos tipifi-
cados prximos a cero, pero no se observa un incumplimiento serio del supuesto de homoce-
dasticidad.
34
La distancia de Mahalanobis (1936) disponible en este recuadro se obtiene multiplicando por n ! 1 la medida de influen-
cia h i. La informacin que ofrece, por tanto, es idntica a la que ofrece h i (ver Stevens, 1984).
35
La razn entre covarianzas (RV) que incluye este recuadro es tambin un estadstico de influencia. Se obtiene dividien-
do los determinantes de las matrices de varianzas-covarianzas (base del anlisis de regresin) cuando el caso est presente
en la ecuacin y cuando se elimina. Este cociente vale aproximadamente 1 cuando un caso no es influyente. Con muestras
grandes, se considera que un caso es influyente si le corresponde un valor RV mayor que 1 + 3 p / n o menor que 1 ! 3 p / n.
Captulo 10. Anlisis de regresin lineal 421
cadas genera una variable por cada coeficiente de regresin (incluida la interseccin). No es
necesario revisar estas variables caso a caso; esto puede hacerse utilizando cualquiera de los
procedimientos SPSS disponibles para explorar variables.
Adems, el SPSS ofrece, como parte de los resultados del anlisis de regresin, una tabla
resumen con informacin sobre algunas de estas variables. La Tabla 10.8 muestra estos resul-
tados. Los residuos studentizados toman valores comprendidos entre !1,16 y 2,14; puesto
que no hay residuos mayores que 3 en valor absoluto, no parece que haya casos atpicos en
Y. El valor de influencia ms alto (aparece en la tabla como valor de influencia centrado)
vale 0,32; por tanto, tampoco parece que haya casos atpicos en X j (recordemos que los
valores menores que 0,50 no suelen ser problemticos). La distancia de Cook ms alta vale
0,68; por tanto, no parece que haya que preocuparse por la presencia de puntos influyentes
(recordemos que los valores menores que 1 no son problemticos). Y los residuos eliminados
studentizados oscilan entre !1,17 y 2,46; tampoco estos residuos detectan casos influyentes
(adems, eliminando la variable edad de la ecuacin, puede comprobarse que el residuo stu-
dentizado ms grande vale 1,92, el valor de influencia ms alto 0,23, la distancia de Cook
ms alta 0,26 y el residuo eliminado studentizado ms grande 2,10).
La tabla no incluye las diferencias entre los coeficientes de regresin (DFBETAS j (i) ) ni
las diferencias entre los pronsticos (DFFITS (i) ). Para revisar estos estadsticos hay que
recurrir a las variables creadas en el archivo de datos (lo cual solamente ser necesario si el
valor absoluto de algn residuo eliminado studentizado es mayor que tres o alguna distancia
de Cook mayor que uno).
Tabla 10.8. Resumen descriptivo de algunas variables creadas por el procedimiento Regresin lineal
Mnimo Mximo Media Desviacin tp. N
Valor pronosticado 4,12 16,00 9,95 3,71 20
Valor pronosticado tipificado -1,57 1,63 ,00 1,00 20
Error tpico del valor pronosticado ,67 1,27 ,91 ,17 20
Valor pronosticado corregido 2,38 16,00 9,87 3,85 20
Residuo bruto -2,12 3,57 ,00 1,91 20
Residuo tipificado -1,02 1,72 ,00 ,92 20
Residuo studentizado -1,16 2,14 ,02 1,05 20
Residuo eliminado -2,73 5,62 ,08 2,51 20
Residuo eliminado studentizado -1,17 2,46 ,05 1,11 20
Distancia de Mahalanobis 1,03 6,13 2,85 1,42 20
Distancia de Cook ,00 ,68 ,09 ,15 20
Valor de influencia centrado ,05 ,32 ,15 ,07 20
Este apartado muestra cmo construir una ecuacin de regresin por pasos con los datos de
la Tabla 10.1 (los datos se encuentran en el archivo Tabla 10.1 depresin hamilton reducido).
nicamente prestaremos atencin a los aspectos caractersticos de esta forma de proce-
der: cmo se van seleccionando las variables y cmo va aumentando el coeficiente de deter-
minacin en cada paso. Para todo lo dems (ecuacin de regresin, bondad de ajuste, signi-
ficacin de los coeficientes, obtencin de pronsticos, importancia relativa de las variables,
422 Anlisis de datos (vol. II)
Estadsticos de cambio
R R cuadrado Error tp. de la Cambio en F del Sig. de la F
Modelo R cuadrado corregida estimacin R cuadrado cambio gl1 gl2 del cambio
a
1 ,77 ,60 ,58 2,71 ,60 26,96 1 18 ,000
2 ,89b ,79 ,77 2,01 ,19 15,66 1 17 ,001
a. Variables predictoras: (Constante), Tratamiento.
b. Variables predictoras: (Constante), Tratamiento, Basal.
Los estadsticos F de la Tabla 10.10 permiten contrastar, en cada paso, la hiptesis nula de
que el coeficiente de determinacin vale cero en la poblacin. Estas hiptesis se refieren a
la ecuacin completa en cada paso; lo cual no debe confundirse con las hiptesis contrasta-
das con los estadsticos F de la Tabla 10.9, los cuales se refieren al cambio o aumento que
experimenta R cuadrado al ir incorporando nuevas variables a la ecuacin (Algina y Ke-
selman, 1999, proponen otra forma de comparar coeficientes de determinacin).
Captulo 10. Anlisis de regresin lineal 423
Tabla 10.11. Coeficientes de regresin (con los coeficientes de correlacin parcial y semiparcial)
Coeficientes no Coef.
estandarizados estand. Correlaciones
Modelo B Error tp. Beta t Sig. Orden cero Parcial Semiparcial
1 (Constante) ,50 1,92 ,26 ,797
Tratamiento 6,30 1,21 ,77 5,19 ,000 ,77 ,77 ,77
2 (Constante) -9,35 2,87 -3,26 ,005
Tratamiento 5,01 ,96 ,62 5,23 ,000 ,77 ,79 ,58
Basal ,40 ,10 ,47 3,96 ,001 ,68 ,69 ,44
Comentarios finales
Validacin de una ecuacin de regresin
Recordemos que los coeficientes de una ecuacin de regresin lineal se estiman aplicando el
criterio de mnimos cuadrados, el cual consiste en minimizar los residuos (errores de predic-
cin). Puesto que los residuos no son ms que las diferencias entre los pronsticos y los va-
lores observados, esta forma de estimar los coeficientes de la ecuacin de regresin hace que
el ajuste que se obtiene con la muestra concreta utilizada sea mejor que el que se obtiene con
Captulo 10. Anlisis de regresin lineal 425
cualquier otra muestra. De ah la importancia de que los errores tpicos de las estimaciones
sean pequeos. Cuanto ms pequeos son, mayor parecido cabe esperar encontrar entre las
estimaciones que se obtienen y las que podran obtenerse en una muestra distinta.
Este argumento sugiere que una ecuacin de regresin puede validarse utilizando casos
nuevos. Para ello, basta con obtener los pronsticos para esos casos nuevos y, a continuacin,
calcular el coeficiente de correlacin entre los valores observados en la variable dependiente
y los valores pronosticados para esos casos nuevos. En teora, el coeficiente de correlacin
as obtenido debera ser igual al coeficiente de correlacin mltiple del anlisis de regresin.
En la prctica, si la ecuacin es lo bastante buena, se observarn pequeas diferencias entre
ambos coeficientes atribuibles nicamente al azar muestral. Por supuesto, los nuevos casos
deben representar a las mismas poblaciones que los casos originalmente utilizados para es-
timar la ecuacin de regresin.
Si no se tiene acceso a nuevos casos o resulta difcil obtenerlos, todava es posible validar
una ecuacin de regresin si la muestra es lo bastante grande. Basta con utilizar la mitad de
los casos de la muestra (aleatoriamente seleccionados) para obtener la ecuacin de regresin
y la otra mitad de la muestra para efectuar los pronsticos. Una buena ecuacin debera lle-
var a obtener una correlacin similar entre los valores observados y los pronosticados de
ambas mitades.
Apndice 10
Regresin curvilnea
El anlisis de regresin lineal nicamente es una forma particular de regresin. Y, aunque es, quiz,
la forma de regresin ms utilizada, existen funciones no lineales que pueden resultar tiles para
abordar determinados problemas. Se sabe, por ejemplo, que al intentar resolver una tarea compleja, los
sujetos excesivamente ansiosos y los muy relajados rinden peor que los sujetos que mantienen niveles
de ansiedad intermedios; es decir, se sabe que la relacin existente entre la ansiedad y el rendimiento
no es lineal, sino cuadrtica. Por tanto, si se desea pronosticar el rendimiento a partir del nivel de an-
siedad, una ecuacin cuadrtica ofrecer mejores pronsticos que una ecuacin lineal.
La nube de puntos de la Figura 10.19 representa la relacin entre las variables ansiedad (medi-
da en una escala de 0 a 7) y rendimiento (medida en una escala de 0 a 100). Los datos corresponden
a una muestra de 25 sujetos (estos datos se encuentran en el archivo Tabla 10.14 ansiedad rendimien-
to, en la pgina web del manual). La forma de la nube de puntos revela que el tipo de relacin subya-
cente no es de tipo lineal. De hecho, la variable ansiedad no correlaciona linealmente con la variable
rendimiento (RXY = 0,21; sig. = 0,306).
Para ajustar cualquiera de las ecuaciones de regresin del procedimiento Estimacin curvilnea con
las variables ansiedad y rendimiento (archivo Tabla 10.14 ansiedad rendimiento),
' En el cuadro de dilogo Estimacin curvilnea, trasladar la variable rendimiento a la lista Depen-
dientes y la variable ansiedad al cuadro Independiente (Variable).
' Marcar las opciones Lineal, Logartmico y Cuadrtico del recuadro Modelos.
Aceptando estas elecciones, el Visor ofrece, entre otros, los resultados que muestra la Tabla 10.14 y la
Figura 10.20. La Tabla 10.14 contiene los resultados del anlisis: la ecuacin estimada, el cuadrado del
coeficiente de correlacin (coeficiente de determinacin) entre los valores de la variable dependiente
y los valores pronosticados por cada ecuacin (R cuadrado), el estadstico F con sus grados de libertad,
la significacin del estadstico F y las estimaciones correspondientes a los parmetros de cada ecuacin
(b0, b1, etc.).
Las tres ecuaciones solicitadas ofrecen diferente grado de ajuste a los datos. Con la ecuacin lineal
se obtiene un coeficiente de determinacin de 0,05. Al contrastar con el estadstico F la hiptesis de
que este coeficiente vale cero en la poblacin, se obtiene un nivel crtico mayor que 0,05 (sig = 0,306),
por lo que no puede rechazarse la hiptesis de relacin lineal nula. Puede concluirse, por tanto, que no
existe evidencia de relacin lineal (la ecuacin lineal no permite obtener un buen ajuste a los datos).
Con la ecuacin logartmica se obtiene mejor ajuste que con la lineal. De hecho, el estadstico F
tiene asociado un nivel crtico (sig. = 0,030) que permite rechazar la hiptesis de relacin nula. No
obstante, el coeficiente de determinacin toma un valor ms bien discreto (0,19).
Por ltimo, con la ecuacin cuadrtica no se obtiene un estadstico F cuyo nivel crtico lleva al
rechazo de la hiptesis nula de independencia (sig. < 0,0005) y el coeficiente de determinacin toma
un valor de 0,57. Por tanto, puede concluirse que, en la relacin entre ansiedad y rendimiento, existe
un componente cuadrtico significativo: la ansiedad explica (comparte) el 57,3 % de la variabilidad del
rendimiento.
Cuanto mayor es el nmero de trminos que incluye una ecuacin, mayor es tambin el valor del coefi-
ciente de determinacin R 2. Por tanto, en una situacin dada, el valor de R 2 ser menor en una ecuacin
lineal que en una ecuacin cuadrtica, y menor en sta que en una ecuacin cbica. Sin embargo, esto
no significa que una ecuacin con ms trminos sea mejor. La ecuacin ideal es aquella que es capaz
de explicar la mayor cantidad de varianza con el menor nmero de trminos; y para encontrar esa ecua-
cin suele resultar muy til valorar la significacin de cada trmino por separado.
En el ejemplo, de las tres ecuaciones seleccionadas, dos de ellas ofrecen un ajuste significativo
a los datos: la logartmica y la cuadrtica. Aunque la logartmica tiene menos trminos y ofrece un ajus-
te significativo (podra ser preferida por su simplicidad), ocurre que el ajuste de la ecuacin cuadrti-
ca (el coeficiente de determinacin) es mucho mejor que el de la logartmica (0,57 frente a 0,19).
La nube de puntos tambin suele ayudar a elegir la mejor ecuacin. La Figura 10.20 muestra el dia-
grama de dispersin de las variables ansiedad y rendimiento con las curvas (pronsticos) correspon-
dientes a las tres ecuaciones solicitadas (ver Figura 10.20). En el diagrama se aprecia con claridad que
los pronsticos de la ecuacin cuadrtica hacen un seguimiento de la nube de puntos sensiblemente
mejor que el que hacen los pronsticos de las ecuaciones lineal y logartmica.
428 Anlisis de datos (vol. II)
Figura 10.20. Diagrama de dispersin: ansiedad por rendimiento (con curvas lineal, logartmica y cuadrtica)
Marcando la opcin Mostrar tabla de ANOVA y seleccionando nicamente la ecuacin Cuadrtica se obtie-
ne informacin adicional que incluye, entre otras cosas, pruebas de significacin para cada uno de los
coeficientes estimados.
La Tabla 10.15 contiene un resumen del anlisis idntico al que se obtiene con el anlisis de regre-
sin lineal (ver Tabla 10.2). La Tabla 10.16 ofrece el estadstico F para el contraste de la hiptesis nula
de que la relacin estudiada (en este caso, la cuadrtica) vale cero en la poblacin; puesto que el nivel
crtico es muy pequeo (sig. < 0,0005), se puede rechazar la hiptesis nula y concluir que en la relacin
entre ansiedad y rendimiento existe un componente cuadrtico significativo. Por ltimo, la Tabla 10.17
contiene las estimaciones de los coeficientes de la ecuacin cuadrtica junto con su error tpico, su va-
lor tipificado y un estadstico T que permite contrastar la hiptesis nula de que el correspondiente
coeficiente vale cero en la poblacin. Los resultados indican que tanto el trmino constante como los
dos trminos asociados a la variable ansiedad (ansiedad y ansiedad**2), son significativamente dis-
tintos de cero (en todos ellos, sig. < 0,0005).
Para una explicacin ms detallada de todos estos estadsticos pueden revisarse los comentarios
ya hechos a propsito de las Tablas 10.2, 10.3 y 10.4.
10.1 La siguiente tabla muestra el resultado obtenido con una muestra de 10 estudiantes de enseanza se-
cundaria al medir dos variables: X = promedio de horas de estudio semanales e Y = rendimiento
acadmico (cuantificado como la suma de las calificaciones obtenidas en 7 asignaturas):
Sujetos 1 2 3 4 5 6 7 8 9 10
Xi 5 5 6 6 6 7 7 11 11 16
Yi 25 30 30 35 45 40 45 55 60 65
10.2. Abrir el archivo SPSS GSS93 reducido (se encuentra en la carpeta de ejemplos que se instala con el
programa). Estamos interesados en pronosticar el ndice socioeconmico del encuestado (indsocec) a
partir de la edad del encuestado (edad ) y de los aos de escolarizacin (educ).
a. Calcular la ecuacin de regresin de Y sobre X en puntuaciones directas.
b. Interpretar los coeficientes de regresin B1 y B2 .
c. Puede afirmarse que la edad y los aos de escolarizacin estn relacionados con el ndice socio-
econmico? ( = 0,05).
d. Cul de las dos variables independientes tiene mayor peso (importancia relativa) en la ecuacin
de regresin? Por qu?
e. Qu puede decirse acerca de la calidad del ajuste de la ecuacin de regresin?
f. Es razonable asumir que los residuos se distribuyen normalmente? Por qu?
g. Es razonable asumir que las varianzas de los residuos son homogneas? Por qu?
h. Existen problemas de colinealidad? Por qu?
i. Hay algn caso que pueda calificarse de influyente? Por qu?
10.3. Abrir el archivo SPSS Coches (se encuentra en la carpeta de ejemplos que se instala con el programa).
Queremos construir un modelo de regresin por pasos (pasos sucesivos) que permita pronosticar el
consumo de los vehculos a partir de su cilindrada (motor), su potencia (cv), su peso (peso) y su acele-
racin (acel).
a. Cuntos pasos ha dado el procedimiento?
b. Qu variables incluye el modelo final?
430 Anlisis de datos (vol. II)
c. En ese modelo final, qu variable tiene ms peso (importancia relativa) desde el punto de vista de
su contribucin a los pronsticos?
d. Qu variable tiene ms peso (importancia relativa) desde el punto de vista de su contribucin al
ajuste de la ecuacin de regresin?
e. Qu porcentaje de varianza explica la ecuacin final?
f. Qu caso(s) tiene(n) residuo(s) atpicamente alto(s)?
g. Existe algn indicio que haga sospechar de la posible presencia de colinealidad?
h. Hay algn caso que pueda calificarse de influyente? Por qu?
10.4. Se ha llevado a cabo un anlisis de regresin lineal utilizando la edad como variable independiente y
el grado de conservadurismo como dependiente. En una muestra aleatoria de 11 personas se han en-
contrado los siguientes resultados:
FV SC gl MC F p
Regresin ( ) ( ) ( ) ( ) 0,003
Error ( ) ( ) 4
Total 100 ( )
10.5. Tratando de contrastar la hiptesis de que la intensidad luminosa (X ) est relacionada de forma directa
(positiva) con el rendimiento en una prueba de discriminacin (Y ), se ha utilizado el correspondiente
coeficiente de regresin parcial. Al valorar la significacin de ese coeficiente en una muestra aleatoria
de 15 individuos se ha obtenido un valor T = 1,562. Sabiendo que P (T $ < 1,562) = 0,93 y utilizando un
nivel de confianza de 0,99,
a. Qu hiptesis nula se est contrastando?
b. Puede rechazarse esa hiptesis? Por cul de los siguientes motivos?:
( ) P (T $
> 1,562) < 0,01; ( ) P (T $
> 1,562) > 0,01; ( ) P (T $ $ 1,562) > 0,01.
< 1,562) < 0,01; ( ) P (T <
c. Puede afirmarse que las variables estn linealmente relacionadas?
10.6. Al utilizar el estadstico F para analizar la relacin lineal entre dos variables se han obtenido los resul-
tados que muestra la siguiente tabla:
FV SC gl MC F
Regresin 90 ( ) ( ) ( )
Error ( ) ( ) ( )
Total 330 9
10.7. A continuacin se ofrecen dos tablas. La primera contiene las puntuaciones diferenciales o de desvia-
cin de 5 sujetos en las variables X e Y. La segunda es la tabla resumen del ANOVA correspondiente
al anlisis de regresin lineal simple. Sabiendo que la ecuacin de regresin es: = 0,9 , completar
ambas tablas.
Sujetos 1 2 3 4 5 FV SC gl MC F
x 2 !2 0 1 ( ) Regresin ( ) ( ) ( ) ( )
y 2 !1 0 1 ( ) No regresin ( ) ( ) ( )
( ) ( ) ( ) ( ) ( ) Total ( ) ( )
10.8. Antes de llevar a cabo un anlisis de regresin lineal de Y sobre X1, X2 y X3 se ha calculado la matriz
de correlaciones entre las variables, con el siguiente resultado:
X1 X2 X3
Correlacin de Pearson 0,850 !0,879 !0,041
Y Sig. (bilateral) 0,000 0,000 0,899
n 12 12 12
Correlacin de Pearson !0,961 0,184
X1 Sig. (bilateral) 0,000 0,548
n 12 12
X2 Correlacin de Pearson !0,70
Sig. (bilateral) 0,830
n 12
10.9. A continuacin se ofrecen dos tablas con los resultados parciales de un anlisis de regresin lineal de
Y sobre X. Se ha utilizado una muestra aleatoria de 20 sujetos. La primera tabla contiene las puntua-
ciones de 2 sujetos en X y las puntuaciones pronosticadas en Y a esos mismos 2 sujetos. La segunda
tabla contiene la tabla resumen del ANOVA (incompleta).
Sujetos 1 2 FV SC gl MC F
X !1 0 Regresin ( ) ( ) 20 2
2 3 Error ( ) ( ) ( )
Total 200 ( )
432 Anlisis de datos (vol. II)
a. Completar la tabla rellenando las casillas donde aparecen parntesis.
b. Obtener la ecuacin de regresin de Y sobre X.
10.10. En un anlisis de regresin lineal de Y sobre X se ha obtenido = 2,56. Cul de las siguientes
afirmaciones es correcta sabiendo que P ( > 2,56) < 0,02?
a. Se mantiene H0 con = 0,05.
b. Se rechaza H0 porque 2,56 > 0,02.
c. Con = 0,05, puede afirmarse que X e Y no estn linealmente relacionadas.
d. Con = 0,05, puede afirmarse que X e Y estn linealmente relacionadas.
e. La pendiente de la recta de regresin vale cero en la poblacin.
10.11. Se puede llegar a la conclusin de que dos variables estn linealmente relacionadas mediante... (elegir
la/s alternativa/s correcta/s)
a. Un ANOVA, con F = 5,6 ( p < 0,05).
b. Un anlisis de regresin lineal, al mantener H0 : 1 = 0.
c. Un anlisis de regresin lineal, con = 4,2 tal que P (T $
< 4,2) > 0,999.
d. Unas comparaciones de tendencia con Flineal = 2,1 ( p > 0,05).
e. Ninguna de las alternativas anteriores es correcta.
10.12. En un anlisis de regresin lineal de Y sobre X... (elegir la/s alternativa/s correcta/s)
a. El coeficiente 0 representa el efecto de X.
b. El coeficiente 1 representa el efecto de Y.
c. El coeficiente 1 representa el efecto del factor B.
d. Si el coeficiente 1 vale cero, entonces la relacin entre X e Y es cuadrtica.
e. Ninguna de las alternativas anteriores es correcta.
Apndice final
Tablas estadsticas
Tabla A
Distribuciones binomiales
Probabilidades acumuladas hasta n1 = nmero de xitos en cada distribucin B (n, 1),
con n = nmero de ensayos y 1 = probabilidad de xito
1
n n1 0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95
1 0 0,950 0,900 0,800 0,700 0,600 0,500 0,400 0,300 0,200 0,100 0,050
1 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
2 0 0,902 0,810 0,640 0,490 0,360 0,250 0,160 0,090 0,040 0,010 0,002
1 0,997 0,990 0,960 0,910 0,840 0,750 0,640 0,510 0,360 0,190 0,097
2 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
3 0 0,857 0,729 0,512 0,343 0,216 0,125 0,064 0,027 0,008 0,001 0,000
1 0,993 0,972 0,896 0,784 0,648 0,500 0,352 0,216 0,104 0,028 0,007
2 1,000 0,999 0,992 0,973 0,936 0,875 0,784 0,657 0,488 0,271 0,143
3 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
4 0 0,815 0,656 0,410 0,240 0,130 0,063 0,026 0,008 0,002 0,000 0,000
1 0,986 0,948 0,819 0,652 0,475 0,313 0,179 0,084 0,027 0,004 0,000
2 1,000 0,996 0,973 0,916 0,821 0,688 0,525 0,348 0,181 0,052 0,014
3 1,000 1,000 0,998 0,992 0,974 0,938 0,870 0,760 0,590 0,344 0,185
4 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
5 0 0,774 0,590 0,328 0,168 0,078 0,031 0,010 0,002 0,000 0,000 0,000
1 0,977 0,919 0,737 0,528 0,337 0,188 0,087 0,031 0,007 0,000 0,000
2 0,999 0,991 0,942 0,837 0,683 0,500 0,317 0,163 0,058 0,009 0,001
3 1,000 1,000 0,993 0,969 0,913 0,813 0,663 0,472 0,263 0,081 0,023
4 1,000 1,000 1,000 0,998 0,990 0,969 0,922 0,832 0,672 0,410 0,226
5 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
6 0 0,735 0,531 0,262 0,118 0,047 0,016 0,004 0,001 0,000 0,000 0,000
1 0,967 0,886 0,655 0,420 0,233 0,109 0,041 0,011 0,002 0,000 0,000
2 0,998 0,984 0,901 0,744 0,544 0,344 0,179 0,070 0,017 0,001 0,000
3 1,000 0,999 0,983 0,930 0,821 0,656 0,456 0,256 0,099 0,016 0,002
4 1,000 1,000 0,998 0,989 0,959 0,891 0,767 0,580 0,345 0,114 0,033
5 1,000 1,000 1,000 0,999 0,996 0,984 0,953 0,882 0,738 0,469 0,265
6 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
7 0 0,698 0,478 0,210 0,082 0,028 0,008 0,002 0,000 0,000 0,000 0,000
1 0,956 0,850 0,577 0,329 0,159 0,063 0,019 0,004 0,000 0,000 0,000
2 0,996 0,974 0,852 0,647 0,420 0,227 0,096 0,029 0,005 0,000 0,000
3 1,000 0,997 0,967 0,874 0,710 0,500 0,290 0,126 0,033 0,003 0,000
4 1,000 1,000 0,995 0,971 0,904 0,773 0,580 0,353 0,148 0,026 0,004
5 1,000 1,000 1,000 0,996 0,981 0,938 0,841 0,671 0,423 0,150 0,044
6 1,000 1,000 1,000 1,000 0,998 0,992 0,972 0,918 0,790 0,522 0,302
7 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
Apndice final. Tablas estadsticas 435
Tabla A (continuacin)
1
n n1 0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95
8 0 0,663 0,430 0168 0,058 0,017 0,004 0,001 0,000 0,000 0,000 0,000
1 0,943 0,813 0,503 0,255 0,106 0,035 0,009 0,001 0,000 0,000 0,000
2 0,994 0,962 0,797 0,552 0,315 0,145 0,050 0,011 0,001 0,000 0,000
3 1,000 0,995 0,944 0,806 0,594 0,363 0,174 0,058 0,010 0,000 0,000
4 1,000 1,000 0,990 0,942 0,826 0,637 0,406 0,194 0,056 0,005 0,000
5 1,000 1,000 0,999 0,989 0,950 0,855 0,685 0,448 0,203 0,038 0,006
6 1,000 1,000 1,000 0,999 0,991 0,965 0,894 0,745 0,497 0,187 0,057
7 1,000 1,000 1,000 1,000 0,999 0,996 0,983 0,942 0,832 0,570 0,337
8 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
9 0 0,630 0,387 0134 0,040 0,010 0,002 0,000 0,000 0,000 0,000 0,000
1 0,929 0,775 0,436 0,196 0,071 0,020 0,004 0,000 0,000 0,000 0,000
2 0,992 0,947 0,738 0,463 0,232 0,090 0,025 0,004 0,000 0,000 0,000
3 0,999 0,992 0,914 0,730 0,483 0,254 0,099 0,025 0,003 0,000 0,000
4 1,000 0,999 0,980 0,901 0,733 0,500 0,267 0,099 0,020 0,001 0,000
5 1,000 1,000 0,997 0,975 0,901 0,746 0,517 0,270 0,086 0,008 0,001
6 1,000 1,000 1,000 0,996 0,975 0,910 0,768 0,537 0,262 0,053 0,008
7 1,000 1,000 1,000 1,000 0,996 0,980 0,929 0,804 0,564 0,225 0,071
8 1,000 1,000 1,000 1,000 1,000 0,998 0,990 0,960 0,866 0,613 0,370
9 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
10 0 0,599 0,349 0,107 0,028 0,006 0,001 0,000 0,000 0,000 0,000 0,000
1 0,914 0,736 0,376 0,149 0,046 0,011 0,002 0,000 0,000 0,000 0,000
2 0,988 0,930 0,678 0,383 0,167 0,055 0,012 0,002 0,000 0,000 0,000
3 0,999 0,987 0,879 0,650 0,382 0,172 0,055 0,011 0,001 0,000 0,000
4 1,000 0,998 0,967 0,850 0,633 0,377 0,166 0,047 0,006 0,000 0,000
5 1,000 1,000 0,994 0,953 0,834 0,623 0,367 0,150 0,033 0,002 0,000
6 1,000 1,000 0,999 0,989 0,945 0,828 0,618 0,350 0,121 0,013 0,0001
7 1,000 1,000 1,000 0,998 0,988 0,945 0,833 0,617 0,322 0,070 0,012
8 1,000 1,000 1,000 1,000 0,998 0,989 0,954 0,851 0,624 0,264 0,086
9 1,000 1,000 1,000 1,000 1,000 0,999 0,994 0,972 0,893 0,651 0,401
10 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
11 0 0,569 0,314 0,086 0,020 0,004 0,000 0,000 0,000 0,000 0,000 0,000
1 0,898 0,697 0,322 0,113 0,030 0,006 0,001 0,000 0,000 0,000 0,000
2 0,985 0,910 0,617 0,313 0,119 0,033 0,006 0,001 0,000 0,000 0,000
3 0,998 0,981 0,839 0,570 0,296 0,113 0,029 0,004 0,000 0,000 0,000
4 1,000 0,997 0,950 0,790 0,533 0,274 0,099 0,022 0,002 0,000 0,000
5 1,000 1,000 0,988 0,922 0,753 0,500 0,247 0,078 0,012 0,000 0,000
6 1,000 1,000 0,998 0,978 0,901 0,726 0,467 0,210 0,050 0,003 0,000
7 1,000 1,000 1,000 0,996 0,971 0,887 0,704 0,430 0,161 0,019 0,002
8 1,000 1,000 1,000 0,999 0,994 0,967 0,881 0,687 0,383 0,090 0,015
9 1,000 1,000 1,000 1,000 0,999 0,994 0,970 0,887 0,678 0,303 0,102
10 1,000 1,000 1,000 1,000 1,000 1,000 0,996 0,980 0,914 0,686 0,431
11 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
436 Anlisis de datos (vol. II)
Tabla A (continuacin)
1
n n1 0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95
12 0 0,540 0,282 0,069 0,014 0,002 0,000 0,000 0,000 0,000 0,000 0,000
1 0,882 0,659 0,275 0,085 0,020 0,003 0,000 0,000 0,000 0,000 0,000
2 0,980 0,889 0,558 0,253 0,083 0,019 0,003 0,000 0,000 0,000 0,000
3 0,998 0,974 0,795 0,493 0,225 0,073 0,015 0,002 0,000 0,000 0,000
4 1,000 0,996 0,927 0,724 0,438 0,194 0,057 0,009 0,001 0,000 0,000
5 1,000 0,999 0,981 0,882 0,665 0,387 0,158 0,039 0,004 0,000 0,000
6 1,000 1,000 0,996 0,961 0,842 0,613 0,335 0,118 0,019 0,001 0,000
7 1,000 1,000 0,999 0,991 0,943 0,806 0,562 0,276 0,073 0,004 0,000
8 1,000 1,000 1,000 0,998 0,985 0,927 0,775 0,507 0,205 0,026 0,002
9 1,000 1,000 1,000 1,000 0,997 0,981 0,917 0,747 0,442 0,111 0,020
10 1,000 1,000 1,000 1,000 1,000 0,997 0,980 0,915 0,725 0,341 0,118
11 1,000 1,000 1,000 1,000 1,000 1,000 0,998 0,986 0,931 0,718 0,460
12 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
13 0 0,513 0,254 0,055 0,010 0,001 0,000 0,000 0,000 0,000 0,000 0,000
1 0,865 0,621 0,234 0,064 0,013 0,002 0,000 0,000 0,000 0,000 0,000
2 0,975 0,866 0,502 0,202 0,058 0,011 0,001 0,000 0,000 0,000 0,000
3 0,997 0,966 0,747 0,421 0,169 0,046 0,008 0,001 0,000 0,000 0,000
4 1,000 0,994 0,901 0,654 0,353 0,133 0,032 0,004 0,000 0,000 0,000
5 1,000 0,999 0,970 0,835 0,574 0,291 0,098 0,018 0,001 0,000 0,000
6 1,000 1,000 0,993 0,938 0,771 0,500 0,229 0,062 0,007 0,000 0,000
7 1,000 1,000 0,999 0,982 0,902 0,709 0,426 0,165 0,030 0,001 0,000
8 1,000 1,000 1,000 0,996 0,968 0,867 0,647 0,346 0,099 0,006 0,000
9 1,000 1,000 1,000 0,999 0,992 0,954 0,831 0,579 0,253 0,034 0,003
10 1,000 1,000 1,000 1,000 0,999 0,989 0,942 0,798 0,498 0,134 0,025
11 1,000 1,000 1,000 1,000 1,000 0,998 0,987 0,936 0,766 0,379 0,135
12 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,990 0,945 0,746 0,487
13 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
14 0 0,488 0,229 0,044 0,007 0,001 0,000 0,000 0,000 0,000 0,000 0,000
1 0,847 0,585 0,198 0,047 0,008 0,001 0,000 0,000 0,000 0,000 0,000
2 0,970 0,842 0,448 0,161 0,040 0,006 0,001 0,000 0,000 0,000 0,000
3 0,996 0,956 0,698 0,355 0,124 0,029 0,004 0,000 0,000 0,000 0,000
4 1,000 0,991 0,870 0,584 0,279 0,090 0,018 0,002 0,000 0,000 0,000
5 1,000 0,999 0,956 0,781 0,486 0,212 0,058 0,008 0,000 0,000 0,000
6 1,000 1,000 0,988 0,907 0,692 0,395 0,150 0,031 0,002 0,000 0,000
7 1,000 1,000 0,998 0,969 0,850 0,605 0,308 0,093 0,012 0,000 0,000
8 1,000 1,000 1,000 0,992 0,942 0,788 0,514 0,219 0,044 0,001 0,000
9 1,000 1,000 1,000 0,998 0,982 0,910 0,721 0,416 0,130 0,009 0,000
10 1,000 1,000 1,000 1,000 0,996 0,971 0,876 0,645 0,302 0,044 0,004
11 1,000 1,000 1,000 1,000 0,999 0,994 0,960 0,839 0,552 0,158 0,030
12 1,000 1,000 1,000 1,000 1,000 0,999 0,992 0,953 0,802 0,415 0,153
13 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,993 0,956 0,771 0,512
14 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
Apndice final. Tablas estadsticas 437
Tabla A (continuacin)
1
n n1 0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95
15 0 0,463 0,206 0,035 0,005 0,000 0,000 0,000 0,000 0,000 0,000 0,000
1 0,829 0,549 0,167 0,035 0,005 0,000 0,000 0,000 0,000 0,000 0,000
2 0,964 0,816 0,398 0,127 0,027 0,004 0,000 0,000 0,000 0,000 0,000
3 0,995 0,944 0,648 0,297 0,091 0,018 0,002 0,000 0,000 0,000 0,000
4 0,999 0,987 0,836 0,515 0,217 0,059 0,009 0,001 0,000 0,000 0,000
5 1,000 0,998 0,939 0,722 0,403 0,151 0,034 0,004 0,000 0,000 0,000
6 1,000 1,000 0,982 0,869 0,610 0,304 0,095 0,015 0,001 0,000 0,000
7 1,000 1,000 0,996 0,950 0,787 0,500 0,213 0,050 0,004 0,000 0,000
8 1,000 1,000 0,999 0,985 0,905 0,696 0,390 0,131 0,018 0,000 0,000
9 1,000 1,000 1,000 0,996 0,966 0,849 0,579 0,278 0,061 0,002 0,000
10 1,000 1,000 1,000 0,999 0,991 0,941 0,783 0,485 0,164 0,013 0,001
11 1,000 1,000 1,000 1,000 0,998 0,982 0,909 0,703 0,352 0,056 0,005
12 1,000 1,000 1,000 1,000 1,000 0,996 0,973 0,873 0,602 0,184 0,036
13 1,000 1,000 1,000 1,000 1,000 1,000 0,995 0,965 0,833 0,451 0,171
14 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,995 0,965 0,794 0,537
15 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
16 0 0,440 0,185 0,028 0,003 0,000 0,000 0,000 0,000 0,000 0,000 0,000
1 0,811 0,515 0,141 0,026 0,003 0,000 0,000 0,000 0,000 0,000 0,000
2 0,957 0,789 0,352 0,099 0,018 0,002 0,000 0,000 0,000 0,000 0,000
3 0,993 0,932 0,598 0,246 0,065 0,011 0,001 0,000 0,000 0,000 0,000
4 0,999 0,983 0,798 0,450 0,167 0,038 0,005 0,000 0,000 0,000 0,000
5 1,000 0,997 0,918 0,660 0,329 0,105 0,019 0,002 0,000 0,000 0,000
6 1,000 0,999 0,973 0,825 0,527 0,227 0,058 0,007 0,000 0,000 0,000
7 1,000 1,000 0,993 0,926 0,716 0,402 0,142 0,026 0,001 0,000 0,000
8 1,000 1,000 0,999 0,974 0,858 0,598 0,284 0,074 0,007 0,000 0,000
9 1,000 1,000 1,000 0,993 0,942 0,773 0,473 0,175 0,027 0,001 0,000
10 1,000 1,000 1,000 0,998 0,981 0,895 0,671 0,340 0,082 0,003 0,000
11 1,000 1,000 1,000 1,000 0,995 0,962 0,833 0,550 0,202 0,017 0,001
12 1,000 1,000 1,000 1,000 0,999 0,989 0,935 0,754 0,402 0,068 0,007
13 1,000 1,000 1,000 1,000 1,000 0,998 0,982 0,901 0,648 0,211 0,043
14 1,000 1,000 1,000 1,000 1,000 1,000 0,997 0,974 0,859 0,485 0,189
15 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,997 0,972 0,815 0,560
16 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
17 0 0,418 0,167 0,023 0,002 0,000 0,000 0,000 0,000 0,000 0,000 0,000
1 0,792 0,482 0,118 0,019 0,002 0,000 0,000 0,000 0,000 0,000 0,000
2 0,950 0,762 0,310 0,077 0,012 0,001 0,000 0,000 0,000 0,000 0,000
3 0,991 0,917 0,549 0,202 0,046 0,006 0,000 0,000 0,000 0,000 0,000
4 0,999 0,978 0,758 0,389 0,126 0,025 0,003 0,000 0,000 0,000 0,000
5 1,000 0,995 0,894 0,597 0,264 0,072 0,011 0,001 0,000 0,000 0,000
6 1,000 0,999 0,962 0,775 0,448 0,166 0,035 0,003 0,000 0,000 0,000
7 1,000 1,000 0,989 0,895 0,641 0,315 0,092 0,013 0,000 0,000 0,000
8 1,000 1,000 0,997 0,960 0,801 0,500 0,199 0,040 0,003 0,000 0,000
438 Anlisis de datos (vol. II)
Tabla A (continuacin)
1
n n1 0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95
9 1,000 1,000 1,000 0,987 0,908 0685 0359 0,105 0,011 0,000 0,000
10 1,000 1,000 1,000 0,997 0,965 0,834 0,552 0,225 0,038 0,001 0,000
11 1,000 1,000 1,000 0,999 0,989 0,928 0,736 0,403 0,106 0,005 0,000
12 1,000 1,000 1,000 1,000 0,997 0,975 0,874 0,611 0,242 0,022 0,001
13 1,000 1,000 1,000 1,000 1,000 0,994 0,954 0,798 0,451 0,083 0,009
14 1,000 1,000 1,000 1,000 1,000 0,999 0,988 0,923 0,690 0,238 0,050
15 1,000 1,000 1,000 1,000 1,000 1,000 0,998 0,981 0,882 0,518 0,208
16 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,998 0,977 0,833 0,582
17 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
18 0 0,397 0,150 0,018 0,002 0,000 0,000 0,000 0,000 0,000 0,000 0,000
1 0,774 0,450 0,099 0,014 0,001 0,000 0,000 0,000 0,000 0,000 0,000
2 0,942 0,734 0,271 0,060 0,008 0,001 0,000 0,000 0,000 0,000 0,000
3 0,989 0,902 0,501 0,165 0,033 0,004 0,000 0,000 0,000 0,000 0,000
4 0,998 0,972 0,716 0,333 0,094 0,015 0,001 0,000 0,000 0,000 0,000
5 1,000 0,994 0,867 0,534 0,209 0,048 0,006 0,000 0,000 0,000 0,000
6 1,000 0,999 0,949 0,722 0,374 0,119 0,020 0,001 0,000 0,000 0,000
7 1,000 1,000 0,984 0,859 0,563 0,240 0,058 0,006 0,000 0,000 0,000
8 1,000 1,000 0,996 0,940 0,737 0,407 0,135 0,021 0,001 0,000 0,000
9 1,000 1,000 0,999 0,979 0,865 0,593 0,263 0,060 0,004 0,000 0,000
10 1,000 1,000 1,000 0,994 0,942 0,760 0,437 0,141 0,016 0,000 0,000
11 1,000 1,000 1,000 0,999 0,980 0,881 0,626 0,278 0,051 0,001 0,000
12 1,000 1,000 1,000 1,000 0,994 0,952 0,791 0,466 0,133 0,006 0,000
13 1,000 1,000 1,000 1,000 0,999 0,985 0,906 0,667 0,284 0,028 0,002
14 1,000 1,000 1,000 1,000 1,000 0,996 0,967 0,835 0,499 0,098 0,011
15 1,000 1,000 1,000 1,000 1,000 0,999 0,992 0,940 0,729 0,266 0,058
16 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,986 0,901 0,550 0,226
17 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,998 0,982 0,850 0,603
18 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
19 0 0,377 0,135 0,014 0,001 0,000 0,000 0,000 0,000 0,000 0,000 0,000
1 0,755 0,420 0,083 0,010 0,001 0,000 0,000 0,000 0,000 0,000 0,000
2 0,933 0,705 0,237 0,046 0,005 0,000 0,000 0,000 0,000 0,000 0,000
3 0,987 0,885 0,455 0,133 0,023 0,002 0,000 0,000 0,000 0,000 0,000
4 0,998 0,965 0,673 0,282 0,070 0,010 0,001 0,000 0,000 0,000 0,000
5 1,000 0,991 0,837 0,474 0,163 0,032 0,003 0,000 0,000 0,000 0,000
6 1,000 0,998 0,932 0,666 0,308 0,084 0,012 0,001 0,000 0,000 0,000
7 1,000 1,000 0,977 0,818 0,488 0,180 0,035 0,003 0,000 0,000 0,000
8 1,000 1,000 0,993 0,916 0,667 0,324 0,088 0,011 0,000 0,000 0,000
9 1,000 1,000 0,998 0,967 0,814 0,500 0,186 0,033 0,002 0,000 0,000
10 1,000 1,000 1,000 0,989 0,912 0,676 0,333 0,084 0,007 0,000 0,000
11 1,000 1,000 1,000 0,997 0,965 0,820 0,512 0,182 0,023 0,000 0,000
12 1,000 1,000 1,000 0,999 0,988 0,916 0,692 0,334 0,068 0,002 0,000
13 1,000 1,000 1,000 1,000 0,997 0,968 0,837 0,526 0,163 0,009 0,000
Apndice final. Tablas estadsticas 439
Tabla A (continuacin)
1
n n1 0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95
14 1,000 1,000 1,000 1,000 0,999 0,990 0,930 0,718 0,327 0,035 0,002
15 1,000 1,000 1,000 1,000 1,000 0,998 0,977 0,867 0,545 0,115 0,013
16 1,000 1,000 1,000 1,000 1,000 1,000 0,995 0,954 0,763 0,295 0,067
17 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,990 0,917 0,580 0,245
18 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,986 0,865 0,623
19 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
20 0 0,358 0,122 0,012 0,001 0,000 0,000 0,000 0,000 0,000 0,000 0,000
1 0,736 0,392 0,069 0,008 0,001 0,000 0,000 0,000 0,000 0,000 0,000
2 0,925 0,677 0,206 0,035 0,004 0,000 0,000 0,000 0,000 0,000 0,000
3 0,984 0,867 0,411 0,107 0,016 0,001 0,000 0,000 0,000 0,000 0,000
4 0,997 0,957 0,630 0,238 0,051 0,006 0,000 0,000 0,000 0,000 0,000
5 1,000 0,989 0,804 0,416 0,126 0,021 0,002 0,000 0,000 0,000 0,000
6 1,000 0,998 0,913 0,608 0,250 0,058 0,006 0,000 0,000 0,000 0,000
7 1,000 1,000 0,968 0,772 0,416 0,132 0,021 0,001 0,000 0,000 0,000
8 1,000 1,000 0,990 0,887 0,596 0,252 0,057 0,005 0,000 0,000 0,000
9 1,000 1,000 0,997 0,952 0,755 0,412 0,128 0,017 0,001 0,000 0,000
10 1,000 1,000 0,999 0,983 0,872 0,588 0,245 0,048 0,003 0,000 0,000
11 1,000 1,000 1,000 0,995 0,943 0,748 0,404 0,113 0,010 0,000 0,000
12 1,000 1,000 1,000 0,999 0,979 0,868 0,584 0,228 0,032 0,000 0,000
13 1,000 1,000 1,000 1,000 0,994 0,942 0,750 0,392 0,087 0,002 0,000
14 1,000 1,000 1,000 1,000 0,998 0,979 0,874 0,584 0,196 0,011 0,000
15 1,000 1,000 1,000 1,000 1,000 0,994 0,949 0,762 0,370 0,043 0,003
16 1,000 1,000 1,000 1,000 1,000 0,999 0,984 0,893 0,589 0,133 0,016
17 1,000 1,000 1,000 1,000 1,000 1,000 0,996 0,965 0,794 0,323 0,075
18 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,992 0,931 0,608 0,264
19 1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,988 0,878 0,642
20 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000
440 Anlisis de datos (vol. II)
Tabla B
Distribucin normal tipificada: N (0, 1)
Probabilidades acumuladas ( p) hasta cada valor Z
Segundo decimal de Zp
Zp 0 1 2 3 4 5 6 7 8 9
!3,2 0,0007 0,0007 0,0006 0,0006 0,0006 0,0006 0,0006 0,0005 0,0005 0,0005
!3,1 0,0010 0,0009 0,0009 0,0009 0,0008 0,0008 0,0008 0,0008 0,0007 0,0007
!3,0 0,0013 0,0013 0,0013 0,0012 0,0012 0,0012 0,0011 0,0011 0,0010 0,0010
!2,9 0,0019 0,0018 0,0017 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014
!2,8 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0020 0,0020 0,0019
!2,7 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026
!2,6 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036
!2,5 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048
!2,4 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064
!2,3 0,0107 0,0104 0,0102 0,0099 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084
!2,2 0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110
!2,1 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143
!2,0 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183
!1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233
!1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294
!1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367
!1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455
!1,5 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559
!1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681
!1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823
!1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985
!1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170
!1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379
!0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611
!0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867
!0,7 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148
!0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451
!0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776
!0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121
!0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483
!0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859
!0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247
!0,0 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641
Apndice final. Tablas estadsticas 441
Tabla B (continuacin)
Segundo decimal de Zp
Zp 0 1 2 3 4 5 6 7 8 9
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
Tabla C
Distribuciones 2 ( ji-cuadrado)
Valores 2gl; p que acumulan una probabilidad p con diferentes grados de libertad ( gl )
gl 0,001 0,005 0,01 0,025 0,050 0,100 0,900 0,950 0,975 0,990 0,995 0,999
1 0,00 0,00 0,00 0,00 0,00 0,02 2,71 3,84 5,02 6,63 7,88 10,83
2 0,00 0,01 0,02 0,05 0,10 0,21 4,61 5,99 7,38 9,21 10,60 13,82
3 0,02 0,07 0,12 0,22 0,35 0,58 6,25 7,81 9,35 11,34 12,84 16,27
4 0,09 0,21 0,28 0,48 0,71 1,06 7,78 9,49 11,14 13,28 14,86 18,47
5 0,21 0,41 0,55 0,83 1,14 1,61 9,24 11,07 12,83 15,09 16,75 20,52
6 0,38 0,68 0,87 1,24 1,64 2,20 10,64 12,59 14,45 16,81 18,55 22,46
7 0,60 0,99 1,24 1,69 2,27 2,83 12,02 14,07 16,01 18,48 20,28 24,32
8 0,86 1,34 1,65 2,18 2,73 3,49 13,36 15,51 17,53 20,09 21,96 26,13
9 1,15 1,73 2,09 2,70 3,33 4,17 14,68 16,92 19,02 21,67 23,59 27,88
10 1,48 2,16 2,56 3,25 3,94 4,87 15,99 18,31 20,48 23,21 25,19 29,59
11 1,83 2,60 3,05 3,82 4,57 5,58 17,28 19,68 21,92 24,72 26,76 31,26
12 2,21 3,07 3,57 4,40 5,23 6,30 18,55 21,03 23,34 26,22 28,30 32,91
13 2,62 3,57 4,11 5,01 5,89 7,04 19,81 22,36 24,74 27,69 29,82 34,53
14 3,04 4,07 4,66 5,63 6,57 7,79 21,06 23,68 26,12 29,14 31,32 36,12
15 3,48 4,60 5,23 6,26 7,26 8,55 22,31 25,00 27,49 30,58 32,80 37,70
16 3,94 5,14 5,81 6,91 7,96 9,31 23,54 26,30 28,85 32,00 34,27 39,25
17 4,42 5,70 6,41 7,56 8,67 10,09 24,77 27,59 30,19 33,41 35,72 40,79
18 4,90 6,26 7,01 8,23 9,39 10,86 25,99 28,87 31,53 34,81 37,16 42,31
19 5,41 6,84 7,63 8,91 10,12 11,65 27,20 30,14 32,85 36,19 38,58 43,82
20 5,92 7,43 8,26 8,59 10,85 12,44 28,41 31,41 34,17 37,57 40,00 45,31
21 6,45 8,03 8,90 10,28 11,59 13,24 29,62 32,67 35,48 38,93 41,40 46,80
22 6,98 8,64 9,54 10,98 12,34 14,04 30,81 33,92 36,78 40,29 42,80 48,27
23 7,53 9,26 10,20 11,69 13,09 14,85 32,01 35,17 38,08 41,64 44,18 49,73
24 8,08 9,89 10,86 12,40 13,85 15,66 33,20 36,42 39,36 42,98 45,56 51,18
25 8,65 10,52 11,52 13,12 14,61 16,47 34,38 37,65 40,65 44,31 46,93 52,62
26 9,22 11,16 12,20 13,84 15,38 17,29 35,56 38,89 41,92 45,64 48,29 54,05
27 9,80 11,81 12,88 14,57 16,15 18,11 36,74 40,11 43,19 46,96 49,64 55,48
28 10,39 12,46 13,56 15,31 16,39 18,94 37,92 41,34 44,46 48,28 50,99 56,89
29 10,99 13,21 14,26 16,05 17,71 19,77 39,09 42,56 45,72 49,59 52,34 58,30
30 11,59 13,79 14,95 16,79 18,49 20,60 40,26 43,77 46,98 50,89 53,67 59,70
40 17,92 20,71 22,16 24,43 26,51 29,05 51,81 55,76 59,34 63,69 66,77 73,40
50 24,67 27,99 29,71 32,36 34,76 37,69 63,17 67,50 71,42 76,15 79,49 86,66
60 31,74 35,53 37,48 40,48 43,19 46,46 74,40 79,08 83,30 88,38 91,95 99,61
70 39,04 43,28 45,44 48,76 51,74 55,33 85,53 90,53 95,02 100,43 104,21 112,3
80 46,52 51,17 53,54 57,15 60,39 64,28 96,58 101,88 106,63 112,33 116,32 124,8
90 54,16 59,20 61,75 65,65 69,13 73,29 107,57 113,15 118,14 124,12 128,30 137,2
100 61,92 67,33 70,06 74,22 77,93 82,36 118,50 124,34 129,56 135,81 140,17 149,4
Tabla D
Distribuciones t de Student
Valores tgl; p que acumulan una probabilidad p con diferentes grados de libertad gl (tgl; p = !tgl; 1!p )
Tabla E
Potencias (1 ! ) para diferentes valores de y
Tabla F
Distribuciones F
Puntos crticos que acumulan una probabilidad 1 !
con gl1 = grados de libertad del numerador y gl2 = grados de libertad del denominador
1 ! = 0,95
gl1
gl2 1 2 3 4 5 6 7 8 10 12 15 20
3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,79 8,74 8,70 8,66
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 5,96 5,91 5,86 5,80
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,74 4,68 4,62 4,56
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,06 4,00 3,94 3,87
7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,64 3,57 3,51 3,44
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,35 3,28 3,22 3,15
9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,14 3,07 3,01 2,94
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 2,98 2,91 2,85 2,77
11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,85 2,79 2,72 2,65
12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,75 2,69 2,62 2,54
13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,67 2,60 2,53 2,46
14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,60 2,53 2,46 2,39
15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,54 2,48 2,40 2,33
16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,49 2,42 2,35 2,28
17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,45 2,38 2,31 2,23
18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,41 2,34 2,27 2,19
19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,38 2,31 2,23 2,16
20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,35 2,28 2,20 2,12
21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,32 2,25 2,18 2,10
22 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,30 2,23 2,15 2,07
23 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,27 2,20 2,13 2,05
24 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,25 2,18 2,11 2,03
25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,24 2,16 2,09 2,01
26 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,22 2,15 2,07 1,99
27 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,20 2,13 2,06 1,97
28 4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,19 2,12 2,04 1,96
29 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,18 2,10 2,03 1,94
30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,16 2,09 2,01 1,93
35 4,12 3,27 2,87 2,64 2,49 2,37 2,29 2,22 2,11 2,04 1,96 1,88
40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,08 2,00 1,92 1,84
50 4,03 3,18 2,79 2,56 2,40 2,29 2,20 2,13 2,03 1,95 1,87 1,78
70 3,98 3,13 2,74 2,50 2,35 2,23 2,14 2,07 1,97 1,89 1,81 1,72
90 3,95 3,10 2,71 2,47 2,32 2,20 2,11 2,04 1,94 1,86 1,78 1,69
120 3,92 3,07 2,68 2,45 2,29 2,18 2,09 2,02 1,91 1,83 1,75 1,66
200 3,89 3,04 2,65 2,42 2,26 2,14 2,06 1,98 1,88 1,80 1,72 1,62
500 3,86 3,01 2,62 2,39 2,23 2,12 2,03 1,96 1,85 1,77 1,69 1,59
4 3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,83 1,75 1,67 1,57
446 Anlisis de datos (vol. II)
Tabla F (continuacin)
1 ! = 0,99
gl1
gl2 1 2 3 4 5 6 7 8 10 12 15 20
3 34,12 30,82 29,46 28,71 28,24 27,91 27,67 27,49 27,23 27,05 26,87 26,69
4 21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,55 14,37 14,20 14,02
5 16,26 13,27 12,06 11,39 10,97 10,67 10,46 10,29 10,05 9,89 9,72 9,55
6 13,75 10,92 9,78 9,15 8,75 8,47 8,26 8,10 7,87 7,72 7,56 7,40
7 12,25 9,55 8,45 7,85 7,46 7,19 6,99 6,84 6,62 6,47 6,31 6,16
8 11,26 8,65 7,59 7,01 6,63 6,37 6,18 6,03 5,81 5,67 5,52 5,36
9 10,56 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,26 5,11 4,96 4,81
10 10,04 7,56 6,55 5,99 5,64 5,39 5,20 5,06 4,85 4,71 4,56 4,41
11 9,65 7,21 6,22 5,67 5,32 5,07 4,89 4,74 4,54 4,40 4,25 4,10
12 9,33 6,93 5,95 5,41 5,06 4,82 4,64 4,50 4,30 4,16 4,01 3,86
13 9,07 6,70 5,74 5,21 4,86 4,62 4,44 4,30 4,10 3,96 3,82 3,66
14 8,86 6,51 5,56 5,04 4,69 4,46 4,28 4,14 3,94 3,80 3,66 3,51
15 8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,80 3,67 3,52 3,37
16 8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,69 3,55 3,41 3,26
17 8,40 6,11 5,18 4,67 4,34 4,10 3,93 3,79 3,59 3,46 3,31 3,16
18 8,29 6,01 5,09 4,58 4,25 4,01 3,84 3,71 3,51 3,37 3,23 3,08
19 8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,43 3,30 3,15 3,00
20 8,10 5,85 4,94 4,43 4,10 3,87 3,70 3,56 3,37 3,23 3,09 2,94
21 8,02 5,78 4,87 4,37 4,04 3,81 3,64 3,51 3,31 3,17 3,03 2,88
22 7,95 5,72 4,82 4,31 3,99 3,76 3,59 3,45 3,26 3,12 2,98 2,83
23 7,88 5,66 4,76 4,26 3,94 3,71 3,54 3,41 3,21 3,07 2,93 2,78
24 7,82 5,61 4,72 4,22 3,90 3,67 3,50 3,36 3,17 3,03 2,89 2,74
25 7,77 5,57 4,68 4,18 3,85 3,63 3,46 3,32 3,13 2,99 2,85 2,70
26 7,72 5,53 4,64 4,14 3,82 3,59 3,42 3,29 3,09 2,96 2,81 2,66
27 7,68 5,49 4,60 4,11 3,78 3,56 3,39 3,26 3,06 2,93 2,78 2,63
28 7,64 5,45 4,57 4,07 3,75 3,53 3,36 3,23 3,03 2,90 2,75 2,60
29 7,60 5,42 4,54 4,04 3,73 3,50 3,33 3,20 3,00 2,87 2,73 2,57
30 7,56 5,39 4,51 4,02 3,70 3,47 3,30 3,17 2,98 2,84 2,70 2,55
35 7,42 5,27 4,40 3,91 3,59 3,37 3,20 3,07 2,88 2,74 2,60 2,44
40 7,31 5,18 4,31 3,83 3,51 3,29 3,12 2,99 2,80 2,66 2,52 2,37
50 7,17 5,06 4,20 3,72 3,41 3,19 3,02 2,89 2,70 2,56 2,42 2,27
70 7,01 4,92 4,07 3,60 3,29 3,07 2,91 2,78 2,59 2,45 2,31 2,15
90 6,93 4,85 4,01 3,53 3,23 3,01 2,84 2,72 2,52 2,39 2,24 2,09
120 6,85 4,79 3,95 3,48 3,17 2,96 2,79 2,66 2,47 2,34 2,19 2,03
200 6,76 4,71 3,88 3,41 3,11 2,89 2,73 2,60 2,41 2,27 2,13 1,97
500 6,69 4,65 3,82 3,36 3,05 2,84 2,68 2,55 2,36 2,22 2,07 1,92
4 6,63 4,61 3,78 3,32 3,02 2,80 2,64 2,51 2,32 2,18 2,04 1,88
Apndice final. Tablas estadsticas 447
Tabla G
Distribuciones F no centradas
Probabilidades de cometer errores Tipo II () asociadas a diferentes valores de y
1 ! = 0,95
gl1 gl2 0,5 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,6 3,0
1 4 0,91 0,80 0,74 0,67 0,59 0,51 0,43 0,65 0,22 0,12
6 0,91 0,78 0,70 0,62 0,52 0,43 0,34 0,26 0,14 0,06
8 0,90 0,76 0,68 0,59 0,49 0,39 0,30 0, 22 0,11 0,04
10 0,90 0,75 0,66 0,57 0,47 0,37 0,28 0, 20 0,09 0,03
12 0,90 0,74 0,65 0,56 0,45 0,35 0,26 0,19 0,08 0,03
16 0,90 0,74 0,64 0,54 0,43 0,33 0,24 0, 17 0,07 0,02
20 0,90 0,73 0,63 0,53 0,42 0,32 0,26 0,16 0,06 0,02
30 0,89 0,72 0,62 0,52 0,40 0,31 0,22 0,15 0,06 0,02
4 0,89 0,71 0,60 0,49 0,38 0,28 0,19 0,12 0,04 0,01
2 4 0,92 0,82 0,77 0,70 0,62 0,54 0,46 0,38 0,24 0,14
6 0,91 0,79 0,71 0,63 0,53 0,43 0,34 0,26 0,13 0,05
8 0,91 0,77 0,68 0,58 0,48 0,37 0,28 0,20 0,08 0,03
10 0,91 0,75 0,66 0,55 0,44 0,34 0,24 0,16 0,06 0,02
12 0,90 0,74 0,64 0,53 0,42 0,31 0,22 0,14 0,05 0,01
16 0,90 0,73 0,62 0,51 0,39 0,28 0,19 0,12 0,04 0,01
20 0,90 0,72 0,61 0,49 0,36 0,26 0,17 0,11 0,03 0,01
30 0,90 0,71 0,59 0,47 0,35 0,24 0,15 0,09 0,02 0,00
4 0,89 0,68 0,56 0,43 0,30 0,20 0,12 0,06 0,01 0,00
3 4 0,92 0,83 0,77 0,71 0,63 0,55 0,47 0,39 0,25 0,14
6 0,91 0,79 0,71 0,62 0,52 0,42 0,33 0,24 0,11 0,04
8 0,91 0,76 0,67 0,57 0,46 0,35 0,25 0,18 0,06 0,02
10 0,91 0,75 0,65 0,53 0,41 0,30 0,21 0,13 0,04 0,01
12 0,90 0,73 0,62 0,50 0,38 0,27 0,18 0,11 0,03 0,01
16 0,90 0,71 0,60 0,47 0,34 0,23 0,14 0,08 0,02 0,00
20 0,90 0,70 0,58 0,45 0,32 0,21 0,13 0,07 0,01 0,00
30 0,89 0,68 0,55 0,42 0,29 0,18 0,10 0,05 0,01 0,00
4 0,88 0,64 0,50 0,36 0,23 0,13 0,07 0,03 0,00 0,00
4 4 0,92 0,83 0,78 0,71 0,64 0,55 0,47 0,39 0,25 0,14
6 0,92 0,79 0,71 0,62 0,52 0,41 0,31 0,23 0,10 0,04
8 0,91 0,76 0,66 0,55 0,44 0,33 0,23 0,15 0,05 0,01
10 0,91 0,74 0,63 0,51 0,39 0,27 0,18 0,11 0,03 0,00
12 0,90 0,72 0,61 0,48 0,35 0,24 0,15 0,08 0,02 0,00
16 0,90 0,70 0,57 0,44 0,31 0,19 0,11 0,06 0,01 0,00
20 0,89 0,68 0,55 0,41 0,28 0,17 0,09 0,04 0,01 0,00
30 0,89 0,66 0,52 0,37 0,24 0,14 0,07 0,03 0,00 0,00
4 0,88 0,60 0,45 0,29 0,17 0,08 0,04 0,01 0,00 0,00
448 Anlisis de datos (vol. II)
Tabla G (continuacin)
1 ! = 0,99
gl1 gl2 0,5 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,6 3,0
1 4 0,98 0,95 0,93 0,90 0,87 0,83 0,78 0,73 0,62 0,50
6 0,98 0,93 0,90 0,86 0,81 0,75 0,69 0,61 0,46 0,31
8 0,98 0,92 0,89 0,84 0,78 0,70 0,62 0,54 0,37 0,22
10 0,98 0,92 0,87 0,82 0,75 0,67 0,58 0,49 0,31 0,17
12 0,97 0,91 0,87 0,81 0,73 0,65 0,55 0,46 0,28 0,14
16 0,97 0,90 0,85 0,79 0,71 0,61 0,52 0,42 0,24 0,11
20 0,97 0,90 0,85 0,78 0,69 0,59 0,49 0,39 0,21 0,10
30 0,97 0,89 0,83 0,76 0,67 0,57 0,46 0,36 0,19 0,08
4 0,97 0,88 0,81 0,72 0,62 0,51 0,40 0,30 0,14 0,05
2 4 0,98 0,96 0,94 0,92 0,89 0,85 0,81 0,76 0,66 0,54
6 0,98 0,94 0,91 0,87 0,82 0,76 0,70 0,62 0,46 0,31
8 0,98 0,93 0,89 0,84 0,78 0,70 0,61 0,52 0,34 0,19
10 0,98 0,92 0,88 0,82 0,74 0,65 0,55 0,45 0,26 0,13
12 0,98 0,91 0,86 0,80 0,71 0,61 0,51 0,40 0,22 0,09
16 0,97 0,90 0,84 0,77 0,67 0,57 0,45 0,34 0,16 0,06
20 0,97 0,90 0,83 0,75 0,65 0,53 0,42 0,31 0,14 0,04
30 0,97 0,88 0,82 0,72 0,61 0,49 0,37 0,26 0,10 0,03
4 0,97 0,88 0,77 0,66 0,53 0,40 0,28 0,18 0,05 0,01
3 4 0,98 0,96 0,94 0,92 0,89 0,86 0,82 0,77 0,67 0,55
6 0,98 0,94 0,91 0,87 0,82 0,75 0,69 0,61 0,44 0,29
8 0,98 0,93 0,89 0,84 0,77 0,58 0,59 0,49 0,30 0,19
10 0,98 0,92 0,87 0,80 0,72 0,62 0,52 0,41 0,22 0,09
12 0,98 0,91 0,85 0,78 0,69 0,58 0,46 0,35 0,17 0,06
16 0,97 0,90 0,83 0,74 0,64 0,51 0,39 0,28 0,11 0,03
20 0,97 0,89 0,82 0,72 0,60 0,47 0,35 0,24 0,08 0,02
30 0,97 0,87 0,79 0,68 0,55 0,42 0,29 0,18 0,05 0,01
4 0,97 0,84 0,73 0,59 0,44 0,30 0,18 0,10 0,02 0,00
4 4 0,98 0,96 0,94 0,92 0,89 0,86 0,82 0,78 0,67 0,56
6 0,98 0,94 0,91 0,87 0,82 0,76 0,68 0,60 0,43 0,28
8 0,98 0,93 0,89 0,83 0,76 0,67 0,57 0,47 0,28 0,14
10 0,98 0,92 0,86 0,79 0,70 0,60 0,49 0,37 0,19 0,07
12 0,98 0,91 0,85 0,76 0,66 0,55 0,42 0,31 0,13 0,04
16 0,97 0,89 0,82 0,72 0,60 0,47 0,34 0,23 0,08 0,02
20 0,97 0,88 0,80 0,69 0,56 0,42 0,29 0,18 0,05 0,01
30 0,97 0,86 0,77 0,64 0,50 0,35 0,22 0,13 0,03 0,00
4 0,96 0,81 0,68 0,53 0,36 0,22 0,11 0,05 0,01 0,00
Apndice final. Tablas estadsticas 449
Tabla H
Coeficientes de polinomios ortogonales
Coeficientes cj para comparaciones de tendencia, con J = n de medias
Coeficientes
J c1 c2 c3 c4 c5 c6 c7 c8 c9 c10
3 Lineal !1 0 1 2
Cuadrtico 1 !2 1 6
4 Lineal !3 !1 1 3 20
Cuadrtico 1 !1 !1 1 4
Cbico !1 3 !3 1 20
5 Lineal !2 !1 0 1 2 10
Cuadrtico 2 !1 !2 !1 2 14
Cbico !1 2 0 !2 1 10
De 4 grado 1 !4 6 !4 1 70
6 Lineal !5 !3 !1 1 3 5 70
Cuadrtico 5 !1 !4 !4 1 5 84
Cbico !5 7 4 !4 !7 5 180
De 4 grado 1 !3 2 2 !3 1 28
7 Lineal !3 !2 !1 0 1 2 3 28
Cuadrtico 5 0 !3 !4 !3 0 5 84
Cbico !1 1 1 0 !1 !1 1 6
De 4 grado 3 !7 1 6 1 !7 3 154
8 Lineal !7 !5 !3 !1 1 3 5 7 168
Cuadrtico 7 1 !3 !5 !5 !3 1 7 168
Cbico !7 5 7 3 !3 !7 !5 7 264
De 4 grado 7 !13 !3 9 9 !3 !13 7 616
De 5 grado !7 23 !17 !15 15 17 !23 7 2184
9 Lineal !4 !3 !2 !1 0 1 2 3 4 60
Cuadrtico 28 7 !8 !17 !20 !17 !8 7 28 2772
Cbico !14 7 13 9 0 !9 !13 !7 14 990
De 4 grado 14 !21 !11 9 18 9 !11 !21 14 2002
De 5 grado !4 11 !4 !9 0 9 4 !11 4 468
10 Lineal !9 !7 !5 !3 !1 1 3 5 7 9 330
Cuadrtico 6 2 !1 !3 !4 !4 !3 !1 2 6 132
Cbico !42 14 35 31 12 !12 !31 !35 !14 42 8580
De 4 grado 18 !22 !17 3 18 18 3 !17 !22 18 2860
De 5 grado !6 14 !1 !11 !6 6 11 1 !14 6 780
450 Anlisis de datos (vol. II)
Tabla I
Transformacin Z de Fisher
Valores Z correspondientes a RXY y XY
Tabla J
Puntos crticos para el estadstico de Dunn-Bonferroni
Contrastes bilaterales
1 ! F = 0,95
k = nmero de comparaciones
glerror 2 3 4 5 6 7 8 9 10 12 15 20
5 3,16 3,53 3,81 4,03 4,22 4,38 4,53 4,66 4,77 4,98 5,25 5,60
6 2,97 3,29 3,52 3,71 3,86 4,00 4,12 4,22 4,32 4,49 4,70 4,98
7 2,84 3,13 3,34 3,50 3,64 3,75 3,86 3,95 4,03 4,17 4,36 4,59
8 2,75 3,02 3,21 3,36 3,48 3,58 3,68 3,76 3,83 3,96 4,12 4,33
9 2,69 2,93 3,11 3,25 3,36 3,46 3,55 3,62 3,69 3,81 3,95 4,15
10 2,63 2,87 3,04 3,17 3,28 3,37 3,45 3,52 3,58 3,69 3,83 4,00
11 2,59 2,82 2,98 3,11 3,21 3,30 3,37 3,44 3,50 3,60 3,73 3,89
12 2,56 2,78 2,93 3,05 3,15 3,24 3,31 3,37 3,43 3,53 3,65 3,81
13 2,53 2,75 2,90 3,01 3,11 3,19 3,26 3,32 3,37 3,47 3,58 3,73
14 2,51 2,72 2,86 2,98 3,07 3,15 3,21 3,27 3,33 3,42 3,53 3,67
15 2,49 2,69 2,84 2,95 3,04 3,11 3,18 3,23 3,29 3,37 3,48 3,62
16 2,47 2,67 2,81 2,92 3,01 3,08 3,15 3,20 3,25 3,34 3,44 3,58
17 2,46 2,66 2,79 2,90 2,98 3,06 3,12 3,17 3,22 3,31 3,41 3,54
18 2,45 2,64 2,77 2,88 2,96 3,03 3,09 3,15 3,20 3,28 3,38 3,51
19 2,43 2,63 2,76 2,86 2,94 3,01 3,07 3,13 3,17 3,25 3,35 3,48
20 2,42 2,61 2,74 2,85 2,93 3,00 3,06 3,11 3,15 3,23 3,33 3,46
21 2,41 2,60 2,73 2,83 2,91 2,98 3,04 3,09 3,14 3,21 3,31 3,43
22 2,41 2,59 2,72 2,82 2,90 2,97 3,02 3,07 3,12 3,20 3,29 3,41
23 2,40 2,58 2,71 2,81 2,89 2,95 3,01 3,06 3,10 3,18 3,27 3,39
24 2,39 2,57 2,70 2,80 2,88 2,94 3,00 3,05 3,09 3,17 3,26 3,38
25 2,38 2,57 2,69 2,79 2,86 2,93 2,99 3,03 3,08 3,15 3,24 3,36
26 2,38 2,56 2,68 2,78 2,86 2,92 2,98 3,02 3,07 3,14 3,23 3,35
27 2,37 2,55 2,68 2,77 2,85 2,91 2,97 3,01 3,06 3,13 3,22 3,33
28 2,37 2,55 2,67 2,76 2,84 2,90 2,96 3,00 3,05 3,12 3,21 3,32
29 2,36 2,54 2,66 2,76 2,83 2,89 2,95 3,00 3,04 3,11 3,20 3,31
30 2,36 2,54 2,66 2,75 2,82 2,89 2,94 2,99 3,03 3,10 3,19 3,30
35 2,34 2,51 2,63 2,72 2,80 2,86 2,91 2,96 3,00 3,07 3,15 3,26
40 2,33 2,50 2,62 2,70 2,78 2,84 2,89 2,93 2,97 3,04 3,12 3,23
50 2,31 2,48 2,59 2,68 2,75 2,81 2,85 2,90 2,94 3,00 3,08 3,18
60 2,30 2,46 2,58 2,66 2,73 2,79 2,83 2,88 2,91 2,98 3,06 3,16
80 2,28 2,45 2,56 2,64 2,71 2,76 2,81 2,85 2,89 2,95 3,03 3,12
100 2,28 2,43 2,54 2,63 2,69 2,75 2,79 2,83 2,87 2,93 3,01 3,10
200 2,26 2,41 2,52 2,60 2,66 2,72 2,76 2,80 2,84 2,90 2,97 3,06
500 2,25 2,40 2,51 2,59 2,65 2,70 2,75 2,79 2,82 2,88 2,95 3,04
4 2,24 2,39 2,50 2,58 2,64 2,69 2,74 2,77 2,81 2,87 2,94 3,02
452 Anlisis de datos (vol. II)
Tabla J (continuacin)
1 ! F = 0,99
k = nmero de comparaciones
glerror 2 3 4 5 6 7 8 9 10 12 15 20
5 4,77 5,25 5,60 5,89 6,14 6,35 6,54 6,71 6,87 7,15 7,50 7,98
6 4,32 4,70 4,98 5,21 5,40 5,56 5,71 5,84 5,96 6,17 6,43 6,79
7 4,03 4,36 4,59 4,79 4,94 5,08 5,20 5,31 5,41 5,58 5,80 6,08
8 3,83 4,12 4,33 4,50 4,64 4,76 4,86 4,96 5,04 5,19 5,37 5,62
9 3,69 3,95 4,15 4,30 4,42 4,53 4,62 4,71 4,78 4,91 5,08 5,29
10 3,58 3,83 4,00 4,14 4,26 4,36 4,44 4,52 4,59 4,71 4,85 5,05
11 3,50 3,73 3,89 4,02 4,13 4,22 4,30 4,37 4,44 4,55 4,68 4,86
12 3,43 3,65 3,81 3,93 4,03 4,12 4,19 4,26 4,32 4,42 4,55 4,72
13 3,37 3,58 3,73 3,85 3,95 4,03 4,10 4,16 4,22 4,32 4,44 4,60
14 3,33 3,53 3,67 3,79 3,88 3,96 4,03 4,09 4,14 4,23 4,35 4,50
15 3,29 3,48 3,62 3,73 3,82 3,90 3,96 4,02 4,07 4,16 4,27 4,42
16 3,25 3,44 3,58 3,69 3,77 3,85 3,91 3,96 4,01 4,10 4,21 4,35
17 3,22 3,41 3,54 3,65 3,73 3,80 3,86 3,92 3,97 4,05 4,15 4,29
18 3,20 3,38 3,51 3,61 3,69 3,76 3,82 3,87 3,92 4,00 4,10 4,23
19 3,17 3,35 3,48 3,58 3,66 3,73 3,79 3,84 3,88 3,96 4,06 4,19
20 3,15 3,33 3,46 3,55 3,63 3,70 3,75 3,80 3,85 3,93 4,02 4,15
21 3,14 3,31 3,43 3,53 3,60 3,67 3,73 3,78 3,82 3,90 3,99 4,11
22 3,12 3,29 3,41 3,50 3,58 3,64 3,70 3,75 3,79 3,87 3,96 4,08
23 3,10 3,27 3,39 3,48 3,56 3,62 3,68 3,72 3,77 3,84 3,93 4,05
24 3,09 3,26 3,38 3,47 3,54 3,60 3,66 3,70 3,75 3,82 3,91 4,02
25 3,08 3,24 3,36 3,45 3,52 3,58 3,64 3,68 3,73 3,80 3,88 4,00
26 3,07 3,23 3,35 3,43 3,51 3,57 3,62 3,67 3,71 3,78 3,86 3,97
27 3,06 3,22 3,33 3,42 3,49 3,55 3,60 3,65 3,69 3,76 3,84 3,95
28 3,05 3,21 3,32 3,41 3,48 3,54 3,59 3,63 3,67 3,74 3,83 3,94
29 3,04 3,20 3,31 3,40 3,47 3,52 3,58 3,62 3,66 3,73 3,81 3,92
30 3,03 3,19 3,30 3,39 3,45 3,51 3,56 3,61 3,65 3,71 3,80 3,90
35 3,00 3,15 3,26 3,34 3,41 3,46 3,51 3,55 3,59 3,66 3,74 3,84
40 2,97 3,12 3,23 3,31 3,37 3,43 3,47 3,51 3,55 3,61 3,69 3,79
50 2,94 3,08 3,18 3,26 3,32 3,38 3,42 3,46 3,50 3,56 3,63 3,72
60 2,91 3,06 3,16 3,23 3,29 3,34 3,39 3,43 3,46 3,52 3,59 3,68
80 2,89 3,03 3,12 3,20 3,25 3,30 3,35 3,38 3,42 3,47 3,54 3,63
100 2,87 3,01 3,10 3,17 3,23 3,28 3,32 3,36 3,39 3,45 3,51 3,60
200 2,84 2,97 3,06 3,13 3,19 3,23 3,27 3,31 3,34 3,39 3,46 3,54
500 2,82 2,95 3,04 3,11 3,16 3,21 3,25 3,28 3,31 3,36 3,42 3,50
4 2,81 2,94 3,02 3,09 3,15 3,19 3,23 3,26 3,29 3,34 3,41 3,48
Apndice final. Tablas estadsticas 453
Tabla K
Puntos crticos para el estadstico de Dunnett
Contrastes unilaterales
Tabla K (continuacin)
Contrastes bilaterales
Tabla L
Puntos crticos de las distribuciones del rango studentizado
1 ! F = 0,95
J = n de medias
glerror 3 4 5 6 7 8 9 10 11 12 15 20
6 4,34 4,90 5,31 5,63 5,90 6,12 6,32 6,49 6,65 6,79 7,14 7,59
7 4,16 4,68 5,06 5,36 5,61 5,82 6,00 6,16 6,30 6,43 6,76 7,17
8 4,04 4,53 4,89 5,17 5,40 5,60 5,77 5,92 6,05 6,18 6,48 6,87
9 3,95 3,42 4,76 5,02 5,24 5,43 5,60 5,74 5,87 5,98 6,28 6,64
10 3,88 3,33 4,65 4,91 5,12 5,30 5,46 5,60 5,72 5,83 6,11 6,47
11 3,82 3,26 4,57 4,82 5,03 5,20 5,35 5,49 5,60 5,71 5,98 6,33
12 3,77 3,20 4,51 4,75 4,95 5,12 5,26 5,40 5,51 5,62 5,88 6,21
13 3,74 3,15 4,45 4,69 4,88 5,05 5,19 5,32 5,43 5,53 5,79 6,11
14 3,70 3,11 4,41 4,64 4,83 4,99 5,13 5,25 5,36 5,46 5,71 6,03
15 3,67 3,08 4,37 4,60 4,78 4,94 5,08 5,20 5,31 5,40 5,65 5,96
16 3,65 3,05 4,33 4,56 4,74 4,90 5,03 5,15 5,26 5,35 5,59 5,90
18 3,61 3,00 4,28 4,50 4,67 4,82 4,96 5,07 5,17 5,27 5,50 5,79
20 3,58 3,96 4,23 4,44 4,62 4,77 4,90 5,01 5,11 5,20 5,43 5,71
24 3,53 3,90 4,17 4,17 4,54 4,68 4,81 4,92 5,01 5,10 5,32 5,59
30 3,49 3,84 4,10 4,30 4,46 4,60 4,72 4,82 4,92 5,00 5,21 5,47
40 3,44 3,79 4,04 4,23 4,39 4,52 4,64 4,74 4,82 4,90 5,11 5,36
60 3,40 3,74 3,98 4,16 4,31 4,44 4,55 4,65 4,73 4,81 5,00 5,24
4 3,31 3,63 3,86 4,03 4,17 4,29 4,39 4,47 4,55 4,62 4,80 5,01
1 ! F = 0,99
J = n de medias
glerror 3 4 5 6 7 8 9 10 11 12 15 20
6 6,33 7,03 7,56 7,97 8,32 8,62 8,87 9,10 9,30 9,48 9,95 10,54
7 5,92 6,54 7,00 7,37 7,68 7,94 8,17 8,37 8,55 8,71 9,12 9,65
8 5,64 6,20 6,62 6,96 7,24 7,47 7,68 7,86 8,03 8,18 8,55 9,03
9 5,43 5,96 6,35 6,66 6,92 7,13 7,32 7,50 7,65 7,78 8,13 8,57
10 5,27 5,77 6,14 6,43 6,67 6,88 7,06 7,21 7,36 7,48 7,81 8,23
11 5,15 5,62 5,97 6,25 6,48 6,67 6,84 6,99 7,13 7,25 7,56 7,95
12 5,05 5,50 5,84 6,10 6,32 6,51 6,67 6,81 6,94 7,06 7,36 7,73
13 4,96 5,40 5,73 5,98 6,19 6,37 6,53 6,67 6,79 6,90 7,19 7,55
14 4,90 5,32 5,63 5,88 6,08 6,26 6,41 6,54 6,66 6,77 7,05 7,39
15 4,84 5,25 5,56 5,80 5,99 6,16 6,31 6,44 6,56 6,66 6,93 7,26
16 4,79 5,19 5,49 5,72 5,92 6,08 6,22 6,35 6,46 6,56 6,82 7,15
18 4,70 5,09 5,38 5,60 5,79 5,94 6,08 6,20 6,31 6,41 6,66 6,97
20 4,64 5,02 5,29 5,51 5,69 5,84 5,97 6,09 6,19 6,28 6,52 6,82
24 4,55 4,91 5,17 5,37 5,54 5,69 5,81 5,92 6,02 6,11 6,33 6,61
30 4,46 4,80 5,05 5,24 5,40 5,54 5,65 5,76 5,85 5,93 6,14 6,41
40 4,37 4,70 4,93 5,11 5,26 5,39 5,50 5,60 5,69 5,76 5,96 6,21
60 4,28 4,60 4,82 4,99 5,13 5,25 5,36 5,45 5,53 5,60 5,78 6,02
4 4,12 4,40 4,60 4,76 4,88 4,99 5,08 5,16 5,23 5,29 5,45 5,65
456 Anlisis de datos (vol. II)
Tabla M
Puntos crticos para el estadstico S+ de Wilcoxon
Valores sp que acumulan una probabilidad p con diferentes tamaos muestrales n
n s0,005 s0,01 s0,025 s0,05 s0,10 s0,20 s0,80 s0,90 s0,95 s0,975 s0,99 s0,995
4 0 0 0 0 1 3 7 9 10 10 10 10
5 0 0 0 1 3 4 11 12 14 15 15 15
6 0 0 1 3 4 6 15 17 18 20 21 21
7 0 1 3 4 6 9 19 22 24 25 27 28
8 1 2 4 6 9 12 24 27 30 32 34 35
9 2 4 6 9 11 15 30 34 36 39 41 43
10 4 6 9 11 15 19 36 40 44 46 49 51
11 6 8 11 14 18 23 43 48 52 55 58 60
12 8 10 14 18 22 28 50 56 60 64 68 70
13 10 13 18 22 27 33 58 64 69 73 78 81
14 13 16 22 26 32 39 66 73 79 83 89 92
15 16 20 26 31 37 45 75 83 89 94 100 104
16 20 24 30 36 43 51 85 93 100 106 112 116
17 24 28 35 42 49 58 95 104 111 118 125 129
18 28 33 41 48 56 66 105 115 123 130 138 143
19 33 38 47 54 63 74 116 127 136 143 152 157
20 38 44 53 61 70 83 127 140 149 157 166 172
21 44 50 59 68 78 91 140 153 163 172 181 187
22 49 56 67 76 87 100 153 166 177 186 197 204
23 55 63 74 84 95 110 166 181 192 202 213 221
24 62 70 82 92 105 120 180 195 208 218 230 238
25 69 77 90 101 114 131 194 211 224 235 248 256
26 76 85 99 111 125 142 209 226 240 252 266 275
27 84 94 108 120 135 154 224 243 258 270 284 294
28 92 102 117 131 146 166 240 260 275 289 304 314
29 101 111 127 141 158 178 257 277 294 308 324 334
30 110 121 138 152 170 191 274 295 313 327 344 355
31 119 131 148 164 182 205 291 314 332 348 365 377
32 129 141 160 176 195 219 309 333 352 368 387 399
33 139 152 171 188 208 233 328 353 373 390 409 422
34 149 163 183 201 222 248 347 373 394 412 432 446
35 160 175 196 214 236 263 367 394 416 434 455 470
36 172 187 209 228 251 279 387 415 438 457 479 494
37 184 199 222 242 266 295 408 437 461 481 504 519
38 196 212 236 257 298 312 429 459 484 505 529 545
39 208 225 250 272 314 329 451 482 508 530 555 572
40 221 239 265 287 331 347 473 506 533 555 581 599
Para n > 40, los puntos crticos sp de la distribucin del estadstico S+ de Wilcoxon pueden obte-
nerse utilizando la aproximacin normal: .
Apndice final. Tablas estadsticas 457
Tabla N
Puntos crticos para el estadstico DKS de Kolmogorov-Smirnov
Valores d correspondientes a diferentes niveles de significacin y tamaos muestrales n
Nivel de significacin
n > 40
458 Anlisis de datos (vol. II)
Tabla O
Puntos crticos para el estadstico U de Mann-Whitney
Valores u que acumulan una probabilidad con diferentes tamaos muestrales n1 y n2
n1 n2 ' 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
4 0,001 10 10 10 10 10 10 11 11 11 12 12 12 13 13 14 14 14
0,005 10 10 11 11 12 12 13 13 14 14 15 16 16 17 17 18 19
0,010 10 11 12 12 13 14 14 15 16 16 17 18 18 19 20 20 21
0,025 11 12 13 14 15 15 16 17 18 19 20 21 22 22 23 24 25
0,050 12 13 14 15 16 17 18 19 20 21 22 23 25 26 27 28 29
5 0,001 15 15 15 15 16 17 17 18 18 19 19 20 21 21 22 23 23
0,005 15 16 17 17 18 19 20 21 22 23 23 24 25 26 27 28 29
0,010 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
0,025 17 18 19 21 22 23 24 25 27 28 29 30 31 33 34 35 36
0,050 18 20 21 22 24 25 27 28 29 31 32 34 35 36 38 39 41
6 0,001 21 21 21 21 23 24 25 26 26 27 28 29 30 31 32 33 34
0,005 22 23 24 25 26 27 28 29 31 32 33 34 35 37 38 39 40
0,010 23 24 25 26 28 29 30 31 33 34 35 37 38 40 41 42 44
0,025 24 25 27 28 30 32 33 35 36 38 39 41 43 44 46 47 49
0,050 25 27 29 30 32 34 36 38 39 41 43 45 47 48 50 52 54
7 0,001 28 28 29 30 31 32 34 35 36 37 38 39 40 42 43 44 45
0,005 29 30 32 33 35 36 38 39 41 42 44 45 47 48 50 51 53
0,010 30 32 33 35 36 38 40 41 43 45 46 48 50 52 53 55 57
0,025 32 34 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63
0,050 33 35 37 40 42 44 46 48 50 53 55 57 59 62 64 66 68
8 0,001 36 37 38 39 41 42 43 45 46 48 49 51 52 54 55 57 58
0,005 38 39 41 43 44 46 48 50 52 54 55 57 59 61 63 65 67
0,010 39 41 43 44 46 48 50 52 54 56 59 61 63 65 67 69 71
0,025 41 43 45 47 50 52 54 56 59 61 63 66 68 71 73 75 78
0,050 42 45 47 50 52 55 57 60 63 65 68 70 73 76 78 81 84
9 0,001 45 47 48 49 51 53 54 56 58 60 61 63 65 67 69 71 72
0,005 47 49 51 53 55 57 59 62 64 66 68 70 73 75 77 79 82
0,010 49 51 53 55 57 60 62 64 67 69 72 74 77 79 82 84 86
0,025 50 53 56 58 61 63 66 69 72 74 77 80 83 85 88 91 94
0,050 52 55 58 61 64 67 70 73 76 79 82 85 88 91 94 97 100
10 0,001 56 57 59 61 62 64 66 68 70 73 75 77 79 81 83 85 88
0,005 58 60 62 65 67 69 72 74 77 80 82 85 87 90 93 95 98
0,010 59 62 64 67 69 72 75 78 80 83 86 89 92 94 97 100 103
0,025 61 64 67 70 73 76 79 82 85 89 92 95 98 101 104 108 111
0,050 63 67 70 73 76 80 83 87 90 93 97 100 104 107 111 114 118
11 0,001 67 69 71 73 75 77 79 82 84 87 89 91 94 96 99 101 104
0,005 69 72 74 77 80 83 85 88 91 94 97 100 103 106 109 112 115
0,010 71 74 76 79 82 85 89 92 95 98 101 104 108 111 114 117 120
0,025 73 76 80 83 86 90 93 97 100 104 107 111 114 118 122 125 129
0,050 75 79 83 86 90 94 98 101 105 109 113 117 121 124 128 132 136
Apndice final. Tablas estadsticas 459
Tabla O (continuacin)
n1 n2 ' 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
12 0,001 79 81 83 86 88 91 93 96 98 102 104 106 110 113 116 118 121
0,005 82 82 88 91 94 97 100 103 106 110 113 116 120 123 126 130 133
0,010 84 87 90 93 96 100 103 107 110 114 117 121 125 128 132 135 139
0,025 86 90 93 97 101 105 108 112 116 120 124 158 132 136 140 144 148
0,050 88 92 96 100 105 109 111 117 121 126 130 134 139 414 147 151 156
13 0,001 93 95 97 100 103 106 109 112 115 118 121 124 127 130 134 137 140
0,005 95 99 102 105 109 112 116 119 123 126 130 134 137 141 145 149 152
0,010 97 101 104 108 112 115 119 123 127 131 135 139 143 147 151 155 159
0,025 100 104 108 112 116 120 125 129 133 137 142 146 151 155 159 164 168
0,050 102 107 111 116 120 125 129 134 139 143 148 153 157 162 167 172 176
14 0,001 107 109 112 115 118 121 125 128 131 135 138 142 145 149 152 156 160
0,005 110 113 117 121 124 128 132 136 140 144 148 152 156 160 164 169 173
0,010 112 116 119 123 128 132 136 140 144 149 153 157 162 166 171 175 179
0,025 115 119 123 128 132 137 142 146 151 156 161 165 170 175 180 184 189
0,050 117 122 127 132 137 142 147 152 157 162 167 172 177 183 188 193 198
15 0,001 122 125 128 133 135 138 142 145 149 153 157 161 164 168 172 176 180
0,005 126 129 133 137 141 145 150 154 158 163 167 172 176 181 185 190 194
0,010 128 132 136 140 145 149 154 158 163 168 172 177 182 187 191 196 201
0,025 131 135 140 145 150 155 160 165 170 175 180 185 191 196 201 206 211
0,050 133 139 144 149 154 160 165 191 176 182 187 193 198 204 209 215 221
16 0,001 139 142 145 148 152 156 160 164 168 172 176 180 185 189 193 197 202
0,005 142 146 150 155 159 164 168 173 178 182 187 192 197 202 207 211 216
0,010 144 149 153 158 163 168 173 178 183 188 193 198 203 208 213 219 224
0,025 148 152 158 163 168 174 179 184 190 196 201 207 212 218 223 229 235
0,050 151 156 162 167 173 179 185 191 197 202 208 214 220 226 232 238 244
17 0,001 156 159 163 167 171 175 179 183 188 192 197 201 206 211 215 220 224
0,005 160 164 169 173 178 183 188 193 198 203 208 214 219 224 229 235 240
0,010 162 167 172 177 182 187 192 198 203 209 214 220 225 231 236 242 247
0,025 165 171 176 182 188 193 199 205 211 217 223 229 235 241 247 253 259
0,050 169 174 180 187 193 199 205 211 218 224 231 237 243 250 256 263 269
18 0,001 175 178 182 186 190 195 199 204 209 214 218 223 228 233 238 243 248
0,005 178 183 188 193 198 203 209 214 219 225 230 236 242 247 253 259 264
0,010 181 186 191 196 202 208 213 219 225 231 237 242 248 254 260 266 272
0,025 184 190 196 202 208 214 220 227 233 239 246 252 258 265 271 278 284
0,050 188 194 200 207 213 220 227 233 240 247 254 260 267 274 281 288 295
19 0,001 194 198 202 206 211 216 220 225 231 236 241 246 251 257 262 268 273
0,005 198 203 208 213 219 224 230 236 242 248 254 260 265 272 278 284 290
0,010 200 206 211 217 223 229 235 241 247 254 260 266 273 279 285 292 298
0,025 204 210 216 223 229 236 243 249 256 263 269 276 283 290 297 304 310
0,050 208 214 221 228 235 242 239 256 263 271 278 285 292 300 307 314 321
20 0,001 214 218 223 227 232 237 243 248 253 259 265 270 276 281 287 293 299
0,005 219 224 229 235 241 247 253 259 265 271 278 284 290 297 303 310 316
0,010 221 227 233 239 245 251 258 264 271 278 284 291 298 304 311 318 325
0,025 225 231 238 245 251 259 266 273 280 287 294 301 309 316 323 330 338
0,050 229 236 243 250 258 265 273 280 288 295 303 311 318 326 334 341 349
Tabla P
Puntos crticos para el estadstico H de Kruskal-Wallis
Valores h1! que acumulan una probabilidad 1 !
J n1 n2 n3 n4 n5 1 ! . 0,95 1 ! . 0,99
3 3 3 3 5,60 !
4 3 3 5,73 6,75
4 4 3 5,58 7,14
4 4 4 5,69 7,54
5 3 3 5,52 7,08
5 4 3 5,63 7,44
5 4 4 5,62 7,76
5 5 3 5,63 7,54
5 5 4 5,64 7,82
5 5 5 5,66 7,98
6 3 3 5,61 7,19
6 4 3 5,61 7,47
6 4 4 5,67 7,72
6 5 3 5,60 7,56
6 5 4 5,66 7,94
6 5 5 5,73 8,01
6 6 3 5,63 7,73
6 6 4 5,72 8,00
6 6 5 5,76 8,12
6 6 6 5,72 8,19
7 7 7 5,77 8,33
8 8 8 5,80 8,43
Valor asinttico 5,99 9,21
4 3 3 3 3 6,88 8,44
4 3 3 3 6,97 8,66
4 4 3 3 7,04 8,87
4 4 4 3 7,13 9,07
4 4 4 4 7,21 9,29
Valor asinttico 7,82 11,34
5 3 3 3 3 3 8,33 10,20
Valor asinttico 9,49 13,28
Apndice final. Tablas estadsticas 461
Tabla Q
Puntos crticos para el estadstico de Friedman
Valores que acumulan una probabilidad 1 !
4 3 7,40 9,00
4 7,80 9,60
5 7,80 9,96
6 7,60 10,20
7 7,80 10,54
8 7,65 10,50
Valor asinttico 7,82 11,34
5 3 8,53 13,13
4 8,80 11,20
5 8,96 11,52
6 9,07 11,87
7 9,14 12,11
8 9,20 12,30
Valor asinttico 9,49 13,28
6 3 9,56 11,76
4 10,29 12,57
5 10,49 13,23
6 10,57 13,62
Valor asinttico 11,07 15,07
462 Anlisis de datos (vol. II)
Tabla R
Puntos crticos para el coeficiente de correlacin RS de Spearman
Valores r1 ! que acumulan una probabilidad 1 ! con diferentes tamaos muestrales n
Se verifica: r = !r1 ! .
Glosario de smbolos
Letras griegas
Abad FJ, Olea J, Ponsoda J y Garca C (2010). Medicin en ciencias sociales y de la salud. Madrid: Sntesis.
Abelson RP (1995). Statistics as principled argument. Hillsdale, NJ: LEA.
Abelson RP (1997a). On the surprising longevity of flogged horses: Why there is a case for the significance test.
Psychological Science, 8, 12-15.
Abelson RP (1997b). A retrospective on the significance test ban of 1999 (if there were no significance tests,
they would be invented). In LL Harlow, SA Mulaik y JH Steiger (Eds), What if there were no significance
tests? (pgs 117-141). Hillsdale, NJ: LEA.
Abelson RP y Prentice DA (1997). Contrast tests of interaction hypotheses. Psychological Bulletin, 2, 315-328.
Agresti A (1984). Analysis of ordinal categorical data. New York: Wiley.
Agresti A (2002). Categorical data analysis (2 ed). New York: Wiley.
Agresti A (2007). An introduction to categorical data analysis (2 ed). New York: Wiley.
Algina J y Keselman HJ (1999). Comparing squared multiple correlation coefficients: Examination of an
interval and a test of significance. Psychological Methods, 4, 76-83.
Algina J y Keselman HJ (2003). Approximate confidence intervals for effect sizes. Educational and Psycholo-
gical Measurement, 63, 537-553.
Algina J, Keselman HJ y Penfield RD (2005). An alternative to Cohens standardized mean difference effect
size: A robust parameter and confidence interval in the two independent groups case. Psychological
Methods, 10, 317-328.
Algina J, Keselman HJ y Penfield RD (2006). Confidence intervals for an effect size when variances are not
equal. Journal of Modern Applied Statistical Methods, 5, 2-13.
Amn J (1979). Estadstica para psiclogos. Estadstica descriptiva (2 ed). Madrid: Pirmide.
Amn J (1984). Estadstica para psiclogos. Probabilidad y estadstica inferencial (3 ed). Madrid: Pirmide.
Ato M y Vallejo G (2007). Diseos experimentales en psicologa. Madrid: Pirmide.
Bakan D (1966). The test of significance in psychological research. Psychological Bulletin, 66, 423-437.
Balluerka N, Gmez J y Hidalgo D (2005). The controversy over null hypothesis significance testing revisited.
Methodology: European Journal of Research Methods for the Behavioral and Social Sciences, 1, 55-70.
Bangert R, Kulik JA y Kulik CLC (1983). Effect of coaching programs on achievement test performance.
Review of Educational Research, 53, 571-585.
Belsley DA, Kuh E y Welsch RE (1980). Regression diagnostics: Identifying influential data and sources of
collinearity. New York: Wiley.
Berry WD (1993). Understanding regression assumptions. Newbury Park, CA: Sage.
Berry WD y Feldman S (1985). Multiple regression in practice. Beverly Hills, CA: Sage.
Bird KD (2002). Confidence intervals for effect sizes in analysis of variance. Educational and Psychological
Measurement, 62, 197-226.
Blair RC y Higgins JJ (1985). Comparisons of the power of the paired samples t test to that of Wilcoxons
signed-ranks test under various population shapes. Psychollogical Bulletin, 97, 119-128.
Blair RC, Higgins JJ y Smitley DS (1980). On the relative power of the U and t test. British Journal of
Mathematical and Statistical Psychology, 33, 114-120.
468 Anlisis de datos (vol. II)
Bock RD (1975). Multivariate statistical methods in behavioral research. New York: McGraw-Hill.
Bonett DG y Wright TA (2000). Sample size requirements for estimating Pearson, Kendall, and Spearman
correlations. Psychometrika, 65, 23-28.
Bonett DG y Wright TA (2007). Comments and recommendations regarding the hypothesis testing controversy.
Journal of Organizational Behavior, 28, 647659.
Boss DD y Hughes-Oliver JM (2000). How large does n have to be for the Z and t intervals. American Sta-
tistician, 54, 121-128.
Bowker AH (1948). A test for symmetry in contingency tables. Journal of the American Statistical Association,
43, 572-574.
Box GEP (1950). Problems in the analysis of the growth and wear curves. Biometrics, 6, 362-389.
Box GEP (1953). Non-normality and tests on variance. Biometrika, 40, 318-335.
Box GEP (1954a). Some theorems on quadratic forms applied in the study of analysis of variance problems.
I: Effects of inequality of variance in the one-way classification. Annals of Mathematical Statistics, 25,
290-302.
Box GEP (1954b). Some theorems on quadratic forms applied in the study of analysis of variance problems.
II: Effects of inequality of variance and of correlation between errors in the two-way classification. Annals
of Mathematical Statistics, 25, 484-498.
Breslow NE (1996). Statistics in epidemiology: The case-control study. Journal of the American Statistical
Association, 91, 14-28.
Breslow NE y Day NE (1980). Statistical methods in cancer research. I: The analysis of case-control studies.
Lyon: IARC.
Breslow NE y Day NE (1987). Statistical methods in cancer research. II: The design and analysis of cohort
studies. Lyon: IARC.
Brown M y Forsythe A (1974a). Robust tests for the equality of variances. Journal of the American Statistical
Association, 69, 364-367.
Brown MB y Forsythe AB (1974b). The ANOVA and multiple comparisons for data with heterogeneous
variances. Biometrics, 30, 719-724.
Budescu DV y Appelbaum MI (1981). Variance stabilizing transformations and the power of the F test. Journal
of Educational Statistics, 6, 55-74.
Caruso JC y Cliff N (1997). Empirical size, coverage, and power of confidence intervals for Spearmans rho.
Educational and Psychological Measurement, 57, 637-654.
Carroll RM y Nordholm LA (1975). Sampling characteristics of Kelleyss 2 and Hayss 2. Educational and
Psychological Measurement, 35, 541-554.
Chambers JM, Cleveland WS, Kleiner B y Tukey PA (1983). Graphical methods for data analysis. Belmont,
CA: Wadsworth.
Chase LJ y Tucker RK (1977). Statistical power: Derivation, development and data-analytic implications.
Psychological Record, 26, 473-486.
Chatterjee S y Hadi AS (1988). Sensitivity analysis in regression. New York: Wiley.
Chow SL (1988). Significance test or effect size? Psychological Bulletin, 103, 105-110.
Chow SL (1989). Significance tests and deduction: Reply to Folger (1989). Psychological Bulletin, 106, 161-165.
Chow SL (1991). Some reservations about power analysis. American Psychologist, 46, 1088-1089.
Chow SL (1996). Statistical significance: Rationale, validity, and utility. Thousand Oaks, CA: Sage.
Chow SL (1998). What statistical significance means. Theory and Psychology, 8, 323-330.
Cochran WG (1941). The distribution of the largest of a set of estimated variances as a fraction of their total.
Annals of Eugenics, 11, 47-52.
Cochran WG (1950). The comparison of percentages in matched samples. Biometrika, 37, 256-266.
Cochran WG (1954). Some methods for strengthening the common 2 tests. Biometrics, 10, 417-451.
Cohen J (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement,
20, 37-46.
Cohen J (1966). Some statistical issues in psychological research. En BB Wolman (Ed), Handbook of clinical
psychology (pgs 95-121). New York: McGraw-Hill.
Referencias 469
Cohen J (1968). Weighted kappa: Nominal scale agreement with provision for scaled disagreement of partial
credit. Psychological Bulletin, 70, 213-220.
Cohen J (1988). Statistical power analysis for the behavioral sciences (2 ed). New York: Academic Press.
Cohen J (1990). Things I have learned (so far). American Psychologist, 45, 1304-1312.
Cohen J (1992a). A power primer. Psychological Bulletin, 112, 155-159.
Cohen J (1992b). Statistical power analysis. Current Directions in Psychological Science, 1, 98-101.
Cohen J (1994). The earth is round (p < .05). American Psychologist, 49, 997-1003.
Cohen J (1995). The earth is round (p < .05): Rejoinder. American Psychologist, 50, 1103.
Cohen J, Cohen P, West SG y Aiken LS (2003). Applied multiple regression/correlation analysis for the
behabioral sciences (3 ed). Mahwah, NJ: LEA.
Conover WJ (1980). Practical nonparametric statistics (2 ed). New York: Wiley.
Conover WJ, Johnson ME y Johnson MM (1981). A comparative study of test for homogeneity of variances
with applications to the outer continental self bidding data. Technometrics, 23, 351-361.
Conover WJ y Kemp KE (1976). Comparisons of the asymptotic efficiencies of two sample tests for discrete
distributions. Communications in Statistics - Theory and Methods, 5, 1-15.
Cook RD (1977). Detection of influential observations in linear regression. Technometrics, 19, 15-18.
Cook RD (1979). Influential observations in linear regression. Journal of the American Statistical Association,
74, 169-174.
Cook RD (1993). Exploring partial residual plots. Technometrics, 35, 351-362.
Cook RD y Weisberg, S. (1982). Residuals and influence in regression. New York: Chapman and Hall.
Cornell JE, Young DM, Seaman SL y Kirk RE (1992). Power comparisons of eight tests for sphericity in re-
peated measures designs. Journal of Educational Statistics, 27, 909-949.
Cornfield J (1951). A method for estimating comparative rates from clinical data. Applications to cancer of
lung, breast and cervix. Journal of the National Cancer Institute, 11, 1269-1275.
Cortina JM y Dunlap WP (1997). On the logic and purpose of significance testing. Psychological Methods, 2,
171-172.
Cumming G y Finch S (2005). Inference by eye: Confidence intervals and how to read pictures of data. Ame-
rican Psychologist, 60, 170180.
Dallal GE y Wilkinson L (1986). An analytic approximation to the distribution of Lilliefors test statistics for
normality. The American Statistician, 40, 294-296 (correccin: 41, 248).
Dar R (1998). Null hypothesis tests and theory corroboration: Defending NHSTP out of context. Behavioral
and Brain Sciences, 21, 196-197.
Darlington RB (1990). Regression and linear models. New York: McGraw-Hill.
Davidson ML (1972). Univariate versus multivariate testsin repeated measures experiments. Psychological
Bulletin, 77, 446-452.
DeCoster J, Iselin AMR y Gallucci M (2009). A conceptual and empirical examination of justifications for
dichotomization. Psychological Methods, 14, 349-366.
Delaney HD y Vargha A (2002). Comparing several robust tests of stochastic equality with ordinally scaled
variables and small to moderate sized samples. Psychological Methods, 7, 485-503.
Dineen LC y Blakesley BC (1973). Algorithm AS 62: Generator for the sampling distribution of the Mann-
Whitney U statistic. Applied Statistics, 22, 269-273.
Draper NR y Smith H (1998). Applied regression analysis (3 ed). New York: Wiley.
Duncan DB (1955). Multiple range and multiple F tests. Biometrics, 11, 1-42.
Dunn CW (1961). Multiple comparisons among means. Journal of the American Statistical Association, 56,
52-64.
Dunnett CW (1955). A multiple comparison procedure for comparing several treatments with a control. Journal
of the American Statistical Association, 50, 1096-1121.
Dunnett CW (1980a). Pairwise multiple comparisons in the homogeneous variance, unequal sample size case.
Journal of the American Statistical Association, 75, 789-795.
Dunnett CW (1980b). Pairwise multiple comparisons in the unequal variance case. Journal of the American
Statistical Association, 75, 795-800.
470 Anlisis de datos (vol. II)
Dunnett CW y Gent M (1996). An alternative to the use of two-sided tests in clinical trials. Statistics in Me-
dicine, 15, 1729-1738.
Durbin J y Watson GS (1950). Testing for serial correlation in least-squares regression I. Biometrika, 37, 409-438.
Durbin J y Watson GS (1951). Testing for serial correlation in least-squares regression II. Biometrika, 38, 159-178.
Durbin J y Watson GS (1971). Testing for serial correlation in least-squares regression III. Biometrika, 58, 1-19.
Einot I y Gabriel KR (1975). A study of the powers of several methods of multiple comparisons. Journal of the
American Statistical Association, 70, 574-583.
Erdfelder E, Faul F y Buchner A (1996). GPOWER: A general power analysis program. Behavior Research
Methods, Instruments and Computers, 28, 1-11.
Everitt BS y Howell DC (2005). Encyclopedia of statistics in behavioral science (vol 2, pgs 929-933).
Chichester, Sussex: Wiley.
Falk R (1998). In criticism of the null hypothesis statistical test. American Psychologist, 53, 798-799.
Falk R y Greenbaum CW (1995). Significance tests die hard: The amazing persistence of a probabilistic
misconception. Theory and Psychology, 5, 75-98.
Feinstein AR y Cicchetti DV (1990). High agreement but low kappa. I: The problems of two paradoxes. Journal
of Clinical Epidemiology, 43, 543-549.
Festinger L (1946). The significance of difference between means without reference to the frequency
distribution function. Psychometrika, 11, 97-105.
Fisher RA (1924). The conditions under which X 2 measures the discrepancy between observation and
hypothesis. Journal of the Royal Statistical Society, 87, 442-450.
Fisher RA (1925). Statistical methods for research workers. Edinburg: Oliver and Boyd.
Fisher RA (1935). Design of experiments (5 ed). Edinburgh: Oliver and Boyd.
Fleiss JL (1981). Statistical methods for rates and proportions. Nueva York: Wiley.
Fleiss JL (1986). The design and analysis of clinical experiments. New York: Wiley.
Fleiss JL y Cohen J (1973). The equivalence of weighted kappa and the intraclass correlation coefficient as
measures of reliability. Educational and Psychological Measurement, 33, 633-639.
Fleiss JL, Cohen J y Everitt BS (1969). Large sample standard errors of kappa and weighted kappa. Psycho-
logical Bulletin, 72, 323-327.
Fleming ThR (2008). Current issues in non-inferiority trials. Statistics in Medicine, 27, 317332.
Fowler RL (1985). Point estimates and confidence intervals in measures of association. Psychological Bulletin,
98, 160-165.
Fox J (1991). Regression diagnostics. Newbury Park, CA: Sage.
Fox J (1997). Applied regression analysis, linear models and related methods. Thousand Oaks, Park, CA: Sage.
Franco M y Vivo JM (2007). Anlisis de curvas ROC. Principios bsicos y aplicaciones. Madrid: La Muralla.
.Freeman LC (1986). Order-based statistics and monotonicity: A family of order-based measures of association.
Journal of Mathematical Sociology, 12, 49-69.
Friedman M (1937). The use of ranks to avoid the assumption of normality implicit in the analysis of variance.
Journal of the American Statistical Association, 61, 1081-1096.
Friedman H (1968). Magnitude of experimental effect and a table for its rapid estimation. Psychological
Bulletin, 70, 245-251.
Frick RW (1996). The appropriate use of null hypothesis testing. Psychological Methods, 1, 379-390
Games PA (1973). Type IV errors revised. Psychological Bulletin, 80, 304-307.
Games PA (1983). Curvilinear transformation of the dependent variable. Psychological Bulletin, 93, 382-387.
Games PA y Howell JF (1976). Pairwise multiple comparison procedures with unequal ns and/or variances:
A Monte Carlo study. Journal of Educational Statistics, 1, 113-125.
Games PA, Keselman HJ y Rogan JC (1981). Simultaneous pairwise multiple comparison procedures for means
when sample sizes are unequal. Psychological Bulletin, 90, 594-598.
Games PA y Lucas PA (1966). Power of the analysis of variance of independent groups on non-normal and
normally transformed data. Educational and Psychological Measurement, 26, 311-327.
Geisser S y Greenhouse SW (1958). An extension of Box results on the use of F distribution in multivariate
analysis. Annals of Mathematical Statistics, 29, 885-891.
Referencias 471
Gigerenzer G (1993). The superego, the ego, and the id in statistical reasoning. En G Keren y C Lewis (Eds),
A handbook for data analysis in the behavioral sciences. Methodological issues (pgs 311-339). Hillsdale,
NJ: LEA.
Glass GV (1976). Primary, secondary, and meta-analysis of research. Educational Researcher, 5, 3-8.
Glass GV, McGraw B y Smith ML (1981). Meta-analysis in social research. Beberly-Hills, CA: Sage.
Glass GV, Peckham PD y Sanders JR (1972). Consequences of failure to meet assumptions underlying the fixed
effects analysis of variance and covariance. Review of Educational Research, 42, 237- 288.
Good PI y Lunneborg C (2006). Limitations of the analysis of variance. Journal of Modern Applied Statistical
Methods, 5, 41-43.
Goodman LA y Kruskal WH (1979). Measures of association for cross classifications. New York: Springer.
Gorsuch RL (1991). Things learned from another perspective (so far). American Psychologist, 46, 1089-1090.
Gosset WS (Student) (1927). Errors of routine analysis. Biometrika, 19, 151-164.
Grayson D (2004). Some myths and legends in quantitative psychology. Understanding Statistics, 3, 101-134.
Green SB (1991). How many subjects dos it take tod a regression analysis. Multivariate Behavioral Research,
26, 499-510.
Greenhouse SW y Geisser S (1959). On methods in the analysis of profile data. Psychometrika, 24, 95-112.
Hagen RL (1997). In praise of the hypothesis statistical test. American Psychologist, 52, 15-24.
Hagen RL (1998). A further look at wrong reasons to abandon statistical testing. American Psychologist, 53,
801-803.
Hanley JA y McNeil BJ (1982). The meaning and use of the area under a receiver operating characteristic
(ROC) curve. Radiology, 143, 29-36.
Hardy M (1993). Regression with dummy variables. Newbury Park, CA: Sage.
Hardy M y Briman A (Eds) (2004). Handbook of data analysis. London: Sage.
Harlow LL, Mulaik SA y Steiger JH (1997). What if there were no significance test. Mahwah, NJ: LEA.
Harrell FE (2001). Regression modeling strategies: With applications to linear models, logistic regression, and
survival analysis. New York: Springer-Veralg.
Harris RJ (2001). A primer of multivariate statistics (3 ed). Mahwah, NJ: LEA.
Hartley HO (1940). Testing the homogeneity of a set of variances. Biometrika, 31, 249-255.
Hartley HO (1950). The maximum F-ratio as a short-cut test for heterogeneity of variance. Biometrika, 37,
308-312.
Harwell MR, Rubinstein EN, Hayes WS y Olds CC (1992). Summarizing Monte Carlo results in methodo-
logical research: The one- and two- ANOVA cases. Journal of Educational Statistics, 17, 315-339.
Hays WL (1963). Statistics. New York: Holt, Rinehart and Winston.
Hays WL (1994). Statistics (5 ed). New York: Holt, Rinehart and Winston.
Hedges LV (1981). Distribution theory for Glasss estimator of effect size and related estimators. Journal of
Educational Statistics, 6, 107-128.
Hedges LV (1982). Estimation of effect size from a series of independent experiments. Psychological Bulletin,
91, 490-499.
Hedges LV y Olkin I (1984). Nonparametric estimators of effect size in meta-analysis. Psychological Bulletin,
96, 573-580.
Hedges LV y Olkin I (1985). Statistical methods for meta-analysis. New York: Academic Press.
Henderson DA y Denison DR (1989). Stepwise regression in social and psychological research. Psychological
Reports, 64, 251-257.
Hoaglin DC y Welsch R (1978). The hat matrix in regression and ANOVA. American Statistician, 32, 17-22.
Hochberg Y (1974). Some generalizations of the T-method in simultaneous inference. Journal of Multivariate
Analysis, 4, 224-234.
Hochberg Y y Tamhane AC (2009). Multiple comparison procedures (2 ed). New York: Wiley.
Holland BS y Copenhaver MD (1988). Improved Bonferroni-type multiple testing procedures. Psychological
Bulletin, 104, 145-149.
Horsnell G (1953). The effect of unequal groups variances on the F-test for homogeneity of group means.
Biometrika, 40, 128-136.
472 Anlisis de datos (vol. II)
Howell DC (2002). Statistical methods for psychology (5 ed). Belmont, CA: Thomson Wadsworth.
Hsu JC (1996). Multiple comparisons: Theory and methods. New York: Chapman and Hall.
Hsu LM (2004). Biases of success rate differences shown in binomial effect size displays. Psychological Me-
thods, 9, 183-197.
Huberty CJ (1989). Problems with stepwise methods. Better alternatives. En B Thomson (Ed), Advances in
social science methodology (vol 1, pgs 43-70). Greenwich, CT: JAI Press.
Hunter JE (1997). Needed: A ban on the significance test. Psychological Science, 8, 3-7.
Hunter JE y Schmidt FL (2004). Methods of meta-analysis (2 ed). Thousand Oaks, CA: Sage.
Huynh H (1978). Some approximate tests for repeated measurement designs. Psychometrika, 43, 161-175.
Huynh H (1982). A comparison of four approaches to robust regression. Psychological Bulletin, 92, 505-512.
Huynh H y Feldt LS (1970). Conditons under which mean square ratios in repeated measurements designs have
exacta F-distributions. Journal of the American Statistical Association, 65, 1582-1589.
Huynh H y Feldt LS (1976). Estimation of the Box correction for degrees of freedom from sample data in
randomized block and split-plot design. Journal of Educational Statistics, 1, 69-82.
Iman RL y Conover WJ (1983). A modern approach to statistics. New York: Wiley.
Iman RL y Davenport JM (1980). Approximations of the critical region of the Friedman statistics. Commu-
nications in Statistics - Theory and Methods, 9, 571-595.
Jaccard J (1998). Interaction effects in factorial analysis of variance. Thousand Oaks, CA: Sage.
Jaccard J, Becker MA y Wood G (1984). Pairwise multiple comparison procedures: A review. Psychological
Bulletin, 96, 589-596.
Jaccard J y Turrisi R (2003). Interaction effects in multiple regression. Thousand Oaks, CA: Sage.
Jagers P (1980). Invariance in the linear model: An argument for chi-square and F in non-normal situations.
Mathematische Operationsforschung und Statistik, 11, 455-464.
Jensen DR (1982). Efficiency and robustness in the use of repeated measurements. Biometrics, 38, 813-825.
Jensen DR (1987). Topics in the analysis of repeated measurements. En H Bozdogan y AK Gupta (Eds), Mul-
tivariate statistical modeling and data analysis (pgs 147-161). Nwe York: Reidel.
John S (1971). Some optimal multivariate tests. Biometrika, 58, 123-127.
John S (1972). The distribution of a statistic used for testing sphericity of normal distributions. Biometrika, 59,
169-173.
Judd CM y Kenny D (1981). Estimating the effects of social interventions. Cambridge, MA: Cambridge Uni-
versity Press.
Kaul S, Diamond GA (2006). Good enough: A primer on the analysis and interpretation of noninferiority trials.
Annals of Internal Medicine, 145, 62-69.
Kelley K (2005). The effects of non-normal distributions on confidence intervals around the standardized mean
difference: Bootstrap and parametric confidence intervals. Educational and Psychological Measurement,
65, 51-69.
Kelley TL (1935). An unbiased correlation ratio measure. Proceedings of the National Academy of Sciences,
21, 554-559.
Kendall MG (1938). A new measure of rank correlation. Biometrika, 30, 81-93.
Kendall MG (1945). The treatment of ties in rank problems. Biometrika, 33, 239-251.
Kendall MG (1970). Rank correlation methods (3 ed). London: Griffi.
Kendall MG y Babington-Smith B (1939). The problem of m rankings. The Annals of Mathematical Statistics,
10, 275-287.
Kenny DA y Judd CM (1986). Consequences of violating the independence assumption in analysis of variance.
Psychological Bulletin, 99, 422-431.
Keppel G y Wickens ThD (2004). Design and analysis. A researchers handbook (4 ed). Englewood Cliffs,
NJ: Prentice-Hall.
Keselman HJ, Games PA y Rogan JC (1979). An addendum to A comparison of the modified Tukey and
Scheff methods of multiple comparisons for pairwise contrasts. Journal of the American Statistical
Association, 74, 626-627.
Keselman HJ y Keselman JC (1988). Repeated measures multiple comparison procedures: Effects of violating
multisample sphericity in unbalanced designs. Journal of Educational Statistics, 13, 215-226.
Referencias 473
Keselman HJ, Keselman JC y Games PA (1991). Maximum familywise type I error rate: The least signifi-
cant differende, Newman-Keuls, and other multiple comparison procedures. Psychological Bulletin, 110,
155-161.
Keselman HJ, Keselman JC y Shaffer JP (1991). Multiple pairwise comparisons of repeated measures means
under violation of multisample sphericity. Psychological Bulletin, 110, 162-170.
Keselman HJ, Lix LM y Kowalchuk RK (1998). Multiple comparison procedures for trimmed means.
Psychological Methods, 3, 123-141.
Keselman HJ y Rogan JC (1978). A comparison of the modified Tukey and Scheff methods of multiple
comparisons. Journal of the American Statistical Association, 73, 47-52.
Keselman HJ, Rogan JC, Mendoza JL y Breen LJ (1980). Testing the validity conditions of repeated measures
F tests. Psychological Bulletin, 87, 479-481.
Keuls M (1952). The use of studentized range in connection with an analysis of variance. Euphytica, 1, 112-122.
Kirk RE (1995). Experimental design. Procedures for the behavioral sciences (3 ed). Belmont, CA: Brooks/
Cole Publishing Company.
Kirk RE (1996). Practical significance: A concept whose time has come. Educational and Psychological Mea-
surement, 56, 746-759.
Kleinbaum DJ, Kupper LL y Morgenstern H (1982). Epidemiologic research. Principles and quantitative me-
thods. Mew York: Van Nostrand Reinhold.
Kline RB (2004). Beyond significance testing. Reforming data analysis methods in behavioral research. Was-
hington, DC: American Psychological Association.
Kohr RL y Games PA (1974). Robustness of analysis of variance, the Welch procedure, and a Box procedure
to heterogeneous variances. Journal of Experimental Education, 43, 61-69.
Kolmogorov A (1933). Sulla determinazione empirica di una legge di distribuzione. Giornale dell Istituto
Italiano degli Attuari, 4, 83-91.
Kraemer HC y Andrews G (1982). A nonparametric technique for meta-analysis effect size calculation. Psy-
chological Bulletin, 91, 404-412.
Kramer CY (1956). Extension of multiple range test to group means with unequal numbers of replications.
Biometrics, 12, 307-310.
Kruskal JB (1978). Transformations of data. En WH Kruskal y JM Tanur (Eds), International Encyclopedia
of Statistics (pgs 1044-1056). New York: Free Press.
Kruskal WH y Wallis WA (1952). Use of ranks on one-criterion variance analysis. Journal of the American
Statistical Association, 47, 583-621 (aparecen correcciones en vol 48, pgs 907-911).
Kulinska E y Staudte RG (2006). Interval estimates of weighted effect sizes in the one-way heteroscedastic
ANOVA. British Journal of Mathematical and Statistical Psychology, 59, 97-111.
Kvlseth TO (1991). A coefficient of agreement for nominal sacales: An asymetric version of kappa. Educa-
tional and Psychological Measurement, 51, 95-101.
Labovitz S (1968). Criteria for selecting a significance level: A note on the sacredness of .05. American So-
ciologist, 3, 200-222.
Landis JR y Koch GG (1977). The measurement of observer agreement for categorical data. Biometrics, 33,
159-174.
Lashley BR (1998). A defense of statistical power analysis. Behavioral and Brain Sciences, 21, 209-210.
Len OG y Montero I (2003). Mtodos de investigacin en psicologa y educacin (3 ed). Madrid: McGraw-Hill.
Levene H (1960). Robust tests for the equality of variances. En J. Olkin (Ed), Contributions to probability and
statistics (pgs 278-292). Palo Alto, CA: Stanford University Press.
Levin JR y Serlin RC (2000). Changing students perspectives of McNemar test of change. Journal of Statistics
Education, 8 (2) [online].
Levine DW y Dunlap WP (1982). Power of the F test with skewed data: Should one transform or not? Psycho-
logical Bulletin, 92, 272-280.
Levine DW y Dunlap WP (1983). Data transformation, power, and skew: A rejoinder to Games. Psychological
Bulletin, 93, 596-599.
Levy P (1967). Substantive significance of significant differences between groups. Psychological Bulletin, 67,
37-40.
474 Anlisis de datos (vol. II)
Lewandowsky S y Maybery M (1998). The critics rebutted: A pyrrhic victory. Behavioral and Brain Sciences,
21, 210-211.
Lewis-Beck MS (1980). Applied regression. An introduction. Beverly-Hills, CA: Sage.
Lillieffors HW (1967). On the Kolmogorov-Smirnov test for normality with mean and variance unknown.
Journal of the American Statistical Association, 62, 399-402.
Lix LM, Keselman JC y Keselman HJ (1996). Consequences of assumption violations revisited: A quantitative
review of alternatives to the one-way analysis of variance F test. Review of Educ. Research, 66, 579-619.
Luh WM (1992). Heterogeneous variances in one-way fixed model ANOVA: Variance-stabilizing transfor-
mations and other alternatives. Dissertation Abstracts International, 53, DA9301212.
Macdonald RR (2002). The incompleteness of probability models and the resultant implications for theories of
statistical inference. Understanding Statistics, 1, 167-189.
Mahalanobis PC (1936). On the generalized distance in statistics. Procedures National Science India, 2, 49-55.
Mann HB y Whitney DR (1947). On a test of whether one of two random variables is stochastically larger than
the other. Annals of Mathematical Statistics, 18, 50-60.
Mantel N y Haenszel W (1959). Statistical aspects of the analysis of data from retrospective studies of disease.
Journal of the National Cancer Institute, 22, 719-748.
Marascuilo LA y McSweeney M (1977). Nonparametric and distribution-free methods. Monterrey, CA:
Brooks/Cole Publishing Company.
Markus KA (2001). The converse inequality argument against tests of statistical significance. Psychological
Methods, 6, 147-160.
Mauchly JW (1940). Significance test for sphericity of a normal n-variate distribution. Annals of Mathematical
Statistics, 11, 204-209.
Maxwell SE (1980). Pairwise multiple comparisons in repeated measures designs. Journal of Educational Sta-
tistics, 5, 269-287.
Maxwell SE, Camp CJ y Arvey RD (1981). Measures of strength of association: A comparative examination.
Journal of Applied Psychology, 66, 525-534.
Maxwell SE y Delaney HD (2004). Designing experiments and analyzing data (2 ed). Mahwah, NJ: LEA.
McDonald RP (1997). Goodness of approximation in the linear model. En LL Harlow, SA Mulaik y JH Steiger
(Eds), What if there were no significance tests? (pgs 199-219). Hillsdale, NJ: LEA.
McFaden D (1974). The measurement of urban travel demand. Journal of Public Economics, 3, 303-328.
McGrath RE (1998). Significance testing: Is there something better? American Psychologist, 53, 796-797.
McGrath RE y Meyer GJ (2006). When effect sizes disagree: The case of r and d. Psychological Methods, 11,
386-401.
McGraw KO y Wong SP (1992). A common language effect size statistic. Psychological Bulletin, 111, 361-365.
McGraw KO y Wong SP (1996). Forming inferences about some intraclass correlation coefficients. Psycholo-
gical Methods, 1, 30-46.
McNemar Q (1947). Note on the sampling error of te difference between correlated proportions or percentages.
Psychometrika, 12, 153-157.
Meehl PE (1967). Theory testing in psychology and in physics: A methodological paradox. Philosophy of
Science, 34, 103-115.
Meehl PE (1978). Theoretical risks and tabular asterisks: Sir Karl, Sir Ronald, and the slow progress of soft
psychology. Journal of Consulting and Clinical Psychology, 46, 806-834.
Meehl PE (1990). Why summaries of research on psychological theories are often uninterpretable. Psycho-
logical Reports, 66, 195-244.
Meehl PE (1997). The problem is epistemology, not statistics: Replace significance tests by confidence intervals
and quantify accuracy of risky numerical predictions. In LL Harlow, SA Mulaik y JH Steiger (Eds), What
if there were no significance tests? (pgs 391-423). Hillsdale, NJ: LEA.
Mendoza JL (1980). A significance test for multisample sphericity. Psychometrika 45, 495-498.
Meyer DL (1991). Misinterpretation of interactions effects: A reply to Rosnow and Rosenthal. Psychological
Bulletin, 110, 571-573.
Micceri T (1989). The unicorn, the normal curve, and other improbable creatures. Psychological Bulletin, 105,
156-166.
Referencias 475
Miettinen OS (1976). Estimability and estimation in case-referent studies. American Journal of Epidemiology,
103, 226-235.
Miles JNV y Banyard P (2007). Understanding and using statistics in psychology. A practical introduction.
Thousand Oaks, CA: Sage.
Miller RG (1981). Simultaneous statistical inference (2 ed). New York: McGraw-Hill.
Milligan GW (1987). The use of the arc-sine transformation in the analysis of variance. Educational and Psy-
chological Measurement, 47, 563-573.
Mitzel HC y Games PA (1981). Circularity and multiple comparisons in repeated measures designs. British
Journal of Mathematical and Statistical Psychology, 34, 253-259.
Montgomery DC, Johnson LA y Gardiner JS (1990). Forecasting and time series analysis (2 ed). New York:
McGraw-Hill.
Montgomery DC, Peck EA y Vining GG (2001). Introduction to linear regression analysis (3 ed). New
York: Wiley.
Morrison DE y Henkel RE (Eds) (1970). The significant test controversy: A reader. Chicago, IL: Aldine.
Moses LE (1952). A two sample test. Psychometrika, 17, 239-247.
Murphy KR (1997). Editorial. Journal of Applied Psychology, 82, 3-5.
Mulaik SA, Raju NS y Harshman RA (1997). There is a time and place for significance testing. En LL Harlow,
SA Mulaik y JH Steiger (Eds), What if there were no significance tests? (pgs 65-116). Hillsdale, NJ: LEA.
Myers JL y Well AD (2003). Research design and statistical analysis (2 ed). Mahwah, NJ: LEA.
Nagao H (1973). On some test criteria for covariance matrix. The Annals of Statistics, 1, 700-709.
Neter J, Kutner MH, Nachtscheim CJ y Wasserman W (1996). Applied linear statistical models (4 ed). Boston:
McGraw-Hill.
Newman D (1939). The distribution of the range in samples of a normal population, expressed in terms of an
independent estimate of standard deviation. Biometrika, 31, 20-30.
Neyman J y Pearson ES (1928). On the use and interpretation of certain test criteria for purposes of statistical
inference. Biometrika, 20A, 175-240 (1 parte), 263-294 (2 parte).
Nijsse M (1988). Testing the significance of Kendalls and Spearmans rs. Psychological Bulletin, 103, 235-237.
Nikerson RS (2000). Null hypothesis significance testing: A review of an old and continuing controversy.
Psychological Methods, 5, 241-301.
Noether GA (1967). Elements of nonparametric statistics. New York: Wiley.
Oakes M (1986). Statistical inference: A commentary for the social and behavioral sciences. New York: Wiley.
OBrien RG (1981). A simple test for variance effects in experimental designs. Psychological Bulletin, 89, 570-
574.
OGrady KE (1982). Measures of explained variance: Cautions and limitations. Psychological Bulletin, 92,
766-777.
Olejnik S y Algina J (2000). Measures of effect size for comparative studies: Applications, interpretations and
limitations. Contemporary Educational Psychology, 25, 241-286.
Olejnik S y Algina J (2003). Generalized eta and omega squared statistics: Measures of effect size for some
common research designs. Psychological Methods, 8, 434-447.
Oshima TC y Algina J (1992). Type I error rates for Jamess second order test and Wilcoxs Hm test under hete-
roscedasticity and nonnormality. British Journal of Mathematical and Statistical Psychology, 45, 225-263.
Ostrom CW (1990). Time series analysis: Regression techniques (2 ed). Newbury Park, CA: Sage.
Pardo A, Garrido J, Ruiz MA y San Martn R (2007). La interaccin entre factores en el anlisis de varianza:
errores de interpretacin. Psicothema, 19, 343-349.
Pardo A y Ruiz MA (2009). Gestin de datos con SPSS Statistics. Madrid: Sntesis.
Pardo A, Ruiz MA y San Martn R (2009). Anlisis de datos en ciencias sociales y de la salud (vol 1). Madrid:
Sntesis.
Pardo A y San Martn R (1998). Anlisis de datos en psicologa II (2 ed). Madrid: Pirmide.
Parker S (1995). The difference of means may not be the effect size. American Psychologist, 50, 1101-1102.
Pascual J (1998). Diseo entre grupos. En MT Anguera, J Arnau, M Ato, R Martnez, J Pascual y G Vallejo
(Eds): Mtodos de investigacin en Psicologa (pgs 73-112). Madrid: Sntesis.
476 Anlisis de datos (vol. II)
Pearson K (1905). On the theory of skew correlations and nonlinear regression. Mathematical contributions
to the theory of evolution. Londres: Cambridge University Press (Biometric Laboratory Publications).
Pedhazur EJ y Pedhazur L (1991). Measurement, design and analysis. An integrated approach. Hillsdale,
NJ: LEA.
Peters CC y Van Voorhis WR (1940). Statistical procedures and their mathematical bases. New York: Mc-
Graw-Hill.
Petty RE, Fabrigar LR, Wegener DT y Priester JR (1996). Understanding data when interactions are present or
hypothesized. Psychological Science, 7, 247-252.
Piaggio G, Elbourne DR, Altman DG, Pocock SJ, Evans SJ (2006). Reporting of noninferiority and equivalence
randomized trials: an extension of the CONSORT statement. Journal of the American Medical Association,
295, 1152-1160.
Posner KL, Sampson PD, Caplan RA, Ward RJ y Cheney FW (1990). Measuring inter-rater reliability among
multiple raters: An example of methods for nominal data. Statistics in Medicine, 9, 1103-1115.
Powers JH (2008). Noninferiority and equivalence trials: Deciphering similarityof medical interventions.
Statistics in Medicine, 27, 343-352.
Prentice DA y Miller DT (1992). When small effects are impressive. Psychological Bulletin, 112, 160- 164.
Rao CR y Kleffe J (1988). Estimation of variance components and applications. Amsterdam: North- Holland
Rasmussen JL (1989). Data transformation, Type I error rate, and power. British Journal of Mathematical and
Statistical Psychology, 42, 203-213.
Richardson JTE (1996). Measures of effect size. Behavioral Research Methods, Instruments, and Computers,
28, 1222.
Rigby AS (1999). Statistical methods in epidemiology. III. The odds ratio as an approximation to the relative
risk. Disability and Rehabilitation, 21, 145-151.
Robinson WS (1950). Ecological correlations and the behavior of individuals. American Sociological Review,
15, 351-357.
Rogan J y Keselman H (1977). Is the ANOVA F-test robust to variance heterogeneity when sample sizes are
equal? An investigation via a coefficient of variation. American Educational Research Journal, 14, 493-498.
Rosenthal R (1990). How are we doing in soft psychology? American Psychologist, 45, 775-777.
Rosenthal R (1991). Meta-analytic procedures for social research (2 ed). Beverly-Hills, CA: Sage.
Rosenthal R, Rosnow RL y Rubin DB (2000). Contrasts and effect sizes in behavioral research: A correlational
approach. New York: Cambridge University Press.
Rosenthal R y Rubin DB (1982). A simple, general purpose display of magnitude of experimental effect.
Journal of Educational Psychology, 74, 166-169.
Rosenthal R y Rubin DB (2003). r-equivalent: A simple effect size indicator. Psychological Methods, 8, 492-496.
Rosnow RL y Rosenthal R (1989a). Definition and interpretation of interaction effects. Psychological Bulletin,
105, 143-146.
Rosnow RL y Rosenthal R (1989b). Statistical procedures and the justification of knowledge in psychological
science. American Psychologist, 44, 1276-1284.
Rosnow RL y Rosenthal R (1991). If youre looking at the cell means, youre not looking only at the interaction
(unless all main effects are zero). Psychological Bulletin, 110, 574-576.
Rosnow RL y Rosenthal R (1995). Some things you learn arent so: Cohens paradox, Aschs paradigm and
the interpretation of interaction. Psychological Science, 6, 3-9.
Rosnow RL y Rosenthal R (1996). Contrast and interactions redux: Five easy pieces. Psychological Science,
7, 253-257.
Rossi JS (1990). Statistical power of psychological research: What have we gained in 20 years? Journal of
Consulting and Clinical Psychology, 58, 646-656.
Rossi JS (1997). A case study in the failure of Psychology as a cumulative science: The spontaneous recovery
of verbal learning. En LL Harlow, SA Mulaik y JH Steiger (Eds): What if there where no significance tests?
(pgs 174-197). Mahwah, NJ: LEA.
Rouanet H y Lpine D (1970). Comparisons between treatments in a repeated-measures design: ANOVA and
multivariate methods. The British Journal of Mathematical and Statistical Psychology, 23, 147-163.
Rousseeuw PJ y Leroy AM (1987). Robust regression and outlier detection. New York: Wiley.
Referencias 477
Rozeboom WW (1960). The fallacy of the null hypothesis significance test. Psychological Bulletin, 57, 416-428.
Rozeboom WW (1979). Ridge regression: Bonanza or beguilement? Psychological Bulletin, 86, 242-249.
Rozeboom WW (1997). Good science is abductive, not hypothetico-deductive. En LL Harlow, SA Mulaik y
JH Steiger (Eds), What if there were no significance tests? (pgs 335-391). Hillsdale, NJ: LEA.
Ruscio J (2006). Critical thinking in psychology: Separating sense of nonsense (2 ed). Belmont, CA: Thomson
Wadsworth.
Ruscio J (2008). A probability-based measure of effect size: Robustness to base rates and other factors. Psy-
chological Methods, 13, 19-30
Ryan TA (1960). Significance tests for multiple comparisons of proportions, variances and other statistics.
Psychological Bulletin, 57, 318-328.
San Martn R y Pardo A (1989). Psicoestadstica. Contrastes paramtricos y no paramtricos. Madrid:
Pirmide.
Saville BK (2008). Research methods in psychology. A guide to teaching. Malden, MA: Blackwell Publishing.
Scariano SM y Davenport JM (1987). The effects of violations of independence assumptions in the one-way
ANOVA. The American Statistician, 41, 123-129
Scheff HA (1953). A method for judging all possible contrasts in the analysis of variance. Biometrika, 40,
87-104.
Schmidt FL (1992). What do data really mean. American Psychologist, 47, 1173-1181.
Schmidt FL (1996). Statistical significance testing and cumulative knowledge in psychology: Implications for
training research. Psychological Methods, 1, 115-129.
Schmidt FL y Hunter JE (1996). Measurement error in psychological research: Lessons from 26 research
scenarios. Psychological Methods, 1, 199-223.
Schmidt FL y Hunter JE (1997). Eight common but false objections to the discontinuation of significance tes-
ting in the analysis of research data. En LL Harlow, SA Mulaik y JH Steiger (Eds): What if there where no
significance tests? (pgs 37-64). Mahwah, NJ: LEA.
Schroeder LD, Sjoquist DL y Stephan PA (1986). Understanding regression analysis. An introductory Guide.
Beverly Hills, CA: Sage.
Schuirmann DJ (1987). A comparison of the two one-sided tests procedure and the power approach for
assessing the equivalence of average bioavailability. Journal of Pharmacokinetics and Biopharmaceutics,
15, 657-680.
Seaman MA, Levin JR y Serlin RC (1991). New developments in pairwise multiple comparisons: Some
powerfull and practicable procedures. Psychological Bulletin, 110, 577-586.
Seaman MA y Serlin RC (1998). Equivalence confidence intervals for two-groups comparisons of means.
Psychological Methods, 3, 403-411.
Searle SR, Casella G y McCulloch CE (1992). Variance components. New York: Wiley.
Searle SR, Speed FM y Milliken GA (1980). Population marginal means in the linear model: An alternative to
least squares means. The American Statistician, 34, 216-221.
Serlin RC, Carr J y Marascuilo LA (1982). A measure of association for selected nonparametric procedures.
Psychological Bulletin, 92, 786-790.
Shapiro SS y Wilk MB (1965). An analysis of variance test for normality. (complete samples). Biometrika, 52,
591-611.
Shaver JP (1985). Chance and nonsense: A conversation about interpreting tests of statistical significance. Phi
Delta Kappan, 67, 57-60, 138-141.
Shoukri MM (2004). Measures of interobserver agreement. Boca Ratn, FL: Chapman and Hall/CRC Press.
idk Z (1967). Rectangular confidence regions for the means of multivariate normal distributions. Journal of
the American Statistical Association, 62, 626-633.
Siegel S y Castellan NJ (1988). Nonparametric statistics for the behavioral sciences (2 ed). New York: Mc-
Graw-Hill.
Skipper Jr JK, Guenther AL y Nass G (1967). The sacredness of .05: A note concerning the uses of statistical
levels of significance in social science. The American Sociologist, 2, 16-18.
Smirnov NV (1939). Estimate of deviation between empirical distribution functions in two independent
samples. Bulletin Moscow University, 2, 3-16 [ruso].
478 Anlisis de datos (vol. II)
Smirnov NV (1948). Table for estimating the goodness of fit of empirical distributions. Annals of Mathematical
Statistics, 19, 279-281.
Snapinn SM (2000). Noninferiority trials. Current Control Trials in Cardiovascular Medicine, 1, 19-21.
Snedecor GW (1934). Analysis of variance and covariance. Ames, IW: Iowa State University Press.
Somers RH (1962). A new asymmetric measure of association for ordinal variables. American Sociological
Review, 27, 799-811.
Spearman C (1904). The proof and measurement of association between two things. American Journal of
Psychology, 15, 72-101.
Spitzer RL, Cohen J, Fleis JL y Endicott J (1967). Quantification of agreement in psychiatric diagnosis. Archi-
ves of General Psiychiatry, 17, 83-87.
Steel RGD, Torrie JH y Dickey DA (1997). Principles and procedures of statistics: A biomedical approach (3
ed). New York: McGraw-Hill.
Steiger JH (2004). Beyond the F test: Effect size confidence intervals and tests of close fit in the analysis of
variance and contrast analysis. Psychological Methods, 9, 164-182.
Steiger JH y Fouladi RT (1997). Noncentrality interval estimation and the evaluation of statistical methods. En
LL Harlow, SA Mulaik y JH Steiger (Eds): What if there where no significance tests? (pgs 221-257).
Mahwah, NJ: LEA.
Stevens JP (1984). Outliers and influential data points in regression analysis. Psychological Bulletin, 95, 334-344.
Stevens JP (1992). Applied multivariate statistics for the social sciences. Hillsdale. NJ: LEA.
Stuart A (1953). The estimation and comparison of strengths os association in contingency tables. Biometrica,
40, 105-112.
Sugiura N (1972). Locally best invariant test for sphericity and the limiting distribution. Annals of Mathematical
Statistics, 43, 1312-1316.
Tabachnik BG y Fidel LS (2001). Using multivariate statistics (2 ed). Boston: Allyn and Bacon.
Tamhane AC (1977). Multiple comparisons in model I one-way ANOVA with unequal variances. Com-
munications in Statistics - Theory and Methods, 6, 15-32.
Tamhane AC (1979). A comparison of procedures for multiple comparisons of means with unequal variances.
Journal of the American Statistical Association, 74, 471-480.
Tan WY (1982). Sampling distributions and robustness of t, F and variance-ratio in two samples and ANOVA
models with respect to departure from normality. Communications in Statistics - Theory and Methods, 11,
486-511.
Tarone RE (1985). On heterogeneity tests based on efficient scores. Biometrika, 72, 91-95.
Tarone RE, Gart JJ y Hauck WW (1983). On the asymptotic relative efficiency of certain noniterative estimators
of a common relative risk or odds ratio. Biometrika, 70, 519-522.
Theil H (1970). On the estimation of relationships involving qualitative variables. American Journal of Socio-
logy, 76, 103-154.
Thompson B (1994). Guidelines for authors. Educational and Psychological Measurement, 54, 837- 847.
Thompson B (1997). Editorial policies regarding statistical significance tests: Further comments. Educational
Researcher, 26, 29-32.
Thompson WD y Walter SD (1988). Kappa and the concept of independent errors. Journal of Clinical
Epidemiology, 41, 969-970.
Tomarken AJ y Serlin RC (1986). Comparison of ANOVA alternatives under variance heterogeneity and spe-
cific noncentrality structures. Psychological Bulletin, 99, 90-99.
Toothaker LE (1991). Multiple comparison for researchers. London: Sage.
Toothaker LE (1999). Multiple comparison procedures (2 ed). London: Sage.
Tryon WW (2001). Evaluating statistical difference, equivalence, and indeterminacy using inferential confi-
dence intervals: An integrated alternative method of conducting null hypothesis statistical tests. Psycho-
logical Methods, 6, 371386.
Tryon WW y Lewis Ch (2008). An inferential confidence interval method of establishing statistical equivalence
that corrects Tryon (2001) reduction factor. Psychological Methods, 13, 272-277.
Tukey JW (1949). One degree of freedom for nonaditivity. Biometrics, 5, 232-242.
Tukey JW (1953). The problem of multiple comparisons. Princeton University (manuscrito no publicado).
Referencias 479
Tukey JW (1991). The philosophy of multiple comparison. Statistical Science, 6, 100-116.
Van Belle G, Fisher LD, Heagerty PJ y Lumley Th (2004). Biostatistics. A methodology for the health sciences
(2 ed). Hoboken, NJ: Wiley.
Vargha A y Delaney HD (1998). The Kruskal-Wallis test and estochastic homogeneity. Journal of Educational
and Behavioral Statistics, 23, 195-217.
Vargha A y Delaney HD (2000). A critique and improvement of the CL common language effect size statistic
of McGraw and Wong. Journal of Educational and Behavioral Statistics, 25, 101-132.
Von Eye A y Mun EY (2005). Analyzing rater agreement. Mahwah, NJ: LEA.
Wainer H (1999). One cheer for null hypothesis significance testing. Psychological Methods, 4, 212-213.
Wainer H y Thissen D (1993). Graphical data analysis. En G Keren y C Lewis (Eds). A handbook for data
analysis in the behavioral sciences. Methodological issues (pgs 391-457). Hillsdale, NJ: LEA.
Wald A y Wolfowitz J (1940). On a test whether two samples are from the same population. Annals of Ma-
thematical Statistics, 11, 147-162.
Wallis WA (1939). The correlation ratio for ranked data. Journal of the American Statistical Association, 34,
533-538.
Weisberg S (2005). Applied linear regression (3 ed). Hoboken, NJ: Wiley.
Welch BL (1951). On the comparison of several mean values: An alternative approach. Biometrika, 38, 330-336.
Wellek S (2003). Testing statistical hypotheses of equivalence. Boca Raton, Fla: Chapman and Hall.
Welsch RE (1977). Stepwise multiple comparison procedures. Journal of the American Statistical Association,
72, 566-575.
Wherry RJ (1931). A new formula for predicting the shrinkage of the coefficient of multiple correlation. Annals
of Mathematical Statistics, 2, 440-447.
Westlake WJ (1972). Use of confidence intervals in analysis of comparative bioavailability trials. Journal of
Pharmaceutical Science, 61, 13401341.
Westlake WJ (1976). Symetrical confidence intervals for bioequivalence trials. Biometrics, 32, 741-744.
Westlake WJ (1979). Statistical aspects of comparative bioavailability trials. Biometrics, 35, 273280.
Westlake WJ (1981). Bioequivalence testing: A need to rethink (response to Kirkwood). Biometrics, 32, 589-594.
Wickens ThD (1989). Multiway contingency tables analysis for the social sciences. Hillsdale, NJ: LEA.
Viechtbauer W (2007). Approximate confidence intervals for standardized effect sizes in the two- independent
and two-dependent samples designs. Journal of Educational and Behavioral Statistics, 32, 39-60.
Wiens BL (2002). Choosing an equivalence limit for noninferiority or equivalence studies. Controlled Clinical
Trials, 23, 2-14.
Wilcox RR (1987a). New designs in analysis of variance. Annual Review of Psichology, 38, 29-60.
Wilcox RR (1987b). New statistical procedures for the social sciences: Modern solutions to basic problems.
Hillsdale, NJ: LEA.
Wilcox RR (1992). Comparing the medians of dependent groups. British Journal of Mathematical and Sta-
tistical Psychology, 45, 151-162.
Wilcox RR (1996). Statistics for the social sciences. San Diego, CA: Academic Press.
Wilcox RR (1997). Three multiple comparison procedures for trimmed means. Biometrical Journal, 37, 643-656.
Wilcox RR (2003). Applying contemporary statistical techniques. San Diego, CA. Academic Press.
Wilcox RR (2005). Introduction to robust estimation and hypothesis testing (2 ed). San Diego, CA: Elsevier
Academic Press.
Wilcox RR, Charin V y Thompson K (1986). New Monte Carlo results on the robustness of ANOVA F, W, and
F* statistics. Communications in Statistics - Simulation and Computation, 15, 933-944.
Wilcoxon F (1945). Individual comparisons by ranking methods. Biometrics, 1, 80-83.
Wilcoxon F (1949). Some rapid approximate statistical procedures. American Cyanamid Company, Standford
Research Laboratories.
Wilkinson L y Task Force on Statistical Inference. (1999). Statistical methods in psychology journals: Guide-
lines and explanations. American Psychologist, 54, 594-604.
Winer BJ, Brown DR y Michels KM (1991). Statistical principles in experimental design (3 ed). New York:
McGraw-Hill.
Wright DB y London K (2009). First steps in statistics (2 ed). London: Sage.
480 Anlisis de datos (vol. II)
Wyrwich KW (2004). Minimal important difference thresholds and the standard error of measurement: Is there
a connection? Journal of Biopharmaceutical Statistics, 14, 97-110.
Wyrwich KW, Nienaber NA, Tierney WM y Wolinsky FD (1999). Linking clinical relevance and statistical sig-
nificance in evaluating intra-individual changes in health-related quality of life. Medical Care, 37, 469-478.
Wyrwich KW, Tierney WM, Wolinsky FD (1999). Further evidence supporting an SEM-based criterion for
identifying meaningful intra-individual changes in health-related quality of life. Journal of Clinical Epi-
demiology, 52, 861-873.
Yule GU (1900). On the association of attributes in statistics. Philosophical transactions of the Royal Society
of London, Series A, 194, 257-319.
Yule GU (1912). On the methods of measuring association between two attributes (with discussion). Journal
of the Royal Statistical Society, 75, 579-652.
Zwick R (1988). Another look at inter-rater agreement. Psychological Bulletin, 103, 374-378.
Zimmerman DW y Zumbo DB (1993). Relative power of the Wilcoxon test, the Friedman test, and repeated-
measures ANOVA on ranks. Journal of Experimental Education, 62, 75-86
ndice de materias