Anda di halaman 1dari 555

Medición

en ciencias sociales y de la salud


PROYECTO EDITORIAL:
Metodología de las Ciencias del Comportamiento y de la Salud

Directores:
Antonio Pardo Merino
Miguel Ángel Ruiz Díaz
Medición
en ciencias sociales y de la salud
Francisco J. Abad • Julio Olea • Vicente Ponsoda • Carmen García

SINTESIS
EDITORIAL
Consulte nuestra página web: www.sintesis.com
En ella encontrará el catálogo completo y comentado

Reservados todos los derechos. Está prohibido, bajo las sanciones


penales y el resarcimiento civil previstos en las leyes, reproducir, registrar
o transmitir esta publicación, íntegra o parcialmente,
por cualquier sistema de recuperación y por cualquier medio,
sea mecánico, electrónico, magnético, electroóptico, por fotocopia
o por cualquier otro, sin la autorización previa por escrito
de Editorial Síntesis, S. A.

© Francisco J. Abad, Julio Olea,


Vicente Ponsoda y Carmen García

© EDITORIAL SÍNTESIS, S. A.
Vallehermoso, 34. 28015 Madrid
Teléfono 91 593 20 98
http://www.sintesis.com

ISBN:978-84-975672-7-5
ISBN: 978-84-995861-4-4
Depósito Legal: M. 5.521-2011

Impreso en España - Printed in Spain


Índice de contenidos

Prólogo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

Primera Parte

1. Introducción

Psicometría . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Tipos de tests y ámbitos de aplicación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2. Construcción de tests y análisis de ítems

Diseño del test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24


Construcción provisional del test. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Cuantificación de las respuestas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
Análisis de ítems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Corrección de los efectos del azar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
Apéndice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

3. Modelo Clásico y fiabilidad

Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
La Teoría Clásica de los Tests. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
Los supuestos fundamentales del Modelo Clásico. . . . . . . . . . . . . . . . . . . . . . . . . 77
Descomposición de la varianza de las puntuaciones empíricas en un test . . . . . . . 81
Concepto de formas paralelas y coeficiente de fiabilidad . . . . . . . . . . . . . . . . . . . . 83
Fórmula general de Spearman-Brown . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
Aproximaciones a la fiabilidad y tipos de error. . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
Fiabilidad como correlación entre formas paralelas. . . . . . . . . . . . . . . . . . . . . . . . 94
Fiabilidad como estabilidad temporal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
Fiabilidad como consistencia interna. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
El error típico de medida. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
Formas de incrementar la fiabilidad de un test. . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Coeficiente de fiabilidad y características de la muestra. . . . . . . . . . . . . . . . . . . . . 113
Valores mínimos para los indicadores de fiabilidad. . . . . . . . . . . . . . . . . . . . . . . . 114
Software para la Teoría Clásica de los Tests. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
Apéndice. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
8 Medición en Ciencias Sociales y de la Salud

4. Introducción a la Teoría de la Respuesta al Ítem

Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
Limitaciones de la TCT. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
La Curva Característica del Ítem. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
Modelos de TRI para ítems dicotómicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
Supuestos de la TRI. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
Estimación de parámetros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
Bondad de ajuste. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
La precisión de las puntuaciones en TRI. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
La Curva Característica del Test. . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
Aplicaciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
Ventajas y desventajas de los modelos de TRI. . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
Apéndice. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157

5. Concepto y evidencias de validez

El concepto de validez. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161


Evidencias basadas en el contenido del test. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
Definición. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
Procedimientos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
Evidencias basadas en la estructura interna del test. . . . . . . . . . . . . . . . . . . . . . . . . 170
Evidencias basadas en la relación con otras variables. . . . . . . . . . . . . . . . . . . . . . . 171
La evidencia convergente y discriminante. . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
Evidencia sobre la relación entre el test y algún criterio relevante. . . . . . . . . . 177
Evidencias basadas en los procesos de respuesta a los ítems. . . . . . . . . . . . . . . . . 195
Evidencias basadas en las consecuencias de la aplicación del test. . . . . . . . . . . . . 199
Evolución histórica del concepto de validez. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201

6. Análisis Factorial Exploratorio

Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
Visión general del AFE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
La ecuación fundamental del modelo factorial. . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
Conceptos básicos del modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
El AFE paso a paso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
Decisiones sobre el método de extracción de factores. . . . . . . . . . . . . . . . . . . 220
Selección del número de factores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
El problema de la indeterminación factorial. . . . . . . . . . . . . . . . . . . . . . . . . . . 232
Procedimientos de rotación ortogonal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
Procedimientos de rotación oblicua. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238
Puntuaciones factoriales por el método de ponderación simple . . . . . . . . . . . . . . . 241
Otras decisiones importantes en el AFE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242
Apéndices. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246
Componentes principales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246
Otros métodos de extracción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249
Índice de contenidos 9

Métodos adicionales para decidir el número de factores. . . . . . . . . . . . . . . . . 252


El significado del término rotación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254
Análisis factorial de segundo orden. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256
El análisis factorial de ítems. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
Procedimientos alternativos para calcular las puntuaciones factoriales . . . . . 263
Software. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267

7. Interpretación de las puntuaciones

Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271
Baremos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272
Baremos cronológicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273
Baremos centiles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274
Baremos típicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
Comentarios finales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280
Baremos en la Teoría de la Respuesta al Ítem. . . . . . . . . . . .. . . . . . . . . . . . . . 282
Otros métodos para dar significado a las puntuaciones. . . . . . . . . . . . . . . . . . . . . . 283
El mapeo de ítems. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284
Descripción de cada nivel de desempeño. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285
Puntos de corte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286
Apéndice. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292

Segunda Parte

8. Métodos alternativos para estimar el coeficiente de fiabilidad

Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
Grados de equivalencia entre formas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294
Otras formas de calcular el coeficiente de fiabilidad a partir de dos mitades. . . . . 297
Otras formas de calcular el coeficiente de fiabilidad del test a partir de los ítems . 299
Coeficiente de fiabilidad como límite inferior. . . . . . . . . . . . . . . . . . . . . . . . . 301
Coeficientes de fiabilidad basados en el análisis factorial. . . . . . . . . . . . . . . . 304
Coeficiente de fiabilidad de una batería de tests o de tests multidimensionales. . . 310
Testlets. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313

9. Fiabilidad interjueces y medición del cambio

Fiabilidad interjueces. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315


Coeficiente kappa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316
Coeficiente de concordancia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317
Coeficiente de correlación intraclase. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319
Coeficiente de correlación intraclase como un caso particular del coeficiente
de generalizabilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320
Coeficientes de generalizabilidad para dos fuentes de error. . . . . . . . . . . . . . . 325
10 Medición en Ciencias Sociales y de la Salud

Fiabilidad de las diferencias y medición del cambio. . . . . . . . . . . . . . . . . . . . . . . . 330


Fiabilidad de las diferencias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331
Significación clínica e indicadores de cambio fiable. . . . . . . . . . . . . . . . . . . . 333
¿Diferencias de las puntuaciones directas o diferencias en los rasgos
latentes?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338

10. Análisis Factorial Confirmatorio

Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341
El AFC paso a paso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342
Representación del modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343
Conceptos básicos del modelo de AFC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344
Identificación del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351
Estimación de parámetros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356
Índices de bondad de ajuste. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361
Re-especificación del modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374
Modelos confirmatorios multigrupo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376
Recomendaciones sobre los tamaños muestrales. . . . . . . . . . . . . . . . . . . . . . . . . . . 379
Malos usos de los modelos de AFC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379
Apéndice. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 380

11. TRI: procedimientos estadísticos

Comprobación de supuestos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385


Unidimensionalidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 385
Independencia local. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 387
Estimación de parámetros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391
Calibración de los ítems: método de estimación Máximo-Verosímil
Marginal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391
Estimación bayesiana modal a posteriori del nivel de rasgo (MAP). . . . . . . . 393
Estimación bayesiana esperada a posteriori del nivel de rasgo (EAP)
y desviación típica posterior (PSD). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 396
Estimación bayesiana de los parámetros de los ítems. . . . . . . . . . . . . . . . . . . . 397
Comprobación de la bondad de ajuste: métodos gráficos. . . . . . . . . . . . . . . . . . . . 400
Procedimientos de equiparación de parámetros. . . . . . . . . . . . . . . . . . . . . . . . . . . . 402
Apéndices. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 408
Recomendaciones sobre los tamaños muestrales. . . . . . . . . . . . . . . . . . . . . . . 408
TRI: Software. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 410

12. Modelos politómicos de TRI: modelos para ítems de categorías ordenadas

Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 419
El modelo de respuesta graduada (MRG) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420
La puntuación esperada en el ítem y la Curva Característica del Test. . . . . . . . . . 423
Supuestos de unidimensionalidad e independencia local. . . . . . . . . . . . . . . . . . . . 424
Estimación de parámetros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429
Índice de contenidos 11

Comprobación del ajuste: métodos gráficos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 431


Comprobación del ajuste: métodos estadísticos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 433
Estimación de θ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436
Función de información. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 436
Otros modelos politómicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 439
Apéndice. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443

13. Funcionamiento diferencial de los ítems y adaptación de tests a otras culturas

Sesgo, funcionamiento diferencial e impacto adverso. . . . . . . . . . . . . . . . . . . . . . . 447


Evidencias externas de sesgo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 448
Funcionamiento diferencial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 449
DIF uniforme y DIF no uniforme. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 451
Estrategias para el estudio del funcionamiento diferencial. . . . . . . . . . . . . . . . 452
Métodos basados en las puntuaciones directas. . . . . . . . . . . . . . . . . . . . . . 452
Métodos basados en variables latentes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 458
Depuración de la prueba. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464
Consideraciones finales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464
Impacto adverso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465
Adaptación de tests a otras culturas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 468
Fuentes de error. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 469
Procedimientos de traducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 469
Estudios de equivalencia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 470

14. Otras estrategias de validación

El análisis de regresión lineal múltiple y la validez referida a un criterio. . . . . . . . 475


Marco de trabajo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475
La correlación múltiple. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 477
Los coeficientes de regresión. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 480
Las pruebas de significación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486
Supuestos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 487
Multicolinealidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 489
Regresión por pasos (Stepwise). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493
Técnicas de análisis estadístico de las matrices MRMM. . . . . . . . . . . . . . . . . . . . . 494
El estadístico “I” de Sawilowsky. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494
Aproximación desde el análisis factorial confirmatorio. . . . . . . . . . . . . . . . . . 495
La generalización de la validez. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 502
Validez diagnóstica de las puntuaciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504
Caso 1: Validez diagnóstica de las puntuaciones en un único test. . . . . . . . . . 505
Caso 2: Validez diagnóstica de las puntuaciones en varios tests. . . . . . . . . . . . 508

15. Tests informatizados y otros formatos de tests

Tests informatizados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 512


Tests fijos informatizados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 512
Tests adaptativos informatizados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 515
12 Medición en Ciencias Sociales y de la Salud

Aplicaciones a través de Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 523


Tests basados en modelos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . 524
Nuevos formatos para la prevención del falseamiento de respuestas. . . . . . . . . . . 525
Detección del falseamiento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 526
Prevención del falseamiento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 527
Comentarios finales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 530

Referencias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533

Índice de materias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 551


Prólogo
Escribir un libro exige tomar un conjunto de opciones previas sobre su contenido y estilo.
Una vez recibida la oferta de Editorial Síntesis, muchos fueron los debates entre los auto-
res para definir en concreto el libro que queríamos escribir: ¿para qué tipo de lectores?,
¿qué contenidos incluir?, ¿a qué nivel hacerlo?, ¿cómo establecer un estilo didáctico man-
teniendo el rigor formal?, ¿cómo fomentar destrezas y no sólo conocimientos? En reali-
dad, la respuesta a la primera de estas preguntas sirve para responder en parte las siguien-
tes. El libro que presentamos es un libro de Psicometría que puede resultar de interés para
estudiantes e investigadores de las Ciencias Sociales y de las Ciencias de la Salud. Hemos
encontrado dos razones fundamentales para escribirlo: en primer lugar, que parte del libro
sirva a nuestros estudiantes de grado como referencia básica para el aprendizaje de la
asignatura troncal de Psicometría; en segundo lugar, la opción por describir determinados
temas que consideramos relevantes para una formación más elevada y que es difícil en-
contrar en otros de los buenos textos sobre Medición escritos en español.
La primera parte del libro incluye 7 temas de lo que podríamos definir como Psico-
metría fundamental, pensados como los contenidos básicos para las asignaturas troncales
de grado. ¿Qué es lo que consideramos como fundamental (podríamos calificarlo como
“mínimo”) para la formación psicométrica de un estudiante de grado? Nuestras opciones
se han fundamentado en un intento de mejorar el proceso de enseñanza y aprendizaje de la
Psicometría en los nuevos planes de estudio requeridos en el proceso de acomodación al
Espacio Europeo de Educación Superior. Por tanto, tenemos presente un marco concreto
de desarrollo de los contenidos: una asignatura troncal que podría oscilar entre 6 y 9 crédi-
tos ECTS, con contenidos fundamentales (aunque no exclusivos) de Teorías de los Tests y
poniendo énfasis en complementar los contenidos teóricos con la formación práctica. En
este sentido, y adicionalmente a una rigurosa formación teórica en los modelos fundamen-
tales de medición (Teoría Clásica y Teoría de la Respuesta al Ítem), pretendemos que el
estudiante se encuentre capacitado para entender la información psicométrica básica que
aportan diversos instrumentos de evaluación, fundamentalmente los tests; optamos
además por que el estudiante se enfrente con problemas concretos de medición, maneje el
software fundamental para el estudio psicométrico de un test y sea capaz de elaborar in-
formes técnicos sobre los resultados. Los estudiantes que adquieran estas competencias
serán capaces de redactar buenos ítems, de analizar sus propiedades métricas, de aplicar
las mejores técnicas y procedimientos para estudiar la fiabilidad y validez de las puntua-
ciones de los tests, así como de interpretar adecuadamente las asignadas mediante el ba-
remo correspondiente. Con esta primera parte del libro pretendemos establecer las bases
para la adquisición de estos conocimientos, pero no sirve del todo para adquirir las destre-
zas de tipo más aplicado. Completaremos la formación con la propuesta y seguimiento de
varios trabajos prácticos cuyas guías los estudiantes tendrán disponibles en nuestras pági-
nas de docencia.
14 Medición en Ciencias Sociales y de la Salud

Los temas de la segunda parte, que podrían considerarse como la iniciación a una
Psicometría aplicada avanzada, se refieren a contenidos más específicos, propios de los
que deben saber los estudiantes que quieran especializarse en temas de Metodología (en
materias optativas y en estudios de posgrado) o los investigadores en Ciencias Sociales y
de la Salud que desarrollan o adaptan tests. Los temas incluidos en esta segunda parte
pueden considerarse como extensiones y aplicaciones particulares de los descritos en la
primera parte. Así, hemos optado por desarrollar más ampliamente los contenidos sobre
modelos psicométricos, incluyendo procedimientos alternativos para estimar la fiabilidad,
el tema de la medición del cambio y contenidos más avanzados sobre TRI (procedimien-
tos estadísticos y modelos politómicos). Sobre la validación de puntuaciones, en esta se-
gunda parte se tratan con bastante detenimiento los temas de análisis factorial confirmato-
rio, funcionamiento diferencial de los ítems y adaptación de tests a otras culturas, así co-
mo otras estrategias específicas de validación. Finalmente, se incluye un tema sobre tests
informatizados y otros formatos de ítems. Con ello hemos querido avanzar en determina-
das aplicaciones psicométricas que cada vez resultan más usuales en la investigación y en
la práctica profesional, pero que seguramente no tienen cabida en las materias troncales de
los planes de estudio de grado.
Tanto una como otra parte quedarían didácticamente cojas sin la descripción básica
de los programas informáticos disponibles para hacer las cosas. En este sentido, en el libro
se describen los procedimientos básicos para realizar las estimaciones con diversos pro-
gramas informáticos: SPSS y FACTOR (modelo clásico y análisis factorial exploratorio),
MULTILOG (para la TRI) y MPLUS (para el análisis factorial confirmatorio).
1
Introducción

Psicometría
Etimológicamente, la Psicometría es la disciplina que tiene por objeto la medición de la
“psique”; hoy en día diremos mejor la medición de capacidades, atributos o características
psicológicas. Su objetivo es establecer “teorías sobre” y “métodos para” la medición en
Psicología y en otras disciplinas afines. Se caracteriza en primer lugar porque utiliza la
formulación matemática para desarrollar teorías y modelos para la medición de variables
psicológicas. La define, en segundo lugar, su interés por promover métodos, técnicas e
instrumentos para la mejor medición posible de dichas variables en cualquier contexto de
especialización de las Ciencias Sociales y de la Salud. Las variables objeto de medición
pueden ser de diverso tipo, y no son independientes de las perspectivas teóricas asumidas:
rasgos, actitudes, procesos, conductas, conocimientos, destrezas, actividad psicofisiológi-
ca, etc. En este sentido, es objeto de la Psicometría el análisis de cualquier asignación
numérica que se realiza sobre variables psicológicas, obtenida por diversos procedimien-
tos o instrumentos, en términos de su precisión (error de medida) y validez (inferencias de
diverso tipo que pueden realizarse a partir de dichas asignaciones), que en definitiva son
los conceptos clave bajo cualquiera de los prismas teóricos de la disciplina y las propieda-
des psicométricas fundamentales que deberemos analizar. En general, el objeto de la me-
dición son las personas, aunque también pueden serlo los grupos, las instituciones o estí-
mulos de diverso tipo. En cuanto a los instrumentos empleados para la obtención de pun-
tuaciones, los tests son los más utilizados, aunque no son los únicos (por ejemplo, pueden
derivarse mediciones a partir de los juicios subjetivos de unas personas sobre ciertas ca-
racterísticas de otras o establecer diseños observacionales para efectuar determinados re-
gistros conductuales). Algunos antecedentes y eventos históricos pueden ayudarnos a
comprender la identidad y el sentido de la Psicometría como disciplina:

1. La Psicofísica. Aunque algunos ancestros de la medición psicológica son previos, es en


el ámbito de los estudios psicofísicos del siglo XIX donde surge el problema de la me-
dición de las sensaciones, dentro del objetivo general de la Psicofísica establecido por
16 Medición en Ciencias Sociales y de la Salud

Fechner como la ciencia exacta que estudia las relaciones funcionales entre el cuerpo y
la mente. A partir de los trabajos de Weber, Fechner establece su famosa ley logarítmi-
ca, S = k log E, para describir la relación matemática entre un continuo estimular, E, y
la sensación producida en la persona, S. Los psicofísicos perciben enseguida la dificul-
tad que representa la medición de hechos mentales (sensaciones) y proponen varios
métodos indirectos para su medición. Realizaban experimentos donde incrementaban
progresivamente la cantidad de estimulación (por ejemplo una señal acústica) y medían
la sensación contando el número de veces que una persona percibía cambios en dicha
estimulación desde el umbral absoluto (cuando el evaluado empieza a percibir el ruido)
hasta el nivel de intensidad física presentado en un ensayo concreto. En el laboratorio
de Leipzig, fundado por Wundt, algunos investigadores como Donders y Cattell emple-
an el tiempo de reacción y la cantidad de eventos recordados como medida de rendi-
miento en diversos procesos psicológicos (atención, memoria…).
2. El interés inicial por la medición de las diferencias individuales. A finales del siglo
XIX Galton funda el famoso laboratorio antropométrico de Londres, cuna del estudio
de las diferencias individuales, tratando de estudiar las distribuciones de diversas medi-
ciones físicas y psicológicas de las personas, tal como habían hecho en Astronomía
(entre ellos Gauss) para estudiar las diferencias individuales a la hora de estimar la ve-
locidad del movimiento de los astros. Además de medidas antropométricas, Galton em-
pleó determinados instrumentos para medir la fuerza física o la capacidad de discrimi-
nación auditiva y visual; también le interesó medir los errores que cometían las perso-
nas en ciertas tareas de estimación de longitudes o ángulos. Uno de sus colaboradores,
J. M. Cattell, acuñará en 1890 el término “test mental” para referirse al rendimiento en
diversas tareas sensoriomotoras en las que se cuantificaba el tiempo de reacción o las
estimaciones subjetivas (por ejemplo de longitud, tiempo transcurrido, discriminación
táctil, dolor...).
3. El interés inicial por la medición de capacidades cognitivas superiores. En los albores
del siglo XX, el Ministerio Francés de Instrucción Pública propone a Binet que esta-
blezca procedimientos para diferenciar a los niños con deficiencia mental (que no son
capaces de conseguir los objetivos escolares) de los que no tienen problemas intelec-
tuales. Binet y Simon propondrán tests de inteligencia para medir capacidades cogniti-
vas superiores, como la comprensión del lenguaje, el razonamiento, la memoria o la
capacidad de abstracción, mediante tareas no muy diferentes a las que se plantean en
los actuales tests de inteligencia o de aptitudes intelectuales. Diseñaron tests de diferen-
te dificultad y contenido para las distintas edades (entre 3 y 15 años), lo que se conside-
ra que representa el primer intento de adaptar la dificultad de los tests al diferente nivel
previsible de los evaluados. Por ejemplo, para los niños más pequeños propusieron ta-
reas de reconocimiento del cuerpo humano, de memoria de series cortas de dígitos o de
comparación de longitudes de líneas; para los mayores propusieron ítems sobre cons-
trucción de frases con determinadas palabras, recuerdo de textos escritos, repeticiones
de series largas de dígitos, resolución de problemas, etc. Acuñaron el concepto de edad
mental, como la media del rendimiento en un test de los estudiantes de una edad real
determinada. Unos años más tarde se adaptan los tests de Binet en Estados Unidos
(Terman impulsa varias versiones) y comienzan a interpretarse normativamente las
puntuaciones mediante el baremo cronológico de cociente intelectual (CI). La aplica-
ción masiva de tests de inteligencia (y los correspondientes formatos de respuesta de
opción múltiple) se inicia con la evaluación de los soldados estadounidenses que parti-
Capítulo 1. Introducción 17

cipaban en la Primera Guerra Mundial. También en este contexto comienzan algunos


esbozos de lo que serán los tests psicométricos de personalidad, cuyo arranque será
más tardío debido en parte a que inicialmente la medición de la personalidad se reali-
zaba con tests proyectivos (Rorschach propone el suyo en 1921).
4. La Teoría Clásica de los Tests (TCT). En los primeros tests de Inteligencia, las puntua-
ciones de las personas se daban como verdaderos indicadores de su nivel de capacidad,
error que no pasó desapercibido para algunos estadísticos. En las dos primeras décadas
del siglo XX, Spearman propone un sencillo modelo matemático para conceptualizar el
error de medida (E) asociado a las puntuaciones de los tests (la idea fundamental se re-
fleja en el primer supuesto clásico ( X = V + E ), así como procedimientos para estimar
la fiabilidad de las puntuaciones (bajo la definición de tests paralelos) y las relaciones
entre fiabilidad y longitud del test. Son los fundamentos de la TCT, que será completa-
da progresivamente en las siguientes décadas por las aportaciones de otros autores, en-
tre los que cabe destacar a Thurstone y Cronbach. Aunque hoy en día se sigue investi-
gando sobre procedimientos y técnicas fundamentadas en la TCT, podría decirse que a
mitad del siglo pasado están ya establecidos los pilares fundamentales del modelo
clásico y de los métodos para estimar la fiabilidad de las puntuaciones. La vigencia de
la TCT en la actualidad dice mucho del acierto de sus planteamientos y de su utilidad
para la medición en Psicología. Muchos desarrollos del modelo clásico se aplican a
puntuaciones que se obtienen con procedimientos diferentes a los tests.
5. No todo es error de medida: la validez de las puntuaciones. La enorme amplitud de
aplicaciones de tests psicológicos hace necesario enfatizar los aspectos de la validez de
las puntuaciones. Aunque pueden destacarse diferentes hitos históricos sobre el tema,
nos referimos a 3 de ellos: a) Las puntuaciones en los tests de Cattel y en los tests de
Binet se correlacionaron con las calificaciones escolares (por cierto, los segundos mos-
traron mayor relación con el rendimiento académico), que es el inicio del estudio de
evidencias de validez predictiva; ya Spearman había esbozado a principios de siglo la
idea de que las diferentes medidas de capacidad cognitiva correlacionaban entre sí, lo
que representa un primer esbozo de la búsqueda de evidencias sobre la estructura inter-
na de los tests. b) Unas décadas después, hacia los años 30 y 40, los trabajos de Thurs-
tone sobre análisis factorial proporcionarán la herramienta estadística para obtener este
tipo de evidencias, aplicándose inicialmente en el marco del estudio de la inteligencia y
de las aptitudes intelectuales que pueden diferenciarse. c) Siempre ha sido referencia en
Psicometría un trabajo sobre validez de constructo de Cronbach y Meehl, publicado en
1955, en el que se amplían las estrategias de validación de las puntuaciones de los tests.
6. La Teoría de la Respuesta al Ítem (TRI). Si bien la TCT ha mantenido (y mantiene)
mucha vigencia para analizar las propiedades de las mediciones que realizamos con
tests, en los años 60 del siglo pasado surgen nuevos modelos matemáticos (Rasch, Lord
y Birnbaum son los pioneros de la TRI) con la intención de superar algunos de los in-
convenientes del modelo clásico. La idea fundamental común a los diversos modelos
de TRI, tal como veremos, será enfatizar el estudio psicométrico de los ítems (y no tan-
to del test) y realizar mediciones invariantes de las propiedades métricas de los ítems
(que no dependan de las características particulares de las muestras donde se aplican) y
de las estimaciones de los niveles de las personas (que no dependan de las característi-
cas particulares de los ítems aplicados). La TRI va a permitir ampliar las estrategias de
medición con tests y las formas de estudiar las propiedades psicométricas de las esti-
18 Medición en Ciencias Sociales y de la Salud

maciones, tanto de los ítems como de las personas. Por ejemplo, progresivamente se
emplearán desarrollos de TRI para la medición mediante Tests Adaptativos Informati-
zados (TAI) o para el estudio del posible sesgo de los ítems y de los tests (si perjudican
o no a un grupo concreto de personas).

¿Se ocupa sólo la Psicometría de las mediciones que se realizan con los tests? Claramente
no. Aunque la Psicometría es fundamentalmente Teorías de los Tests, no lo es exclusiva-
mente. Debe reconocerse que uno de los instrumentos que ha demostrado más utilidad pa-
ra la medición psicológica (y por tanto para el psicólogo aplicado) son los tests1, tal como
lo atestigua su cada vez más extenso uso en diferentes contextos de evaluación psicológi-
ca y educativa, y el enorme bagaje de investigación que actualmente se realiza sobre las
teorías de los tests y sus aplicaciones, fundamentalmente en relación a los modelos y
técnicas derivados de la TRI. No disponemos de mejores instrumentos cuando se pretende
inferir el nivel de las personas en variables latentes no directamente medibles y de las que
desconocemos sus valores verdaderos, y seguramente esta peculiaridad (la necesidad de
medir variables no directamente observables) es la responsable de que en Psicología exista
una disciplina propia dedicada a la medición, lo que no es usual en otras disciplinas cientí-
ficas. Sin embargo, es la Psicometría la que debe guiar también el análisis de la calidad de
otros tipos de mediciones, por ejemplo, las derivadas de entrevistas, métodos observacio-
nales o técnicas psicofisiológicas, incluso cuando no sea el objetivo prioritario realizar in-
ferencias sobre rasgos latentes sino describir comportamientos.
Hemos dicho que Psicometría no es únicamente Teorías de los Tests. Desde la tradi-
ción psicofísica se enfatizan procedimientos y técnicas de asignación numérica a objetos,
eventos o personas empleando como instrumento de medida el propio juicio humano. Este
núcleo de interés, denominado tradicionalmente como Escalamiento, fue evolucionando
desde los objetivos establecidos por la Psicofísica a la medición de atributos estrictamente
psicológicos carentes de correlatos físicos. En las primeras décadas del siglo XX, Thurs-
tone propuso varios modelos y procedimientos estadísticos (sus famosas leyes del juicio
comparativo y categórico) para, a partir de ciertos juicios subjetivos de un grupo de per-
sonas, ordenar cuantitativamente en una escala unidimensional, por ejemplo, la gravedad
de determinados delitos o el nivel actitudinal de las personas sobre un tema determinado.
Con el tiempo, autores como Torgerson, Shepard y Kruskal propondrán modelos de esca-
lamiento multidimensional, también basados en estrategias de recogida de datos sobre jui-
cios de las personas, donde un determinado estímulo o persona tiene asignaciones numéri-
cas en diversas dimensiones. En español, los libros de Arce (1993, 1994) y Real (2001)
describen estos y otros modelos de escalamiento, así como el modo de aplicarlos con dife-
rentes programas informáticos.
Dados los problemas peculiares que tenemos para la medición de atributos psicológi-
cos, la Psicometría se ha planteado también, desde las denominadas como Teorías de la
Medición, lo que realmente representa medir y las propiedades de los números que asig-
namos a las personas o a los estímulos en determinados atributos psicológicos. Se han
propuesto diferentes teorías para establecer los requisitos lógicos y matemáticos que de-
ben cumplirse para que las asignaciones numéricas representen realmente a los atributos

1
A veces se emplea, en vez de test, otros términos como cuestionario, escala, inventario o examen, para enfati-
zar que con el instrumento se pretende medir atributos concretos (por ejemplo, personalidad, actitudes, conduc-
tas o conocimientos).
Capítulo 1. Introducción 19

psicológicos. La que más relevancia aplicada ha tenido ha sido la Teoría de las escalas de
medida de Stevens (definiendo las propiedades y las transformaciones admisibles asocia-
das a los niveles de medida nominal, ordinal, de intervalo y de razón), si bien ha sido fuer-
temente criticada desde otras perspectivas (teorías representacional, de medición conjunta,
operacionalista, etc.). Una introducción a estos temas puede consultarse en Ponsoda
(2008); los planteamientos teóricos y los principales puntos de controversia, a veces im-
portantes (incluso hasta poner en duda la posibilidad de medición de lo psicológico), están
bien descritos en los libros de Michell (1999) y Borsboom (2005).

Tipos de tests y ámbitos de aplicación


Consideramos genéricamente un test como un procedimiento estandarizado que sirve para
muestrear ciertas conductas de las personas a partir de sus respuestas a una serie de indi-
cadores (ítems), puntuarlas e inferir su nivel verdadero en el constructo o variable latente.
A partir de las respuestas correctas a unos ítems de analogías verbales y sinónimos debe-
mos inferir la aptitud verbal de las personas; tras manifestar el grado de acuerdo con de-
terminadas afirmaciones debemos inferir el nivel de actitudes xenófobas; después de res-
ponder a un conjunto de ítems sobre aspectos gramaticales del inglés debemos inferir el
nivel de comprensión escrita en el idioma.
Para hablar propiamente de test, se han de cumplir tres condiciones. En primer lugar,
los ítems han de tener propiedades psicométricas conocidas y se han de haber elaborado
siguiendo las oportunas normas de construcción. No siempre es fácil distinguir a simple
vista cuándo estamos ante un test o ante algo que sólo lo es en apariencia, por no haberse
elaborado adecuadamente. En segundo lugar, un test requiere una administración contro-
lada. Se han de seguir las instrucciones, las condiciones de administración y de puntua-
ción establecidas en el proceso de construcción del test. En tercer lugar, el test debe pre-
tender evaluar a una persona en un atributo de interés. A veces se confunden los tests con
otros instrumentos, como las encuestas, cuya finalidad no es puntuar a cada persona que
responde, sino saber, por ejemplo, las tendencias de voto a los distintos partidos.
Son muy diversos los tipos de atributos psicológicos a medir, y por tanto los tipos de
tests y los formatos de ítems de que disponemos en Psicología. Hace unos años que varios
historiadores de la Psicología Española (Quintana, Albert y López-Martín, 2008) rescata-
ron y editaron unos “Apuntes para un curso de Psicología aplicada a la selección profesio-
nal”, elaborados en 1924 por el doctor Rodrigo Lavín como material docente de su cátedra
de Psicología Experimental. Esta auténtica joya casi centenaria, de recomendable lectura,
representa una de las primeras veces que en España se habla sistemáticamente de los tipos
y usos de los tests; decía ya entonces el autor que “Como la observación nos da muy po-
cos datos utilizables y la conversación o entrevista no basta para descubrir las habilida-
des de los solicitantes, es necesario recurrir a los tests. Se puede decir que estamos en el
comienzo de los tests y, a pesar de eso, hay un desarrollo extraordinario de ellos; ello in-
dica lo que sucederá andando el tiempo”. Hablaba el autor de que existían entonces tests
de capacidades o habilidades, tanto generales como específicas, y que en la selección pro-
fesional eran de especial importancia los tests de fuerza, de resistencia a la fatiga, de con-
trol motor y de capacidades mentales (atención, sensación y percepción, imaginación e in-
teligencia general). Seguramente influenciado por los procedimientos de medida de
20 Medición en Ciencias Sociales y de la Salud

Wundt, de los psicofísicos y de Galton, Rodrigo Lavín describía con detalle algunos apa-
ratos mecánicos y ciertos procedimientos de puntuación que podían emplearse para la me-
dición de competencias y habilidades, así como algunas tareas de papel y lápiz que podían
plantearse para medir la capacidad imaginativa o la inteligencia general (ya entonces esta-
ba al tanto de los tests de Binet y de los empleados en el ejército estadounidense).
Transcurrido cierto tiempo, en las primeras páginas de sus imperecederos apuntes so-
bre “Introducción a la Teoría de los Tests” (una parte ha sido reeditada en Psicothema ba-
jo el título de “Los tests y el análisis factorial” en 1996), don Mariano Yela recordaba la
connotación etimológica de la palabra (testis, testigo, testimonio) y realizaba una clasifi-
cación de los tests atendiendo al método general seguido (tests psicométricos vs. tests
proyectivos), a su fin (cualitativos vs. cuantitativos), a la relación con el aplicador (perso-
nales vs. impersonales), al modo de aplicación (individuales vs. colectivos), al material
que se emplea (impresos vs. manipulativos) y, fundamentalmente, atendiendo al tipo de
atributo que miden (diferenciando diversos tests de rendimiento, de aptitud o de persona-
lidad).
Actualmente las cosas han cambiado bastante en cuanto a los tipos de tests que se ela-
boran en Psicología para la medición de atributos psicológicos, y por tanto, en relación a
los recursos que un psicólogo aplicado puede emplear para su medición. A las tradiciona-
les categorías del profesor Yela podrían proponerse otras, pero habría que añadir al menos
dos fundamentales que tuvieran en cuenta el medio de aplicación (tests de lápiz y papel
vs. tests informatizados) y el modelo en que se sustentan los análisis psicométricos (tests
analizados desde la Teoría Clásica vs. desde la Teoría de la Respuesta al Ítem). Tratando
de realizar un resumen sobre los diferentes tipos de tests de que disponemos en la actuali-
dad en Psicología, atendiendo a varios criterios generales de clasificación, podríamos es-
tablecer los siguientes:

1. Según el tipo de rendimiento que desea medirse, hablamos de tests de rendimiento


óptimo (aquellos que pretenden medir el rendimiento máximo que es capaz de alcanzar
una persona, tal como se hace en tests de conocimientos o en los tests de inteligencia y
aptitudes) o de tests de rendimiento típico (interesa medir el comportamiento usual, tal
como se hace en los tests de personalidad o en las escalas de actitudes).
2. Según el modelo psicométrico desde el que se analizan las propiedades de los ítems y
de las puntuaciones de los evaluados, hablamos de tests analizados desde la TCT y de
tests analizados desde la TRI. Ambos modelos pueden aplicarse a las puntuaciones de
un mismo test.
3. Según el medio de aplicación diferenciamos entre tests de lápiz y papel y tests informa-
tizados. Dentro de estos últimos se distingue entre tests fijos informatizados (aquellos
que presentan los mismos ítems a todos los evaluados), tests óptimos (aquellos que se
eligen de un banco determinado para optimizar ciertas propiedades psicométricas en un
grupo de personas específico) y tests adaptativos informatizados (los que presentan di-
ferentes ítems del banco a los diferentes evaluados, dependiendo del nivel progresivo
que vayan manifestando en la prueba).
4. Según el modo de interpretar las puntuaciones hablamos de tests referidos a normas (la
interpretación se realiza mediante un baremo obtenido en un grupo normativo) y tests
referidos al criterio (la interpretación se refiere al rendimiento individual conseguido
por una persona en relación a unos criterios o dominios establecidos de antemano). Ca-
be interpretar desde ambas perspectivas el rendimiento en el mismo test.
Capítulo 1. Introducción 21

5. Según el formato de respuesta establecido, diferenciamos distintos tipos de tests, por


ejemplo: tests de respuesta construida (caso de las preguntas abiertas tipo ensayo), tests
de respuesta seleccionada (son tests de rendimiento óptimo con varias opciones de res-
puesta, normalmente con una sola opción correcta), tests de categorías ordenadas (por
ejemplo con varias categorías para manifestar el grado de acuerdo con determinadas
sentencias) o tests de respuesta binaria o elección forzosa (típicos, como veremos, de
los tests ipsativos o de ciertos tests de personalidad). Los tests informatizados permiten
formatos de ítems muy novedosos, así como procedimientos de respuesta y de puntua-
ción singulares, empleando los recursos que tienen los ordenadores.
6. Según el marco teórico psicológico de referencia hablamos, por ejemplo, de tests psi-
cométricos, proyectivos, situacionales, conductuales o basados en modelos cognitivos.
7. Según el establecimiento, o no, de tiempo límite para la realización de la prueba,
hablamos, respectivamente, de tests de velocidad o tests de potencia.

Son también muy variados los usos que se hacen de las puntuaciones en los tests. Navas
(2001) recoge 6 funciones de los tests: diagnóstico (detección de problemas en el ámbito
clínico o en el escolar), selección (de los trabajadores con el perfil más adecuado al puesto
de trabajo), clasificación (por ejemplo, determinación del nivel de inglés para ubicar al es-
tudiante en el curso adecuado), certificación (acreditación de que un profesional tiene la
cualificación adecuada), consejo (para facilitar la decisión sobre los estudios a emprender,
por ejemplo cuando interesa medir la prevalencia de enfermedades o los logros consegui-
dos con programas de intervención psicosocial); y descripción e información (informan de
lo que un alumno sabe, del rendimiento de un curso, profesor, colegio, comunidad, país…
en relación a los demás).
Los tests se emplean en la práctica totalidad de las especialidades, y por tanto en los
diversos ámbitos de aplicación de la Psicología y de otras disciplinas afines. Medir lo psi-
cológico representa muchas veces la difícil tarea de medir lo inobservable, objetivo en el
que se ha avanzado mucho en las últimas décadas por varias razones fundamentales. En
primer lugar, porque cada vez es mayor la demanda social, como así lo atestiguan los re-
sultados de la encuesta realizada por Muñiz y Fernández Hermida (2000) entre varios mi-
les de psicólogos colegiados dedicados a las diversas especialidades. Cada vez resulta más
usual emplear tests en contextos de evaluación y tratamiento psicológicos, en procesos de
evaluación psicopedagógica, de intervención psicosocial o de selección de personal. Cada
vez son más importantes las consecuencias que para las personas y las organizaciones tie-
nen las puntuaciones en los tests. Paso a paso, y aunque todavía con cierta lejanía respecto
a otros países, tanto los profesionales de la Psicología como otros responsables de organi-
zaciones públicas y privadas confían cada vez más en la utilidad de los tests para conse-
guir ciertos objetivos aplicados. No es raro este incremento en el uso de los tests en una
sociedad cada vez más sensible a la evaluación de los resultados de las intervenciones y a
la acreditación de competencias individuales e institucionales.
En segundo lugar, y también en relación con esta mayor sensibilidad social, se ha am-
pliado mucho el tipo de atributos psicológicos que se precisa medir. Mientras que hace
unos años las aplicaciones fundamentales se ceñían a tests de capacidades cognitivas o
pruebas de personalidad, cada vez existen más requerimientos profesionales (y más es-
pecíficos) sobre los rasgos, competencias o comportamientos que deben medirse. Además,
la pluralidad epistemológica que caracteriza a nuestra disciplina y a nuestra profesión ha
22 Medición en Ciencias Sociales y de la Salud

impulsado la creación de tests desde posiciones teóricas diferentes y cada vez más fieles a
los modelos teóricos en que se sustentan.
En tercer lugar, porque cada vez es mayor la exigencia psicométrica a la que somete-
mos a las puntuaciones de los tests. El ineludible requisito de “medir bien” (que podría-
mos concretarlo en los tradicionales tópicos de fiabilidad y validez de las puntuaciones)
está impulsando el desarrollo de nuevos tipos de tests y nuevos modelos psicométricos pa-
ra estudiar las garantías que ofrecen sus aplicaciones, entre los que destacan los modelos
de TRI. Cada vez son más los profesionales que no aplican los tests por mera rutina, sino
que exigen buenos tests para objetivos específicos, es decir, los que han demostrado su
utilidad para los fines que tienen planteados. Se ha evolucionado mucho desde la mera
adaptación de tests elaborados originalmente en otro idioma y para otra cultura (a veces
sin traspasar el necesario rubicón psicométrico), al uso de aquellos que manifiestan ga-
rantías psicométricas aceptables, sean diseñados originalmente o adaptados de unas cultu-
ras a otras.
En cuarto lugar, porque los avances tecnológicos, fundamentalmente los informáticos,
ayudan a medir mejor (de forma más válida y fiable) ciertos atributos y a incrementar la
eficiencia de las aplicaciones.
2
Construcción de tests
y análisis de ítems

Un test está formado por una serie de ítems (o elementos, reactivos, preguntas, cuestio-
nes,…) a los que cada individuo debe responder. Después de cuantificar las respuestas de
una persona a los ítems del test, se pretende asignar una puntuación (a veces, varias) a esa
persona respecto al constructo o atributo que se pretende medir. La puntuación asignada
debería indicar su grado o nivel en el atributo, constructo o rasgo a evaluar. Vimos en el
capítulo precedente que en las Ciencias Sociales y de la Salud es frecuente recurrir a indi-
cadores para obtener la posición de la persona en un constructo. Se puede, por ejemplo,
inferir su posición social tras preguntarle dónde vive, cómo es su casa, cuánto gana… Pa-
ra la medida de muchos constructos utilizamos también la medición mediante indicadores
(Navas, 2001). Los ítems de un test de Responsabilidad, por ejemplo, serán los indicado-
res que nos permitan llegar al nivel de la persona en la variable latente Responsabilidad, a
partir de un conjunto de respuestas.
En este tema vamos a estudiar cómo se construyen los tests y los indicadores de cali-
dad psicométrica de los ítems. En capítulos sucesivos estudiaremos los indicadores de ca-
lidad del test como un todo.
El primer paso para la construcción del test es detallar minuciosamente los objetivos
que se pretenden conseguir con su aplicación y las características fundamentales que debe
tener. Cuando hayamos especificado ambas cosas, tendremos que decidir el tipo de ítem
que resulta más apropiado. Estudiaremos los formatos más comunes y las normas de re-
dacción que se recomienda seguir.
En el proceso de construcción de un test hay que elaborar más ítems de los que pen-
samos aplicar, con la idea de someterlos a un proceso de control de calidad que nos permi-
ta quedarnos con los más apropiados y conseguir así el mejor test posible. El proceso de
control de calidad tiene dos partes: una cualitativa y otra cuantitativa. La cualitativa pre-
24 Medición en Ciencias Sociales y de la Salud

cede a la administración de los ítems y requiere que varios expertos comprueben que se
han seguido correctamente todos los pasos en la construcción del test.
Estudiaremos también cómo se convierten en valores numéricos las respuestas dadas a
los ítems. El siguiente paso del proceso es la aplicación piloto del test provisional (es de-
cir, del test formado a partir de los ítems que se consideran adecuados tras el análisis cua-
litativo). Tras la administración piloto, se procede al estudio cuantitativo de las caracterís-
ticas de los ítems mediante un proceso denominado como análisis de ítems. A continua-
ción, hay que decidir qué ítems concretos formarán el test definitivo. Se llama ensamblaje
del test al proceso por el que se forma el test a partir de los ítems disponibles que han su-
perado los controles de calidad.
Una ventaja de seguir un proceso sistemático es que se va a conseguir un test similar al
que hubiesen obtenido otros expertos, e incluso a un segundo test que hiciéramos noso-
tros, si éste fuera el interés. El proceso de construcción requiere además que se haya pen-
sado en todos los aspectos que afectan a la calidad del test resultante, lo que previsible-
mente ayudará a conseguir un mejor resultado final.

Diseño del test


Lo primero a especificar es el constructo, atributo o característica psicológica a evaluar y
el propósito del test. Hay que dar respuestas a tres preguntas (Navas, 2001): ¿Qué se va a
medir con el test?, ¿a quién se va a medir? y ¿qué uso se piensa hacer de las puntuacio-
nes? Podemos querer evaluar el nivel de Autoestima, Motivación, Inteligencia, el nivel de
conocimientos en cierta materia, la calidad autopercibida del sueño, etc. Las teorías sobre
los constructos suponen siempre un punto de referencia importante. Ciertamente son mu-
chos los constructos que podemos querer evaluar, pero no son menos los propósitos de la
evaluación. Por ejemplo, en un test educativo, Bloom, Hastings y Madaus (1971) han pro-
puesto tres posibles propósitos: a) la evaluación inicial para diagnosticar puntos fuertes y
débiles y ubicar a los estudiantes en el curso adecuado, b) la evaluación formativa para va-
lorar el progreso en la instrucción y decidir qué y cómo enseñarles, y c) la evaluación su-
mativa para determinar el nivel de conocimientos adquirido en un curso por cada estu-
diante.
El propósito del test condiciona qué tipos de ítems pueden ser más apropiados. Por
ejemplo, un test para la evaluación del dominio del inglés, a aplicar en las pruebas de ac-
ceso a la universidad, puede requerir ciertos tipos de ítems (por ejemplo, que evalúen la
comprensión de textos científicos), distintos de los que pudiera utilizar un test a aplicar en
procesos selectivos y cuyo propósito sea excluir del proceso a los candidatos que no al-
cancen un nivel mínimo prefijado de comprensión oral del idioma.
Hay que atender a varias características de la población a evaluar, como la edad, el ni-
vel educativo, la familiaridad con el medio de administración (por ejemplo, con el orde-
nador cuando se vaya a construir un test informatizado), la eventual presencia de discapa-
cidades y de diferencias en el dominio del lenguaje. En estos dos últimos casos, habría
que considerar la política de acomodaciones a aplicar y su equivalencia (comprobar que la
puntuación en el test corresponde al nivel en el constructo, sin ventaja o desventaja atri-
buible a las acomodaciones). La acomodación más frecuente consiste en modificar el
tiempo de administración, de manera que un evaluado con discapacidad motora, por
Capítulo 2. Construcción de tests y análisis de ítems 25

ejemplo, alcance la misma puntuación que otro sin discapacidad que tenga su mismo nivel
en el constructo. A veces se preparan cuadernillos e instrucciones en distintos idiomas, o
en tamaños de letra y formato diferentes. Otras veces se cambia el modo de administra-
ción, que puede pasar de colectivo a individual, o se leen o interpretan los ítems al evalua-
do para facilitarle su comprensión.
Schmeiser y Welch (2006) recomiendan prestar atención a lo que llaman restricciones
administrativas. Las hay de distinto tipo: de tiempo, de coste, de medios (como aulas, or-
denadores o vigilantes disponibles), etc. Los medios disponibles pueden condicionar el
número de tests a construir si se quiere preservar la seguridad de la prueba. Por ejemplo,
en contextos de evaluación educativa, la escasez de aulas o de vigilantes podría aconsejar
la construcción de varios exámenes equivalentes, en vez de un único examen. De todas las
restricciones, las más importantes son las relacionadas con el tiempo de administración.
Dependiendo de la trascendencia del test (no tiene la misma un examen de una parte de la
materia que uno con el que se consigue la acreditación para trabajar como médico, por
ejemplo), de la edad de los evaluados o del tipo de ítems, será necesario un test con unas u
otras características psicométricas, más largo o más corto y que requiera más o menos
tiempo de aplicación. La longitud óptima del test es aquella que, siendo aceptable para los
evaluados, proporciona puntuaciones con la calidad necesaria para justificar el uso previs-
to o las decisiones que se toman en el proceso de evaluación.
Vimos en el capítulo precedente que hay tests referidos a normas y referidos al crite-
rio. El tipo de test también condiciona la prueba concreta que finalmente construyamos.
También habrá que decidir si finalmente se va a dar a cada evaluado una o más puntua-
ciones, y, en el caso de sólo una, cómo contribuyen a ella las diferentes partes del test.
Además del propósito y de todo lo expuesto anteriormente, conviene construir la tabla
de especificaciones, donde se detallan los contenidos del test, las destrezas cognitivas a
evaluar y el porcentaje de ítems que debe corresponder a cada celdilla que resulta de cru-
zar los contenidos y las destrezas. En evaluación educativa, hay que analizar el programa
del curso, preguntar a los profesores qué explican y qué tiempo dedican a cada parte,
hacer una revisión bibliográfica, etc. En selección de personal, se han propuesto técnicas
propias, como el análisis de puestos o la técnica de los incidentes críticos, que facilitan la
especificación de los contenidos y destrezas.
La Tabla 2.1 (adaptada de la Tabla 9.2 de Schmeiser y Welch, 2006, p. 317) muestra la
estructura de una tabla de especificaciones de un examen de Asesoramiento Psicológico.
Incluye dos destrezas: Comprensión (de hechos, razones, relaciones, principios, fórmulas,
gráficos y detección de errores en los procedimientos y en la práctica) y Aplicación (habi-
lidad para seleccionar y aplicar principios y reglas, analizar e interpretar situaciones, ex-
traer conclusiones y diagnosticar necesidades y problemas).
La tabla muestra que el 42% de las preguntas del test evaluarán la destreza Compren-
sión frente al resto (58%) que evaluará Aplicación. En cuanto a contenidos, hay partes
menos importantes, como Fundamentos del asesoramiento (un 6% de los contenidos), y
otras más importantes, como Asesoramiento individual (30%). La tabla debe detallar los
contenidos de cada parte. Por ejemplo, dentro de la parte de Fundamentos del asesora-
miento, los modelos de asesoramiento representan el 1% del total del test y se va a evaluar
en ellos exclusivamente la destreza Comprensión.
26 Medición en Ciencias Sociales y de la Salud

Tabla 2.1. Ejemplo de tabla de especificaciones


Peso del contenido Peso de las destrezas cognitivas
Comprensión Aplicación
Fundamentos del asesoramiento 6% 4% 2%
Modelos de asesoramiento 1% 1% 0%
Propósitos y objetivos del asesora-
2% 1% 1%
miento
Consideraciones éticas y legales 2% 1% 1%
El equipo de asesoramiento 1% 1% 0%
Asesoramiento individual 30% 10% 20%

Asesoramiento grupal 10% 5% 5%

Desarrollo de carreras 20% 13% 7%

Total del test 100% 42% 58%

Hay que detallar también las partes del constructo a evaluar cuando elaboremos un test en
contextos no educativos. Por ejemplo, si queremos medir Dogmatismo, debemos estable-
cer los diversos componentes o manifestaciones del mismo: dogmatismo ante la política,
ante la educación de los hijos, ante la religión, en las relaciones familiares, etc. En un test
de calidad de vida en diabéticos, el test deberá evaluar los determinantes de la calidad de
vida en la población general (la situación familiar, social, laboral…) y, además, los es-
pecíficos de la población de diabéticos a la que el test va dirigido (tolerancia al tratamien-
to, temor ante la evolución de la enfermedad…).

Construcción provisional del test


El siguiente paso para la construcción del test es la elaboración de los ítems. Se suele re-
comendar que al menos se elaboren el doble de ítems de los que se piensa que debiera te-
ner el test. En los apartados sucesivos veremos que algunos ítems serán descartados por
no satisfacer los controles de calidad. Al haber elaborado más ítems de los necesarios po-
dremos quedarnos con los mejores. Debemos conseguir un conjunto de ítems ante los que
quepa esperar respuestas distintas de los que tengan alto y bajo nivel en el constructo que
queremos medir. Si, por ejemplo, pretendemos evaluar la actitud ante la inmigración, un
ítem podría requerir al evaluado informar de si está o no de acuerdo con la frase: La inmi-
gración trae más ventajas que inconvenientes. Cabe esperar que las personas con actitud
positiva estén de acuerdo y las personas con actitud negativa, en desacuerdo. Si queremos
medir el dominio de las ecuaciones de primer grado, podríamos proponer como ítem el si-
guiente: Obtenga el valor de x en la ecuación 2x – 4 = 2. Los que dominen dichas ecua-
ciones encontrarán la solución correcta y los que no, no. El rendimiento en ambos ítems
depende del nivel de dominio del constructo que se quiere evaluar.
Capítulo 2. Construcción de tests y análisis de ítems 27

Tipos y formatos de ítems


Como hemos visto, podemos hablar de tests de rendimiento óptimo y de rendimiento típi-
co. En uno de rendimiento óptimo quien responde pretende obtener la máxima puntuación
posible. Así ocurre ante un examen, una prueba de aptitudes, un test de inteligencia, etc.
En un test de rendimiento típico quien responde debe hacerlo de forma que su puntuación
informe de cómo es o de su posición personal sobre lo que se pregunta. En este caso, no
tiene sentido hablar de rendimiento máximo. Los tests de rendimiento óptimo y típico di-
fieren en las siguientes 3 características:

1. El tiempo de administración del test. En los tests de rendimiento óptimo, hay que de-
terminarlo con mucho cuidado. Vimos en el capítulo precedente que se distingue entre
tests de velocidad y de potencia. En los primeros se fija el tiempo de administración de
forma que sea muy difícil resolver todos los ítems. Con frecuencia la tarea es muy sen-
cilla (por ejemplo, sumas de un solo dígito) y se trata de ver cuántas sumas es capaz de
hacer cada persona en el tiempo disponible. En los tests de potencia, por el contrario, se
suele dar tiempo suficiente para que sea posible dar una respuesta meditada a cada
ítem. En los de velocidad, lo que importa es saber cuántos ítems es capaz de hacer el
evaluado; mientras que en los de potencia se presta especial atención a las característi-
cas de los ítems que hace. En la práctica, la mayoría de los tests de rendimiento óptimo
son de potencia, si bien se fija el tiempo de administración de modo que no sobre de-
masiado. Eso hace que el test pueda resultar parcialmente de velocidad para los evalua-
dos más lentos. Para considerar a una prueba como un test de potencia suele establecer-
se que una clara mayoría haya podido dar una respuesta meditada a un 90% o más de
los ítems (Schmeiser y Welch, 2006).
En los tests de rendimiento típico el tiempo de aplicación tiene escasa o nula relevan-
cia. Muchos tests de personalidad, por ejemplo, no tienen un tiempo límite de aplica-
ción y se permite que cada evaluado responda a su ritmo. Se dan a veces instrucciones
del tipo “responda sin pensar demasiado” con la idea de obtener la primera respuesta a
los ítems, no para indicar que el tiempo de administración es limitado.
2. Tratamiento de las preguntas dejadas sin contestar. En un test de rendimiento óptimo,
cuando no se responde a un ítem, caben dos posibilidades. Puede ser un ítem que el
evaluado no ha tenido tiempo de leer (en lo sucesivo, ítem no alcanzado) o puede que
no haya querido dar la respuesta tras haberlo leído (omisión). Si el test es (puro) de ve-
locidad, cabe suponer que los ítems sin respuesta son ítems no alcanzados. Si fuese
(puro) de potencia, cabe suponer que ha tenido tiempo suficiente para estudiar todos los
ítems y que ha omitido deliberadamente la respuesta, y son, por tanto, omisiones. Por
lo general, como no suele haber tests puros, lo que se suele hacer es considerar como
ítems no alcanzados por un evaluado los que siguen a su última respuesta, y como omi-
siones los no respondidos que preceden a su última respuesta. Tal proceder no está
exento de cierta lógica, pero choca con las estrategias de respuestas de algunos evalua-
dos. Por ejemplo, ciertas personas hacen una lectura rápida del test y responden a los
ítems que les resultan fáciles. Después, pasan a responder, uno a uno, despacio, hasta
donde lleguen. Con esta estrategia, los ítems dejados sin responder, previos al último
ítem respondido en la primera pasada rápida, van a ser considerados como omisiones
cuando han podido no ser vistos detenidamente (Schmeiser y Welch, 2006).
28 Medición en Ciencias Sociales y de la Salud

En los tests de rendimiento típico las no respuestas tienen otro significado. Suelen indi-
car que el ítem no se entiende o hay desinterés y falta de motivación en el evaluado.
Algunos tests dan pautas sobre qué hacer con las no respuestas. Por ejemplo, en el test
de los cinco grandes factores de la personalidad NEO-FFI (Costa y McCrae, 1999) se
recomienda la no calificación de quien tenga más de 10 ítems sin respuesta en los 60
ítems del test, y se dan pautas concretas de cómo puntuar los ítems dejados sin respues-
ta cuando son menos de 10.
3. Respuestas al azar y sesgos de respuesta. En los tests de rendimiento óptimo con ítems
de opción múltiple (en los que se ha de elegir una respuesta entre varias) es posible ob-
tener aciertos, respondiendo al azar, no sabiendo la respuesta correcta. Al final del
capítulo estudiaremos distintas estrategias y soluciones a este problema. En los tests de
rendimiento típico no caben las respuestas al azar si se está respondiendo al test con se-
riedad, pero sí podemos encontrar sesgos de respuesta, como la tendencia a utilizar las
categorías extremas, la aquiescencia y la deseabilidad social (Guilford, 1954). En los
ítems en los que el evaluado ha de emitir su respuesta eligiendo una categoría, nos po-
demos encontrar que dos evaluados, de nivel similar de rasgo, difieran en su tendencia
al uso de las categorías extremas; uno podría utilizarlas en casi todas sus respuestas,
mientras que otro podría no utilizarlas apenas. La aquiescencia es la tendencia a res-
ponder afirmativa o negativamente a un ítem independientemente de su contenido. Para
evitar este sesgo de respuesta resulta eficaz la redacción de ítems directos e inversos;
en los primeros, se espera una respuesta afirmativa de los que tengan alto nivel de ras-
go, mientras que en los segundos se espera negativa. El problema de la deseabilidad
social y del falseamiento de las respuestas en los tests, dada su importancia en determi-
nados contextos de evaluación psicológica, se considera con detalle en el capítulo 15 de
este libro.

Formatos de ítems en tests de rendimiento óptimo1

En los tests de rendimiento óptimo pueden elaborarse preguntas abiertas (formato de res-
puesta construida) o preguntas con opciones preestablecidas (formato de respuesta selec-
cionada). Los dos formatos más comunes de los ítems con respuesta seleccionada son los
ítems de verdadero-falso y los de opción múltiple.

a) Verdadero-falso: Se muestran dos alternativas y se ha de elegir la que se considera co-


rrecta. Por ejemplo, un ítem de un test de Historia Moderna podría ser:

Pi y Margall fue presidente de la 1ª República Española.


V( ) F( )

1
En este capítulo expondremos los tipos de ítems de respuesta de uso más frecuente, tanto en tests de rendi-
miento óptimo como típico. Sin embargo, conviene advertir que en los últimos años han surgido formatos inno-
vadores de ítems, por ejemplo los que utilizan las posibilidades del ordenador, y que permiten evaluar construc-
tos que los ítems tradicionales de lápiz y papel no pueden evaluar o no lo hacen con la misma eficacia (Olea,
Abad y Barrada, 2010). En el capítulo 15 se mostrarán ejemplos de estos nuevos formatos.
Capítulo 2. Construcción de tests y análisis de ítems 29

b) Opción múltiple. Un ítem de opción múltiple consta de un enunciado y de tres o más


opciones de respuesta, de las que sólo una es correcta. Por ejemplo, un ítem de un test de
aptitud verbal puede ser:

Coche es a volante, como bicicleta es a...


a) Pedal
b) Sillín
c) Manillar
d) Cambio

Hay también varios tipos de ítems de respuesta construida (Navas, 2001). Los hay que re-
quieren sólo completar una frase (Las provincias que integran la Comunidad Autónoma
de Extremadura son…..); otros requieren una respuesta más extensa, aunque breve, como
responder en un párrafo de pocas líneas; o mucho más extensa, como hacer una redacción
o construir una maqueta. Un ítem que requiere una respuesta corta sería Exponga en no
más de 10 líneas las dos principales características de la pintura de Goya, y una extensa
Detalle la influencia de los escritores latinoamericanos en la novela española del siglo
XX. Otro tipo de examen abierto es el portafolio, en el que el evaluado presenta a evaluar
un conjunto de trabajos que ha realizado y que considera buenos ejemplos del nivel de
aprendizaje que ha alcanzado.
En las décadas 80-90 hubo mucho debate en contextos de evaluación educativa sobre
si eran mejor los ítems de respuesta construida o seleccionada. Los partidarios de la res-
puesta construida decían que sólo este formato permite la evaluación de procesos superio-
res y que la respuesta seleccionada tiene el problema de los aciertos por azar. Los partida-
rios de la respuesta seleccionada enfatizaban que este formato muestrea mejor los conte-
nidos, pues pueden hacerse más preguntas, y que la corrección es subjetiva y más costosa
en los ítems de respuesta construida. Estudios posteriores han puesto de manifiesto que las
respuestas a los ítems abiertos se pueden cuantificar de forma fiable, que con ambos tipos
de ítems se puede evaluar procesos de aprendizaje de alto nivel y que ambos formatos
proporcionan resultados altamente correlacionados cuando se mide el mismo dominio.
Algunos autores enfatizan que no resultan formatos redundantes, pues se suelen medir
destrezas distintas (Schmeiser y Welch, 2006). Por tanto, ambos tipos de ítems más que
ser excluyentes son complementarios; unos son más apropiados que otros según sean los
objetivos concretos del test (Martínez, Moreno y Muñiz, 2005).
Una exposición más detallada de otros formatos alternativos para ítems de respuesta
construida y para ítems de respuesta seleccionada puede consultarse en la página web
http://www.uam.es/docencia/ace/ y en Martínez et al. (2005).

Formatos de ítems en tests de rendimiento típico

Los formatos de respuesta seleccionada más frecuentes en los tests de rendimiento típico
son los de opción binaria y categorías ordenadas:

a) Opción binaria: La persona debe elegir entre dos opciones antagónicas: por ejemplo,
ante un determinado enunciado, manifestar si está de acuerdo o no, o decir si describe su
30 Medición en Ciencias Sociales y de la Salud

modo usual de comportarse. Un ítem de un cuestionario sobre la actitud de los padres


hacia los profesores de sus hijos puede ser:

En realidad, los profesores hacen poco más que cuidar de nuestros hijos cuando trabajamos.
Desacuerdo ( ) Acuerdo ( )

b) Categorías ordenadas. Se establece un continuo ordinal de más de dos categorías, que


permite a la persona matizar mejor su respuesta. Puede o no incluir una categoría central
para indicar la posición intermedia de la escala de respuesta. Por ejemplo, un ítem sobre la
actitud de los adolescentes hacia el consumo de drogas podría ser el que sigue:

Las drogas pueden realmente resolver problemas de uno mismo.


( ) Muy en desacuerdo
( ) Bastante en desacuerdo
( ) Neutral
( ) Bastante de acuerdo
( ) Muy de acuerdo

En el ítem precedente Muy en desacuerdo, Bastante en desacuerdo… serían las etiquetas


de las cinco categorías. A veces, se establecen sólo las dos etiquetas extremas del conti-
nuo, dejando señaladas las restantes categorías, como muestra la siguiente escala de res-
puesta:

(Muy en desacuerdo)__ __ __ __ __ __ __ (Muy de acuerdo)

Hay varios tipos de escalas de respuestas (Morales, Urosa y Blanco, 2003). Las más co-
munes son la de grado de acuerdo y la de frecuencia. En la primera, llamada también es-
cala tipo Likert, se ha de manifestar el grado de acuerdo con la frase, mientras que en la
segunda se ha de indicar la frecuencia del comportamiento descrito en el enunciado. En
otras escalas de respuesta se ha de indicar la importancia que se da a lo que indica la frase
o cómo de correcta es la descripción que la frase hace de quien responde. Los dos ítems
que siguen utilizan la escala de grado de acuerdo y la de frecuencia, respectivamente.

Me encanta Madrid.
En desacuerdo
Indiferente
De acuerdo

Cuido mi alimentación.
Nunca
Algunas veces
Muchas veces
Siempre

Tres asuntos relevantes en relación a los ítems tipo Likert son el número de categorías de
la escala de respuesta, la presencia o no de categoría central y la elección de las etiquetas.
Se suele recomendar que el número de categorías sea 5 o un valor próximo (Hernán-
dez, Muñiz y García-Cueto, 2000; Morales et al., 2003). No se obtienen mejores tests
cuando se utilizan escalas de respuestas con muchas más categorías, pues se producen in-
Capítulo 2. Construcción de tests y análisis de ítems 31

consistencias en las respuestas. La probabilidad de que una persona elija la misma cate-
goría ante una misma frase, supuesto que no haya cambiado su nivel de rasgo, será mayor
si ha de responder con una escala de 5 categorías que con una de 20, de ahí que, cuando
son muchas las categorías disponibles, se incremente la inconsistencia. Con sólo dos o tres
categorías se puede dificultar la manifestación del auténtico nivel de rasgo. Por ejemplo,
dos personas, una que esté muy de acuerdo y otra que esté sólo de acuerdo, tendrán que
utilizar la misma categoría si la escala es En desacuerdo/No sé/ De acuerdo. En poblacio-
nes especiales, como discapacitados o personas mayores, puede resultar más adecuada una
escala de pocas categorías.
En las escalas de grado de acuerdo, no está del todo claro si es mejor fijar un número
par o impar de categorías. Hay razones a favor y en contra de la categoría central (que
puede etiquetarse como indiferente, neutral, dudo, no sé…). Su inclusión permite que al-
guien que realmente no está de acuerdo ni en desacuerdo con la frase pueda indicarlo. En
un ítem sin categoría central tendría que manifestarse como ligeramente de acuerdo o en
desacuerdo, cuando su posición ante el enunciado no es ésa. Los partidarios de eliminar la
categoría central argumentan que con demasiada frecuencia dicha categoría termina sien-
do la elegida por los que responden con poco cuidado o de forma poco sincera. Los parti-
darios de un número par de categorías suelen serlo también de un número más alto de ca-
tegorías, de forma que se pueda entender que el ítem tiene en realidad dos categorías cen-
trales (ligeramente de acuerdo y ligeramente en desacuerdo). La investigación muestra
que los indicadores psicométricos de los ítems no dependen de la existencia o no de cate-
goría central cuando el número de categorías es mayor de tres (Morales et al., 2003).
Por último, se han propuesto muchas tandas de etiquetas. Morales et al. (2003, pp. 55-
58) muestran varias. Las etiquetas han de abarcar todo el continuo (de acuerdo-
desacuerdo, frecuencia, importancia…) y además se ha de procurar que el salto en el con-
tinuo entre cada dos etiquetas consecutivas sea de similar cuantía. La escala de respuesta
Muy en desacuerdo/En desacuerdo/Indeciso incumpliría la primera exigencia, pues las
personas que estén de acuerdo no tienen una categoría que les permita indicarlo. El ítem
que sigue incumple la segunda exigencia, pues la distancia en el continuo entre las dos
primeras categorías es menor que la que hay entre la segunda y tercera.

La Educación está en crisis.


Muy en desacuerdo
En desacuerdo
De acuerdo
Muy de acuerdo

Redacción de ítems de opción múltiple


Se han propuesto conjuntos de recomendaciones para la correcta redacción de los ítems de
opción múltiple. Se basan a veces, aunque no siempre, en estudios empíricos en los que se
ha comprobado que su incumplimiento genera ítems de peor calidad. Haladyna, Downing
y Rodríguez (2002) han propuesto 31 recomendaciones. Moreno, Martínez y Muñiz
(2004) las han reelaborado y proponen las siguientes 12, clasificadas en 3 apartados, que
reproducimos a continuación con ligeros cambios:
32 Medición en Ciencias Sociales y de la Salud

A. Elección del contenido que se desea evaluar.

1. Cada ítem debe evaluar el contenido de una celdilla de la tabla de especificaciones,


lo que garantiza que el test muestreará bien todo el contenido a evaluar. Hay que evi-
tar los ítems triviales.
2. El ítem deberá ser sencillo o complejo, concreto o abstracto, memorístico o de razo-
namiento en función de las destrezas y contenidos que deba evaluar.
Las dos primeras recomendaciones indican que la creación de los ítems ha de ceñirse a
lo estudiado en el primer apartado sobre diseño del test y, en particular, a lo establecido
en la tabla de especificaciones.

B. Expresión del contenido en el ítem.

3. Lo central debe expresarse en el enunciado. Cada opción es un complemento que


debe concordar gramaticalmente con el enunciado, pues la opción que no concuerda
suele ser incorrecta.
4. La sintaxis o estructura gramatical debe ser correcta. Conviene evitar ítems dema-
siado escuetos o profusos, ambiguos o confusos. Conviene cuidar especialmente las
expresiones negativas para evitar que puedan ser interpretadas incorrectamente.
5. La semántica debe estar ajustada al contenido y a la comprensión lingüística de las
personas evaluadas. Si no es así, las respuestas al ítem dependerán del constructo que
se pretende medir, como se pretende, pero también de la comprensión lingüística de los
evaluados, que no se pretende.

C. Construcción de las opciones.

6. La opción correcta debe ser sólo una y debe ir acompañada por distractores plausi-
bles. Si las opciones incorrectas no son plausibles, no sabremos cuántas opciones del
ítem están actuando como auténticos distractores.
7. La opción correcta debe estar repartida entre las distintas ubicaciones, evitando la
tendencia natural a ubicar la opción correcta en las posiciones centrales (Attali y Bar-
Hillel, 2003).
8. Las opciones deben ser preferiblemente tres. Se han realizado trabajos que prueban
que no suelen resultar mejores los ítems de 4 ó 5 opciones que los de 3 (p. ej., Abad,
Olea y Ponsoda, 2001). Lo serían si la cuarta, quinta… opción fuesen de la misma cali-
dad que las tres primeras, lo que no es frecuente. Por tanto, suele resultar más apropia-
do, por ejemplo, un test de 80 ítems de 3 opciones que uno de 40 ítems de 6 opciones, a
pesar de que el tiempo dedicado al procesamiento de los ítems sea parecido en ambos
casos.
9. Las opciones deben presentarse usualmente en vertical. Cuando se presentan en
horizontal, una tras otra, es más fácil que alguna no se entienda correctamente.
10. El conjunto de opciones de cada ítem debe aparecer estructurado. Por ejemplo, si
las opciones fuesen valores numéricos, se recomienda que aparezcan ordenados. La or-
denación facilita la correcta comprensión del ítem.
Capítulo 2. Construcción de tests y análisis de ítems 33

11. Las opciones deben ser autónomas entre sí, sin solaparse ni referirse unas a otras.
Por ello, deben evitarse las opciones “Todas las anteriores” y “Ninguna de las ante-
riores”. A veces se redactan dos opciones de forma que necesariamente una de las dos
es correcta, de lo que se puede inferir que las restantes son incorrectas.
12. Ninguna opción debe destacar del resto ni en contenido ni en apariencia. Cuando
una opción destaca en contenido o apariencia suele dar pistas sobre si es o no correcta.
No es infrecuente encontrarse en un ítem varias opciones poco elaboradas y muy bre-
ves, que son incorrectas, y una más elaborada, más extensa, que es la correcta.

Hemos revisado (García, Ponsoda, Sierra, 2009) más de 50 exámenes de opción múltiple
con los que se evalúa en la universidad y hemos comprobado que se suelen incumplir al-
gunas de las recomendaciones expuestas. De hecho, hemos encontrado:

− Ítems con ninguna o más de una solución correcta.


− Ítems con demasiado texto. Con el loable propósito de que el estudiante vea el interés e
importancia de lo que se pregunta, muchas veces se redactan ítems con mucho más tex-
to del necesario, lo que puede dificultar su comprensión.
− Ítems que dan pistas de la solución correcta. A veces, la pista resulta de la falta de con-
cordancia gramatical entre el enunciado y alguna opción. Otras veces, una opción es
mucho más larga y está más elaborada que las demás. En otras ocasiones se ofrecen
dos opciones que agotan las posibles respuestas. A veces se proponen ítems que apare-
cen resueltos en otros ítems del mismo test. En estas situaciones, el rendimiento en el
ítem no depende sólo del nivel de conocimiento, como debiera ser, sino de la capacidad
del estudiante para captar estas pistas.
− Presencia de opciones del tipo “Ninguna de las anteriores” y “Todas las anteriores”.
Muchas veces, por la necesidad de redactar el número de opciones preestablecido, se
termina incluyendo una opción de este tipo, seguramente porque requiere menos es-
fuerzo que elaborar una opción plausible nueva.
− Opciones incorrectas (o distractores) poco plausibles. Las opciones incorrectas poco
plausibles son poco elegidas y tenemos entonces la duda de cuántas opciones realmente
funcionales tiene el ítem. Las opciones incorrectas no deberían descartarse utilizando
sólo el sentido común. Las alternativas no ciertas deben ser elegidas entre los errores o
confusiones que usualmente tienen las personas que no conocen la respuesta correcta a
la pregunta. Otra posible estrategia para generar buenos distractores sería el uso de al-
ternativas de respuesta que son verdaderas para otras preguntas, pero que son inciertas
para el enunciado al que se asocian.

Redacción de ítems de categorías ordenadas


Respecto a la manera de formular las cuestiones en los tests de rendimiento típico, se han
propuesto algunas recomendaciones que pueden ayudar a su correcta redacción:
34 Medición en Ciencias Sociales y de la Salud

1. Utilizar el tiempo presente.


2. Deben ser relevantes, en el sentido de que su contenido debe relacionarse claramente
con el rasgo. Hay que redactar frases ante las que darían respuestas distintas los que
tengan alto y bajo nivel en el rasgo que se pretenda evaluar.
3. Se debe cuidar que el contenido sea claro y evitar una excesiva generalidad. Resultan
mejor los ítems formados por frases cortas, simples e inteligibles. Hay que evitar in-
cluir dos contenidos en un ítem.
4. Para minimizar la aquiescencia conviene redactar ítems de modo directo e inverso.
5. Conviene evitar el uso de negaciones, pues dificultan la comprensión de la frase, y de
universales (todo, siempre, nunca...), pues llevan a casi todos los evaluados a elegir la
misma categoría de respuesta. Algunas escalas de Sinceridad utilizan precisamente es-
tos universales para detectar el falseamiento de respuestas. Un enunciado de un posible
ítem de una escala de Sinceridad sería Nunca me ha apetecido hacer algo prohibido,
precisamente con la idea de que los evaluados que respondan sin falsear se habrán de
manifestar en desacuerdo con el enunciado.

Se recomienda generar tantos ítems directos como inversos. Lo preferible es que los ítems
inversos no lleven negaciones. En un ítem para medir el interés por el estudio, la frase
“Me gusta estudiar” daría lugar a un ítem directo, y las frases “No me gusta estudiar” y
“Me aburre estudiar” darían lugar a ítems inversos. La última sería preferible a la penúl-
tima pues evita la negación. La presencia de ítems directos e inversos en un test tiene en
ocasiones más trascendencia psicométrica de la que aparentemente cabría esperar. Se ha
encontrado que la presencia de ítems directos e inversos termina afectando a la estructura
interna del test, es decir, a las dimensiones que se miden. Por ejemplo, Tomás y Oliver
(1999) comprueban que esto ocurre en el test de Autoestima de Rosenberg. De ahí que
haya instrumentos que sólo contienen ítems directos.
Un error que suelen cometer los que tienen poca experiencia en la redacción de ítems
es la introducción en la frase de más de un contenido. Por ejemplo, en un ítem hay que
manifestarse de acuerdo o en desacuerdo ante el siguiente enunciado “Pienso que es bue-
no premiar a los hijos cuando se portan bien y que da mejor resultado que castigarlos
cuando hacen algo mal”. La frase en realidad contiene dos afirmaciones y la respuesta
dada a la frase original puede referirse a la primera, a la segunda o a ambas.
Otro error frecuente en la redacción de estos ítems es el uso inadecuado de la escala de
respuesta. Por ejemplo, el ítem que sigue estaría mejor redactado con una escala de fre-
cuencia que de grado de acuerdo, como se muestra en la redacción alternativa.

Juego al tenis al menos una vez por semana.


Muy en desacuerdo ( )
En desacuerdo ( )
Indeciso ( )
De acuerdo ( )
Muy de acuerdo ( )
Capítulo 2. Construcción de tests y análisis de ítems 35

Redacción alternativa:

Indique cuántas veces a la semana, en promedio, juega al tenis.


Ninguna ( )
Una ( )
Dos ( )
Tres o cuatro ( )
Cinco o más ( )

Revisión de los ítems


Una vez elaborados los ítems, resulta muy conveniente que algún experto en el contenido
de la prueba y en construcción de tests los revise. Si no es posible recurrir a algún experto,
no es mala idea, como sugiere Navas (2001), que sea el mismo redactor de ítems quien
haga la revisión, dejando pasar algunos días entre la creación del ítem y su revisión.
Hay que comprobar que cada ítem evalúa los contenidos y destrezas que le correspon-
den, de acuerdo con la tabla de especificaciones. Se ha de comprobar que no es ambiguo,
que gramaticalmente está bien redactado, que el lenguaje no resulta ofensivo y, en los
ítems de opción múltiple, que la opción correcta lo es realmente y que todos los distracto-
res son incorrectos. En realidad, se ha de comprobar que cada ítem cumple las recomen-
daciones que acabamos de ver.
Como vemos, los tests requieren un proceso sistemático de elaboración y una adminis-
tración controlada. Esto significa, por ejemplo, que una persona deberá obtener la misma
puntuación en un test de Responsabilidad independientemente del evaluador que se lo
aplique. Con otros métodos de evaluación la puntuación obtenida puede depender más del
evaluador. Por ejemplo, distintos psicólogos clínicos pueden llegar a una conclusión dife-
rente respecto de la personalidad de un evaluado tras una entrevista clínica.
Un punto fuerte de los tests es que permiten evaluar a las personas, por ejemplo, úni-
camente por sus habilidades, conocimientos, competencias o capacidades; es decir, por
sus méritos o cualidades y con escasa participación de la subjetividad del evaluador. Sien-
do esto importante, es si cabe más importante que los tests sean justos. Es decir, deben dar
al evaluado la puntuación que corresponde a su nivel en el constructo, sea cual sea su
edad, género, discapacidad, raza, grupo étnico, nacionalidad, religión, orientación sexual,
lengua y otras características personales. Los expertos deben analizar cada ítem para de-
terminar que cumple lo anterior. En un ejercicio de acceso a la universidad se preguntó
por el significado de pucelana (natural de Valladolid). Hicieron mejor el ejercicio los se-
guidores de las crónicas deportivas que los que sabían más Lengua. La revisión mediante
expertos hubiese podido detectar que el ítem no era apropiado pues medía, además del co-
nocimiento en Lengua, interés por el fútbol y por tanto resultaba injusto con los estudian-
tes que no eran aficionados al citado deporte. Existen procedimientos psicométricos para
estudiar lo que se denomina como Funcionamiento Diferencial, que ayudan a determinar
si los ítems y tests son o no justos. Los describiremos en el capítulo 13.
36 Medición en Ciencias Sociales y de la Salud

Cuantificación de las respuestas


Una vez decidido el tipo de ítem y el formato de respuesta que se consideran más apropia-
dos, y de cara al estudio psicométrico de la prueba, es preciso decidir la manera de cuanti-
ficar las posibles respuestas a los ítems.

Tests de rendimiento óptimo


En general, los ítems de respuesta seleccionada en tests de rendimiento óptimo se cuanti-
ficarán con 1, el acierto, y con 0, el error. Se dice que un ítem es dicotómico cuando puede
tomar sólo dos valores. La puntuación (directa) de un evaluado en el test, Xi, será la suma
de las puntuaciones en los J ítems, e indicará su número de aciertos.

J
Xi = ∑X
j =1
ij [2.1]

Para la cuantificación de los ítems de respuesta construida breve se recomienda hacer una
lista de respuestas aceptables y otra de no aceptables y puntuar con 1 ó 0, respectivamen-
te. Se pueden hacer más de dos listas. Si se hicieran 4, una podría contener las respuestas
muy buenas; otra, las buenas; una tercera, las regulares; y una cuarta, las respuestas inco-
rrectas. Cada ítem sería cuantificado como 3, 2, 1 ó 0, respectivamente. Los ítems que
admiten un número prefijado (mayor de 2) de posibles valores al ser cuantificados se lla-
man ítems politómicos. En este ejemplo, estaríamos ante ítems politómicos que pueden
tomar cuatro valores.
En los ítems de respuesta construida extensa, conviene aplicar rúbricas (criterios de-
finidos de corrección) para obtener una cuantificación adecuada. Las hay analíticas y
holísticas. En las rúbricas analíticas se detallan los distintos elementos que hay que valo-
rar en la respuesta, indicando cómo debe ser la respuesta que merezca cada una de las po-
sibles cuantificaciones. Por ejemplo, en la evaluación de una redacción2 se puede conside-
rar que los elementos a evaluar son a) las ideas y el contenido, b) la organización, c) la
fluidez y d) la corrección gramatical. Ante cada elemento, la rúbrica detallaría el rendi-
miento al que correspondería cada posible puntuación. Ante el elemento “ideas y conteni-
do”, la peor calificación correspondería a redacciones que carezcan de idea central o que
fuercen al lector a inferir la idea a partir de detalles sueltos. La máxima puntuación co-
rrespondería a una redacción clara, interesante y que aborde nítidamente el asunto central,
que capture la atención de lector y que proporcione anécdotas enriquecedoras. La puntua-
ción del estudiante en la redacción sería la suma de sus puntuaciones en las cuatro partes
que forman la rúbrica. En las rúbricas holísticas no se establecen los distintos elementos a
evaluar, sino que se evalúa el ítem como un todo. Una buena rúbrica debe proporcionar
puntuaciones muy similares al mismo ejercicio cuando es aplicada correctamente por dos
evaluadores distintos. Permite que el estudiante sea evaluado en forma objetiva y consis-

2
Tomado y adaptado de http://web.ccsd.k12.wy.us/RBA/LA/SecSoph.html
Capítulo 2. Construcción de tests y análisis de ítems 37

tente. Al mismo tiempo, permite al profesor especificar claramente qué espera del estu-
diante y cuáles son los criterios con los que va a calificar cada respuesta. Livingston
(2009) expone las ventajas e inconvenientes de los distintos tipos de rúbricas.
Sea cual sea el tipo de ítem de respuesta construida, la puntuación en el test se obtiene
también aplicando la ecuación [2.1], es decir, sumando las puntuaciones obtenidas en los
diferentes ítems.

Tests de rendimiento típico


La cuantificación de las respuestas a ítems de pruebas de rendimiento típico requiere cier-
tos matices. Dado un formato de respuesta determinado, es necesario cuantificar las posi-
bles respuestas a un ítem teniendo en cuenta si es un ítem directo o inverso.
Por ejemplo, en un ítem con formato de respuesta de opción binaria (acuer-
do/desacuerdo), cuantificaremos el acuerdo con 2 si el ítem está planteado para medir de
manera directa el constructo de interés. Lo cuantificaremos con 1, si está redactado de
manera inversa. Se muestran 2 ítems de un cuestionario de actitud ante al aborto volunta-
rio:

Abortar es matar.
En desacuerdo ( ) De acuerdo ( )

La madre es la dueña de su cuerpo en asuntos de aborto.


En desacuerdo ( ) De acuerdo ( )

En el primero, que es inverso, la respuesta “De acuerdo” se puntuaría con 1 y “En des-
acuerdo” con 2; ya que estar en desacuerdo con esa afirmación indica una actitud más po-
sitiva hacia el aborto voluntario. En el segundo ítem, que es directo, “De acuerdo” se
puntuaría con 2 y “En desacuerdo” con 1; ya que estar de acuerdo con esa afirmación in-
dica una actitud más positiva hacia el aborto voluntario.
Si el formato de respuesta es de K categorías ordenadas, las diversas categorías se
cuantificarán normalmente desde 1 hasta K, teniendo en consideración si el ítem es directo
o inverso. Por ejemplo, en ítems de 5 categorías, las dos posibles cuantificaciones serán: 1
(Muy en desacuerdo), 2… 5 (Muy de acuerdo), en un ítem directo; y 5 (Muy en desacuer-
do), 4… 1 (Muy de acuerdo), en un ítem inverso. El ítem podría también cuantificarse uti-
lizando otras tandas de valores (por ejemplo, 0, 1, 2, 3 y 4, ó –2, –1, 0, 1 y 2). En realidad
cualquier tanda de cinco valores enteros consecutivos es apropiada y proporciona los
mismos resultados psicométricos. Además, la cuantificación de un ítem de opción binaria
no ha de ser necesariamente 1 y 2 (podría ser, por ejemplo, 0 y 1). La puntuación de un
evaluado en el test se obtiene sumando sus puntuaciones en los ítems (ecuación [2.1]).

Ejemplo 2.1. Cuantificación de ítems de categorías ordenadas

La Tabla 2.2 muestra dos ítems de un test de Calidad de vida, con tres categorías. Se indi-
ca la cuantificación apropiada de cada categoría según sea el ítem directo o inverso. El
primer ítem es directo y el segundo, inverso.
38 Medición en Ciencias Sociales y de la Salud

Tabla 2.2. Cuantificación de dos ítems de categorías ordenadas


En desacuerdo Indeciso De acuerdo
Me siento apoyado por mi familia 1 2 3
Mi vida carece de sentido 3 2 1

Análisis de ítems
Con análisis de ítems3 nos referimos a los procedimientos dirigidos a extraer información
sobre su calidad. Estudiaremos procedimientos que permiten seleccionar los ítems más
apropiados a los objetivos específicos del test. Después del proceso de análisis de ítems se
podrán determinar los ítems que formarán parte del test definitivo, o construir la versión
breve o reducida de un instrumento ya en uso. En cualquier caso, vamos a obtener indica-
dores que no deben interpretarse de forma automática, sino inteligentemente, atendiendo
al objetivo específico del test. En contextos de evaluación educativa, por ejemplo, el aná-
lisis de ítems permite ir mejorando las preguntas con las que evaluamos y el examen en su
conjunto, y nos puede informar sobre qué han aprendido o aprendido mal los estudiantes
(Morales, 2009).
Downing y Haladyna (1997) distinguen entre el análisis cualitativo de ítems y el aná-
lisis cuantitativo. El primero precede a la aplicación del test y requiere comprobar, por lo
general mediante expertos, que se han realizado adecuadamente las actividades comenta-
das en los apartados previos. Aplicado el test, se recomienda hacer el análisis cuantitativo.
Cuando hablamos de análisis de ítems sin más, nos referimos a este último. Requiere la
obtención para cada ítem de diversos indicadores, que pueden encuadrarse en tres catego-
rías: los de dificultad, los de discriminación y el de validez.
Tras aplicar el test provisional a una muestra de evaluados representativa de la pobla-
ción a la que va dirigida la prueba (se aconseja al menos entre 5 y 10 veces más evalua-
dos4 que ítems), y una vez cuantificadas las respuestas de cada individuo, se forma una
matriz de datos de N filas (evaluados) x J columnas (ítems). El elemento Xij de esta matriz
indica el valor obtenido por el evaluado i en el ítem j. Según la ecuación [2.1], sumando

3
Tanto la TCT como la TRI proporcionan indicadores de las características psicométricas de los ítems. En este
tema estudiaremos los indicadores que aporta la TCT. Los que aporta la TRI se verán al estudiar esta teoría. Un
segundo comentario tiene que ver con la ubicación en el libro de este apartado. El análisis de ítems se ocupa del
estudio de los ingredientes básicos de los tests. La calidad del todo (el test) depende, como cabe esperar, de la
calidad de las partes (los ítems). Es, entonces, inevitable, que en el estudio de los ítems aparezcan conceptos de
la calidad del test que estudiaremos en capítulos sucesivos. Por esta razón, en la mayoría de los manuales el aná-
lisis de los ítems más bien cierra los libros que los abre. Sin embargo, en el proceso de construcción de un test, el
análisis de sus ítems precede a la determinación de los ítems que componen el test definitivo. Nuestra experien-
cia docente aconseja exponer a los estudiantes este tema al inicio de la materia y no al final, y siguiendo esta
lógica hemos preferido mantener esa misma ordenación en el libro.
4
Varios ejemplos incumplirán esta recomendación. En este y siguientes capítulos expondremos ejemplos de
tests con muy pocos ítems y muy pocos evaluados, muchos menos de los que necesitaría un test real. Son ejem-
plos pensados para facilitar la comprensión de lo expuesto, que requieren pocos cálculos y escaso espacio.
Capítulo 2. Construcción de tests y análisis de ítems 39

por filas obtendremos las puntuaciones directas (X) de los evaluados en el test. La Tabla
2.3 muestra los datos obtenidos por cinco evaluados en un test de rendimiento óptimo de 3
ítems (X1, X2 y X3). La columna más a la derecha muestra la puntuación de cada uno en el
test (X), que es su número de aciertos si los 1 y 0 de la tabla indican acierto y error en el
ítem.

Tabla 2.3. Resultados de 5 evaluados en 3 ítems y en el test X


X1 X2 X3 X
1 1 0 2
1 0 0 1
0 1 1 2
1 1 0 2
0 1 1 2

En el caso de un test de rendimiento típico, tendríamos una tabla similar. Los datos de 4
evaluados en un test de Autoestima, con 5 ítems tipo Likert de 7 alternativas, podrían or-
ganizarse como se muestra en la Tabla 2.4. También en este caso, las puntuaciones en el
test resultan de sumar las puntuaciones en los 5 ítems.

Tabla 2.4. Resultados de 4 evaluados en 5 ítems y en el test X


X1 X2 X3 X4 X5 X
7 5 4 7 6 29
1 1 3 4 2 11
4 6 5 4 3 22
6 6 5 5 7 29

A estas tablas de datos se pueden aplicar los distintos indicadores que informarán de las
características psicométricas de los ítems.

Índice de dificultad
Este indicador sirve para cuantificar el grado de dificultad de cada ítem. Se aplica a los
ítems dicotómicos de los tests de rendimiento óptimo. El índice de dificultad de un ítem j,
pj, se define como la proporción de evaluados que ha acertado el ítem. Es el cociente entre
el número de evaluados que lo han acertado (Aj) y el total de evaluados que lo han respon-
dido (Nj).

Aj
pj= [2.2]
Nj
40 Medición en Ciencias Sociales y de la Salud

Ejemplo 2.2. Obtención del índice de dificultad

Supongamos que 5 evaluados responden a un test de 3 ítems. En la Tabla 2.5 se muestran


sus puntuaciones. Nótese que los evaluados 4 y 5 han dejado ítems sin responder.

Tabla 2.5. Puntuaciones de 5 evaluados en 3 ítems y en el test X


Evaluado X1 X2 X3 X
1 1 1 0 2
2 1 0 0 1
3 0 1 1 2
4 1 - - 1
5 0 - 1 1

Los índices de dificultad de los tres ítems serán:

A1 3
p1 = = = 0,60
N1 5

A2 2
p2 = = = 0,67
N2 3

A3 2
p3 = = = 0,50
N3 4

En los tests de opción múltiple es posible obtener aciertos respondiendo al azar. En el


último apartado veremos los procedimientos que permiten descontar del número de acier-
tos obtenidos por cada evaluado los que presumiblemente se deben a haber respondido al
azar. Algo similar cabe plantearse en relación al índice de dificultad. En un test en el que
no haya respuestas al azar tendremos presumiblemente menos aciertos de los que tendría-
mos en ese mismo test si las hubiera habido. Se han propuesto fórmulas que corrigen los
aciertos debidos a respuestas al azar. El índice de dificultad corregido de un ítem de op-
ción múltiple de K opciones, p cj , se obtiene aplicando la siguiente expresión (Schmeiser y
Welch, 2006):

Fj
Nj
p cj = p j − [2.3]
K −1
Capítulo 2. Construcción de tests y análisis de ítems 41

Donde pj es el índice de dificultad sin corregir y Fj es el número de personas que fallaron


el ítem de los Nj que lo respondieron. Si los ítems del test del Ejemplo 2.2 tuviesen 4 op-
ciones, los nuevos índices de dificultad corregidos serían:

F1 2
N
p1c = p1 − 1 = 0,60 − 5 = 0,60 − 0,13 = 0,47
K −1 4 −1

F2 1
N2
c
p2 = p2 − = 0,67 − 3 = 0,67 − 0,11 = 0,56
K −1 4 −1

F3 2
N3
p3c = p3 − = 0,50 − 4 = 0,50 − 0,17 = 0,33
K −1 4 −1

Se observa que al aplicar la fórmula correctora los índices disminuyen cuando hay errores.
Crocker y Algina (1986) recomiendan que la dificultad media de los ítems sea mayor de
0,5 cuando haya en el test respuestas al azar. Proponen que la dificultad media sea 0,62,
0,67 y 0,75, si los ítems tienen 4, 3 y 2 opciones, respectivamente. Aplicando a estos valo-
res la fórmula [2.3], con Fj/Nj = 1 – pj, se obtiene que en los tres casos p cj es 0,50.

Propiedades del índice de dificultad

1. El valor mínimo que puede asumir p es 0 (cuando nadie acierta el ítem) y el valor
máximo, 1 (todos los que lo intentan lo aciertan). A medida que p se acerca a 0, el ítem
ha resultado más difícil; cuanto más se acerca a 1, ha resultado más fácil. Cuando el va-
lor está cerca de 0,5, el ítem tiene una dificultad media, no ha resultado ni fácil ni difí-
cil. En el Ejemplo 2.2 el ítem más fácil es el 2 y el más difícil, el 3. Nótese, por tanto,
que valores altos en el índice de dificultad, indican mucha facilidad y no mucha dificul-
tad, como se podría esperar. Algunos (p. ej., McAlpine, 2002) prefieren llamar al indi-
cador índice de facilidad, pero no termina de prosperar la propuesta.
2. El valor de p depende de la muestra. Un ítem aplicado a una muestra muy preparada
(de alto nivel en el rasgo) será acertado por más evaluados que si es aplicado en una
muestra poco preparada. Por tratarse del mismo ítem, lo deseable sería que el indicador
de su dificultad no dependa de la muestra en la que es aplicado, pero el índice p no tie-
ne esta propiedad. El indicador de la dificultad del ítem dentro de la TRI sí proporciona
valores que no dependen del nivel de la muestra en la que se aplique.
3. El valor de p se relaciona con la varianza de los ítems: Si p es 0 ó 1, la varianza del
ítem es cero, pues sólo se han producido en el ítem fallos y aciertos, respectivamente.
A medida que p se acerca a 0,5, su varianza aumenta. De hecho, la varianza de un ítem
42 Medición en Ciencias Sociales y de la Salud

dicotómico puede obtenerse a partir de su índice de dificultad, pues S 2j = p j (1 − p j ).


La máxima varianza de un ítem dicotómico (0,25) se alcanza cuando p = 0,5.
En un test, en el que la puntuación de la persona i es la suma de los J ítems (ecuación
[2.1]), su varianza se puede obtener, a partir de las varianzas y covarianzas de los
ítems, mediante la expresión

J J −1 J J J −1 J
S X2 = ∑
j =1
S 2j + 2 ∑∑ S jj ' =
j =1 j '= j +1

j =1
S 2j + 2 ∑ ∑r
j =1 j '= j +1
jj ' S j S j ' [2.4]

Es decir, la varianza del test es la suma de las varianzas de los J ítems y la suma de las
J(J – 1) covarianzas que resultan al formar todos los pares posibles con J ítems. En la
expresión anterior, se ha sustituido la covarianza (Sjj’) entre cada dos ítems por su valor
(rjj’ Sj Sj’), teniendo en cuenta la definición de la correlación de Pearson.
Por tanto, si queremos que el test tenga alta varianza conviene que contenga ítems tam-
bién de alta varianza; es decir, ítems con índices de dificultad próximos a 0,5.
Al diseñar un test de rendimiento óptimo, se suele recomendar que se sitúen al inicio
algunos ítems fáciles, por su efecto motivador (Navas, 2001; García-Cueto y Fidalgo,
2005); en la parte central, los de dificultad media (valores p entre 0,30 y 0,70); y al fi-
nal, los más difíciles. El número de ítems de cada categoría de dificultad que deben in-
cluirse en el test depende de sus objetivos.
En los tests referidos a norma, de poco sirve un ítem con p = 0 ó 1, ya que no ayudaría
a establecer diferencias entre los evaluados, pues es un ítem que lo fallarían o acerta-
rían todos los evaluados. En un test referido al criterio, puede tener interés saber si to-
dos los evaluados tienen ciertos conocimientos elementales o muy básicos. Si es así,
esos ítems tendrán necesariamente altos valores p y tendría sentido su inclusión y man-
tenimiento en el test.
Por tanto, en general, los mejores ítems son los que aportan más varianza al test y son
los que tienen valores de p medios. De hecho, algunos programas para el análisis psi-
cométrico de los ítems, como TAP (Brooks y Johanson, 2003), recomiendan el estudio
detenido y eventual descarte de los ítems con valores p mayores de 0,9 y menores de
0,2. Sin embargo, como hemos señalado, puede tener sentido la inclusión y manteni-
miento de algunos ítems fáciles o muy fáciles en ciertos contextos aplicados, por ejem-
plo en tests referidos al criterio.

El índice de dificultad en otros tipos de ítems

Lo visto hasta ahora sobre el índice de dificultad se aplica a ítems dicotómicos de tests de
rendimiento óptimo. En este escenario se entiende muy bien que la proporción de perso-
nas que aciertan el ítem sea el indicador de su dificultad. El índice p es la media aritmética
de las puntuaciones conseguidas en el ítem por los N evaluados que lo han respondido. Pa-
ra el caso de ítems no dicotómicos de tests de rendimiento óptimo, la media en el ítem de
los evaluados que han respondido sería también el indicador de su dificultad. Supongamos
que la rúbrica para corregir un ítem de respuesta construida tiene como valores mínimo y
máximo posibles, 0 y 12. Valores medios en el ítem próximos a 0 indicarán dificultad ex-
Capítulo 2. Construcción de tests y análisis de ítems 43

trema, y próximos a 12, facilidad extrema. Una alternativa al cálculo de la media consiste
en dividir la suma de puntos en el ítem por la suma máxima de puntos posible. Procedien-
do así se obtiene un indicador de la dificultad comprendido entre 0 (máxima dificultad) y
1 (máxima facilidad). Supongamos, por ejemplo, una tarea que puede ser evaluada como
0, 1, 2 ó 3. Si las puntuaciones en la tarea de 5 estudiantes han sido 3, 1, 3, 0 y 3, la suma
de puntos sería 10, la suma máxima posible sería 15 y el índice de dificultad será 10/15 =
0,67. Por tanto, la tarea es de dificultad media-baja.
En los tests de rendimiento típico la media de las puntuaciones en el ítem ofrece una
información que guarda cierta similaridad con el concepto de dificultad del ítem, aunque
no pueda hablarse propiamente de lo difícil que es el ítem. Por ejemplo, en un test de
agresividad, un ítem podría ser Participo en peleas, con las opciones Nunca, Alguna vez,
De vez en cuando y Con frecuencia, y recibiría una puntuación de 1 a 4. Un segundo ítem
podría ser Discuto con la gente, con la misma escala de respuestas. La misma muestra
responde a ambos ítems. Supongamos que la media de la muestra en el primero es 1,75 y
en el segundo, 2,81. La menor media del ítem 1 indica que hay que tener más agresividad
para obtener una puntuación concreta (por ejemplo, 3) en el ítem 1 que en el 2. Cuanto
más baja es la media, más nivel de rasgo hace falta para alcanzar una cierta puntuación en
el ítem.

Índices de discriminación
Un ítem que mida el constructo de interés debe discriminar entre los que tienen altos y ba-
jos valores en el constructo. Las personas con alta y baja Responsabilidad deberán puntuar
de forma diferente en un ítem que realmente mida este constructo, aunque podrán obtener
puntuaciones parecidas en un ítem que mida otro constructo. Se han propuesto varios in-
dicadores de la discriminación del ítem. Todos ellos requieren una medida apropiada del
constructo, que muchas veces, aunque no necesariamente, es la puntuación obtenida en el
test completo. Otras veces es un subconjunto de los ítems del test y otras, incluso, una
medida del constructo externa al test.

El índice de discriminación

Este indicador se obtiene exclusivamente para ítems dicotómicos. Requiere establecer dos
subgrupos de evaluados a partir de sus puntuaciones en el test: el de los que tienen altas y
el de los que tienen bajas puntuaciones. Los subgrupos pueden estar compuestos por la
mitad de la muestra o, más frecuentemente, por un porcentaje menor (27%, 33%, por lo
general) si la muestra tiene suficiente tamaño.
Sea ps la proporción de personas del subgrupo superior que ha acertado el ítem. Sea pi
la correspondiente proporción en el subgrupo inferior. El índice de discriminación de ítem
j, Dj, se define como la diferencia entre ambas proporciones.

D j = p s − pi [2.5]
44 Medición en Ciencias Sociales y de la Salud

El indicador D toma valores entre –1 y 1. Cuando D = 1, todos los evaluados del subgrupo
superior han acertado el ítem y ninguno del subgrupo inferior lo ha hecho. Cuando D = 0,
la proporción de los que han acertado el ítem es la misma en ambos subgrupos. Si D = –1,
ninguno del subgrupo superior ha acertado el ítem y todos los del subgrupo inferior lo han
hecho. Valores próximos a cero indican que el ítem no discrimina. Cuanto D más se acer-
ca a uno, mayor es la capacidad discriminativa del ítem. Valores inferiores a 0,20 se con-
sideran valores inaceptables e indican que el ítem ha de ser eliminado (Crocker y Algina,
1986). Los valores que puede tomar D dependen del valor del índice de dificultad p (Oos-
terhof, 1976). En el caso de valores extremos de p, no es posible que D tome valores altos.
Por ejemplo, si el valor p de un ítem es 0,98, es evidente que ha debido de ser acertado por
prácticamente todos los del grupo superior y también por prácticamente todos los del gru-
po inferior, no pudiendo D tomar un valor alto. Un razonamiento similar puede aplicarse
cuando el valor de p es muy bajo. Cuando p toma un valor central es cuando D puede to-
mar un valor próximo o alejado de cero.

Índices basados en la correlación entre el ítem y el test

Otra estrategia para determinar si un ítem discrimina entre los evaluados que tienen altas y
bajas puntuaciones en el constructo consiste en correlacionar las puntuaciones en el ítem
con una medida del constructo, que por lo general es el rendimiento en el test. Esta estra-
tegia da lugar a los indicadores de discriminación basados en la correlación ítem-test. El
indicador D es muy fácil de aplicar, pero normalmente no utiliza toda la información de la
muestra, pues sólo entran en su cálculo los evaluados que pertenecen al subgrupo superior
o inferior y se aplica sólo a ítems dicotómicos. Los indicadores de discriminación basados
en la correlación ítem-test pueden aplicarse a ítems dicotómicos y no dicotómicos, a tests
de rendimiento óptimo y típico, y la muestra completa participa en su cómputo.
El índice de discriminación del ítem j basado en la correlación ítem-test, rjX, se define
como la correlación de Pearson entre las puntuaciones en el ítem y en el test. Se le suele
llamar correlación ítem-test.

Ejemplo 2.3. Obtención de la correlación ítem-test en ítems politómicos

Hemos aplicado un test de Satisfacción con los estudios universitarios. En la Tabla 2.6 se
muestran las puntuaciones de 4 estudiantes en dos ítems del test y en el test completo X.
El ítem 1 es Organizo actividades extracurriculares y el 2 es Asisto a clase. Ambos tienen
cinco posibles respuestas, puntuadas de 1 (Muy infrecuentemente) a 5 (Muy frecuentemen-
te).
La correlación ítem-test del ítem 1, que se obtiene calculando la correlación de Pear-
son entre las columnas 1 y 3, es r1X = 0,638. La del ítem 2, que resulta de correlacionar las
columnas 2 y 3, es r2X = 0,348.
Capítulo 2. Construcción de tests y análisis de ítems 45

Tabla 2.6. Puntuaciones en 2 ítems


X1 X2 X
3 2 40
2 3 35
5 5 37
1 1 32

En el caso de un ítem dicotómico, podemos obtener la correlación ítem-test por tres pro-
cedimientos:

1. El primero consiste en obtener la correlación de Pearson entre la columna de puntua-


ciones en el ítem y la de puntuaciones en el test, como en el Ejemplo 2.3.
2. La correlación de Pearson entre una variable dicotómica y una continua recibe el nom-
bre de correlación biserial puntual (Amón, 1984). Por tanto, un segundo procedimiento
consiste en hallar la correlación biserial puntual, rbp, entre el ítem y el test:

X p − Xq
rbp = pq [2.6]
SX

Donde X p y X q son las medias en el test de los que acertaron el ítem y de los que no lo
acertaron, SX es la desviación típica en el test y p es la proporción de evaluados que
acertó el ítem. Por último, q = 1 – p.
3. Un tercer procedimiento cuando el ítem es dicotómico es la correlación biserial, rb. Se
puede aplicar cuando una variable es continua (puntuaciones en el test) y otra es di-
cotómica (el ítem), pero la variable dicotómica se considera como el resultado de dico-
tomizar una variable continua. La correlación biserial es una estimación de lo que sería
la correlación de Pearson entre ambas variables continuas (Amón, 1984).

X p − X q pq
rb = [2.7]
SX y

El único elemento nuevo, y, es la ordenada que corresponde en la distribución normal a


la puntuación que deja a su izquierda la probabilidad p.
La correlación biserial puntual, en valor absoluto, es menor que la biserial para unos
mismos datos. De hecho, rbp < 0,8rb (Lord y Novick, 1968, p. 340).

Cuando un test tiene un número pequeño de ítems, resulta más apropiado obtener la corre-
c
lación ítem-test corregida, r jX , o correlación del ítem con el resto del test. Consiste en
correlacionar las puntuaciones en un ítem con las puntuaciones en el total del test después
de restarle las puntuaciones del ítem cuyo indicador queremos obtener. La correlación en-
tre un ítem y el resto del test suele ser inferior a su correlación ítem-test, pues en este caso
46 Medición en Ciencias Sociales y de la Salud

se correlaciona una variable (el ítem) con otra (el test) en la que la primera variable está
contenida. La correlación entre el ítem y el test puede ser artificialmente alta, por lo indi-
cado, especialmente cuando el test tiene pocos ítems. Izard (2005) considera que el efecto
es despreciable cuando el test tiene más de 20 ítems.

Ejemplo 2.4. Obtención de las correlaciones ítem-test e ítem-resto del test5

Hemos aplicado un test de cuatro ítems a cinco estudiantes. Sus puntuaciones se muestran
en la Tabla 2.7.

Tabla 2.7. Puntuaciones en 4 ítems de un test


X1 X2 X3 X4 X
0 1 1 0 2
1 1 1 1 4
1 0 1 1 3
0 1 1 1 3
1 1 0 1 3

La correlación de Pearson entre el ítem X1 y el test X es 0,645. Aplicando la fórmula [2.6]


se llega al mismo resultado:

X p − Xq (10 3) − (5 2) (3 5)(2 5) = 0,645


rbp = pq =
SX 0,4

Para X1, la correlación biserial es:

X p − X q pq (10 3) − (5 2 ) (3 5)(2 5)
rb = = = 0,819
SX y 0,4 0,3863

Comprobamos que rbp < 0,8rb = (0,8)(0,819) = 0,655.


Sumando las puntuaciones en los ítems 2, 3 y 4, podemos obtener las puntuaciones en
el resto del test para el ítem 1. Al correlacionar el ítem 1 con el resto del test para ese ítem
(las puntuaciones de los cinco evaluados serían, respectivamente, 2, 3, 2, 3 y 2) se obtiene
la correlación ítem-test corregida o correlación ítem-resto del test para el ítem 1, que es
r1cX = −0,167. Nótese el fuerte descenso en el valor de la correlación (de 0,645 a –0,167),
pues el test tiene sólo 4 ítems.

5
Los indicadores propuestos se obtienen mediante los programas de ordenador que se describen en el Apéndice.
En el ejemplo 2.4 se detalla el cálculo de los indicadores para facilitar la comprensión de las fórmulas. El valor
de la ordenada y puede extraerse de las tablas de la curva normal (p. ej., Amón, 1984) o calcularse directamente.
Capítulo 2. Construcción de tests y análisis de ítems 47

Se han propuesto otros muchos indicadores de discriminación. Oosterhof (1976) comparó


19 de ellos tras aplicarlos a 50 ítems. Comprobó que la ordenación (en discriminación)
que hacían los 19 indicadores de los 50 ítems básicamente coincidía. De hecho, obtuvo
que la mayoría de las correlaciones entre los órdenes superaron el valor 0,90 (la menor
correlación fue 0,616). Veamos en el siguiente ejemplo la relación entre los cuatro
indicadores de discriminación que hemos descrito.

Ejemplo 2.5. Comparación entre los índices de discriminación

Hemos aplicado los cuatro índices de discriminación (D, correlación biserial, correlación
biserial puntual y correlación biserial puntual corregida) a los 14 ítems dicotómicos de un
test. La Figura 2.1 muestra los valores obtenidos.

Figura 2.1. Indicadores de discriminación de 14 ítems

La gráfica muestra que los tres indicadores de discriminación que se basan en la


correlación entre el ítem y el test (las líneas de trazo discontinuo) dan valores ordenados:
los valores más altos corresponden a la correlación biserial (B en la gráfica), los medios a
la biserial puntual (BP) y los menores a la biserial puntual corregida (BPC). El indicador
D (trazo continuo) en estos datos da valores similares a la biserial puntual. Al
correlacionar entre sí los valores de los 3 indicadores basados en la correlación, la menor
correlación es 0,96 (entre la biserial puntual y la biserial puntual corregida), lo que
muestra que la ordenacion de los 14 ítems sería básicamente la misma con cualquiera de
ellos. Las correlaciones de estos 3 indicadores con D son 0,88 (con la biserial puntual
corregida), 0,91 (biserial) y 0,96 (biserial puntual). Por tanto, en este ejemplo, se confirma
la conclusión alcanzada por Oosterhof (1976) en el sentido de que los distintos
indicadores aplicados a unos mismos ítems producen una ordenación similar de sus
capacidades de discriminación.
48 Medición en Ciencias Sociales y de la Salud

Propiedades de las correlaciones ítem-test e ítem-resto del test

1. La correlación de Pearson (y, por tanto, la correlación biserial puntual) toma valores
entre –1 y 1. La correlación biserial puede valer más de 1 o menos de –1. Los indicado-
res de la discriminación basados en las correlaciones ítem-test nos informan de si el
ítem está midiendo lo mismo que la prueba globalmente; es decir, del grado en que el
ítem contribuye a medir lo mismo que mide el test. Los ítems con correlaciones nulas
miden algo diferente a lo que refleja la prueba en su conjunto. Si con el test se pretende
evaluar un rasgo o constructo unitario, debiera considerarse la posible eliminación de
los ítems con correlaciones próximas a cero.
Cuanto más se acerque a 1 el índice, mejor discrimina el ítem entre los que tienen pun-
tuaciones altas y bajas en el test. En el Ejemplo 2.3 vimos que la correlación ítem-test
del ítem Organizo actividades extracurriculares es mayor que la del ítem Asisto a clase
regularmente, por lo que el primer ítem discrimina mejor entre los que tienen alta y ba-
ja satisfacción con los estudios que el segundo. Es decir, la satisfacción con los estu-
dios se relaciona más con la organización de actividades extracurriculares que con la
asistencia a clase.
2. Cuando la correlación ítem-test es negativa y de entidad, debemos cuestionar la cuanti-
ficación que se ha aplicado al ítem. Se ha podido proponer como opción correcta una
que no lo es, o se ha podido tomar el ítem como directo cuando es inverso, o viceversa.
3. Crocker y Algina (1986) proponen que se tome como criterio mínimo de retención del
ítem que la correlación sea significativamente distinta de cero. Dado que una correla-
ción de Pearson puede considerarse significativa cuando rxy N > z1−α / 2 , (Pardo,
Ruiz y San Martín, 2009, p. 350), con una muestra de 100 personas y nivel de confian-
za del 95%, se llega a la referencia 0,206. Valores de r menores de 0,2 nos llevarían a
descartar el ítem. Schmeiser y Welch (2006) coinciden en que para un test normativo
son deseables índices de discriminación superiores a 0,2. Kehoe (1995) fija la referen-
cia en 0,15.

Ejemplo 2.6. Ejemplo de posible cuantificación incorrecta

En una escala de Romanticismo, que hicieron nuestros estudiantes como práctica para
aprender a construir un test de rendimiento típico, las correlaciones ítem-test corregidas de
varios ítems se muestran en la Tabla 2.8. Se indica también qué ítems consideraron direc-
tos e inversos (D e I). Las correlaciones que se exponen son las halladas tras recodificar
los ítems inversos, como se indicó en el apartado sobre cuantificación de las respuestas.

6
De rxy√100 > z0.975 = 1,96, se sigue que rxy > 0,196 ≈ 0.20.
Capítulo 2. Construcción de tests y análisis de ítems 49

Tabla 2.8. Correlaciones ítem-test corregidas de 5 ítems


Escala de Romanticismo rc
D El amor es la razón de mi vida 0,60
I Preferiría que él/ella se me declarara por teléfono y sin rodeos 0,10
D Siempre que puedo, suelo sorprenderle con detalles inesperados 0,58
D Si me invita la primera noche a su casa, no vuelvo a mirarle a la cara –0,27
I Nunca me identifico con personajes de películas o cuentos 0,47

Tres ítems, dos directos y uno inverso, tienen valores altos de la correlación entre el ítem
y el resto del test (mayores de 0,47). Según el enunciado de los ítems, vemos que los muy
románticos están de acuerdo en que el amor es la razón de sus vidas y que siempre que
pueden sorprenden con regalos. Los muy románticos están en desacuerdo con el último
ítem, pues es inverso. Hay que entender entonces que se identifican con personajes de
películas y cuentos. El índice ítem-resto del test es cercano a cero (0,1) en el segundo
ítem, lo que indica que los muy románticos no estarían especialmente de acuerdo ni en
desacuerdo con ese ítem. De hecho, ¿por qué habrían de preferir los muy o poco románti-
cos la declaración por teléfono? Por último, en un ítem, considerado por los estudiantes
directo, se obtiene una correlación ítem-resto del test negativa y de cierta entidad (–0,27).
Los estudiantes consideraron, al etiquetar el ítem como directo, que las personas muy
románticas debían estar de acuerdo con el enunciado y recibir con disgusto una invitación
a subir a casa al poco de conocerse. El análisis psicométrico revela que en la muestra en la
que se aplicó el test (estudiantes universitarios) no es así, sino al contrario. En este caso
convendría plantearse considerar el ítem como inverso y repetir el análisis psicométrico de
todos los ítems tras recodificarlo como inverso.

Índice de validez
A veces aplicamos tests no tanto porque estemos interesados en evaluar directamente el
constructo que el test mide, sino porque sabemos que sus puntuaciones predicen bien una
variable que interesa pronosticar. En un proceso de selección de personal, podemos apli-
car un test de Responsabilidad no porque estemos directamente interesados en conocer las
puntuaciones de los candidatos, sino porque se sabe (Salgado y Moscoso, 2008) que las
puntuaciones en Responsabilidad ayudan a predecir el desempeño laboral. En el tema 5
estudiaremos los detalles dentro del apartado sobre evidencias de validez referida al crite-
rio. Se suele llamar criterio a la variable que queremos predecir y nos solemos referir a
ella con la letra Y.
Se llama índice de validez de un ítem j, rjY, a la correlación7 entre las puntuaciones en
el ítem y el criterio externo Y. Por ser rjY un coeficiente de correlación, toma valores entre
–1 y 1, y elevado al cuadrado indica la proporción de la varianza de Y que puede explicar-

7
Lo ordinario es aplicar la correlación de Pearson, pero en ocasiones otras correlaciones pueden resultar más
apropiadas para indicar la relación entre el ítem y el criterio. Si no se especifica nada más, se entiende que
hablamos de la correlación de Pearson.
50 Medición en Ciencias Sociales y de la Salud

se por el ítem8. Cuanto más alejado de cero esté, más fuerte es la relación y mayor la ca-
pacidad predictora del ítem en relación al criterio Y. La capacidad predictora del ítem no
depende del signo de la correlación. Si el índice de validez de un ítem con un criterio de
Puntualidad fuese positivo (de 0,25, por ejemplo), es muy posible que el índice de validez
de ese mismo ítem con otro criterio, como Absentismo laboral, sea negativo; dada la rela-
ción inversa que cabe esperar entre Puntualidad y Absentismo.

Ejemplo 2.7. Cálculo del índice de validez

Supongamos que las puntuaciones de 5 personas en Desempeño laboral son las que apare-
cen en la columna Y de la Tabla 2.9. Queremos construir un test de Responsabilidad que
pronostique las puntuaciones en el criterio Y. La tabla muestra además las puntuaciones de
las 5 personas en los tres ítems del test y en el test completo X.

Tabla 2.9. Puntuaciones de 5 evaluados en 3 ítems, el test X, y un criterio Y


X1 X2 X3 X Y
2 3 5 10 8
3 1 0 4 2
0 4 5 9 2
5 1 0 6 4
4 3 0 7 5

Calculando la correlación de Pearson entre cada ítem y la columna Y se obtienen los índi-
ces de validez, que son 0,167 (ítem 1), 0,195 (ítem 2) y 0,293 (ítem 3). El ítem 3 tiene una
relación más fuerte con el criterio que los otros dos.

El índice de validez informa de la relación entre el ítem y el criterio Y. El concepto análo-


go, pero referido al test, es el coeficiente de validez, que estudiaremos más adelante (tema
5). El coeficiente de validez de un test X en relación a un criterio Y, rXY, se puede obtener
mediante la expresión (Lord y Novick, 1968, p. 332):

∑S r
j =1
j jY

rXY = J
[2.8]
∑S r
j =1
j jX

8
Lo habitual es que el índice de validez de un ítem sea menor que sus índices de discriminación basados en la
correlación ítem-test, pues lo normal es que el ítem correlacione más con el test para el que se ha construido que
con un criterio externo. Los índices de validez suelen ser especialmente bajos (próximos a cero) cuando los ítems
son dicotómicos.
Capítulo 2. Construcción de tests y análisis de ítems 51

La expresión anterior permite obtener la capacidad predictora del test respecto al criterio Y
a partir de las propiedades (la desviación típica, la correlación ítem-test y el índice de va-
lidez) de los J ítems que forman el test. Nos puede facilitar la selección de los ítems que
más ayuden a construir un test con máxima capacidad predictiva del criterio Y.

Ejemplo 2.8. Relación entre el coeficiente de validez y los índices de validez

En el Ejemplo 2.7, si calculamos la correlación de Pearson entre las columnas X e Y, se


obtiene el coeficiente de validez del test formado por los tres ítems, que es rXY = 0,580.

Tabla 2.10. Datos descriptivos para 3 ítems


Sj rjX rjY SjrjX SjrjY
X1 1,924 –0,588 0,167 –1,131 0,321
X2 1,342 0,827 0,195 1,110 0,262
X3 2,739 0,879 0,293 2,408 0,802

A partir de los datos de la tabla podemos comprobar que la fórmula [2.8] proporciona ese
mismo resultado:

∑S r
j =1
j jY
0,321 + 0,262 + 0,802
rXY = 3
= = 0,580.
− 1,131 + 1,110 + 2,408
∑S r
j =1
j jX

Siguiendo a Lord y Novick (1968) y a Muñiz (1992), entre otros, hemos definido el índice
de validez de un ítem como la correlación de Pearson entre el ítem y el criterio Y. otros
autores, por ejemplo Crocker y Algina (1986) y Gulliksen (1987), definen el índice de va-
lidez como dicha correlación multiplicada por la desviación típica del ítem. Análogamen-
te, estos autores definen el índice de fiabilidad del ítem como la correlación ítem-test mul-
tiplicada por la desviación típica del ítem. La fiabilidad de un test es un concepto psi-
cométrico que se estudiará en el tema siguiente y que nos indica su capacidad para dar
puntuaciones similares a personas con el mismo nivel en el rasgo. El índice de fiabilidad
de un ítem informa de la aportación del ítem a la fiabilidad del test. Por tanto, siguiendo
estas definiciones, el coeficiente de validez del test tiene en el numerador la suma de los
índices de validez de los ítems que forman el test y en el denominador la suma de los índi-
ces de fiabilidad. Es, por tanto, evidente que si queremos un test que pronostique bien el
criterio debemos seleccionar los ítems con altos índices de validez y/o bajos índices de
fiabilidad. La situación es paradójica (Muñiz, 1992), pues nos indica que podríamos con-
seguir mejorar la capacidad predictora de un test por la vía de seleccionar ítems que corre-
lacionen menos con el test total (es decir, disminuyendo una propiedad positiva de un test,
52 Medición en Ciencias Sociales y de la Salud

como es su fiabilidad). Lo expuesto muestra que no siempre los ítems con mayores índi-
ces de discriminación resultan los más apropiados a los objetivos específicos del test. Vis-
to de otro modo, al eliminar ítems con bajas correlaciones ítem-test, con el propósito de
maximizar la fiabilidad del test, seguramente afectaremos negativamente a su coeficiente
de validez (Izard, 2005).

Consideraciones adicionales sobre el análisis de ítems


Livingston (2006) y Schmeiser y Welch (2006) señalan otros asuntos a tener en cuenta pa-
ra un correcto análisis de ítems. El análisis de los ítems se complica en los tests de veloci-
dad. En los tests de rendimiento óptimo, si los evaluados no han tenido tiempo para dar
una respuesta meditada a todos los ítems, los que estén al final serán los que resulten más
afectados. En estos ítems tendremos respuestas meditadas y respuestas casi aleatorias, lo
que no ocurrirá en los que se encuentren al principio. El índice de dificultad por tanto re-
sultará afectado por la posición que ocupa el ítem en el test. En el apartado sobre formatos
y tipos de ítems se ha expuesto la norma a seguir para convertir los ítems sin respuesta en
ítems no alcanzados o en omisiones. El Ejemplo 2.9 muestra su impacto en los índices de
dificultad de los ítems.

Ejemplo 2.9. Índices de dificultad e ítems sin respuestas

La aplicación de la regla para considerar un ítem sin respuesta como omisión o como va-
lor perdido a los datos del Ejemplo 2.2 daría lugar a la Tabla 2.11. Hay tres ítems dejados
sin responder. En el caso del evaluado 4 sus dos ítems dejados sin responder siguen a su
única respuesta, luego habrían de clasificarse como ítems no alcanzados o valores perdi-
dos (y no se convertirían en errores). En el caso del evaluado 5, el ítem dejado sin respon-
der tiene detrás un ítem con respuesta y por tanto debe ser clasificado como omisión (y
convertido en error). Se indica en la tabla con la cuantificación de 0 entre paréntesis.

Tabla 2.11. Puntuaciones en 3 ítems


X1 X2 X3 X
1 1 0 2
1 0 0 1
0 1 1 2
1 - - 1
0 (0) 1 1

Los índices de dificultad de los ítems 1 y 3 no cambian, pero sí el del ítem 2, que pasará a
ser p2 =A2/N2= 2/4= 0,5, en vez de 0,67.
Capítulo 2. Construcción de tests y análisis de ítems 53

Otro asunto a considerar es el de la posible multidimensionalidad del test. Vamos a ver en


temas posteriores procedimientos para detectar si tras las puntuaciones en el test hay sólo
una dimensión (lo responsable que una persona es, por ejemplo), dos dimensiones (lo res-
ponsable y lo emocionalmente estable, por ejemplo) o más. En el caso de tests multidi-
mensionales tiene más sentido analizar conjuntamente los ítems que se relacionan con ca-
da dimensión, que un análisis conjunto de todos ellos. En el caso de tests educativos, Ke-
hoe (1995) recomienda explícitamente que sólo se haga el análisis conjunto de los ítems
que evalúen un material homogéneo (es decir, un material en el que es poco probable que
un estudiante lo haga bien en una parte y mal en otra). Si el material a evaluar no fuese
homogéneo, habría que hacer un análisis conjunto de los ítems de cada bloque homogéneo
de contenidos.
La estrategia anterior puede llevar a tener que hacer el análisis de un conjunto muy re-
ducido de ítems, lo que también plantea problemas. Para Livingston (2006), un análisis de
20 ítems puede ser adecuado; pero de 10, quizás no. Cuando hay pocos ítems el impacto
de uno en el test puede ser fuerte. Hemos visto procedimientos para corregir ese impacto,
como la correlación ítem-test corregida, pero este indicador tiene el inconveniente de que
se correlaciona cada ítem con un test diferente (el test menos el ítem del que estamos
hallando el indicador), lo que dificulta la comparación de los índices de los distintos
ítems.
Otro asunto a tener en cuenta es la presencia de ítems de baja calidad en el test. Si un
test tiene sólo algún ítem deficiente, la correlación del ítem deficiente con el test nos dirá
que efectivamente lo es. Si el test tuviese muchos ítems deficientes, la correlación podría
no decir demasiado, ¡podría incluso informar erróneamente de la calidad de los buenos
ítems! En los procedimientos para el estudio del funcionamiento diferencial de los ítems
es habitual generar una medida del constructo de interés que se va progresivamente depu-
rando; es decir, de la que se van eliminando los ítems que parecen no medir lo que miden
los demás. Algo similar cabría hacer en el análisis de ítems, para que la medida del cons-
tructo no esté contaminada por los ítems deficientes.
Un último asunto tiene que ver con las características de la muestra de evaluados en la
que obtenemos los indicadores. Preparamos un examen, lo aplicamos y hacemos el co-
rrespondiente análisis de ítems. ¿Estamos seguros de que un ítem que resulte fácil (al co-
rresponderle, por ejemplo, un valor p = 0,80) volverá a ser fácil si lo volviésemos a apli-
car? ¿Estamos seguros de que un ítem con una correlación ítem-test negativa volverá a ob-
tener un índice negativo en otra aplicación? La respuesta a estas preguntas requiere, al
menos, dos consideraciones. La primera es que cabe sólo esperar valores similares cuando
las dos muestras de estudiantes tengan características similares. Si una muestra tuviese un
nivel alto de conocimiento y otra un nivel bajo, evidentemente, no cabe esperar que el
índice de dificultad de un ítem sea igual en ambas aplicaciones. Aceptando que las dos
muestras tengan similares características, hay que tener en cuenta el tamaño de la muestra.
El índice de dificultad, el de discriminación, etc. son indicadores que fluctúan muestral-
mente. Supongamos, por ejemplo, que un ítem de Matemáticas tiene un índice de dificul-
tad de 0,6 al ser aplicado a todos los estudiantes de la Comunidad de Madrid. Si lo aplicá-
semos a dos muestras de 100 estudiantes extraídos al azar de la citada población, muy
probablemente no obtendremos que sea acertado por un mismo número de estudiantes en
ambas muestras. Es probable que en ninguna de las dos sea acertado exactamente por 60
estudiantes. Los posibles valores del índice de dificultad vendrían determinados por la dis-
tribución muestral de la proporción. Por lo tanto, cuanto menor sea el tamaño de la mues-
54 Medición en Ciencias Sociales y de la Salud

tra en la que se aplica el test, menos debemos fiarnos de los particulares valores de los in-
dicadores, y tanto más probable es que, de haber aplicado el test a otra muestra, obtenga-
mos resultados diferentes.
En un estudio de simulación9 hemos comprobado que cuando se aplica un test de 20
ítems a muestras de 50 personas simuladas extraídas de la misma población los índices de
dificultad de los ítems de una muestra difieren poco de los obtenidos en las demás. Esto
no ocurre, sin embargo, con las correlaciones ítem-test corregidas. De hecho, para que las
correlaciones ítem-test corregidas sean similares en distintas muestras, deben estar forma-
das al menos por 400 personas simuladas.
Conviene, por tanto, que la muestra en la que aplicamos el test tenga un tamaño razo-
nable si se quiere extrapolar a otras aplicaciones los resultados obtenidos en un análisis de
ítems. Morales (2009) recomienda muestras de 400 estudiantes o más. Crocker y Algina
(1986) sugieren que no tengan menos de 200 evaluados y recomiendan, si el tamaño
muestral lo permite, que se haga el análisis de ítems sobre una mitad de la muestra y se in-
forme de los indicadores de los ítems y del test con los datos de la otra mitad10.
Burton (2001a) concluye que tanto el índice D como las correlaciones ítem-test son
muy poco estables, a no ser que se obtengan en muestras mucho mayores de las habituales
en los contextos educativos. Su utilidad debería limitarse a comprobar las características
de los ítems que resultan diagnosticados como muy buenos o muy malos. Estos últimos
son los más interesantes porque pueden revelar que hay algún error en la clave de respues-
tas. Concluye que hay que quitar importancia a la discriminación de los ítems en la eva-
luación de la calidad de los exámenes.

Análisis de las opciones incorrectas de respuesta


En relación con el análisis de los ítems se encuentra también el estudio de los patrones de
respuesta que se dan a las diferentes opciones de los ítems de opción múltiple. Un modelo
muy simple, que desarrollaremos más extensamente en el apartado final de este tema, de
cómo una persona responde a un ítem de opción múltiple, supone que:

1. La persona conoce la opción correcta o no la conoce. Si la conoce, responde y acierta


necesariamente. Es decir, no se contempla la posibilidad de que conociendo la respues-
ta, por despiste u otras razones, pueda seleccionar una opción incorrecta.
2. Si no la conoce, tiene dos opciones: puede no responder o puede responder al azar entre
las K opciones disponibles. Es este caso, se supone que elige las opciones con equipro-
babilidad y por tanto la probabilidad de acierto es 1/K y la de fallo es (K – 1)/K.

Supongamos que 300 personas responden a un ítem de opción múltiple con 4 opciones (A,
B, C y D) siguiendo el modelo anterior. Supongamos que ninguno sabe la respuesta co-
rrecta (la B, en nuestro caso marcada con un asterisco). Según el modelo, cada evaluado
tendrá que responder al azar y la probabilidad de elegir cada opción es 1/4. Por tanto, el

9
Los detalles pueden solicitarse a los autores.
10
Ésta es una estrategia común de control de lo que se viene llamando “capitalización en el azar” o “sobre-
aprendizaje”. Tal estrategia reduce el efecto de las singularidades de la muestra en los valores de los indicadores.
Capítulo 2. Construcción de tests y análisis de ítems 55

número esperado de personas que deberá elegir cada opción es 300(1/4) = 75, como mues-
tra la siguiente tabla:

A B* C D
Frecuencia esperada 75 75 75 75

Supongamos que 100 de los 300 saben la respuesta. Según el modelo, esos 100 elegirán la
opción correcta, B. Los restantes 200, al no saber la respuesta, elegirán al azar una de las
cuatro opciones con equiprobabilidad. Las frecuencias esperadas de las 4 opciones se
muestran en la siguiente tabla:

A B* C D
Frecuencia esperada 50 100 + 50 50 50

Si supiesen 200 la respuesta correcta, la correspondiente tabla sería:

A B* C D
Frecuencia esperada 25 200 + 25 25 25

Por último, si los 300 saben la respuesta, la tabla resultante sería:

A B* C D
Frecuencia esperada 0 300 0 0

Por tanto, en un ítem en el que se responde según el modelo expuesto, debe ocurrir que: 1)
la alternativa correcta sea la más seleccionada, y 2) que las alternativas incorrectas lo sean
por un número similar de personas. Estas dos circunstancias se cumplen exactamente en
las tablas precedentes. En la aplicación real de un ítem no cabe esperar que la frecuencia
de elección de las alternativas incorrectas coincida exactamente. Lo que sí debiera ocurrir
es que se dé aproximadamente el patrón descrito.

Ejemplo 2.10. Estudio de las opciones incorrectas de respuesta

Observemos los porcentajes de elección en las cinco opciones de tres ítems que se presen-
tan en la Tabla 12.2. El patrón de respuestas obtenido para el ítem 1 es adecuado, pues la
mayor parte de la muestra selecciona la alternativa correcta, mientras que las incorrectas
son seleccionadas por un porcentaje parecido de personas. El ítem 2 no sería muy adecua-
do, pues la muestra selecciona en mayor grado una alternativa incorrecta (la A) como co-
rrecta; al menos, debería pensarse en reformular esa alternativa incorrecta. En el ítem 3,
dos alternativas incorrectas apenas son seleccionadas, con lo que se consideran como al-
ternativas no funcionales. Habría que reformular esas dos opciones de respuesta.
56 Medición en Ciencias Sociales y de la Salud

Tabla 2.12. Porcentajes de elección de las opciones en 3 ítems


Opción correcta Porcentaje elección de las opciones
A B C D E
X1 B 17 40 14 13 16
X2 C 35 15 21 17 12
X3 A 60 1 21 18 0

Las opciones que no son elegidas tienen especial importancia, pues esos ítems tienen K
opciones, pero funcionalmente tienen menos. Esta situación plantea dudas sobre el proce-
der adecuado cuando hay que aplicar fórmulas que requieren especificar el número de op-
ciones; por ejemplo, a la hora de obtener el valor de p corregido por azar, aplicando la ex-
presión [2.3].
Un comentario sobre la adecuación al modelo expuesto. Hemos propuesto que hay que
elegir con cuidado los distractores. Hemos propuesto incluso que una buena estrategia es
proponer como distractores los errores que comenten los estudiantes. Por ejemplo, un ítem
de Matemáticas podría ser éste:

¿Cuál es el resultado de la operación 6 + (2–3)3?


a) –13
b) 5
c) 7

La opción correcta es la b. El distractor a resulta de la operación 6 + (23–33) y el distractor


c, de 6 + (1)3. Un test construido con ítems así permitiría conocer el nivel de cada estu-
diante en Matemáticas, pero no sólo eso. Los distractores elegidos darían pistas de qué no
saben, qué tienen los estudiantes mal aprendido. Pero, ¿no es esto contradictorio con el
modelo propuesto? Según el modelo, los evaluados que han elegido las opciones incorrec-
tas lo han hecho porque no sabían la respuesta correcta, han decidido no omitir y han res-
pondido al azar entre todas las opciones disponibles con equiprobabilidad. ¿Qué podemos
concluir cuando una opción no es elegida, o una lo es más que la opción correcta? Una
primera conclusión es que el modelo no se ha cumplido. Si los errores, como plantea el
modelo, son exclusivamente resultado de las respuestas al azar, no se puede explicar que
una opción no sea elegida por nadie y otra, por muchos.
Un modelo alternativo es que los estudiantes, cuando se penalizan los errores, no res-
ponden al azar sino que eligen la opción que creen correcta. Algunos eligen la realmente
correcta, y otros, que saben menos, eligen la opción incorrecta que consideran correcta.
Según este modelo, es posible que en una pregunta difícil sólo unos pocos elijan la opción
correcta y la mayoría se decante por las distintas opciones incorrectas, que no necesaria-
mente habrían de ser igual de atractivas. Cada distractor plantea una solución considerada
correcta por los que saben poco y la frecuencia de elección de cada una indicaría qué pro-
porción de estudiantes tiene el correspondiente aprendizaje incorrecto. Por tanto, no cabe
esperar que la proporción de evaluados que tengan el conocimiento erróneo que les lleva
al distractor a tenga que ser similar que la proporción de los que tengan el aprendizaje in-
correcto que lleva al c, y tampoco que tenga que ser menor que la proporción de estudian-
Capítulo 2. Construcción de tests y análisis de ítems 57

tes que saben la respuesta correcta. Kehoe (1995) realiza las siguientes recomendaciones
en relación a cómo se ha de proceder tras el estudio de las opciones incorrectas: a) Hay
que reemplazar o eliminar los distractores que no son elegidos. b) No debiera preocupar-
nos que los distractores no sean elegidos por el mismo número de estudiantes, pues dife-
rentes tipos de errores pueden ser cometidos por distinto número de estudiantes. c) Que la
mayoría de los estudiantes falle un ítem no implica que deba ser cambiado, aunque los
ítems en los que ocurre esto debieran analizarse detenidamente. d) Hay que sospechar de
un ítem en el que un distractor es más elegido que todas las demás opciones juntas, en es-
pecial si la elección del distractor correlaciona positivamente con la puntuación en el test.
Los indicadores de discriminación vistos se pueden aplicar también a las opciones in-
correctas. El índice de discriminación D aplicado a cada distractor nos diría si hay dife-
rencia o no en la tasa de elección del distractor entre los subgrupos superior e inferior. Al-
go similar puede hacerse con los índices basados en la correlación ítem-test o ítem-resto
del test.

Ejemplo 2.11. Correlación ítem-test en el estudio de las opciones incorrectas

Los autores generamos el siguiente ítem de Razonamiento:

Descubra el elemento que sigue en la serie 0, 1, 10, 11, 100, 101, ¿?


a) 102
b) 200
c) 110
d) 1000

Aplicado el ítem a una muestra de N evaluados, conocemos la opción que cada uno ha
elegido y la puntuación en el test. Con estos resultados, podemos generar la Tabla 2.13.
La segunda columna contiene la opción elegida por cada evaluado.

Tabla 2.13. Opción elegida por cada evaluado y puntuación en el test


Evaluado Opción elegida a b c d X
1 a 1 0 0 0 30
2 d 0 0 0 1 23
3 b 0 1 0 0 32
4 a 1 0 0 0 25
5 c 0 0 1 0 37
6 c 0 0 1 0 12
7 b 0 1 0 0 19
. . . . . . .
. . . . . . .

N d 0 0 0 1 23

Las columnas a, b, c y d muestran un 1 y 3 ceros (1 en la columna que corresponde a la


opción elegida). La proporción de evaluados que eligió cada opción fue: 0,01 (a), 0,04 (b),
0,29 (c) y 0,56 (d). La correlación de las columnas 3, 4, 5 y 6 de la tabla con la puntuación
58 Medición en Ciencias Sociales y de la Salud

en el test, X, fue –0,09 (a), –0,12 (b), 0,07 (c) y 0,13 (d). Nótese que las proporciones y las
correlaciones serían los índices de dificultad y discriminación, respectivamente, si consi-
deramos cada opción como la opción correcta. El estudio de estos valores da pistas sobre
si la opción propuesta como correcta efectivamente lo es.
¿Qué nos dicen los anteriores resultados de la calidad del ítem? Los creadores del ítem
propusimos como opción correcta la d (la serie sería: 0, 1, 10, 11, 100, 101, 1000, 1001,
etc.). La correlación ítem-test de esa opción es positiva (0,13), aunque baja. Lo sorpren-
dente es que otra opción, en principio falsa, dio una correlación también positiva con la
puntuación en el test. Volvimos a leer el ítem y nos dimos cuenta de que la serie, si se en-
tiende expresada en código binario11, debe continuar con la opción c (110). Por tanto, la
opción c es también una opción correcta posible. El estudio de la discriminación de las
opciones del ítem nos ha indicado que tiene de hecho dos soluciones. Otro resultado de in-
terés es la escasa frecuencia de elección de los otros dos distractores. El ítem se aplicó en
una oposición, donde los candidatos se juegan un puesto de trabajo y muchos años de pre-
paración, y se penalizaban los errores. En estos contextos, los que no saben la respuesta
prefieren dejar el ítem en blanco a responder al azar. La proporción de omisión en este
ítem fue del 10%. Esta proporción pudo también haberse incrementado por los opositores
que se dieran cuenta de las dos soluciones posibles. La opción 1 no ha sido elegida casi
por nadie. En resumen, es un ítem manifiestamente mejorable o directamente descartable.

Análisis gráfico de ítems de opción múltiple


Una estrategia complementaria, más que alternativa, de hacer el análisis de ítems consiste
en recurrir a gráficos. Livingston (2006) y Dowing y Haladyna (1997) recomiendan esta
estrategia. Supongamos que tenemos un test formado por ítems de 3 opciones. Se puede
fácilmente obtener la gráfica que se muestra a continuación (Figura 2.2). Lo primero que
hacemos es dividir la muestra en varios subgrupos (por lo general, 5) con un número de
evaluados similar. En el ejemplo que sigue el primer subgrupo está formado por las per-
sonas que tienen las peores puntuaciones en el test (menores de 12); el segundo subgrupo,
por los que tienen las puntuaciones 13 ó 14; el tercero, por los que tienen puntuaciones en-
tre 15 y 17; el cuarto por los que tienen puntuaciones entre 18 y 20; y el quinto por las me-
jores puntuaciones (superiores a 20). Se ha procurado que en cada subgrupo haya alrede-
dor de un 20% de la muestra. En el eje de ordenadas se muestra la proporción de evalua-
dos del correspondiente subgrupo que ha elegido cada una de las tres alternativas y la
omisión. En la gráfica puede comprobarse que en el subgrupo con peor rendimiento en el
test, alrededor de un 46% ha dejado el ítem sin responder, alrededor de un 22% ha elegido
la opción 2, un 16% ha elegido la opción 1 y el restante 16% la opción 3. Similar informa-
ción se ofrece para cada uno de los cinco subgrupos.

11
Pues 0 en binario es, en decimal, 0; 1 es 1; 10 es 2; 11 es 3; 100 es 4; y 101 es 5. Por tanto, el término que si-
gue a 101 podría ser 110 (en decimal, 6), que aparece como opción c.
Capítulo 2. Construcción de tests y análisis de ítems 59

Figura 2.2. Elección de las opciones de un ítem en función de la puntuación en el test

Cada curva muestra cómo funciona la opción en los distintos subgrupos. En el caso de la
opción correcta, cabe esperar que sea tanto más elegida cuanto mayor sea la puntuación en
el test. Es decir, a la opción correcta deberá corresponder una curva creciente. La opción
especificada como correcta en el ítem es la opción 3. En las opciones incorrectas o distrac-
tores debe ocurrir lo contrario: la proporción de personas que elige el distractor debe ser
menor cuanto mayor es la puntuación en el test. Por lo tanto, cabe esperar curvas decre-
cientes. En la gráfica vemos que la curva es decreciente, aunque muy ligeramente, para el
distractor 1 y creciente para el distractor 2. Parece, por tanto, que el distractor 2 no está
funcionando bien y el 1 tampoco discrimina demasiado entre los que tienen puntuaciones
altas y bajas en el test. Discrimina mejor la omisión. Otra información útil que nos da la
gráfica es la proporción de elección de cada opción. Vemos que la opción 1 es muy poco
elegida (sólo pasa, y ligeramente, del 10% en el subgrupo de los que menos puntuación
han tenido en el test). Sin embargo, la proporción de omisión es la más alta en todos los
subgrupos menos el último (que es sobrepasada por la opción correcta).
En el análisis cuantitativo, los indicadores psicométricos de este ítem se presentan en
la Tabla 12.4. Se aprecia la alta proporción de omisiones y la baja tasa de elección del dis-
tractor 1. Los índices de discriminación de la opción correcta (marcada con un asterisco)
son más bien bajos (sólo uno de los dos supera y por poco el valor 0,2). El distractor 2
muestra indicadores de discriminación positivos, aunque muy bajos, cuando los debiera
dar negativos, como los da el distractor 1. En conjunto, puede decirse que la calidad del
ítem es baja.

Tabla 2.14. Indicadores de las 3 opciones y de la omisión


1 2 3* Omisión
Proporción de elección (p) 0,075 0,226 0,252 0,447
Correlación ítem-test (rjX) –0,127 0,032 0,224 –0,154
Índice de discriminación (D) –0,091 0,067 0,180 –0,156
60 Medición en Ciencias Sociales y de la Salud

Ejemplos de análisis de ítems


Se muestran tres ejemplos. El primero corresponde a un examen con preguntas de opción
múltiple; el segundo, a un test de rendimiento óptimo con preguntas abiertas; y el tercero,
a un test de rendimiento típico con ítems de categorías ordenadas.

Ejemplo 2.12. Análisis de un examen de opción múltiple

Hemos aplicado un examen de 14 ítems de opción múltiple (3 opciones) sobre los conte-
nidos de este tema a 87 estudiantes que cursaban la asignatura de Introducción a la Psico-
metría. Los estudiantes respondieron sabiendo que la calificación obtenida no tendría re-
percusión alguna en su nota final y con la instrucción de no dejar ítems sin responder.
El análisis psicométrico comienza con la creación del archivo de datos, que consta de
tantas filas como evaluados y tantas columnas como ítems. Para la obtención de los resul-
tados que siguen hemos utilizado los programas TAP (Brooks y Johanson, 2003) y SPSS.
Unos primeros datos de interés tienen que ver con la distribución de frecuencias de las
puntuaciones en el test de los 87 estudiantes. El número medio de aciertos ha sido 9,149,
el 65,4% de los 14 aciertos posibles. En proporción, 0,65 es también la media de los índi-
ces de dificultad p de los 14 ítems. Este valor incluye los aciertos que puedan haberse ob-
tenido respondiendo al azar. En este test la consideración es relevante, pues pedimos a los
estudiantes que no dejasen respuestas sin contestar. Aplicando la fórmula [2.3], obtene-
mos la proporción media de acierto corregida, pc = 0,65 – (1 – 0,65)/2 =0,48, que queda
muy cerca del valor 0,5 de referencia. Una primera conclusión del examen es que su nivel
de dificultad medio es apropiado. Por tanto, los ítems facilitan que el test tenga variabili-
dad. La varianza de las puntuaciones en el examen resultó ser 4,15.
La Tabla 2.15 muestra para cada ítem el índice de dificultad (p) y cuatro indicadores
de la discriminación: el índice de discriminación (D), la correlación biserial (rb), la corre-
lación biserial puntual (rbp) y la correlación biserial puntual corregida (rcbp).
El primer ítem ha sido acertado por 74 de los 87 estudiantes. El índice de dificultad p
es 0,85 (=74/87), el índice de discriminación D es 0,08. La correlación biserial es 0,31, la
biserial puntual ítem-test es 0,20 y la correlación biserial puntual corregida, o ítem-resto
del test, es 0,03. La tabla anterior proporciona similar información de los restantes 13
ítems. No se han obtenido índices de discriminación negativos, excepto la correlación
biserial puntual corregida del ítem 11. En todos los ítems la correlación biserial puntual
está por encima de 0,20. En general, los ítems no plantean problemas de discriminación,
aunque la correlación ítem-test corregida está muy cerca de cero en varios ítems.
Capítulo 2. Construcción de tests y análisis de ítems 61

Tabla 2.15. Resultados del análisis de 14 ítems de opción múltiple


Discriminación
Dificultad
Ítem p D rb rbp rbpc
1 0,85 0,08 0,31 0,20 0,03
2 0,78 0,38 0,51 0,37 0,17
3 0,87 0,10 0,34 0,21 0,05
4 0,63 0,31 0,36 0,28 0,05
5 0,48 0,46 0,52 0,41 0,18
6 0,70 0,47 0,55 0,42 0,21
7 0,28 0,46 0,55 0,41 0,20
8 0,82 0,19 0,30 0,21 0,02
9 0,62 0,22 0,36 0,28 0,04
10 0,60 0,31 0,37 0,29 0,05
11 0,63 0,22 0,27 0,21 –0,03
12 0,83 0,25 0,45 0,30 0,12
13 0,61 0,45 0,54 0,43 0,21
14 0,45 0,56 0,62 0,49 0,27

Analicemos las tasas de elección de las opciones incorrectas del ítem 4, que era:

“La Comunidad Valenciana tiene


a) más de 3 millones de habitantes, b) cinco aeropuertos, c) menos de tres millones de habitantes.”

¿Cuál es el principal fallo del ítem anterior?


1) Las opciones no están dispuestas verticalmente.
2) Da pistas sobre la respuesta correcta.
3) Evalúa sólo el recuerdo.

La Tabla 2.16 muestra la proporción de la muestra total que ha elegido cada una de las
tres opciones (primera fila), la proporción que ha elegido cada opción del subgrupo supe-
rior (segunda fila) y del subgrupo inferior (tercera fila). La cuarta fila contiene la diferen-
cia entre las proporciones que aparecen en las filas segunda y tercera (es decir, el índice
de discriminación D de cada opción). Las dos últimas filas muestran las correlaciones
ítem-test e ítem-resto del test si se toma cada opción como la opción correcta.
En la Tabla 2.16 comprobamos que la diferencia entre la proporción de acierto del
grupo superior e inferior (0,31) coincide con el valor del índice de discriminación D para
el ítem 4 en la Tabla 2.15. En el grupo completo la opción más elegida es la correcta (op-
ción 2). De las dos opciones incorrectas, la opción 1 es elegida por un 31% de los estu-
diantes, mientras que la 3 lo es sólo por el 6%. La opción 1 está funcionando como un
buen distractor, pues efectivamente en una de las recomendaciones expuestas en el apar-
tado Redacción de ítems de opción múltiple se afirma que hay que disponer las opciones
verticalmente, y ciertamente el ítem incumple esta recomendación. Los estudiantes de
mayor conocimiento seguramente saben que el ítem incumple esa recomendación, pero se
dan cuenta de que incumple otra más importante. Como está redactado el ítem, las opcio-
nes a y c son exhaustivas, pues la Comunidad Valenciana ha de tener más o menos de 3
millones de habitantes, por lo que la opción correcta no puede ser la opción 1. Por tanto, el
62 Medición en Ciencias Sociales y de la Salud

principal fallo del ítem es que da pistas sobre la opción correcta. El distractor 3 ha sido
muy poco elegido. Habría que cambiarlo por otro. La presencia de la palabra sólo ayuda
quizás a hacer poco plausible el distractor, pues es difícil que un ítem evalúe sólo algo. Se
podría cambiar ese distractor por La idea principal no está en el enunciado, que se refiere
a otra recomendación que el ítem incumple pero que es también menos importante que lo
indicado por la opción 2.

Tabla 2.16. Indicadores de las 3 opciones


1 2 3
Completo 0,31 0,63 0,06
27% Superior (ps ) 0,15 0,81 0,04
27% Inferior (pi ) 0,44 0,50 0,06
Diferencia (ps–pi ) –0,29 0,31 –0,02
rbp –0,25 0,28 –0,09
rbpc –0,04 0,05 –0,02

Al aplicar el indicador D a los dos distractores, vemos que al 1 corresponde un indicador


negativo de –0,29, mostrando que ha sido elegido preferentemente por los estudiantes del
subgrupo inferior. El valor de D en el otro distractor, el 3, está muy próximo a cero. En
cualquier caso, sólo 5 personas de la muestra total han elegido esa opción. De esas 5, una
pertenece al subgrupo superior y dos al inferior. Cuando la frecuencia total de elección
del distractor es tan baja no es posible obtener diferencias de entidad entre los subgrupos.

Figura 2.3. Elección de las opciones de un ítem en función de la puntuación en el test

La Figura 2.3 muestra la proporción de estudiantes que ha elegido cada alternativa dentro
del subgrupo con puntuaciones bajas (33% de peores calificaciones en el test), medias
(33% de puntuaciones centrales) y altas (34% de puntuaciones mejores). Se han formado
sólo tres subgrupos por tener la muestra sólo 87 estudiantes. Se aprecia el adecuado fun-
cionamiento del distractor 1 y de la opción correcta 2. El distractor 3 apenas ha sido elegi-
do en ninguno de los subgrupos.
Capítulo 2. Construcción de tests y análisis de ítems 63

En todos los items la correlación biserial puntual y la biserial están por encima de la
referencia 0,20, lo que sugiere que ningún ítem requiere una revisión profunda. La Figura
2.4 muestra que de los cuatro ítems con menores valores de la biserial puntual, tres (ítems
1, 3 y 8) de ellos resultaron muy fáciles, con valores p superiores a 0,80. Como se ha
comentado anteriormente, resulta complicado que ítems muy fáciles o muy difíciles sean a
la vez discriminativos. Oosterhof (1976) encontró que cuanto más se aleja de 0,5 el índice
de dificultad p del ítem, menores suelen ser los índices de discriminación.

Figura 2.4. Relación entre los índices de dificultad y de discriminación

El análisis visto puede extenderse a un examen compuesto por J preguntas abiertas. En


ese caso, obtendríamos la media como indicador de la dificultad. Prestaríamos atención a
la varianza de cada pregunta. En principio, como ocurre en el caso de ítems dicotómicos,
los ítems que tienen más varianza son los que más ayudan a que el test tenga varianza. Por
tanto, una pregunta con varianza nula o casi nula, en la que la mayoría de los estudiantes
hayan obtenido la misma puntuación, no parece en principio una buena pregunta, aunque
también aquí cabe hacer la salvedad de que puede tener sentido mantener algunas pregun-
tas muy fáciles si se introducen para constatar el dominio de conocimientos fundamenta-
les. El indicador de la capacidad discriminativa de cada pregunta sería la correlación de
Pearson entre las puntuaciones en cada ítem y la puntuación en el test. Cabe también ob-
tener la correlación de Pearson entre las puntuaciones en la pregunta y en el resto del test,
si son pocas las preguntas. Si tenemos una medida en un criterio externo que nos interese
predecir, podríamos obtener el índice de validez de los ítems. En los dos ejemplos siguien-
tes se obtienen e interpretan todos estos indicadores con datos reales.

Ejemplo 2.13. Análisis de ítems abiertos

En la parte práctica de un examen el estudiante ha de responder a 8 preguntas abiertas,


puntuadas cada una entre 0 y 1. La nota en el examen práctico es la suma de las califica-
64 Medición en Ciencias Sociales y de la Salud

ciones en sus 8 ítems. La Tabla 2.17 muestra la media, la varianza y la correlación ítem-
resto del test de cada ítem. El número de estudiantes del examen ha sido 68.

Tabla 2.17. Resultados del análisis de 8 ítems


Correlación
Ítem Media Varianza
ítem-resto del test
1 0,79 0,10 0,06
2 0,37 0,11 0,26
3 0,12 0,09 –0,02
4 0,92 0,07 0,16
5 0,77 0,12 0,26
6 0,69 0,09 0,40
7 0,64 0,20 0,31
8 0,36 0,16 0,21

Se aprecia en la tabla que las preguntas han resultado muy diferentes en dificultad. La 4
ha resultado muy fácil (su media, 0,92, está muy cerca de la máxima puntuación posible,
1). La 3 ha resultado muy difícil (su media, 0,12, está cerca de cero). Los ítems 6 y 7 di-
fieren poco en dificultad (sus medias son 0,69 y 0,64), pero más en varianza. El ítem 7, en
principio, ayuda más que el ítem 6 a que la nota en el examen tenga variabilidad. La últi-
ma columna muestra que cinco de los ocho ítems correlacionan más de 0,20 con el resto
del test. En el ítem 4 la correlación está ligeramente por debajo de ese valor. En dos ítems
(1 y 3) la correlación es muy próxima a cero y esos ítems no parecen relacionarse con el
examen práctico en su totalidad.

Ejemplo 2.14. Análisis de ítems de categorías ordenadas

Los autores hemos elaborado una escala de 12 ítems para medir Estabilidad Emocional.
Cada ítem es un adjetivo y el evaluado debe indicar cómo de bien le describe, seleccio-
nando una de las 5 categorías disponibles (Muy mal, Mal, Ni bien ni mal, Bien, Muy bien).
Los principales resultados del análisis de ítems (media, desviación típica y correlación
ítem-test corregida) se muestran en la Tabla 2.18. Lo primero que llama la atención son
los valores tan elevados de las medias12. Cada ítem se puntuó entre 1 y 5 (ítems directos) o
entre 5 y 1 (ítems inversos). Por tanto, en los ítems directos, al obtenerse medias por en-
cima de 4, prácticamente todos los evaluados consideran que ser feliz, ser una persona
madura… una persona equilibrada les describe bien o muy bien. Igualmente, en los ítems
inversos, por superar las medias el valor 4, consideran que ser irritable, malhumorada… y
ser una persona con sentimientos de culpa les describe mal o muy mal. Las desviaciones
típicas son pequeñas, como cabe esperar cuando las medias son tan altas. Las correlacio-
nes de cada ítem con el resto del test son todas positivas, significativamente distintas de

12
Los datos se han obtenido en un proceso selectivo y muy probablemente las respuestas han sido parcialmente
falseadas (deseabilidad social) para acomodarse al perfil psicológico que demanda el puesto.
Capítulo 2. Construcción de tests y análisis de ítems 65

cero, y mayores de la referencia 0,2. Por tanto, todos los ítems tienen una adecuada dis-
criminación y están contribuyendo a medir lo que se pretende medir con el test. No pare-
ce, por tanto, que haya que reconsiderar o anular ninguno de los 12 ítems.

Tabla 2.18. Resultados del análisis de 12 ítems de categorías ordenadas


Correlación
Soy una persona… Media Desviación típica ítem-test
corregida
Feliz 4,39 0,583 0,423
Estable 4,43 0,559 0,586
Madura 4,28 0,537 0,521
Optimista 4,32 0,577 0,482
Equilibrada 4,43 0,576 0,571
Coherente 4,26 0,578 0,486
Irritable 4,33 0,614 0,542
Malhumorada 4,34 0,568 0,594
Miedosa 4,13 0,564 0,438
Envidiosa 4,31 0,611 0,491
Desanimada 4,35 0,596 0,574
Con sentimientos de culpa 4,25 0,794 0,381

Corrección de los efectos del azar


En los tests formados por ítems de opción múltiple podemos sobrestimar el nivel de ren-
dimiento de algunas personas, dado que algunos de sus aciertos han podido producirse por
haber respondido al azar, y no por saber la opción correcta. El problema entonces consiste
en establecer un procedimiento para descontar del número total de aciertos (X) los que su-
puestamente se han producido por haber respondido al azar (Xa).
Supongamos que dos estudiantes saben lo mismo y responden al mismo test, que con-
siste en 100 preguntas con formato verdadero-falso. Los dos saben 60 preguntas. El pri-
mero responde a las 60 preguntas que sabe y omite las 40 que no sabe. Su puntuación en
el test, su número de aciertos, será 60. El segundo estudiante responde a las 60 preguntas
que sabe y decide responder estrictamente al azar a las otras 40. Como cada una tiene dos
opciones, supongamos que acierta 20 de las 40. Pues bien, mientras que el primer estu-
diante tiene 60 aciertos (las preguntas que sabe), el segundo tiene 80 (las 60 que sabe y las
20 que ha acertado por haber respondido al azar). En este apartado vamos a proponer un
procedimiento que pretende eliminar del número total de aciertos los que presumiblemen-
te se deben al azar.
Ante un ítem, supondremos que la persona se encuentra en uno de dos estados de co-
nocimiento: en el estado conoce la respuesta o en el estado no conoce la respuesta. En el
primer estado supondremos que conoce la respuesta y acierta con probabilidad 1. Si se en-
cuentra en el segundo estado, tiene dos posibilidades: no responder o elegir al azar una de
las K opciones. Dado que el ítem tiene una sola opción correcta y que suponemos que to-
das las opciones son equiprobables cuando se responde al azar, la probabilidad de acierto
66 Medición en Ciencias Sociales y de la Salud

será 1/K y la de fallo será 1 – (1/K) = (K – 1)/K. La Figura 2.5 muestra las diferentes po-
sibilidades.

Figura 2.5. Estados de conocimiento y resultados en el ítem

Llamemos Ra al número de respuestas al azar que la persona da (es decir, al número de


ítems que ha contestado sin saber la respuesta). De las Ra respuestas, algunas serán acier-
tos aleatorios (Xa) y otras serán errores (E). Nuestro objetivo es obtener el valor de Xa para
descontarlo del número total de aciertos (X) que ha obtenido.
Respondiendo al azar, la probabilidad de fallar un ítem vimos que es (K – 1)/K. Si se
responde al azar a Ra ítems, el número esperado de errores (E) será:

K −1
E = Ra [2.9]
K

Si despejamos Ra de esta expresión, se obtiene:

K
Ra = E [2.10]
K −1

Siguiendo el mismo razonamiento, el número esperado de aciertos aleatorios cuando se


dan Ra respuestas al azar será:

1
X a = Ra [2.11]
K

Si realizamos las sustituciones oportunas, se obtiene:

K 1 1
Xa = E = E [2.12]
K −1 K K −1

La expresión anterior permite obtener Xa, a partir de los errores cometidos (E) y del núme-
ro de alternativas que tienen los ítems (K). Podemos observar que cada error se pondera
por la expresión 1/(K – 1), lo que significa que por cada error hay que descontar tantos
aciertos como indica ese cociente: en tests de 2 alternativas de respuesta, hay que descon-
Capítulo 2. Construcción de tests y análisis de ítems 67

tar 1 acierto por cada error; en ítems de 3 alternativas, 0,5 aciertos por cada error; en ítems
de 4 alternativas, 0,33 aciertos por cada error; y así sucesivamente.
La puntuación corregida de una persona en el test será:

E
X c = X − Xa = X − [2.13]
K −1

Si aplicásemos esta fórmula al ejemplo que planteamos al comienzo, tendríamos que, para
el primer estudiante,

E 0
Xc = X − = 60 − = 60
K −1 2 −1

Para el segundo,

E 20
Xc = X − = 80 − = 60
K −1 2 −1

La fórmula correctora deja a ambos estudiantes, que sabían lo mismo, con la misma pun-
tuación (60), que son por cierto los ítems que sabían.
La fórmula anterior se aplica cuando todos los ítems tienen igual número de opciones.
Si el número varía, un error en un ítem j de Kj opciones quitaría 1/(Kj – 1) aciertos (Frary,
1988). Por tanto, Xa sería la suma de los valores 1/(Kj – 1) de los ítems en los que se obtu-
vo un error.

Ejemplo 2.15. Obtención de las puntuaciones corregidas

Un test de conocimientos del nivel de inglés está formado por 140 ítems con 5 opciones
de respuesta cada uno. En la Tabla 2.19 se detallan el número de aciertos (X), errores (E) y
omisiones (O) que obtuvieron 3 evaluados. La última columna contiene sus puntuaciones
corregidas. Si atendemos únicamente al número de aciertos obtenidos, quien más inglés
parece saber es el evaluado 1, seguido del 2 y en último lugar el 3. Sin embargo, tras co-
rregir los efectos del azar, comprobamos que la corrección afecta al orden que estableci-
mos a partir de las puntuaciones sin corregir. Similarmente, si nos fijamos en la corrección
hecha para el evaluado 3, vemos que no se le ha descontado nada, pues no cometió ningún
error.

Tabla 2.19. Aciertos, errores, omisiones y puntuaciones corregidas


Evaluado X E O Xc
1 112 28 0 112 – 28/4 = 105
2 110 12 18 110 – 12/4 = 107
3 109 0 31 109 – 0/4 = 109
68 Medición en Ciencias Sociales y de la Salud

Haciendo así las cosas se está asumiendo que sólo se puede obtener un error cuando se
responde al azar. El modelo no contempla la posibilidad de error por descuido o por haber
aprendido algo mal, sino exclusivamente como resultado de una respuesta completamente
al azar entre las K opciones. Por tanto, si hay errores es que ha habido respuestas al azar.
Según la fórmula [2.13], a partir del número observado de errores puede obtenerse el
número de aciertos que han debido producirse por azar y ese valor se resta del total de
aciertos. Se pueden plantear otros modelos alternativos al expuesto en la Figura 2.5, de
cómo los evaluados responden a los ítems de opción múltiple. De hecho, no es infrecuente
que los alumnos salgan de un examen diciendo que no han dado una sola respuesta al
azar y sin embargo obtienen errores. Esto ocurre porque consideran correctas opciones
que no lo son. En cualquier caso, lo que es evidente es que inferir el número de aciertos
debidos al azar a partir de estos errores es incorrecto, pues no se han generado por haber
respondido al azar. En el apéndice de este tema se describe otra fórmula para la corrección
de los efectos del azar.
¿Hay que aplicar o no las fórmulas correctoras? No hay duda de que se ha de avisar al
evaluado de si se va a aplicar o no alguna fórmula y de sus detalles, en su caso. No hay
tanto acuerdo en relación a si es adecuado aplicarlas o no. Conviene tener en cuenta las
consideraciones que se exponen a continuación.
Lo que hace la fórmula correctora es eliminar los aciertos que se obtienen al responder
completamente al azar. En ese sentido, quien responde sólo a lo que sabe y quien respon-
de a lo que sabe y a lo que no (y a estas preguntas completamente al azar) deberá esperar,
tras la aplicación de la fórmula correctora, la misma puntuación. Por lo tanto, si se aplica
la fórmula descrita, debiera no importar dar respuestas al azar, pues se espera obtener el
mismo número de aciertos. Supongamos que estamos ante un ítem de cinco opciones. Si
alguien responde completamente al azar, la probabilidad de acierto es 0,20 y de fallo 0,80.
Al aplicar la fórmula, por cada error el número de aciertos queda reducido en ¼ = 0,25. Si
esto lo hace en los 20 ítems de un examen, su número esperado de aciertos y de errores es
20(0,20) = 4 y 20(0,8) = 16, respectivamente. Al aplicar la fórmula correctora [2.13],
tendríamos que Xc =4 – 16/4 = 0. Supongamos que alguien sabe que una de las opciones
no es correcta. En ese caso, si responde completamente al azar entre las demás, la probabi-
lidad de acierto es 0,25 y la de fallo es 0,75. Si, por ejemplo, en 20 preguntas responde al
azar entre cuatro opciones, pues tiene la seguridad de que una de las opciones no es co-
rrecta, el número esperado de aciertos por azar en esas 20 preguntas será (20)(0,25) = 5 y
el de errores (20)(0,75)= 15. Sin embargo, al aplicarle la fórmula correctora, el número
esperado de aciertos que se le quitarán serán (15)(0,25) = 3,75. Es decir, se le quitarían
menos aciertos (3,75) de los que esperaría (5). Supongamos que puede descartar dos op-
ciones en cada ítem. En ese caso, si responde completamente al azar entre las demás, la
probabilidad de acierto es 1/3 y la de fallo es 2/3. Si, por ejemplo, en 20 preguntas res-
ponde al azar entre las tres opciones, pues tiene la seguridad de que dos de las opciones no
son correctas, el número esperado de aciertos por azar en esas 20 preguntas será
(20)(1/3) = 6,7, y el de errores será (20)(2/3)=13,3. Al aplicarle la fórmula, el número de
aciertos que se le quitarían sería (13,3)(0,25) = 3,32, que es inferior al número esperado de
aciertos (6,7). Vuelve a resultar interesante responder al azar entre las tres opciones.
En conclusión, si no se puede descartar ninguna opción, la fórmula te va quitar, en
promedio, lo que ganes por haber respondido al azar. Si se tiene seguridad de que alguna
opción es incorrecta, el número de aciertos esperado es mayor que el número de aciertos
que la fórmula resta si se responde al azar entre las opciones no descartadas. Este resulta-
Capítulo 2. Construcción de tests y análisis de ítems 69

do es importante, pues muestra que la aplicación de la fórmula correctora NO elimina to-


dos los aciertos que puedan haberse producido por responder al azar. Elimina todos los
aciertos cuando se responde al azar entre todas las opciones, pero no cuando se elimina
alguna porque se conoce que es falsa.
Entre los especialistas no existe acuerdo sobre el tipo de instrucciones que se tienen
que dar, por ejemplo, en un examen con preguntas de opción múltiple. Cuando un estu-
diante no sabe lo suficiente para aprobar, la mejor estrategia que puede seguir es respon-
der al azar a las preguntas que no sabe, por si pudiera, por puro azar, obtener el número de
aciertos requerido para aprobar. La recomendación general de “no responder al azar” no
es la adecuada para estos estudiantes y cabe plantearse si puede darse como instrucción
general cuando no es apropiada en algunas situaciones (Frary, 2008). Este autor concluye
que: “…es difícil recomendar una fórmula correctora de los aciertos obtenidos por las
respuestas dadas al azar en los exámenes de opción múltiple habituales en la universi-
dad… Lo más justo es recomendar a todos los estudiantes que lo mejor para ellos es con-
testar a todas las preguntas sea cual sea su nivel de conocimientos”.
Otros autores (Burton y Miller, 1996; Burton 2001b, 2004) están a favor de aplicar las
fórmulas correctoras, porque son eficaces en la reducción de las respuestas al azar, indi-
cando a los evaluados la reducción que se va a aplicar por cada error. Burton (2001b) pro-
pone que se aplique la Fórmula [2.13] a pesar de que no corrija adecuadamente los acier-
tos atribuibles a las respuestas al azar, precisamente porque reduce o elimina dichas res-
puestas y porque considera deshonesto instruir a los evaluados para que respondan a lo
que no saben. Otra ventaja de intentar evitar las respuestas al azar es que, desde un punto
de vista instruccional, las respuestas erróneas son informativas de lo que un estudiante no
ha llegado a aprender. Cuando fomentamos las respuestas al azar, se pierde esta valiosa
información (Burton, 2004).
70 Medición en Ciencias Sociales y de la Salud

Apéndice

Segunda fórmula correctora

Traub, Hambleton y Singh (1969) propusieron una segunda fórmula que premia las omisiones en
vez de penalizar los errores. En un test de J ítems de opción múltiple de K opciones, con sólo una
opción correcta, una persona obtiene X aciertos, O omisiones y E errores. En un ítem, si en vez de
omitir se hubiese respondido al azar, la probabilidad de acierto sería 1/K. De haber hecho esto mis-
mo en los O ítems omitidos, el valor esperado de aciertos en los O ítems sería O(1/K)=O/K. Se pro-
pone como segunda fórmula la siguiente:

O
X 2c = X + [2.16]
K

La segunda fórmula añade los aciertos que cabe esperar obtener si se responde completamente al
azar a los ítems de los que no se sabe la respuesta correcta, en vez de quitar los aciertos que se su-
ponen obtenidos por haber respondido al azar. Es evidente que las puntuaciones corregidas obteni-
das por la segunda fórmula por lo general serán más altas que las obtenidas por la primera.
La Tabla 2.20 se ha construido a partir de los datos de la Tabla 2.19, que incluye el patrón de re-
sultados de 3 evaluados en un test de 140 ítems de 5 opciones de respuesta.

Tabla 2.20. Aciertos, errores, omisiones y puntuaciones corregidas


Evaluado X E O Xc X 2c

1 112 28 0 105 112 + 0/5 = 112


2 110 12 18 107 110 +18/5 = 113,6
3 109 0 31 109 109 + 31/5 = 115,2

Se aprecia que las tres personas están ordenadas de la misma manera en ambas fórmulas correctoras.
Es más, si representamos gráficamente las puntuaciones de las tres personas según las dos correc-
ciones, vemos (Figura 2.6) que están en la misma recta:

Figura 2.6. Relación lineal entre las dos fórmulas correctoras


116

115
Xc2 = X + O/K

114

113

112

111
104 106 108 110
Xc = X - E/(K-1)
Capítulo 2. Construcción de tests y análisis de ítems 71

La relación observada se cumple siempre, pues existe una relación lineal entre los valores que se ob-
tienen con ambas fórmulas:

O J −X −E X E J  K −1 E J
X 2c =X+ =X+ = X − − + = X − +
K K K K K  K  K K
  K − 1  K  E  K  J  K   K − 1
=  X   −  +   
  K  K − 1  K  K − 1  K  K − 1   K
 E J  K  K −1
=  X − +  
 K − 1 K  K − 1   K
K −1 c J
= X +
K K

Ambas fórmulas son equivalentes, pues ordenan a las personas exactamente de la misma manera.
Las puntuaciones obtenidas son, sin embargo, muy diferentes. La fórmula que premia las omisiones
otorga puntuaciones más altas que la que penaliza los errores. Por tanto, a la hora de interpretar las
puntuaciones habrá que tener esto en cuenta. No parece que pueda ponerse, por ejemplo, el mismo
punto de corte de aprobado si se aplica una u otra. Algunos autores plantean que, desde un punto de
vista ético, parece mejor estrategia premiar la omisión cuando no se sabe, que castigar lo que se
quiere evitar (Frary, 2008).
Hemos visto que esas posiciones relativas de los evaluados son las mismas cuando se aplica una
u otra fórmula. La relación de X c y X 2c con la puntuación sin corregir, X, requiere algún comenta-
rio adicional.
Es fácil ver que existe una relación lineal perfecta entre X c y X cuando no hay omisiones.

E J−X X J  K  J
Xc = X − =X− =X+ − = X −
K −1 K −1 K −1 K −1  K −1 K −1

Como existe una relación lineal entre X c y X 2c , se sigue que también la hay entre X 2c y X. Por lo
tanto, la posición relativa de las personas es la misma cuando son puntuadas con las dos fórmulas
correctoras y la misma que se obtendría tomando la puntuación sin corregir, en el caso de que no
hubiera omisiones. La relación entre la puntuación sin corregir y la corregida en el caso general,
cuando hay omisiones, es de un fuerte componente lineal, pero no cabe esperar una relación lineal
perfecta. La Figura 2.7 muestra los resultados de 80 estudiantes en un test de 14 ítems. Se obtuvo el
siguiente diagrama de dispersión entre las puntuaciones corregidas Xc y las puntuaciones sin corre-
gir X. La correlación entre ambas es de 0,971.
72 Medición en Ciencias Sociales y de la Salud

Figura 2.7. Relación entre el total de aciertos, X, y la puntuación corregida, Xc

Programas de ordenador para el análisis de ítems

Son muchos los programas disponibles para la realización del análisis clásico de ítems. Algunos son
además de libre distribución. A continuación se detallan las principales características de algunos y
cómo pueden conseguirse.
TAP (Brooks y Johanson, 2003) es un programa de libre distribución. Proporciona para cada
ítem los índices de dificultad (p), discriminación (D), correlación biserial (rb), correlación biserial
puntual (rbp) y correlación biserial puntual corregida. Permite el estudio del funcionamiento de las
opciones incorrectas, pues proporciona para cada opción la frecuencia de elección y el índice de dis-
criminación (D). No proporciona para los distractores las correlaciones ítem-test o ítem-resto del
test. El tamaño del grupo superior e inferior lo fija por defecto en el 27% de la muestra, pero el
usuario puede modificar el porcentaje. El programa puede obtenerse en la dirección:
http://oak.cats.ohiou.edu/~brooksg/software.htm#TAP.
El programa CIA (http://shkim.myweb.uga.edu/), de libre distribución, obtiene para cada opción
del ítem las correlaciones biserial y biserial puntual, con el test y con el resto del test. Divide la
muestra en cinco subgrupos de igual tamaño (20%) y obtiene en cada uno cuántos evaluados han
elegido cada una de las opciones. No permite cambiar el número de subgrupos.
Ledesma, Molina, Valero y Young (2002) han desarrollado un módulo, de libre distribución,
que proporciona los siguientes datos: 1) Los estadísticos descriptivos para los ítems y el test, 2) los
efectos de la eliminación de cada ítem en los estadísticos descriptivos del test, y 3) las correlaciones
entre ítems, ítem-total e ítem-resto del test. El programa da los resultados no sólo mediante tablas,
sino también mediante gráficas.
López-Pina (2005) proporciona otro programa de libre distribución para el análisis clásico de
ítems, denominado CLM-1, válido para ítems de respuesta seleccionada. Obtiene los índices de difi-
Capítulo 2. Construcción de tests y análisis de ítems 73

cultad y de discriminación estudiados y el índice de fiabilidad de cada ítem. Proporciona además da-
tos psicométricos del test completo.
ITEMAN es un programa específico de análisis clásico de ítems de opción múltiple y de cate-
gorías ordenadas. Proporciona para cada ítem el índice de dificultad, el índice de discriminación y
las correlaciones biserial y biserial puntual sin corregir y corregidas. Más información en Lukas
(1998) y en http://assess.com/. En esta misma dirección se puede encontrar otro programa, LERTAP
5. Es una herramienta muy completa para el análisis clásico de ítems y tests. En lo relativo específi-
camente al análisis de ítems, proporciona los indicadores de dificultad y discriminación, tanto los
basados en la diferencia entre grupos, como en la correlación con el test o resto del test. Permite la
inclusión de un criterio externo al test. Proporciona información gráfica del rendimiento del ítem pa-
ra los distintos subgrupos.
El paquete SPSS no tiene específicamente un programa para el análisis de ítems, pero el proce-
dimiento Análisis de fiabilidad puede resultar útil. Proporciona para cada ítem su media y varianza,
la correlación entre el ítem y el resto del test, y la media, varianza y fiabilidad del test si se elimina
cada ítem. Este procedimiento puede aplicarse a ítems de respuesta seleccionada y construida, así
como a ítems de categorías ordenadas. Lei y Wu (2007) han desarrollado programas para SPSS y
SAS que completan el análisis clásico de ítems dicotómicos y politómicos de ambos paquetes.
El grupo de investigación TIDE, de la Universidad de Barcelona, ha desarrollado varios pro-
gramas relacionados con el análisis de ítems y tests. METRIX Engine obtiene para cada ítem sus es-
tadísticos descriptivos y los índices de dificultad y discriminación en el caso de ítems de opción
múltiple. La aplicación SEDI (Renom, Rodríguez, Solanas, Doval, Núñez y Valle, 2001) acepta la
salida del módulo de análisis de ítems de METRIX, evalúa la calidad de cada ítem y recomienda
qué hacer con cada uno de ellos. Más información en http://www.ub.es/comporta/tide/Index.htm.

3
Modelo Clásico y fiabilidad

Introducción
En las Ciencias clásicas (Medicina, Física, Química...) existen aparatos, con márgenes de
error especificados, para medir características muy diversas como son la tensión arterial,
la temperatura o la concentración de determinados elementos químicos. A pesar de la di-
versidad de atributos que pueden medirse, cada uno de estos instrumentos debe satisfacer
siempre cuatro tipos de exigencias:

1. Que la medición sea fiable o replicable; es decir, que al repetir las medidas de la misma
magnitud se produzcan resultados iguales o parecidos. Por ejemplo, esperaremos obte-
ner medidas similares independientemente de si el termómetro es digital o de mercurio,
de la persona que toma la temperatura o, si el intervalo entre medidas es suficientemen-
te corto, del momento en que se realizan.
2. Que las inferencias sobre los atributos que se realizan a partir de las medidas observa-
das sean válidas. Nuestras inferencias serán válidas si son ciertos los principios teóricos
en los que se fundamentan. Por ejemplo, a partir del principio físico de la dilatación y
teniendo en cuenta el valor del coeficiente de dilatación del mercurio, podemos deducir
la temperatura de un objeto a partir de la marca del mercurio en un tubo de cristal.
3. Que se siga el protocolo de aplicación del instrumento y que se atienda al manteni-
miento de éste, si es necesario. Por ejemplo, para detectar la presencia de fiebre debe-
mos saber en qué parte del cuerpo poner el termómetro y durante cuánto tiempo.
4. Que se tenga en cuenta su rango de aplicabilidad. Cualquier instrumento tendrá un ran-
go de aplicabilidad según los niveles de atributo entre los que permite discriminar. En
nuestro ejemplo, un termómetro para medir la temperatura corporal no será útil para
medir las altas temperaturas en un horno.

Las anteriores exigencias también deberían mantenerse para cualquier instrumento de


medición en Psicología y disciplinas afines. Podemos pensar en las consecuencias que tie-
76 Medición en Ciencias Sociales y de la Salud

ne para el psicólogo de selección que un test no proporcione una buena información de los
niveles de inteligencia de los aspirantes; o las consecuencias que puede tener para un es-
tudiante que se le aplique una prueba de admisión a la universidad de forma inapropiada o
incorrecta; también un psicólogo clínico que utiliza un test de depresión en su labor profe-
sional, debe tener un alto grado de certeza de que las puntuaciones que proporciona el test
resultan buenas cuantificaciones de los niveles de depresión de sus pacientes; los ejemplos
son innumerables…
Sin embargo no resulta fácil medir atributos psicológicos pues no existen modelos teó-
ricos tan desarrollados y consensuados como los de las ciencias clásicas. Aun así, los
psicólogos han intentando definir modelos teóricos que permitan inferir constructos teóri-
camente relevantes (o, al menos, predictivos) como la depresión a partir de los comporta-
mientos o las respuestas de los evaluados a una serie de ítems. Los procedimientos para
evaluar la verosimilitud de esas inferencias se abordarán en el capítulo sobre validación de
las medidas.
El presente capítulo se centra en la primera exigencia (fiabilidad de las medidas) ya
que si las medidas no se replican de una situación a otra, difícilmente podremos defender
ninguna inferencia o predicción. Si las puntuaciones no se replican diremos que son poco
precisas o poco fiables. En este capítulo, revisaremos el modelo matemático propuesto por
Spearman (1904a; 1904b; 1907), que permite operativizar el concepto de fiabilidad y va-
lorar las posibles repercusiones de la falta de fiabilidad en nuestras decisiones.

La Teoría Clásica de los Tests


La principal idea del modelo de Spearman es que debemos distinguir entre el valor real
del atributo que medimos (la puntuación verdadera) y la medida falible que obtenemos en
el proceso de medición (la puntuación observada). Las medidas que tomamos incluyen un
cierto grado de error. El error de medida expresa el grado en que nuestra medida se desvía
del valor real.
La idea de partida para poder graduar la precisión de un instrumento es que, cuanto
más preciso es, más se replicarán nuestras observaciones en sucesivas mediciones. Aun-
que el planteamiento parece sencillo, dos obstáculos acompañan desde el principio a la
medición de cualquier variable psicológica. El primero es que es difícil obtener medidas
repetidas independientes de la misma persona con el mismo instrumento en un intervalo
corto de tiempo. En Psicología esa falta de independencia (p. ej., porque haya recuerdo de
las respuestas dadas en la primera ocasión) puede tener efectos en la replicabilidad de las
medidas que no se asocian a la precisión del instrumento. Por tanto, es importante definir
bien lo que se entiende por replicabilidad. El segundo obstáculo es la imposibilidad de ob-
tener mediciones directas. No podemos tener acceso directo al valor real de un atributo
psicológico. Por tanto, será importante definir bien qué se entiende por puntuación verda-
dera y por error.
Spearman desarrolló un modelo formal denominado Modelo Clásico o Modelo Lineal
Clásico, fundamentado en diversos supuestos a partir de los cuales se definen los concep-
tos de puntuación verdadera y error y se extraen determinadas consecuencias de aplicabi-
lidad práctica para cuantificar el tamaño de esos errores y corregir su efecto. Cuando
aplicamos un test pretendemos que sea preciso, es decir, que la variabilidad de los evalua-
Capítulo 3. Modelo clásico y fiabilidad 77

dos según su puntuación en el test refleje su variabilidad real en el atributo. Pues bien, el
Modelo Clásico nos permite deducir, de forma elegante, qué parte de la variabilidad en las
puntuaciones en un test se debe a la variabilidad en el atributo medido y qué parte se ex-
plica por la presencia de errores en el proceso de medición.
A las ideas de Spearman se han sumado posteriormente las aportaciones de otros mu-
chos investigadores. El armazón teórico del Modelo Clásico se conoce como Teoría
Clásica de los Tests (TCT) y se trata del principal modelo de referencia para la construc-
ción y evaluación de tests psicológicos. En español, la información sobre el Modelo
Clásico puede encontrarse en varios manuales (p. ej., Martínez Arias, 1995; Martínez
Arias, Hernández Lloreda y Hernández Lloreda, 2006; Muñiz, 1998; Nunnally y Berns-
tein, 1995). En inglés, existen numerosos manuales sobre la Teoría de los Tests (p. ej.,
Allen y Yen, 1979; Crocker y Algina, 1986; Gulliksen, 1950; De Gruijter y van der
Kamp, 2003; Furr y Bacharach, 2008).

Los supuestos fundamentales del Modelo Clásico


El Modelo Clásico se sustenta en varios supuestos muy simples (Feldt y Brennan, 1989;
Haertel, 2006). Considere que para medir el atributo psicológico disponemos de varios
tests distintos a los que llamaremos formas. Por ejemplo, si quisiéramos medir la Depre-
sión podríamos tener un banco de ítems enorme con muchas de las preguntas posibles. A
partir de esas preguntas, podríamos construir distintos tests con especificaciones idénticas
(igual número de ítems, contenido similar, etc.). Cada uno de esos tests sería una forma
del test. A las puntuaciones que obtienen los evaluados en las distintas formas las deno-
minaremos como variables X1, X2,…, Xf ; a continuación se describe qué propiedades de-
ben tener esas formas para que podamos estimar la precisión de cualquiera de ellas.

Primer supuesto: el modelo lineal


El primer supuesto establece que la puntuación observada de una persona i en una forma f
de un test (Xif) se descompone linealmente en dos componentes hipotéticos, la puntuación
verdadera de la persona (Vi), que es una constante para cada persona i, y el error de medi-
da que se comete al medir el rasgo con el test f (Eif):

X if = Vi + Eif [3.1]

La puntuación verdadera refleja por tanto la puntuación en el atributo tal y como lo mide
un test con esas especificaciones; esto quiere decir que las puntuaciones verdaderas de una
persona en dos tests con distintas especificaciones, por ejemplo distinto número de ítems,
no serán iguales. Observe que la puntuación Vi no lleva el subíndice f ; se asume que la
puntuación verdadera del evaluado i es la misma en cada una de las formas:

Vi = Vi1 = Vi 2 =  = Vif
78 Medición en Ciencias Sociales y de la Salud

El error de medida depende de diferentes factores (propios de la persona, del test y de la


situación) que hacen que su puntuación empírica, X, no sea exactamente su nivel de atri-
buto, V. Por ejemplo, en una prueba de conocimientos pueden constituir fuentes de error
el nivel de ansiedad, la falta de motivación para responder, el ruido en el aula, la adecua-
ción de las instrucciones de aplicación, el nivel de riesgo asumido por el que responde, la
suerte que se tiene al responder a las preguntas de las que no se sabe la respuesta, qué pre-
guntas concretas aparecen en la prueba, etc.
Por tanto, el error de medida se establece como la diferencia entre la puntuación empí-
rica y la verdadera:

Eif = X if − Vi [3.2]

Considerando todo lo anterior, el Modelo Clásico puede expresarse en términos de varia-


bles como:

X f =V + Ef [3.3]

Para que se comprenda lo que significa cada uno de los términos, obsérvese la estructura
de la siguiente matriz de datos en la Tabla 3.1. V, Ef (E1, E2,…) Xf , (X1, X2,…) son las va-
riables (el subíndice f indica la forma aplicada) y Vi, Eif, Xif, indican los valores concretos
de las variables para el i-ésimo evaluado.

Tabla 3.1. Estructura de una matriz de datos si aplicáramos distintas formas del test a un grupo de eva-
luados y fueran conocidas las puntuaciones verdaderas (V)
Error Error Error
Puntuación Puntuación Puntuación
Puntuación con empírica con empírica con empírica …
verdadera el el el
en el test 1 en el test 2 en el test 3
test 1 test 2 test 3
V E1 X 1 = V + E1 E2 X 2 = V + E2 E3 X 3 = V + E3 …
Evaluado 1 V1 E11 X11 E12 X12 E13 X13 …
Evaluado 2 V2 E21 X21 E22 X22 E23 X23 …
Evaluado 3 V3 E31 X31 E32 X32 E33 X33 …
Evaluado 4 V4 E41 X41 E42 X42 E43 X43 …
Evaluado 5 V5 E51 X51 E52 X52 E53 X53 …
… … … … … … … ... …

Ejemplo 3.1. El Modelo Clásico lineal

Supongamos que, para un grupo de personas, conocemos las puntuaciones V, Ef y Xf, en


múltiples formas del test (en realidad, sólo podemos conocer las puntuaciones X; las res-
tantes puntuaciones se proponen únicamente por razones didácticas):
Capítulo 3. Modelo clásico y fiabilidad 79

Tabla 3.2. Puntuaciones verdaderas (V), puntuaciones observadas (X) y errores de medida (E) al aplicar
varias formas de un test1,2
Formas Forma 1 Forma 2 Forma 3 …
V E1 X1 E2 X2 E3 X3 …
Evaluado 1 12 –2 10 0 12 0 12 …
Evaluado 2 11 0 11 –2 9 –2 9 …
Evaluado 3 11 0 11 2 13 2 13 …
Evaluado 4 12 2 14 0 12 0 12 …
Evaluado 5 4 0 4 0 4 0 4 …
… … … … … … … …

Puede observarse que la puntuación empírica del tercer evaluado en el segundo test (X32)
es 13, por lo que se sobrestima su puntuación verdadera (V3), que es 11, en 2 puntos (que
es el error, E32). Los evaluados 2 y 3 tienen la misma puntuación verdadera (11); sin em-
bargo sus puntuaciones observadas cuando se aplica la forma 2 del test son distintas (9 y
13), lo que expresa que se comete cierto error de medida (subestimación en el primer caso
y sobrestimación en el segundo).

Segundo supuesto
El problema es que E y V son desconocidas. Sin embargo, podemos obtener información
sobre ellas si se plantean determinados supuestos adicionales. En muchos contextos pare-
ce razonable asumir que los errores serán unas veces positivos (por sobrestimación de la
puntuación verdadera) y otras veces negativos (por subestimación). Por ejemplo, es posi-
ble que al responder a un examen la persona reciba más preguntas de los temas que más
ha estudiado; en este caso, su puntuación empírica será una sobrestimación de lo que sabe
(error positivo). En otros exámenes sucederá lo contrario (error negativo). Por tanto, desde
un punto de vista conceptual, la mejor estimación del verdadero conocimiento del evalua-
do i será el promedio (valor esperado) de las puntuaciones empíricas que obtendría en un
número elevado de aplicaciones. Éste es el segundo supuesto:

Vi = ε f ( X if ) [3.4]

1
En los ejemplos que siguen se considera que X, V y E son puntuaciones discretas. Sin embargo, éste no es un
requerimiento del Modelo Clásico y, de hecho, las estimaciones de V y E pueden contener números decimales.
2
En los ejemplos que siguen se muestran tablas incompletas de datos. Por ejemplo, en la Tabla 3.2 se muestran
los datos de 5 evaluados seleccionados de una población más amplia. El hecho de que el número de evaluados es
más amplio se indica mediante puntos suspensivos. Por tanto, cuando se informe del resultado de cualquier
cálculo realizado con la población total (sumas, medias y desviaciones típicas, etc.) éste no coincidirá general-
mente con el que se obtiene a partir de los datos de los 5 evaluados. Lo mismo puede decirse con respecto al
número de formas aplicadas: aunque se muestran los resultados obtenidos en 3 formas se asume que se han apli-
cado muchas más.
80 Medición en Ciencias Sociales y de la Salud

Donde el símbolo εf (·) indica valor esperado de la variable dentro del paréntesis a través
de f. Otra forma de presentar el segundo supuesto es:

ε f ( Eif ) = 0 [3.5]

que es equivalente a decir que los errores que cometemos no son sistemáticos (el valor es-
perado de los errores a través de un conjunto de mediciones independientes de la misma
persona es 0). Resulta fácil comprobar la igualdad entre [3.4] y [3.5], puesto que:

ε f ( Eif ) = ε f ( X if − Vi ) = ε f ( X if ) − ε f (Vi ) = ε f ( X if ) − Vi = Vi − Vi = 0

Además, se asume que el valor esperado del error de medida es igual a 0, no sólo para
cualquier persona, sino también para un grupo de evaluados a los que se aplica una única
forma f:

ε i ( Eif ) = µ E f = 0 [3.6]

Veamos en el siguiente ejemplo lo que implica el segundo supuesto.

Ejemplo 3.2. Segundo supuesto

Tabla 3.3. Media de X y E para cada evaluado a través de las distintas formas y para cada forma a
través de los distintos evaluados
Forma Forma Forma Media de X Media de E
1 2 3 (a través de las (a través de las
formas) formas)
V E1 X1 E2 X2 E3 X3
ε f ( X if ) ε f ( Eif )
Evaluado 1 12 –2 10 0 12 0 12 … 12 0
Evaluado 2 11 0 11 –2 9 –2 9 … 11 0
Evaluado 3 11 0 11 2 13 2 13 … 11 0
Evaluado 4 12 2 14 0 12 0 12 … 12 0
Evaluado 5 4 0 4 0 4 0 4 … 4 0
… … … … … … … … … …
µEf 0 0 0

La media de las puntuaciones empíricas para el evaluado 2 coincidiría justamente con su


puntuación verdadera (11). Es decir, la puntuación 11 expresa su nivel promedio en pun-
tuaciones empíricas de depresión a través de las distintas aplicaciones (11, 9, 9,…). Ese
promedio puede considerarse la mejor estimación de su puntuación verdadera. Por otro
lado, el segundo supuesto implicaría que las medias de los errores para un evaluado a
través de distintas formas y para una forma a través de distintos evaluados son cero. Por
ejemplo, para el segundo evaluado la media de los errores (0 , –2, –2, …) sería 0. Tam-
Capítulo 3. Modelo clásico y fiabilidad 81

bién, según el modelo clásico, la media de los errores en la forma 1 (–2, 0, 0, 2,…) sería
igual a 0.

Tercer, cuarto y quinto supuestos


Si el error cometido al utilizar una forma no es sistemático parece razonable asumir que
los errores en una forma (Ef) no correlacionan con las puntuaciones verdaderas (V), ni con
los errores en otra forma (Ef’) ni con las puntuaciones verdaderas en otro test (Vk):

Tercer supuesto:

ρ EfV = 0 [3.7]

Cuarto supuesto:

ρEf Ef ' = 0 [3.8]

Quinto supuesto:

ρ E f Vk = 0 [3.9]

Eso supone asumir, por ejemplo, que las personas que tienen errores elevados (bajos) no
tienen por qué tener asociadas puntuaciones verdaderas elevadas (bajas) en ese test (u
otro) ni errores elevados (bajos) en otras formas del test.

Descomposición de la varianza de las puntuaciones


empíricas en un test
Hasta ahora hemos observado una serie de supuestos sobre los errores de medida. Como
ya hemos insistido, en la aplicación real de un test sólo se conocen las puntuaciones X de
las personas, por lo que los supuestos planteados no pueden, en general, someterse a con-
trastación empírica. ¿Para qué sirven entonces estos cinco supuestos? ¿Qué nos dicen so-
bre las puntuaciones de las personas que responden a un test? Si asumimos que los su-
puestos son lógicos y razonables, podemos obtener indicadores que nos proporcionen in-
formación sobre el tamaño de los errores cometidos con un test.
Para empezar, si aceptamos los supuestos, podremos delimitar algunas de las carac-
terísticas de las distribuciones de las variables implicadas en la población:

µ X f = µV [3.10]
82 Medición en Ciencias Sociales y de la Salud

σ X2 f = σ V2 + σ E2 f [3.11]

Es decir, la media de las puntuaciones observadas en un test f coincidirá con la media de


las puntuaciones verdaderas y, lo más importante, la varianza de las puntuaciones obser-
vadas en un test f se puede descomponer en varianza de las puntuaciones verdaderas y va-
rianza de los errores.
En efecto, si tenemos una variable Xf que es combinación lineal de otras variables V y
Ef, tal que:

X f =V + Ef

puede demostrarse que la media y varianza de la variable X se deriva de las medias y va-
rianzas de las variables V y Ef; esto es:

µ X f = µV + µ E f

y dado [3.6] se deriva [3.10]. Además:

σ X2 f = σ V2 + σ E2 f + 2 ρVE f σ V σ E f

y dado [3.7] se deriva [3.11].

Ejemplo 3.3. Descomposición de la varianza de las puntuaciones empíricas

En la Tabla 3.4 se presentan las medias y las varianzas para las distintas variables.

Tabla 3.4. Medias y varianzas de las puntuaciones V, E y X en las distintas formas


Formas Forma 1 Forma 2 Forma 3
V E1 X1 E2 X2 E3 X3
Evaluado 1 12 –2 10 0 12 –1 11 …
Evaluado 2 11 0 11 –2 9 –1 10 …
Evaluado 3 11 0 11 2 13 –2 9 …
Evaluado 4 12 2 14 0 12 0 12 …
Evaluado 5 4 0 4 0 4 0 4 …
… … … … … … … …
Medias ( µ ) 12 0 12 0 12 0 12
2
Varianzas ( σ ) 4 2 6 2 6 2 6

Por ejemplo, µV se obtendría como la media de las puntuaciones verdaderas de todos los
evaluados de la población (12, 11, 11, 12, 4,… ) que es 12. Observe que, en nuestro
ejemplo, las medias de todas las formas son iguales entre sí e iguales a la media de las
Capítulo 3. Modelo clásico y fiabilidad 83

puntuaciones verdaderas (12). Además, la varianza de las puntuaciones empíricas en cual-


quiera de las formas (6) es el resultado de sumar a la varianza verdadera (4) la varianza de
los errores en esa forma (2). Así pues, la variabilidad de las puntuaciones empíricas en
una forma (6) se produce, en parte, por la variabilidad en el verdadero nivel de rasgo (4) y,
en parte, por la presencia de errores y su contribución a la variabilidad (2).
Si nuestras formas fueran muy precisas, la varianza de los errores en cada una de ellas
sería 0 y la varianza de las puntuaciones empíricas en cada forma sería igual a la varianza
de las puntuaciones verdaderas (ver Tabla 3.5). En este caso, el 100% de la variabilidad de
las puntuaciones empíricas en cualquier forma refleja variabilidad en las puntuaciones
verdaderas. Las correlaciones entre las puntuaciones verdaderas y empíricas sería 1.

Tabla 3.5. Medias y varianzas de las puntuaciones V, E y X en las distintas formas para un test máxi-
mamente preciso
Formas Forma 1 Forma 2 Forma 3
V E1 X1 E2 X2 E3 X3
Evaluado 1 6 0 6 0 6 0 6 …
Evaluado 2 11 0 11 0 11 0 11 …
Evaluado 3 11 0 11 0 11 0 11 …
Evaluado 4 12 0 12 0 12 0 12 …
Evaluado 5 4 0 4 0 4 0 4 …
… … … … … … … …
Medias ( µ ) 12 0 12 0 12 0 12
Varianzas ( σ ) 2 6 0 6 0 6 0 6

Puesto que en el Modelo Clásico la varianza de las puntuaciones empíricas se descompo-


ne linealmente en varianza verdadera y varianza error sería importante obtener informa-
ción sobre cuánto de la varianza de las X se debe a la varianza de las V o saber cuánto co-
rrelaciona X con V. Nos encontramos con el inconveniente de desconocer las auténticas V
de las N personas. En la siguiente sección se ofrece el método propuesto por Spearman pa-
ra eludir este problema.

Concepto de formas paralelas y coeficiente de fiabilidad


No podemos conocer directamente la correlación entre las puntuaciones empíricas en un
test y las puntuaciones verdaderas. Sin embargo, resulta factible obtener la correlación en-
tre las puntuaciones empíricas que proporcionan dos formas paralelas de un test, diseña-
das ambas para evaluar el rasgo V de las personas. Veremos en esta sección que esta co-
rrelación nos proporciona la información que buscamos sobre la fiabilidad de las puntua-
ciones; es decir, sobre qué proporción de la varianza de X se debe a la varianza de V.
84 Medición en Ciencias Sociales y de la Salud

Hasta ahora hemos estado trabajando con el concepto de formas de un test X. El Mo-
delo Clásico original requiere que dichas formas sean formas paralelas. Según esto, dos
formas paralelas X1 y X2 de un test se definen como tales mediante dos condiciones:

1. Un individuo tiene la misma puntuación verdadera en ambas formas:

Vi1 = Vi 2 = Vi [3.12]

2. La varianza de los errores de medida en ambas formas es la misma:

σ E21 = σ E22 [3.13]

Es decir, los dos tests miden con la misma precisión. Las formas que hemos visto en los
ejemplos anteriores eran formas paralelas. En lo sucesivo, para simplificar, nos referire-
mos a la varianza error de cada forma paralela como σ2E (donde σ2E designa indistinta-
mente a σ2E1 o σ2E2).
Dos formas suelen hacerse paralelas por diseño, especificando en cada una igual
número de ítems y especificaciones similares de contenidos. Por ejemplo, el test formado
por los ítems impares de una prueba suele considerarse una forma paralela del test forma-
do por los ítems pares de esa misma prueba (si en principio no hay razón para pensar que
los ítems de las dos mitades difieren en conjunto).
Si tres formas (X1, X2 y X3) son paralelas, la distribución de sus puntuaciones observa-
das será idéntica en cuanto a media (ver [3.10]):

µ X1 = µ X 2 = µ X 3

y varianza (ver [3.11]):

σ X2 1 = σ X2 2 = σ X2 3

También serán iguales las covarianzas de esas formas entre sí:

σ X1 X 2 = σ X1 X 3 = σ X 2 X 3 ,

y las covarianzas con cualquier otra variable Z,

σ X 1Z = σ X 2 Z = σ X 3 Z

Lo mismo se aplica también a las correlaciones de las formas entre sí:

ρ X1 X 2 = ρ X1 X 3 = ρ X 2 X 3
Capítulo 3. Modelo clásico y fiabilidad 85

Debe observarse que el paralelismo de las formas es lo que las hace intercambiables y lo
que dota de significado a la definición operacional de la puntuación verdadera como valor
esperado de las puntuaciones a través de las formas.
En lo sucesivo, para simplificar, nos referiremos a cada forma paralela como X (para
designar indistintamente a X1 o X2), por lo que utilizaremos los términos µX y σ2X para re-
ferirnos a la media y varianza de cualquiera de las formas paralelas.
La correlación entre dos formas paralelas (X1 y X2) es muy importante en el Modelo
Clásico y se denomina coeficiente de fiabilidad. Puesto que ambas formas son paralelas,
la correlación nos permite inferir algo sobre el grado de precisión de cualquiera de ellas.
Es fácil entender por qué es una medida de precisión. Si las puntuaciones obtenidas en dos
formas paralelas son precisas parece razonable esperar una correlación elevada en la po-
blación. Si ambas correlacionasen de forma mínima, no podríamos fiarnos de que refleja-
sen fidedignamente los niveles de rasgo verdaderos. Por tanto, el coeficiente de fiabilidad
es un indicador de precisión; suele utilizarse el símbolo ρXX y es matemáticamente igual al
cociente entre la varianza de las puntuaciones verdaderas y la varianza de las puntuacio-
nes empíricas de cualquiera de las formas:

σ V2
ρ XX ≡ ρ X1 X 2 = [3.14]
σ X2

Veamos por qué. La correlación entre formas paralelas puede expresarse como:

σ X1 X 2
ρ X1 X 2 =
σ X1σ X 2

Puesto que las formas son paralelas, podemos referirnos con el término σX indistintamente
a σ X1 o a σ X 2 :

σ X1 X 2 σ X1 X 2 σ X1 X 2
ρ X1 X 2 = = =
σ X1σ X 2 σ Xσ X σ X2

Además, X1 = V1 + E1 y X2 = V2 + E2. Matemáticamente, si tenemos dos variables X1 y X2


que son combinación lineal de otras, la covarianza entre ambas se deriva de las covarian-
zas entre todas las otras:

σ X1 X 2 = σ V1V2 + σ V2 E1 + σ V1E2 + σ E1E2

que se puede simplificar, dado [3.7] , [3.8] y [3.12]:

σ X1 X 2 = σ V2

por lo que se llega a la ecuación [3.14]:


86 Medición en Ciencias Sociales y de la Salud

σ X1 X 2 σ V2
ρ X1 X 2 = =
σ X2 σ X2

Recordemos que la varianza de las puntuaciones en un test se descomponía en dos com-


ponentes, uno relacionado con los errores y otro con las puntuaciones verdaderas (ecua-
ción [3.11]). El valor del coeficiente de fiabilidad puede interpretarse entonces como la
proporción de la varianza de las puntuaciones empíricas que puede atribuirse a la variabi-
lidad de las personas en las puntuaciones verdaderas.
Lógicamente, el coeficiente de fiabilidad también nos índica qué proporción de va-
rianza de las puntuaciones en el test no se debe a la varianza de los errores:

σ V2 σ X2 − σ E2 σ E2
ρ XX = = = 1− [3.15]
σ X2 σ X2 σ X2

Nótese además que el coeficiente de fiabilidad puede asumir valores entre 0 y 1, ya que se
trata de un cociente de varianzas, cuyo valor es siempre positivo.
Por otro lado, el coeficiente de fiabilidad también se puede interpretar como la corre-
lación al cuadrado entre las puntuaciones verdaderas y las puntuaciones observadas en el
test. En efecto:

2
ρ XV =
2
σ XV
=
(σ 2
V + σ VE )
2

=
σ V2
= ρ XX [3.16]
σ X2 σ V2 σ X2 σ V2 σ X2

Es decir, que el coeficiente de fiabilidad es el cuadrado de la correlación entre X y V. Al


valor ρXV se le denomina índice de fiabilidad:

ρ XV = ρ XX [3.17]

Tanto el coeficiente como el índice de fiabilidad reflejan la precisión de las medidas


siempre que asumamos que en el grupo al que se aplica el test hay cierta variabilidad en la
característica que se está midiendo.

Ejemplo 3.4. Interpretación del coeficiente de fiabilidad

Supongamos que la correlación entre dos formas paralelas X1 y X2 es 0,67 ( ρX1X2 = 0,67) y
que la varianza de ambas formas es 6 (σ 2X = 6); entonces diríamos que el coeficiente de
fiabilidad de las puntuaciones obtenidas en cualquiera de ellas es 0,67 ( ρ XX = 0,67). Es
decir, la correlación entre X1 y X2 es el coeficiente de fiabilidad de las puntuaciones en la
prueba X1 (y en la prueba X2). La varianza de X1 (o de X2), en nuestro ejemplo, es 6. El co-
eficiente de fiabilidad indicaría justamente qué proporción de esos 6 puntos, es varianza
Capítulo 3. Modelo clásico y fiabilidad 87

verdadera. Puesto que el coeficiente de fiabilidad es 0,67, podemos decir que el 67% de la
varianza empírica es varianza verdadera. La varianza verdadera sería, justamente, 4 (el
67% de 6):

σ V2 = σ X2 ρ XX = 6(0,67) = 4

También podría deducirse la varianza de los errores de medida, que sería justamente 2 (el
33 % de 6):

σ E2 = σ X2 (1 − ρ XX ) = 6(0,33) = 2

En nuestro ejemplo, el índice de fiabilidad sería 0,82 (que es la raíz de 0,67).

Fórmula General de Spearman-Brown: Fiabilidad de las


puntuaciones en un test compuesto por n formas paralelas
Imaginemos que disponemos de n formas paralelas para medir un rasgo psicológico de-
terminado. Según lo visto, las n formas tendrán en la población las mismas varianzas
empíricas. Además, las correlaciones entre todos los posibles pares de formas paralelas
que podemos establecer serán también iguales, e indicarán la fiabilidad de cualquiera de
ellas a la hora de determinar los niveles de rasgo.
Sea ahora un test final compuesto por las n formas paralelas. Denominemos las pun-
tuaciones originales de cada persona en las n formas paralelas como X1,…, Xn, V1,…, Vn,
E1,…, y En. Las puntuaciones en el test final alargado se obtienen sumando las puntuacio-
nes en las n formas:

X a = X 1 + ... + X n [3.18]

Para cada forma paralela, podemos separar la parte verdadera y la parte error: Xa = V +
E1 + … + V + En; así podemos definir Xa = Va + Ea, donde Va = nV y Ea = E1 + … + En ,
ya que la puntuación verdadera es la misma en cada forma paralela, mientras que el error
puede cambiar de una forma a otra. Los parámetros de la población en una forma paralela
(cualquiera de ellas) podemos designarlos como σ2X, σ2V, σ2E y ρXX. Si unimos n formas
paralelas en un único test, los parámetros de este test alargado podemos expresarlos como
σ2Xa, σ2Va, σ2Ea y ρ nXX. Vamos a llegar a determinadas expresiones para obtener los pará-
metros del test alargado conociendo los parámetros de una forma paralela.
La varianza empírica del test formado por n formas paralelas será:

2
σ Xa = nσ X2 + n(n − 1)σ X2 ρ XX = nσ X2 [1 + (n − 1) ρ XX ] [3.19]

La varianza verdadera del test formado por n formas paralelas será:


88 Medición en Ciencias Sociales y de la Salud

2
σ Va = n 2σ V2 [3.20]

puesto que Va es una transformación lineal de V (Va = nV, donde n es una constante).
La varianza error del test formado por n formas paralelas será:

2
σ Ea = nσ E2 + n(n − 1)σ E2 ρ EE = nσ E2 [3.21]

ya que ρEE , la correlación entre los errores de dos formas, es 0 según el 4º supuesto.
A partir de las expresiones anteriores, y recordando que el coeficiente de fiabilidad es
el cociente entre la varianza verdadera y la varianza empírica, podemos obtener el coefi-
ciente de fiabilidad de las puntuaciones en un test alargado n veces (ρnXX):

2
σ Va n 2σ V2 nρ XX
ρ nxx = = = [3.22]
σ Xa nσ XX [1 + (n − 1)ρ XX ] 1 + (n − 1) ρ XX
2 2

La expresión [3.22] se conoce como Fórmula General de Spearman-Brown, y permite ob-


tener el coeficiente de fiabilidad de las puntuaciones en un test compuesto por n formas
paralelas (es decir, cuál será el coeficiente de fiabilidad, ρnXX, de un test que se forma con n
versiones paralelas de un test inicial que tiene un coeficiente de fiabilidad, ρXX).

Ejemplo 3.5. Fiabilidad de las puntuaciones en un test compuesto por n formas


paralelas

Si formamos un nuevo test uniendo las dos formas paralelas X1 y X2, ambas con varianzas
iguales (σ2X = 6, σ2V = 4, σ2E =2) e igual coeficiente de fiabilidad (ρXX = 0,67), se obtiene
un nuevo test con varianzas:

2
σ Xa = nσ X2 [1 + (n − 1) ρ XX ] = (2)6[1 + (1)0,67] = 20
2
σ Va = n 2σ V2 = 2 2 (4) = 16
2
σ Ea = nσ E2 = 2(2) = 4

El coeficiente de fiabilidad del nuevo test sería:

nρ XX (2)0,67
ρ nXX = = = 0,8
1 + (n − 1) ρ XX 1 + (1)0,67

El 80% de la varianza del nuevo test (σ2Xa = 20) es varianza verdadera (σ2Va = 16).
Capítulo 3. Modelo clásico y fiabilidad 89

Según la Fórmula General de Spearman-Brown, el coeficiente de fiabilidad aumenta al


alargar un test. Esto ocurre porque, al añadir n – 1 formas paralelas, la varianza debida a
las puntuaciones verdaderas se incrementa más rápido (σ2Va = n2σ2V) que la varianza debi-
da a los errores (σ2Ea = n σ2E). La Figura 3.1 muestra el efecto de multiplicar la longitud
del test por n (n: 1, 2, ... 17) en 3 tests que difieren originalmente en ρXX (0,1, 0,4 y 0,7).

Figura 3.1. Coeficiente de fiabilidad de las puntuaciones en un test alargado como función del coeficien-
te de fiabilidad del test original y del número n de formas paralelas
1.0
fiabilidad de un test alargado n veces

0.9
0.8
0.7
0.6
0.5
0.4
0.3 0.1
0.2 0.4
0.1 0.7
0.0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
n
El valor n = 1 representa lo que ocurre con el test original. Los otros valores de n (2,
3,…) se refieren a lo que ocurre con los tests alargados (de longitud duplicada, triplica-
da,…). Observe que, en cualquiera de los tres tests, la ganancia en fiabilidad a medida
que se incrementa la longitud no es lineal. Esto quiere decir, por ejemplo, que al pasar de
n = 1 a n = 2 se obtiene mayor ganancia en precisión que al pasar de n = 2 a n = 3. Tam-
bién puede observarse que el incremento posible será menor cuanto mayor sea el coefi-
ciente de fiabilidad del test original, ya que el valor máximo que puede obtenerse es 1.

Ejemplo 3.6. Fiabilidad de las puntuaciones en un test compuesto


por n formas paralelas

Supongamos que una prueba de atención de 25 ítems obtiene en un grupo normativo un


ρXX = 0,7. Si se añadieran 75 ítems (tres formas paralelas) al test inicial, el test alargado
tendría 100 ítems (4 veces el inicial), y su fiabilidad sería:

nρ XX (4)0,7
ρ nXX = = = 0,903
1 + (n − 1) ρ XX 1 + (3)0,7

Si cuadruplicáramos la longitud del test recién formado, pasaríamos de 100 a 400 ítems.
El test alargado tendría un coeficiente de fiabilidad:
90 Medición en Ciencias Sociales y de la Salud

nρ XX (4)0,903
ρ nXX = = = 0,974
1 + (n − 1) ρ XX 1 + (3)0,903

En el primer caso, el incremento que se produce al multiplicar por 4 la longitud inicial del
test de atención es de 0,203, mientras que en el segundo caso, el incremento es únicamen-
te de 0,071 (a pesar de que en el primer caso hemos añadido 75 ítems y en el segundo
300). Esto se debe a que el coeficiente de fiabilidad del test inicial es mayor en el segun-
do caso que en el primero, y a que el segundo test tiene ya un considerable número de
ítems (100).

Es importante tener en cuenta que la Fórmula General de Spearman-Brown no debe apli-


carse cuando las formas añadidas no son paralelas o cuando al incrementar la longitud se
producen efectos de fatiga (o de la práctica) al responder. Esto último ocurre, por ejemplo,
cuando la persona no responde a los nuevos ítems con igual motivación, eficacia, aten-
ción, etc. Tampoco conviene olvidar que se requiere que la prueba original haya sido apli-
cada a un número suficiente de sujetos, de forma que el coeficiente de fiabilidad se halle
bien estimado (Alsawalmeh y Feldt, 1999). Establecidas estas limitaciones, la fórmula de
Spearman-Brown puede utilizarse para:

1. Extrapolar cuál sería el número de ítems necesarios para que las puntuaciones en nues-
tro instrumento alcancen una determinada fiabilidad. Así, despejando n de la fórmula
anterior:

ρ nXX (1 − ρ XX )
n= [3.23]
ρ XX (1 − ρ nXX )

donde ρnXX indica la fiabilidad que se quiere obtener, ρXX indica la fiabilidad actual y n
es el número de formas paralelas que debería tener el test final para que se alcance esa
fiabilidad. Lógicamente, si el test original tiene J ítems el test final deberá tener J’
ítems, donde J’ es igual a:

J ' = nJ

En la práctica, la ecuación [3.23] puede resultar eficaz para diseñar un test inicial corto
y estimar cuál debería ser su longitud para obtener un coeficiente de fiabilidad determi-
nado, y así comprobar si merece la pena diseñar nuevos ítems paralelos o reformar los
ya creados.
2. Poder comparar la fiabilidad de las puntuaciones en dos pruebas con distinto número de
ítems. Si una prueba tiene J ítems y otra tiene J’ podemos ver cuál sería la fiabilidad de
la primera si tuviera J’ ítems (J’ > J), para ello basta utilizar la fórmula de Spearman-
Brown sustituyendo n por J’/J.
Capítulo 3. Modelo clásico y fiabilidad 91

En ambas situaciones, n siempre indica el número de veces que el test final contiene al
test original y n – 1 indica el número de formas que se añaden a la forma original.

Ejemplo 3.7. Utilidad de la fórmula de Spearman-Brown

Supongamos que para las puntuaciones en un test inicial de 25 ítems se obtiene un coefi-
ciente de fiabilidad de 0,65, considerado bajo para los objetivos que se pretenden conse-
guir con su aplicación. Una manera de incrementar su precisión es alargarlo con ítems pa-
ralelos a los iniciales. Al constructor de la prueba le interesa que el test tenga, al menos,
un coeficiente de fiabilidad de 0,86, y se pregunta con cuántos ítems lo conseguiría. Apli-
cando la fórmula [3.23], obtenemos:

ρ nxx (1 − ρ xx ) 0,86(1 − 0,65)


n= = = 3,308
ρ xx (1 − ρ nxx ) 0,65(1 − 0,86)

Esto significa que si multiplicamos por 3,308 la longitud inicial del test, es decir, con un
test de 83 ítems (3,308(25) = 82,7), conseguiremos la precisión deseada. Por tanto, a los
25 ítems que tiene el test inicial habría que añadir 58 ítems paralelos (2,308 formas) para
conseguir la fiabilidad de 0,86.
Otro ejemplo. Consideremos que dos pruebas tienen, respectivamente, coeficientes de
fiabilidad 0,65 y 0,7. La primera tiene 15 ítems y la segunda 20. ¿Cuál de las dos pruebas
sería más precisa si ambas tuvieran el mismo número de ítems? Para responder a esta pre-
gunta, podemos calcular cúal sería el coeficiente de fiabilidad de las puntuaciones en la
primera prueba si tuviera 20 ítems:

J ' 20
n= = = 1,33
J 15

El coeficiente de fiabilidad de la primera prueba sería:

nρ xx 1,33(0,65)
ρ nxx = = = 0,712
1 + (n − 1) ρ xx 1 + 0,33(0,65)

Lo que significa que, con el mismo número de ítems, la primera prueba sería más fiable en
la muestra.

Aproximaciones a la fiabilidad y tipos de error


Hemos visto que, a partir del Modelo Clásico, se expresa un nuevo concepto, la fiabilidad
de las puntuaciones en el test, que representa la proporción de la varianza de las puntua-
92 Medición en Ciencias Sociales y de la Salud

ciones en el test que se debe a la varianza de las puntuaciones verdaderas. En términos ge-
nerales puede considerarse que la fiabilidad nos indica la replicabilidad de la medida a través
de distintas condiciones, momentos, formas del test, etc. Ahora bien, la visión que se ha dado
hasta ahora (coeficiente de fiabilidad como correlación entre formas paralelas) se encuentra
algo simplificada. En realidad, el concepto de fiabilidad (o replicabilidad) de las puntuaciones
es más complejo y puede entenderse de distintas maneras:

1. Ya hemos observado que podemos calcular el coeficiente de fiabilidad como una corre-
lación entre formas paralelas. En ese caso estaríamos estudiando si se replican las mismas
medidas al aplicar una prueba paralela con ítems distintos. Si ambas formas son paralelas,
la correlación entre ambas indica su grado de equivalencia. En este sentido, replicabili-
dad implica que debemos obtener las mismas medidas cuando medimos lo mismo con
pruebas equivalentes.
2. También puede aludirse a la estabilidad temporal de las medidas que proporciona nues-
tro instrumento. En este sentido, replicabilidad implica que debemos obtener las mis-
mas medidas cuando medimos lo mismo en momentos distintos.
3. Finalmente, puede hacerse referencia al grado en que diferentes partes del test miden un
rasgo con consistencia. En este sentido, replicabilidad implica que debemos obtener las
mismas puntuaciones cuando medimos lo mismo con distintas partes del test.

Según el procedimiento utilizado para calcular el coeficiente de fiabilidad estaremos sien-


do sensibles en mayor o menor grado a distintas fuentes de error. Ya hemos observado
que, en el Modelo Clásico, se establece que:

X f =V + Ef

Y también que el error es el resultado de todos aquellos factores (de la persona, de la si-
tuación o relativos a la composición del test) que hacen que la puntuación observada de
una persona se aleje de su valor esperado. De forma más sencilla, un error implica un
cambio en la puntuación de una persona de una medición a otra. Algunos autores suelen
distinguir entre tres tipos de fuentes de error en los tests de respuesta seleccionada
(Schmidt y Hunter, 1996, 1999; Schmidt, Le y Ilies, 2003):

1. Los errores debidos a factores transitorios suponen modificaciones en las respuestas de


una persona que se deben a factores que cambian de una sesión de aplicación a otra pe-
ro que, dentro de una sesión, afectan por igual a todos los ítems. Si aplicamos un test
dos veces puede haber cambios en variables personales (salud, humor, motivación, efi-
ciencia mental, concentración, minuciosidad, impulsividad, etc.) o en variables situa-
cionales que no han sido controladas en la aplicación (claridad de las instrucciones,
presencia de incentivos, tiempo de la aplicación, etc.). Tales variables pueden tener
efectos en todas las medidas tomadas dentro de una misma sesión de aplicación. Cam-
bios en esas variables a través de las sesiones producirán cambios en las puntuaciones
observadas. Por ejemplo, si alguien responde a una prueba de conocimientos con baja
motivación, su rendimiento puede verse afectado. Su puntuación X estará por debajo de
su puntuación V. Si volvemos a aplicar el mismo test en otro momento, en el que tenga
Capítulo 3. Modelo clásico y fiabilidad 93

mayor motivación, su puntuación X será mayor. El nivel de motivación afectará a todas


sus respuestas recogidas en cada sesión.
Los errores debidos a factores transitorios pueden detectarse estudiando cómo varía el
rendimiento de la persona en distintos momentos temporales. Estos errores no son de-
tectables si el test se aplica una sola vez (pues en ese caso no podemos saber cómo
cambiarían las puntuaciones de las personas si se les aplica el test en otro momento).
2. Los errores debidos a la especificidad suponen cambios en las respuestas de una perso-
na que se deben al contenido concreto de los ítems que se le presentan. Por ejemplo, en
una prueba de conocimientos de Filosofía cada estudiante puede tener distinto nivel de
dominio de los distintos temas. Alguien puede saber mucho de Platón y poco de Kant.
Si le hiciéramos una pregunta sobre Platón su puntuación V se sobrestimaría (ocurriría
lo contrario si le hiciéramos una pregunta sobre Kant). Otro ejemplo: en una escala de
Estabilidad Emocional se incluyen ítems en sentido directo y otros en sentido inverso;
las respuestas de una persona en ítems de uno y otro tipo pueden ser distintas.
Los errores debidos a la especificidad pueden detectarse estudiando cómo varía el ren-
dimiento de la persona en distintas partes del test. Estos errores no son detectables si se
aplica la misma pregunta en dos ocasiones distintas (pues en ese caso no podemos sa-
ber cómo cambiarían las puntuaciones de las personas si les hubiéramos hecho otra
pregunta).
3. Los errores debidos a factores aleatorios se refieren al grado de inconsistencia en la
respuesta que no puede ser atribuido directamente al contenido de los ítems, ni a otros
factores de la persona o la situación que actúan de forma sistemática en el tiempo. Es
producto de variaciones en la atención, de distracciones momentáneas, de la propia la-
bilidad intrínseca a nuestro sistema nervioso, etc. Por ejemplo, supongamos que al es-
cuchar un ítem de una prueba de inglés, el evaluado se ha distraído; como no ha escu-
chado la pregunta, falla el ítem. Consideremos que de haber escuchado el ítem lo
hubiera acertado. En ese caso, si se le vuelve a aplicar el ítem lo acertará. La distrac-
ción no produce un error debido a la especificidad del ítem ya que el fallo inicial de la
persona no tiene que ver con el contenido del ítem. Tampoco es un error debido a fac-
tores transitorios ya que la distracción no necesariamente ha afectado a todos los ítems
aplicados en la misma sesión.

En los siguientes apartados se recoge el grado en que cada coeficiente de fiabilidad es


sensible a cada tipo de error. Antes de empezar, es necesario advertir de un cambio de no-
tación. Hasta el momento, el Modelo Clásico y los estadísticos (medias, varianzas, corre-
laciones,...) se han descrito en términos paramétricos; es decir, para la población. Por ello,
se utilizaba la nomenclatura griega ( σ2X , ρxx , etc.). En la práctica vamos a disponer de da-
tos obtenidos en una muestra o grupo normativo concreto (S2X , rxx, etc.). Esto significa
que, de modo directo, únicamente vamos a disponer de las puntuaciones empíricas de di-
cha muestra, a partir de las cuales podemos obtener los estadísticos que sean oportunos.
94 Medición en Ciencias Sociales y de la Salud

Fiabilidad como correlación entre formas paralelas


A veces, por razones de índole práctica o investigadora, se diseña un test y una segunda
versión del mismo, denominada forma paralela, que intenta evaluar o medir lo mismo que
el test original pero con diferentes ítems. Como ya hemos explicado, dos versiones o for-
mas se consideran paralelas si su contenido es similar y, aplicadas a una misma muestra
de personas, obtienen similares medias, varianzas y covarianzas con otras variables.
La correlación de Pearson entre las puntuaciones obtenidas en una misma muestra en
dos formas paralelas se considera el coeficiente de fiabilidad de cualquiera de ellas, e in-
dicará el grado en que pueden considerarse equivalentes. Por ello, en ocasiones se deno-
mina a este coeficiente de fiabilidad coeficiente de equivalencia. Si las formas no fuesen
paralelas puede subestimarse dicho coeficiente.

Ejemplo 3.8. Coeficiente de fiabilidad por el método de las formas paralelas

Se han aplicado las dos formas de un test a 13 personas3, obteniendo los resultados que se
muestran en la Tabla 3.6.

Tabla 3.6. Cálculo del coeficiente de fiabilidad por el método de las formas paralelas
Evaluados 1 2 3 4 5 6 7 8 9 10 11 12 13
X1 = Forma 1 10 12 11 14 11 9 13 14 16 15 13 14 16
X2 = Forma 2 9 13 14 16 10 10 13 15 14 14 12 10 17

El coeficiente de fiabilidad sería:

rXX = rX1 X 2 = 0,701

Lo que se significa que el 70,1% de la varianza de las puntuaciones observadas en cual-


quiera de las formas es debida a la variabilidad en el verdadero nivel de rasgo.

Es evidente que la falta de concordancia cuando se calcula el coeficiente de equivalencia


se deberá a que las dos formas tienen contenidos específicos distintos o a que los ítems no
son adecuados para medir el rasgo. En sentido estricto, el coeficiente de equivalencia no
es sensible a los errores debidos a factores transitorios y nos indica qué proporción de la
varianza de las puntuaciones empíricas en el test completo no se debe a la varianza de los
errores debidos a factores específicos o al error debido a factores aleatorios. Sin embargo,

3
El uso de sólo 13 sujetos para evaluar las propiedades psicométricas de una prueba es, lógicamente, insuficien-
te. El pequeño tamaño de la muestra se debe a razones puramente didácticas, de forma que el lector pueda reali-
zar los cálculos si lo desea.
Capítulo 3. Modelo clásico y fiabilidad 95

su interpretación suele simplificarse, de tal forma que se entiende como proporción de va-
rianza de las puntuaciones empíricas explicada por las puntuaciones verdaderas. Esta
última interpretación es razonable para ciertos rasgos, como por ejemplo el nivel de voca-
bulario, para los que se espera un efecto pequeño de los factores transitorios (ver por
ejemplo, Reeve, Heggestad y George, 2005).
No es común diseñar una forma paralela de un test para obtener datos sobre su fiabili-
dad. Cuando se diseñan (tarea por otra parte difícil) es porque van a utilizarse en determi-
nados trabajos que requieren dos aplicaciones sucesivas de un test cuyos contenidos se
pueden recordar con facilidad. Por ejemplo, para evaluar la eficacia de ciertos programas
cortos de enriquecimiento cognitivo o motivacional, conviene utilizar antes y después del
entrenamiento pruebas equivalentes aunque con contenidos diferentes (formas paralelas),
para evitar los efectos del recuerdo.

Fiabilidad como estabilidad temporal


Si disponemos de las puntuaciones de N personas en un test y, después de transcurrido un
tiempo, volvemos a medir a las mismas personas en el mismo test, cabe esperar una corre-
lación de Pearson elevada entre ambas mediciones (reflejando así la concordancia de las
medidas tomadas en dos momentos distintos). Dicha correlación entre la evaluación test y
la evaluación retest (rXtestXretest) se denomina coeficiente de fiabilidad test-retest o de esta-
bilidad temporal, e indicará tanta mayor estabilidad temporal de las puntuaciones en la
prueba cuanto más cercano a uno sea.
Este modo de operar se desprende también directamente del Modelo Clásico, según el
cual se define la fiabilidad como la correlación entre las puntuaciones empíricas en dos
formas paralelas, ya que no existe mayor grado de paralelismo entre dos tests que cuando
en realidad es uno aplicado dos veces.

Ejemplo 3.9. Coeficiente de fiabilidad por el método test-retest

Para obtener el coeficiente de estabilidad de una escala se aplica una forma del test a una
muestra. Transcurridos dos meses, se vuelve a aplicar la misma forma a las mismas perso-
nas bajo las mismas condiciones. Sus puntuaciones directas en las dos aplicaciones son las
que aparecen en la Tabla 3.7.

Tabla 3.7. Cálculo del coeficiente de estabilidad


Evaluados 1 2 3 4 5 6 7 8 9 10 11 12 13
XTest 10 12 11 14 11 9 13 14 16 15 13 14 16
XRestest 11 12 13 15 12 12 10 15 13 18 11 15 17

Para obtener el coeficiente de fiabilidad test-retest bastaría con correlacionar los datos de
las dos aplicaciones:
96 Medición en Ciencias Sociales y de la Salud

rX test X tetest = 0,639

En este caso se obtiene una cierta estabilidad de las puntuaciones. Si los niveles de rasgo
de las personas no han variado a lo largo de los dos meses transcurridos entre las dos apli-
caciones, podemos decir que el test proporciona ciertas garantías (no óptimas) respecto a
la precisión con la que mide, dado que una persona concreta obtiene puntuaciones muy
parecidas (o similares) en las dos aplicaciones.

Este coeficiente se obtiene, sobre todo, en pruebas cuyo objetivo de medida es un rasgo
estable (pruebas de inteligencia general, aptitudes, rasgos de personalidad, etc.) dado que,
de lo contrario, no se podría discernir entre la inestabilidad debida al rasgo de la causada
por la falta de precisión del instrumento. Es decir, es necesario asumir que las puntuacio-
nes verdaderas de los evaluados no han cambiado entre el test y el retest. Por tanto, no es
adecuado calcular este coeficiente para cuando se pretenden medir atributos psicológicos
que por naturaleza son fluctuantes (p. ej., estados de ansiedad).
La determinación del intervalo temporal entre aplicaciones es importante y debe ser
informada (Standards, AERA, APA y NCME, 1999; p. 32). Para establecer un período
concreto, el efecto en las respuestas debido a la doble aplicación (efectos del aprendizaje,
la fatiga, la maduración, el recuerdo, la motivación, el deseo de congruencia, etc.) debería
ser analizado y controlado. Un efecto debido a la doble aplicación implicaría que: (1) las
puntuaciones verdaderas de las personas han cambiado; (2) la precisión de las medidas ha
variado entre el test y el retest. Si el intervalo es demasiado corto y no hay efectos de fati-
ga suele producirse una sobrestimación de la fiabilidad porque se recuerdan las respuestas.
Por tanto, es aconsejable dejar más tiempo cuando los ítems y las respuestas pueden me-
morizarse con facilidad; de lo contrario, los evaluados podrían emitir pautas de respuesta
similares en las dos aplicaciones del test únicamente por efectos del recuerdo y del deseo
de responder de manera congruente. Debe tenerse en cuenta, sin embargo, que cuanto ma-
yor es el intervalo temporal que se deja entre ambas aplicaciones, mayor es la posibilidad
de que se produzcan cambios reales en el rasgo (p. ej., por factores de tipo madurativo) y,
por lo tanto, se subestime la fiabilidad de la prueba. El intervalo usual suele variar entre
dos semanas y dos meses.
Por otro lado, es importante tener en cuenta que, dado que se aplica la misma forma
(i.e., las mismas preguntas) en dos momentos distintos, este coeficiente de fiabilidad no es
sensible a los errores debidos a la especificidad. En sentido estricto, el coeficiente de esta-
bilidad nos indica qué proporción de la varianza de las puntuaciones empíricas en el test
completo no se debe a la varianza de los errores debidos a factores transitorios o al error
debido a factores aleatorios. Para la mayoría de los rasgos (p. ej., neuroticismo, capacidad
verbal, etc.) el efecto de los errores debidos a la especificidad es importante. Por tanto, el
coeficiente de estabilidad no puede ser considerado una buena estimación de la proporción
de varianza de las puntuaciones empíricas que es explicada por las verdaderas.
Capítulo 3. Modelo clásico y fiabilidad 97

Fiabilidad como consistencia interna


También se han propuesto otros coeficientes basados en una única aplicación del test y
que, por tanto, son menos costosos de obtener. Con estos métodos se estudia la concor-
dancia entre las puntuaciones de los evaluados en distintas partes del test. Así, la fiabili-
dad se entiende ahora como el grado en que diferentes subconjuntos de ítems covarían,
correlacionan o son consistentes entre sí. Todos estos coeficientes no son, por tanto, sen-
sibles al los errores debidos a factores transitorios.
Lo más usual es estudiar la consistencia entre las dos mitades del test (método de dos
mitades) o entre tantas partes como elementos tenga (consistencia interna global).

Coeficiente de fiabilidad por el método de las dos mitades


(método de Spearman-Brown)
En primer lugar se divide el test en dos mitades (p. ej., ítems impares e ítems pares). Para
cada persona se obtiene la puntuación directa en ambas mitades. Disponemos entonces de
dos variables (XI y XP), cuya correlación de Pearson indica su grado de relación lineal. Si
ambas mitades son paralelas, su correlación será el coeficiente de fiabilidad de las puntua-
ciones en la mitad del test. Una práctica habitual consiste en extrapolar el coeficiente de
fiabilidad de las puntuaciones en el test completo (X = XI + XP) aplicando la fórmula de
Spearman-Brown (haciendo n = 2, ya que el test completo tiene el doble de ítems que
cualquiera de sus mitades):

2 rX I X P
SB rXX = [3.24]
1 + rX I X P

A partir de esta fórmula podemos comprobar que el coeficiente de fiabilidad, entendido


como la expresión de la consistencia entre dos mitades, es mayor que la correlación de
Pearson entre ambas mitades. Sus valores pueden estar entre 0 y 1 e indica el grado en que
un test compuesto por dos formas paralelas (las mitades) proporcionaría resultados simila-
res a otro test equivalente. En sentido estricto, nos indica qué proporción de la varianza de
las puntuaciones empíricas en el test completo no se debe a la varianza error por muestreo
de contenidos o error aleatorio. Sin embargo, suele interpretarse como proporción de va-
rianza de las puntuaciones en el test que es debida a las puntuaciones verdaderas.
98 Medición en Ciencias Sociales y de la Salud

Ejemplo 3.10. Coeficiente de fiabilidad por el método de las dos mitades

En la Tabla 3.8 se exponen los resultados de una muestra de 10 evaluados que responden
a un test de 6 ítems (X1, X2, …, X6) valorados de forma dicotómica. En este caso se ob-
tendría que rX I X P = 0,277, y por tanto:

2(0,277)
SB rXX = = 0,434
1 + 0,277

De nuevo el tope de rXX lo tenemos en 1, con lo que podemos decir que las dos mitades
del test no son muy consistentes entre sí. Únicamente un 43.4% de la varianza de las pun-
tuaciones empíricas se debe a la varianza de las verdaderas. No podríamos afirmar con su-
ficiente certeza que ambas mitades miden con precisión el rasgo de interés.

Tabla 3.8. Cálculo del coeficiente de fiabilidad por el método de las dos mitades
Evaluados X1 X2 X3 X4 X5 X6 XI XP X
1 1 0 1 0 1 0 3 0 3
2 0 1 1 1 0 1 1 3 4
3 0 0 1 0 0 0 1 0 1
4 0 1 1 1 0 0 1 2 3
5 0 0 0 1 0 0 0 1 1
6 1 1 1 1 1 1 3 3 6
7 1 1 1 1 1 1 3 3 6
8 0 1 1 1 0 1 1 3 4
9 0 1 0 0 0 0 0 1 1
10 0 0 0 1 0 0 0 1 1
Varianza (S2) 0,233 0,267 0,233 0,233 0,233 0,267 1,567 1,567 4

Al calcular el coeficiente de fiabilidad por el método de las dos mitades hay que tener en
cuenta varias precauciones:

1. La razón de dividir el test en la mitad par y la impar es garantizar su equivalencia. Los


tests de rendimiento óptimo suelen tener ítems ordenados en dificultad, de tal forma
que se comienza a responder a los ítems más fáciles hasta llegar a los situados al final
del test, que son los más difíciles. Si realizásemos la partición en dos mitades atendien-
do a su disposición en la prueba (la primera mitad formada por los primeros J/2 ítems,
la segunda por los J/2 ítems últimos) difícilmente podría cumplirse que ambas tuvieran
la misma media. Por ello, para obtener este coeficiente, hay que cuidar el modo en que
se forman las mitades para garantizar su paralelismo; así, ambas mitades deberían estar
equilibradas en cuanto a la dificultad, los contenidos y la posición media de sus ítems
en el test. Por ejemplo, si en un test de 20 ítems de Extraversión, 10 miden Sociabilidad
Capítulo 3. Modelo clásico y fiabilidad 99

y otros 10 miden Impulsividad, las dos formas que construyamos deberían estar equili-
bradas en el número de ítems de ambas facetas.
2. Si las respuestas a los ítems dependen demasiado de su orden serial en el test (p. ej., en
un test de velocidad) es preferible utilizar otros procedimientos para evitar que el coefi-
ciente de fiabilidad se sobrestime. También hay que ser cautos cuando existen grupos
de ítems que hacen referencia a un estímulo común (testlets); al repartir esos ítems a
través de las mitades, se puede sobrestimar el coeficiente de fiabilidad. En esos casos,
el hecho de que una persona obtenga la misma puntuación en las dos partes podrá ser
considerado un artefacto metodológico (p. ej., en una prueba de velocidad, la puntua-
ción en la parte del test formada por los ítems impares siempre será muy similar a la
puntuación en la parte del test formada por los ítems pares). En el caso de pruebas de
velocidad se recomienda no utilizar índices de consistencia interna (o proceder a la
eliminación del análisis de los ítems que no han sido alcanzados por un porcentaje de
personas). En el caso de ítems que hacen referencia a un estímulo común se recomien-
da que se mantengan en una misma mitad, ya que si se reparten entre las dos mitades se
sobrestimará el coeficiente de fiabilidad (ver Haertel, 2006).
3. Un inconveniente de este método es que existen muchas formas de dividir el test en dos
mitades y cada una de ellas arrojará un resultado distinto. De hecho, para McDonald
(1999) el procedimiento de las dos mitades no es recomendable porque introduce en su
estimación la variabilidad debida al método utilizado para dividir el test en dos.

Al calcular el coeficiente de fiabilidad mediante la fórmula de Spearman-Brown se asume


que las dos mitades son formas paralelas. Esto no ocurrirá cuando las dos mitades difieran
en el número de ítems (variarán las varianzas verdaderas y las varianzas de error). Por
ejemplo, cuando el número de ítems es impar, es incorrecto aplicar la fórmula de Spear-
man-Brown directamente, puesto que las dos formas ya no serían paralelas. En ese caso,
el coeficiente de fiabilidad obtenido por la fórmula de Spearman-Brown supone una pe-
queña subestimación del coeficiente de fiabilidad, por lo que puede calcularse un coefi-
ciente de fiabilidad corregido. En el capítulo 8 se muestran otras formas de calcular el co-
eficiente por el método de las dos mitades cuando las formas no son paralelas.

Coeficiente α de Cronbach
Como hemos indicado, existen muchas formas de dividir el test en dos mitades. Para re-
solver este problema se ha propuesto el coeficiente alfa, un indicador de consistencia in-
terna con el que se estudia la concordancia entre las puntuaciones de las personas entre las
partes más elementales del test: los ítems.
Considere que tenemos un test con J ítems:

X = ∑ X = ∑V +∑ E
j
j
j
j
j
j [3.25]

Si se cumplen los supuestos del Modelo Clásico podemos definir la proporción de varian-
za del test que es varianza verdadera:
100 Medición en Ciencias Sociales y de la Salud

σ V2
∑σj
2
Vj + ∑σ
j≠ j'
V jV j '

= [3.26]
σ X2 σ X2

Los parámetros que aparecen en el numerador se refieren a las puntuaciones verdaderas en


los ítems. Sin embargo, asumiendo los supuestos de la TCT, se cumplirá poblacionalmen-
te que el promedio de las covarianzas empíricas entre ítems es igual al promedio de las
covarianzas verdaderas:

∑σ
j≠ j'
X j X j' ∑σ
j≠ j'
V jV j '

= [3.27]
J ( J − 1) J ( J − 1)

y, por tanto:

∑σ
j≠ j'
V jV j ' = ∑σ
j≠ j'
X j X j' [3.28]

Por otro lado, la covarianza entre dos variables nunca puede ser mayor que la varianza de
cualquiera de ellas; por tanto, debe cumplirse siempre que el promedio de las covarianzas
verdaderas entre ítems es menor o igual que el promedio de sus varianzas verdaderas:

∑σ
j≠ j'
V jV j ' ∑σ j
2
Vj

≤ [3.29]
J ( J − 1) J

Y, por tanto, considerando [3.28] y [3.29]:

∑σ V jV j ' ∑σ X j X j'


j≠ j' j≠ j'
σ V2j ≥ = [3.30]
j
J −1 J −1

De las ecuaciones [3.26], [3.28] y [3.30] se deriva la siguiente relación:

∑σ X j X j'

∑ ∑σ ∑σ ∑σ
j≠ j'
σ V2j + V jV j ' + X j X j' X j X j'
σ V2 j j≠ j'
( J − 1) j≠ j' J j≠ j'
= ≥ = [3.31]
σ X2 σ X2 σ X2 J −1 σ X2
Capítulo 3. Modelo clásico y fiabilidad 101

Pues bien, el denominado coeficiente α (Cronbach, 1951) es:

J
∑σ
j≠ j'
X j X j'

α= [3.32]
J −1 σ X2

Y se dice que el coeficiente α es un límite inferior del coeficiente de fiabilidad, ya que


siempre toma valores iguales o por debajo de éste [ α ≤ σ V2 σ X2 ].
Para datos muestrales tres formas de expresar el coeficiente α serían4:

Ecuación 1 [3.33] Ecuación 2 [3.34] Ecuación 3 [3.35]

∑S X j X j'
J
∑S 2
Xj
α=
S X j X j'
J j≠ j' j
α= ( ) α= (1 − ) S
J −1 S X2 J −1 S X2

donde ∑S
j≠ j'
X j X j'
es la suma de las covarianzas entre ítems, ∑S
j
2
Xj es la suma de las va-

rianzas de los ítems, S X j X j ' indica el promedio de las covarianzas entre ítems
 
S X j Xl = 
 ∑ SX X 
j j' 
(J ( J − 1) ) y S es el promedio de los J 2 elementos de la matriz de
 j≠ j' 
 
varianzas-covarianzas entre ítems: S = 
 ∑S 2
Xj + ∑S X j X j'
 J2 .

 j j≠ j' 

El coeficiente α es útil para expresar en qué grado las medidas que obtenemos de las
personas dependen de los ítems aplicados. La pregunta a la que se responde es: ¿los eva-
luados habrían obtenido puntuaciones similares si hubiéramos aplicado otro test de la
misma longitud construido siguiendo la misma lógica?
El coeficiente α siempre toma valores menores o iguales a 1 (el numerador en la ecua-
ción 3.35 tiene que ser menor o igual que el denominador). Generalmente, toma valores
entre 0 y 1 pero puede ser negativo (el denominador en la ecuación 3.35 es siempre posi-
tivo, pero el numerador puede ser negativo). Valores del coeficiente próximos a 1 indican
fiabilidad alta; valores próximos a 0, fiabilidad baja.

4
Para comprobar la igualdad de las 3 ecuaciones, recordemos que la puntuación en el test es una combinación
lineal de las puntuaciones en los ítems y, por tanto, la varianza del test puede expresarse como la suma de las va-
rianzas y covarianzas entre ítems:

S X2 = ∑S
j
2
Xj + ∑S
j≠ j'
X j X j'
102 Medición en Ciencias Sociales y de la Salud

Ejemplo 3.11. Coeficiente alfa

Podemos calcular el coeficiente α con los datos del ejemplo de la Tabla 3.8. El coeficiente
α, en este caso, sería:

α=
J 
1−
∑S 2
Xj
 6
 =  0,233 + 0,267 + 0,233 + 0,233 + 0,233 + 0,267 
J − 1  S X2  5 1 − 4
 = 0,76
 
 

El coeficiente α obtenido representa un valor aceptable, pues se ha obtenido con sólo 6


ítems, que nos indica que existe un grado de covariación medio-alto entre los ítems.

La cuantía del coeficiente α depende de dos factores principalmente:

1. Consistencia interna o grado de covariación (correlación) promedio entre los ítems.


Como es lógico, un grado de covariación mayor entre dos ítems implica que el efecto
de aplicar uno u otro para puntuar a las personas es menos importante. Podemos obser-
var en la expresión [3.35] que el coeficiente α tendrá un valor mayor cuanto mayor sea
el promedio de las covarianzas. Asumirá valores cercanos a cero si el promedio de las
covarianzas es próximo a 0. El máximo valor de α es 1, ya que la covarianza entre dos
ítems nunca puede ser mayor que las varianzas de éstos (ya que el numerador nunca
puede ser mayor que el denominador). El grado de covariación será mayor si los ítems
están midiendo una única dimensión o rasgo (o dimensiones distintas pero correlacio-
nadas) y mayor cuanto mejor reflejen esa dimensión (o dimensiones). Sin embargo, y
para evitar malos entendidos, debemos recordar que α, por sí solo, no constituye un in-
dicador de unidimensionalidad ya que:

a. Se pueden estar midiendo distintas dimensiones pero correlacionadas.


b. La covariación promedio puede llegar a ser alta incluso si un conjunto reducido de
ítems no covarían con los demás.
c. Como se describe a continuación, cierto grado de multidimensionalidad del test pue-
de compensarse incrementando el número de ítems (Cortina, 1993; Streiner, 2003). Por
tanto, para concluir sobre la unidimensionalidad del test es aconsejable aplicar otras
técnicas estadísticas, como el Análisis Factorial (ver capítulos 6 y 10).

2. Número de ítems. En la ecuación [3.35] se observa también que el coeficiente α será


mayor cuanto mayor sea el número de ítems. En efecto, llamemos al promedio de las
varianzas de los ítems S X2 j :
Capítulo 3. Modelo clásico y fiabilidad 103

∑S
j
2
Xj

S X2 j =
J

La fórmula 3.35 se puede escribir como:

S X j X j'
J
S X j X j' S X2 j
α= =
JS X2 j + J ( J − 1) S X j X j ' S X j X j'
1 + ( J − 1)
J2 S X2 j

Si al añadir ítems se mantiene constante el cociente entre el promedio de las covarianzas


y el promedio de las varianzas, el valor del coeficiente α será mayor cuanto mayor sea
J. Puede observarse el parecido de la estructura de esta fórmula y la de Spearman-
Brown.

Ejemplo 3.12. Coeficiente alfa y unidimensionalidad del test

En las siguientes tablas (3.9, 3.10 y 3.11) se muestran las matrices de varianzas-
covarianzas entre los ítems de tres pruebas; los tests A y B tienen 6 ítems, mientras que el
C tiene 12 ítems. Los datos son ficticios para ilustrar mediante un ejemplo simple las pro-
piedades del coeficiente α. Para el test A:

J j≠ j'

SX X
j l
6  2,4 
α= ( ) =   = 0,74
J −1 SX 2 5  3,9 

Para el test B:

J j≠ j'

SX X
j l
6  2,4 
α= ( ) =   = 0,74
J −1 SX 2 5  3,9 

Para el test C:

J j≠ j'

SX X
j l
12  12 
α= ( 2
) =   = 0,87
J −1 SX 11  15 
104 Medición en Ciencias Sociales y de la Salud

Tabla 3.9. Matriz de varianzas-covarianzas entre ítems (Test A)


X1 X2 X3 X4 X5 X6
X1 0,25 0,20 0,20 0 0 0
X2 0,20 0,25 0,20 0 0 0
X3 0,20 0,20 0,25 0 0 0
X4 0 0 0 0,25 0,20 0,20
X5 0 0 0 0,20 0,25 0,20
X6 0 0 0 0,20 0,20 0,25

Tabla 3.10. Matriz de varianzas-covarianzas entre ítems (Test B)


X1 X2 X3 X4 X5 X6
X1 0,25 0,08 0,08 0,08 0,08 0,08
X2 0,08 0,25 0,08 0,08 0,08 0,08
X3 0,08 0,20 0,25 0,08 0,08 0,08
X4 0,08 0,08 0,08 0,25 0,08 0,08
X5 0,08 0,08 0,08 0,08 0,25 0,08
X6 0,08 0,08 0,08 0,08 0,08 0,25

Tabla 3.11. Matriz de varianzas-covarianzas entre ítems (Test C)


X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12
X1 0,25 0,20 0,20 0,20 0,20 0,20 0 0 0 0 0 0
X2 0,20 0,25 0,20 0,20 0,20 0,20 0 0 0 0 0 0
X3 0,20 0,20 0,25 0,20 0,20 0,20 0 0 0 0 0 0
X4 0,20 0,20 0,20 0,25 0,20 0,20 0 0 0 0 0 0
X5 0,20 0,20 0,20 0,20 0,25 0,20 0 0 0 0 0 0
X6 0,20 0,20 0,20 0,20 0,20 0,25 0 0 0 0 0 0
X7 0 0 0 0 0 0 0,25 0,20 0,20 0,20 0,20 0,20
X8 0 0 0 0 0 0 0,20 0,25 0,20 0,20 0,20 0,20
X9 0 0 0 0 0 0 0,20 0,20 0,25 0,20 0,20 0,20
X10 0 0 0 0 0 0 0,20 0,20 0,20 0,25 0,20 0,20
X11 0 0 0 0 0 0 0,20 0,20 0,20 0,20 0,25 0,20
X12 0 0 0 0 0 0 0,20 0,20 0,20 0,20 0,20 0,25

Podemos observar que los tests A y B tienen el mismo coeficiente α. Sin embargo, la in-
terpretación de los resultados sería bastante distinta. Aunque los dos tests tienen el mismo
número de ítems, la misma varianza y el mismo promedio para las covarianzas entre
ítems, el patrón de resultados es muy distinto atendiendo a las covarianzas concretas entre
ítems. En el test A los ítems miden dos dimensiones; los ítems del 1 al 3 miden una di-
mensión y los ítems del 4 al 6 miden otra dimensión. En el test B los 6 ítems miden una
única dimensión, aunque las covarianzas entre los ítems que covarían positivamente son
menores que las encontradas para el test A. Para el Test C se obtiene un coeficiente α su-
perior (0,87). Observe que a pesar del alto valor del coeficiente obtenido, los ítems tam-
bién miden dos dimensiones (los ítems del 1 al 6 miden una dimensión y los ítems del 7 al
12 miden otra dimensión). De hecho, las covarianzas entre los ítems que covarían positi-
Capítulo 3. Modelo clásico y fiabilidad 105

vamente son similares a las encontradas para los ítems que covarían en el Test A; sin em-
bargo, al ser el test más largo el coeficiente obtenido es mayor.

Lo anterior ilustra que la interpretación del coeficiente α debe complementarse con los re-
sultados obtenidos a partir del análisis de ítems y del Análisis Factorial. Un coeficiente α
bajo puede indicar que los diferentes ítems miden rasgos o constructos diferentes o que el
test es demasiado corto.
El coeficiente α puede interpretarse como una estimación “a la baja” del coeficiente
de fiabilidad como consistencia interna. Para interpretar el coeficiente α como un coefi-
ciente de fiabilidad del test se requiere asumir que todos los ítems son paralelos o, al me-
nos, esencialmente tau-equivalentes (ver capítulo 8 para la definición de tauequivalencia).
En la práctica, es muy difícil que esto se produzca. Cuando los ítems no son equivalentes,
el coeficiente alfa poblacional debe interpretarse como una subestimación del coeficiente
de fiabilidad como consitencia interna (Lord y Novick, 1968): α ≤ σ 2V / σ 2X. Esto quiere
decir que si obtenemos un coeficiente α de 0,7, el coeficiente de fiabilidad podría estar,
teóricamente, entre 0,7 y 1. Por tanto, en sentido estricto, el coeficiente α no puede inter-
pretarse como un coeficiente de fiabilidad.
Una ventaja del coeficiente α es que no requiere dividir el test en distintas mitades.
Cada test puede tener muchos coeficientes de fiabilidad por el método de las dos mitades
pero siempre tendrá, para una muestra concreta, un único coeficiente α. Sin embargo, al
calcular el coeficiente α hay que tener en cuenta una serie de precauciones, ya que adole-
ce de algunos problemas comunes a los otros indicadores de consistencia interna:

1. Las respuestas a los ítems pueden correlacionar excesivamente, independientemente de


su contenido, si el test es de velocidad o hay efectos de fatiga.
2. También hay que ser cauto cuando existen grupos de ítems que comparten su especifi-
cidad (p. ej., si conjuntos de ítems de un test de comprensión lectora se refieren a pasa-
jes comunes). En ambos casos es preferible obtener otros indicadores de fiabilidad.
Una solución sencilla para el último caso puede ser construir testlets (p. ej., cada testlet
sería la suma de las puntuaciones de los ítems que se refieren a un pasaje común) y cal-
cular el coeficiente alfa tomando los testlets como ítems.
3. Debe evitarse aumentar el coeficiente α artificialmente, incluyendo ítems redundantes
en el test (p. ej., ítems muy parecidos en el enunciado).
4. Finalmente, el coeficiente alfa no es sensible al efecto de los errores debidos a factores
transitorios (Becker, 2000; Green, 2003; Schmidt y Hunter, 1996, 1999). En la presen-
cia de este tipo de errores, el coeficiente α es una sobrestimación del coeficiente de fia-
bilidad.

El coeficiente α es probablemente el indicador de fiabilidad más utilizado (Hogan,


Benjamin y Brezinski, 2000). Sin embargo, la discusión sobre su interpretación sigue ge-
nerando polémica. En el número de marzo de 2009, una de las revistas psicométricas más
prestigiosas, Psychometrika, dedicó un número especial sobre la interpretación, usos, abu-
106 Medición en Ciencias Sociales y de la Salud

sos y alternativas al coeficiente α como aproximación a la fiabilidad. La interpretación del


coeficiente α puede ser especialmente problemática si el test no es unidimensional.
En relación al uso del test, debe distinguirse entre el valor del coeficiente alfa como un
indicador de la consistencia interna o como un indicador de que el test puede ser utilizado
en la práctica. Un coeficiente alfa de 0,60 puede indicar una alta consistencia interna si la
prueba tiene sólo 6 ítems. Sin embargo, esa alta consistencia interna no legitima su uso,
porque la precisión de nuestras medidas será claramente insuficiente.
Existen otros muchos indicadores relacionados con el coeficiente alfa, pero la mayoría
de ellos raramente son aplicados en la práctica. Por ejemplo, los coeficientes denominados
KR-21 y KR-20 (Kuder y Richardson, 1937) son casos particulares del coeficiente α para
ítems dicótomicos. Mientras que KR-20 es matemáticamente equivalente al coeficiente al-
fa, el coeficiente KR-21 no lo es, ya que en su cómputo se asume que los ítems tienen la
misma dificultad y se cumplirá siempre que KR-21 ≤ α.

El error típico de medida


Definición
Asumiendo el postulado fundamental del Modelo Clásico, que expresa la relación
X = V + E, hemos observado que se cumple la siguiente relación para datos poblacionales
σ 2X = σ 2V + σ 2E. También hemos demostrado que ρXX = 1 – σ 2E / σ 2X, de donde se dedu-
ce que la desviación típica de los errores puede obtenerse a partir de la expresión:

σ E = σ X 1 − ρ XX [3.36]

σE es la desviación típica de los errores al aplicar un test en la población. En el Modelo


Clásico suele asumirse que σE expresa también la desviación típica de los errores de me-
dida que obtendríamos, para una persona, al aplicarle distintas formas del test (σEi). Es de-
cir, que σEi = σE. A la desviación típica de los errores de medida (σE) se denomina error
típico de medida. Representa una medida de precisión: cuanto más cercano a 0 sea el error
típico de medida de un test, eso significará que dicho test proporciona a cada persona una
puntuación X cercana a su nivel de rasgo V. El error típico de medida es muy importante,
ya que indica la variabilidad de las puntuaciones X si tomáramos para la misma persona
distintas medidas. En efecto, para un individuo i, la variabilidad de las puntuaciones a
través de distintas formas paralelas se explica por la varianza de los errores (ya que, sien-
do su puntuación verdadera constante a través de las formas, σ 2Vi = 0):

σ X2 i = σ V2i + σ E2i = σ E2i

Si el error típico de medida σEi es 0, eso quiere decir que el evaluado i obtendrá siempre la
misma puntuación X en las distintas mediciones (como el test en ese caso es máximamen-
te preciso, la puntuación X del evaluado coincidirá siempre con su puntuación V). Cuanto
menos preciso sea el test, mayor será σEi. Si el coeficiente de fiabilidad de las puntuacio-
Capítulo 3. Modelo clásico y fiabilidad 107

nes fuera 0 (ρXX = 0), entonces el error típico de medida sería el máximo posible, σE = σX;
esto quiere decir que cuando trabajamos con una prueba poco precisa la variabilidad de las
puntuaciones observadas para una persona en distintas mediciones va a ser tan grande como
la variabilidad de las puntuaciones observadas en la población. Luego el test resultará poco
útil para informarnos sobre los niveles de atributo de las personas.

Ejemplo 3.13. Coeficiente de fiabilidad y error típico de medida

En la figura 3.2 se presentan 2 gráficos de dispersión entre V y X para dos tests. La media
y desviación típica de X son 50 y 9,65, respectivamente. El primero representa lo que ocu-
rre para un test con un coeficiente de fiabilidad de 0,9 y un error típico de 3,05 (relación
lineal positiva y elevada). El segundo, lo que ocurre para un test con un coeficiente de fia-
bilidad de 0 y un error típico de 9,65 (no existe relación lineal entre X y V).

Figura 3.2. Relación entre V y X para dos tests


90 90
80 80
70 70
60 60
50 50
X 40 X
40
30 30
20 20
10 10
0 0
0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100
V V

En la figura 3.3 se representa la puntuación media y la variabilidad en X como función de


V para esos mismos tests para las puntuaciones verdaderas entre 41 y 61.

Figura 3.3. Puntuación esperada y variabilidad en X como función de V para dos tests.
70 70

60 60

50 50

40 40
X X X

30
X

30

20 20

10 10

0 0
42 44 46 48 50 52 54 56 58 60 42 44 46 48 50 52 54 56 58 60
V V
108 Medición en Ciencias Sociales y de la Salud

Para el test con alta fiabilidad (izquierda) el valor esperado en X es función de V. Por
ejemplo, las personas con una puntuación verdadera de 45 tienen una puntuación esperada
en el test de 45 y sus puntuaciones suelen oscilar en la mayoría de los casos entre 42 y 48.
Para el test con fiabilidad nula (derecha), el valor esperado en X no depende de V. Por
ejemplo, las personas con una puntuación verdadera de 45 tienen una puntuación esperada
de 50 (la media del test) y sus puntuaciones suelen oscilar aproximadamente entre 40 y
60. En ese caso, la puntuación en el test no nos informa del nivel de rasgo. Puede obser-
varse que la amplitud de los intervalos en cada test (42-48 y 40-60) se relaciona inversa-
mente con su fiabilidad y es proporcional al error típico de medida.

De lo anterior debe deducirse que el tamaño del error típico de medida debe interpretarse
en relación a la variabilidad de las puntuaciones empíricas. Si σE es 1 y σX es 15, nuestro
test será más preciso que si σE es 0,8 y σX es 1.
En una muestra concreta el error típico de medida se estima como:

S E = S X 1 − rXX [3.37]

Ejemplo 3.14. Cálculo del error típico de medida

En un test la desviación típica es 2,832 y el coeficiente de fiabilidad es 0,771; el error típico


de medida se obtendría como:

S E = S X 1 − rXX ' = 2,832 1 − 0,771 = 1,355

Esto quiere decir que si aplicáramos a una persona tests paralelos, la desviación típica de
las puntuaciones empíricas sería 1,355.

Aplicaciones del error típico de medida


El error típico de medida nos sirve para saber: (1) el rango de puntuaciones en el cual se
encuentra la puntuación verdadera de una persona; (2) si la diferencia de puntuaciones ob-
servadas entre dos personas expresa una diferencia en parte verdadera; (3) si el cambio en
las puntuaciones observadas de una persona después de una intervención refleja un cam-
bio en parte verdadero.
Desde el Modelo Clásico se suele asumir que la distribución de las puntuaciones ob-
servadas de una persona en las distintas formas paralelas es normal, con media su puntua-
ción verdadera y desviación típica el error típico de medida:
Capítulo 3. Modelo clásico y fiabilidad 109

X i ~ N (Vi , σ E ) [3.38]

Puesto que se asume la distribución normal puede decirse que los valores de la variable
estarán entre el valor Vi – z1 – α/2σE y el valor Vi + z1 – α/2σE con una probabilidad 1 – α5,
donde z1 – α es el valor z que deja por debajo una probabilidad 1 – α en la distribución
normal. Por ejemplo, con α = 0,05, si σE = 1,355 y Vi = 5 podremos decir que los valores
de X estarán, en el 95% de las mediciones, entre 2,344 (= 5 – (1,96)1,355) y 7,656 (= 5 +
(1,96)1,355).
En la realidad operamos al revés, pues no conocemos Vi sino Xi y queremos establecer
un intervalo de confianza sobre Vi. Además, se trabaja con la estimación muestral del
error típico de medida. Para ello, se procede de la siguiente manera para establecer los
límites inferior y superior del intervalo de confianza:

V Li = X i − z1−α / 2 S E
[3.39]
V Ls = X i + z1−α / 2 S E

Por ejemplo, con α = 0,05, si SE = 1,355 y Xi = 5, diremos que los valores de Vi estarán
entre 2,344 (VLi = 5 – (1,96)1,355) y 7,656 (VLs = 5 + (1,96)1,355) con un nivel de con-
fianza del 95% (al establecer de ese modo el intervalo sobre la puntuación verdadera, nos
equivocaremos en nuestra afirmación en el 5% de los casos).
Además, mediante el error de medida podemos saber si una diferencia en puntuaciones
empíricas refleja una diferencia no nula de puntuaciones verdaderas. Por ejemplo, un test
impreciso puede proporcionar a dos personas puntuaciones empíricas diferentes aunque sus
niveles de rasgo sean iguales. Utilizando los procedimientos de la estadística inferencial, po-
demos contrastar con cierta probabilidad si dos puntuaciones empíricas diferentes suponen o
no niveles de rasgo distintos, o si un incremento en la puntuación empírica de una persona re-
fleja un incremento en su nivel de rasgo.
Para realizar el contraste, partimos de una situación en la que observamos una diferen-
cia entre dos puntuaciones empíricas obtenidas en el mismo test (o en tests paralelos), X1 y
X2, y queremos saber si la diferencia entre esas puntuaciones empíricas refleja una dife-
rencia en los niveles de rasgo verdaderos, V1 y V2. Partimos de que la diferencia entre X1
y X2 se distribuye normalmente:

X 1 − X 2 ~ N (V1 − V2 , S E 2 ) [3.40]

Y esto nos permite obtener:

( X 1 − X 2 ) − (V1 − V2 )
Z= ~ N (0,1)
SE 2

5
A pesar de denominarse de la misma forma, no debe confundirse el nivel de significación α de un contraste de
hipótesis (la probabilidad asociada a la zona de rechazo de H0) con el coeficiente α de Cronbach.
110 Medición en Ciencias Sociales y de la Salud

Lo más usual es contrastar si la diferencia entre X1 y X2 es estadísticamente distinta de 0.


Bajo la hipótesis nula, se considera que V1 – V2 = 0 (las puntuaciones verdaderas son igua-
les) y obtenemos el estadístico de contraste:

( X1 − X 2 )
Z= [3.41]
SE 2

El Cuadro 3.1 resume los pasos de este contraste. El contraste puede ser bilateral (p. ej., la
hipótesis nula es que no hay diferencias en puntuaciones verdaderas) o unilateral (p. ej., la
hipótesis nula es que la persona no ha mejorado su puntuación verdadera después del tra-
tamiento). Si el valor Z se encuentra en la zona crítica, admitiremos, con la probabilidad esta-
blecida α de equivocarnos, que las puntuaciones V1 y V2 son distintas (o que ha habido una
mejora). De lo contrario, admitiremos que, dada la precisión del test, no podemos concluir
que la diferencia en puntuaciones empíricas exprese una diferencia (o mejora) en el verdadero
nivel de rasgo. Como se muestra en el cuadro, también podemos establecer un intervalo de
confianza para la diferencia en puntuaciones verdaderas.

Cuadro 3.1. Resumen del contraste sobre puntuaciones verdaderas

1. Hipótesis:
a. Contraste bilateral: H0: V1 = V2 ; H1:V1 ≠ V2
b. Contraste unilateral derecho: H0: V1 ≤ V2 ; H1: V1 > V2
c. Contraste unilateral izquierdo: H0: V1 ≥ V2 ; H1: V1 < V2
2. Supuestos: Se asume una distribución normal para X 1 − X 2 ~ N (V1 − V2 , S E 2 )
3. Estadístico del contraste:

X1 − X 2
Z=
SE 2

4. Distribución muestral: Z se distribuye normalmente con media 0 y desviación


típica 1.
5. Zona crítica
a. Contraste bilateral: Z ≤ zα/2 y Z ≥ z1–α/2
b. Contraste unilateral derecho: Z ≥ z1–α/2
c. Contraste unilateral izquierdo: Z ≤ zα/2
6. Regla de decisión: se rechaza H0 si el estadístico de contraste cae en la zona críti-
ca; en caso contrario, se mantiene.
7. Intervalo de confianza: ICV1 −V2 = X 1 − X 2 ± z1−α / 2 S E 2
Capítulo 3. Modelo clásico y fiabilidad 111

Ejemplo 3.15. Contraste de puntuaciones verdaderas

En la escala de Neuroticismo de un test dos personas obtienen unas puntuaciones directas


de 13 y 15 puntos, respectivamente. La desviación típica del test es 2,832 y rXX = 0,77 .
El investigador se pregunta si, con un nivel de confianza del 95%, puede concluir que am-
bas personas difieren en el rasgo o nivel verdadero.
En este caso, los pasos a seguir serían:

1. Hipótesis: H0: V1 = V2; H1:V1 ≠ V2 (contraste bilateral).


2. Supuestos: Se asume una distribución normal para X 1 − X 2 ~ N (V1 − V2 , S E 2 ) .
3. Estadístico del contraste:

X 2 − X1 15 − 13 15 − 13
Z= = = = 1,044
SE 2 1,355 2 1,916

4. Distribución muestral: Z se distribuye normalmente con media 0 y desviación típica 1.


5. Zona crítica: Z ≤ –1,96 y Z ≥ 1,96
6. Regla de decisión: como –1,96 < 1,044 < 1,96, se mantiene H0.
7. Intervalo de confianza: ICV1 −V2 = X 1 − X 2 ± z1−α / 2 S E 2 =
= 2 ± 1,96(1,916) = (−1,756; 5,756)

Con un nivel de confianza del 95%, la zona de aceptación queda establecida entre los
límites z0,025 = –1,96 y z0,975 = 1,96, con lo cual, dada la precisión del test, no podemos
concluir, con α = 0,05, que las dos personas difieran en el verdadero nivel de rasgo. Esto
es lógico, ya que la diferencia encontrada entre las puntuaciones empíricas (2 puntos) no
es mucho mayor que el error típico de medida (1,355 puntos). El intervalo de confianza
nos dice que, con un nivel de confianza del 95%, la diferencia verdadera se encuentra
aproximadamente entre –1,756 puntos y 5,756 puntos, que es un intervalo relativamente
amplio. En esta escala, las diferencias entre dos puntuaciones empezarían a ser estadísti-
camente significativas (con α = 0,05) a partir de 3,756 ( ≅ 1,96(1,916)) puntos.

Formas de incrementar la fiabilidad de un test


Existen varias formas de incrementar la fiabilidad de un test:

1. Aumentar el número de ítems: Una de las maneras de incrementar la fiabilidad de un


test es aumentar el número de ítems. Para estudiar el efecto de la longitud del test, pue-
de aplicarse la fórmula de Spearman-Brown:
112 Medición en Ciencias Sociales y de la Salud

nrxx
R xx =
1 + (n − 1)rxx

Mediante la cual puede estudiarse cómo aumentaría la fiabilidad al incrementar el


número de ítems si no hay efectos de fatiga (que producen correlaciones entre los erro-
res de medida de los ítems), si las formas añadidas son paralelas y si los errores debidos
a factores transitorios son pequeños (Feldt y Brennan, 1989; Schmidt y otros, 2003).
Además, debe tenerse una precaución adicional: al añadir ítems nuevos no debe buscar-
se el aumento artificial del coeficiente α incluyendo ítems redundantes.
2. Eliminar ítems problemáticos. Además de incrementar el número de ítems, pueden eli-
minarse los ítems problemáticos (cuya correlación con la puntuación en el resto del test
es baja). Entre los ítems de igual variabilidad, los de mayor correlación biserial puntual
con el test, rbp , son los que más contribuyen a incrementar α ya que tendrán mayor
promedio de covarianzas con el resto de los ítems. Para ítems con igual varianza, α es
proporcional a los valores rbp de los ítems ya que:

 J 
 

 J  
 ∑ j =1
S X2 j 

α =  1 − 2  [3.42]
 J −1   J  
 
 
∑ S X j rbp , j 



  j =1  

Y, si las varianzas son iguales:

  J 
2 
J  
α= 1 − J
J −1 

 ∑ rbp , j 
 

[3.43]
  j =1  

Si en la fase de análisis de ítems tenemos como objetivo elaborar un test con elevada
consistencia interna, tenemos que quedarnos con los ítems que manifiestan una mayor
correlación ítem-test. Sin embargo, esta regla, de uso frecuente, debe aplicarse con pre-
caución ya que:

a. Si un ítem correlaciona de forma aceptable con el resto del test no debería eliminarse
incluso si con ello cambia poco o aumenta la fiabilidad, ya que existen otras propieda-
des psicométricas del test que podrían verse afectadas (p. ej., el nivel de representación
de los contenidos).
b. Si la muestra es pequeña, es probable que el aumento en el coeficiente α al quitar un
ítem con baja rbp no se replique en una nueva muestra.
Capítulo 3. Modelo clásico y fiabilidad 113

c. Si el objetivo del estudio psicométrico no es el desarrollo de un nuevo test puede ser


cuestionable la eliminación de ítems, pues ello dificultará la comparación de los coefi-
cientes de fiabilidad que se obtendrían con la nueva versión de la prueba.
3. Mejorar las condiciones de aplicación. Finalmente, tras la aplicación de un test pode-
mos detectar ciertos aspectos que se han podido descuidar (instrucciones de aplicación
poco claras, tiempos de aplicación inadecuados, etc.). Al homogeneizar al máximo las
condiciones de aplicación (especialmente en lo relativo a las instrucciones y a los tiem-
pos de aplicación de la prueba) haremos que éstas no incrementen la variabilidad error
en las puntuaciones.

Coeficiente de fiabilidad y características de la muestra


Actualmente se considera un error hablar de fiabilidad del test (Fan y Yin, 2003; Thomp-
son y Vacha-Haase, 2000). Parece que es más correcto hablar de fiabilidad de las puntua-
ciones obtenidas en el test. Más que un debate terminológico, lo que se pretende destacar
es que el coeficiente de fiabilidad obtenido para un test dependerá de la muestra de perso-
nas en la cual lo hayamos calculado (especialmente, de la variabilidad en la característica
medida), de las fuentes de error a las que es sensible el coeficiente obtenido y de la situa-
ción de aplicación (p. ej., de las instrucciones proporcionadas).
La variabilidad de las puntuaciones en la muestra es uno de los factores que más puede
afectar al valor del coeficiente de fiabilidad. Más concretamente, obtendremos un coefi-
ciente de fiabilidad mayor cuanto más heterogénea (mayor varianza en el rasgo) sea la
muestra. Por ejemplo, es usual que un test de Inteligencia obtenga un rXX mayor en una
muestra de la población general que una muestra de universitarios o en otra de personas
con deficiencias cognitivas. Esto se debe a que, en último término, el coeficiente de fiabi-
lidad es una correlación de Pearson y, por tanto, se ve afectado por los mismos factores
estadísticos que ésta.
Existen fórmulas para corregir los efectos de la variabilidad, denominas como fórmu-
las para la corrección del coeficiente de fiabilidad por restricción de rango. Su aplicación
no está exenta de supuestos (p. ej., que la varianza error se mantiene constante a través de
los grupos) y, por tanto, de críticas. En concreto, asumiendo que la varianza de los errores
es la misma en dos grupos (A y B), el coeficiente de fiabilidad en el grupo B puede obte-
nerse como:

σ X2 ( A) (1 − ρ XX ( A) )
ρ XX ( B ) = 1− [3.44]
σ X2 ( B )

donde ρxx(A) y ρxx(B) indican el coeficiente de fiabilidad en los grupos A y B respectivamen-


te; σ 2X(A) y σ 2X(B) indican las varianzas de las puntuaciones empíricas en los grupos A y B,
respectivamente. Esta fórmula no debería aplicarse si existen razones para pensar que los
grupos difieren en cuanto a la varianza de los errores (lo que puede ocurrir si la precisión
del test varía mucho dependiendo del nivel de rasgo).
114 Medición en Ciencias Sociales y de la Salud

Ejemplo 3.16. Corrección por restricción de rango

Tras un proceso de selección se ha aplicado una prueba de Extraversión al grupo de per-


sonas seleccionadas. Se obtiene un coeficiente de fiabilidad de 0,6 y una varianza de las
puntuaciones en el test de 7. El investigador se pregunta cuál habría sido el coeficiente de
fiabilidad si hubiera aplicado el test en el grupo completo de aspirantes que se presentaron
al proceso de selección. En el manual de la prueba se describe que su varianza es 10 en la
población. Asumiendo que en el grupo de aspirantes ésa sea la varianza, la estimación del
coeficiente de fiabilidad para dicho grupo será:

7(1 − 0,6 )
ρ XX = 1− = 0,72
10

Algunos autores consideran que en un grupo de aspirantes suele haber menor variabilidad
en el rasgo que en la población. Esto puede ocurrir por un efecto de autoselección (p. ej.,
si las personas poco extravertidas optan por no presentarse a trabajos en los que se de-
manda esa característica de personalidad). Estudios publicados previos pueden servir para
valorar el grado en que se produce este efecto para distintas características de personali-
dad y en distintos tipos de trabajos (ver por ejemplo, Ones y Viswesvaran, 2003).

Valores mínimos para los indicadores de fiabilidad


La falta de fiabilidad de las puntuaciones en un test supone que una parte importante de la
variabilidad de las puntuaciones es aleatoria. Ante este problema, la pregunta podría ser:
¿A partir de qué valor del coeficiente de fiabilidad aceptamos que las puntuaciones son
suficientemente fiables? La respuesta a esta pregunta es ambigua porque está mal formu-
lada. Es un error pensar que existen límites casi mágicos, como el 0,7, a partir de los cua-
les nos podemos olvidar de la falta de precisión de las puntuaciones del test (Schmidt y
Hunter, 1999). Este error surge a partir de los intentos de establecer guías que nos permi-
tan concretar valores mínimos de precisión para las pruebas. Por ejemplo, Nunnally
(1967) recomendaba inicialmente valores por encima de 0,5 o 0,6 en las fases tempranas
de la investigación; en versiones posteriores de su manual incrementaron el valor a 0,7
(Nunnally y Bernstein, 1994); para instrumentos que se vayan a utilizar en investigación
básica recomiendan un valor mínimo de 0,8 y si se va a hacer un uso clínico 0,9 es, para
ellos, el valor mínimo aceptable6. En realidad, el valor del coeficiente de fiabilidad que
podamos aceptar debe venir fijado más por el uso específico que se vaya a hacer del test
(p. ej., considerando la precisión requerida para ese uso o las consecuencias de la falta de

6
Aunque para Streiner este último criterio es demasiado exigente y puede resultar contraproducente ya que, en
su opinión, un valor tan alto sólo se puede obtener a costa de incrementar la redundancia de los ítems en el test
(Streiner, 2003).
Capítulo 3. Modelo clásico y fiabilidad 115

precisión) que por una regla mágica, por muy consensuada que pueda estar. Sirvan como
ejemplo estos tres ámbitos de uso de las puntuaciones en un test:

1. En contextos de investigación básica, para estudiar las relaciones entre constructos.


Por ejemplo, Schmidt y Hunter (1999) muestran que la correlación entre dos variables
medidas con pruebas cuyo coeficiente de fiabilidad sea 0,70 se verá subestimada, en
promedio, en un 30% (p. ej., una correlación de 0,3 pasará a ser una correlación de
0,21). Esto puede hacer que relaciones reales dejen de ser estadísticamente significati-
vas. Lo mismo ocurre si estamos comparando las puntuaciones medias de los evaluados
en dos grupos (p. ej., experimental y control). Si el test no resulta suficientemente fia-
ble, las diferencias no serán estadísticamente significativas. En este tipo de situaciones,
una forma adecuada de plantearnos la pregunta es: ¿son las puntuaciones en el test lo
suficientemente fiables para detectar la relación o efecto que se pretende detectar dados
los tamaños muestrales de los grupos?
2. En contextos de selección, para elegir a los candidatos aptos para el puesto. En estos
contextos es frecuente que haya un límite en el número de plazas ofertadas. En ese ca-
so, los requerimientos en relación a la fiabilidad del test aplicado pueden depender de
su uso (es diferente aplicarlo como filtro que para tomar decisiones finales), de la ratio
de selección (p. ej., si se debe seleccionar al 20% con puntuaciones superiores o si se
debe seleccionar al 10%), de la proporción de aspirantes aptos para el puesto y de otras
consecuencias que pueda tener la aplicación.
3. En contextos de evaluación diagnóstica o de certificación, para clasificar a los evalua-
dos en relación con varias categorías o puntos de corte. En ese caso, la precisión re-
querida dependerá de los niveles de puntuaciones que deseamos discriminar y de las
consecuencias que pueda tener una clasificación errónea. Cuanto más próximos sean
los niveles de rasgo en los que se quiere discriminar y más graves las consecuencias de
una decisión errónea, mayor será la fiabilidad requerida.

Software para la Teoría Clásica de los Tests


Los programas estadísticos de carácter general (SPSS, SAS, STATISTICA) proporcionan
diversos indicadores psicométricos de fiabilidad según el Modelo Clásico. Los programas
comerciales como LERTAP 5 (Nelson, 2001) e ITEMAN (ASC, 1988) permiten el análi-
sis clásico de ítems y ofrecen distinta información sobre la fiabilidad de las puntuaciones
en el test. Los programas TAP (Brooks y Johanson, 2003) y CIA (Kim, 1999) son muy
similares al programa ITEMAN en cuanto a su funcionalidad y son de libre distribución.
El programa CLM (López-Pina, 2005), también de libre distribución, proporciona un gran
número de indicadores de fiabilidad. TIAPLUS, desarrollado en uno de los centros de in-
vestigación psicométrica más prestigiosos (CITO, 2006) permite también el análisis clási-
co de ítems y la obtención de distintos estadísticos para el estudio de la fiabilidad. En Es-
paña, Renom y colaboradores (2007) han desarrollado una plataforma web (www.etest.es)
de análisis psicométrico que integra distintas herramientas desarrolladas previamente por
el equipo (METRIX, X-PAT, etc.).
116 Medición en Ciencias Sociales y de la Salud

Indicadores de fiabilidad con SPSS


Los indicadores de fiabilidad pueden obtenerse en SPSS dentro del menú Analizar > Es-
cala > Análisis de fiabilidad. Para obtener el coeficiente de fiabilidad por el método de
las dos mitades debe elegirse (en la pestaña correspondiente) el modelo dos mitades. El
orden en el que se introducen las variables (i. e., los ítems) en la lista Elementos determi-
na qué ítems forman cada mitad. Si el número de ítems es par, las primeras J/2 variables
formarán la primera mitad y las siguientes J/2 variables formarán la segunda mitad del
test. Si el número de ítems es impar, las primeras (J+1)/2 variables formarán parte de la
primera mitad y las siguientes (J – 1)/ 2 variables formarán la segunda mitad del test. En
la salida de resultados se ofrece el coeficiente SBrXX, denominado como Coeficiente de
Spearman-Brown (Longitud igual). Si el número de ítems es impar, entonces obtendre-
mos el coeficiente corregido [Coeficiente de Spearman-Brown (Longitud desigual)].
El coeficiente α puede obtenerse en SPSS eligiendo el modelo Alfa dentro del menú
Analizar > Escala > Análisis de fiabilidad. En la salida de resultados se ofrece el coefi-
ciente α etiquetado como “Alfa de Cronbach” y el coeficiente α z etiquetado como “Alfa
de Cronbach basado en los elementos tipificados”. Este último resulta de aplicar la
fórmula tras transformar las puntuaciones a escala típica, lo que puede ser conveniente si
los ítems tienen diferente formato de respuesta.

Ejemplo 3.17. Coeficiente de fiabilidad por el método de las dos mitades con SPSS

En una prueba de 11 ítems de Neuroticismo aplicada a 1569 evaluados, se obtuvieron en


SPSS los resultados que aparecen en las siguientes tablas.

Tabla 3.12. Estadísticos de fiabilidad con el modelo Dos mitades en SPSS


Correlación entre formas 0,589
Coeficiente de Spearman-Brown Longitud igual 0,741
Longitud desigual 0,743
Dos mitades de Guttman 0,739

Tabla 3.13. Estadísticos descriptivos con el modelo Dos mitades en SPSS


Media Varianza Desviación típica Nº de elementos
Parte 1 3,78 2,793 1,671 6a
Parte 2 2,56 2,264 1,505 5b
Ambas partes 6,34 8,019 2,832 11
a. Los elementos son: u1, u2, u3, u4, u5, u6.
b. Los elementos son: u7, u8, u9, u10, u11.
Capítulo 3. Modelo clásico y fiabilidad 117

Tabla 3.14. Estadísticos de fiabilidad con el modelo Alfa en SPSS


Alfa de Cronbach Alfa de Cronbach basada en los elementos tipificados Nº de elementos
0,771 0,773 11

En este caso, SBrXX es igual a 0,741 y el valor corregido, 0,743. Como puede observarse,
los valores son bastante parecidos. Concluiríamos que el 74% de la varianza del test se
debe a la varianza verdadera en el nivel de rasgo. En este caso el coeficiente α es 0,771, lo
que indica que el grado de consistencia interna (o covariación media entre los ítems) es
medio-alto. Además, el coeficiente α es mayor que el coeficiente de fiabilidad por el
método de las dos mitades. Esto quiere decir que probablemente existen otras formas de
dividir el test en dos mitades que dan lugar a mayores coeficientes de fiabilidad.

Apéndice

Otras consideraciones sobre el concepto de puntuación verdadera

A lo largo del capítulo hemos ofrecido una definición operacional de puntuación verdadera, según la
cual se considera como el promedio (valor esperado) de las puntuaciones observadas que obtendría
una persona en un número elevado de aplicaciones: Vi = εf (Xif). Es importante ser consciente de que
a partir de esta definición se establece que la puntuación verdadera depende no sólo de la persona
sino del instrumento utilizado y de las condiciones de aplicación. Por tanto, la puntuación verdadera
de una persona dependerá de su nivel de rasgo, de las propiedades del instrumento de medición (di-
ficultad de los ítems, longitud del test, etc.) y de las condiciones de aplicación (p. ej., en qué grado
las instrucciones le alientan a responder al azar cuando desconoce la respuesta). Si el test fuera una
prueba de conocimientos de 30 ítems, que se aplica informando a los evaluados que se les van a pe-
nalizar los errores, la puntuación verdadera de una persona es la puntuación promedio que obtendría
en distintas pruebas de conocimientos de 30 ítems con las mismas especificaciones de contenido, di-
ficultad e instrucciones de aplicación (p. ej., en relación a la penalización de los errores).
El tema es más complejo de lo que parece a primera vista. Si una característica de la aplicación
(p. ej., tiempo de aplicación de la prueba) se mantiene constante a través del proceso de medición,
su efecto en las puntuaciones observadas pasará automáticamente a formar parte de la puntuación
verdadera (en ese caso, una puntuación verdadera específica que reflejaría el valor del atributo en el
contexto concreto de aplicación). Por otro lado, si la misma característica de la aplicación no está
controlada por el aplicador y fluctúa de una ocasión a otra, la puntuación verdadera (que podríamos
denominar genérica) reflejaría un efecto promedio de la variable de aplicación y la variabilidad en
las puntuaciones observadas provocada por la variabilidad en las condiciones de aplicación pasaría a
formar parte del error.
Todo lo anterior implica que la puntuación verdadera no tiene por qué representar el nivel ver-
dadero en el atributo que pretendemos medir; V es, simplemente, un promedio de lo que la persona
obtendría en tests “como el nuestro”. El coeficiente de fiabilidad sólo nos informa de cómo variaría
la puntuación X de la persona en distintas aplicaciones. Desde luego, un coeficiente de fiabilidad ba-
jo indica que estamos midiendo un atributo de forma imprecisa, pero un coeficiente de fiabilidad al-
118 Medición en Ciencias Sociales y de la Salud

to no implica necesariamente que estemos midiendo el atributo que queremos medir. Esto último es
una cuestión de validez de las puntuaciones, a la que se dedicará el capítulo 5.

Intervalos de confianza para los estimadores de fiabilidad


Cada vez es más frecuente que para cualquier índice estadístico se exija informar del intervalo con-
fidencial, que nos indica entre qué valores puede encontrarse el estadístico en la población. Por
ejemplo, un valor rXX = 0,7 es poco informativo si se ha obtenido en una muestra de 20 personas.
Fan y Thompson (2001) resumen los procedimientos más usuales para construir intervalos de con-
fianza.

Coeficiente α

En este apartado utilizaremos el símbolo α̂ para referirnos al valor del coeficiente obtenido en la
muestra y el símbolo α para referirnos al valor del coeficiente obtenido en la población. Para el co-
eficiente α, el intervalo de confianza puede obtenerse de la forma:

ICinf (α ) = 1 − (1 − αˆ ) Fα / 2, gl1, gl 2 ICsup (α ) = 1 − (1 − αˆ ) F1−α / 2, gl1, gl 2

donde ICinf (α ) y ICsup (α ) son los límites inferior y superior del intervalo respectivamente; α̂
es la estimación muestral de α; F representa los valores de la distribución F para los valores de pro-
babilidad acumulada α/2 y 1 – α/2, con grados de libertad gl1 = (N – 1) y gl2 = (N – 1)(J – 1).

Coeficientes de fiabilidad como correlación entre formas paralelas y fiabilidad test-retest

Para coeficientes de fiabilidad que pueden interpretarse directamente como correlaciones (coeficien-
te de fiabilidad test-retest, coeficiente de fiabilidad como correlación entre formas paralelas) se pue-
den aplicar los procedimientos estadísticos usuales cuando se trabaja con correlaciones; los límites
del intervalo confidencial se pueden obtener mediante los siguientes pasos:

1. Se transforma el coeficiente de fiabilidad, mediante una transformación Z de Fisher:

 1 + rXX 
z rXX = 0,5 ln 

 1 − rXX 

2. Se calcula la desviación típica de la distribución muestral de z rxx :

1
σ zr =
XX
N −3

3. Se obtienen los intervalos de confianza para z rxx :

ICinf ( z rXX ) = z rXX − z1−α / 2σ zr ICsup ( z rXX ) = z rXX + z1−α / 2σ zr


XX XX
Capítulo 3. Modelo clásico y fiabilidad 119

4. Se transforman los límites del intervalo a la escala de correlaciones, mediante una transformación
inversa Z de Fisher:

exp(2 ICinf ( z rXX )) − 1 exp(2 ICsup ( z rXX )) − 1


ICinf (rXX ) = ICsup (rXX ) =
exp(2 ICinf ( z rXX )) + 1 exp(2 ICsup ( z rXX )) + 1

Coeficiente de fiabilidad por el método de las dos mitades

Para el coficiente de fiabilidad por el método de las dos mitades se puede obtener el intervalo de
confianza de una forma similar. Recuerde que el punto de partida es la correlación entre las dos mi-
tades, rX I X P . Podemos calcular los intervalos de confianza para la correlación rX I X P , siguiendo el
procedimiento anterior:

exp(2 ICinf ( z rX )) − 1 exp(2 ICsup ( z rX )) − 1


I XP I XP
ICinf (rX I X P ) = ICsup (rX I X P ) =
exp(2 ICinf ( z rX )) + 1 exp(2 ICsup ( z rX )) + 1
I XP I XP

y aplicar la fórmula de Spearman-Brown para obtener los límites del intervalo:

2 ICinf (rX I X P ) 2 ICsup (rX I X P )


IC (rXX ) = IC (rXX ) =
inf 1 + IC ( rX I X P ) sup 1 + ICsup (rX I X P )
inf

Ejemplo 3.18. Intervalos de confianza para los coeficientes de fiabilidad

Coeficiente alfa

En una muestra de 1.569 personas y un test de 11 ítems, se obtuvo un α̂ = 0,771; en ese caso, los
límites del intervalo de confianza (con un nivel de confianza del 95%) para el coeficiente α son:

ICinf (α ) = 1 − ((1 − αˆ ) Fα / 2, gl1, gl 2 ) = 1 − ((1 − 0,771)1,075) = 0,754

ICsup (α ) = 1 − ((1 − αˆ ) F1−α / 2, gl1, gl 2 ) = 1 − ((1 − 0,771)0,928) = 0,787

Lo que indica que podemos afirmar, con una confianza del 95%, que el coeficiente α en la pobla-
ción se encuentra entre 0,754 y 0,787. En este caso, el intervalo es estrecho porque el tamaño de la
muestra es grande (N = 1569). También puede obtenerse el intervalo de confianza con SPSS. En el
menú Escalas > Análisis de fiabilidad, se selecciona el modelo Alfa; en Estadísticos, se selecciona
Coeficiente de correlación intraclase (Modelo: Dos factores, efectos mixtos; Tipo: consistencia)
y se obtiene una tabla similar a la 3.15.
120 Medición en Ciencias Sociales y de la Salud

Tabla 3.15. Coeficiente de correlación intraclase


Intervalo de confianza 95%
Correlación intraclase Límite inferior Límite superior
Medidas promedio 0,771 0,754 0,787

Coeficiente de fiabilidad como correlación entre formas paralelas

En la misma muestra, la correlación entre el test de 11 ítems y otra forma paralela es también rxx =
0,771. Los intervalos de confianza, con un nivel de confianza del 95%, se obtendrían siguiendo los
pasos previamente mostrados:

1. Transformación de rxx a Z de Fisher:

 1 + rXX   1 + 0,771 
z rXX = 0,5 ln  = 0,5 ln  = 1,023

 1 − rXX   1 − 0,771 

2. Se obtienen los intervalos de confianza para z rxx :

1
ICinf ( z rXX ) = z rXX − z1−α / 2σ zr = 1,023 − 1,96 = 0,973
XX
1566
1
ICsup ( z rXX ) = z rXX + z1−α / 2σ zr = 1,023 + 1,96 = 1,072
XX
1566

4. Se aplica la transformación inversa Z de Fisher:

exp(2 ICinf ( z rXX )) − 1 exp(2(0,973)) − 1


ICinf (rXX ) = = = 0,750
exp(2 ICinf ( z rXX )) + 1 exp(2(0,973)) + 1
exp(2 ICsup ( z rXX )) − 1 exp(2(1,072)) − 1
ICsup (rXX ) = = = 0,790
exp(2 ICsup ( z rXX )) + 1 exp(2(1,072)) + 1

Lo que indicaría que podemos afirmar, con una probabilidad 0,05 de equivocarnos, que el coeficien-
te de fiabilidad en la población estará entre 0,75 y 0,79.

Coeficiente de fiabilidad por el método de las dos mitades

Obtenemos, para los mismos datos, que la correlación entre formas es 0,589 y el coeficiente de fia-
bilidad por el método de las dos mitades es 0,741. Los intervalos de confianza pueden obtenerse rea-
lizando los siguientes cálculos:
Capítulo 3. Modelo clásico y fiabilidad 121

1. Transformación de rX
I XP
a Z de Fisher:

 1 + rrX X 
z rX = 0,5 ln I P  = 0,5 ln 1 + 0,589  = 0,676
I XP 1− r   1 − 0,589 
 rXI XP   

2. Se obtienen los intervalos de confianza para la Z de Fisher:

1
ICinf ( z rX ) = z rX − z1−α / 2σ zr = 0,676 − 1,96 = 0,627
I XP I XP XI XP
1566
1
ICsup ( z rX ) = z rX + z1−α / 2σ zr = 0,676 + 1,96 = 0,726
I XP I XP XI XP
1566

3. Se aplica la transformación inversa Z de Fisher:

exp(2 ICinf ( z rX )) − 1 exp(2(0,627)) − 1


I XP
ICinf ( rX I X P ) = = = 0,556
exp(2 ICinf ( z rX )) + 1 exp(2(0,627)) + 1
I XP

exp(2 ICsup ( z rX )) − 1 exp(2(0,726)) − 1


I XP
ICsup ( rX I X P ) = = = 0,620
exp(2 ICsup ( z rX )) + 1 exp(2(0,726)) + 1
I XP

4. Se obtienen los intervalos:

2 ICinf (rX I X P ) 2(0,556)


ICinf (rXX ) = = = 0,715
1 + ICinf (rX I X P ) 1 + 0,556
2 ICsup (rX I X P ) 2(0,620)
ICsup (rXX ) = = = 0,765
1 + ICsup (rX I X P ) 1 + 0,620

Lo que indicaría que podemos afirmar, con una probabilidad 0,05 de equivocarnos, que el coeficien-
te de fiabilidad en la población estará entre 0,715 y 0,765.

4
Introducción a la Teoría de la
Respuesta al Ítem

Introducción
La Teoría Clásica de los Tests (TCT) continúa siendo el modelo predominante para la
construcción de tests psicológicos tanto por la sencillez de sus procedimientos y supuestos
como por su demostrada utilidad práctica. Sin embargo, se conocen bien las limitaciones
teóricas del modelo clásico y se ha desarrollado un nuevo enfoque psicométrico, la Teoría de
la Respuesta al Ítem (TRI), que permite superarlas. La TRI supone una aproximación más
fina en el estudio de las propiedades psicométricas de un test, ya que modela de forma
más realista las respuestas de las personas, toma los ítems como unidad de análisis y
permite describir algunas propiedades psicométricas del instrumento mediante indicadores
invariantes, que no dependen de la muestra en la que se aplique (siempre que se cumplan
una serie de supuestos).
Los principios de la TRI se remontan a los trabajos de Thurstone (1925; 1927), Lawley
(1943), Guttman (1944) y Lazarsfeld (1950; 1959). El interés era obtener instrumentos de
medida cuyas propiedades no dependieran de la muestra en la que se aplicaran. Fue Lord
(1952) quien hizo la aportación definitiva, presentando el primer modelo de TRI en un
monográfico de la revista Psychometrika. Sin embargo, es después de los años sesenta
cuando se empiezan a desarrollar nuevos modelos y procedimientos que facilitan su
aplicabilidad (Rasch, 1960; Lord y Novick, 1968). En los ochenta, será Lord el que acuñe
la denominación de Teoría de la Respuesta al Ítem (Lord, 1980) y se publican diversos
libros que constituyen las obras de referencia sobre la TRI (Hambleton y Swaminathan,
1985; Hambleton, Swaminathan y Rogers, 1991; Hulin, Drasgow y Parsons, 1983; Lord,
1980). Después de los ochenta, y sobre todo en las dos últimas décadas, no han dejado de
proponerse nuevos modelos y aplicaciones de la TRI. Descripciones de los viejos y
nuevos modelos pueden encontrarse en numerosas fuentes, en inglés (De Ayala, 2009;
124 Medición en Ciencias Sociales y de la Salud

Embretson y Hershberger, 1999; Embretson y Reise, 2000; Ostini y Nering, 2006; Thissen
y Wainer, 2001; Van der Linden y Hambleton, 1997) y en español (López-Pina, 1995;
Martínez Arias et al., 2006; Muñiz, 1996, 1997; Revuelta, Abad y Ponsoda, 2006).
Hasta hace poco, en España existían pocos instrumentos psicológicos desarrollados
exclusivamente en el marco de la TRI. Una razón es que los nuevos procedimientos de la
TRI son más costosos, complejos y exigentes en las comprobaciones de los supuestos. Sin
embargo, en otros países, su uso es muy frecuente en pruebas de selección o acreditación
aplicadas a grandes muestras (p. ej., SAT, GRE, TOEFL, ASVAB, etc.) y en contextos de
evaluación educativa. La TRI se ha convertido también en una herramienta indispensable
cuando se quiere comparar las diferencias entre diversos países o culturas (p. ej., en los tests
que forman el TIMSS o las pruebas educativas del proyecto OECD/PISA). En España, son
cada vez más los tests basados específicamente en la TRI o en los que se complementa el
estudio psicométrico realizado desde la TCT. También son cada vez más frecuentes los
trabajos de investigación aplicada sustentados en estos modelos y el desarrollo de ciertos
tipos de tests que requieren de la TRI, como son los Tests Adaptativos Informatizados, de los
cuales existen ya diversas versiones operativas para evaluar diferentes atributos.
El presente capítulo representa una introducción al tema, incluyendo únicamente
aspectos generales y los modelos de TRI para ítems de rendimiento óptimo, donde cada
respuesta es cuantificada como acierto o error. En los capítulos 11 y 12 se profundiza en
los procedimientos estadísticos de estimación y ajuste, así como en otro tipo de modelos.
En los capítulos 13 y 15 se describen algunas de las principales aplicaciones.

Limitaciones de la TCT
Existen diversas razones por las que la TRI supone un modelo teóricamente más adecuado
que la TCT. Entre las limitaciones de la TCT, superables desde la TRI, cabe destacar:

1. Ausencia de invarianza de los parámetros. En la TCT la puntuación verdadera Vi es un


parámetro de la persona cuyo valor depende del conjunto particular de ítems adminis-
trados. Es claro que distintos tests, con distinta longitud o distinta dificultad, darán lu-
gar a distinta puntuación verdadera para la misma persona. No parece razonable un
modelo en el que la puntuación verdadera de la persona depende de la versión del test
que apliquemos (p. ej., fácil o difícil). Por otro lado, las propiedades psicométricas de
los ítems (su media, su varianza, su índice de discriminación, etc.) también dependen
de la distribución del rasgo en la muestra donde se obtienen. La TCT no proporciona
un modo sencillo de saber cuál sería la dificultad de un ítem en otra muestra distinta a
la que se ha aplicado el test. Frente a la TCT, una de las propiedades de la TRI es que
los parámetros estimados son invariantes si se cumplen los supuestos del modelo; de
esta manera, en la TRI, el valor del parámetro que indica el verdadero nivel de rasgo de
un evaluado no depende de los ítems aplicados (p. ej., si son fáciles o difíciles). Asi-
mismo, el valor de los parámetros de los ítems no depende de la muestra donde se ob-
tienen (p. ej., si es de alto o bajo nivel de habilidad).
2. Se asume que la precisión del test es la misma, independientemente del nivel de rasgo
medido. Sin embargo, un test puede ser más o menos preciso para un nivel de rasgo en
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 125

función, por ejemplo, de la dificultad de los ítems aplicados; si los ítems son difíciles,
el test discriminará mejor en los niveles altos. La TRI permite obtener la precisión con
la que cada persona es medida, según su nivel de rasgo y en función de los ítems con-
cretos que se le hayan aplicado.
3. No se dispone de indicadores de bondad de ajuste que nos informen del grado en que
el modelo se ajusta a los datos. Los supuestos de paralelismo son los únicos contrasta-
bles empíricamente (ver capítulo 10), pero raramente se realizan estas comprobaciones
pues, por un lado, requieren la elaboración de distintas formas del test y, por otro, se
sabe que el supuesto de paralelismo estricto raramente se cumple, dado que es muy
difícil elaborar tests que sean realmente paralelos. En la TRI se dispone de indicadores
de bondad de ajuste que permiten estudiar el grado en que los datos se ajustan al mode-
lo y a los supuestos establecidos.

La TRI permite superar varias de las limitaciones de la TCT mediante una metodología
más compleja, que requiere establecer modelos matemáticos, la estimación de sus paráme-
tros y enjuiciar el ajuste entre datos y modelos.

La Curva Característica del Ítem


Para comenzar a resolver las limitaciones de la TCT, lo primero que se necesita es un mo-
delo que nos indique cómo varía la dificultad de un ítem en función del nivel de rasgo. Pa-
ra ello, desde la TRI se ha desarrollado el concepto de Curva Característica del Ítem
(CCI). Una CCI nos indica la probabilidad que tienen de acertar un ítem las personas que
lo responden. Esta probabilidad depende, naturalmente, del nivel de la persona en la va-
riable medida, pero también de las características del ítem en concreto.
Podemos ver esto mediante un ejemplo. Supongamos que tenemos un test largo que
mide Capacidad de Razonamiento Inductivo y que ha sido aplicado a una muestra nume-
rosa de personas (100.000, por ejemplo). Supongamos que la menor y mayor puntuación
obtenidas en el test son 50 y 150 y que la puntuación en el test sea un buen indicador del
nivel de rasgo verdadero. Para trabajar en una escala de interpretación más clara, utiliza-
remos la puntuación en el test en puntuaciones típicas (–3 indica una puntuación baja, 0
una puntuación media y 3 una puntuación alta). Vamos a representar el rendimiento en un
ítem concreto de la siguiente forma: Nos fijamos en todas las personas que han obtenido
la puntuación en torno a –3 (supongamos que son 132) y vemos cuántas han acertado el
ítem (supongamos que han sido sólo 5) y calculamos la proporción (5/132 = 0,04). Hace-
mos lo mismo con los que obtuvieron en el test una puntuación en torno a –2,9 puntos (y
obtenemos la proporción, supongamos que 0,15),... con las que obtuvieron en el test pun-
tuación en torno a 0,0 (la proporción fue 0,48),... con las que obtuvieron puntuación en
torno a 3 (la proporción fue 0,98). La Figura 4.1 muestra la proporción de aciertos en el
grupo de personas que obtuvo en el test puntuaciones en torno a –3, –2,9, –2,8, etc.
Puede verse que cuanto mayor es la puntuación en el test, mayor es la proporción de
aciertos en el ítem. A una puntuación de 0 le corresponde una proporción de 0,48, lo que
indica que para personas con ese nivel de rendimiento en el test resultará un ítem de difi-
cultad intermedia; mientras que a una puntuación de 3,0 le corresponde una proporción de
126 Medición en Ciencias Sociales y de la Salud

0,98 (el ítem resultará fácil para ese nivel). La función de la Figura 4.1 suele denominarse
CCI empírica.

Figura 4.1. CCI empírica. Probabilidad de acierto a un ítem en función de la puntuación tipificada (Z)
1,0
Probabilidad de acierto en el ítem (P)

0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
-3 -2 -1 0 1 2 3
Capacidad de Razonamiento Inductivo (z)

Desde la TRI se resume la información que contiene cada CCI empírica en una fórmula o
modelo en el que (con uno, dos o tres parámetros del ítem) se recoge la información con-
tenida en la función. Por tanto, en la aplicación de de la TRI, un paso inexcusable es optar
por un modelo que sea una buena descripción del rendimiento en los ítems.
En la Figura 4.2 se representan dos de los muchos modelos que podrían aplicarse.
En la figura de la izquierda se ha aplicado un modelo lineal que, en el ejemplo, sigue la
siguiente ecuación:

P = 0,177 Z + 0,492

Un inconveniente de este modelo es que para niveles de rasgo extremos pueden obtenerse
valores de P imposibles (negativos o mayores que uno).
En la figura de la derecha se ha aplicado un modelo logístico que, en el ejemplo, sigue
la siguiente ecuación:

1
P= −1,1Z + 0, 05
1+ e

donde e es la base de los logaritmos neperianos (2,718). En este modelo, el valor de P ne-
cesariamente estará comprendido entre 0 y 1. Ésta es una de las razones por la que en TRI
suelen aplicarse los modelos logísticos. Una de las características de los modelos logísti-
cos es que la razón entre p y 1 – p se incrementa exponencialmente en relación a z. La
forma exacta de la función exponencial dependerá de las características del ítem.
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 127

Figura 4.2. CCI según un modelo teórico. Modelo lineal (arriba) y Modelo logístico (abajo)
1,0 1,0
P = 0,177z + 0,492 P = 1 / (1 + exp (-1,1 z + 0,05))

Probabilidad de acierto en el ítem (P)


0,9
Probabilidad de acierto en el ítem (P)

0,9
0,8 0,8
0,7 0,7
0,6 0,6
0,5 0,5
0,4 0,4
0,3 0,3
0,2 0,2
0,1 0,1
0,0 0,0
-0,1 -3 -2 -1 0 1 2 3 -0,1 -3 -2 -1 0 1 2 3
-0,2 -0,2

Capacidad de Razonamiento Inductivo (z) Capacidad de Razonamiento Inductivo (z)

Modelos de TRI para ítems dicotómicos


Un problema importante es que la puntuación típica observada en el test, Z, puede no ser
una buena medida del nivel de rasgo. Por ejemplo, si el test tiene un bajo coeficiente de
fiabilidad; en ese caso, si se utilizara Z en el eje de abscisas, la CCI no representaría bien
la relación entre el nivel de rasgo y la probabilidad de acertar el ítem. Por ello, en TRI se
aplica el modelo utilizando el verdadero nivel de rasgo, al que se le denomina θ, que es
una variable no observable (como lo era V en la TCT). Más adelante veremos cómo se
pueden estimar las CCI siendo θ no observable. Pero antes debemos estudiar los distintos
modelos logísticos que pueden dar cuenta de datos como los mostrados en la Figura 4.1.
128 Medición en Ciencias Sociales y de la Salud

Modelo logístico de un parámetro (ML1P)


Éste es el modelo más simple de todos. Se asume que los ítems varían sólo en un paráme-
tro de dificultad, al que se le denomina parámetro b. La expresión matemática es:

1
Pj (θ ) = − Da (θ −b j )
[4.1]
1+ e

donde Pj(θ ) es la expresión que utilizaremos a partir de ahora para referirnos a la probabi-
lidad de que una persona acierte el ítem j en función de su nivel de rasgo θ. Así pues, los
términos de la fórmula son:

Pj(θ ) Probabilidad de acertar el ítem j si el nivel de rasgo es θ.


θ Nivel de rasgo o nivel de habilidad de la persona; cuanto mayor sea θ, mante-
niendo constantes los demás elementos de la fórmula, mayor será Pj(θ). Gene-
ralmente, se asume que θ está en una escala de puntuaciones típicas; por tanto,
sus valores variarán generalmente entre –3 y 3.
bj Es el parámetro de dificultad del ítem j; a mayor valor bj, manteniendo cons-
tantes los demás elementos de la fórmula, menor será Pj(θ). En el ML1P el va-
lor de bj indica el nivel de θ en el que la probabilidad de acertar el ítem es 0,5.
Si el nivel de rasgo θ está en una escala de puntuaciones típicas, los valores de
b variarán generalmente entre –3 y 3.
a Parámetro de discriminación, que en este modelo se asume que es igual para
todos los ítems (por ello, no aparece el subíndice j). Por tanto, en el ML1P el
parámetro a es una constante e indica la mayor o menor inclinación o pendien-
te de la CCI cuando θ = bj. Esto significa que en el ML1P todos los ítems tie-
nen la misma pendiente. Generalmente, si el nivel de rasgo θ está en una esca-
la de puntuaciones típicas, puede tomar valores entre 0,3 y 2,5 (sólo uno de
ellos para todos los ítems de un test) según los ítems sean más o menos discri-
minativos.
e Base de los logaritmos neperianos (2,718).
D Constante (D = 1,702 ó 1)1. En lo que sigue, asumiremos que D = 1,702. Es
importante que el investigador explicite siempre cual es el valor de D. Si se
elige el valor D = 1,702, se dice que se está utilizando el modelo con métrica
normal. Si se elige el valor D = 1, se dice que se está utilizando el modelo con
métrica logística.

1
El valor de D es arbitrario y no afecta al ajuste de la función. Lo habitual es elegir D = 1; sin embargo, algunos
autores utilizan D = 1,702; cuando D = 1,702, la función logística, fL(z), es muy similar a otra función muy
conocida, FN (z), la función de probabilidad acumulada de la distribución normal, Z ~ N(0 , 1), evaluada en z:

Z =z
1 1
∫ exp(−0,5Z )dZ = F
2
f L ( z) = ≅ N ( z)
1 + e −1, 702 z 2π Z = −∞
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 129

Otra forma frecuente de presentar el ML1P es:

1
Pj (θ ) = − ( θ −b j )
[4.2]
1+ e

que elimina las constantes a y D del modelo. Ambas ecuaciones ([4.1] y [4.2]) son equiva-
lentes (ver apéndice). El modelo expresado en la ecuación [4.2] suele denominarse Mode-
lo de Rasch.

Ejemplo 4.1. Cálculo de la probabilidad de acierto en el ML1P

Una persona con nivel de habilidad θ = 1 responde a un ítem j con parámetro de discrimi-
nación 1 y parámetro de dificultad 1 (θ = 1, a = 1, bj = 1), su probabilidad de acertar será:

1 1
P j (θ = 1) = −1, 702 (1)(1−1 )
= = 0,5
1+ e 1+ e0

El índice de dificultad (bj) es, justamente, aquel valor de θ para el cual Pj(θ ) = 0,5. Por
tanto, cuanto mayor sea b más difícil es el ítem.

En la Figura 4.3, se representan las CCI de dos ítems que difieren en dificultad.

Figura 4.3. CCI según el ML1P (D = 1,702; a = 1) para 2 ítems con b1 = –0,95 y b2 = 0,6.
1,0
0,9 P1(q)
Probabilidad de acierto en el ítem

P1 (θ)
0,8 P2(q)
P2 (θ)
0,7
0,6
0,5
0,4
0,3
0,2
0,1 b1 b2
0,0
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
-4,0
-3,5
-3,0
-2,5
-2,0
-1,5
-1,0
-0,5

θ
En la primera, la que está más a la izquierda, el valor de θ al que corresponde P1(θ ) = 0,5
es aproximadamente –0,95. Por lo tanto, la dificultad del primer ítem es b1= –0,95. En el
segundo ítem, el valor de θ al que corresponde P2(θ ) = 0,5 es aproximadamente 0,6. Por
130 Medición en Ciencias Sociales y de la Salud

lo tanto, la dificultad del segundo ítem es b2 = 0,6. La Figura muestra que la probabilidad
de acertar el ítem es sistemáticamente menor en el ítem 2 que en el ítem 1 para cualquier
θ. El ítem 2 es más difícil que el uno, y sus índices de dificultad así lo muestran (b2 > b1).
Una interpretación de la probabilidad Pj(θ ) es la siguiente: si P1(θ = −0,95) = 0,5 eso
quiere decir que para una población con nivel de rasgo θ = –0,95, el 50% acierta este ítem;
o, también, que una persona de rasgo θ = –0,95 acertará el 50% de los ítems con propie-
dades psicométricas iguales a las de este ítem.
En la Figura 4.3 puede observarse que las CCI de los dos ítems tienen la misma pen-
diente. Ésta es una propiedad importante del ML1P: las CCI de distintos ítems nunca se
cruzan, por lo que el ordenamiento que hacemos de los ítems por su dificultad será siem-
pre el mismo independientemente del grupo de personas con el que trabajemos; si un ítem
es más fácil que otro, lo es para cualquier nivel de habilidad. De la misma manera, el or-
denamiento que haremos de los evaluados por su nivel de habilidad será siempre el mis-
mo, independientemente del conjunto de ítems que le apliquemos; si una persona tiene
más probabilidad de acertar un ítem que otra, también tendrá mayor probabilidad de acer-
tar cualquier otro ítem, lo que hace mucho más clara la interpretación del significado de θ.
Si se cumplen estas dos propiedades se habla de Objetividad Específica de las medidas.
Veremos que en otros modelos de TRI no se cumplen.

Ejemplo 4.2. Modelo de Rasch

En la Tabla 4.1 se muestran los parámetros b de 3 ítems de una escala de cálculo numérico
y los parámetros θ de 3 personas, obtenidos después de aplicar el modelo de Rasch. Una
ventaja de la TRI frente a la TCT es que los parámetros θ de las personas y los parámetros
b de los ítems están expresados en la misma escala; es decir, podemos comparar directa-
mente el nivel θ de una persona con el parámetro b de un ítem. En el ejemplo, el evaluado
3 tiene un nivel de rasgo de 0. Su probabilidad de acertar los tres ítems puede deducirse de
la relación entre su θ y el parámetro b de esos tres ítems; en concreto, su probabilidad de
acertar el ítem 4 es alta (mayor que 0,5) ya que ese ítem tiene parámetro b menor que su
θ; su probabilidad de acertar el ítem 3 es media (igual a 0,5) ya que ese ítem tiene paráme-
tro b menor que su θ; su probabilidad de acertar el ítem 5 es baja (menor que 0,5) ya que
ese ítem tiene mayor parámetro b menor que su θ. Tales comparaciones no son posibles
desde la TCT, donde los índices de dificultad (pj) y la puntuación en el test (Xj) están ex-
presados en distinta escala.
Desde los modelos de Rasch, se facilita la interpretación de las puntuaciones de las
personas. Si las operaciones cognitivas para resolver los ítems han sido bien delimitadas,
podemos darle significado a cada nivel de rasgo en función de cuáles son las probabilida-
des de resolver exitosamente cada operación (implícita en cada ítem). Por ejemplo, el ítem
5 requiere que el estudiante sea capaz de resolver raíces cuadradas de una cierta compleji-
dad. Un nivel de θ de 1,5 significa que existe una probabilidad de 0,5 de resolver ese tipo
de raíces. Siguiendo ese razonamiento podemos llegar a una idea más exacta de qué com-
petencias implica cada nivel de habilidad.
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 131

Tabla 4.1. Parámetros de tres evaluados y tres ítems según el modelo de Rasch aplicado para modelar
las respuestas a una prueba de cálculo numérico
θ del b del
Evaluado Valor Ítem Contenido del ítem
evaluado ítem
–2
–1,75 Ítem 4 –1,75 213,5 + 2,085 – 13,65 =
–1,5
–1,25
–1
–0,75 Sujeto 1 –0,75
–0,5
–0,25
0 Sujeto 3 0 Ítem 3 0 2 (12 – 8) – 4 (2 – 4) =
0,25
0,5 Sujeto 2 0,5
0,75
1
1,5 Ítem 5 1,5 157.2516 =
2

Modelo logístico de dos parámetros (ML2P)


Este modelo permite que el parámetro a, que indica la capacidad discriminativa del ítem,
varíe de ítem a ítem:

1
Pj (θ ) = − Da j (θ −b j )
[4.3]
1+ e

donde el parámetro aj sigue siendo el parámetro de discriminación, pero en este modelo


puede variar de ítem a ítem (por ello se añade el subíndice j). El parámetro aj indica la
mayor o menor inclinación o pendiente de la CCI cuando θ = bj. La pendiente en ese pun-
to es exactamente 0,25Daj.
En la Figura 4.4 se muestran las CCI de dos ítems de igual dificultad (b1= b2 = 0,75),
pero que difieren en el parámetro de discriminación. El parámetro a se relaciona con la
pendiente; es proporcional al ángulo que forma la CCI en relación al eje de abscisas. La
principal diferencia entre los dos ítems es que el 2 (línea de puntos), cuando θ = 0,75, tie-
ne una pendiente mucho mayor (a2 = 2,4) que la del ítem 1 (a1 = 0,4). Como la pendiente
es tan alta, las personas con θ > 0,75 tienen casi todas ellas una muy alta probabilidad de
acertar el ítem 2 (y casi todas ellas lo acertarán), y las personas con θ < 0,75 tienen casi
todas ellas una probabilidad próxima a cero de acertarlo (y casi ninguna lo acertará). Por
lo tanto, el ítem 2 discrimina entre los que tienen θ > 0,75 y los que tienen θ < 0,75. Por
132 Medición en Ciencias Sociales y de la Salud

su parte, el ítem 1 tiene muy poca pendiente cuando θ = 0,75. En consecuencia, aunque la
mayoría de las personas con θ > 0,75 lo acertarán, muchas lo fallarán (pues la probabili-
dad de acierto es claramente inferior a uno). Igualmente, aunque la mayoría de las perso-
nas con θ < 0,75 fallarán el ítem, muchas lo acertarán, pues la probabilidad de acierto es
claramente superior a cero. En el ítem 1 la probabilidad crece muy suavemente a medida
que aumenta θ, por lo que no es buen discriminador entre las personas con θ > 0,75 y las
que tienen θ < 0,75.

Figura 4.4. CCI según el ML2P para 2 ítems (a1 = 0,4; b1 = 0,75; a2 = 2,4; b2 = 0,75).
1,0
0,9 P1(q)
Probabilidad de acierto en el ítem

P1 (θ)
0,8 P2(q)
P2 (θ)
0,7
0,6
0,5
0,4
0,3 a1 a2
0,2
0,1
0,0
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
-4,0
-3,5
-3,0
-2,5
-2,0
-1,5
-1,0
-0,5

Los valores de a oscilarán generalmente entre 0,3 y 2,5, y se suelen considerar ítems dis-
criminativos los que tienen valores a mayores de uno. El parámetro bj se interpreta, en es-
te modelo, de la misma manera que en el ML1P.

Modelo logístico de tres parámetros (ML3P)


Este modelo añade a los dos parámetros a y b un tercero, c, que representa la probabilidad
de acertar el ítem al azar. Más exactamente, c es el valor de Pj(θ) para valores extrema-
damente bajos de θ. La expresión del modelo de 3 parámetros es la siguiente:

1
Pj (θ ) = c j + (1 − c j ) − Da j (θ -b j )
[4.4]
1 +e

Los parámetros en la ecuación [4.4] se interpretan en este caso de la siguiente manera:

1. El parámetro cj de pseudoazar representa la probabilidad de acierto para personas


con un nivel de rasgo extremadamente bajo. Si no hay omisiones, suele tomar un valor
próximo al inverso del número de opciones de respuesta (algo menor si se descartan
opciones incorrectas con facilidad). Su valor también depende de la presencia de omi-
siones: cuanto mayor sea el número de personas que no responden al ítem, menor será
el parámetro c. Como es una probabilidad, sus valores pueden oscilar entre 0 y 1, pero
generalmente varían entre 0 y 0,5.
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 133

2. El parámetro bj de dificultad indica la posición de la CCI en relación al eje de absci-


sas (cuanto mayor es la dificultad del ítem, más hacia la derecha se posiciona la CCI).
Se encuentra en la misma métrica que θ, por lo que sus valores suelen oscilar en el
mismo rango. Indica el nivel de habilidad θ donde la probabilidad de acertar es el valor
medio entre cj y 1; es decir, 0,5(1 + cj). Éste es el punto de máxima discriminación del
ítem (es decir, el punto donde la pendiente de la CCI es máxima).
3. El parámetro aj de discriminación es proporcional a la pendiente que tiene la CCI en
el valor θ = bj.2 Los valores de a suelen oscilar entre 0,3 y 2,5 (según la métrica del ni-
vel de rasgo que hemos fijado).

Debemos observar que los parámetros de dificultad y discriminación no son iguales a los
del modelo ML2P3.
En la Figura 4.5 podemos ver la CCI de dos ítems con los mismos valores de a (1) y
b (0), pero distintos valores de parámetro c (c1= 0 y c2= 0,2).

2
En concreto, la pendiente en el punto θ = bj depende de aj y de cj y es 0,25Daj(1 – cj).
3
Definamos que la probabilidad de acertar como función del nivel de rasgo si no hubiera aciertos por azar sigue
el ML2P:

1
P*j (θ )=
1+e − Da j (θ −b j )

En condiciones donde hay respuestas al azar el ML2P es inadecuado. Pues bien, el modelo de 3 parámetros in-
cluye al anterior modelo un nuevo parámetro cj que indica la probabilidad de aciertos por azar:

Pj (θ ) = Pj* (θ ) + (1 − Pj* (θ ))c j

La lógica del modelo de la ecuación es la siguiente. La probabilidad de acertar es la probabilidad de saber la res-
puesta [P*j (θ)], más la probabilidad de no saberla [1 – P*j (θ)] multiplicada por la probabilidad de acertarla
cuando no se sabe la respuesta [cj]; el parámetro cj sirve para modelar el hecho de que aunque uno no sepa la
respuesta, puede acertarla eligiendo al azar entre las opciones o escogiendo aquella que resulte más atractiva. A
partir de la expresión anterior se puede obtener la ecuación [4.4]:

1
Pj (θ ) = Pj* (θ ) + (1 − Pj* (θ ))c j = c j + (1 − c j ) Pj* (θ ) = c j + (1 − c j )
1+e − Da j (θ -b j )

Observe que aunque el desarrollo del ML3P se inspira en el ML2P, las ecuaciones de ambos modelos son distin-
tas, [4.3] y [4.4], por lo que los parámetros aj y bj serán también distintos.
134 Medición en Ciencias Sociales y de la Salud

Figura 4.5. CCI según el ML3P para 2 ítems (a1 = 1; b1 = 0; c1 = 0; a2 = 1; b2 = 0; c2 = 0,2)

c2

Desde nuestro punto de vista, el modelo más completo es el ML3P. En el modelo de


Rasch y en el ML2P no se contemplan las respuestas al azar. Esto hace que ambos puedan
ajustarse peor cuando se trabaja con ítems de opción múltiple, especialmente para ítems
de dificultad elevada. Además, en el modelo de Rasch, tampoco se contempla la posibili-
dad de que los ítems tengan distinto parámetro de discriminación. Esto supone asumir que
no hay ítems peores y mejores para medir el nivel de rasgo (o, en todo caso, que aquellos
ítems cuyo parámetro a se diferencie mucho del de los otros ítems deberían ser eliminados
de la prueba). El modelo de Rasch raramente se ajusta a los datos si no es mediante una
criba de ítems que, finalmente, puede acabar por socavar la validez del test. Por otro lado,
la aplicación del ML3P requiere procedimientos más complejos de estimación de los
parámetros y muestras más numerosas. Los que defienden el modelo de Rasch se basan en
algunas de sus recomendables propiedades estadísticas (p. ej., la objetividad específica o,
como veremos más adelante, que proporciona estimadores suficientes de los parámetros4).
Además, justifican que si un modelo más parsimonioso (con menos parámetros) se ajusta
a los datos, es preferible a modelos más complejos.
A partir de una CCI conoceremos también la probabilidad de fallar el ítem, a la que
nos referiremos como Qj(θ ). Más genéricamente, podremos referirnos a la probabilidad
de una respuesta xj al ítem j, lo que suele expresarse como:

x 1− x j
Pj ( X j = x j | θ ) = Pj (θ ) j Q j (θ ) [4.5]

que es una forma compacta de referirse a la probabilidad de la respuesta xj; observe que la
fórmula anterior se simplifica en cada caso al resultado correcto:

Pj ( X j = 1 | θ ) = Pj (θ )1 Q j (θ ) 0 = Pj (θ )
Pj ( X j = 0 | θ ) = Pj (θ ) 0 Q j (θ )1 = Q j (θ )

4
Se dice de un estimador que es suficiente si agota toda la información disponible en la muestra para estimar el
parámetro.
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 135

Supuestos de la TRI
Un paso previo a la aplicación de los modelos de TRI es la comprobación de que se cum-
plen sus dos supuestos fundamentales: unidimensionalidad e independencia local. En este
apartado se describen los dos supuestos y por qué son importantes. En los capítulos 6, 10
y 11 se profundizará en los procedimientos para comprobar ambos supuestos.

Unidimensionalidad
En los modelos anteriores la probabilidad de acertar un ítem depende únicamente de sus
parámetros y de θ. Por ejemplo, en un ítem que mida el nivel de vocabulario inglés, la
probabilidad de acertarlo depende de los valores a, b y c del ítem y del nivel de vocabula-
rio en inglés de la persona (θ) , pero no de otros rasgos, como podría ser su inteligencia.
En otras palabras, se asume que el rendimiento en los ítems que forman el test depende
del nivel de la persona en un solo rasgo o dimensión. A este supuesto se le denomina su-
puesto de unidimensionalidad. La mayoría de las definiciones actuales de unidimensiona-
lidad hacen referencia al análisis factorial y al concepto de independencia local débil:

σ X j X j ' |θ = 0 [4.6]

que implica que las covarianzas entre ítems para muestras con el mismo nivel de rasgo
son cero. En otras palabras, cumpliéndose el supuesto, si seleccionáramos a un grupo de
evaluados con el mismo nivel de rasgo la correlación entre dos ítems cualesquiera sería
cero. Según los modelos, dos ítems correlacionan sólo porque acertarlos depende de θ; por
tanto, si condicionamos los datos en dos ítems a los valores θ debe desaparecer la correla-
ción. En los Capítulos 6 y 10 se estudiarán los procedimientos de análisis factorial que
permiten estudiar si se cumple el supuesto de unidimensionalidad.

Independencia local
Existe independencia local entre los ítems de un test si la respuesta de una persona a uno
de ellos no depende de sus respuestas a los otros. La independencia local se deriva de la
unidimensionalidad porque significa que la respuesta a un ítem sólo depende de sus pará-
metros y de θ, y no está influida por el orden de presentación de los ítems, las respuestas
que ya se hayan dado, etc. Para modelos como los descritos, la unidimensionalidad impli-
ca independencia local; sin embargo, conviene mantener separados ambos supuestos, ya
que en los modelos multidimensionales de TRI no son equivalentes. Matemáticamente, la
independencia local se define en términos probabilísticos: la probabilidad de que un eva-
luado i tenga un patrón de respuestas en un test de J ítems es igual al producto de las pro-
babilidades de cada respuesta en cada uno de ellos por separado:
136 Medición en Ciencias Sociales y de la Salud

J
P ( X 1 = xi1 , X 2 = xi 2 ,..., X J = xiJ | θ ) = ∏ P ( X j = xij | θ )
j =1

o, de forma más compacta:

J
P( X i | θ ) = ∏ P( X
j =1
j = x ij | θ ) [4.7]

donde P(Xi|θ ) designa la probabilidad del patrón de respuestas para el evaluado i; Xi se


define como un vector con las respuestas del evaluado i, Xi = {xi1, xi2, xi3,…, xiJ}5. Este
planteamiento se conoce también como supuesto de independencia local fuerte. Gracias a
este supuesto se cumple que, conociendo los parámetros del evaluado y de los ítems, po-
demos hallar la probabilidad de su patrón de respuestas en el test completo.
El supuesto de independencia local fuerte, como vemos, está referido a todos los ítems
del test y por tanto es difícil de contrastar empíricamente. Por ello se suele contrastar el
supuesto de independencia local débil, ya mencionado, relativo sólo a pares de ítems. Tal
supuesto implica que, para cualquier par de ítems, se cumple que las probabilidades de
respuesta son independientes para evaluados con el mismo nivel de rasgo θ :

P( X 1 = xi1 , X 2 = xi 2 | θ ) = P1 ( X 1 = xi1 | θ ) P2 ( X 2 = xi 2 | θ ) [4.8]

que también puede expresarse, en el caso de ítems dicotómicos, como (ver ecuación
[4.5]):

P( X 1 = xi1 , X 2 = xi 2 | θ ) = P1 (θ ) xi1 Q1 (θ )1− xi1 P2 (θ ) xi 2 Q2 (θ )1− xi 2

En el caso de ítems dicotómicos, es fácil observar que si se cumple lo anterior se cumple


que la covarianza entre los ítems es 0 para evaluados con el mismo nivel de rasgo. En
efecto, la covarianza entre los ítems 1 y 2 se calcula como:

σ X1 X 2 |θ = P( X 1 = 1, X 2 = 1 | θ ) − P( X 1 = 1 | θ ) P( X 2 = 1 | θ )

Si hay independencia local los dos términos a la derecha de la ecuación son iguales. Por el
contrario, si hay dependencia local:

σ X j X j ' |θ ≠ 0

La dependencia local puede ser positiva o negativa. Si es positiva ( σ X j X j ' |θ > 0 ), el núme-
ro de personas con la misma respuesta en los dos ítems es mayor que el esperado según el
modelo unidimensional. Generalmente, ítems con dependencia local positiva miden una

5
Las variables en negrita se utilizan para designar una matriz o un vector.
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 137

misma dimensión específica distinta de θ . Por ejemplo, puede ocurrir que dos ítems ten-
gan un enunciado similar y sean redundantes o que para su resolución requieran una des-
treza que no requieren otros ítems del test; si se aplica un modelo de TRI a estos datos, los
ítems parecerán más discriminativos de lo que realmente son y se sobrestimará la preci-
sión de la prueba. Si la dependencia local es negativa ( σ X j X j ' |θ < 0 ), esto quiere decir que
cuando una persona tiende a rendir mejor de lo esperado en un ítem, tiende a rendir peor
en otro ítem (y viceversa). Generalmente, ítems con dependencia local negativa miden
dimensiones distintas.

Ejemplo 4.3. Concepto de Independencia Local

Un test consta de dos ítems y la probabilidad de que un evaluado J acierte el primero es


P1(θ ) = 0,4 y la de que acierte el segundo P2(θ ) = 0,8. El principio de independencia local
establece que la probabilidad de que acierte los dos viene dada por:

P1 (θ ) P2 (θ ) = (0 ,4)(0 ,8) = 0 ,32

La probabilidad de acertar el primero y fallar el segundo sería:

P1 (θ )Q2 (θ ) = (0 ,4)(0 ,2) = 0 ,08

La de que falle el primero y acierte el segundo será:

Q1 (θ ) P2 (θ ) = (0 ,6)(0 ,8) = 0 ,48

La de que falle ambos ítems será:

Q1 (θ )Q2 (θ ) = (0 ,6)(0 ,2) = 0 ,12

Supongamos que 100 personas con idéntico nivel de rasgo que la persona J, θ = 0, con-
testan al test. Se esperarían aproximadamente los resultados de la Tabla 4.2.

Tabla 4.2. Número de personas con cada patrón de respuestas (1, acierto; 0, error) si se cumple la in-
dependencia local
Ítem 1 Ítem 2 Nº personas esperado si se cumpliera la independencia local
1 1 (0,4)(0,8)(100) = 32
1 0 (0,4)(0,2)(100) = 8
0 1 (0,6)(0,8)(100) = 48
0 0 (0,6)(0,2)(100) = 12
138 Medición en Ciencias Sociales y de la Salud

Si correlacionamos las 100 respuestas al primer ítem con las 100 respuestas al segundo, el
resultado sería cero, lo que indicaría que se cumple el supuesto de independencia local; es
decir, que σXjXj’|θ = 0:

σ X1 X 2 |θ =0 = P( X 1 = 1, X 2 = 1 | θ = 0) − P( X 1 = 1 | θ = 0 )P( X 2 = 1 | θ = 0) =
32 40 80
= − =0
100 100 100

Estimación de parámetros
En la práctica, una vez que se han comprobado los supuestos de unidimensionalidad e in-
dependencia local, el siguiente paso es aplicar un modelo de TRI, lo que requiere un
método estadístico para estimar los parámetros de los evaluados y de los ítems. Seleccio-
nado un modelo de TRI, hay que aplicar el test a una muestra amplia y, a partir de la ma-
triz de respuestas obtenidas, estimar los parámetros de cada ítem y la θ de cada evaluado.
La estimación de parámetros es el paso que nos permite llegar desde las respuestas cono-
cidas de las personas a los ítems hasta los valores desconocidos de los parámetros de los
ítems y de los niveles de rasgo.

El concepto de estimación máximo verosímil (ML)


Para obtener las estimaciones se aplica fundamentalmente el método de máxima verosimi-
litud (ML)6, mediante el cual se encuentran los valores de los parámetros que hagan más
probable la matriz de respuestas obtenida. La estimación de los parámetros en TRI supone
un proceso complejo. La mejor referencia para una descripción detallada de todos los pro-

6
Veamos a continuación un ejemplo sencillo de estimación ML. Si lanzamos una moneda diez veces y obtene-
mos siete caras, el estimador ML del parámetro p (probabilidad de cara de la moneda) es 7/10 = 0,7. El resultado
"siete caras en diez lanzamientos" es poco compatible con que la probabilidad de cara sea 0,1, o 0,2. De hecho,
la probabilidad de obtener siete caras y tres cruces es prácticamente cero si p = 0,1 o si p = 0,2. Dicha probabili-
dad pasa a ser 0,117 si p = 0,5, y alcanza el máximo valor (0,267) cuando p = 0,7. El estimador ML proporciona
el valor de p bajo el que es máxima la probabilidad del suceso que se ha observado. La probabilidad de x caras
en n lanzamientos sigue la distribución binomial:

n
B( x; n, p ) =   p x q1− x
 x

donde el primer término después de la igualdad, el número combinatorio, indica el número de formas en las que
pueden surgir x caras en n lanzamientos. En el ejemplo, hay 120 maneras distintas de obtener 7 caras en 10 lan-
zamientos. Si la probabilidad de cara es 0,7 entonces la probabilidad de que se obtengan 7 caras en 10 lanza-
mientos es 0,267:

10!
B( x = 7; n = 10, p = 0,7) = 0,7 7 0,33 = 120(0,00222) = 0,267
7!(10 − 3)!
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 139

cedimientos de estimación la encontramos en los libros de Baker (p.ej., Baker y Kim,


2004). Información similar en español puede encontrarse en López- Pina (1995) o también
en Revuelta, Abad y Ponsoda (2006).

Fases en el proceso de estimación de los parámetros


En TRI, se pueden distinguir dos objetivos de estimación:

1. La primera vez que se aplica un test hay que estimar conjuntamente los parámetros de
los ítems y los parámetros θ. Ese proceso se conoce como calibración de los ítems. La
fase de calibración es la de mayor complicación puesto que hay que hacer asunciones
sobre la distribución del nivel de rasgo y se requieren muestras numerosas. Si tenemos,
por ejemplo, diez ítems que miden un mismo rasgo, los podemos aplicar a una muestra
de 300 personas. La matriz de datos tendrá 300 filas, siendo cada fila la secuencia de
unos (aciertos) y ceros (errores) de cada persona de la muestra. Si queremos aplicar el
ML3P, tendremos que estimar los 30 parámetros de los ítems (es decir, a, b y c de cada
ítem) y 300 parámetros de las personas (los 300 valores θ, uno por persona).
2. Una vez que son estimados los parámetros de los ítems, pueden considerarse conocidos
y usados en posteriores aplicaciones para estimar el nivel de rasgo de las personas.
Hablaremos entonces de estimación del nivel de rasgo.

A continuación, se ilustra cada una de las fases. Empezaremos por el caso más simple, la
estimación del nivel de rasgo.

Estimación del nivel de rasgo por el método ML


En TRI, el procedimiento de estimación sigue una lógica similar al comentado para la
moneda. Supongamos, por ejemplo, que tenemos un test compuesto por tan sólo dos ítems
para los que ya conocemos sus parámetros (b1 = –0,7; b2 = 1), y que lo aplicamos a una
persona. Supongamos también que acierta el primero y falla el segundo. A partir de estas
respuestas la estimación ML de su θ se puede explicar de forma gráfica. Como el evalua-
do acierta el primer ítem, podemos calcular, mediante su CCI (recuérdese que los paráme-
tros del ítem son conocidos), la probabilidad de que esto ocurra para cada nivel de θ. Esto
se muestra en la Figura 4.6.
Como el evaluado ha fallado el segundo ítem, a partir de su CCI podemos calcular
la probabilidad de que esto ocurra para cada uno de los valores de θ. En concreto, como la
probabilidad de fallar, Q2(θ ), se puede obtener a partir de la probabilidad de acertar, po-
dremos representar la probabilidad de error en el segundo ítem como se muestra en la Fi-
gura 4.7. Nótese que no se representa la CCI del ítem 2, pues para cada valor de θ se ha
representado la probabilidad de error y no la de acierto. Puede observarse que es más pro-
bable que fallen el ítem los evaluados con niveles bajos de habilidad que los evaluados
con niveles altos (cosa bastante lógica).
140 Medición en Ciencias Sociales y de la Salud

Figura 4.6. Probabilidad de acertar el ítem 1 con parámetro b1 = –0,7


1,0
Probabilidad de acierto en el ítem 1

0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
-4,0
-3,5
-3,0
-2,5
-2,0
-1,5
-1,0
-0,5

Figura 4.7. Probabilidad de fallar el ítem 2 con parámetro b2 = 1


1,0
0,9
Probabilidad de fallo en el ítem 2

0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
-4,0
-3,5
-3,0
-2,5
-2,0
-1,5
-1,0
-0,5

El valor estimado de θ para esta persona sería aquel que haga más probable el resultado
obtenido (acertar el primer ítem y fallar el segundo). Según el supuesto de independencia
local, ambos sucesos son independientes y, por lo tanto, la probabilidad de que ocurran
ambos conjuntamente es igual al producto de las probabilidades de acertar el primero,
P1(θ ), por la de fallar el segundo, Q2(θ ) (ver ecuación [4.8]).
La probabilidad del patrón de respuestas se denomina en este contexto función de ve-
rosimilitud (para el evaluado i) y se designa como Li(θ ), que indica la probabilidad de las
respuestas de un evaluado dado un valor del parámetro θ, siendo conocidos los parámetros
a, b y c de los ítems. En nuestro caso:

Li (θ ) = P1 (θ )Q2 (θ )

Si representamos gráficamente la función L(θ ) para cada valor de θ, obtendríamos la Fi-


gura 4.8. En este caso vemos que el valor θ que hace más probable el resultado obtenido
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 141

(acierto en el primer ítem y fallo en el segundo) es algo mayor que cero. De hecho, 0,15
será la θ estimada para esta persona.

Figura 4.8. Probabilidad de acertar el ítem 1 y fallar el ítem 2


1,0
0,9
L( θ ): Función de Verosimilitud

0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
-4,0
-3,5
-3,0
-2,5
-2,0
-1,5
-1,0
-0,5

En general, se responderá a un número de ítems mayor de dos y se producirán particulares


secuencias de unos y ceros. La probabilidad de obtener tal secuencia de aciertos y errores
para un evaluado i se puede expresar como:

∏ P (θ )
xij 1− xij
Li (θ ) ≡ P ( X i | θ ) = j Q j (θ ) [4.9]
j =1

El nivel de rasgo estimado por el método de máxima verosimilitud (ML) es el valor θ que
maximiza la expresión anterior.

Ejemplo 4.4. Estimación del nivel de rasgo por el método ML

Un test consta de 4 ítems, cuyos parámetros, según el modelo de Rasch, son –1, 0, 1 y 2.
Una persona completa el test y acierta los tres primeros ítems y falla el cuarto. Puede ob-
tenerse el valor de la función de verosimilitud, Li(θ ), para los siguientes valores θ : –3, –2,
–1, 0, 1, 2 y 3, y así comprobar cuál de ellos maximiza Li(θ ). Aplicando la fórmula del
ML1P se obtiene la probabilidad de acierto para cada ítem y cada uno de los valores de θ
(ver Tabla 4.3). La función de verosimilitud, Li(θ ), al haber acertado los 3 primeros ítems
y fallado el último, será la siguiente:

Li (θ ) = P1 (θ ) P2 (θ ) P3 (θ )Q4 (θ )

Al aplicar la fórmula se obtiene Li(θ ) para cada valor de θ. Por ejemplo, para θ = 2:
142 Medición en Ciencias Sociales y de la Salud

Li(θ = 2) = (0,99)(0,97)(0,85)(0,50) = 0,41

En la última fila de la Tabla 4.3 se muestra el valor de Li(θ ) para cada valor de θ.

Tabla 4.3. Probabilidad de la respuesta dada al ítem como función del nivel de θ
Ítems b Respuesta θ –3 –2 –1 0 1 2 3
1 –1 1 P1(θ) 0,03 0,15 0,50 0,85 0,97 0,99 1,00
2 0 1 P2(θ) 0,01 0,03 0,15 0,50 0,85 0,97 0,99
3 1 1 P3(θ) 0,00 0,01 0,03 0,15 0,50 0,85 0,97
4 2 0 Q4(θ) 1,00 1,00 0,99 0,97 0,85 0,50 0,15
Li(θ) 0,00 0,00 0,00 0,06 0,35 0,41 0,15

Por lo tanto, de los siete valores θ, el que maximiza Li(θ ) es θ = 2. El procedimiento des-
crito no es muy preciso, porque sólo se ha hecho la comprobación para 7 valores de rasgo.
Cuando se trata de estimar en una situación real el nivel de rasgo, no se hace una búsque-
da restringida a unos cuantos valores. En la Figura 4.9 se muestran los valores Li(θ) para
todos los valores θ comprendidos entre –4 y 4.

Figura 4.9. Probabilidad de acertar los tres primeros ítems y fallar el cuarto
1,0
0,9
L( θ ): Función de Verosimilitud

0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
-4,0
-3,5
-3,0
-2,5
-2,0
-1,5
-1,0
-0,5

En este ejemplo, el valor θ que maximiza Li(θ ) es 1,6 (ver Figura 4.9). Por tanto, la pun-
tuación estimada para esta persona sería 1,6.

En la TRI, se obtiene el máximo de Li(θ ) por métodos numéricos, mediante programas de


ordenador que contienen algoritmos que encuentran el valor θ para el que la función Li(θ )
alcanza el valor máximo. Para ello, se utiliza otra función que tiene el mismo máximo, Ln
Li(θ ), más tratable matemáticamente:
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 143

J
Ln( Li (θ )) = ∑ [x
j =1
ij Ln ( P j (θ )) + (1 − x ij ) Ln(Q j (θ )) ] [4.10]

Para obtener el máximo de una función puede calcularse la derivada de esa función (re-
cuerde que si la derivada de una función en un punto es cero, la función tiene un máximo,
un mínimo o un punto de inflexión). Se busca el parámetro θ para el que se satisface la
ecuación:

δ
Ln( Li (θ )) = 0 [4.11]
δθ

La derivada de Ln(Li(θ )), en el caso del ML3P, es:

δ
J P j* (θ )
δθ
Ln( Li (θ )) = D a j
j =1

P j (θ )
( x ij − P j (θ )) [4.12]

donde P*j(θ ) se define como:

1
Pj* (θ ) = − Da j (θ −b j )
[4.13]
1+ e

y donde aj y bj son los parámetros de discriminación y dificultad estimados en el ML3P.


El máximo en Ln Li(θ ) se obtiene para el valor de θ en el que la derivada es cero. Esto
ocurre cuando la suma ponderada de las diferencias [xij – Pj(θ )] se aproxima a 0 (ver
ecuación [4.12]). La ponderación refleja que se da más importancia a los ítems más dis-
criminativos y a aquellos en los que la diferencia entre P*j(θ ) y Pj(θ ) es más pequeña, lo
que ocurre cuando ambas probabilidades son altas (el término P*j(θ )/Pj(θ ) oscilará entre
0, para niveles muy bajos, y 1 para niveles muy altos de rasgo).
Para el ML2P se tendría que:

J
δ
δθ j =1

Ln( Li (θ )) = D a j ( xij − Pj (θ )) [4.14]

Indicando que se ponderan más las respuestas a los ítems más discriminativos. Mientras
que para el ML1P, tendríamos:

J
δ
δθ j =1

Ln( Li (θ )) = Da ( xij − Pj (θ )) [4.15]

Observe que en el modelo de Rasch, la ecuación [4.15] se simplifica a:


144 Medición en Ciencias Sociales y de la Salud

J
δ
δθ
Ln( Li (θ )) = ∑ (x
j =1
ij − Pj (θ )) [4.16]

Por tanto, en este último caso todos los ítems tendrían la misma importancia para la esti-
mación; el valor θ estimado será aquel que haga que el número esperado de aciertos coin-
cida con el número observado. Es decir, aquella θ para la que se cumple la igualdad:

J J

∑x = ∑P
j =1
ij
j =1
j (θ ) [4.17]

Y, en definitiva, puesto que la suma de las puntuaciones en los ítems es la puntuación en


el test, será aquella θ para la que se cumple la igualdad:

J
Xi = ∑P j =1
j (θ ) [4.18]

Calibración de los ítems


Partiendo de que tanto los parámetros de los ítems como los parámetros de los evaluados
son desconocidos, existen distintos procedimientos para estimar los parámetros de los
ítems. De nuevo, se trata de estimar los parámetros a, b y c de los ítems que maximizan la
probabilidad de las respuestas observadas. Para ello, es necesario el uso de programas in-
formáticos específicos. En el capítulo 11 se describen los procedimientos y algunos de los
programas disponibles para la estimación de parámetros en TRI.

Ejemplo 4.5. Calibración de los ítems de un test de cálculo numérico

Una prueba de 7 ítems de cálculo numérico (Tabla 4.4) ha sido respondida por 2.000 estu-
diantes. Al aplicar la TRI obtenemos las estimaciones de los parámetros de los ítems que
se muestran en la Tabla 4.5. Puede verse que el parámetro a guarda una relación directa
con la correlación ítem-test de la TCT (r = 0,75), mientras que el parámetro b guarda una
relación inversa con el índice de dificultad clásico o proporción de aciertos (r = –0,97). El
ítem más fácil es el primero (menor parámetro b) y el más difícil el quinto (mayor pará-
metro b). Los ítems más discriminativos son el 6 y el 7 (que se refieren a series numéri-
cas). El ítem 7 tiene el mayor parámetro c; podría ser que en este ítem la opción correcta
d) sea atractiva para quien no sabe la respuesta (dado que –42 es el número más próximo a
–40). Por otro lado, dados los parámetros de los ítems, concluiríamos que aplicar el ML1P
sería inadecuado pues sólo los ítems 3, 4 y 5 tienen un parámetro c bajo y un parámetro a
similar. En la Figura 4.10 se muestran las CCI de los 7 ítems.
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 145

Tabla 4.4. Siete ítems de una prueba de cálculo numérico


Opciones
Ítem
a) b) c) d)
1. ¿Cuál es el resultado de la siguiente operación?
–16 6 –6 –26
2 + 8 – 15 + 9 – 7 – 3
2. ¿Cuál es el resultado de la siguiente operación?
2,475 –2,425 2,425 2,485
(125/5) – (2)(2,5) + 2,455
3. ¿Cuál es el resultado de la siguiente operación?
16 0 24 –8
2 (12 – 8) – 4 (2 – 4))
4. ¿Cuál es el resultado de la siguiente operación?
204,235 203,065 202,035 201,935
213,5 + 2,085 – 13,65
5. La raíz cuadrada de 157,2516 es: 12,455 12,554 12,45 12,54
6. Siga la serie 12,3, 14, 15,7, 17,4,… hasta encontrar el
término que (por defecto o por exceso) se aproxime más 21,5 22,5 20,8 22,4
a 22. ¿Cuál es el término?
7. Siga la serie –78, –69, –60,… hasta encontrar el
término que (por defecto o por exceso) se aproxime más –52 –51 –33 –42
a –40. ¿Cuál es el término?

Tabla 4.5. Parámetros según la TCT y la TRI con el modelo logístico de 3 parámetros (métrica normal)
P rcbp a b c
1 0,91 0,20 0,68 –1,92 0,33
2 0,78 0,35 0,97 –0,97 0,10
3 0,52 0,24 0,51 0,20 0,11
4 0,76 0,24 0,59 –0,88 0,24
5 0,29 0,21 0,52 1,53 0,07
6 0,34 0,34 1,14 0,71 0,06
7 0,62 0,30 1,42 0,26 0,36

Figura 4.10. CCI según el modelo logístico de tres parámetros


1,0
0,9
Probabilidad de acierto en el ítem

0,8
0,7
0,6
0,5
CCI1
0,4 CCI2
0,3 CCI3
CCI4
0,2 CCI5
CCI6
0,1 CCI7
0,0
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
-4,0
-3,5
-3,0
-2,5
-2,0
-1,5
-1,0
-0,5

θ
146 Medición en Ciencias Sociales y de la Salud

En definitiva, la TRI nos permite reproducir mediante un modelo cuál va a ser la propor-
ción de aciertos en cada nivel de rasgo, algo que no proporcionaba la TCT. Además, el ni-
vel de rasgo θ puede estimarse en función del patrón de respuestas a los ítems. En la Figu-
ra 4.11 se muestran las funciones de verosimilitud asociadas a 4 patrones de respuesta.

Figura 4.11. Máximo de la función de verosimilud, Li(θ ) para cuatro patrones de respuesta
L(θ): Función de verosimilitud

1111110
1110000
1111000
1000000
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
-4,0
-3,5
-3,0
-2,5
-2,0
-1,5
-1,0
-0,5

Los valores θ estimados por máxima verosimilitud para cada uno de esos patrones de res-
puesta serían, respectivamente –2,740 (“fallar los seis últimos ítems”), –0,633 (“fallar los
cuatro últimos ítems”), –0,205 (“fallar los tres últimos ítems”) y 0,740 (“fallar el último
ítem”).

Bondad de ajuste: Comparación de las CCI teóricas


y las CCI observadas
La mayor parte de los programas informáticos de TRI incluyen estadísticos y residuos que
permiten cuantificar la discrepancia entre los datos observados y los esperados si el mode-
lo fuera correcto. Un modelo de TRI sólo puede aplicarse a unos datos, si estos datos se
ajustan al modelo. La estrategia más utilizada para estudiar el ajuste es, para cada ítem,
obtener el grado de discrepancia entre las probabilidades teóricas y empíricas de escoger
cada opción de respuesta, condicionadas al nivel de rasgo. Tradicionalmente, se ha pro-
puesto agrupar a las personas en Q intervalos según su nivel de rasgo estimado (p. ej., 10
intervalos). La agrupación se hace de forma que en cada intervalo haya un número míni-
mo de personas (p. ej., 5). En este caso, la proporción observada de aciertos en cada inter-
valo (Oq) se obtendría simplemente como la proporción observada de aciertos en el grupo
q; la probabilidad teórica (Eq) es la probabilidad de acierto que predice el modelo, según
la curva característica del ítem, para la media o la mediana del nivel de rasgo estimado en
ese intervalo. Posteriormente, para cada ítem se obtiene un estadístico G2:
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 147

Q
 Oq 1 − Oq 
2
GTrad =2 ∑ N O
q =1
q Ln
Eq
+ (1 − O q ) Ln 
1 − E q 
[4.19]

Si se cumple la Hipótesis nula (i. e., el modelo se ajusta a los datos) el estadístico anterior
se distribuye según χ2 con Q grados de libertad. Este estadístico está implementado en
programas como BILOG o PARSCALE, pero su uso es desaconsejable si el test es corto
(p. ej., menos de 20 ítems) ya que los valores pueden sobrestimarse si la agrupación de los
evaluados por su nivel de rasgo no es precisa (ver, por ejemplo, Stone y Zhang, 2003). En
ese caso pueden aparecer discrepancias entre Oq y Eq que no se deben al desajuste al mo-
delo.
Para resolver ese problema, Orlando y Thissen (2000) propusieron un estadístico para
contrastar si la probabilidad de acertar observada como función de la puntuación observa-
da X (OX) difiere estadísticamente de la probabilidad de acertar según el modelo (EX):

J −1
( - E X )2 ((1 − O X ) - (1 − E X )) 2 
2
χ Orlando =I ∑  O
X =1
X

EX
+
1− EX


[4.20]

De esta manera no se requiere agrupar a los evaluados por una variable no observable, θ.
El valor EX se calcula mediante el algoritmo iterativo de Lord-Wingersky (1984) y su ob-
tención requiere el uso de un programa informático. Si se cumple la hipótesis nula (el mo-
delo se ajusta a los datos) el estadístico anterior se distribuye según χ2 con J–1–t grados
de libertad, donde t es el número de parámetros estimados para el ítem.
En la actualidad, no es fácil decidir qué índices de bondad de ajuste son los mejores.
Un problema de los contrastes estadísticos es que con muestras grandes las discrepancias
pueden ser estadísticamente significativas, pero ser irrelevantes desde el punto de vista
práctico. Lo contrario también puede ocurrir. Grandes discrepancias pueden no resultar
estadísticamente significativas si la muestra es demasiado pequeña. Nuestra recomenda-
ción es completar la información de estos estadísticos con una inspección visual del ajuste
de la CCI, tal como se hace en el siguiente ejemplo.

Ejemplo 4.6. Ajuste para los ítems del test de cálculo numérico

Para cada ítem de cálculo numérico se obtuvo el estadístico χ 2 de Orlando y Thissen. Este
indicador se puede obtener con el programa GOODFIT de libre distribución (Orlando y
Thissen, 2000). Los resultados se muestran en la Tabla 4.6 y la información gráfica para el
ítem 1 en la Figura 4.12. Puede comprobarse que el ítem 1 muestra el peor funcionamien-
to. Sin embargo, la inspección visual permite comprobar que la diferencia entre la curva
predicha por el modelo y la curva observada, aunque estadísticamente significativa, es
irrelevante desde el punto de vista práctico.
148 Medición en Ciencias Sociales y de la Salud

Tabla 4.6. Índices de ajuste basados en la comparación de las probabilidades de acertar (observada y
esperada) como función del test
Ítems χ 2Orlando gl P
1 11,5 3 0,009
2 11,3 3 0,010
3 3,96 3 0,266
4 3,55 3 0,314
5 2,84 3 0,417
6 1,89 3 0,596
7 3,64 3 0,303

Figura 4.12. Probabilidades observada y esperada de acertar el ítem 1 como función de la puntuación X
1,0
0,9
Probabilidad de acierto en el ítem

0,8
0,7
0,6
0,5
0,4
0,3 O
0,2 E
0,1
0,0
0 1 2 3 4 5 6 7
X

La precisión de las puntuaciones en TRI


Función de información y error típico de estimación de θ
En la TCT un concepto fundamental es el error típico de medida (ver ecuación [3.37]),
que nos permite conocer en qué grado la puntuación empírica en un test, X, es una buena
aproximación a la puntuación verdadera, V. En concreto, a partir de SE, se puede estable-
cer el intervalo de confianza en torno al cual se encuentra la puntuación verdadera de una
persona. En TRI, un concepto análogo al error típico de medida es el error típico de esti-
mación de θ. Si aplicáramos un test con un suficiente número de ítems a personas con
igual θ, la estimación ML de θ ( θˆ ) se distribuiría normalmente con media igual al pará-
metro verdadero (θ ) y desviación típica Se(θ ), que es el error típico de estimación de θ :
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 149

1
Se(θ ) ≡ σ (θˆ | θ ) = [4.21]
I (θ )

donde I(θ ) se denomina función de información del test. Como se muestra en la ecua-
ción, cuanto mayor sea la información, menor será el error típico de estimación. La fun-
ción de información en TRI es un concepto análogo al de coeficiente de fiabilidad en
TCT. Ambas son medidas de precisión a partir de las cuales se deriva un error típico (de
medida en TCT y de estimación de θ en TRI). Las diferencias principales son que:

1. Mientras que el coeficiente de fiabilidad es un valor escalar, la función de información


es una función; es decir, en TRI el valor de precisión varía para cada valor de θ.
2. Mientras que el coeficiente de fiabilidad puede tomar valores entre 0 y 1, la función de
información puede tomar cualquier valor igual o superior a 0.

La función de información del test, I(θ ), se obtiene como la suma de las funciones de in-
formaciones de los ítems:

J
I (θ ) = ∑I
j =1
j (θ ) [4.22]

La función de información de cada ítem para los modelos de uno, dos y tres parámetros se
muestra en la Tabla 4.7, donde P*j(θ ) se define en la ecuación [4.13] y Q*j(θ ) = 1– P*j(θ ).

Tabla 4.7. Ecuaciones para calcular la función de información de un ítem en los modelos logísticos
Modelo Ecuación para calcular la función de información
[4.23]
ML1P I j (θ ) = D 2 a 2 Pj (θ )Q j (θ )

ML2P I j (θ ) = D 2 a 2j Pj (θ )Q j (θ ) [4.24]

ML3P I j (θ ) = D 2 a 2j Pj* (θ )Q *j (θ )(1 − c j )( Pj* (θ ) Pj (θ )) [4.25]

Por tanto, el valor de la función de información del test dependerá de varios factores:

1. Número de ítems aplicado (como ocurría en la TCT): En general, al aumentar la longi-


tud del test aumenta la información (ver ecuación [4.22]).
2. De los parámetros a y c de los ítems aplicados: a mayores parámetros de discrimina-
ción y menores parámetros de adivinación, mayor será I(θ ) (ver ecuaciones [4.23] a
[4.25]).
3. De la proximidad entre θ y bj: cuanto menor sea la distancia entre los parámetros de di-
ficultad de los ítems aplicados y el nivel de rasgo de la persona, mayor será I(θ ). Los
productos Pj(θ )Qj(θ ), para el ML1P y el ML2P, y el producto P*j(θ )Q*j(θ ), para el
150 Medición en Ciencias Sociales y de la Salud

ML3P, alcanzan su máximo valor cuando θ = bj. Estos productos aparecen en las
ecuaciones [4.23] a [4.25].
4. Del grado en que Pj(θ ) se aleja de cj: cuanto más próxima se encuentre la probabilidad
a la esperada por efecto de la adivinación, menor será I(θ) (ver ecuación [4.25]; el co-
ciente P*j(θ )/Pj(θ ) alcanza su valor máximo para niveles altos de θ, cuando
P*j(θ )/Pj(θ ) ≅ 1).

Ejemplo 4.7. Función de información del test de cálculo numérico

En la Tabla 4.8 se muestra la información proporcionada, para distintos niveles θ, por los
ítems de cálculo numérico y por el test completo.

Tabla 4.8. Función de información de los ítems y del test


Ítem a b c –3 –2 –1 0 1 2 3
1 0,68 –1,92 0,33 0,072 0,164 0,154 0,076 0,028 0,009 0,003
2 0,97 –0,97 0,10 0,021 0,207 0,555 0,336 0,088 0,018 0,003
3 0,51 0,20 0,11 0,013 0,043 0,099 0,147 0,141 0,094 0,049
4 0,59 –0,88 0,24 0,024 0,082 0,150 0,144 0,084 0,038 0,015
5 0,52 1,53 0,07 0,003 0,011 0,038 0,093 0,155 0,167 0,120
6 1,14 0,71 0,06 0,000 0,001 0,045 0,460 0,791 0,246 0,041
7 1,42 0,26 0,36 0,000 0,000 0,019 0,506 0,433 0,054 0,005
Test 0,133 0,509 1,059 1,763 1,721 0,626 0,237

Por ejemplo, la función de información del ítem 2 para θ = 0. Se calcula como:

1 1
P2* (θ ) = − Da2 (θ -b2 )
= −1, 702 ( 0,97 )( 0 − ( −0,97 ))
= 0,832
1 +e 1+ e
1 0,90
P2 (θ ) = c 2 + (1 − c 2 ) − Da2 (θ -b2 )
= 0,10 + −1, 702 ( 0,97 )( 0 − ( −0,97 ))
= 0,849
1+e 1+ e
 P * (θ ) 
I 2 (θ ) = D 2 a 22 P2* (θ )Q 2* (θ )(1 − c 2 ) 2 =
 P2 (θ ) 
 
 0,832 
= 1,702 2 0,97 2 0,832(1 − 0,832)(1 − 0,10)  = 0,336
 0,849 

Puede observarse que el test proporciona la mayor información para los niveles de rasgo
entre 0 y 1.
Normalmente, la función de información se representa de forma gráfica. En la Figura
4.13 se observa que los que más contribuyen a la precisión son los ítems 2, 6 y 7 (los más
discriminativos). Los ítems 1, 3, 4 y 5 proporcionan muy poca información (i. e., sus fun-
ciones de información son bastante planas). Para aumentar la precisión en niveles de θ ba-
jos (p. ej., menores que cero) deberíamos añadir ítems similares en dificultad al ítem 2.
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 151

Figura 4.13. Función de información de los ítems y del test


2,5 FII1
FII2
Función de información de los ítems y

FII3
2,0
FII4
FII5
1,5 FII6
FII7
1,0 FI del test

0,5
del test

0,0
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
-4,0
-3,5
-3,0
-2,5
-2,0
-1,5
-1,0
-0,5

El error típico de estimación se representa en la Figura 4.14. Observe que el error típico y
la información están inversamente relacionados. Cuando la información es mayor, el error
típico es menor, y viceversa. Puede concluirse que, en general, la precisión del test no es
adecuada, especialmente a la hora de discriminar entre niveles de rasgo bajos o entre nive-
les de rasgo altos7.

Figura 4.14. Error típico de estimación de θ


2,5

2,0

1,5
Se( θ )

1,0

0,5

0,0
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
-4,0
-3,5
-3,0
-2,5
-2,0
-1,5
-1,0
-0,5

El hecho de que la función de información sea la suma de las funciones de información de


los ítems nos permite elegir los ítems más adecuados en cada momento en función de las

7
Debe observarse que la función de información depende del modelo aplicado. Por ejemplo, en niveles de θ ba-
jos, la aplicación del ML1P dará valores mayores que el ML3P en la función de información, I(θ ). Sin embar-
go, los distintos modelos (ML1P, ML2P, ML3P) no deben compararse en este sentido. Si el modelo de un
parámetro no se ajustara a los datos, las fórmulas que habríamos proporcionado para obtener el error típico de
estimación dejarían de ser válidas.
152 Medición en Ciencias Sociales y de la Salud

demandas de la aplicación. Por ejemplo, si en un proceso de selección de personal sólo


vamos a elegir a unos pocos evaluados muy competentes, a partir de un banco de ítems
calibrado podríamos elegir aquellos que proporcionan más información para niveles altos
de θ. Esto nos permitiría aplicar un número reducido de ítems sin perder precisión al esti-
mar θ.
En general, un ítem j es máximamente preciso para niveles de rasgo θ = bj (en el caso
del ML1P y del ML2P) o, de forma más general, cuando θ = θmax, siendo θmax (Hamble-
ton, Swaminathan y Rogers, 1991; p. 92):

ln(0,5 + 0,5 1 + 8c j )
θ max = b j + [4.26]
Da j

que es el valor de rasgo para el cual el ítem proporcionará la información máxima; esta in-
formación máxima puede calcularse de la siguiente forma (Hambleton y Swaminathan,
1985):

 2
3 
1 − 20c j − 8c j + (1 + 8c j ) 
2
2 2
I (θ max ) = 0,25D a j [4.27]
2(1 − c j ) 2

expresión que, en el ML2P, se reduce a I(θmax) = 0,25D2aj2.

Intervalos de confianza para la estimación de θ


A partir del error típico de estimación se puede obtener el intervalo confidencial en el que,
con probabilidad predeterminada, se ha de encontrar el nivel de rasgo de la persona. En
concreto, si al nivel θ estimado de una persona le sumamos y restamos (1,96)Se(θ ), obte-
nemos los extremos del intervalo en el que, con nivel de confianza del 95%, se encontrará
su verdadero nivel de rasgo. Por ejemplo, si la θ estimada es 0,8 y su error típico de esti-
mación es 0,22, entonces, el nivel de rasgo de dicha persona se encuentra entre 0,37 (pues
0,8 – (1,96)0,22 = 0,37) y 1,23 (pues 0,8 + (1,96)0,22 = 1,23), con confianza del 95%.

Función de información y fiabilidad


A partir de la función de información del test se puede obtener un coeficiente de fiabilidad
marginal para las estimaciones del nivel de rasgo:

σ θ2 σ θ2
rθTRI
ˆθˆ = = Q
[4.28]
σ θ2ˆ 2
σθ + ∑ Se(θ
q
q)
2
g (θ q )
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 153

La expresión g(θ ) indica la distribución del rasgo. La ecuación [4.28] es el cociente entre
la varianza del verdadero nivel de rasgo, σ2θ, y la varianza del rasgo estimado, σ θ2ˆ . Indica
qué proporción de la varianza de las estimaciones es varianza verdadera. Mediante el uso
de esta fórmula puede anticiparse el coeficiente de fiabilidad que se obtendría en una
muestra en la que el rasgo tenga distribución g(θ) y varianza σ2θ. Otra forma de expresar
el coeficiente de fiabilidad marginal es como:

Q
σ θ2ˆ − ∑ Se(θ
q
q)
2
g (θ q )
rθTRI
ˆθˆ = [4.29]
σ θ2ˆ

Si θˆ está estandarizada la ecuación se simplifica a:

Q
rθTRI
ˆθˆ = 1 − ∑ Se(θ
q
q)
2
g (θ q )

En ocasiones, también se calcula cuál sería el coeficiente de fiabilidad si todos los evalua-
dos de una muestra fueran medidos con la precisión que se obtiene en un nivel de θ dado
(θ = θq). En ese caso, se aplica la siguiente fórmula:

σ θ2ˆ − Se(θ q ) 2
rθTRI
ˆθˆ (θ q ) = [4.30]
σ θ2ˆ

Si θˆ está estandarizada la ecuación se simplifica a:

rθTRI
ˆθˆ (θ q ) = 1 − Se(θ q )
2

La Curva Característica del Test (CCT)


La representación de la relación entre θ y el rendimiento esperado en el test se denomina
Curva Característica del Test. Para un valor θ concreto, el valor esperado en el test se ob-
tiene como la suma de las correspondientes probabilidades de acierto de los ítems para di-
cho nivel de rasgo, que pueden obtenerse a partir de sus curvas características:

J
X (θ ) ≡ ε ( X | θ ) = ∑ P (θ )
j =1
j [4.31]
154 Medición en Ciencias Sociales y de la Salud

La CCT permite la transformación de la escala de θ a la escala de puntuaciones directas.


Además la CCT desempeña un papel importante en algunos de los procedimientos de
equiparación de parámetros (tal como se verá en el capítulo 11).

Ejemplo 4.8. Curva Característica del Test

La CCT del test de 7 ítems de cálculo numérico se representa en la Figura 4.15. Puede ob-
servarse que la relación entre θ (el nivel de rasgo) y X (la puntuación esperada en el test)
no es lineal. A alguien con un nivel de θ de 4 corresponde un número esperado de aciertos
próximo al número de ítems (en nuestro caso, 7).

Figura 4.15. CCT del test de cálculo numérico


7,0
6,5
6,0
Curva Característica del Test

5,5
5,0
4,5
4,0
3,5
3,0
2,5
2,0
1,5
1,0
0,5
0,0
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
-4,0
-3,5
-3,0
-2,5
-2,0
-1,5
-1,0
-0,5

Aplicaciones
El desarrollo de la TRI ha supuesto un cierto avance, tanto en algunos contextos aplicados
de evaluación psicológica y educativa, como en contextos de investigación muy diversos.
Tal como vamos viendo, aplicar la TRI a las puntuaciones que se obtienen en los ítems de
un test tiene ciertas ventajas, siendo una de las principales la estimación del error que se
comente concretamente con cada persona. Los desarrollos de la TRI permiten aplicaciones
más eficientes, ya que facilitan el ensamblado de un test (la selección de los ítems que lo
formarán) para optimizar la precisión de las estimaciones de rasgo. También permite ob-
tener indicadores psicométricos para los ítems, complementarios (y relacionados) a los de
la TCT. El estudio de los parámetros de los ítems que se estiman en diferentes grupos va a
facilitar el análisis de posibles problemas no deseados, como sería que la prueba perjudi-
cara a uno de dichos grupos sin motivo justificado.
Este marco teórico no resulta, sin embargo, la panacea universal para analizar las me-
diciones que se realizan con cualquier tipo de test en cualquier tipo de contexto de evalua-
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 155

ción. Resultando muchas veces complementaria a la TCT, la TRI resulta especialmente


útil en los estudios de evaluación a gran escala, donde es preciso medir muestras numero-
sas de personas y en diferentes ocasiones. Por una parte, en este tipo de estudios (p. ej.,
sobre evaluación educativa) se satisfacen los requisitos muestrales necesarios para su apli-
cación; por otra parte, en aplicaciones transculturales de tests se demandan ciertos estu-
dios particulares (p. ej., equiparación de puntuaciones o estudio del funcionamiento dife-
rencial de los ítems) para los que la TRI proporciona métodos y procedimientos más ade-
cuados que la TCT.
Algunas de las principales aplicaciones de la TRI se describen con cierto detalle en
otros capítulos de este libro: Equiparación de Parámetros (capítulo 11), Funcionamiento
Diferencial (capítulo 13) y Tests Adaptativos Informatizados (capítulo 15).

Ventajas y desventajas de los modelos de TRI


Las aplicaciones de la TRI no serían posibles sin ciertas propiedades teóricas de estos mo-
delos, que sintetizamos en las siguientes:

1. Invarianza de los parámetros de los evaluados. En TRI se concibe de forma más opera-
tiva el nivel de rasgo del evaluado. Desaparece el concepto de puntuación verdadera,
que en la TCT se ligaba íntimamente al test utilizado (por ejemplo, la puntuación ver-
dadera cambiaba si el test tenía más ítems o ítems con distinta dificultad). La TRI se
centra en las propiedades psicométricas de los ítems y, a partir de ellas, deriva las pro-
piedades psicométricas del test. En TRI se establece que el nivel de rasgo es un pará-
metro θ del evaluado que puede ser estimado una vez que se conocen los parámetros de
los ítems del test que se está aplicando.
No debe confundirse la invarianza de parámetros con la invarianza de las estimaciones
de los parámetros; es decir, el parámetro de la persona que indica su nivel de rasgo será
el mismo se utilice un test corto o un test largo, pero la estimación de ese parámetro
dependerá del test utilizado (se realizará con más precisión en el test largo).
2. Invarianza de los parámetros de los ítems. Si se cumplen los supuestos del modelo, los
parámetros estimados de los ítems no dependen, salvo transformación lineal (ver
Apéndice), de la muestra donde se obtienen. Esto permite que podamos estudiar las
propiedades psicométricas del mismo ítem en distintos grupos, incluso si difieren en
media o variabilidad en el nivel de rasgo.
3. No se asume la homocedasticidad del error. En TRI la precisión del test está condicio-
nada al nivel de rasgo y a los ítems aplicados. De esta manera, se esquiva una de las
principales críticas que se ha realizado al concepto de fiabilidad en TCT.
4. Se dispone de indicadores de bondad de ajuste, que hacen el modelo falsable y permi-
ten así la comparación de distintos modelos alternativos para las respuestas.

Sin embargo, no todo son ventajas en el actual desarrollo que tienen los principales mode-
los de la TRI:

1. Se requiere un gran número de evaluados para obtener las estimaciones de los paráme-
tros, especialmente en los modelos más complejos (p. ej., los que incluyen parámetros
156 Medición en Ciencias Sociales y de la Salud

de adivinación o algunos modelos para ítems politómicos) (Thissen y Wainer, 1982).


Como el problema de los requisitos muestrales no es independiente del método de es-
timación empleado, se tratará con más detalle en el capítulo 11.
2. Los supuestos son muy restrictivos. Los modelos de Rasch son los más afectados por
esta crítica, ya que asumen ausencia de adivinación en las respuestas (algo poco razo-
nable cuando trabajamos con ítems de opción múltiple) e igual parámetro de discrimi-
nación de los ítems (algo que, por lo general, no se cumple). Los supuestos de unidi-
mensionalidad o independencia local pueden ser poco realistas en algunos casos. Afor-
tunadamente, se están desarrollando modelos psicométricos de TRI que no requieren el
cumplimiento de estos supuestos (p. ej., modelos multidimensionales o modelos para
testlets).
3. Los procedimientos para comprobar el ajuste no son totalmente satisfactorios, funda-
mentalmente porque se desconoce la distribución de los índices de ajuste. Por ejemplo,
algunos indicadores dependen de la longitud del test o de la calidad de las estimaciones
del nivel de rasgo.
4. La concepción sobre las fuentes de error que afectan a las puntuaciones de las personas
en los tests es limitada, sobre todo si la comparamos con la propuesta que se hace desde
la Teoría de la Generalizabilidad (TG). La mayor parte de los modelos de TRI ignoran
aquellas fuentes de error de medida que no están relacionadas con el contenido especí-
fico de los ítems. La TG permite el estudio del efecto de diferentes fuentes de error, tal
como veremos en el capítulo 9. En TRI no se reconocen distintas fuentes de error
(Brennan, 2004), aunque algunos tímidos intentos empiezan a esbozarse (Bock, Bren-
nan y Muraki, 2002).
5. Como también ocurre en TCT, la TRI se centra en el problema de la precisión, con lo
que ha desviado de algún modo la atención de los psicómetras hacia problemas técni-
cos (p. ej., la estimación de parámetros o la evaluación del ajuste), ignorando en parte
el tema de la validez (Muñiz, 1996). La TRI (al menos los modelos descritos hasta el
momento) es fundamentalmente una teoría descriptiva (no psicológica) sobre el modelo
de respuesta a los ítems.
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 157

Apéndice
La escala métrica de θ
Para comparar dos objetos en un atributo necesitamos que las medidas se hayan tomado en la misma
escala. El concepto de escala métrica hace referencia a las unidades de medida y al origen (i. e., el
punto cero) de una escala. Por ejemplo, la temperatura puede expresarse en una escala de grados
Celsius o en una escala de grados Fahrenheit; ambas son legitimas y equivalentes mediante la co-
rrespondiente transformación lineal [Temp(oF) = 1,8Temp(oC) + 32].
Para las puntuaciones en un test se suele asumir un nivel de medida de intervalo, como para la
temperatura. Esto quiere decir que no hay un cero absoluto en la escala que indique un nivel cero de
atributo y, por lo tanto, no sólo son arbitrarias las unidades de medida (i. e.: hablar en oF o en oC) si-
no también el origen de la escala. En este nivel de medida, como no existe un cero absoluto, la afir-
mación de que un objeto tiene el doble de temperatura que otro no tiene sentido; como tampoco lo
tiene, por ejemplo, afirmar que una persona es el doble de inteligente que otra. En otras palabras, el
nivel de medida determina qué transformaciones de la escala son posibles y qué afirmaciones acerca
del atributo tienen sentido y cuáles no.
¿Qué valores puede tomar θ? ¿Cuál es el origen o punto cero de la escala? ¿Y las unidades de
medida? Al ser θ una variable con nivel de medida de intervalo, el origen es arbitrario. En la prácti-
ca, suele trabajarse con la escala θ en puntuaciones típicas ( µθ = 0; σ 2θ = 1). Esto quiere decir que
la escala de θ es tal que, en la muestra, la media es cero y la varianza 1; los valores θ variarán gene-
ralmente entre –3,0 y 3,0. Una vez definida la escala para θ, automáticamente los parámetros a y b
se sitúan en una métrica consistente con ella: por ejemplo, los valores del parámetro b variarán, ge-
neralmente, entre –3,0 y 3,0; el valor de a entre 0,3 y 2,5. A lo largo del capítulo se ha asumido esta
escala métrica para θ.
Sin embargo, el nivel θ del evaluado puede definirse en cualquier escala métrica consistente con
su nivel de medida, en este caso de intervalo. Esto quiere decir que si efectuamos una transforma-
ción lineal de θ (g > 0):

θ * = gθ + h [4.32]

las probabilidades de acierto no cambian si, a la vez, transformamos también los parámetros a y b
de los ítems para que se hallen en una métrica consistente con la de θ∗:

a
a* = [4.33]
g
b*j = gb j + h [4.34]

En efecto:

1 1 1
Pj (θ * ) = = a
= − Da (θ −b j )
= Pj (θ )
− Da* (θ* −b*j )
1+ e − D ( gθ + h −( gb j + h )) 1+ e
g
1+ e
158 Medición en Ciencias Sociales y de la Salud

Por tanto, el modelo con parámetros θ*, a* y b*j es equivalente al modelo con parámetros θ, a y bj.
Es decir, lo mismo que en la temperatura, podemos expresar los parámetros en distinta escala. El
rango de valores que pueden tomar los parámetros a, b y θ dependerá de la escala métrica que utili-
cemos. Para resolver esta indeterminación debemos explicitar si θ está en una escala de puntuacio-
nes típicas o en otra escala.
Observe que ahora podemos explicar por qué las ecuaciones del ML1P [4.1] y del modelo de
Rasch [4.2] son equivalentes. En efecto, si definimos:

b*j = Dab j
θ * = Daθ

Entonces el modelo de Rasch se transforma en el ML1P:

1 1 1
= −( Daθ − Dab j )
= − Da (θ −b j )
−(θ * −b*j )
1+ e 1+ e 1+ e

Si el parámetro θ del ML1P se expresa en puntuaciones típicas (σθ = 1), entonces la desviación
típica del parámetro θ* en el modelo de Rasch será:

σ θ * = Da

Otro ejemplo de esta necesidad de explicitar la escala métrica se relaciona con el parámetro de dis-
criminación de los ítems: el parámetro a de un modelo será distinto si utilizamos D = 1,702 o D = 1.
La elección de uno u otro define la escala métrica de la discriminación: parámetro a en métrica
normal o en métrica logística.

La escala logit

Si p es una probabilidad, la función logit de p es ln[p/(1 p)]

 p 
logit ( p ) ≡ ln  
1 − p 

En el modelo de Rasch suele utilizarse la escala logit (log-odds-unit) para informar de los paráme-
tros. Al utilizar la ecuación [4.2], el logit de la probabilidad de acertar un ítem es:

 1 
 
 Pj (θ )   −(θ −b j )

= ln 1 + e
(θ −b j )
ln  
1  = ln(e ) = θ − bj
 Q j (θ )   1 − 
−(θ −b j )
 1+ e 

Es decir, depende sólo del nivel de rasgo y de la dificultad del ítem. Utilizando esta escala es más
fácil interpretar las diferencias de rendimiento entre dos personas en el mismo ítem o de la misma
Capítulo 4. Introducción a la Teoría de la Respuesta al Ítem 159

persona en dos ítems. Por ejemplo, una diferencia en la escala logit de las probabilidad de acertar un
ítem que tienen dos personas, será:

 Pj (θ 2 )   Pj (θ1 ) 
ln   − ln   = (θ 2 − b j ) − (θ1 − b j ) = θ 2 − θ1
 Q j (θ 2 )   Q j (θ1 ) 

Lo que muestra que dicha diferencia no depende del ítem, sino únicamente de los dos niveles de
rasgo. Una diferencia en la escala logit, para una persona, entre las probabilidades de acertar dos
ítems distintos, será:

 P (θ )   P1 (θ ) 
ln  2  − ln   = (θ − b2 ) − (θ − b1 ) = b1 − b2
 Q 2 (θ )   Q1 (θ ) 

En el modelo de Rasch, las diferencias en la escala logit se corresponden directamente con las dife-
rencias en θ (o en b). Al informar del nivel de rasgo en la escala logit se informa de θ y al informar
de la dificultad en la escala logit se informa de b. El punto cero de la escala logit es arbitrario. Nor-
malmente se establece como punto cero la media de los parámetros b de los ítems o la media del ni-
vel de rasgo. En el primer caso, los valores θ iguales a 0 indican que se tiene una probabilidad de
acertar ítems de dificultad media de 0,5. En el segundo caso, los valores b iguales a 0 se correspon-
den con ítems que los evaluados de nivel medio aciertan con probabilidad 0,5.

5
Concepto y evidencias
de validez

El concepto de validez
Como ya hemos visto en los capítulos precedentes, los estudios de fiabilidad nos informan
de si estamos midiendo con mucho o con poco error de medida, pero no informan de qué
atributo estamos midiendo. Los estudios de validez van a aportar significado a las puntua-
ciones que estamos obteniendo, permitiéndonos conocer si el uso que pretendemos hacer
de ellas es o no adecuado.
Los indicadores de fiabilidad son diferentes en las distintas teorías y el concepto de
fiabilidad sólo ha ido matizándose a lo largo de los años, ligado al desarrollo de las distin-
tas teorías de los tests. El concepto de validez, sin embargo, ha cambiado enormemente,
tal como veremos en el último apartado del presente capítulo. La validez ha sido definida
de muchas maneras a lo largo de la historia de la Psicometría y su definición sigue cam-
biando. Lo único que se ha mantenido a través del tiempo es su consideración como la
propiedad más importante y fundamental al desarrollar y evaluar un test (p. ej.: Anastasi
y Urbina, 1997; Cronbach, 1988).
La conceptualización actualmente dominante sobre la validez es la que recogen los
Standards for Educational and Psychological Testing en su edición de 1999. En este do-
cumento, elaborado por tres importantes asociaciones profesionales americanas (AERA,
APA y NCME), se define la validez como el grado en que la teoría y los datos disponibles
apoyan la interpretación de las puntuaciones de un test para un uso concreto. Hay varios
aspectos que se pueden destacar de esta definición:

1. Al igual que ocurre en el caso de la fiabilidad, ya no hablamos de validez de un test si-


no de validez de las puntuaciones de un test. No tiene sentido hablar de “propiedades
del test”, ya que éstas dependen del contexto de evaluación y de la muestra.
162 Medición en Ciencias Sociales y de la Salud

2. El profesional responsable de la aplicación de un test debe consultar el manual del


mismo para averiguar si la utilización e interpretación pretendida por él coincide con la
proporcionada por la documentación de la prueba. En caso negativo, para poder reali-
zar la interpretación pretendida deberá desarrollar una investigación, un estudio de va-
lidación, que le permita recoger información que apoye (o no) su utilización. Por lo
tanto, la validación no sólo incumbe a los tests de nueva creación, sino que representa
un proceso de acumulación de evidencias que apoyan las interpretaciones propuestas
para las puntuaciones de un test, para así poder comprender mejor qué significan.

Siguiendo la propuesta de Kane (2006a), que es consistente con la visión de los Standards,
el proceso de validación implicaría el uso de dos argumentos: el argumento interpretativo
y el argumento de validez. El proceso de validación debe comenzar con el desarrollo del
argumento interpretativo, que supone proponer con detalle interpretaciones y usos de las
puntuaciones. Por ejemplo, debemos especificar todas las asunciones en las que se basa el
test, los componentes del constructo, las diferencias con otros constructos y sus relaciones
con otras variables. Si las interpretaciones y usos no están claramente identificados enton-
ces no pueden ser evaluados.
El segundo, el argumento de validez, consiste en evaluar el argumento interpretativo.
La interpretación propuesta para las puntuaciones determina las clases de evidencia nece-
sarias para la validación. Es posible que una o varias de las interpretaciones sean válidas
mientras que otras se consideren inválidas. Por ejemplo, es posible que un test de persona-
lidad sea adecuado para un proceso de selección de personal, pero no lo sea para un pro-
ceso de diagnóstico de patologías. El argumento de validez implica la evaluación de las
interpretaciones propuestas a través de una serie de análisis lógicos y estudios empíricos,
siendo siempre necesaria la integración de las diferentes clases de evidencia. Las eviden-
cias de validez son, por lo tanto, las pruebas recogidas para apoyar la interpretación pro-
puesta. La principal ventaja de esta aproximación sería que intenta proporcionar una guía
para dirigir los esfuerzos de investigación. Las clases de evidencia que serían más relevan-
tes son aquellas que apoyan inferencias y asunciones del argumento interpretativo que son
más problemáticas. Además, la etapa de evaluación también implica una búsqueda de
asunciones ocultas y de posibles interpretaciones alternativas de las puntuaciones.
Si concebimos la validación como el proceso investigador en el que se van acumulan-
do evidencias sobre la interpretación de las puntuaciones de un test, resulta patente que
para obtener estas evidencias podremos usar una enorme variedad de métodos o estrate-
gias. De ahí que ya no usemos el término “tipos de validez” sino el de “tipos de eviden-
cia”, intentando resaltar el carácter unitario del concepto de validez. Estas diferentes fuen-
tes de evidencia no representan distintos tipos de validez. Ahora se plantea el estudio de
evidencias basadas en el contenido, la estructura interna, la relación con otras variables, el
proceso de respuesta y las consecuencias de la aplicación del test.
Para analizar los datos de las distintas fuentes de evidencia se usa una amplia variedad
de técnicas, que por su importancia y especificidad se tratarán en distintos capítulos. Con-
cretamente, para obtener evidencias relativas a la estructura interna de las puntuaciones es
preponderante el uso del Análisis Factorial Exploratorio (AFE) y del Análisis Factorial
Confirmatorio (AFC). Estas dos técnicas se exponen, respectivamente, en los capítulos 6 y
10. Dentro de las evidencias relativas a la estructura interna también pueden ubicarse los
trabajos encaminados a evaluar el funcionamiento diferencial de los ítems (FDI); la defi-
nición y la tecnología para la detección del FDI se proporciona en el capítulo 13. Por otra
Capítulo 5. Concepto y evidencias de validez 163

parte, en el capítulo 14, se incluyen otros procedimientos que se aplican para obtener in-
formación sobre la relación del test con otras variables (p. ej.: la regresión lineal múltiple)
y sobre la generalización de la validez.
Hay numerosos manuales en los que se tratan el concepto y las evidencias de validez,
tanto en español (p. ej.: Martínez Arias, Hernández-Lloreda y Hernández-Lloreda, 2006;
Muñiz, 2002; Navas, 2001), como en inglés (p. ej.: Carmines y Zeller, 1979; Crocker y
Algina, 1986; Wainer y Braun, 1988).

Evidencias basadas en el contenido del test


Definición
Es fácil comprender la necesidad de examinar el contenido de un test como un primer pa-
so para juzgar si un instrumento puede usarse para un propósito en particular. Por ejem-
plo, estudiantes, padres y profesores esperan que las preguntas de un examen de Lengua
de Educación Primaria sean consistentes con los objetivos curriculares para esa asignatura
y nivel. Esto es especialmente evidente en los tests educativos. No sorprende, por tanto,
que la necesidad de examinar el contenido de los tests apareciese ya en 1954 en un docu-
mento de la APA sobre recomendaciones técnicas para el diseño y uso de los tests.
Es necesario aclarar que por contenido del test no nos referimos únicamente a los
ítems que lo componen. Actualmente se incluyen, además, las instrucciones para su admi-
nistración y las rúbricas o criterios para su corrección y puntuación.
Sireci (2003) indica que hay al menos dos aspectos esenciales que se deben tener en
cuenta para realizar la validación del contenido: la definición del dominio, y la representa-
ción del dominio. La definición del dominio se refiere a la definición operativa del conte-
nido. En la mayoría de los tests educativos esta definición tiene la forma de una tabla de
especificaciones de doble entrada, en la que las filas indican las áreas de contenido rele-
vantes para el dominio en cuestión y las columnas indican las operaciones o procesos
cognitivos implicados en la resolución de las tareas planteadas. Se especifican además los
porcentajes de ítems asignados a cada combinación de área y proceso cognitivo.
Las empresas de tests más importantes de EE. UU. (p. ej.: American College Testing,
California Bureau Test, Educational Testing Service…) suelen emplear estas tablas. Así
por ejemplo, en la página web del National Assessment of Educational Program (NAEP)1
podemos encontrar varios ejemplos. El NAEP es el programa de evaluación del rendi-
miento académico llevado a cabo por el Departamento de Educación de EE. UU., que
permite comparar el rendimiento de los estudiantes en la escuela en varias materias y en
todos los estados. Si tomamos, por ejemplo, la tabla de especificaciones para la evaluación
del progreso educativo en Geografía vemos que incluye tres áreas de contenidos: espacio
y lugar, ambiente y sociedad, y conexiones y dinámicas espaciales. Las dimensiones cog-
nitivas evaluadas son conocimiento, comprensión y aplicación. Se muestran, además, los
porcentajes de distribución de ítems por áreas de contenido y algunos ejemplos de ítems
para cada combinación de área y habilidad cognitiva. Así por ejemplo, el ítem “¿Qué fac-
tores estimulan las migraciones humanas?” está diseñado para medir “conocimiento” en

1
http://nces.ed.gov/nationsreportcard/geography/elements.asp
164 Medición en Ciencias Sociales y de la Salud

el área “conexiones y dinámicas espaciales”. Mientras que el ítem “Explique las razones
que los mexicanos y cubanos tienen hoy en día para emigrar a los Estados Unidos” está
diseñado para medir “comprensión” en la misma área de conocimiento.
Para definir el dominio de manera adecuada podemos usar varias fuentes. En los tests
educativos es habitual usar los libros de texto y los objetivos curriculares; en el ámbito de
selección de personal es frecuente usar los resultados de los análisis de puestos de trabajo;
los datos obtenidos en tales análisis se usan para defender la evaluación de áreas específi-
cas y para establecer su importancia en el test (p. ej., la proporción de ítems de cada una).
En los tests de aptitudes se utilizan las teorías sobre las habilidades mentales y su funcio-
namiento.
Hasta ahora nos hemos ocupado de la definición del dominio. El segundo elemento
resaltado por Sireci es la representación del dominio, que a su vez abarca dos aspectos: la
representatividad y la relevancia. La representatividad o cobertura del dominio indica la
adecuación con que el contenido del test representa todas las facetas del dominio definido.
Hay que examinar si todo el contenido del dominio está siendo medido y si hay facetas
concretas que han sido infrarrepresentadas. Por su parte, al estudiar la relevancia exami-
namos el grado en que cada ítem del test mide el dominio definido, pudiéndose detectar
problemas relativos a la presencia de contenidos irrelevantes.

Procedimientos
La mayoría de los estudios de validación de contenido requieren del trabajo de jueces o
expertos que evalúan los ítems del test y emiten juicios sobre el grado de emparejamiento
entre los ítems y los objetivos definidos en la tabla de especificaciones. Habitualmente se
trabaja con un reducido número de jueces que emiten una cantidad importante de evalua-
ciones. Es crucial realizar una cuidadosa selección de los expertos. En un estudio “tradi-
cional” de validez de contenido, una vez identificado el grupo de expertos en el dominio
evaluado, éstos deben informar del grado en que el dominio está bien definido y del grado
en que el test lo representa bien. Se pueden utilizar varios procedimientos para que los
jueces evalúen el emparejamiento entre los ítems y los objetivos del test.
Rovinelli y Hambleton (1977) propusieron una tarea en la que cada juez juzga si el
contenido de cada ítem refleja cada uno de los objetivos especificados. El juez debe asig-
nar “+1” si considera que el ítem mide el objetivo, “−1” si cree que no lo mide y “0” si
tiene dudas sobre si lo mide o no. Por ejemplo, en un test de 10 objetivos y 4 ítems por
objetivo cada juez debería realizar 400 juicios. El índice de congruencia ítem-objetivo se
obtiene mediante la expresión:

I jk =
N
2N − 2
(
X jk − X j ) [5.1]

Siendo N el número de objetivos, X jk la media de los jueces para el ítem j en el objetivo

k y X j la media de los jueces para el ítem j en todos los objetivos.


Este índice toma valores entre −1 y 1. Nótese que un valor del índice de 1 en un ítem
indicaría que todos los jueces lo han valorado +1 en el objetivo k (la media del ítem en el
Capítulo 5. Concepto y evidencias de validez 165

objetivo sería igual a 1) y −1 en todos los demás objetivos. Un valor del índice de −1 indi-
caría que todos los jueces lo han valorado −1 en el objetivo k y +1 en todos los demás ob-
jetivos. Podemos fijar un punto de corte para decidir qué ítems presentan valores adecua-
dos y cuáles no. Por ejemplo, si tenemos 20 jueces y 10 áreas de contenido. Podríamos
exigir que al menos 15 jueces valorasen el ítem como adecuado para el objetivo propuesto
e inadecuado para los otros. En este ejemplo, el índice debería valer 0,75.

Ejemplo 5.1. El índice de congruencia de Rovinelli y Hambleton

En la Tabla 5.1 se muestran las hipotéticas evaluaciones de una muestra de 10 jueces re-
cogidas con este procedimiento para un test de 6 ítems que pretende medir 2 objetivos. En
negrita se muestran los ítems que han sido diseñados para medir cada objetivo. Así, los
tres primeros ítems fueron diseñados para evaluar el objetivo 1 y los tres últimos para el
objetivo 2. Cada juez debe realizar 12 valoraciones (6 ítems × 2 objetivos). Por ejemplo,
el juez 1 evalúa con “+1” al ítem 3 en el objetivo 1 (cree que lo mide) y con “0” a ese
mismo ítem en el objetivo 2 (tiene dudas sobre si lo mide o no).

Tabla 5.1. Evaluaciones hipotéticas de 10 jueces para un test de 6 ítems que mide 2 objetivos
Jueces
i =10
Objetivos Ítems 1 2 3 4 5 6 7 8 9 10 ∑X
i =1
i

1 1 +1 +1 +1 +1 +1 +1 0 +1 +1 +1 9
2 +1 +1 0 +1 +1 +1 0 +1 +1 +1 8
3 +1 0 +1 +1 +1 +1 +1 +1 +1 −1 7
4 −1 0 −1 −1 −1 −1 −1 0 0 −1 −7
5 −1 0 −1 −1 −1 −1 −1 −1 −1 −1 −9
6 −1 0 −1 −1 −1 −1 −1 0 −1 −1 −8
2 1 −1 0 −1 −1 −1 −1 −1 0 −1 −1 −8
2 −1 0 −1 −1 −1 −1 −1 −1 0 −1 −8
3 0 +1 −1 −1 −1 −1 −1 −1 −1 0 −6
4 +1 +1 +1 +1 +1 +1 0 +1 +1 +1 9
5 +1 +1 0 +1 0 +1 0 −1 +1 +1 6
6 +1 +1 +1 +1 +1 0 +1 −1 +1 0 6

El índice de congruencia del ítem 3 y el objetivo 1 (que es el que pretende medir) es:

I jk =
N
2N − 2
(
X jk − X j = )2  7 7 + (−6) 
 −
4 − 2  10 20 
 = 0,65
166 Medición en Ciencias Sociales y de la Salud

Supongamos que para considerar un ítem adecuado decidimos que al menos 7 de los 10
jueces valoren el ítem como apropiado para el objetivo propuesto e inapropiado para el
otro objetivo. En este caso, el índice debería ser al menos de 0,7. El índice de congruencia
del ítem 3 no alcanza este valor, por lo que no se consideraría adecuado para evaluar el
objetivo en cuestión.

Un segundo procedimiento, más sencillo que el anterior, implica el uso de una tarea de
emparejamiento. Se presentan a los jueces dos listas, una con los ítems y otra con los obje-
tivos. La tarea del juez consiste en indicar qué objetivo piensa que mide cada ítem (si es
que mide alguno). Estas clasificaciones serían usadas para obtener “índices de congruen-
cia ítem-objetivo”, así como “índices de congruencia globales” para cada área de conteni-
do. Por ejemplo, si en un examen de Geografía un ítem diseñado para medir “conocimien-
to” en el área “conexiones y dinámicas espaciales” fuese clasificado en esa categoría por
un 80% de los jueces, su índice de congruencia sería de 0,8. Se suele considerar que índi-
ces de 0,7 o mayores corresponden a ítems congruentes con su objetivo.
Los índices de congruencia son fáciles de comprender y de calcular y proporcionan in-
formación sobre la representación del dominio. Además, a partir de los datos anteriores
hay que ver el porcentaje de ítems que hay en cada una de las celdas de la tabla de especi-
ficación y ver si éste es acorde con lo propuesto en la definición del dominio. Los datos
recogidos de esta manera pueden resumirse usando estadísticos descriptivos como: el %
de ítems que se emparejan a los objetivos, la correlación entre el peso dado al objetivo y el
número de ítems que miden el objetivo o el porcentaje de objetivos no evaluados por nin-
guno de los ítems. En ocasiones, para evaluar la precisión con que los jueces llevan a cabo
su tarea, se incluyen ítems que no miden ninguno de los objetivos (ítems de relleno). Se
evalúa la efectividad de los jueces mediante el recuento del número de tales ítems que no
han sido identificados por cada juez. Aquellos jueces que no logren un mínimo nivel de
ejecución se eliminan del análisis.

Ejemplo 5.2. Tarea de emparejamiento para evaluar la validez de contenido

La Tabla 5.2 muestra un resumen y análisis de las evaluaciones hipotéticas de 5 jueces en


un test de 12 ítems que mide 4 objetivos. Los ítems 13, 14 y 15 no medían ninguno de los
objetivos. En los ítems que componen el test, una puntuación de 1 significa que el juez
asignó el ítem al objetivo para el que había sido desarrollado. Una puntuación de 0 signi-
fica que el juez no asignó el ítem al objetivo para el que fue desarrollado. En los “ítems de
relleno” una puntuación de 0 significa que el juez no asignó el ítem a ninguno de los obje-
tivos. Una puntuación de 1 significa que el juez asignó el ítem a alguno de los objetivos.
Por ejemplo, el juez nº 2 consideró que el ítem 2 no medía el objetivo 1, pero que el ítem
7 sí medía ese objetivo. Si nos fijamos en los datos del ítem 10 veremos que sólo uno de
los cinco jueces consideraron que midiese el objetivo (2) para el que había sido desarro-
llado, de ahí que su índice de congruencia tenga un valor de 0,2.
Capítulo 5. Concepto y evidencias de validez 167

Respecto a la efectividad con que los jueces realizan su tarea, vemos que el juez me-
nos eficaz ha sido el nº 2, ya que no detecta ninguno de los ítems “de relleno” introduci-
dos. Este juez es también quien ha realizado un menor porcentaje de clasificaciones “con-
gruentes” (58%). Es decir, de los 12 ítems que componen el test sólo emparejó 7 con el
objetivo para el que habían sido diseñados. Por lo tanto, éste sería un juez cuyos datos de-
berían, probablemente, ser eliminados.

Tabla 5.2. Hipotética tarea de emparejamiento llevada a cabo por cinco jueces
Jueces Índice de
Objetivos Ítem 1 2 3 4 5 congruencia
1 2 1 0 1 1 1 0,8
7 1 1 0 1 1 0,8

2 1 1 1 1 1 1 1
3 1 1 1 1 1 1
8 1 1 1 1 0 0,8
10 0 0 0 1 0 0,2
11 1 0 0 0 1 0,4
3 4 1 1 1 0 0 0,6
6 1 0 1 0 0 0,4

4 5 0 0 1 1 1 0,6
9 1 1 1 0 1 0,8
12 1 1 0 1 1 0,8
% de clasificaciones “congruentes” 83 58 67 67 67
13 0 1 0 0 1
Ítems “de relleno” 14 1 1 0 1 0
15 1 1 0 0 0
Nº ítems “de relleno” no identificados 2 3 0 1 1

El juicio solicitado a los expertos no tiene por qué ser dicotómico (clasificar un ítem, o no,
en un objetivo). Hambleton (1980, 1984) propuso el uso de escalas tipo Likert de 5 puntos
donde la tarea del juez es evaluar la relevancia de cada ítem para medir el objetivo pensa-
do. No hay un número estándar de puntos para utilizar. Se suele aconsejar no usar menos
de 5 puntos ni más de 9. El valor más bajo de la escala indica “nada relevante” y el más
alto “completamente relevante”. Se obtienen la media y/o la mediana de las valoraciones,
que se usan como índices de la relevancia del ítem. La media de los índices de relevancia
para todos los ítems de un área de contenido se usa como índice de representación de esa
área. Es el investigador quien debe decidir cuándo se considera que el resultado obtenido
168 Medición en Ciencias Sociales y de la Salud

para un ítem es lo suficientemente bueno como para considerarlo relevante; por ejemplo,
en una escala de 5 puntos una media superior a 3,5 o una mediana superior a 3. Además,
para cada juez se puede calcular la discrepancia entre su valoración y la mediana para ca-
da ítem. Para ello se deben sumar las diferencias, en valor absoluto, entre la valoración
dada por el juez y la mediana para cada ítem. Cuando la discrepancia cometida es impor-
tante se puede dudar de la competencia del juez, y por tanto eliminarlo de los análisis.

Ejemplo 5.3. Evaluaciones de una muestra de jueces usando una escala tipo Likert

La Tabla 5.3 incluye las evaluaciones de 10 jueces, usando una escala de 7 puntos, en un
test de 14 ítems que pretende medir 2 objetivos. Los 7 primeros ítems medían el primer
objetivo y los 7 últimos el segundo. Por ejemplo, el juez nº 2 consideró que el tercer ítem,
diseñado para medir el primer objetivo, lo hacía en un grado de 4 sobre 7.

Tabla 5.3. Resumen de las evaluaciones de 10 jueces en un test de 14 ítems y una escala de 7 puntos
Jueces
Objetivos Ítems 1 2 3 4 5 6 7 8 9 10 media Mdn Rango
1 1 7 5 4 5 3 4 4 7 7 5 5,1 5 4
2 7 6 7 7 3 7 6 7 7 7 6,4 7 4
3 4 4 1 3 3 2 3 2 5 6 3,3 3 5
4 1 6 7 1 6 7 3 2 4 7 4,4 5 6
5 6 6 6 5 4 6 6 6 7 7 5,9 6 3
6 4 6 7 5 4 7 5 6 7 7 5,8 6 3
7 7 5 5 6 3 6 4 6 5 6 5,3 5,5 4

2 8 3 4 1 1 4 4 3 5 6 6 3,7 4 5
9 6 6 2 6 1 4 3 6 7 5 4,6 5,5 6
10 3 6 3 4 1 4 4 5 7 6 4,3 4 6
11 7 6 4 6 1 2 6 7 6 5 5,0 6 6
12 7 3 5 7 1 6 4 7 5 6 5,1 5,5 6
13 7 5 2 6 1 4 2 7 7 7 4,8 5,5 6
14 7 6 3 7 4 5 4 7 7 6 5,6 6 4
Discrepancia de cada
18 9 23 13 37 14 17 14 17 15
juez respecto a la Mdn

Si observamos las medias y medianas de los ítems podremos concluir que, según esta
muestra de jueces, los ítems que mejor reflejan los objetivos planteados son: para el obje-
tivo 1, el ítem 2 (con una media de 6,4 y una mediana de 7), y para el objetivo 2, el ítem
14 (con una media de 5,6 y una mediana de 6). Si observamos el rango de las evaluacio-
nes obtenidas por un ítem, tendremos un indicador del nivel de desacuerdo de los jueces.
Capítulo 5. Concepto y evidencias de validez 169

Por ejemplo, los ítems 5 y 6 presentan el menor rango (3), lo que nos informa de un mayor
nivel de acuerdo entre los jueces al evaluarlos. Respecto al análisis de las discrepancias de
los expertos, el juez nº 5 destaca claramente2. Sus evaluaciones son las que mayores dife-
rencias obtienen respecto a las medianas. Por lo que, en este caso, sus valoraciones serían
candidatas a ser eliminadas del análisis definitivo.

Obviamente, para que los datos recogidos mediante cualquiera de los procedimientos que
hemos detallado anteriormente sean informativos hay que garantizar que existe una ade-
cuada fiabilidad interjueces, es decir, que las valoraciones que realizan son consistentes.
En el capítulo 9 se muestran algunos de los múltiples índices que se han propuesto para su
estudio. Una limitación de los índices de congruencia y de relevancia que acabamos de
describir es que, al informar a los jueces de lo que el test se supone que mide, estamos res-
tringiendo sus evaluaciones a las dimensiones propuestas y, por lo tanto, influenciando sus
percepciones sobre lo que mide el ítem. El conocimiento por parte de los jueces de los ob-
jetivos del test puede sensibilizarles con las expectativas de los constructores del test y
crear un sesgo potencial de demandas de la tarea que contamine sus juicios. Esto proba-
blemente sobrestima los índices de relevancia y congruencia obtenidos. Para superar estos
problemas se han propuesto métodos que intentan descubrir las percepciones de los jueces
sin informarles de las áreas específicas de contenido del test. Concretamente, Sireci y Gei-
singer (1992, 1995) utilizaron métodos de escalamiento multidimensional y análisis de
conglomerados con los juicios sobre la similaridad del contenido medido por pares de
ítems. En este caso, la tarea de los jueces es evaluar, usando una escala tipo Likert, la si-
milaridad entre todos los posibles pares de ítems del test con respecto al conocimiento o
habilidades cognitivas medidas. El objetivo era determinar si la estructura propuesta en la
tabla de especificaciones era congruente con las evaluaciones de similaridad dadas por los
expertos. Tal y como el propio Sireci indica, el método basado en las similaridades com-
plementa, pero no excluye, los métodos tradicionales. Los trabajos de validación de con-
tenido deben incluir los procedimientos tradicionales basados en los índices de congruen-
cia y relevancia.
Como ya dijimos al principio de este apartado, la mayoría de los trabajos de validación
de contenido están basados en las evaluaciones de jueces, pero también se ha propuesto el
examen del contenido de los tests a partir de las contestaciones dadas por los sujetos que
responden al mismo. Se han aplicado técnicas de escalamiento multidimensional, y análi-
sis cluster (p. ej., Deville, 1996; Napior, 1972; Oltman, Stricker y Barrows, 1990), mode-
los de ecuaciones estructurales (p. ej., Ding y Hersberger, 2002), análisis factorial (p. ej.,
Dorans y Lauwrence, 1987) y la Teoría de la Generalizabilidad (p. ej., Green, 1983). Si-
reci (1998) es crítico con algunas de estas aplicaciones porque considera que confunden
las propiedades de los datos con las interpretaciones del contenido. Sin embargo, conside-
ra prometedores los estudios basados en la Teoría de la Generalizabilidad.

2
37 = 3 − 5 + 3 − 7 + ... + 4 − 6
170 Medición en Ciencias Sociales y de la Salud

Evidencias basadas en la estructura interna del test


¿Mide nuestro test un constructo coherente o se trata simplemente de un conjunto de ítems
no relacionados? Las evidencias sobre la estructura interna nos permitirán responder a esta
pregunta. Para analizar la estructura interna del test se realizan estudios sobre la dimen-
sionalidad y sobre el funcionamiento diferencial de los ítems. Respecto a los estudios so-
bre dimensionalidad, permiten determinar la estructura del test, que puede haber sido
construido para medir una o varias dimensiones, y ver si coincide con la estructura postu-
lada al construir la prueba. Este tipo de análisis es frecuentemente realizado en los traba-
jos de validación. Se basa en el examen de las relaciones entre los ítems del test con el fin
de determinar, empíricamente, qué conceptos se pueden emplear para interpretar sus pun-
tuaciones. Se utilizan complejas técnicas estadísticas, fundamentalmente el análisis facto-
rial, que examinan si las relaciones entre los ítems se corresponden con las hipotetizadas
para el constructo que estamos midiendo. Por ejemplo, una teoría que plantea la unidi-
mensionalidad de un constructo requiere que los ítems saturen en un único factor.
Mediante las técnicas factoriales, a partir de las correlaciones entre los ítems se obtie-
ne una matriz factorial que expresa la relación entre los ítems y los factores comunes o
dimensiones subyacentes. Los factores se definen como combinaciones lineales de los
ítems originales.
El estudio de la dimensionalidad puede hacerse mediante diversos modelos de análisis
factorial exploratorio (AFE) o análisis factorial confirmatorio (AFC). El AFE es básica-
mente una técnica de reducción de la dimensionalidad que permite pasar de un conjunto
de variables observadas (ítems) a un número mucho menor de variables latentes o facto-
res. El AFE busca identificar un conjunto de factores hipotéticos que pueden explicar las
correlaciones observadas entre los ítems del test. No plantea hipótesis previas sobre las
dimensiones y las saturaciones de los ítems en los factores. Los factores derivados del
análisis son abstracciones matemáticas. Su significado sustantivo se desarrolla examinan-
do el contenido de los ítems que saturan en cada factor. Por ejemplo, si todos los ítems
que saturan en un factor implican habilidades de cálculo y los ítems que no requieren estas
habilidades tienen saturaciones muy bajas en él, el factor puede ser identificado como
“Habilidad de cálculo”. La interpretación surge al combinar el modelo matemático formal
con juicios subjetivos que unen el modelo a fenómenos observables. En el capítulo 6 se
describen con detalle el AFE.
El AFC, al igual que el exploratorio, tiene como objetivo identificar factores latentes
que expliquen la covariación entre las variables observables. Ambos, AFE y AFC, están
basados en el mismo modelo estadístico. La diferencia es que con el AFC se pone a prue-
ba si una solución factorial concreta es o no adecuada para unos datos. Se especifica, por
ejemplo, el número de factores, si están o no relacionados, qué ítems son indicadores de
cada factor, etc. El AFC requiere una base empírica o conceptual fuerte que guíe la espe-
cificación del modelo. De ahí que se use en las últimas fases de los estudios de validación.
El capítulo 10 recoge los aspectos técnicos más importantes para su aplicación.
Dentro de las evidencias relativas a la estructura interna también pueden ubicarse los
trabajos encaminados a evaluar el funcionamiento diferencial de los ítems (FDI). El FDI
aparece cuando personas con el mismo nivel en la característica medida por el test, pero
que pertenecen a grupos distintos, tienen distinta probabilidad de acertar o estar de acuer-
do con el ítem. Los grupos se definen atendiendo a variables sociodemográficas como el
Capítulo 5. Concepto y evidencias de validez 171

sexo, la raza, la cultura, el idioma, etc. Una diferencia grupal no implica la existencia de
FDI. Para hablar de FDI la diferencia entre los distintos grupos tiene que ser debida a dife-
rencias en variables que no son las que el test pretende medir. El estudio del FDI también
aporta evidencias sobre las consecuencias sociales del uso del test. Existen numerosas
técnicas para detectar FDI, algunas de las cuales se describen en el capítulo 13.

Evidencias basadas en la relación con otras variables


El objetivo aquí es establecer si las relaciones observadas entre las puntuaciones en el test
y otras variables externas relevantes son consistentes con la interpretación propuesta para
las puntuaciones. Por ejemplo, Moltó (1988) predice (y comprueba) que la escala de sus-
ceptibilidad al castigo (que mide el grado de evitación de situaciones aversivas) debe pro-
porcionar puntuaciones relacionadas directamente con neuroticismo e inversamente con
estabilidad emocional. Si las relaciones observadas son consonantes con lo predicho por el
modelo teórico en el que se inserta el constructo medido por el test, entonces hemos obte-
nido evidencia favorable a la interpretación propuesta. Si las relaciones observadas no son
las esperadas hay que cuestionar la adecuación de la prueba, la adecuación de las medidas
de las otras variables o incluso el modelo teórico.
Las variables externas relevantes a las que hacemos alusión pueden ser: a) otras me-
didas del mismo constructo obtenidas con diferentes tests; b) medidas de constructos dife-
rentes pero que se insertan en el modelo teórico donde se encuadra el constructo de interés
o c) algún tipo de variable (criterio) que pretendamos predecir a partir de las puntuaciones
en el test. Examinaremos por separado las evidencias para establecer la relación del test
con otros constructos (evidencia convergente y discriminante) y del test con algún criterio
(validez referida a un criterio).

La evidencia convergente y discriminante


Buscamos examinar las relaciones previsibles entre las puntuaciones en el test y otros
constructos, ya sean similares (evidencia convergente) o diferentes (evidencia discrimi-
nante) a los que se pretenden medir con el test. Por ejemplo, podemos pensar que las pun-
tuaciones en un test de opción múltiple de razonamiento lógico se relacionarán estrecha-
mente con otra medida de razonamiento lógico basada en la resolución de problemas (evi-
dencia convergente). Sin embargo, si medimos además otro constructo diferente, por
ejemplo la comprensión lectora, esperamos que la relación entre ambas mediciones sea
menor (evidencia discriminante). Predominan los trabajos que buscan obtener evidencia
convergente, probablemente porque estudiar la relación entre distintos métodos que miden
el mismo constructo puede ayudar a interpretar el significado de las puntuaciones.
Para obtener información sobre las relaciones entre las puntuaciones del test con otras
variables que forman parte del modelo teórico se plantean habitualmente dos tipos de tra-
bajos:

1. Estudios de comparación del rendimiento de diversos grupos en el test. Por ejemplo, en


un test neuropsicológico podemos comparar grupos de personas con y sin lesión cere-
172 Medición en Ciencias Sociales y de la Salud

bral, o en un test de conocimientos un grupo de expertos con uno de novatos. En otras


ocasiones se comparan grupos que han recibido intervenciones diferentes que deberían
afectar a sus puntuaciones. Por ejemplo, puede estudiarse si las puntuaciones en una
medida de estrés son sensibles al tratamiento o si hay diferencias en las puntuaciones
en un test de logro académico entre el grupo de estudiantes que han recibido instruc-
ción y el que no la ha recibido. En otras ocasiones se comparan grupos para obtener
evidencia discriminante. Por ejemplo, en un cuestionario que mida depresión (puntua-
ciones más altas indicarían más depresión) podríamos comparar las puntuaciones obte-
nidas en el test por dos grupos de pacientes: un grupo con patología depresiva y otro
grupo formado por pacientes con otros tipos de patologías. Si encontramos puntuacio-
nes significativamente más altas en el grupo de sujetos diagnosticados con depresión
habríamos obtenido evidencias sobre un uso concreto del cuestionario.

Ejemplo 5.4. Un estudio sobre la validez convergente del listado de Psicopatía de


Hare revisado (PCL-R)

Chico y Tous (2003) estudiaron la validez convergente del listado de Psicopatía de Hare
revisado (PCL-R). En las últimas décadas el PCL-R se considera como el instrumento es-
tandarizado más habitual para medir Psicopatía. Se aplicó la versión española de Moltó,
Poy y Torrubia (2000) a una nuestra de 305 internos presos en un centro penitenciario. La
escala consta de 20 ítems cuya puntuación viene determinada por el psicólogo, quien,
usando la información obtenida en una entrevista semiestructurada, puntúa cada ítem co-
mo 0 (si la conducta en cuestión estaba ausente), 1 (si había dudas) o 2 (si se estaba segu-
ro de su presencia). Para evaluar la validez convergente se observaba si existían diferen-
cias estadísticamente significativas en variables relacionadas con la vida penitenciaria del
recluso atendiendo a sus puntuaciones (altas o bajas) en el PCL-R. Se formaron dos gru-
pos: el grupo 1, compuesto por presos que tenían puntuaciones por debajo de la media en
la escala, y el grupo 2, formado por reclusos con puntuaciones por encima de la media. La
Tabla 5.4 muestra que hubo diferencias en dos variables dependientes, en función de las
puntuaciones altas y bajas en el PCL-R. Los presos que habían puntuado alto en PCL-R
puntuaron más alto en la variable dependiente “número de ingresos en prisión” y eran más
jóvenes cuando ingresaron por primera vez.

Tabla 5.4. Diferencias grupales en función de las puntuaciones en el PCL-R


Puntuaciones bajas en Puntuaciones altas en
Variables gl. T
PCL-R (N = 157) PCL-R (N = 157)
Media Desv. Tip. Media Desv. Tip.
er
Edad 1 ingreso 21,14 3,70 18,50 3,45 323 6,40*
Nº de ingresos 3,09 2,66 5,45 4,54 323 −5,52*
*p < 0,0001.

También se habían evaluado la gravedad de los delitos y la conducta en prisión. Los pre-
sos se clasificaron en función del delito más grave que habían cometido en 3 categorías: 0,
si habían cometido delitos no violentos; 1, si sus delitos suponían un cierto grado de vio-
Capítulo 5. Concepto y evidencias de validez 173

lencia (p. ej.: robos con fuerza); y 2, delitos más violentos (p. ej.: robos con armas, viola-
ciones, homicidios…). Respecto a su conducta, los reclusos se clasificaron de la siguiente
forma: 0 (no tenían sanciones disciplinarias), 1 (tenían sanciones leves y como máximo
una sola grave) y 2 (presos que habían cometido más de una sanción grave o muy grave).
Ambas variables se relacionaron con la puntuación en el PCL-R: χ2 (2, N = 305) = 89,56,
p < 0,001 y χ2 (2, N = 305) = 61,38, p < 0,001, respectivamente, para la tipología delicti-
va y la conducta en prisión.

2. En un segundo tipo de trabajos se obtienen las correlaciones entre las puntuaciones ob-
tenidas en dos o más tests, para establecer si miden o no el mismo constructo. Si la pre-
visión es que miden el mismo constructo, se estaría buscando una evidencia de validez
convergente. Si la hipótesis de partida es que los tests miden constructos diferentes, se
estaría buscando evidencia discriminante. Por ejemplo, Manners y Durkin (2001) lleva-
ron a cabo una revisión sobre las investigaciones realizadas para recoger evidencias so-
bre la validez del Washington University Sentence Completion Test (WUSCT), una es-
cala concebida para medir el desarrollo del ego, construida desde la teoría de Loevinger
sobre el desarrollo de la personalidad. Como ejemplos de trabajos que ofrecen eviden-
cia discriminante para el WUSCT, se citan varias investigaciones en las que se correla-
cionaron sus puntuaciones con medidas de fluidez verbal. Aunque ambos constructos,
según predice la teoría, deben estar relacionados, ya que son necesarias más palabras
para expresar mayor complejidad conceptual, el número de palabras usadas y la com-
plejidad de las estructuras empleadas son claramente distinguibles, por lo que se espe-
raba obtener correlaciones medias. Éste fue el resultado obtenido en distintas muestras,
donde los coeficientes de correlación fueron aproximadamente de 0,30.

Ejemplo 5.5. Un estudio sobre la validez convergente de dos medidas objetivas de


Minuciosidad

Hernández, Lozano, Shih y Santacreu (2009) realizaron una investigación para obtener un
indicador de la validez convergente de dos medidas objetivas de Minuciosidad que eran
funcionalmente equivalentes; es decir, evaluaban el mismo estilo interactivo, que básica-
mente consiste en la ejecución de una tarea de manera ordenada, organizada, siguiendo
un patrón sistemático. Este estilo podría considerarse equiparable, en términos teóricos, a
la dimensión de Minuciosidad del Modelo de Cinco Factores de la Personalidad.
Las pruebas aplicadas fueron el Test de Minuciosidad Árboles (TM-A) y el Test de
Minuciosidad Fichas (TM-F). Hay apreciables diferencias formales entre ellos. La tarea
en el test TM-A consistía en identificar y pulsar con el ratón, de entre una variedad de
imágenes distintas, aquellas que fuesen iguales a una presentada como modelo. En el test
TM-F se presentaba un panel que contenía varios tipos de fichas, que otorgaban puntos al
ser pulsadas. El objetivo de la tarea era obtener la mayor cantidad de puntos pulsando so-
bre el menor número de fichas.
174 Medición en Ciencias Sociales y de la Salud

Ambas pruebas de evaluación se aplicaron durante un proceso de selección. La distan-


cia temporal entre una y otra fue de 1 hora y 40 minutos, período en el cual los candidatos
realizaron otras tareas de evaluación. Éstos ejecutaron las pruebas de modo individual en
un ordenador. El coeficiente de correlación de Pearson entre las puntuaciones de las dos
pruebas fue de 0,638, p < 0,001. Los autores concluyen que ambas pruebas miden un
mismo estilo interactivo. En otras palabras, las estrategias de actuación que ponen en mar-
cha los individuos enfrentados a dos tareas distintas son las mismas. Estos resultados no
permiten, no obstante, asegurar que estas pruebas estén midiendo la misma dimensión de
minuciosidad que las tradicionales pruebas de evaluación basadas en el autoinforme de los
individuos, ya que en un trabajo previo realizado por Sánchez-Balmisa, Hernández, Ma-
drid, Peña y Santacreu (2003) no se encontró una correlación significativa entre el TM-F y
la escala de responsabilidad del cuestionario de personalidad BFQ.

En 1959 Campbell y Fiske propusieron un diseño para analizar la validez convergente y


discriminante, basado en el estudio de la denominada matriz multirrasgo-multimétodo3
(MRMM). Este trabajo es uno de los más citados en la historia de la Psicología. Para estos
autores un test es el resultado de unir un constructo con un procedimiento de medida.
Cuando las puntuaciones de dos instrumentos covarían puede deberse a que comparten un
constructo común o a que comparten un método de evaluación. Para separar ambos aspec-
tos, y así estudiar las contribuciones relativas de la varianza del constructo y del método,
propusieron un diseño en el que una muestra de sujetos es evaluada en un conjunto de
constructos, medidos cada uno con un conjunto de métodos diferentes. La matriz MRMM
incluye todas las correlaciones entre condiciones de medida. El objetivo de estudiar una
matriz MRMM es evaluar los efectos de la varianza atribuida al constructo de interés y la
varianza del método (varianza atribuible al método de medida específico), ya que el efecto
del método altera las correlaciones entre los constructos introduciendo sesgos sistemáti-
cos. Idealmente, una medida no debería contener efecto del método. En contraste, los es-
tudios MRMM han mostrado que las puntuaciones en los tests psicológicos y educativos
contienen una cantidad sustancial de efecto del método (Dumenci, 2003). Adicionalmente,
una MRMM también proporciona información sobre el patrón de asociaciones entre cons-
tructos y las posibles interacciones entre métodos y constructos.

Organización de las matrices MRMM

La selección de rasgos y métodos debe hacerse de modo que: a) cada uno de los métodos
sea adecuado para medir todos los constructos de interés, b) los diferentes métodos sean lo
más independientes posible entre sí y c) los constructos incluidos varíen en el grado de
asociación entre ellos, con constructos altamente relacionados y otros en los que la asocia-
ción sea muy baja. El objetivo de estas recomendaciones es establecer las condiciones

3
Para conmemorar el 50 aniversario de este trabajo la revista Methodology publicó en el año 2009 un número
monográfico, Vol. 5 (3), en el que, para analizar los datos de esta matriz, presenta aproximaciones desde los
modelos multinivel y el análisis factorial. El análisis de esta matriz aplicando el AFC puede consultarse en el
capítulo 14.
Capítulo 5. Concepto y evidencias de validez 175

para que las correlaciones entre las puntuaciones de diferentes rasgos, medidos con distin-
tos métodos, se aproximen a cero.
La matriz MRMM se organiza por método, de modo que cada constructo medido
está incrustado en cada bloque de método. Un ejemplo hipotético de organización lo po-
demos encontrar en la Tabla 5.5, que muestra una matriz de correlaciones para 3 cons-
tructos medidos por 2 métodos diferentes. Para interpretar esta matriz hay que identificar
4 regiones o grupos de correlaciones:

1. El primer grupo está formado por las correlaciones obtenidas entre los mismos cons-
tructos usando los mismos métodos (datos entre paréntesis). Son las correlaciones mo-
norrasgo-monométodo y conforman las diagonales de la fiabilidad.
2. El segundo grupo lo forman las correlaciones entre las medidas del mismo constructo
cuando se utilizan distintos métodos (datos en cursiva negrita). Son las correlaciones
monorrasgo-heterométodo. Muestran evidencia sobre la convergencia y constituyen las
diagonales de la validez.
3. El tercer grupo lo componen las correlaciones entre distintos constructos medidos con
el mismo método (datos subrayados) o correlaciones heterorrasgo-monométodo. Nóte-
se que estas correlaciones forman triángulos situados de forma adyacente a cada diago-
nal de la fiabilidad.
4. El cuarto grupo está formado por las correlaciones entre distintos constructos y distintos
métodos, correlaciones en las que no se comparte ni el constructo ni el método, es de-
cir, heterorrasgo-heterométodo. Nótese que forman triángulos adyacentes a la diagonal
de la validez y que ambos triángulos no son iguales.

Ejemplo 5.6. Matrix MRMM para tres constructos medidos por dos métodos

En la Tabla 5.5 se presenta un ejemplo hipotético, adaptado de Fabrigar y Estrada (2007).


Los métodos 1 y 2 son dos formas distintas de medir las actitudes. Los constructos A, B y
C son, respectivamente, sentimientos, creencias e intenciones de actuar.

Tabla 5.5. Representación de una hipotética matriz multirrasgo-multimétodo


Método 1 Método 2

Cons. A Cons. B Cons. C Cons. A Cons. B Cons. C


Constructo A (0,98)
Método 1 Constructo B 0,62 (0,95)
Constructo C 0,19 0,17 (0,93)
Constructo A 0,75 0,60 0,18 (0,95)
Método 2
Constructo B 0,59 0,86 0,17 0,60 (0,94)
Constructo C 0,19 0,18 0,74 0,21 0,20 (0,95)
176 Medición en Ciencias Sociales y de la Salud

Interpretación de las matrices MRMM

El análisis tradicional de estas matrices, tal y como fue propuesto inicialmente por Camp-
bell y Fiske, implica una inspección visual de la matriz examinando cuatro propiedades:

1. En primer lugar, hay que evaluar la diagonal monorrasgo-monométodo (o de la fiabili-


dad). Estos coeficientes deberían ser, de modo consistente, los más altos de la matriz,
porque es poco probable que una medida correlacione más con cualquier otra cosa que
consigo misma (por ejemplo, en dos aplicaciones). En nuestro ejemplo, las correlacio-
nes varían entre 0,93 y 0,98 indicando valores elevados de la fiabilidad.
2. En segundo lugar, las correlaciones monorrasgo-heterométodo son tomadas como indi-
cadoras de evidencia convergente, porque nos informan del grado en que diferentes
métodos son congruentes al medir el mismo constructo. Estas correlaciones deberían
ser significativamente distintas de cero y lo suficientemente altas para que tenga senti-
do continuar un análisis de la validez. Idealmente, todos los métodos deberían propor-
cionar el mismo ordenamiento de los individuos para un particular constructo. En nues-
tro ejemplo, estas correlaciones son altas (varían entre 0,74 y 0,86) lo que sugiere que
los diferentes métodos producen resultados similares para los tres constructos. El hecho
de que estas correlaciones sean elevadas es una condición necesaria, pero no suficiente,
para asegurar la convergencia. Es posible que estas correlaciones estén sobrestimadas
por un factor irrelevante (por ejemplo, la varianza del método), y por eso es necesario
examinar las correlaciones que nos proporcionan evidencia sobre la divergencia, tal
como se indica a continuación.
3. En tercer lugar, las correlaciones monorrasgo-heterométodo hay que compararlas con
los triángulos heterorrasgo-monométodo. Los valores en la diagonal monorrasgo-
heterométodo deberían ser más altos que los valores de los triángulos heterorrasgo-
monométodo, porque distintos métodos evaluando un mismo rasgo deberían correla-
cionar más que el mismo método evaluando rasgos distintos. Si no ocurriese esto, el
método de medida explicaría una parte importante de varianza de las puntuaciones. En
nuestro ejemplo, las correlaciones monorrasgo-heterométodo (0,75, 0,86 y 0,74) son,
para cada comparación, mayores que las correlaciones obtenidas en los triángulos hete-
rorrasgo-monométodo: 0,62, 0,19 y 0,17 (para el Método 1) y 0,60, 0,21 y 0,20 (para el
Método 2). Se debe cumplir también que las correlaciones monorrasgo-heterométodo
sean más altas que las obtenidas en los triángulos heterorrasgo-heterométodo para la
misma fila o columna. Esencialmente, si diferentes métodos están midiendo el mismo
constructo, sus correlaciones deberían ser mayores que las de constructos distintos que
están medidos usando métodos distintos. Por ejemplo, en nuestra matriz 0,75 es mayor
que las correlaciones de su fila (0,60 y 0,18); y también es mayor que las correlaciones
de su columna (0,59 y 0,19). La misma propiedad se cumple para 0,86 (mayor que
0,59, 0,17, 0,60 y 0,18) y también para 0,74 (mayor que 0,19, 0,18, 0,18 y 0,17).
4. En cuarto lugar, y para terminar, el investigador debe comparar los triángulos hetero-
rrasgo-monométodo y heterorrasgo-heterométodo, ya que si dos rasgos están correla-
cionados, esta relación debería mantenerse con independencia del método utilizado pa-
ra medirlos y el mismo patrón debería estar visible en todos los bloques monométodo y
heterométodo. Si examinamos los datos de nuestro ejemplo, este criterio se satisface
siempre. Además, para aquellos constructos que estén correlacionados, las correlacio-
Capítulo 5. Concepto y evidencias de validez 177

nes heterorrasgo-heterométodo deberían ser más altas que para los constructos que no
lo estén. La inspección visual de la Tabla 5.5 nos indica que la regla anterior se cumple
para cada comparación. Veámoslo: si medimos los constructos con el mismo método,
encontramos que la relación entre los constructos A y B es más alta (0,62 y 0,60) que la
existente entre los constructos A y C (0,19, 0,21) y también que la obtenida entre los
constructos B y C (0,18, 0,20). Al comparar las relaciones entre los constructos cuando
son medidos con distintos métodos, la relación entre los constructos A y B (0,59 y
0,60) sigue siendo mayor que la obtenida entre los constructos A y C (0,19, 0,18) y que
la obtenida entre los constructos B y C (0,17, 0,18). También se obtiene evidencia so-
bre el efecto del método al examinar la magnitud diferencial de las correlaciones entre
dos constructos diferentes medidos por el mismo método y las correlaciones entre los
mismos dos constructos medidos por distintos métodos. Por ejemplo, los constructos A
y B correlacionan 0,62 ó 0,60, según se midan con el Método 1 o con el Método 2. Si
se miden con métodos distintos, las correlaciones difieren muy poco (0,59 y 0,60).

En resumen, una matriz MRMM debería proporcionar evidencia a favor de la convergen-


cia al medir los mismos constructos, de la divergencia al medir constructos distintos y de
la ausencia de efectos del método. El estudio de este tipo de matrices tiene también algu-
nas limitaciones. Por una parte, algunas asunciones claves subyacentes no están claramen-
te definidas. Por ejemplo, en el estudio de la matriz MRMM se asume la existencia de dos
tipos de variables (método y rasgo), pero no se especifica su interacción; tampoco se con-
sidera el efecto del error de medida en la cuantía de las correlaciones. Por otra parte, hay
algunos problemas prácticos asociados con su uso. Por ejemplo, no siempre es posible
disponer de un diseño completo “método x rasgos”; además, las matrices muy grandes
pueden ser muy complicadas de evaluar. También se ha criticado la ambigüedad de la in-
terpretación, dado que a veces se producen resultados contradictorios dentro de una mis-
ma matriz. Así, en la práctica es habitual que algunos aspectos de la matriz sean consis-
tentes con las reglas de interpretación, mientras que otros puedan no serlo. En tales casos
las evaluaciones de las diferentes correlaciones pueden ser muy subjetivas. Con el objeti-
vo de afrontar la dificultad de interpretación de las matrices MRMM, y así cuantificar el
grado en que tales criterios han sido satisfechos, se han desarrollado diversos procedi-
mientos estadísticos para complementar la evaluación visual. En el capítulo 14 se expone
con algún detalle el estadístico recientemente propuesto por Sawilowsky (2002) y el em-
pleo del AFC para complementar y aclarar la interpretación de estas matrices.

Evidencia sobre la relación entre el test y algún criterio relevante


Cuando se pretende utilizar el test para pronosticar determinados criterios de rendimiento
como, por ejemplo, el rendimiento escolar, el total de ventas que se van a conseguir, el apro-
vechamiento conseguido en un cursillo o la mejora en un proceso terapéutico, se requiere que
el test se relacione muy estrechamente con dichos criterios. Suele hablarse entonces de la ne-
cesidad de obtener evidencias de validez referida al criterio, lo cual requiere:

1. Identificar un criterio y la manera adecuada de medirlo.


2. Elegir una muestra apropiada.
3. Obtener en la muestra medidas en el test y en el criterio.
178 Medición en Ciencias Sociales y de la Salud

4. Determinar el grado de relación ente ambos.

Para obtener la relación entre el test (X ) y el criterio (Y ), si son variables continuas, se


calcula la correlación entre ambas variables, que se denomina coeficiente de validez (rXY) e
indica el grado en que las puntuaciones en el test sirven para pronosticar con precisión las
puntuaciones en el criterio. Supongamos, por ejemplo, que la correlación entre un test de co-
nocimientos y las calificaciones obtenidas en 2º de Bachillerato fuese 0,85 en una muestra re-
presentativa. Como la correlación es elevada, cometeríamos errores de pronóstico no excesi-
vamente elevados (haciendo uso de la oportuna ecuación de regresión) al predecir la califica-
ción de un alumno sabiendo su rendimiento en el test de conocimientos. El coeficiente de va-
lidez no es una propiedad del test, sino que habrá un coeficiente específico en cada mues-
tra donde se obtenga y para los diferentes criterios que puedan establecerse.
Cuando las puntuaciones en los tests van a emplearse para tomar decisiones importantes
para los evaluados (p. ej., sobre su admisión o no en un puesto de trabajo, sobre el acceso a
una plaza escolar determinada o sobre su acreditación profesional) es preciso que los profe-
sionales dispongan de tests con elevada validez referida al criterio. Pero esto resulta a veces
difícil o muy laborioso. En muchas ocasiones no resulta sencillo establecer criterios pertinen-
tes (relacionados con el test), fiables y fácilmente mensurables, lo cual afectará a la precisión
con la que podrán estimarse. Por ejemplo, los tests que se emplean en el examen teórico para
obtener el permiso de conducir deberían predecir en parte la habilidad futura de conducción,
un criterio que probablemente no resulta sencillo de medir de forma fiable; además, segura-
mente resultaría muy costoso obtener evidencias de validez referida a este criterio para todos
los diferentes tests teóricos que se aplican.
La validez referida a un criterio puede ser predictiva o concurrente. La distinción entre
ambas se refiere al intervalo de tiempo transcurrido entre las mediciones en el test y en el cri-
terio. Las evidencias de validez predictiva reflejan la relación entre las puntuaciones en un
test y un criterio, cuando el criterio se mide más tarde. Por ejemplo, si en un proceso de selec-
ción de personal se aplica un test de aptitudes cognitivas, podrá correlacionarse con medidas
de desempeño laboral sólo después de que los admitidos tengan la oportunidad de trabajar du-
rante un tiempo. En el caso de la validez concurrente, las medidas en el test y en el criterio se
obtienen aproximadamente en el mismo momento.

Interpretación del coeficiente de validez

Si las puntuaciones en el test (X ) y en el criterio que se desea pronosticar (Y ) son variables


continuas, el modelo de regresión lineal simple permite cuantificar la capacidad predictiva del
test. La hipótesis básica del modelo es la linealidad de la relación entre ambos. La función
que relaciona las puntuaciones en el test con las del criterio deberá tener un incremento (o de-
cremento) constante para los diferentes valores de X. Un diagrama de dispersión, como el que
se representa en la Figura 5.1, nos permite obtener una aproximación sencilla al estudio del
grado de relación lineal. Es importante complementar el cálculo del coeficiente de validez
con el correspondiente diagrama de dispersión, ya que un mismo coeficiente puede ser obte-
nido con distintas pautas de relación y el diagrama es una forma sencilla de visualizar estas
pautas. En la Figura 5.1 se recogen los datos, obtenidos por simulación, de una muestra de
1.000 estudiantes en un hipotético test de admisión al centro (X ) y el promedio de sus califi-
caciones obtenidas en el primer curso del grado en Psicología (Y ).
Capítulo 5. Concepto y evidencias de validez 179

Figura 5.1. Diagrama de dispersión de Y (calificación) sobre X (puntuaciones en un test de admisión).


Se ha simulado una muestra de 1.000 estudiantes

Los alumnos con puntuaciones más altas (bajas) en el examen de admisión tienden a obtener
una calificación promedio más elevada (baja) durante el primer curso del grado. En nuestro
ejemplo la correlación entre ambas variables (coeficiente de validez) fue de 0,532, que indica
una relación lineal positiva entre el test y el criterio4.
La recta de regresión que se ha trazado es la línea que mejor se ajusta a la nube de puntos
y nos permite predecir la calificación que obtendría un estudiante que haya tenido una pun-
tuación concreta en el test. La distancia vertical entre un punto y la línea de regresión es el
error de pronóstico o residuo para ese punto. La recta de regresión se ha calculado usando el
método de estimación más habitual, mínimos cuadrados ordinarios, que minimiza la suma de
los errores al cuadrado. En nuestro caso, la capacidad predictiva del test no es muy elevada,
ya que la mayor parte de los puntos distan bastante de la recta.
El coeficiente de validez es una correlación de Pearson y, por tanto, su interpretación más
inmediata se fundamenta en el coeficiente de determinación, que es el cuadrado de la correla-
ción y que indica la proporción de varianza que comparten las puntuaciones del test y del cri-
terio. Así, el coeficiente de validez de 0,532 de nuestro ejemplo indica que con el test se ex-
plica un 28,3% de la variabilidad o diferencias individuales en el criterio, mientras que el
71,7% restante se debe a variables diferentes al test (errores de medida en ambos y otras va-
riables no contempladas que influyen en las calificaciones). Recordando algunos conceptos
fundamentales de la regresión lineal simple, el coeficiente de determinación se puede expre-
sar como:

4
Como veremos un poco más adelante, puede obtenerse también la significación estadística de la correlación
(contrastar si es diferente de 0 en la población). En este sentido, conviene recordar la incidencia del tamaño de la
muestra, de modo que puede alcanzarse la significación para coeficientes bajos cuando están obtenidos en mues-
tras de gran tamaño. Una correlación significativa puede no ser una correlación elevada. Generalmente los coefi-
cientes de validez no exceden de 0,6 en situaciones reales.
180 Medición en Ciencias Sociales y de la Salud

2 SY2' SY2−Y '


rXY = = 1− [5.2]
SY2 SY2

Donde:

S Y2 es la varianza del criterio,


SY2' es la varianza de los pronósticos y
S Y2−Y ' es la varianza de los errores de pronóstico.

Si conocemos el coeficiente de validez y la varianza de las puntuaciones del criterio, podre-


mos obtener la varianza de los errores de pronóstico despejando de la ecuación [5.2]:

SY2−Y ' = SY2 1 − rXY


2
[5.3]

La desviación típica de los errores de pronóstico (SY-Y´) recibe el nombre de error típico
de estimación y tiene un importante papel en las aplicaciones.

Estimaciones en el criterio

La función lineal que permite predecir las puntuaciones en el criterio a partir de las puntua-
ciones en el test será:

Yi' = β 0 + β1 X i [5.4]

Donde β0 es la constante, ordenada en el origen o intercepto y representa el valor esperado de


Y cuando X toma el valor 0, y β1 es la pendiente de la recta o coeficiente de regresión (mues-
tra el cambio que experimenta el valor de Y cuando X cambia una unidad). Gráficamente, β0
representa el punto en el que la recta de regresión corta el eje de ordenadas y β1 representa la
inclinación de la recta. Como la relación entre X e Y no es exacta, para cada sujeto i comete-
mos algún error de pronóstico ( Yi − Yi' ). Cuanto más próximo esté un punto a la recta de re-
gresión, menor será el error cometido.
Para determinar los valores de β0 y de β1 puede utilizarse el criterio denominado de míni-
mos cuadrados ordinarios, que minimiza la suma de los errores al cuadrado para el conjunto
de los sujetos:

∑ (Y − Y )
i =1
i i
' 2
[5.5]
Capítulo 5. Concepto y evidencias de validez 181

'
La recta que hace mínima la expresión [5.5] se consigue sustituyendo Yi por su valor
Yi' = β 0 + β1 X i . El proceso de minimización conduce a dos ecuaciones de las que se pueden
despejar los valores de los dos parámetros. Puesto que se trabaja con datos muestrales:

SY
b1 = rXY [5.6]
SX

b0 = Y − b1 X [5.7]

En nuestro ejemplo, las desviaciones típicas del criterio y del test son, respectivamente, 0,973
y 4,886; las correspondientes medias son 5,927 y 29,818. Si quisiéramos predecir la califica-
ción promedio en el primer curso a partir de las puntuaciones en el examen de admisión, la
ecuación de regresión se obtendría de la siguiente forma:

SY 0,973
b1 = rXY = 0,532 = 0,106
SX 4,886

b0 = Y − b1 X = 5,927 − 0,106(29,818) = 2,768

Yi' = b0 + b1 X i = 2,768 + 0,106 X i

Por lo tanto, en la ecuación anterior, b1 nos indica que un incremento de un punto en la nota
del examen de admisión produce un aumento de 0,106 puntos en la calificación promedio en
el primer curso.
El valor obtenido para el estimador de la pendiente variará al calcularlo en distintas
muestras, aunque procedan de la misma población. Estos valores constituyen la distribu-
ción muestral del coeficiente de regresión; el tamaño de la variación vendrá indicado por
el error típico de estimación de dicho parámetro, en inglés Standard Error (SE):

2
SY 1 − rXY
SEb1 = [5.8]
SX N −2

Donde N es el tamaño de la muestra. El intervalo de confianza para el coeficiente de re-


gresión se obtiene mediante la expresión:

b1 ± t1−α / 2 SEb1 [5.9]


182 Medición en Ciencias Sociales y de la Salud

Donde t es el valor de la distribución t de Student con N – 2 grados de libertad y probabilidad


1–α/2. Si este intervalo incluyese el valor de cero, entonces no podríamos rechazar la hipóte-
sis nula de que, en la población, el coeficiente de regresión sea cero5.
En nuestro ejemplo, el error típico de estimación del coeficiente de regresión es:

0,973 1 − 0,283
SEb1 = = 0,005
4,886 1.000 − 2

Y el intervalo, con un nivel de confianza del 95%, será:

0,106 ± ( 998 t 0,975 )0,005 = 0,106 ± 1,960(0,005) = 0,106 ± 0,0098

Por lo que en la población el valor del coeficiente de regresión estará comprendido entre
0,096 y 0,116 con un nivel de confianza del 95%. Dicho de otro modo, el coeficiente de va-
lidez ha resultado estadísticamente significativo, lo cual no garantiza que las estimaciones en
el criterio se realicen con precisión.
La ecuación de regresión de Y sobre X puede expresarse también (para puntuaciones di-
rectas) como:

SY SY
Yi' = (Y − rXY X ) + rXY Xi [5.10]
SX SX

Si queremos utilizar puntuaciones diferenciales, es decir, manteniendo la desviación típica


original, pero con media cero en X e Y, la ecuación de regresión es:

SY
yi' = rXY xi [5.11]
SX

Si deseamos usar puntuaciones típicas, donde las medias serán cero y las desviaciones típicas
de X e Y serán uno, entonces la ecuación es:

Z Y' i = rXY Z X i [5.12]

Como puede observarse, la pendiente en la ecuación de regresión para puntuaciones típicas,


también denominada coeficiente de regresión estandarizado o peso beta, es el coeficiente de

5
Si queremos aplicar la ecuación que hemos obtenido en nuestra muestra a otra muestra que proceda de la mis-
ma población, es decir para hacer un uso inferencial de nuestra ecuación, necesitaremos suponer que en la pobla-
ción se cumplen ciertas características o supuestos. Afortunadamente los estadísticos empleados en la regresión
lineal simple son robustos, es decir, desviaciones moderadas de los supuestos no producen errores graves en la
inferencia. Básicamente los supuestos hacen referencia a la distribución normal y a la homocedasticidad de los
errores de predicción; la falta de homocedasticidad implicaría que los errores que cometiésemos para los distin-
tos valores de X no serían de la misma magnitud; por ejemplo, a valores grandes de X le corresponderían valores
grandes de error.
Capítulo 5. Concepto y evidencias de validez 183

correlación de Pearson. Es donde mejor podemos ver que las estimaciones en Y serán tanto
más precisas cuanto mayor sea rXY.
Nótese que el valor de la ordenada en el origen de las ecuaciones en puntuaciones dife-
renciales y típicas es cero, por lo tanto, ambas rectas cruzarán el origen de coordenadas. La
pendiente de la recta de regresión en puntuaciones directas y diferenciales es la misma, por lo
que ambas rectas serán paralelas; pero la pendiente en puntuaciones típicas es por lo general
distinta, y por tanto esta recta no será paralela a las anteriores.
La ecuación de regresión para puntuaciones típicas correspondiente a los datos del ejem-
plo, se muestra a continuación; nos indica que por cada desviación típica de aumento en ZX se
produce un aumento de 0,532 desviaciones típicas en las puntuaciones típicas de calificación.

Z Y' i = (0,532 ) Z X i

Hasta ahora se han realizado estimaciones puntuales en Y. Estadísticamente, resulta más


apropiada una estimación por intervalos, realizada con cierta probabilidad, para lo cual aplica-
remos la siguiente expresión:

Yi' ± Z1−α / 2 SY −Y ' [5.13]

Donde Z1 – α/2 es el valor de la distribución N(0, 1), que deja por debajo la probabilidad
1 – α/2, y SY – Y' es el error típico de estimación definido en la expresión [5.3].

Ejemplo 5.7. Intervalo de confianza para una puntuación pronosticada

A una muestra de 5 estudiantes de Bachillerato se le aplica un test de habilidades comunicati-


vas (X). A sus respectivos profesores se les pide que hagan una valoración (de 0 a 20 puntos)
de la capacidad de relación interpersonal de sus alumnos. Estas valoraciones hacen la función
de criterio (Y). Los resultados en el test y en el criterio se muestran en las columnas X e Y de
la Tabla 5.6.

Tabla 5.6. Puntuaciones en un test de habilidades comunicativas y un criterio (capacidad de relación inter-
personal) en una muestra de 5 estudiantes
Alumno X Y Y´ Y − Y´
1 7 6 6,6 –0,6
2 13 10 11,4 –1,4
3 10 9 9 0
4 9 8 8,2 –0,2
5 11 12 9,8 2,2
Media 10 9
SX 2,236 2,236
184 Medición en Ciencias Sociales y de la Salud

El coeficiente de validez del test es rXY = 0,8, lo que significa que el test de habilidades comu-
nicativas explica un 64% de las diferencias en las valoraciones de los profesores sobre la ca-
pacidad de relación interpersonal de los estudiantes.
Para realizar una estimación puntual de la puntuación en el criterio de un estudiante, apli-
camos la ecuación de regresión [5.10]. Los estimadores de los pesos de la ecuación de regre-
sión serían:

SY 2,236
b1 = rXY = 0,8 = 0,8
SX 2,236

b0 = Y − b1 X = 9 − 0,8(10) = 1

Y la ecuación de regresión6:

Yi' = b0 + b1 X i = 1 + 0,8 X i

La Tabla 5.6 recoge en las dos últimas columnas los pronósticos y los errores de pronóstico
cometidos para cada estudiante. Por ejemplo, al nº 5 le pronosticamos una puntuación en el
criterio Y5' = 9,8 y cometemos un error de pronóstico de Y5 − Y5' = 12 − 9,8 = 2,2 puntos.
Para realizar la estimación por intervalos para este mismo estudiante, con nivel de con-
fianza del 95%, fijamos el valor Z1 – α/2 = 1,96 y calculamos el error típico de estimación:

2
S Y −Y ' = S Y 1 − rXY = 1,342

y el intervalo será:

Yi' ± Z1−α / 2 SY −Y ' = 9,8 ± (1,96)(1,342) = 9,8 ± 2,629

Diremos entonces que, con una confianza del 95 %, la puntuación de este estudiante en el
criterio se encontrará comprendida entre 7,171 y 12,429. Como vemos, la amplitud del inter-
valo es amplia (algo no deseable) a pesar de que el coeficiente de validez era elevado.

Lo que ocurre en el ejemplo es ilustrativo de lo difícil que resulta realizar pronósticos precisos
a partir de las puntuaciones en un único test. Cuando se desea predecir de la forma más preci-
sa posible las puntuaciones en un criterio, es común utilizar las puntuaciones en varias varia-

6
Nótese que, en este ejemplo, el coeficiente de correlación de Pearson y b1 toman el mismo valor, ya que el test y el
criterio tienen la misma varianza.
Capítulo 5. Concepto y evidencias de validez 185

bles predictoras X (p. ej., en diferentes tests)7. En este caso, los pronósticos se realizarán con
la técnica estadística de Análisis de Regresión Múltiple, que proporciona los pesos (coeficien-
tes de regresión parcial) de cada predictor según la importancia que tengan para la predic-
ción. Así, la ecuación de regresión múltiple será:

Yi' = b0 + b1 X 1i +  + bk X ki +  + bK X Ki [5.14]

Donde K es el número de variables predictoras.


Un tratamiento más amplio del modelo de regresión lineal aplicado a las Ciencias Socia-
les puede encontrarse, entre otros, en Cohen, Cohen, West y Aiken (2003) y, en español, en
los libros de Etxeberría (1999) y Pardo, Ruiz y San Martín (2009).
En el capítulo 14 se comentan con más detalle los distintos aspectos relacionados con la
regresión lineal múltiple. Si el criterio que hay que pronosticar fuese una variable discreta se
pueden utilizar otras técnicas multivariadas, como el análisis discriminante y la regresión
logística, tal como veremos también en ese capítulo. En algunos contextos aplicados es es-
pecialmente importante comprobar que la ecuación de regresión es la misma en diferentes
submuestras (p. ej., de mujeres y hombres). Se trata de estudiar la validez predictiva dife-
rencial (o evidencias externas de sesgo), tal como veremos en el capítulo 13.

Factores que afectan al coeficiente de validez

La cuantía de la correlación entre el test y el criterio (y por tanto la precisión de los pronósti-
cos) viene condicionada por varios factores, entre los cuales están:

1. La fiabilidad del test.


2. La fiabilidad del criterio.
3. La auténtica relación entre test y criterio.
4. Características de la muestra, como es su tamaño, representatividad y su variabilidad en el
test y en el criterio.

Además, es importante que los errores de medida en el test y en el criterio sean independien-
tes. Es decir que el coeficiente de validez obtenido refleje la relación verdadera entre las
dos variables, y no sea debida en parte a otras variables extrañas e irrelevantes, como
puede ser un criterio contaminado. Esto puede suceder, por ejemplo, cuando la misma
persona que administra el test (y conoce las puntuaciones obtenidas) valora subjetivamen-
te a las personas en el criterio; su conocimiento de los resultados en el test puede sesgar
sus valoraciones Y.

7
Por ejemplo, en los estudios sobre predicción del desempeño laboral se ha encontrado que la mejor combinación de
predictores es la formada por un test de capacidad cognitiva general, una entrevista conductual estructurada y un test
de personalidad que mida el factor de Responsabilidad (Salgado y Moscoso, 2008).
186 Medición en Ciencias Sociales y de la Salud

Fiabilidad del test y del criterio

El coeficiente de validez depende del nivel de precisión con que se miden las puntuaciones en
el test y en el criterio. Una baja fiabilidad, ya sea en X ó en Y, hará que el coeficiente de vali-
dez obtenido subestime la relación entre las puntuaciones verdaderas en el test y en el criterio.
Si el coeficiente de fiabilidad de un test es bajo, existe una parte importante de error en las
puntuaciones X que, al ser aleatorio, no contribuirá a la correlación entre X e Y; en ese caso, el
coeficiente de validez obtenido será sensiblemente menor que la correlación entre las puntua-
ciones verdaderas en ambos. Lo mismo se puede decir para niveles altos de error de medida
en el criterio.
Atenuación es el término que se usa para describir la reducción en la magnitud de la
correlación entre dos medidas que está causada por su falta de fiabilidad. Spearman8 fue el
primero en reconocer el valor de corregir por atenuación, al señalar que estamos interesa-
dos en determinar la verdadera relación entre los constructos que estudiamos, y no tanto la
relación entre dos medidas empíricas con más o menos error. Su solución fue estimar la
correlación que habría entre las puntuaciones en el test y en el criterio si ambos fueran
perfectamente fiables.
Bajo ciertos supuestos, puede comprobarse que el límite máximo al que puede llegar rXY
es rXX rYY . Es decir, que:

rxy ≤ rXX rYY [5.15]

Donde rXX es el coeficiente de fiabilidad del test y rYY es el coeficiente de fiabilidad del crite-
rio. La desigualdad anterior indica que el coeficiente de validez viene determinado en parte
por el coeficiente de fiabilidad del test y del criterio.
Veamos cómo se obtiene la relación expresada en la ecuación [5.15]. Una de las expre-
siones de la correlación de Pearson es:

rXY =
∑ ( X − X )(Y − Y ) [5.16]
NS X S Y

Si consideramos que los supuestos de la TCT se cumplen tanto en el test como en el criterio,
pueden realizarse las sustituciones oportunas (recuerde que la media de los errores en el test y
en el criterio es cero) para llegar a una expresión equivalente a [5.16]:

rXY =
∑ (V X + E X − V X )(VY + EY − VY )
=
∑ (v X + e X )(vY + eY )
NS X SY NS X SY

8
Fan (2003) propone el AFC como una segunda manera de corregir por atenuación. En el AFC el error de me-
dida de cada variable latente es explícitamente modelado. En ambos procedimientos se encuentran resultados al-
tamente comparables para los mismos datos. Sin embargo, el AFC puede ser menos aplicable dadas las restric-
ciones del modelo sobre los datos de los ítems (p. ej.: extrema asimetría y curtosis, distribuciones diferentes de
los ítems, etc.).
Capítulo 5. Concepto y evidencias de validez 187

Si en la segunda expresión se calculan los productos término a término en el numerador,


divididos entre N, se obtienen covarianzas entre las diversas variables. Aplicando los su-
puestos cuarto y quinto del modelo clásico, que asumen una relación nula entre puntua-
ciones verdaderas y errores (y entre errores en diferentes tests), se anulan las covarianzas
entre V y E, de tal forma que el coeficiente de validez vendría expresado como:

Cov (V X , VY )
rXY = [5.17]
S X SY

Otra manera de expresar la ecuación anterior es:

rVX VY SVX SVY


rXY = = rVX VY rXX rYY [5.18]
S X SY

Dado que la correlación entre puntuaciones verdaderas en el test y puntuaciones verdaderas


en el criterio es igual o inferior a 1, queda demostrada la desigualdad [5.15]. Imaginemos, por
ejemplo, que un test de inteligencia general manifiesta un rXX = 0,85, mientras que una prueba
de cultura general, considerada como criterio, manifiesta un rYY = 0,73. Según estos valores
de los coeficientes de fiabilidad, el coeficiente de validez de este test respecto a este criterio
no puede superar el valor de 0,79, que es la raíz cuadrada del producto entre los dos coefi-
cientes de fiabilidad.

Ejemplo 5.8. Aplicación de la corrección por atenuación

Supongamos que un investigador desea conocer la validez de las puntuaciones en un test de


“Afectividad negativa”, entendida como la tendencia general a experimentar emociones
negativas, para predecir las puntuaciones en una escala de “Satisfacción laboral”. En una
muestra de empleados, la correlación entre el test y el criterio fue 0,40. Dado que ambas
puntuaciones están afectadas por errores de medida, aplica la corrección por atenuación
utilizando los coeficientes de fiabilidad del test (0,84) y del criterio (0,76). Para ello, se
despeja la correlación entre puntuaciones verdaderas en la expresión [5.18].

rXY 0,40
rVX VY = = = 0,50
rXX rYY 0,84 ⋅ 0,76

El nuevo coeficiente de validez, estimado como la correlación entre puntuaciones verda-


deras (y por tanto después de corregir la atenuación), toma el valor de 0,50.

De lo expuesto hasta ahora se deduce además que, dado que el valor máximo de un coeficien-
te de fiabilidad es uno, el coeficiente de validez de un test es menor o igual que la raíz cua-
188 Medición en Ciencias Sociales y de la Salud

drada del coeficiente de fiabilidad del test; también es menor o igual que la raíz cuadrada de
la fiabilidad del criterio:

rXY ≤ rXX rYY ≤ rXX [5.19]

rXY ≤ rXX rYY ≤ rYY [5.20]

La ecuación general a partir de la cual se pueden estimar los cambios producidos en el coefi-
ciente de validez cuando cambian los coeficientes de fiabilidad del test y del criterio (p. ej.,
porque se alargan con formas paralelas) es la siguiente:

rX1Y 1
rX 2Y2 = [5.21]
rX1 X1 rY1Y1
rX 2 X 2 rY2Y2

Donde:

rX 2Y2 es el coeficiente de validez cuando se modifica la fiabilidad del test y la del criterio.
rX1Y1 es el coeficiente de validez del test y criterio iniciales.
rX1 X1 es el coeficiente de fiabilidad del test inicial.
rX 2 X 2 es el coeficiente de fiabilidad del test modificado
rY1Y1 es el coeficiente de fiabilidad del criterio inicial
rY2Y2 es el coeficiente de fiabilidad del criterio modificado

La ecuación [5.21] se puede demostrar del modo siguiente. Según [5.18] los coeficientes de
validez del test inicial y del test modificado serían, respectivamente:

rX1Y1 = rVX VY rX1 X1 rY1Y1

rX 2Y2 = rVX VY rX 2 X 2 rY2Y2

Si despejamos rVX VY en la primera expresión y sustituimos su valor en la segunda, tendremos


que:

 r  rX1Y1
 X 1Y1 
rX 2Y2 =   rX 2 X 2 rY2Y2 =
 rX X rY Y rX1 X1 rY1Y1
 1 1 1 1 
rX 2 X 2 rY2Y2
Capítulo 5. Concepto y evidencias de validez 189

Si sólo modificásemos la fiabilidad del test, rY1Y1 = rY2Y2 , con lo que el valor del coeficiente de
validez del test modificado respecto al criterio inicial sería:

rX1Y1
rX 2Y1 = [5.22]
rX 1 X 1
rX 2 X 2

De modo análogo, si sólo modificamos la fiabilidad del criterio, el valor del coeficiente de va-
lidez del test inicial respecto al criterio modificado sería:

rX1Y1
rX1Y2 = [5.23]
rY1Y1
rY2Y2

Lo que se olvida a veces en los procesos de obtención de evidencias sobre la validez referida
a un criterio es que el coeficiente de validez depende no sólo de la precisión de la medida que
ofrece el test, sino también de la precisión con que medimos el criterio.
Otro asunto importante es el tipo de coeficiente de fiabilidad que debe ser usado para
realizar la corrección por atenuación: test-retest, formas paralelas o consistencia interna.
Los valores de unos y otros pueden diferir para una misma aplicación del test (y también
para estimar la fiabilidad de las puntuaciones en el criterio). Por otra parte, sabemos que
los diferentes métodos capturan diferentes componentes del error. Si se pierde un compo-
nente del error que es importante para la situación o contexto estudiado, entonces la co-
rrección por atenuación puede no representar la correlación entre puntuaciones verdade-
ras. Lo más aconsejable es elegir uno u otro coeficiente en función de los objetivos pre-
tendidos en el estudio de validez referida al criterio. Por ejemplo, si el interés es conocer
la capacidad de un test para predecir, un año más tarde, el logro académico de los estu-
diantes, entonces deberíamos emplear un coeficiente de fiablidad test-retest. Si, por el
contrario, estamos interesados en incrementar el número de ítems de un test con el objeti-
vo de mejorar su capacidad pronóstica, entonces las estimaciones basadas en la consisten-
cia interna (p. ej., SBrXX) serán más apropiadas en la aplicación de la fórmula [5.22].
Schmidt y Hunter (1996) examinaron 26 casos concretos de investigación, mostrando cuál
sería la corrección más apropiada en cada uno de ellos y cuáles las consecuencias de no
hacerla o de realizar correcciones inapropiadas.
Por otra parte, y atendiendo ahora a las relaciones entre la longitud de un test y su fiabili-
dad, es lógico que si la fiabilidad influye directamente en el coeficiente de validez, la longitud
del test (y, en su caso, del criterio) influya también en rXY, aunque de modo indirecto. Para es-
timar el efecto que un cambio en la longitud del test o del criterio tiene sobre el coeficiente de
validez, es suficiente con estimar el coeficiente de fiabilidad del test o del criterio alargados
(aplicando la fórmula de Spearman-Brown) e incorporar estos valores a la ecuación [5.21].
No obstante, la TCT proporciona expresiones que calculan directamente los cambios en
validez derivados de un cambio en la longitud. Así, por ejemplo, la fórmula que permite esti-
190 Medición en Ciencias Sociales y de la Salud

mar el coeficiente de validez de un test alargado n veces (compuesto por n formas paralelas)
es:

rXY
R XY = [5.24]
1 − rXX
+ rXX
n

Donde:

RXY es el coeficiente de validez del test alargado respecto al mismo criterio.


rXY es el coeficiente de validez del test original.
rXX es el coeficiente de fiabilidad del test original.
n es el número de veces que se alarga el test original.

La expresión [5.24] se demuestra como sigue. Sean rXY, rXX y rYY, respectivamente, los coefi-
cientes de validez, de fiabilidad del test y de fiabilidad del criterio. Supongamos que alarga-
mos con formas paralelas la longitud del test, con lo cual aumentarán su coeficiente de fiabi-
lidad (RXX) y su coeficiente de validez (RXY), mientras que en el criterio (que no se modifica)
el coeficiente de fiabilidad es el mismo. Según las relaciones vistas con anterioridad, pode-
mos establecer las siguientes igualdades, para el coeficiente de validez del test inicial y del
alargado:

rXY = rV X VY rXX rYY

R XY = rV X VY R XX rYY

Dividiendo término a término y despejando el coeficiente de validez del test alargado, obte-
nemos:

rXY rXY rXY


R XY = = =
rXX rXX 1 − rXX
+ rXX
R XX nrXX n
(1 + (n − 1)rXX )

Ejemplo 5.9. Estimación del coeficiente de validez de un test alargado

Supongamos que una "Escala de actitud hacia grupos ecologistas" de 30 ítems manifiesta en
un grupo normativo un coeficiente de fiabilidad de 0,51 y un coeficiente de validez de 0,42.
Si se duplicase la longitud de la escala, es decir si se le añadiera una forma paralela de 30
ítems, el coeficiente de validez (respecto al mismo criterio) pasaría a valer:
Capítulo 5. Concepto y evidencias de validez 191

0,42
R XY = = 0,48
1 − 0,51
+ 0,51
2

Si de la fórmula [5.24] despejamos n, podemos estimar el número de veces que deberemos


multiplicar la longitud del test para alcanzar un coeficiente de validez RXY deseado:

1 − rXX
n= 2
[5.25]
rXY
2
− rXX
R XY

En caso de que el valor de n sea negativo, significa que el valor deseado no es alcanzable in-
crementando la longitud del test. En el caso hipotético de un test infinitamente largo o, lo que
es lo mismo, de un test con máxima precisión, en la siguiente fórmula ([5.26]), RXX valdría 1,
y RXY se podría interpretar como el máximo coeficiente de validez obtenible como resultado
de mejorar la fiabilidad del test todo lo posible.

rXY rXY rXY


R XY = = = [5.26]
rXX rXX rXX
R XX 1

Ejemplo 5.10. Estimación del número de formas paralelas que hay que añadir para
alcanzar cierto valor del coeficiente de validez

Un determinado test de 10 ítems manifiesta en un grupo normativo un coeficiente de fiabili-


dad de 0,4 y un coeficiente de validez de 0,35. Nos cuestionamos cuántos ítems paralelos ne-
cesitaría el test para conseguir un coeficiente de validez de 0,5. Aplicando [5.25]:

1 − 0,4
n= = 6,7
0,35 2
− 0,4
0,5 2

Podemos comprobar a partir de estos cálculos que el coeficiente de validez de 0,5 lo conse-
guiremos con un test de 67 ítems (6,7 formas paralelas de 10 ítems).
192 Medición en Ciencias Sociales y de la Salud

Para conseguir un coeficiente de validez de 0,9, al aplicar la fórmula obtendríamos:

1 − 0,4
n= = −2,4
0,35 2
− 0,4
0,9 2

Por tanto, el coeficiente de validez de 0,9 es imposible de conseguir, por mucho que incre-
mentemos la longitud del test inicial con formas paralelas, de ahí que hayamos obtenido un
valor de n negativo. El máximo coeficiente de validez obtenible mejorando la fiabilidad del
test (alargando su longitud) es 0,55:

rXY 0,35
R XY = = = 0,55
rXX 0,4

El tamaño, la representatividad y la variabilidad de la muestra


en el test y en el criterio

Para la estimación del coeficiente de validez es importante que la muestra donde se obtie-
ne sea representativa de la población y de tamaño suficiente. Especialmente importante es
la variabilidad que manifiesta en X e Y. De forma parecida a las relaciones que existen en-
tre la varianza del grupo en el test y el coeficiente de fiabilidad (capítulo 3), el coeficiente
de validez de un test respecto a un criterio es tanto más elevado cuanto mayor es la va-
rianza de la muestra en ambos. Por ejemplo, un test de aptitud para la venta tendrá un co-
eficiente de validez mayor en una muestra de la población general (donde habrá heteroge-
neidad respecto a la aptitud por ser vendedor) que en una muestra de vendedores experi-
mentados (seguramente obtendrían todos puntuaciones elevadas, y por tanto sería un gru-
po más homogéneo).

Ejemplo 5.11. Reducción del coeficiente de validez a consecuencia de la reducción


en la variabilidad de la muestra

Tomamos como ejemplo los datos obtenidos por simulación de la muestra de 1.000 estu-
diantes, en la que se intentaba predecir el promedio de las calificaciones obtenidas en el pri-
mer curso del grado de Psicología (Y ) a partir de las puntuaciones en un hipotético test de
admisión al centro (X ). En la Tabla 5.7 podemos observar las consecuencias que una re-
ducción en la variabilidad de la muestra tendría para el coeficiente de validez. Si para cal-
cular el coeficiente de validez dispusiésemos solamente de las puntuaciones en el criterio
de los estudiantes que superaron el examen de admisión, que en nuestro ejemplo serían
quienes obtuviesen 30 o más puntos en el test, el valor del coeficiente de validez sólo lle-
garía a 0,43. Nótese que al aplicar un punto de corte en el test, aprobar el examen, no sólo
Capítulo 5. Concepto y evidencias de validez 193

se reduce la variabilidad en el test, ya que también se reduce la variabilidad en el criterio;


si la correlación entre test y criterio es elevada también se excluirán sujetos que tendrían
puntuaciones bajas en Y.

Tabla 5.7. Coeficientes de validez calculados para el total de la muestra y para el subgrupo de estudian-
tes que aprobarían el examen de admisión
Tamaño de la muestra SX SY rXY
Total (N = 1.000) 4,886 0,973 0,532*
Estudiantes que aprobaron el examen (N= 520) 3,059 0,894 0,433*
*p < 0,05

La variable sobre la que se realiza la selección, en nuestro ejemplo el test, se denomina di-
recta o explícitamente selectiva, y la variable cuya variabilidad se ve reducida indirecta-
mente, en nuestro ejemplo el criterio, se denomina incidental o indirectamente selectiva.
En la medida que el poder predictivo de un test respecto a un criterio depende de rXY,
habrá que considerar la variabilidad del grupo donde se ha obtenido. En ocasiones, por
ejemplo en contextos de selección, es inevitable calcular el coeficiente de validez en una
muestra de variabilidad reducida, ya que sólo de los admitidos podrá conocerse su rendi-
miento en el criterio Y. Nos encontramos entonces con un problema de restricción del
rango de variación, puesto que nuestro interés era conocer el coeficiente de validez para
el grupo completo de aspirantes que se presenta al proceso de selección. Si calculamos el
coeficiente de validez de la única forma posible, esto es, correlacionando las puntuaciones
de las personas seleccionadas en el test y en el criterio, el coeficiente de validez que se ob-
tenga no nos indicará la capacidad de las puntuaciones en el test para predecir el rendi-
miento de los aspirantes al puesto.
Las fórmulas de Pearson-Lawley permiten corregir por restricción de rango en función
de la información disponible (p. ej.: que no se conozcan las puntuaciones en el test para el
grupo no seleccionado, que esto ocurra en el criterio o que se haya hecho la selección por
una tercera variable). Cada escenario concreto requiere la aplicación de la fórmula ade-
cuada. Una exposición completa puede encontrarse en Sackett y Yang (2000). Para apli-
carlas hay que asumir que la recta de regresión es la misma en el grupo completo y en el
reducido; también la homocedasticidad de los errores de pronóstico en ambos grupos. Es
decir:

sY S
b1 = B1 ⇒ rXY = R XY Y
sX SX

2 2
sY −Y ' = S Y −Y ' ⇒ sY 1 − rXY = S Y 1 − R XY

Donde las letras minúsculas se refieren al grupo en el que se conocen todos los datos
(normalmente el grupo de rango reducido) y las letras mayúsculas al grupo donde falta al-
guna información (normalmente el grupo completo). Partiendo de los supuestos anterio-
194 Medición en Ciencias Sociales y de la Salud

res, y conociendo la varianza de una de las variables en los dos grupos, se puede estimar
el coeficiente de validez desconocido. Por ejemplo, para la situación más común, con dos
variables, test (X) y criterio (Y), y realizándose una selección explícita sobre el test, el co-
eficiente de validez puede estimarse mediante la expresión [5.27].
Efectivamente, al despejar el valor SY en la igualdad de los coeficientes de regresión:

rXY sY S X
SY =
R XY s X

Y si este valor se sustituye en la igualdad de los errores típicos de estimación:

2 rXY sY S X 2
sY 1 − rXY = 1 − R XY
R XY s X

Elevando al cuadrado y simplificando, la igualdad queda como:

2
1 − R XY
=
(
s X2 1 − rXY
2
)
2
R XY S X2 rXY
2

Finalmente, despejando RXY:

S X rXY
R XY = [5.27]
S X2 rXY
2 2
+ (1 − rXY ) s X2

Ejemplo 5.12. Cálculo del coeficiente de validez tras aplicar la corrección por res-
tricción de rango, siendo el test la variable explícitamente selectiva

Un test X se ha utilizado como prueba de selección para un determinado puesto de trabajo.


La varianza de las puntuaciones obtenidas en el test en el grupo completo de aspirantes
fue 12 y en el grupo de admitidos fue 6. En este último grupo su correlación con el criterio
fue 0,72 y la varianza de las puntuaciones en el criterio 7. ¿Cuál estimamos que sería el
coeficiente de validez del test en el grupo completo de solicitantes?
Sustituyendo en la expresión [5.27]:

12 ⋅ 0,68
R XY = = 0,79
12 ⋅ 0,68 2 + (1 − 0,68 2 )6

Que es superior al que se obtuvo en el grupo de admitidos (0,72).


Capítulo 5. Concepto y evidencias de validez 195

En estas aplicaciones hay que ser cauto, ya que el supuesto de homocedasticidad de los
errores de pronóstico suele ser falso, es decir, la varianza de dichos errores suele diferir
para grupos con diferente nivel de rasgo. El coeficiente de validez corregido estará sobres-
timado, si en el grupo seleccionado la varianza de los errores de pronóstico fuese menor.
En la página web de Paul Barret (http://www.pbarret.net) se puede obtener un progra-
ma específico para calcular con comodidad, en las distintas situaciones posibles, las co-
rrecciones de los coeficientes de validez por restricción de rango. Este programa también
ofrece la posibilidad de calcular el coeficiente de validez corregido por atenuación9.

Evidencias basadas en los procesos de respuesta a los ítems


Un modo de obtener información sobre las inferencias que podemos realizar con las pun-
tuaciones de un test es analizar los procesos de respuesta que los sujetos deben realizar pa-
ra obtener dichas puntuaciones. Para ello, se requiere de un modelo explicativo (una teoría
psicológica sustantiva) de dichos procesos de respuesta, que debería guiar el proceso de
construcción del test, y que debería servir para predecir el diferente rendimiento en los
ítems. Borsboom, Mellenbergh y van Heerden (2004) defienden que el análisis de las evi-
dencias sobre la validez de las puntuaciones obtenidas en un test es un tema que atañe más
al proceso de construcción del instrumento que a los estudios de covariación realizados a
posteriori, tan tradicionalmente enfatizados para obtener evidencias sobre la estructura in-
terna o sobre las relaciones con otras variables. Para ellos, al construir un test, debe tener-
se una idea clara de cómo diferentes niveles en el atributo que se pretende medir deberían
llevar a distintas puntuaciones empíricas; esto sólo puede hacerse partiendo de una teoría
psicológica muy sólida sobre los procesos de respuesta a los ítems. Embretson y Gorin
(2001) muestran un buen ejemplo de cómo se puede utilizar el análisis de los procesos de
respuesta para obtener evidencias sobre la validez de las puntuaciones de un test diseñado
para medir capacidad espacial. El análisis de los procesos permitió distinguir dos tipos de
ítems: aquellos que para su resolución requerían rotación mental y los que podían resol-
verse sin necesidad de ésta, simplemente por un procesamiento perceptual general. Los
segundos serían menos válidos para evaluar la capacidad espacial de las personas.
Algunos autores (por ejemplo, Bejar, 2002) emplean la denominación de tests basados
en modelos para referirse al diseño de instrumentos de evaluación guiados por una teoría
psicológica sobre el procesamiento de respuestas. Embretson (2002) propone la expresión
representación del constructo para referirse al conjunto de procesos, estrategias y estruc-
turas de conocimiento que están implicados en la resolución de los ítems; esta autora seña-
la que la investigación previa de los psicólogos cognitivos es muy relevante para conocer
qué variaciones en los estímulos deben establecerse para conseguir que los ítems tengan
diferente nivel de demanda cognitiva, y por tanto diferente dificultad. Para esta autora, el
diseño de tests desde un enfoque cognitivo debería seguir el siguiente procedimiento,
ejemplificado con el trabajo realizado para elaborar un test de razonamiento abstracto:

9
Johnson y Ree (1994) desarrollaron el programa RANGEJ que permite calcular la restricción de rango para el
caso de múltiples variables predictoras.
196 Medición en Ciencias Sociales y de la Salud

1. Especificar los objetivos de la medición. Por ejemplo, la medición del razonamiento


abstracto como componente esencial de la inteligencia fluida. Se trata de identificar el
tipo de tareas y las características que deben manipularse para alterar la exigencia cog-
nitiva que se plantean. Concretando, en el test de razonamiento abstracto deben esta-
blecerse ítems relativamente independientes de los conocimientos previos de las perso-
nas. Atendiendo a las experiencias con tests previos (por ejemplo, el Test de Raven) y a
la investigación realizada sobre el procesamiento de este tipo de tareas, se eligió un
formato de “completar matrices” como el ofrecido en la Figura 5.2.

Figura 5.2. Ejemplo de formato basado en completar matrices

(
- +

++
(( --

--- +++

2. Establecer un modelo de procesamiento, donde se indiquen tres cosas: en primer lugar,


los procesos, estrategias y estructuras de conocimiento implicados; en segundo lugar,
deben operacionalizarse (cuantificarse) las características de los ítems que influyen en
su procesamiento; en tercer lugar, deben establecerse previsiones sobre la influencia de
la manipulación de las características sobre las propiedades psicométricas de los ítems,
por ejemplo sobre su dificultad. En el caso concreto del test de razonamiento abstracto,
se siguió el Modelo de Procesamiento de Matrices de Carpenter, Just y Shell (1990),
que básicamente establece un procesamiento serial como el siguiente: codificar las dos
primeras figuras de la primera fila, determinar los elementos correspondientes, compa-
rar los atributos de los elementos, inferir una regla inicial de relaciones, codificar la
tercera figura, comparar sus elementos con los de las figuras iniciales, inferir si la regla
inicial es correcta o debe proponerse otra, repetir el proceso con el resto de las filas y
con las columnas. Respecto a las características de los ítems que influyen en su proce-
samiento, se establecieron diferentes niveles de dificultad previsible atendiendo a los
contenidos de las figuras y a las reglas que gobiernan las relaciones entre ellas; por
ejemplo, es más fácil resolver un ítem donde los símbolos internos son siempre los
mismos (o simplemente no aparecen) que otro ítem que incluye símbolos diversos y de
carácter más abstracto; será más complicado un ítem donde las figuras son muy pareci-
das (en el caso de que unas sean distorsiones ligeras de otras) que otro ítem con figuras
Capítulo 5. Concepto y evidencias de validez 197

claramente diferenciadas; también influyen las reglas que gobiernan las relaciones (por
ejemplo, no sería fácil descubrir que el tercer elemento de una fila o columna se obtie-
ne restando los anteriores); además, será más complicado resolver un ítem donde se es-
tablecen varias reglas de relaciones entre las figuras que en otro gobernado por una re-
gla simple que exige menor carga memorística. Se realizaron varios estudios empíricos
con el Test de Raven para comprobar cuáles de estas características incidían en la difi-
cultad de los ítems. Lo importante en este punto del proceso es que se dispone ya de un
modelo de procesamiento que concreta las variables que deben manipularse para gene-
rar ítems con diferente demanda cognitiva.
3. Generar ítems, de tal forma que las variaciones en su estructura representen variaciones
en los procesos de respuesta. A partir de los resultados de los estudios realizados con el
Test de Raven, comienza propiamente el diseño del nuevo test. Se establecieron las ca-
racterísticas físicas de las figuras que debían manipularse y el número de reglas aplica-
das en las relaciones entre figuras. Con un programa informático se generaron todos los
ítems posibles (150 en total) que combinaban las características establecidas y el núme-
ro de reglas.
4. Evaluar empíricamente las previsiones del modelo sobre el rendimiento de los sujetos
en los ítems, así como establecer los oportunos estudios de validez. Varios estudios
empíricos mostraron la influencia que tenían las variables consideradas en la fase de
elaboración de los ítems sobre su dificultad empírica. Por ejemplo, la cantidad de reglas
incluidas, el grado de abstracción de las figuras y otras características perceptivas de
los ítems explicaron un 79% de la varianza de los parámetros de dificultad de los ítems,
estimados mediante el Modelo de Rasch, y un 77% de las latencias de respuesta o
tiempo tardado en resolver los ítems. En cuanto a otras evidencias de validez, se com-
probó que todos los ítems saturaban en un único factor y que también los ítems del Test
de Raven saturaban en dicho factor.

Otro ejemplo de evidencias sobre los procesos de respuesta lo describe Hornke (2002)
en un test de rotación de figuras, donde se manipula la cantidad de elementos que se van a
a procesar, si las figuras son bi o tridimensionales, el ángulo de la rotación y el número y
tipo de rotaciones (de derecha a izquierda, de arriba abajo…). En el mismo capítulo, este
autor describe un test de memoria visual en el que los ítems son planos de una ciudad
donde aparecen determinados iconos para representar ciertos servicios públicos, mani-
pulándose en cada caso la cantidad de iconos, su tamaño o su dispersión en el mapa.
Vemos entonces que en este tipo de enfoque no sólo se miden las respuestas del sujeto
a los ítems, sino que se consideran los pasos intermedios ejecutados para obtener dichas
respuestas. Por otra parte, el conocimiento sobre los componentes requeridos para la res-
puesta correcta de los ítems no sólo es importante para la obtención de evidencias de vali-
dez; este modo de proceder permite una información diagnóstica mucho más completa,
pues es posible conocer los componentes en los que los examinados tienen dominio y
aquellos en los que presentan dificultades.
Se han desarrollado modelos de TRI específicos para analizar la incidencia de los di-
versos procesos establecidos desde el marco teórico. Así, el Modelo Logístico Lineal de
Rasgo Latente (LLTM, Fischer, 1973) fue el primer modelo componencial desarrollado y
el que ha sido empleado con mayor frecuencia. En los modelos componenciales se entien-
de que para ejecutar cierta tarea es necesario desarrollar una serie de componentes o pro-
cesos (ya sea secuencial o concurrentemente). El modelo LLTM permite estimar, además
198 Medición en Ciencias Sociales y de la Salud

de los niveles de rasgo de las personas y la dificultad de los ítems, la contribución de los
diferentes componentes a dicha dificultad.

Ejemplo 5.13. Aplicación del modelo LLTM de Fisher a un test de aritmética

Romero, Ponsoda y Ximénez (2008) analizaron un test de aritmética mediante el modelo


LLTM. Este test ha sido diseñado para niños que acaban de aprender el concepto de suma
y resta con números enteros. Contiene 32 ítems de opción múltiple con 4 alternativas de
respuesta, y se pide la adición o sustracción entre dígitos enteros. Un ejemplo de ítem es:
(−6) + (3) = a) 9 b)3 c)−3 d)−9. Los autores proponen 6 operaciones o componen-
tes: O1: Adición entre números naturales (a+b ); O2: Sustracción entre números naturales
(a−b ) cuando a>b ; O3: Identificación del componente mayor en valor absoluto y plan-
teamiento de resta del menor al mayor; O4: Cambiar las posiciones de a y b; O5: Deter-
minar el signo (positivo o negativo) del resultado; O6: Convertir la sustracción en adición
y cambiar el signo al segundo dígito. A modo de ejemplo, el ítem ( − 6 ) +( 5 ) debería re-
querir aplicar primero O3: 6 − 5 , luego O2: 1 y finalmente O5: −1.
Al estimar los parámetros del modelo, se obtuvo que 4 de los 6 pesos (componentes)
resultaron significativos, por lo tanto estas operaciones contribuyen a la dificultad de los
ítems. Por ejemplo, se encontró que la operación que contribuía en mayor medida a la di-
ficultad de los ítems era O6; esto era de esperar, pues se refiere a un proceso doble que
implica no sólo cambiar el operador resta por suma sino también cambiar el signo del se-
gundo dígito; por ejemplo, ( − a) − ( − b ) = − a+b .

Modelos como el LLTM representan, además, la base psicométrica de la generación au-


tomática de ítems (GAI). Si conocemos las variables que intervienen en el procesamiento
de los ítems, puede construirse todo el universo posible de ítems gobernado por dichas
variables. La GAI consiste en la construcción de bancos de ítems mediante algoritmos; se
establece un conjunto de reglas explícitas, susceptibles de programarse en un ordenador,
que determinan cómo deben construirse los ítems y predecir la dificultad de cada uno a
partir de los componentes involucrados; sería posible, por lo tanto, la aplicación de ítems
sin previa calibración (ver, p. ej., Revuelta y Ponsoda, 1998b).
En las últimas décadas se intenta estrechar la distancia entre los modelos cognitivos y
los modelos psicométricos. Información más específica sobre los diferentes tests, los mo-
delos en que se sustentan y los estudios realizados para obtener evidencias de validez pue-
den consultarse en Irvine y Kyllonen (2002).
Capítulo 5. Concepto y evidencias de validez 199

Evidencias basadas en las consecuencias de la aplicación


del test
Resulta cada vez más usual la aplicación de tests psicológicos y educativos en determina-
dos marcos institucionales y organizacionales. Por ejemplo, se aplican tests de conoci-
mientos o competencias escolares para evaluar el nivel alcanzado por los estudiantes en
un determinado ciclo de enseñanza. Se emplean tests de diverso tipo en procesos de selec-
ción de personal con objeto de predecir el rendimiento laboral de los aspirantes. En con-
textos de evaluación de programas, los tests sirven como instrumentos de medida de los
cambios producidos por la intervención social efectuada. En todos estos escenarios, la me-
ra aplicación de tests puede tener consecuencias sociales diferentes al propósito funda-
mental que se pretende con la aplicación, lo que ha llevado a incorporar en la última edi-
ción de los Standards (AERA, APA, NCME, 1999) la necesidad de aportar evidencias so-
bre la denominada validez consecuencial, es decir, el análisis de las consecuencias inten-
cionadas y no intencionadas que se derivan de la aplicación de tests en determinados con-
textos de evaluación. La revista Educational Measurement: Issues & Practice publicó dos
números monográficos sobre el tema en 1997 y 1998. Gran parte de la sensibilidad actual
a las consecuencias del uso de los tests tiene que ver con la legislación estadounidense No
Child Left Behind, que ha llevado a la aplicación masiva de tests para la evaluación de co-
nocimientos y destrezas de los escolares dentro de una política para favorecer la “rendi-
ción de cuentas” de los centros educativos y mejorar la enseñanza y el aprendizaje de los
estudiantes. La utilización de tests con importantes consecuencias para los evaluados
(high stakes testing) que se emplean, por ejemplo, para acreditaciones profesionales en
Estados Unidos, también ha incidido en el interés por este problema.
Las consecuencias que puede tener la aplicación de tests de conocimientos o destrezas
en contextos de evaluación institucional, tal como se realiza por ejemplo en diversas co-
munidades autónomas españolas en niveles de Educación Primaria y Secundaria, son muy
diversas. Pueden llevar a que determinados centros educativos adiestren específicamente a
los estudiantes en los contenidos que se van a evaluar, produciéndose un “estrechamiento
curricular” con objeto de que sus estudiantes rindan mejor en los tests y el colegio salga
“mejor parado” en comparación con los centros del entorno (una consecuencia negativa
denominada en inglés test pollution) o pueden servir para que los claustros de profesores
analicen el modo de mejorar el proceso instruccional en las asignaturas donde sus estu-
diantes no manifiestan un buen rendimiento (una consecuencia positiva). Como los resul-
tados de la evaluación son públicos, pueden influir en la elección del centro por parte de
las familias para la educación de sus hijos. Algunos centros con elevada tasa de niños in-
migrantes pueden aparentemente rendir peor que otros si no se asegura que los tests no
manifiestan funcionamiento diferencial contra este tipo de minorías. El nivel previo de los
estudiantes, determinado en parte por variables familiares y sociales, tampoco será inde-
pendiente del rendimiento obtenido, con lo que los resultados no pueden atribuirse exclu-
sivamente a la acción educativa. En algunos países, como Estados Unidos, parte de la
subvención pública de los colegios depende del rendimiento conseguido por los estudian-
tes en tests de conocimientos escolares, estableciéndose sanciones a los centros cuyos es-
tudiantes no alcancen determinadas competencias académicas. Además, incluso se propo-
nen modificaciones en la política educativa, en el diseño curricular o en la retribución de
los profesores, a partir de los resultados de las evaluaciones. Algunos estudios realizados
200 Medición en Ciencias Sociales y de la Salud

en Estados Unidos revelan que muchos profesionales de la educación han perdido motiva-
ción laboral, que se sienten realmente presionados para alcanzar los estándares y que no
perciben mejoras relevantes en el proceso de enseñanza-aprendizaje. Además, la falta de
motivación de los estudiantes al responder a los tests (hartos de que todos los años se les
pida algo sobre lo que no perciben consecuencias académicas) representa un importante
problema que afecta a la validez de las puntuaciones obtenidas bajo este tipo de condicio-
nes.
En dos recientes trabajos (Padilla, Gómez, Hidalgo y Muñiz, 2006, 2007) se profundi-
za sobre este tema, revisando las diferentes posturas que mantienen los psicómetras, anali-
zando las dificultades que conlleva el estudio de las consecuencias del uso de los tests y
delimitando el tipo de consecuencias de las que debe informarse en el proceso de valida-
ción de las puntuaciones. Ha habido una fuerte polémica con autores a favor (p. ej., Cron-
bach, 1988; Messick, 1980) y en contra (p. ej., Boorsboom et al., 2004; Popham, 1997) de
la consideración de estas evidencias. Para los primeros es fundamental saber si el test
puede tener consecuencias sociales en contextos donde ciertos grupos resulten sistemáti-
camente desfavorecidos; para ellos, hay que recoger información no sólo sobre la interpre-
tación de las puntuaciones, sino también sobre el uso justificado de las mismas. Los se-
gundos consideran que no se está hablando de evidencias empíricas sobre las inferencias
que pueden realizarse con las puntuaciones y, por tanto, creen que no deberían incluirse
este tipo de evidencias en el proceso de validación. En los Standards se plantea la necesi-
dad de analizar explícitamente las consecuencias del uso de los tests, diferenciando entre
aquellas que tienen que ver con su validez y las que, aun siendo importantes, caen fuera de
este ámbito. Si la evidencia empírica permite mantener las interpretaciones, la decisión fi-
nal sobre el uso del test puede tener en cuenta otras consideraciones sociales o políticas
que ya no formarían parte del proceso de validación.
Dada la dificultad que entraña la comprobación de todo tipo de consecuencias sociales
que pueden seguirse de determinadas aplicaciones, algunos autores recomiendan centrarse
en las que pueden derivarse de una limitada representación del constructo o de la presen-
cia de factores irrelevantes al constructo. En un reciente artículo, Nichols y Williams
(2009) describen ambos tipos de consecuencias con dos casos concretos. En relación a la
infra-representación del constructo, describen la preocupación que tienen algunas univer-
sidades norteamericanas porque, a raíz de aplicar un test para la admisión muy cargado en
conocimientos científicos básicos, los candidatos se preparan muy específicamente en
cursos sobre Ciencia y no en otro tipo de conocimientos y destrezas relevantes para ese ti-
po de estudios. En cuanto a la presencia de factores irrelevantes al constructo, se refieren a
los sesgos de corrección de ensayos debidos a los diferentes grados de dureza establecidos
por los correctores cuando se escriben a mano o cuando se escriben con el ordenador; pa-
rece que en estos últimos los correctores son más estrictos.
¿Qué procedimientos o técnicas podemos aplicar para aportar evidencias sobre las
consecuencias de las aplicaciones de los tests? Resulta claro que es muy difícil anticipar
todo tipo de consecuencias y aportar datos empíricos sobre las mismas. Sin embargo, al-
gunas orientaciones, tomadas principalmente de la experiencia en la aplicación de tests de
conocimientos y competencias académicas en contextos escolares, podrían ser:

1. En la construcción de un test podemos justificar y analizar la representación del cons-


tructo. Por ejemplo, los tests no pueden incluir contenidos muy limitados que impidan
generalizar el rendimiento a los objetivos de aprendizaje planteados para el nivel edu-
Capítulo 5. Concepto y evidencias de validez 201

cativo y que permitan un mejor rendimiento a través de un entrenamiento específico en


los tests.
2. Puede ser útil comprobar si la estructura interna del test, aplicado en un contexto de-
terminado, se mantiene en una nueva aplicación del mismo en otras condiciones. Por
ejemplo, existe evidencia de que la estructura interna del Modelo de Cinco Factores de
la Personalidad de ciertos tests no se mantiene cuando se aplican en procesos de selec-
ción de personal, donde los aspirantes han sido orientados a proporcionar una buena
imagen en sus respuestas.
3. Por otra parte, disponemos de procedimientos y técnicas para estudiar el sesgo y el im-
pacto adverso, temas que se abordarán en este libro en el capítulo 13 y que representan
algunas de las consecuencias indeseables relacionadas con la presencia de factores irre-
levantes al constructo.
4. Determinadas consecuencias pueden evaluarse mediante la aplicación de cuestionarios
o entrevistas a las personas que pueden verse afectadas por la aplicación de los tests.
Por ejemplo, en algunos países se pregunta a los profesores, directores, estudiantes y
familiares sobre sus opiniones respecto a la utilidad y consecuencias de los procesos de
evaluación educativa. Un excelente trabajo sobre las opiniones de los profesores res-
pecto al impacto de la evaluación educativa que se realiza en Estados Unidos puede
consultarse en la siguiente dirección: http://www.education.uiowa.edu/cea/ documents/
Consequential_Validity_NCME_2006.pdf
5. Pueden realizarse también investigaciones empíricas para estudiar determinados efec-
tos. Por ejemplo, diseños longitudinales donde se analicen los cambios producidos por
los programas de evaluación educativa en el rendimiento de los estudiantes, en las
prácticas educativas o en otro tipo de variables dependientes. También pueden estu-
diarse longitudinalmente los efectos del entrenamiento específico sobre tests similares
a los que se aplican.

Nichols y Williams (2009) delimitan las responsabilidades de los profesionales que hacen
los tests de los responsables de las aplicaciones. En general, los primeros deberían antici-
par consecuencias inmediatas o persistentes, pero no son los responsables de aplicaciones
inadecuadas o de los efectos a largo plazo.

Evolución histórica del concepto de validez


Acabamos de desarrollar la concepción actual de validez y de mostrar distintos procedi-
mientos utilizados para obtener evidencias sobre la validez de las puntuaciones pero, co-
mo señalábamos al principio del capítulo, el concepto de validez ha cambiado mucho a
través del tiempo ¿Cómo hemos llegado al concepto actual de validez? ¿Qué cambios se
han producido en su definición? ¿Por qué han tenido lugar? Intentaremos responder a es-
tas cuestiones en los siguientes párrafos. Kane (2006a) proporciona una detallada exposi-
ción de esta evolución.
Una primera época en la conceptualización de la validez se extiende desde 1920 hasta
1950 y podría resumirse como un modelo de validez referida a un criterio. Este período
está dominado por una mentalidad práctica y operacionalista. Los tests servían para medir
aquella variable observable con la que presentaban una alta relación. Lo importante era
202 Medición en Ciencias Sociales y de la Salud

que el test tuviese la capacidad de predecir un criterio externo (Gulliksen, 1950). Este mo-
delo es simple y eficaz si podemos disponer de un criterio plausible. Esto ocurre, por
ejemplo, en muchos contextos aplicados donde el objetivo es predecir el rendimiento en
un curso o un trabajo. Las medidas de la ejecución real en esas tareas se pueden usar como
criterio. De hecho, ésta es todavía la aproximación a la validez preferida en este tipo de
aplicaciones.
Durante esta primera etapa también se buscaron argumentos sobre la validez de los
tests mediante la revisión de sus contenidos por jueces expertos, con objeto de decidir si
los elementos del test eran relevantes y representativos. El análisis del contenido era, y
como hemos visto sigue siendo, frecuentemente aplicado en las medidas de rendimiento
académico. Su subjetividad es su principal limitación, ya que la evaluación recae sobre la
opinión de unos jueces. Además, algunos autores como Messick (1989) consideran que
desempeña un limitado papel en la validación, ya que no proporciona evidencia directa
sobre las inferencias que se pueden hacer a partir de las puntuaciones en el test.
Por lo tanto, a principios de 1950 el estudio de la validez estaba basado en la capaci-
dad para predecir un criterio y en el análisis del contenido del test. Pero ¿qué hacer en si-
tuaciones donde no es posible disponer de un buen criterio? ¿Cuál sería el criterio para
medir la Inteligencia o la Creatividad? En los años cincuenta se produjo un cambio im-
portante. La APA publicó en 1954 sus primeras normas sobre los tests (“Technical Re-
commendations for Psychological Tests and Diagnostic Techniques”), en las que se reco-
noce que la validación basada en un criterio no siempre es posible; en estas normas se
plantea la necesidad de obtener evidencias para justificar las interpretaciones que hacían
los psicólogos clínicos. Surge así, en el período comprendido entre 1955 y 1989, un nuevo
modelo de validez basado en el concepto de constructo. Los constructos se definían como
atributos no observables que se reflejaban en las respuestas a un test. Una contribución
esencial en esta etapa es el artículo de Cronbach y Meehl (1955), probablemente el trabajo
que más ha influido en nuestra concepción actual de la validez. Los autores afirmaban que
aunque en un test se hubiese llevado a cabo una validación de contenido o referida a un
criterio, era deseable, para la mayoría de los casos, la determinación del constructo medi-
do. La validación de constructo suponía apoyarse en una red nomológica, es decir, en un
sistema que representase las relaciones existentes entre los constructos objeto de estudio a
partir de sus manifestaciones observables, y que permitiese formular hipótesis empírica-
mente contrastables. Desde esta nueva conceptualización se considera que la validación es
un proceso mucho más complejo cuya efectividad depende de la disponibilidad de un mo-
delo teórico previo, de una teoría bien definida. Por su parte, Campbell y Fiske (1959),
ofrecieron un procedimiento empírico para la validación del constructo basado en el análi-
sis de las matrices MRMM.
La nueva conceptualización se recogió muy lentamente en las sucesivas ediciones de
los Standards (versiones de 1966 y 1974). En ellos se consideraba que la validación del
constructo era una de las posibles aproximaciones al estudio de la validez, cuando no
existía un criterio aceptable. Además, se distinguían tres tipos de validez: validez referida
a un criterio (englobaba la validez concurrente y predictiva), validez de contenido y vali-
dez de constructo. Se instauró así la denominada concepción trinitaria de la validez, to-
davía hoy presente en la mente de algunos profesionales.
A finales de los años setenta había dos tendencias opuestas en el desarrollo de la teor-
ía de la validez. Por un lado, el interés en aclarar la clase de evidencias necesarias para va-
Capítulo 5. Concepto y evidencias de validez 203

lidar particulares interpretaciones y usos de las puntuaciones en los tests. Por otro lado, la
necesidad percibida de desarrollar un concepto unitario de validación.
Los Standards de 1985 intentaron resolver esta tensión reconociendo la validez como
un concepto unificado y reconociendo también que diferentes tipos de evidencia eran ne-
cesarias para diferentes tipos de interpretaciones. Se mantuvo la distinción entre validez
de criterio, de contenido y de constructo. Eso sí, ya no se consideraban distintos tipos de
validez, sino distintos tipos de evidencias que eran necesarias para diferentes tipos de in-
terpretaciones. Sin embargo, los teóricos de la validez (p. ej., Cronbach o Messick) de-
fendían una aproximación más unificada y expresaban su inquietud por la tendencia a em-
plear diferentes métodos de validación para diferentes usos de las puntuaciones: el modelo
del criterio para validar decisiones de selección, el del contenido para validar tests de lo-
gro y el del constructo para proporcionar explicaciones teóricas.
En la segunda mitad de los años ochenta se adoptó una concepción amplia de la vali-
dez de constructo, tratando de establecer un marco de trabajo unificado, que englobaba
también las evidencias sobre el contenido y sobre el criterio. Desde esta perspectiva se in-
sistía en la necesidad de disponer de teorías que propusiesen interpretaciones de las pun-
tuaciones, así como justificarlas después de desarrollar auténticos programas de investiga-
ción (y no un único estudio empírico). Sin embargo, la nueva concepción no establecía
guías; se convirtió en un “cajón de sastre” donde cabía casi cualquier tipo de evidencia.
Ello puede explicarse, por un lado, por la carencia de teorías “fuertes” en Psicología. En
ausencia de estas teorías, la validez de constructo tiende a ser muy abierta. Si todos los da-
tos son relevantes para la validez ¿por dónde empezar? ¿cuánta evidencia es necesario
acumular? Por otro lado, esta confusión vino alentada porque, en definitiva, los tres tipos
de evidencia coincidían con la estructura trinitaria de los tipos de validez.
En la edición más reciente de las normas sobre los tests (la de 1999), que recoge el
concepto de validez actualmente dominante, se establecen algunas aclaraciones importan-
tes:

1. Se enfatiza el carácter unitario de la validez y se rechazan las tres categorías tradiciona-


les de validez. La validación es una evaluación unificada de la interpretación, no sim-
plemente un conjunto de técnicas.
2. Se destaca la centralidad de la validez de constructo en el proceso de validación. Pero
se adopta una óptica más general, para entender el constructo no ya exclusivamente
como un atributo teórico sino como cualquier característica medida por un test. Se pre-
tende una definición clara y detallada de las interpretaciones propuestas y también la
consideración de las interpretaciones alternativas.
3. Se añaden dos nuevos tipos de evidencias: las basadas en el proceso de respuesta a los
ítems de un test y en las consecuencias sociales del proceso de aplicación del test.

Aunque ésta es la concepción dominante en la actualidad, recientemente, Borsboom y sus


colaboradores (Borsboom, Mellenberg y van Heerden, 2004; Borsboom, 2006) la han so-
metido a fuertes críticas. Consideran que la teoría actual sobre la validez ha fallado, ya
que nos ha dejado con la impresión de que cualquier asunto relacionado con los tests es
relevante para el problema de la validez; esto impide plantear estudios de validación real-
mente eficaces. Según estos autores, la validez no es un concepto complejo, ni dependien-
te de redes de trabajo nomológicas, ni de consecuencias sociales. Para ellos, un test sería
204 Medición en Ciencias Sociales y de la Salud

válido para medir un atributo si y sólo si: (1) el atributo existe y (2) variaciones en el atri-
buto producen causalmente variaciones en los resultados de la medición.
Esto significaría, por ejemplo, que las correlaciones entre las puntuaciones en el test y
otras medidas no suponen más que una evidencia circunstancial de validez. Según esto, el
problema de la validez no puede ser resuelto desde técnicas o modelos psicométricos que
se aplican después de obtener las respuestas. Muy al contrario, el proceso de validación
tiene que estar dirigido desde una teoría sustantiva y reflejarse desde el mismo diseño del
test, y no después. Este marco teórico debería explicar lo que ocurre entre los niveles de
atributo y las respuestas a los ítems, algo que resulta difícil porque las redes nomológicas
de las teorías psicológicas normalmente resultan ambiguas.
Esta concepción parece rompedora (al menos está suscitando mucho el debate), pero
todavía es muy reciente para valorar su posible incidencia en los Standards o en la prácti-
ca real de los estudios de validación. De hecho, algunos autores, como Kane (2006b) o
Sijtsma (2006), afirman sentirse cómodos en el marco teórico actual y consideran que
guiarse desde una teoría sustantiva es excelente, pero que es lo que se viene haciendo des-
de hace mucho tiempo. Para estos autores, dado que las teorías sustantivas formales no
existen, el proceso de construcción debe estar guiado por concepciones generales del atri-
buto de interés. Un modelo teórico puede ser causal, y en este sentido puede predecir dife-
rentes puntuaciones para diferentes niveles de atributo, sin que necesariamente sea formal.
6
Análisis Factorial Exploratorio

Introducción
El Análisis Factorial (AF) es una técnica estadística multivariante que sirve para estudiar
las dimensiones que subyacen a las relaciones entre varias variables. El origen de la técni-
ca se remonta a principios del siglo XX, cuando el psicólogo británico Charles Spearman
estudió el patrón de correlaciones entre distintas medidas de rendimiento. Hipotetizó que
si las tareas correlacionaban era porque requerían el uso de una misma capacidad para ser
resueltas; además, el hecho de que las correlaciones variaran en tamaño se explicaba reco-
nociendo que las tareas no demandaban esa capacidad en el mismo grado. Justamente,
mediante el AF se podía cuantificar cuál era el grado de correlación de cada tarea con ese
factor común al que denominó “Inteligencia General”. A las ideas de Spearman se suma-
ron posteriormente las aportaciones de otros muchos investigadores. En 1947, Thurstone
publica su libro Multiple Factor Analysis, que extendía el trabajo de Spearman y aportaba
una de las herramientas hasta ahora fundamentales en la validación de tests. Aunque los
primeros desarrollos del AF se produjeron en el estudio de la inteligencia, la técnica puede
ser aplicada al estudio de la dimensionalidad en cualquier dominio de contenido.
Suelen distinguirse dos tipos de Análisis Factorial: Análisis Factorial Exploratorio
(AFE) y Análisis Factorial Confirmatorio (AFC). La mayor parte de las ecuaciones y con-
ceptos básicos (factor, saturación, comunalidad, residuo, etc.) son comunes a ambas técni-
cas y se introducen en este capítulo, que se centra en el AFE. En el Capítulo 11 se expli-
can las diferencias entre ambas técnicas y se desarrolla la explicación del AFC.
Puede encontrarse información detallada sobre el AFE en numerosas fuentes. Algunos
clásicos son los libros de Gorsuch (1983), Hartman (1960), Lawley y Maxwell (1971) o
Mulaik (1972). Manuales breves y didácticos son los de Kim y Mueller (1978; 1983) o los
más recientes de Kline (2000) y Thompson (2004). Un excelente libro, aunque técnico, es
el de Tucker y MacCallum (1993) accesible on line. Una visión actualizada, y también
técnica, puede encontrarse en el libro Contemporary Psychometrics editado por Maydeu-
Olivares y McArdle (2005). En español pueden consultarse el clásico de Yela (1997), los
206 Medición en Ciencias Sociales y de la Salud

libros de Ferrando (1994) y García Jiménez, Gil Flores y Rodríguez Gómez (2000) y los
correspondientes capítulos en Martínez-Arias (1995; Martínez-Arias et al., 2006) y Muñiz
(1996). También en español, el artículo de Ferrando y Anguiano (2010) ilustra adecua-
damente las decisiones que deben tomarse al aplicar esta técnica.

Visión general del AFE


Normalmente se toma como punto de partida del análisis la matriz R de correlaciones en-
tre las J variables (p. ej., ítems) que interesa analizar y se obtiene como resultado una ma-
triz F de tamaño J × M, denominada matriz factorial rotada, que contiene las relaciones
cuantitativas entre las J variables y los M factores extraídos o dimensiones subyacentes;
estos coeficientes factoriales, denominados en ocasiones pesos o saturaciones, oscilan ge-
neralmente entre –1 y 1.

Ejemplo 6.1. Ejemplo de análisis factorial exploratorio (datos ficticios)

Al aplicar un test de 7 ítems a una muestra se obtiene la matriz de correlaciones entre


ítems que aparece en la Tabla 6.1 (izquierda). Puesto que todos los ítems correlacionan
entre sí en el mismo grado, se inferiría que las personas tienden a ser consistentes en sus
respuestas a esos ítems. Diríamos entonces que los ítems miden el mismo factor.

Tabla 6.1. Matriz R de correlaciones entre ítems y matriz F de pesos factoriales (última columna)
Ít. 1 Ít. 2 Ít. 3 Ít. 4 Ít. 5 Ít. 6 Ít. 7 Factor 1
Ít. 1 1 Ítem 1 0,84
Ít. 2 0,7 1 Ítem 2 0,84
Ít. 3 0,7 0,7 1 Ítem 3 0,84
Ít. 4 0,7 0,7 0,7 1 Ítem 4 0,84
Ít. 5 0,7 0,7 0,7 0,7 1 Ítem 5 0,84
Ít. 6 0,7 0,7 0,7 0,7 0,7 1 Ítem 6 0,84
Ít. 7 0,7 0,7 0,7 0,7 0,7 0,7 1 Ítem 7 0,84

Al realizar el AFE obtendríamos un factor en el que saturan todos los ítems (Tabla 6.1, de-
recha). En este caso, M, el número de factores, es 1. Los valores de la matriz de pesos fac-
toriales se aproximan a 1 (0,84); esto quiere decir que las respuestas a los ítems se rela-
cionan estrechamente con ese factor.

Posteriormente, el investigador se enfrenta con la tarea de dar significado a cada dimen-


sión; para ello, debe fijarse en las variables que saturan de forma elevada en cada dimen-
sión e inferir el nexo de unión entre esas variables.
Capítulo 6. Análisis Factorial Exploratorio 207

La idea básica, por tanto, del AFE es reproducir las correlaciones entre las variables
estudiadas acudiendo a un conjunto menor de dimensiones más generales. Generalmente,
se espera que los M factores expliquen una importante proporción de varianza de las va-
riables, de forma que puedan ser utilizados para representar a esas variables.

Ejemplo 6.2. Ejemplo de análisis factorial exploratorio (datos reales)

Un psicólogo ha elaborado una prueba de 7 ítems para evaluar Cordialidad en población


adolescente (564 chicos y chicas de entre 11 y 14 años). Los ítems, que se responden en
una escala de cinco categorías ordenadas (desde 1: “muy en desacuerdo” hasta 5: “muy de
acuerdo”), son los siguientes:

1. Me comporto de manera honesta y correcta con los demás.


2. Trato a mis compañeros afectuosamente.
3. Trato a las personas con educación.
4. Confío en los demás.
5. Pienso que otras personas son buenas y honradas.
6. Dejo que los demás usen mis cosas.
7. Si un compañero tiene dificultades le ayudo.

La matriz de correlaciones entre los 7 ítems se muestra en la Tabla 6.2 (izquierda).

Tabla 6.2. Matriz R de correlaciones (izquierda) y matriz F de pesos factoriales1


Ít. 1 Ít. 2 Ít. 3 Ít. 4 Ít. 5 Ít. 6 Ít. 7 Factor 1 Factor 2
Ít, 1 1 Ít. 1 0,060 0,471
Ít. 2 0,328 1 Ít. 2 0,036 0,706
Ít. 3 0,332 0,415 1 Ít. 3 –0,139 0,635
Ít. 4 0,188 0,231 0,065 1 Ít. 4 0,842 –0,055
Ít. 5 0,152 0,170 0,089 0,512 1 Ít. 5 0,623 –0,013
Ít. 6 0,174 0,277 0,126 0,316 0,217 1 Ít. 6 0,306 0,226
Ít. 7 0,223 0,348 0,175 0,258 0,236 0,257 1 Ít. 7 0,217 0,351
1
La correlación entre factores rF1F2 = 0,400

En este caso no está tan claro que podamos inferir que hay una única variable latente o
factor. Al realizar el AFE obtendríamos que hay dos factores fundamentales que explican
las relaciones entre los 7 ítems (Tabla 6.2, derecha). En el Factor 2 obtienen saturaciones
altas los ítems 1, 2 y 3, mientras que el ítem 7 tiene un peso medio-bajo (en torno a 0,3).
El hecho de que las saturaciones sean positivas significa que las personas con puntuación
alta en el Factor 2 tienden a puntuar alto en esos ítems; es decir, dicen tratar bien a los
demás. Por tanto, el Factor 2 puede denominarse “Trato adecuado a los demás”. En el
Factor 1 obtienen saturaciones elevadas los ítems 4 y 5, mientras que el ítem 6 tiene un
peso medio-bajo (en torno a 0,3) y el resto de saturaciones son cercanas a cero. Este Fac-
tor 1 podría etiquetarse como “Confianza en los demás”. En el ejemplo, la correlación en-
208 Medición en Ciencias Sociales y de la Salud

tre factores es 0,4, lo que indica que las personas que tienden a dar un “Trato adecuado a
los demás” también tienden a “Confiar en los demás”.

En definitiva, el AFE es útil para diversos propósitos:

1. Obtener evidencia sobre la validez de las puntuaciones de los tests, en al menos dos
sentidos:

− Si analizamos las correlaciones entre los ítems del test, el AFE (de ítems) nos pro-
porciona evidencia sobre la estructura interna del test; es decir, sobre cuál es el
número de dimensiones o factores que se miden, cuál es el significado de cada una y
qué proporción de la variabilidad en las respuestas observadas explica. El AFE de
ítems aporta una evidencia fundamental, pues permite justificar el modo de puntuar
en el test (p. ej., si los ítems miden rasgos distintos no tiene sentido obtener una úni-
ca puntuación).
− Por otro lado, podemos analizar factorialmente las correlaciones entre las puntua-
ciones en nuestro test y las puntuaciones en otros tests. En ese caso, el AFE (de
tests) aporta evidencia sobre las relaciones de un test con otras variables. El AFE de
tests puede ayudar a descubrir qué aspectos no están representados en nuestro cons-
tructo (p. ej., si nuestra prueba no correlaciona con otras pruebas con las que debería
correlacionar) o qué proporción de varianza “irrelevante” incluye nuestro test (p. ej.,
si nuestra prueba correlaciona con pruebas con las que no debiera hacerlo).

2. Ayudar a desarrollar teorías. Históricamente, el análisis factorial ha sido una técnica


útil para el desarrollo de teorías empíricamente guiadas. Tanto es así que algunas teo-
rías se conocen como teorías factoriales de la inteligencia o de la personalidad. Me-
diante un análisis racional exhaustivo se definen las tareas que conforman un dominio,
se diseñan los instrumentos de medida y se aplican a una muestra, para posteriormente
observar las relaciones entre las distintas puntuaciones, los factores comunes resultan-
tes, etc.
3. Finalmente, el análisis factorial nos permite reducir las puntuaciones en los ítems o va-
riables a un conjunto más reducido de puntuaciones estimadas o puntuaciones factoria-
les. De esta forma, se pueden describir los resultados a partir de un conjunto reducido
de variables, las dimensiones, que sintetizan la información. Por ejemplo, al decir que
alguien puntúa alto en el factor “Confianza en los demás” estamos resumiendo sus res-
puestas a los distintos ítems que pesan en ese factor.

En las siguientes secciones se describe más detalladamente cómo se obtiene e interpreta la


estructura factorial que subyace a las correlaciones entre variables. En este capítulo, nos
centraremos en el AFE de ítems. Por tanto, las variables X1, X2, etc., se refieren a las pun-
tuaciones en los ítems.
Capítulo 6. Análisis Factorial Exploratorio 209

La ecuación fundamental del modelo factorial


En el modelo de análisis factorial se establece que la respuesta observada de una persona
en cada variable j (Xj) depende linealmente de sus puntuaciones en variables no observa-
bles o factores. Estas variables latentes pueden ser: 1) factores comunes (F1, …, Fm,…,
FM), que predicen las respuestas en más de una variable observada; 2) factores únicos (E1,
…, Ej,…, EJ), que son específicos de cada variable. Los factores comunes son los que ex-
plican las correlaciones entre las variables (p. ej., si dos ítems dependen del mismo factor
estarán correlacionados) y son los que se muestran en la matriz de pesos factoriales. Cada
factor único refleja la parte específica de la variable, que no tiene que ver con los factores
comunes; incluye además el efecto debido al error de medida (las variaciones debidas a la
falta de fiabilidad de las medidas) o al error de muestreo (debido a que el investigador tra-
baja con la muestra y no con la población). La forma general del modelo factorial es:

M
Xj = ∑λ
m =1
jm Fm + Ej [6.1]

donde M indica el número de factores comunes y λjm es el peso o saturación de la variable


j en el factor m. Indica la relación entre la variable y el factor y oscila generalmente entre
–1 (relación inversa) y 1 (relación directa), indicando el 0 la ausencia de relación. Las va-
riables Xj y Fm están expresadas en puntuaciones típicas. Las variables Ej no están estan-
darizadas, pero se asume que tienen media 0 y varianza σ 2Ej. Se asume que los factores
comunes correlacionan cero con los factores únicos ( rFm E j = 0, para cualquier m y j).

Ejemplo 6.3. Ecuaciones del modelo factorial

Las ecuaciones para los ítems 1 y 5 del ejemplo de la Tabla 6.2 se dan en la Tabla 6.3.

Tabla 6.3. Ecuaciones para dos ítems según el AFE


Ecuaciones:
Efecto debido a los Efecto debido
Enunciado del ítem factores comunes (va- a un factor
Variable
lor en X predicho a específico o
observada partir del modelo) al error de
medida
“Me comporto de manera honesta y co-
X1 = 0,060 F1 + 0,471F2 + E1
rrecta con los demás”
“Pienso que otras personas son buenas
X5 = 0,623F1 − 0,013F2 + E5
y honradas”

Según las ecuaciones, cuanto mayor sea la puntuación en el Factor 2 (“Trato adecuado a
los demás”), mayor será la tendencia a estar de acuerdo con el contenido del ítem 1 (“Me
comporto de manera honesta y correcta con los demás”). Sin embargo, las puntuaciones
210 Medición en Ciencias Sociales y de la Salud

en el Factor 1 (“Confianza en los demás”) no se relacionan con la respuesta a ese ítem


(λ12 = 0,060), lo que indica que comportarse de forma honesta no es un indicador de la
confianza en los demás. Para el ítem 5 (“Pienso que otras personas son buenas y honra-
das”) aparece el patrón inverso.

Conceptos básicos del modelo

Comunalidades y unicidades
A partir del modelo de la ecuación [6.1], y teniendo en cuenta las propiedades de las com-
binaciones lineales de variables, la varianza de las variables observadas puede expresarse
como:

M M M
σ X2 j = ∑
m =1
λ2jmσ F2m + ∑ ∑λ
m =1 m′=1
jm λ jm′σ Fm Fm′ + σ E2 j [6.2]
m′≠ m

donde σ Fm Fm′ es la covarianza entre los factores Fm y Fm′ . Al trabajar con las variables
en puntuaciones típicas (σ 2Xj = 1, para todo j; σ 2Fm = 1, para todo m) la ecuación se sim-
plifica a la expresión que aparece en la Tabla 6.4, donde ρ Fm Fm′ es la correlación entre
los factores Fm y Fm′ .

Tabla 6.4. Descomposición de la varianza de una variable observada


Varianza de la variable Parte de la varianza debida a Unicidad o
observada los factores comunes varianza específica/error
M M M

σ X2 j =1= ∑
m =1
λ2jm + ∑ ∑λ
m =1 m′=1
jm λ jm ' ρ Fm Fm ' + σ E2 j
m′≠ m

Así, la varianza de la variable se descompone en dos fuentes de varianza independientes,


una parte que depende de los factores comunes y otra parte que depende del factor especí-
fico o del error de medida. Podemos obtener la proporción de la varianza que se debe al
efecto de cada parte:

1. La varianza debida a los factores comunes o comunalidad: se representa por el símbolo


hj2 e indica la proporción de varianza de la variable j explicada por los factores comu-
Capítulo 6. Análisis Factorial Exploratorio 211

nes. Una comunalidad baja (p. ej., 0,09) indicaría que la variable no se relaciona con el
resto de las variables en el análisis. La comunalidad se obtiene como:

M M M


m =1
λ2jm + ∑ ∑λ
m =1 m '=1
jm λ jm′ ρ Fm Fm′
M M M

∑ ∑ ∑λ
m '≠ m
h 2j = = λ2jm + jm λ jm′ ρ Fm Fm′ [6.3]
σ X2 j m =1 m =1 m '=1
m′≠ m

En la ecuación [6.3] se manifiesta que la proporción de varianza que explican los facto-
res depende del peso factorial de la variable en cada factor y de las correlaciones entre
los factores en los que pesa. Si los factores son independientes ( ρ Fm Fm′ = 0, para todo
m y m′ ), la ecuación para la comunalidad se simplifica a:

M
h 2j = ∑λ
m =1
2
jm [6.4]

2. La varianza específica, o de error, se denomina unicidad: se simboliza mediante Ψj e


indica la proporción de varianza de la variable j que no depende de los factores comu-
nes. La unicidad se obtiene como:

σ E2 j
ψj = = 1 − h 2j [6.5]
σ X2 j

Por tanto, si las puntuaciones en las variables (p. ej., ítems) están tipificadas, podemos
escribir:

σ X2 j = 1 = h 2j + ψ j [6.6]

Ejemplo 6.4. Comunalidades y unicidades

Para los datos de la Tabla 6.2, las comunalidades son h12 = 0,248, h22 = 0,519, h32 = 0,351,
h42 = 0,675, h52 = 0,382, h62 = 0,200, h72 = 0,232. La comunalidad del ítem 1 puede obte-
nerse como:

M M M
h12 = ∑
m =1
λ 2jm + ∑ ∑λ
m =1 m′ =1
jm λ jm′ ρ Fm Fm ′ =
m′ ≠ m

( )
= 0,060 2 + 0,4712 + (2(0,060)(0,471)0,400 ) = 0,248
212 Medición en Ciencias Sociales y de la Salud

Las unicidades son Ψ1 = 0,752, Ψ 2 = 0,481, Ψ 3 = 0,649, Ψ 4 = 0,325, Ψ 5 = 0,618,


Ψ 6 = 0,800 y Ψ 7 = 0,768. La unicidad del ítem 1 puede obtenerse como:

ψ 1 = 1 − h12 = 1 − 0,248 = 0,752

Por tanto, el 24,8% de la varianza del ítem 1 es explicado por los factores comunes
(h12 = 0,248), mientras que el 75,2% se debe a factores específicos o de error.

Proporción de varianza explicada por los factores comunes


Igual que puede obtenerse la proporción de varianza de una variable explicada por los fac-
tores comunes (comunalidad) puede obtenerse la proporción de la varianza de todas las
variables (i. e., varianza total) que es explicada por los factores comunes; en efecto, la va-
rianza total (VT) se define como la suma de las varianzas de todas las variables:

J J J J
VT ≡ ∑
j =1
σ X2 j = ∑
j =1
(h 2j + Ψ j ) = ∑ j =1
h 2j + ∑Ψ
j =1
j [6.7]

Además, si las puntuaciones en los ítems están tipificadas, VT = J. La parte de la varianza


total que es debida a los factores comunes es:

J
VC = ∑h
j =1
2
j [6.8]

La proporción de varianza total explicada entre todos los factores comunes sería:

J J J
VC
PVC ≡
VT
= ∑ j =1
h 2j ∑
j =1
σ X2 j = ∑h
j =1
2
j J [6.9]

Cuanto más se acerque el valor de la ecuación [6.9] a 1, mayor poder explicativo tendrán
los factores comunes. Si los factores son independientes ( ρ Fm Fm′ = 0, para todo m y m′ ),
la fórmula de la comunalidad se simplifica (ver ecuación [6.4]) y la proporción de varian-
za explicada por todos los factores se puede descomponer para obtener la proporción de
varianza explicada por cada factor por separado (ver Tabla 6.5). Por tanto, cuando los fac-
tores son independientes, la proporción de varianza total explicada por el factor m, puede
calcularse como:

J
PVC Fm ≡ ∑λ
j =1
2
jm J [6.10]
Capítulo 6. Análisis Factorial Exploratorio 213

Tabla 6.5. Proporción de varianza explicada por cada factor común independiente
Prop. varianza total Prop. varianza Prop. varianza Prop. varianza
explicada por los total explicada por total explicada total explicada
factores comunes el primer factor por el factor m por el factor M

PVC PVCF1 PVCFm PVCFM


J J J J

∑j =1
h 2j ∑j =1
λ2j1


j =1
λ2jm
… ∑λ
j =1
2
jM

= + + + +
J J J J

El valor de PVCFm sirve para determinar la importancia del factor. Los diferentes factores
(dimensiones) extraídos no tienen la misma importancia. Cada uno explica una determi-
nada cantidad de la varianza total de las variables, que se expresa porcentualmente, y que
indica la importancia de esa dimensión para dar cuenta de la covariación entre las varia-
bles. Si un factor explica un porcentaje elevado de la varianza total, eso es síntoma de que
las saturaciones de las variables en dicho factor son altas (y/o que pesan muchas variables
en ese factor), lo que significa que es una dimensión importante a la hora de describir las
relaciones entre las variables originales.

Ejemplo 6.5. Porcentaje de la varianza total explicada por los factores comunes

Para los datos de la Tabla 6.2, puesto que los factores están correlacionados, no se puede
calcular qué porcentaje de varianza explica cada uno. Sin embargo, puede calcularse la
proporción de varianza total que es explicada por todos los factores comunes en su con-
junto:

∑h j =1
2
j
0,248 + 0,519 + ... + 0,200 + 0,232
PVC = = = 0,372
J 7

Por tanto, el porcentaje de varianza explicada por el modelo de dos factores es del 37%
aproximadamente. Esto quiere decir que el 63% de la varianza total no es varianza común.

Matriz de correlaciones reproducidas y residuales


Cualquier modelo es una aproximación a los datos observados. En el AFE se pretende
predecir la matriz de correlaciones observada, R, a partir del modelo. Así, debemos dis-
tinguir entre las correlaciones observadas (r12, r13, r14,…) y las correlaciones que predice
214 Medición en Ciencias Sociales y de la Salud

el modelo factorial (r*12, r*13, r*14,…). Puesto que las variables Xj y Fm están expresadas en
puntuaciones típicas, si el modelo factorial fuera cierto, la correlación esperada entre dos
variables X1 y X2 sería1:

N N  M  M 
∑X i1 X i 2 ∑∑ 
i =1  m =1
∑
 λ1m Fim + Ei1  λ2 m Fim + Ei 2 

i =1  m=1 
rX*1X 2 = r12* = =
N N

y asumiendo que los errores no correlacionan entre sí ni con los factores, obtenemos que
la correlación esperada según el modelo sería igual a:

M M M
r12* = ∑
m =1
λ1m λ 2 m + ∑ ∑λ
m =1 m′=1
1m λ 2 m′ ρ Fm Fm′ [6.11]
m′≠ m

A estas correlaciones, las que deberían producirse si el modelo fuera cierto, se las llama
correlaciones reproducidas. El valor r* entre dos variables será elevado si pesan alto en
los mismos factores o en factores distintos pero altamente correlacionados. Cuando los
factores no están correlacionados, la correlación reproducida entre variables depende ex-
clusivamente de si pesan alto en los mismos factores (i. e., de si miden lo mismo), ya que,
en ese caso, la ecuación [6.11] se simplifica a:

M
r12* = ∑λ
m =1
1m λ 2 m [6.12]

La diferencia entre la correlación observada en la muestra entre dos variables y la correla-


ción reproducida entre esas dos mismas variables se llama residuo:

res jj ' = r jj ' − r jj* ' [6.13]

Ejemplo 6.6. Correlaciones reproducidas y residuales

Para los datos de la Tabla 6.2, la correlación reproducida entre los ítems 1 y 2 sería:

1
Recuerde que la correlación entre dos variables ZX y ZY en puntuaciones típicas es:

N
rZ
X ZY
= ∑Z
i =1
X i ZYi N
Capítulo 6. Análisis Factorial Exploratorio 215

r12* = (0,06)(0,036) + (0,471)(0,706) + ((0,06)(0,706)(0,400) + (0,471)(0,036)(0,400) ) =


= 0,358

Puede observarse que la correlación entre estos dos ítems se debe esencialmente a que pe-
san en el Factor 2. Si calculáramos las correlaciones reproducidas para cualquiera de los
ítems, se obtendría la matriz mostrada en la Tabla 6.6.

Tabla 6.6. Correlaciones reproducidas entre los ítems del test de Cordialidad
X1 X2 X3 X4 X5 X6 X7
X1 0,358 0,279 0,182 0,148 0,188 0,228
X2 0,358 0,413 0,228 0,188 0,260 0,322
X3 0,279 0,413 0,065 0,064 0,166 0,228
X4 0,182 0,228 0,065 0,507 0,315 0,277
X5 0,148 0,188 0,064 0,507 0,242 0,217
X6 0,188 0,260 0,166 0,315 0,242 0,208
X7 0,228 0,322 0,228 0,277 0,217 0,208

Tabla 6.7. Correlaciones observadas entre los ítems del test de Cordialidad
X1 X2 X3 X4 X5 X6 X7
X1 1,000 0,328 0,332 0,188 0,152 0,174 0,223
X2 0,328 1,000 0,415 0,231 0,170 0,277 0,348
X3 0,332 0,415 1,000 0,065 0,089 0,126 0,175
X4 0,188 0,231 0,065 1,000 0,512 0,316 0,258
X5 0,152 0,170 0,089 0,512 1,000 0,217 0,236
X6 0,174 0,277 0,126 0,316 0,217 1,000 0,257
X7 0,223 0,348 0,175 0,258 0,236 0,257 1,000

Tabla 6.8. Correlaciones residuales entre los 7 ítems


X1 X2 X3 X4 X5 X6 X7
X1 –0,030 0,053 0,006 0,004 –0,014 –0,005
X2 –0,030 0,002 0,003 –0,019 0,017 0,026
X3 0,053 0,002 0,000 0,025 –0,040 –0,053
X4 0,006 0,003 0,000 0,004 0,001 –0,019
X5 0,004 –0,019 0,025 0,004 –0,026 0,019
X6 –0,014 0,017 –0,040 0,001 –0,026 0,048
X7 –0,005 0,026 –0,053 –0,019 0,019 0,048
216 Medición en Ciencias Sociales y de la Salud

Las correlaciones reproducidas se parecen a las correlaciones observadas en nuestra mues-


tra (Tabla 6.7), pero no son iguales. Los residuos se muestran en la Tabla 6.8. Por ejem-
plo, el residuo para la correlación entre los ítems 1 y 2 es –0,030. Ésta es la diferencia en-
tre la correlación observada (0,328) y la correlación reproducida (0,358). En la Tabla 6.8
puede observarse que, con el modelo de dos factores, las diferencias entre las correlacio-
nes reproducidas y las correlaciones observadas son muy pequeñas. Por tanto, nuestro
modelo de 2 factores muestra un buen ajuste a estos datos.

Pesos de configuración y pesos de estructura


Otra distinción importante es la que se hace entre pesos de configuración (en inglés, “pat-
tern coefficients”) y pesos estructurales (en inglés, “structure coefficients”). Los de con-
figuración son los pesos λ mostrados en la ecuación [6.1]:

M
Xj = ∑λ
m =1
jm Fm + Ej

Anteriormente hemos señalado que los pesos λjm indican la relación entre Xj y Fm. Esta
afirmación debe matizarse. Los pesos de configuración, λjm, indican el efecto directo de
Fm en Xj; por ejemplo, λ21 determina cómo cambiaría X2 al cambiar F1.

Ejemplo 6.7. Pesos de configuración

Al analizar las respuestas a 6 ítems de un test de Inteligencia General, se obtiene la matriz


de configuración (ver Tabla 6.9). Atendiendo al contenido y a los pesos de configuración,
se concluye que el Factor 1 indica Aptitud Verbal y el Factor 2 Aptitud Espacial.

Tabla 6.9. Matriz de configuración (la correlación entre factores es 0,6)


Matriz de configuración
Ítem (Contenido) Factor 1 Factor 2
X1 (Aptitud Verbal) 0,5 0
X2 (Aptitud Verbal) 0,5 0
X3 (Aptitud Verbal) 0,5 0
X4 (Aptitud Espacial) 0 0,5
X5 (Aptitud Espacial) 0 0,5
X6 (Aptitud Espacial) 0 0,5

Interpretemos los pesos de configuración del ítem 1. La Aptitud Verbal tiene un efecto di-
recto en ese ítem (λ11 = 0,5). La ecuación del modelo de AFE para ese ítem sería:
Capítulo 6. Análisis Factorial Exploratorio 217

X 1 = 0,5 F1 + E1

Es decir, que si cambia F1 puede esperarse un cambio en X1. Sin embargo, el ítem 1 pesa 0
en el Factor 2 (por eso F2 no aparece en la ecuación anterior); concluiríamos que el
Factor 2 (Aptitud Espacial) no tiene ningún efecto directo causal en el rendimiento en ese
ítem. El ítem no mide la Aptitud Espacial.

Los pesos estructurales, a los que denominaremos ρ X , también indican la relación en-
j Fm

tre una variable j y un Factor m. Sin embargo, en este caso no representan el efecto directo
del factor en la variable, sino la correlación entre ambos; la correlación entre la variable
X2 y el factor F1 se obtiene como:

N I M

∑X i 2 Fi1 ∑ (∑ λ 2 m Fim + Ei 2 ) Fi1 M


ρ X 2 F1 = i =1
N
= i =1 m =1
N
= λ 21 + ∑λ
m=2
2 m ρ F1Fm [6.14]

Observe que ρ X depende del peso directo de la variable en el factor (λ21) pero también
2 F1
de la correlación del factor con los otros factores en los que pese la variable
M
( ∑λ
m=2
2 m ρ F1Fm ).

Ejemplo 6.8. Pesos de estructura

Al analizar los mismos 6 ítems del Ejemplo 6.7 se obtiene la matriz de estructura que se
presenta en la Tabla 6.10.

Tabla 6.10. Matriz de estructura


Matriz de estructura
Ítem (Contenido) Factor 1 Factor 2
X1 (Aptitud Verbal) 0,5 0,3
X2 (Aptitud Verbal) 0,5 0,3
X3 (Aptitud Verbal) 0,5 0,3
X4 (Aptitud Espacial) 0,3 0,5
X5 (Aptitud Espacial) 0,3 0,5
X6 (Aptitud Espacial) 0,3 0,5

Los resultados pueden parecer paradójicos. Los tres ítems de Aptitud Verbal correlacionan
con un Factor que no miden, la Aptitud Espacial. ¿Cómo puede ocurrir esto? Apliquemos
la ecuación [6.14] para calcular la correlación entre el ítem 1 y el Factor 2:
218 Medición en Ciencias Sociales y de la Salud

ρ X1F2 = λ12 + λ11 ρ F2 F1 = 0 + 0,5(0,6) = 0,3

Es decir, el ítem 1 correlaciona con la Aptitud Espacial porque aunque no mide la Aptitud
Espacial (λ12 = 0) mide la Aptitud Verbal (λ11 = 0,5), que está muy correlacionada con la
Aptitud Espacial ( ρ F2 F1 = 0,6). Por lo tanto, el rendimiento en el ítem 1 se relaciona indi-
rectamente con la Aptitud Espacial.

Al informar de los pesos debe explicitarse si se trata de pesos de configuración o de es-


tructura (Thompson, 2004). A veces, ambos coeficientes son denominados ambiguamente
pesos. Como hemos visto, las dos matrices proporcionan información distinta. Cuando los
factores están correlacionados ambas matrices (configuración y estructura) serán distintas
y ambas deberían ser tenidas en cuenta en la interpretación. Si los factores están muy co-
rrelacionados los coeficientes en la matriz de configuración pueden ser más inestables (de
muestra a muestra) que los coeficientes de la matriz de estructura, tal como ocurre con los
pesos en una ecuación de regresión múltiple.
Si los factores son independientes ( ρ Fm Fm ' = 0, para todo m y m ′ ) los pesos de con-
figuración coinciden con los pesos de estructura y puede utilizarse el término “pesos de
configuración/estructura” (Henson y Roberts, 2006). En ese caso [6.14] se simplifica a:

M
ρ F1X 2 = λ 21 + ∑λ
m=2
2 m ρ F1Fm = λ 21 [6.15]

Ejemplo 6.9. Matriz de configuración y Matriz de estructura

Tabla 6.11. Matriz de configuración (izquierda) y de estructura (derecha) para el test de cordialidad
Matriz de configuración Matriz de estructura
Factor 1 Factor 2 Factor 1 Factor 2
X1 0,060 0,471 X1 0,248 0,495
X2 0,036 0,706 X2 0,318 0,720
X3 –0,139 0,635 X3 0,115 0,579
X4 0,842 –0,055 X4 0,820 0,282
X5 0,623 –0,013 X5 0,618 0,236
X6 0,306 0,226 X6 0,396 0,348
X7 0,217 0,351 X7 0,358 0,438
Capítulo 6. Análisis Factorial Exploratorio 219

Para los datos de la Tabla 6.2, la matriz de configuración y la matriz de estructura se


muestran en la Tabla 6.11. Se resaltan en negrita los valores mayores que 0,3. La matriz
de configuración es más fácil de interpretar y es la que se interpretó en la parte inicial de
este capítulo. La matriz de estructura es más clara en el sentido de reflejar que, como am-
bos factores están correlacionados, todas las variables se relacionan con los dos factores.

Significado de los factores


Las variables se agrupan en factores, y el significado de éstos se infiere analizando qué
tienen en común las variables que se agrupan en un mismo factor. En la tarea de interpre-
tar el significado de un factor se requieren dos pasos:

1. Determinar los pesos más altos en valor absoluto: Un criterio suele ser fijarse en los
pesos en valor absoluto mayores que un valor criterio dado (p. ej., 0,3, 0,35 ó 0,4). En
ocasiones, para facilitar la interpretación, se ordenan los pesos y se destacan (p. ej., con
el tipo de letra) los pesos relevantes (ver Tabla 6.11). Una costumbre desaconsejable es
eliminar de la tabla los pesos próximos a cero, pues esa información puede ser relevan-
te si otro investigador quiere comprobar el parecido entre la solución factorial obtenida
en sus datos y la nuestra. Generalmente, se utilizan los coeficientes de configuración,
aunque algunos autores (Thompson, 2004) sugieren que es importante también el análi-
sis de los coeficientes de la matriz de estructura2.
2. Nombrar los factores: Un paso importante es poner una etiqueta a los factores. El nom-
bre del factor debería reflejar lo que las variables que pesan en él tienen en común.
Además, las variables que más pesan deberían tener más importancia en la elección de
la etiqueta.

No todas las estructuras factoriales son igual de fáciles de interpretar para un investigador.
El significado no es fácil de descubrir, por ejemplo, si las variables agrupadas en un mis-
mo factor son muy heterogéneas y no tienen un contenido común. Tampoco es fácil si las
variables tienen saturaciones relativamente altas en más de un factor, lo que significa que
miden más de una característica y hace más difícil descubrir su sentido. Por ejemplo, con-
sidere el caso de dos factores en los que pesan todas las variables. Aunque varíe el tamaño
de sus pesos, sería difícil decidir qué es lo que caracteriza a cada factor. Finalmente, el
número de variables que pesan en un factor determina también la calidad del proceso de
interpretación, ya que cuantas menos variables pesen en un factor más riesgo existe de
elegir una etiqueta inadecuada. Por ejemplo, en nuestro test de cordialidad, si para definir
el significado del Factor 2 sólo tuviéramos los ítems 1 (“Me comporto de manera honesta
y correcta con los demás”) y 3 (“Trato a las personas con educación”), lo podríamos
haber denominado “Trato educado a los demás”. La inclusión en el test de los ítems 2

2
En ocasiones, los pesos de las variables en los factores son altos, en valor absoluto, pero negativos. Puesto que
puede ser difícil pensar en términos negativos y la dirección del factor es arbitraria, una posibilidad es invertir
los signos de todos los pesos (y las correlaciones de ese factor con el resto de factores). De esa manera, se facili-
ta la interpretación. Al invertir los pesos estaríamos modificando la dirección del factor (p. ej., si en la solución
inicial el factor es Inestabilidad emocional, al invertir los pesos se convertiría en Estabilidad emocional).
220 Medición en Ciencias Sociales y de la Salud

(“Trato a mis compañeros afectuosamente”) y 7 (“Si un compañero tiene dificultades le


ayudo”) permite establecer la etiqueta más exacta de “Trato adecuado a los demás”.
Aunque Adecuado y Educado pueden parecer adjetivos similares, el primero puede repre-
sentar mejor el trato afable y afectuoso, más allá de la mera educación.

El AFE: Paso a paso


En el proceso de aplicación del AFE, en primer lugar el investigador debe decidir cuál es
el número m de factores que se van a extraer y un método de estimación de los pesos (al
que se denomina método de extracción). Veremos que existen diversos procedimientos,
no todos igual de adecuados. Decidido el método de extracción, se empieza analizando la
solución de un factor. Si el ajuste del modelo a los datos es bueno (p. ej., los residuos son
pequeños) se podrá concluir que la solución es unidimensional. Si no, se probará con la
solución de dos factores… y así sucesivamente hasta que se extraigan los factores necesa-
rios para que el modelo se ajuste. En los apartados siguientes se ofrecen algunos criterios
para decidir el número de factores.
Decidido el número de factores, se obtiene una solución factorial provisional a la que
se denomina matriz factorial inicial. Esa solución factorial tiene el inconveniente de que
es sólo una de las posibles soluciones y que además no es fácil de interpretar.
Finalmente, el investigador busca aquella solución factorial que sea más simple o fácil
de interpretar. Al método para realizar esa búsqueda se le llama método de rotación. El
investigador deberá elegir según sus propósitos si realiza una rotación ortogonal (que
asume factores independientes) o una rotación oblicua (que asume factores correlaciona-
dos). La solución rotada sirve para interpretar el sentido de los factores.
Todas estas decisiones son importantes. Cuando se publica un estudio de AFE debe in-
formarse de las distintas decisiones que se han tomado (número de factores, técnica de ex-
tracción, método de rotación, método para estimar las puntuaciones factoriales). Esto hace
que un estudio sea replicable y permite que otros investigadores valoren la adecuación de
nuestras decisiones. Una práctica recomendada es que el investigador informe de la matriz
de correlaciones y de las varianzas de las variables. De esta forma, otro investigador podrá
reanalizar los resultados.

Decisiones sobre el método de extracción de factores


Por método de extracción nos referimos a los procedimientos a partir de los cuales se es-
timan los parámetros del modelo (p. ej., pesos y correlaciones entre factores). Los cálculos
son bastante complicados y se realizan mediante programas informáticos. Su explicación
va más allá de los objetivos del presente texto, pero la lógica es fácil de explicar. En
términos generales, los programas de análisis factorial buscan aquellos valores de λ y
ρ Fm Fm ' que hacen que las correlaciones esperadas según el modelo (r*12, r*13, r*14,…) se
parezcan lo máximo posible a las correlaciones observadas (r12, r13, r14,…). En otras pala-
bras, se trata de encontrar los pesos que hacen próximas a 0 las correlaciones residuales
(resjj’).
Capítulo 6. Análisis Factorial Exploratorio 221

Ejemplo 6.10. Parámetros y expresiones del modelo de un factor

Observe la sencillez del problema, cuando estimamos los parámetros en el modelo de un


factor, mediante la inspección de las expresiones de la Tabla 6.12. Por ejemplo, la expre-
sión [0,328 – λ 21λ11] indica la diferencia entre la correlación observada r12 (= 0,328) y la
correlación reproducida por el modelo de un factor r*12 = λ 21λ11. El programa busca qué
valores hay que dar a λ21 y a λ11 para que esa diferencia (y las indicadas en las otras expre-
siones de los residuos) se aproxime a 0.

Tabla 6.12. Parámetros a estimar y expresiones para la estimación del modelo de un factor
Parámetros:

λ11 , λ 21 , λ31 , λ 41 , λ51 , λ61 , λ71 , ψ 1 , ψ 2 , ψ 3 ,ψ 4 , ψ 5 , ψ 6 , ψ 7


Expresiones: Se buscan parámetros que hagan que el valor de cada expresión se aproxime a 0
2
1 − λ11 −ψ 1
0,328 − λ 21λ11 1 − λ 221 − ψ 2
2
0,332 − λ 31λ11 0,415 − λ 31λ 21 1 − λ 31 −ψ 3
0,188 − λ 41λ11 0,231 − λ 41λ 21 0,065 − λ 41λ 31 1 − λ 241 − ψ 4
2
0,152 − λ 51λ11 0,170 − λ 51λ 21 0,089 − λ 51λ 31 0,512 − λ 51λ 41 1 − λ51 −ψ 5
2
0,174 − λ 61λ11 0,277 − λ 61λ 21 0,126 − λ 61λ 31 0,316 − λ 61λ 41 0,217 − λ 61λ 51 1 − λ 61 −ψ 6
2
0,223 − λ 71λ11 0,348 − λ 71λ 21 0,175 − λ 71λ 31 0,258 − λ 71λ 41 0,236 − λ 71λ 51 0,257 − λ 71λ 61 1 − λ 71 −ψ 7

Existen multitud de métodos para estimar los parámetros y varianzas. Ejes principales
(EP), máxima verosimilitud (ML) y mínimos cuadrados no ponderados (ULS) se encuen-
tran entre los más frecuentes. Los distintos métodos difieren principalmente en los supues-
tos distribucionales y en la estrategia seguida para estimar los parámetros. En el Apéndice
6.2 puede encontrarse un resumen de estas técnicas. Por el momento diremos que EP, ML
y ULS son todos procedimientos adecuados para realizar un AFE; las diferencias que se
suelen encontrar entre dichos procedimientos son pequeñas (especialmente entre EP y
ULS). En todos los casos, se pretende encontrar qué parámetros minimizan los residuos y
se trata de procedimientos iterativos, por lo que se debe comprobar la convergencia3.

3
Se denominan iterativos porque no se estiman los parámetros en un solo paso sino por aproximaciones sucesi-
vas. En cada paso se obtienen parámetros estimados que se parecen cada vez más a los parámetros estimados de-
finitivos. Se dice que se ha alcanzado la convergencia cuando los parámetros estimados no difieren sustancial-
mente en pasos sucesivos. Si no se alcanza la convergencia, esto quiere decir que los parámetros estimados que
ofrece el programa informático no son definitivos y, por tanto, no son correctos. Por ello se debe comprobar
cuándo, en el proceso iterativo de estimación, se ha alcanzado la convergencia. Si eso no ha ocurrido pueden in-
crementarse el número de iteraciones por defecto (p. ej. de 25 a 100). Si la solución no converge en 100 o 125
iteraciones, generalmente no convergerá en un número mayor. La falta de convergencia suele deberse a que la
complejidad del modelo es excesiva para el tamaño muestral y el número de variables del que se dispone.
222 Medición en Ciencias Sociales y de la Salud

El más adecuado desde un punto de vista estadístico es ML, ya que tiene en cuenta que
la matriz de correlaciones se obtuvo en una muestra y se pretende aproximar las estima-
ciones de los parámetros (p. ej., las estimaciones de λ ο ψ ) a sus valores poblacionales. El
procedimiento ML incluye el supuesto de distribución multivariada normal para las varia-
bles. Si se cumplen los supuestos distribucionales y el modelo es correcto, ML proporcio-
na claras ventajas frente a otros:

1. ML proporciona contrastes estadísticos que nos permiten concluir si los residuos son
estadísticamente distintos de 0 y obtener intervalos de confianza para los parámetros.
2. Las estimaciones por ML tienen propiedades estadísticas deseables: son asintóticamen-
te insesgadas, consistentes (i. e., convergen al valor del parámetro poblacional al in-
crementarse la muestra) y eficientes (i. e., son estimadores con varianza mínima).

Sin embargo, estas ventajas sólo son reales si se cumplen los supuestos del modelo
(Curran,West y Finch, 1996). Por ejemplo, si las variables no se distribuyen normalmente
(Asimetría > 2; Kurtosis > 7; West, Finch y Curran, 1995; Russell, 2002) se deberían ob-
tener indicadores de ajuste corregidos (Satorra y Bentler, 1994) lo que suele funcionar
bien en muestras de tamaño moderado (p. ej., 250 o más casos) (Bentler y Yuan, 1999;
Fouladi, 2000). Otros autores desaconsejan su uso bajo ciertas condiciones. Si las distri-
buciones de las variables son extremas, el modelo no es correcto (p. ej., porque se estén
extrayendo menos factores de los necesarios) o la solución no está bien determinada (por-
que los pesos de las variables en los factores sean bajos, porque muchas variables pesan
en varios factores, etc.) ML puede dar lugar a la obtención de estadísticos inadecuados y
de soluciones impropias4 (Ferrando y Anguiano, 2010). En ese caso, EP y ULS son méto-
dos más robustos y, por tanto, resultan preferibles, especialmente en muestras pequeñas.
Además de los métodos EP, ULS y ML existen otras opciones para la estimación, en-
tre las que cabe destacar (por su frecuencia de su uso) el método de componentes princi-
pales (CP). CP está muy difundido por ser el método de extracción por defecto en algunos
programas informáticos. Sin embargo, hay que aclarar que CP no es un método de Análi-
sis Factorial y muchos expertos desaconsejan su uso (ver, por ejemplo, Ferrando y An-
guiano, 2010). En el Apéndice 6.1 se explican las razones por las que puede ser inapro-
piado utilizar CP como técnica de AF.
Sea cual sea el procedimiento elegido, se obtendrá en primer lugar una matriz factorial
no rotada de pesos (que, a veces, se denomina solución inicial). La solución no rotada se
caracteriza porque los factores:

1. Correlacionan 0, es decir, son independientes;


2. Aparecen siempre ordenados según la proporción de la varianza total que explican
(PVCF1 > PVCF2 > …> PVCFM).

4
Se habla de soluciones impropias o casos Heywood cuando se obtienen valores imposibles para algunos pará-
metros (p. ej., comunalidades mayores que 1). La presencia de alguna comunalidad mayor o igual a 1 es inacep-
table ya que esto implica que las respuestas en una variable se predicen perfectamente a partir de las puntuacio-
nes en los factores, lo cual es poco plausible. A estos casos “límite” se les suele denominar casos Heywood, por-
que fue Heywood (1931) quien se fijó en ellos por primera vez. La presencia de un caso Heywood puede ser un
indicador de que el modelo es inadecuado para los datos o la muestra es demasiado pequeña. Suele producirse si
en uno de los factores pesan sólo una o dos variables, incluso si la muestra es grande (McDonald, 1985). Por tan-
to, un caso Heywood puede indicar que se están extrayendo demasiados factores.
Capítulo 6. Análisis Factorial Exploratorio 223

Ejemplo 6.11. Matriz factorial no rotada por el método ML

Para los datos del test de Cordialidad, la matriz factorial no rotada aparece en la Tabla
6.13. Observe que el primer factor explica un porcentaje mayor de varianza que el segun-
do (pesan más ítems). En concreto, el primer factor explica el 26,135% de la varianza total
(el sumatorio de los pesos al cuadrado de la primera columna, dividido por 7 y multiplica-
do por 100); el segundo factor explica el 11,114% de la varianza total. La matriz factorial
es muy similar a la que se obtendría por otros procedimientos (ver Apéndice 6.2).

Tabla 6.13. Matriz factorial no rotada por el método ML (test de Cordialidad)


Matriz factorial
(ML)
1 2
X1 0,397 0,301
X2 0,544 0,472
X3 0,332 0,491
X4 0,736 –0,365
X5 0,565 –0,251
X6 0,446 0,037
X7 0,455 0,158

Selección del número de factores


Un segundo objetivo del AFE es determinar cuántas dimensiones está midiendo un test, es
decir, cuántos factores deben incluirse en la solución factorial. Aunque el número máximo
nunca puede ser mayor que el número de variables analizado (en ese caso, se explicaría
toda la varianza de las variables analizadas), no todos los factores comunes que pueden
extraerse explicarían la misma proporción de varianza; es más, pueden no ser interpreta-
bles y deberse al error que introduce la variación muestral de las correlaciones. Por tanto,
el investigador debe decidir cuál es el mínimo número de factores necesario para explicar
bien las correlaciones entre las variables.
El número de factores no se decide de forma caprichosa, habiéndose propuesto varios
métodos para determinar cuál es el número óptimo que debe retenerse; no todos son igual
de adecuados. En nuestro ejemplo, se han aplicado el modelo de un factor y el modelo de
dos factores a los mismos datos. Las correlaciones reproducidas según el modelo de un
factor se parecían bastante a las correlaciones observadas en la muestra. Al extraer dos
factores, se parecían más aún. Por tanto, parece que las correlaciones se ajustan un poco
mejor al modelo de dos factores ¿Justifica esto extraer dos factores?, ¿o deberíamos anali-
zar lo que ocurre cuando extraemos tres factores? A continuación se describen algunas de
224 Medición en Ciencias Sociales y de la Salud

las estrategias más utilizadas para decidir el número de factores que es necesario retener;
finalmente se recoge alguna recomendación sobre cuáles (y cuáles no) deberían utilizarse.

El análisis de los residuos

Análisis descriptivo

Una aproximación es examinar las correlaciones residuales. Si los residuos son pequeños
(p. ej., menores, en valor absoluto, de 0,05) esto indica que el modelo reproduce bien las
correlaciones. El criterio de 0,05 es un valor arbitrario (arbitrariamente pequeño) y pueden
utilizarse otros criterios, especialmente si el investigador trabaja con muestras pequeñas
(p. ej., que el residuo no sea estadísticamente significativo). Algunos programas propor-
cionan el indicador RMSR (la Raíz del Residuo Cuadrático Medio; en inglés, Root of
Mean Squared Residual), que es la raíz del promedio de los residuos al cuadrado:

J J

∑∑ res
j j'
2
jj '

j≠ j'
RMSR = [6.16]
J ( J − 1)

Un valor de 0,08 o menos indicarían buen ajuste a los datos (Hu y Bentler, 1998).

Análisis estadístico

Usualmente los residuos son distintos de cero en la muestra. Sin embargo, esto no supone
un problema por sí mismo. En realidad, lo correcto es plantearse si podemos mantener que
los residuos son cero en la población. Sabemos que por mera variación muestral es impro-
bable que los residuos sean cero en la muestra incluso si lo son en la población. Si se ha
utilizado el método ML puede obtenerse un contraste estadístico χ 2 del ajuste del modelo.
Mediante este estadístico χ 2 contrastamos si con M factores extraídos podemos mantener
la Hipótesis nula de que todos los residuos son cero en la población:

H0: Todos los residuos son nulos


H1: Algún residuo es distinto de cero

Para aplicar esta prueba se asumen algunos supuestos, como que las J variables siguen
una distribución multivariada normal. Un problema asociado al estadístico χ 2 es que hace
que nuestra decisión sobre el número de factores que se va a retener dependa mucho del
tamaño de la muestra. Si es suficientemente grande, residuos muy pequeños pueden resul-
tar significativos y se tenderá a extraer un número de factores mayor que el necesario des-
de el punto de vista práctico. Por el contrario, si la muestra es pequeña, residuos de valor
Capítulo 6. Análisis Factorial Exploratorio 225

elevado pueden no resultar estadísticamente significativos y se extraerá un número de fac-


tores menor que el necesario.
Además de realizar el contraste estadístico global, puede estudiarse si cada una de las
correlaciones residuales es estadísticamente distinta de cero. Muchos programas (p. ej.,
FACTOR) informan de los residuos estandarizados (Joreskog y Sorbom, 1989, p. 28):

res jj′ [6.17]


Z =
res ′
jj
S
res ′
jj

donde S es el error típico asociado al residuo resjj’. Si el modelo se ajusta a los datos
res jj '

los residuos estandarizados tienen una distribución aproximadamente normal, N(0, 1).
Así, un residuo estandarizado en valor absoluto mayor que 1,96 ó 2,58 indica que el resi-
duo correspondiente es estadísticamente distinto de cero y, por tanto, un posible desajuste
del modelo (Schermelleh-Engel, Moosbrugger y Müller, 2003).

Ejemplo 6.12. Decisión sobre el número de factores (análisis de los residuos)

Primero, estimamos varios modelos con distinto número de factores. El modelo más sim-
ple (con menos factores) cuyo ajuste sea satisfactorio es el que se utiliza para interpretar
los resultados y obtener conclusiones. Para los datos de nuestro ejemplo, los residuos con
el modelo de un factor se muestran en la Tabla 6.14. Se obtuvieron residuos mayores en
valor absoluto que 0,05 en el 52% de los casos.

Tabla 6.14. Residuos (Método ML) con el modelo de 1 factor


X1 X2 X3 X4 X5 X6 X7
X1 0,044 0,138 –0,054 –0,061 –0,042 –0,018
X2 0,044 0,161 –0,087 –0,110 –0,007 0,033
X3 0,138 0,161 –0,152 –0,103 –0,068 –0,041
X4 –0,054 –0,087 –0,152 0,272 0,074 –0,012
X5 –0,061 –0,110 –0,103 0,272 0,003 –0,002
X6 –0,042 –0,007 –0,068 0,074 0,003 0,016
X7 –0,018 0,033 –0,041 –0,012 –0,002 0,016

El análisis de la significación estadística de los residuos con el programa FACTOR


(método ULS) mostraba que había varios residuos estandarizados mayores que 3 (entre
los ítems 4 y 5 y del ítem 3 con los ítems 1, 2 y 4). Estos residuos son los mayores en la
Tabla 6.14. Cuando se aplicó el modelo de dos factores, los residuos eran mucho más pe-
queños (como se mostró en la Tabla 6.8); todos los residuos estandarizados fueron meno-
res que 1,96 (i. e., no estadísticamente significativos, p > 0,05). La Tabla 6.15 muestra los
valores del estadístico χ2 para los modelos de uno y dos factores, los grados de libertad
(gl) y el nivel crítico (p); también se muestra RMSR.
226 Medición en Ciencias Sociales y de la Salud

Tabla 6.15. Valores de χ 2 para los modelos de uno y dos factores


χ2 gl p RMSR
Modelo de un factor 139,678 14 0,000 0.097
Modelo de dos factores 13,470 8 0,097 0,025

Utilizando un nivel de significación α = 0,01, puede concluirse que el modelo de un factor


no se ajusta a los datos. En cambio, con ese nivel de significación (e incluso con α = 0,05)
podemos mantener que el modelo de dos factores sí se ajusta. Atendiendo al indicador
RMSR se extraería la misma conclusión; para el modelo de un factor, RMSR es mayor
que 0,08, mientras que para el modelo de dos factores RMSR es 0,025.

Métodos basados en la proporción de varianza explicada por el factor

Autovalores de la matriz de correlaciones

Aunque CP no es una técnica adecuada de AFE, los resultados obtenidos con CP han mos-
trado ser útiles para decidir el número de factores. Por ello, en algunos programas se apli-
ca primero CP, se decide el número de factores a partir de la información obtenida en CP
y se repite el análisis con un método de AFE más adecuado (p. ej., ULS, ML o EP).
Cuando se utiliza CP, como con otras técnicas, la solución inicial (no rotada) se carac-
teriza porque los factores correlacionan 0 (son independientes) y aparecen ordenados
según la proporción de la varianza total que explican (PVCF1 > PVCF2 > …> PVCFM). Pa-
ra decidir el número de factores a extraer se considera la proporción de varianza total que
explica cada factor: si un factor explica poca varianza se concluye que es prescindible.
Varios de los criterios que se describen en el siguiente apartado siguen esta lógica aunque
difieren en cómo se define “poca varianza”.
Los criterios que se muestran en los siguientes apartados se basan en el estudio de los
autovalores5, que son una transformación de las PVC. Cada factor m tiene un autovalor
asociado, γm , que se calcula mediante la ecuación:

γ m = ( J ) PVC Fm [6.18]

Es decir, el autovalor de un factor es simplemente la proporción de varianza explicada por


ese factor (PVCFm) multiplicada por una constante J, el número de variables. Los autova-
lores cumplen las siguientes propiedades (Thompson, 2004):

1. El número de autovalores es igual al número de variables analizadas.


2. La suma de los autovalores es igual al número de variables.

5
Ver Apéndice 6.1 para una definición más rigurosa del concepto de autovalor.
Capítulo 6. Análisis Factorial Exploratorio 227

3. Un autovalor dividido por el número de variables indica la proporción de la varianza to-


tal que un factor dado reproduce (es decir, PVCFm).
4. La suma de los autovalores de los factores extraídos dividida por el número de variables
indica la proporción de la varianza total que los factores extraídos reproducen en con-
junto (es decir, PVC).
5. Los autovalores están ordenados por tamaño (λ1 ≥ λ2 ≥…≥ λm ≥…≥ λM).

A continuación se describen varios de los criterios para decidir el número de factores que
se basan en las cuantías de los autovalores.

Regla K1 de Kaiser

Uno de los procedimientos más usados para la retención de factores es la regla K1 de Kai-
ser, según la cual se retienen aquellos factores con autovalores mayores que 1. Observe
que si un factor explica toda la varianza de una única variable, el autovalor asociado a ese
factor sería 1; por ejemplo, si tenemos 10 variables y un factor m explica toda la varianza
de la primera variable y nada de varianza del resto de las variables, el autovalor asociado a
ese factor m sería:

∑λ
j =1
2
jm
12 + 0 2 + ... + 0 2
γ m = (J ) = (10) =1
J 10

Lo que se establece con esta regla es que, para que un factor resulte útil, debe explicar al
menos tanta varianza como la de una variable. Guttman (1954) proporciona otra justifica-
ción formal para la regla K1: si la matriz de correlaciones fuera la poblacional, el número
de autovalores mayores que 1 sería el número mínimo necesario para reproducir correcta-
mente la matriz de correlaciones. La regla K1 es una de las más usadas, probablemente
porque se trata de la opción por defecto de muchos programas estadísticos. Sin embargo,
es una de las reglas que peor funcionan, pues tiende a sobrestimar el número de factores
(Zwick y Velicer, 1986). La regla K1 es incorrecta por, al menos, dos razones:

1. Es demasiado rígida cuando se trabaja con la matriz de correlaciones muestral. No pa-


rece muy adecuado aceptar un factor con un autovalor de 1.01 y rechazar un factor con
un autovalor de 0.99, cuando esa diferencia puede venir explicada por la variación
muestral.
2. Por otro lado, la lógica de que explique una varianza mayor que 1 puede ser errónea si
los pesos de las variables en el factor son bajos. Por ejemplo, para un test de 10 ítems,
si sólo tres ítems pesan 0,4 en el factor, el autovalor asociado a ese factor será 0,48:

∑λ
j =1
2
jm
0,4 2 + 0,4 2 + 0,4 2 + 0 2 + 0 2 + 0 2 + 0 2 + 0 2 + 0 2
γ m = (J ) = (10) = 0,48
J 10
228 Medición en Ciencias Sociales y de la Salud

La regla K1 tiende a proporcionar un número positivamente sesgado de factores, tanto


más cuanto menor es el tamaño muestral y mayor el número de variables (ya que son más
probables correlaciones extremas, por mera variación muestral, en esas condiciones).

Ejemplo 6.13. Decisión sobre el número de factores. Regla K1

Para los datos de nuestro ejemplo, siguiendo la regla K1 de Kaiser deberían extraerse dos
factores (ver autovalores en la Tabla 6.16).

Tabla 6.16. Autovalores de la matriz de correlaciones entre los 7 ítems


Factor Autovalor
1 2,469
2 1,272
3 0,831
4 0,742
5 0,686
6 0,539
7 0,461

Gráfico de sedimentación

El método basado en el gráfico de sedimentación (Cattell, 1966; Cattell y Vogelmann,


1977) consiste en representar la cuantía de los autovalores de mayor a menor.

Figura 6.1. Matriz factorial (izquierda) y gráfico de sedimentación (derecha) para una matriz de correla-
ciones de 5 variables independientes (datos poblacionales)

Matriz factorial
F1 F2 F3 F4 F5
X1 1 0 0 0 0
X2 0 1 0 0 0
X3 0 0 1 0 0
X4 0 0 0 1 0
X5 0 0 0 0 1
Autovalores
F1 F2 F3 F4 F5
γm 1 1 1 1 1
Capítulo 6. Análisis Factorial Exploratorio 229

Si todas las variables fueran independientes y no hubiera factores comunes, el gráfico de


sedimentación obtenido con la matriz de correlaciones poblacional sería una línea hori-
zontal sobre 1 (ver Figura 6.1). Sin embargo, en una muestra se espera que, aunque no
haya factores comunes, se produzcan correlaciones distintas de cero por mera variación
muestral. En ese caso, los primeros autovalores serán mayores que 1 por efecto de esa va-
riación muestral. Por ejemplo, en las figuras 6.2 y 6.3 se muestran los resultados para 5
variables (que son independientes en la población), obtenidos en muestras de 50 y 1.000
personas, respectivamente. Puede observarse que los primeros autovalores son mayores
que 1, especialmente en la muestra de 50 personas.
Observe además que si no hay relación entre las variables, se podría trazar una línea
recta (empezando desde el último autovalor) que pasara muy cerca de todos los puntos. En
las Figuras 6.2 y 6.3 se representan esas rectas con una línea muy estrecha. Como no hay
factores comunes la línea discontinua casi se superpone al gráfico de sedimentación.

Figura 6.2. Matriz factorial (izquierda) y gráfico de sedimentación para una matriz de correlaciones de 5
variables independientes, datos muestrales (N = 50)
3

Matriz factorial
F1 F2 F3 F4 F5 2
autovalor

X1 0,7 0,3 0,0 –0,6 –0,2


X2 0,1 0,6 0,7 0,3 0,0
X3 0,3 –0,7 0,5 –0,1 0,4
1
X4 0,6 0,3 –0,4 0,2 0,5
X5 0,7 –0,4 0,0 0,4 –0,5
Autovalores
F1 F2 F3 F4 F5
0
γm 1,4 1,1 0,9 0,8 0,7 1 2 3 4 5
Factor

Figura 6.3. Matriz factorial (izquierda) y gráfico de sedimentación para una matriz de correlaciones de 5
variables independientes, datos muestrales (N = 1.000)
3

Matriz factorial
F1 F2 F3 F4 F5 2
autovalor

X1 0,2 0,7 0,3 –0,4 –0,5


X2 0,2 0,5 –0,7 –0,1 0,5
X3 0,6 0,0 0,6 0,0 0,5
1
X4 –0,4 0,5 0,3 0,7 0,2
X5 0,7 0,0 –0,3 0,5 –0,4
Autovalores
F1 F2 F3 F4 F5
0
γm 1,1 1,1 1,0 0,9 0,8 1 2 3 4 5
Factor
230 Medición en Ciencias Sociales y de la Salud

Con datos empíricos, existiendo relaciones no nulas entre las variables, el gráfico de se-
dimentación tendrá generalmente una forma distinta. Veamos un ejemplo. Al obtener el
gráfico de sedimentación para los datos de la Tabla 6.2 (ítems de Cordialidad), se obtienen
los resultados mostrados en la Figura 6.4. Si no hubiera factores comunes, una única línea
podría pasar cerca de todos los puntos. Observe que esto no es así en la Figura 6.4, lo que
significa que sí hay factores comunes.

Figura 6.4. Gráfico de sedimentación para el test de Cordialidad


3

2
Cambio de pendiente
autovalor

0
1 2 3 4 5 6 7
Factor

Para decidir cuántos factores retener, Cattell propuso trazar la pendiente hacia la izquierda
(empezando por el último autovalor) y observar en qué punto cambia la pendiente. En
nuestro caso, el primer cambio de pendiente se produce en el paso del autovalor 3 al auto-
valor 2; por tanto, extraeríamos dos factores, ya que a partir del tercero tienden a estabili-
zarse las cuantías de los autovalores.
A pesar de que existe cierto grado de subjetividad en la decisión (en algunos casos,
puede ser ambiguo establecer dónde se da el cambio de pendiente) ésta es una de las
técnicas más precisas para decidir el número de factores que se van a extraer, aunque tam-
bién tiende a producirse cierta sobrefactorización (especialmente si las comunalidades son
bajas). La ambigüedad de las decisiones es mayor cuanto menor es el tamaño de la mues-
tra o la ratio de variables por factor (Cliff y Hamburger, 1967). Conviene utilizarlo en
combinación con otros procedimientos, pero nunca de forma aislada.

El análisis paralelo

La técnica del análisis paralelo (Horn, 1965) se basa en el gráfico de sedimentación. La


idea es sencilla: se generan H matrices de datos aleatorios de orden igual al de la muestra
empírica, N x J (i. e., N filas de sujetos y J columnas de ítems). Normalmente, se simulan
50 (H = 50) o 100 muestras (H = 100). En cada muestra, las J variables se generan como
independientes, con una distribución normal o con distribuciones univariadas similares a
las de las variables originales. Por tanto, en cada una de las matrices de respuestas genera-
das sabemos a ciencia cierta que no hay factores comunes. El procedimiento consiste en
Capítulo 6. Análisis Factorial Exploratorio 231

obtener el promedio de cada autovalor m (m: 1…J) a través de las H muestras y comparar-
lo con el autovalor m de la muestra empírica. La decisión final es extraer M factores, don-
de γM es el autovalor más bajo en el que se cumple que:

∑γ
h =1
M (h)
γM > [6.19]
H

donde γM(h) es el autovalor asociado al factor M en la muestra aleatoria h. A la izquierda de


la ecuación [6.19] aparece el autovalor del factor M en la muestra empírica y a la derecha
la media de los autovalores del factor M en las muestras aleatorias. Por tanto, la racionali-
dad del análisis paralelo es análoga a la de la regla K1, pero en vez de comparar cada au-
tovalor con el valor 1 se compara con el valor esperado en una muestra similar cuando no
hay factores comunes.

Ejemplo 6.14. Decisión sobre el número de factores. Análisis paralelo

A partir de los datos de la Tabla 6.2, se realizó el Análisis Paralelo (ver Figura 6.5). A par-
tir de los resultados concluimos que habría que extraer 2 factores, ya que el autovalor del
tercer factor está por debajo de la media de los autovalores que se obtienen en muestras
donde no hay ningún factor común.

Figura 6.5. Análisis Paralelo


3
Muestra empírica

Media en muestras
aleatorias
2
autovalor

0
1 2 3 4 5 6 7
Factor

El gráfico de sedimentación y el análisis paralelo pueden aplicarse con autovalores obte-


nidos por Ejes Principales (EP) o por Componentes Principales (CP). Velicer et al. (2000)
232 Medición en Ciencias Sociales y de la Salud

recomiendan el uso de CP6. También puede compararse el autovalor m de la muestra


empírica con el percentil 95 de la distribución del autovalor m en las muestras aleatorias.
El análisis paralelo es el método más preciso para decidir el número de factores. Hasta
hace poco tiempo su aplicación era compleja puesto que no estaba disponible en los pa-
quetes estadísticos más utilizados. Sin embargo, actualmente existen macros de SPSS y
SAS que permiten hacer uso de este efectivo procedimiento (O’Connor, 2000); también
pueden obtenerse los resultados en el programa FACTOR (Lorenzo y Ferrando, 2006).

Recomendaciones

Eaton,Velicer y Fava (1999) concluyen que el mejor método es el análisis paralelo, siendo
el peor método la regla K1. Sin embargo, en presencia de un fuerte factor común, tiende a
subestimar el número de factores ignorando los factores comunes menores (Turner, 1998;
Hayton y cols., 2004). Por ello, también es recomendable usar este método en combina-
ción con otros.
Los criterios de ajuste estadístico no siempre constituyen las mejores elecciones, pues
las conclusiones dependerán mucho del tamaño de la muestra (p. ej., pequeñas discrepan-
cias pueden ser estadísticamente significativas). Por ello, la manera más segura de proce-
der es complementar el análisis paralelo con el análisis de los residuos: p. ej., si es grande
el tamaño de los residuos, esto indica que nuestro modelo no es suficientemente adecuado
e implica que es necesario incrementar el número de factores.
Es preferible equivocarse por exceso que por defecto (Fabrigar, Wegener, MacCallum
y Strahan, 1999). Cuando se extraen menos factores de los necesarios algunas variables
que cargarían en los factores no considerados en el modelo pueden hacerlo en los factores
incluidos, obteniéndose en ellos saturaciones distorsionadas y, por tanto, dificultando su
interpretación. Cuando se extraen más factores de los necesarios suele ocurrir que algunos
están representados por una sola variable, pero la estructura correcta tiende a permanecer;
cuando se extraen más factores que los necesarios, puede ocurrir también que dos factores
representen simplemente la división de lo que debería haber sido un único factor. Todo es-
to hace que la estructura resulte difícilmente replicable.

El problema de la indeterminación factorial


Como se ha mencionado en el apartado de extracción de factores, los procedimientos más
frecuentes se caracterizan por establecer factores independientes, ordenados según la pro-
porción de la varianza total que explican. Estos dos criterios permiten que el modelo esté
identificado (es decir, que los parámetros sean estimables). Sin embargo, cuando se extrae
más de un factor, podrían obtenerse otras soluciones factoriales siguiendo otros criterios.
En realidad, dado un número específico de factores, existen infinitas matrices factoriales
que pueden dar cuenta de las correlaciones entre variables. Planteemos la situación para el
modelo de dos factores independientes; la correlación entre las variables j y j’ según el
modelo es:

6
Por tanto, aunque CP no es recomendable como método para estimar el modelo factorial, sí lo es como método
de obtención de los autovalores para decidir el número de factores.
Capítulo 6. Análisis Factorial Exploratorio 233

r jj* ' = λ j1λ j '1 + λ j 2 λ j '2

Redefinimos los pesos mediante la transformación:

λ'j1 = Aλ j1 + Bλ j 2
λ'j '1 = Aλ j '1 + Bλ j '2
λ'j 2 = Bλ j1 − Aλ j 2
λ'j '2 = Bλ j '1 − Aλ j '2

Si seleccionamos valores para A y B, tales que A2 + B2 = 1, las correlaciones reproducidas


serían exactamente iguales con los dos conjuntos de pesos:

r jj* ' = λ'j1λ'j '1 + λ'j 2 λ'j '2 = ( Aλ j1 + Bλ j 2 )( Aλ j '1 + Bλ j '2 ) + ( Bλ j1 − Aλ j 2 )( Bλ j '1 − Aλ j '2 ) =
= A 2 λ j1λ j '1 + B 2 λ j 2 λ j '2 + B 2 λ j1λ j '1 + A 2 λ j 2 λ j '2 = λ j1λ j '1 + λ j 2 λ j '2

Lo que ocurre es un problema de indeterminación factorial7. ¿Con qué estructura factorial


quedarse? Thurstone (1947) propuso una solución. Parece razonable considerar que una
variable psicológica no es función de todos los factores simultáneamente; es decir, en la
estructura factorial “correcta” cada variable pesará cero en algún factor. Además, cabe es-
perar que las variables dependan de distintos factores. La propuesta de Thurstone es bus-
car, entre todas las soluciones factoriales posibles, aquella que más se asemeje a la estruc-
tura simple, que se caracteriza porque (Thurstone, 1947, p. 335):

1. Cada variable tiene una saturación próxima o igual a 0 en al menos un factor. Por ejem-
plo, un ítem no puede medir todos los factores a la vez.
2. En cada factor, al menos M variables tienen saturaciones próximas o iguales a 0. Es de-
cir, que no debería haber factores generales en los que pesan todos los ítems.
3. Para cada par de factores hay variables cuyas saturaciones son próximas o iguales a 0
en uno, pero no en el otro (y viceversa). Es decir, los factores son distinguibles y no se
solapan.

7
El caso general se puede expresar fácilmente en términos matriciales. Considere una transformación de los pe-
sos y los factores:

Λ* = ΛT
F * = T −1 F

donde Λ∗ es la matriz de pesos transformados, F* la matriz de puntuaciones transformadas de las personas en los
factores, Λ es la matriz de pesos originales, F la matriz de puntuaciones originales en los factores y T es una ma-
triz de transformación que tenga inversa. El nuevo modelo será equivalente al modelo original:

X = Λ*F* + E = ΛTT −1F + E = ΛF + E


234 Medición en Ciencias Sociales y de la Salud

4. Si se extraen 4 factores o más, para cualquier par de factores hay una gran proporción
de variables con saturaciones próximas o iguales a 0 en ambos. Esto significa que para
cada factor son relevantes sólo unas pocas variables y que las variables tienden a agru-
parse en factores distintos. Esto simplifica la interpretación de los factores.
5. Para cualquier par de factores, habrá un número reducido de variables con saturaciones
distintas de cero en ambos. Es decir, que cada variable tiende a pesar en un único fac-
tor. Esto simplifica la interpretación de las variables.

El primero de los criterios refleja principalmente una condición necesaria de la estructura


simple, mientras que el resto de condiciones fueron propuestas por Thurstone para facili-
tar la estabilidad de la configuración de pesos factoriales en distintas muestras. Con los
tres últimos criterios se busca que los conjuntos de ítems definiendo cada factor no se so-
lapen demasiado.
En la Tabla 6.17 puede observarse un ejemplo donde se cumplen los criterios de la es-
tructura simple (izquierda) y otro en el que no (derecha); Por ejemplo, en la estructura de
la derecha se incumplen todas las condiciones: la primera variable pesa en todos los facto-
res (condición uno), los factores 1 y 4 tienen menos de cuatro variables con pesos próxi-
mos a cero (condición dos), existe un gran solapamiento entre los factores 1 y 4 ya que 5
de las 8 variables tienen el mismo patrón de pesos (condición tres), no existen variables
con pesos de cero en el Factor 1 y otro factor (condición cuatro) y en los factores 1 y 4
hay un número alto de variables con pesos altos en ambas (condición cinco).

Tabla 6.17. Ejemplo de estructura simple (izquierda) y no simple (derecha)


Estructura simple Estructura no simple
Factor Factor Factor Factor Factor Factor Factor Factor
1 2 3 4 1 2 3 4
X1 0 0 0 0,4 X1 0,4 0,4 0,4 0,4
X2 0 0,4 0 0 X2 0,4 0,4 0 0
X3 0 0 0,4 0 X3 0,4 0 0,4 0
X4 0,4 0 0 0 X4 0,4 0 0 0,4
X5 0 0 0 0,4 X5 0,4 0 0 0,4
X6 0,4 0 0 0 X6 0,4 0 0 0,4
X7 0 0 0,4 0 X7 0,4 0 0 0,4
X8 0 0,4 0 0 X8 0,4 0 0,4 0

Para buscar la solución más parecida posible a la estructura simple, se aplica un proceso
denominado como rotación8 a la matriz factorial que incluye los pesos estimados inicial-
mente. La rotación permite encontrar aquellas soluciones factoriales que, siguiendo el
principio de parsimonia, facilitan la interpretación de las variables (se minimiza el número
de factores necesarios para explicar cada variable) o de los factores (se minimiza el núme-
ro de variables con saturaciones altas en el factor). Después de la rotación, cambian los

8
Ver Apéndice 6.4 para entender por qué se utiliza el término rotación.
Capítulo 6. Análisis Factorial Exploratorio 235

pesos, pero no cambian las correlaciones reproducidas, las comunalidades o la proporción


de varianza explicada entre todos los factores.
Existen distintos procedimientos para obtener la estructura más simple (ver, por ejem-
plo, Browne, 2001). Una de las decisiones más importantes en la elección del método de
rotación es optar entre un método de rotación ortogonal, en el que se asume que los facto-
res no correlacionan, o un método de rotación oblicua, que permite que los factores corre-
lacionen. En los apartados siguientes se describen las ventajas e inconvenientes de cada
tipo de método. Una discusión de las diversas estrategias de rotación puede encontrarse en
los trabajos de Gorsuch (1983) y Thompson (2004).

Procedimientos de rotación ortogonal


Los procedimientos de rotación ortogonal se caracterizan por encontrar la estructura más
simple bajo la restricción de que los factores sean ortogonales (es decir, que sean inde-
pendientes, con correlación cero). Uno de los tipos de rotación ortogonal más utilizada es
el método Varimax normalizado, desarrollado por Kaiser (1958). Es el método por defecto
en la mayoría de los paquetes estadísticos (p. ej., SPSS). Respetando la restricción de or-
togonalidad, se transforman las saturaciones iniciales (λ) para que las nuevas saturaciones
en los factores (λ’) difieran lo máximo posible entre sí (i. e., que tomen valores extremos
o valores próximos a cero y se eviten los valores intermedios).
Matemáticamente, se busca maximizar la varianza de los pesos (elevados al cuadrado
y divididos por la comunalidad de la variable) dentro de cada factor m:

M  (λ ′jm ) 2 
cVari max = ∑ Var j 
 h 2j 
 [6.20]
m =1  

donde CVarimax indica el criterio a maximizar. Se buscan aquellos pesos λ’jm que hacen
máximo el valor de CVarimax. Los términos que se suman son, para cada factor m, la varian-
za de los pesos elevados al cuadrado y normalizados.
En la Tabla 6.18 se muestra una matriz factorial (los factores rotados en las dos prime-
ras columnas) obtenida a partir de la rotación Varimax en un caso hipotético. Con la rota-
ción se ha maximizado la variabilidad de los pesos dentro de cada factor. Por ejemplo, ob-
serve que en el factor 1 hay ítems con peso alto (los ítems 1, 2 y 3) y otros (los ítems 4, 5
y 6) con peso prácticamente nulo.
Puede observarse que no se maximiza directamente la varianza de los pesos λ’jm, sino
que se establecen dos transformaciones:

1. Se elevan al cuadrado para que su signo no sea relevante, ya que se busca que haya pe-
sos altos en valor absoluto. De esta forma, tan alto es 0,598 como –0,598.
2. Se dividen por la comunalidad de la variable para que todas las variables tengan la
misma importancia en la rotación, independientemente del valor de su comunalidad. De
esta forma tan alto es un peso de 0,598 para un ítem con una comunalidad de 0,36 co-
mo un peso de 0,299 para un ítem con una comunalidad de 0,09 (en ambos casos se
236 Medición en Ciencias Sociales y de la Salud

consideraría un peso alto porque el 99,3% de la varianza común de ese ítem sería ex-
plicada por el factor).

Tabla 6.18. Objetivo de la rotación Varimax


Pesos en el Pesos en el
 (λ ′j1 ) 2   (λ ′j 2 ) 2 
Ítem
Factor 1 Factor 2 Comunalidad    
 h2   h2 
( λ ′j1 ) ( λ ′j 2 ) ( h 2j )  j   j 
X1 0,598 0,050 0,36 0,993 0,007
X2 –0,598 0,050 0,36 0,993 0,007
X3 0,598 –0,050 0,36 0,993 0,007
X4 0,050 0,598 0,36 0,007 0,993
X5 0,025 0,299 0,09 0,007 0,993
X6 0,050 0,598 0,36 0,007 0,993
Varianza  (λ ′j1 ) 2   (λ ′j 2 ) 2 
de los datos Var j  2  Var j  2 
en la co-
 hj   h j 
 
lumna = 0,243
= 0,243
Objetivo de El objetivo es que en cada factor m haya pe- El objetivo es que la varianza de
la rotación sos altos en valor absoluto (p. ej., –0,598) y los datos en estas columnas sea
VARIMAX pesos próximos a cero (p. ej., 0,050) máxima

Podemos constatar también que la varianza se maximiza cuando, para cada factor, unas
variables pesan alto (en valor absoluto y en relación a su comunalidad) y otras pesan bajo
o cero. Por tanto, se minimiza el número de variables que tienen saturaciones altas en el
factor y se facilita la interpretación de los factores. En el ejemplo, el valor para CVarimax
con esa matriz factorial rotada sería:

 (λ ′j1 ) 2   (λ ′j 2 ) 2 
cVari max = Var j   + Var j   = 0,243 + 0,243 = 0,486
 h 2j   h 2j 
   

Ejemplo 6.15. Rotación Varimax

Para el Test de Cordialidad, se obtuvo la matriz factorial inicial (no rotada) de saturacio-
nes que aparece a la izquierda en la Tabla 6.19. Según esta estructura, el primer factor
sería un factor general en el que pesan todos los ítems. En el segundo factor, los pesos
mayores son para los ítems 1, 2 y 3 (positivos) y para el ítem 4 (negativo). En principio,
esta estructura es difícil de interpretar. Después del proceso de rotación Varimax, se ob-
tiene una estructura más fácil de interpretar (Tabla 6.19, derecha).
Capítulo 6. Análisis Factorial Exploratorio 237

Observe que los pesos de las variables han cambiado. Por ejemplo, las nuevas satura-
ciones del ítem 5 serían 0,609 y 0,105, más distantes de las que se estimaron en la solu-
ción inicial. Por otro lado, la matriz factorial rotada es a la vez matriz de configuración y
matriz de estructura (porque al ser los factores independientes, el peso de cada ítem en un
factor coincide con su correlación con éste).

Tabla 6.19. Matriz factorial no rotada y matriz factorial rotada (VARIMAX)


Matriz de configuración/estructura
Matriz factorial no rotada
o Matriz de factores rotados
1 2 1 2
X1 0,397 0,301 0,162 0,471
X2 0,544 0,472 0,190 0,695
X3 0,332 0,491 0,002 0,593
X4 0,736 –0,365 0,815 0,106
X5 0,565 –0,251 0,609 0,105
X6 0,446 0,037 0,350 0,279
X7 0,455 0,158 0,290 0,384

Podemos comprobar que al rotar no cambian las comunalidades (ni las unicidades) y tam-
poco las correlaciones reproducidas según el modelo (ver Tabla 6.20).

Tabla 6.20. Comunalidad del ítem 1 y correlación reproducida entre los ítems 1 y 2
Matriz factorial (no rotada) Matriz de factores rotados
2 2 2
h1 0,397 + 0,301 = 0,248 0,1622 + 0,4712 = 0,248
r*12 0,397(0,544)+0,301(0,472) = 0,358 0,162(0,190)+0,471(0,695) = 0,358

Sin embargo, sí ha cambiado el porcentaje de varianza explicada por cada factor (pero no
el total de varianza explicada por los dos factores en su conjunto):

Tabla 6.21. Porcentaje de varianza explicado por los factores


Matriz factorial (no rotada) Matriz de factores rotados
Factor 1 26,135 18,630
Factor 2 11,114 18,619
% Total 37,249 37,249

Éste es un resultado general tras la rotación ortogonal: la varianza explicada por cada fac-
tor cambia después de la rotación, pero no la varianza explicada por el conjunto de facto-
res. Cuando se realice un AFE, se deben interpretar los datos de la solución rotada. En
nuestro caso, ambos factores explican aproximadamente el mismo porcentaje de la varian-
za total (un 18% cada uno).
238 Medición en Ciencias Sociales y de la Salud

Procedimientos de rotación oblicua


La diferencia entre los métodos de rotación ortogonal y oblicua es que en estos últimos los
factores pueden estar correlacionados. De nuevo, al rotar no cambian las comunalidades
(ni las unicidades) y tampoco las correlaciones reproducidas según el modelo. Sin embar-
go, la solución obtenida tras la rotación oblicua tiene tres características específicas que
deben tenerse en cuenta:

1. Los pesos λ ya no son las correlaciones de los ítems con los factores. Esas correlaciones
aparecen ahora en una nueva matriz, que es la matriz de estructura.
2. No es posible determinar la varianza explicada por cada factor, puesto que los factores
pueden estar correlacionados.
3. Debe tenerse en cuenta la correlación entre factores en su interpretación. En un test
puede interesar que los factores obtenidos estén correlacionados (p. ej., correlaciones
mayores que 0,3) precisamente para justificar la inclusión de todos los ítems en un
mismo test.

El método de rotación oblicua más utilizado es el Direct oblimin (Jennrich y Sampson,


1966). En este método se incluye un parámetro delta, δ, que determina la correlación en-
tre los factores rotados y que puede tomar valores iguales o inferiores a 0,8. Cuanto mayor
sea el valor de δ, mayor puede ser la correlación obtenida entre los factores. No se reco-
mienda el establecimiento de valores por encima de 0, pues puede forzar que los factores
estén “anormalmente” correlacionados. Valores de δ próximos a 0 permiten que los facto-
res estén correlacionados; los valores negativos fuerzan que la correlación entre factores
sea más baja. Valores de δ cercanos a – 4 darán lugar a soluciones prácticamente ortogo-
nales. Al caso particular de Direct Oblimin con parámetro δ = 0 se le denomina también
método Direct Quartimin.
Generalmente, la opción por defecto en la mayoría de los programas es fijar el valor de
δ a 0, siguiendo la recomendación de Jennrich (1979; citado en Ferrando y Anguiano,
2010). Si la estructura simple es unifactorial (cada ítem pesa en un factor), este valor per-
mite identificar dicha estructura simple. Por tanto, esta opción puede ser apropiada. Ma-
temáticamente (si se utiliza la rotación Oblimin con parámetro δ = 0) se busca minimizar
la suma de productos cruzados de los pesos (elevados al cuadrado y divididos por las co-
munalidades de las variables) entre factores:

M M  J  (λ ′ ) 2  (λ ′jm′ ) 2 
 
c Ob lim in,δ =0 = ∑∑ ∑   jm
  h 2j
m =1 m′ =1 j =1 
 h 2  [6.21]
m′ ≠ m
 j 

Al minimizar la suma de productos cruzados, se fuerza que los ítems tiendan a pesar en
factores distintos. Por ejemplo, se obtendría el valor mínimo de COblimin, (que es 0) si para
cada par de factores podemos encontrar que todas las variables pesan cero en al menos
uno de ellos. Es lo que ocurre en el caso hipotético que se describe en la Tabla 6.22.
Capítulo 6. Análisis Factorial Exploratorio 239

Tabla 6.22. Objetivo de la rotación Oblimin (δ = 0)


 λ ′j21   λ ′j22   λ ′j21  λ ′j22 
Ítem λ ′j1 λ ′j 2 h 2j       
 h2   h2   h 2j  h 2j 
 j   j    
X1 0,600 0,000 0,36 1 0 0
X2 –0,600 0,000 0,36 1 0 0
X3 0,600 0,000 0,36 1 0 0
X4 0,000 0,600 0,36 0 1 0
X5 0,000 0,300 0,09 0 1 0
X6 0,000 0,600 0,36 0 1 0
J  λ ′j21  λ ′j22 
Suma de
productos ∑  
 h 2j  h 2j 

cruzados j =1   
=0
Objetivo de El objetivo es que para cualquier
la Rotación par de factores se cumpla que todas El objetivo es que la suma de productos
las variables pesen cero en al menos cruzados sea mínima
OBLIMIN uno de ellos

Ejemplo 6.16. Rotación Oblimin

Al aplicar el método Direct Oblimin a los datos del test de Cordialidad, se obtiene la ma-
triz factorial rotada (matriz de configuración) que aparece en la Tabla 6.23. La solución
rotada es más sencilla de interpretar porque los ítems tienen saturaciones altas en un factor
y bajas en el otro. La correlación entre factores es 0,4, que indica que las personas que
tienden a ser cordiales y afectuosos en el trato también suelen confiar en los demás.

Tabla 6.23. Matriz factorial (no rotada) y Matriz factorial rotada o de configuración
Matriz factorial Matriz de configuración
1 2 1 2
X1 0,397 0,301 0,060 0,471
X2 0,544 0,472 0,036 0,706
X3 0,332 0,491 –0,139 0,635
X4 0,736 –0,365 0,842 –0,055
X5 0,565 –0,251 0,623 –0,013
X6 0,446 0,037 0,306 0,226
X7 0,455 0,158 0,217 0,351
240 Medición en Ciencias Sociales y de la Salud

Al utilizar un método de rotación oblicua los pesos de la matriz de configuración ya no


coinciden con las correlaciones entre los ítems y los factores. Estas correlaciones se mues-
tran en la matriz de estructura (ver Tabla 6.24). Observe que la mayoría de los ítems co-
rrelacionan con el factor que no miden. Por ejemplo, el ítem 4 no mide el factor 2,
λ42 = –0,055, pero la puntuación en ese ítem sí correlaciona con el factor 2, ρ42 = 0,282.
Esto ocurre porque ese ítem mide el factor 1, que correlaciona con el factor 2,
ρ F1F2 = 0,4 .

Tabla 6.24. Matriz de estructura


Matriz de estructura
1 2
X1 0,248 0,495
X2 0,318 0,720
X3 0,115 0,579
X4 0,820 0,282
X5 0,618 0,236
X6 0,396 0,348
X7 0,358 0,438

Recomendaciones

Si aceptamos el criterio de parsimonia establecido en la estructura simple, los métodos de


rotación oblicua resultan más adecuados que los métodos de rotación ortogonal. La res-
tricción de que los factores correlacionen cero es claramente arbitraria y poco realista en
múltiples modelos teóricos (p. ej., en el estudio de las aptitudes). Por ello, nuestra reco-
mendación es que se comience utilizando un método de rotación oblicua (p. ej., Oblimin).
Si se obtienen correlaciones bajas entre factores, puede aplicarse adicionalmente un méto-
do de rotación ortogonal e interpretar esta solución. En este caso, cabe recordar que los
métodos de rotación ortogonal (p. ej., Varimax) tienen ciertas ventajas:

1. Permiten obtener qué proporción de varianza explica cada factor.


2. La comunalidad se puede obtener sumando los pesos al cuadrado, porque la contribu-
ción de cada variable es independiente.
3. La matriz de configuración coincide con la matriz de estructura (i. e., la correlación de
cada factor con cada variable coincide con el peso λ).
4. Los factores no se solapan y, por tanto, la presencia de otros factores no afecta a los pe-
sos de predicción de un factor concreto (por ejemplo, eliminar un factor de la solución
no cambiará los pesos en el resto de los factores).
Capítulo 6. Análisis Factorial Exploratorio 241

Puntuaciones factoriales por el método de ponderación


simple (o de la suma)
Obtenida una solución factorial definitiva, es posible calcular la puntuación de los evalua-
dos en cada uno de los factores. Puesto que las puntuaciones Fm no son observables, sólo
podemos obtener aproximaciones o estimaciones, a las que denominaremos F̂m . Las pun-
tuaciones factoriales en cada factor se estiman como una suma ponderada de las puntua-
ciones en los ítems, Xj, expresadas en puntuaciones típicas:

J
F̂m = ∑w
j =1
jm X j [6.22]

La obtención de los pesos w no está exenta de dificultades y existen distintos procedi-


mientos, cada uno con sus propias ventajas e inconvenientes (ver Apéndice 6.7). Los dos
problemas principales son:

1. Que al calcular la puntuación factorial F̂m se suman las puntuaciones de las variables y
es inevitable que su parte específica (o relacionada con otros factores distintos de F̂m )
se añada a la puntuación factorial.
2. Que, de nuevo, existe un problema de indeterminación factorial9. La información para
estimar las puntuaciones factoriales está integrada en la matriz de estructura, que con-
tiene las correlaciones entre las variables observadas Xj y los factores Fm. Guttman
(1955) demostró que existen infinitos conjuntos de pesos W y puntuaciones F que
darán lugar a la misma matriz de estructura.

El método más sencillo (y el más utilizado) para obtener las puntuaciones factoriales es el
de la suma o ponderación simple. Consiste en dar un peso de 1 a las variables que pesan
directamente en el factor, de –1 a las variables que pesan negativamente y un peso de 0 si
la variable no pesa en el factor. Se deben tomar algunas decisiones:

1. El criterio para decidir si una variable pesa o no en el factor; este criterio puede variar
(p. ej., pesos en valor absoluto superiores a 0,3 ó 0,4). Algunos autores establecen que
si una variable pesa en dos o más factores se considere sólo en el factor donde más pe-
sa. Este modo de proceder no está justificado, por lo que no parece muy recomendable.
2. La matriz de pesos elegida para tomar las decisiones. Puede utilizarse la matriz de es-
tructura o la matriz de configuración. Los resultados de Grice (2001a) sugieren que es
preferible la matriz de configuración para seleccionar los ítems que deben pesar en uno
u otro sentido. Téngase en cuenta que, si los factores están correlacionados y se utiliza
la matriz de estructura, las puntuaciones factoriales estimadas estarán excesivamente
correlacionadas.

9
No debe confundirse esta indeterminación factorial con la de la rotación.
242 Medición en Ciencias Sociales y de la Salud

3. Si se suman las Xj expresadas en puntuaciones directas o en puntuaciones típicas. Si


no difieren excesivamente las desviaciones típicas de las variables (p. ej., se trata de
ítems con una misma escala de respuesta) puede optarse por la primera opción, más
sencilla.

Ejemplo 6.17. Puntuaciones factoriales por el método de la ponderación simple

En la Tabla 6.25 se muestra cómo asignar los pesos mediante este método, a partir de la
información contenida en la matriz de configuración (test de Cordialidad).

Tabla 6.25. Cálculo de los pesos para hallar las puntuaciones factoriales (método de la suma)
Pesos para calcular
Matriz de configuración las puntuaciones factoriales
por el método de la suma
1 2 1 2
X1 0,060 0,471 0 1
X2 0,036 0,706 0 1
X3 –0,139 0,635 0 1
X4 0,842 –0,055 1 0
X5 0,623 –0,013 1 0
X6 0,306 0,226 1 0
X7 0,217 0,351 0 1

Por ejemplo, en el Factor 1 saturan con pesos superiores a 0,3 los ítems 4, 5 y 6. Así, la
puntuación en el Factor 1 para un evaluado se obtendría:

F̂1 = X 4 + X 5 + X 6

La puntuación en el Factor 2 se obtendría como:

Fˆ2 = X 1 + X 2 + X 3 + X 7

Otras decisiones importantes en el AFE


Al realizar un estudio de AFE debemos tomar algunas decisiones importantes, previas a la
aplicación de la técnica. El diseño del estudio determinará el grado de generalización de
los resultados que podamos encontrar. En este sentido, dos decisiones importantes se re-
fieren al tamaño de la muestra y a la selección de las variables.
Capítulo 6. Análisis Factorial Exploratorio 243

Tamaño y características de la muestra


Un aspecto obvio a considerar es que el tamaño de la muestra de personas debe ser sufi-
ciente para que los resultados sean estables. Como en cualquier análisis estadístico, el ta-
maño muestral determina la estabilidad de los resultados obtenidos. Si la muestra es pe-
queña (menos de 100 personas) los resultados obtenidos en la matriz factorial rotada serán
altamente inestables. Esto ocurre porque las correlaciones en una muestra de menos de
100 personas pueden oscilar bastante (por efecto del azar en la selección de la muestra).
Una muestra de tamaño 100 implica un error típico para la correlación de 0,10, mientras
que una muestra de tamaño 400 implica un error típico de 0,05.
Además, el efecto de la variabilidad muestral puede aumentar conforme se incrementa
el número variables o ítems. Por ello, algunos criterios de recomendación se basaron ini-
cialmente en la ratio de personas por variable. Las recomendaciones variaban desde 3 per-
sonas por variable hasta 20. Se ha comprobado que la utilidad de estas reglas basadas en
el tamaño muestral o en la ratio personas/variables es relativa, y que deben tenerse en
cuenta otros aspectos. Resulta evidente que, fijado un número de factores, es mejor tener
más variables que menos. Diversos autores (Guadagnoli y Velicer, 1988; MacCallum,
Widaman, Preacher y Hong, 2001; MacCallum, Widaman, Zhang y Hong, 1999) han
mostrado que resultan importantes aspectos como el tamaño de las comunalidades de las
variables y el número de variables por factor (J/M): cuanto mayor sea el número de varia-
bles por factor y mayor su coeficiente de fiabilidad, más unívocamente se delimita el sig-
nificado de los factores. MacCallum, Widaman, Zhang y Hong (1999) encuentran que si
las comunalidades están en torno a 0,5 y el número de variables por factor es adecuado (p.
ej., 6), muestras de 100 ó 200 personas pueden ser suficientes. Si las comunalidades son
bajas o el número de variables por factor es pequeño (p. ej., 3 ó 4 variables por factor), la
muestra debería ser mayor de 300 (o de 400, para Gorsuch, 2003) e incluso de 500 si se
dan las peores condiciones (MacCallum, Widaman, Zhang y Hong, 1999).
En realidad, en un estudio es difícil anticipar cuál será la comunalidad de las variables
o, en todo caso, se puede anticipar que las comunalidades sean bajas (p. ej., en el AFE de
ítems), por lo tanto hay que intentar mantener alto el número de variables por factor.
Mundfrom, Shaw y Ke (2005) recomiendan una ratio de 7 variables por factor. En ese ca-
so, incluso con muestras pequeñas y comunalidades entre 0,2 y 0,4, se encontraban resul-
tados aceptables con muestras de 180 personas. Por el contrario, con 3 variables por factor
y bajas comunalidades, el mínimo tamaño muestral requerido fue superior a 900 personas
para soluciones de dos o más factores.
A nivel orientativo, en la Tabla 6.26 se muestran los tamaños muestrales necesarios
para una estructura con factores independientes, estimados en un estudio de simulación.
Observe que, manteniendo constante la ratio de variables por factor (J/M), un incremento
en el número de factores requiere un incremento en el tamaño de la muestra. También se
requiere mayor tamaño a medida que se reduce el número de variables que pesan en cada
factor. Estos datos deben considerarse sólo orientativos, pues los resultados dependen de
las condiciones simuladas y del criterio utilizado para medir la recuperación de la estruc-
tura. Por ejemplo, en algunas casillas los tamaños muestrales requeridos son menores que
100. Sin embargo, como ya hemos mencionado, muestras de menos de 100 sujetos no son
recomendables en ningún caso.
244 Medición en Ciencias Sociales y de la Salud

Tabla 6.26. Mínima muestra necesaria para una recuperación excelente de la estructura factorial (de
forma que en el 95% de las réplicas, el promedio de los coeficientes de congruencia entre los factores
de la estructura factorial verdadera y la estimada fueran mayores que 0,98) (Adaptado de Mundfrom,
Shaw y Ke, 2005)
Variabilidad en las
Altas comunalidades Bajas comunalidades
comunalidades
(0,6-0,8) (0,2-0,4)
(0,2-0,8)

Nº de factores Nº de factores Nº de factores


variables
1 2 3 4 1 2 3 4 1 2 3 4
/ factor
3 (*) 320 600 800 110 710 1300 1400 150 900 1700 2600
4 (*) 150 260 350 (*) 220 350 700 (*) 270 450 800
5 (*) (*) 130 260 (*) 130 200 300 (*) 150 220 370
6 (*) (*) (*) 160 (*) (*) 140 180 (*) 120 160 190
7 (*) (*) (*) 110 (*) (*) 105 160 (*) (*) 100 180
8 (*) (*) (*) (*) (*) (*) (*) (*) (*) (*) 100 100
9 (*) (*) (*) (*) (*) (*) (*) (*) (*) (*) (*) 110
10 (*) (*) (*) (*) (*) (*) (*) (*) (*) (*) (*) (*)
11 (*) (*) (*) (*) (*) (*) (*) (*) (*) (*) (*) (*)
12 (*) (*) (*) (*) (*) (*) (*) (*) (*) (*) (*) (*)
Nota (*): el tamaño muestral requerido es menor que 100.

Los estudios de validación cruzada (realizados en muestras distintas) pueden aportar tam-
bién información acerca de la estabilidad de la estructura factorial (Thompson, 2004). La
representatividad de la muestra es otro aspecto fundamental. La muestra debe ser repre-
sentativa de la población a la que se pretenden generalizar los resultados. En este sentido,
es muy importante que haya variabilidad en las dimensiones medidas. Por ejemplo, consi-
deremos que se analiza mediante AFE la estructura interna de una prueba de aptitud espa-
cial en una muestra de estudiantes de Ingeniería; en esta muestra puede haber un impor-
tante efecto de atenuación de las correlaciones entre ítems por restricción de rango, lo que
llevaría a decisiones erróneas sobre la estructura interna del test, en caso de que se preten-
diera aplicarlo a otro tipo de muestras.

Selección de las variables


Otro aspecto importante en el diseño de un estudio factorial es la selección de las varia-
bles (tareas o ítems) a analizar. La estructura factorial puede modificarse en función del
número y la diversidad de las variables introducidas. Por ejemplo, en un AFE sobre medi-
das de Memoria de Trabajo (MT) distintos investigadores pueden incluir tests diferentes.
Un primer investigador puede incluir sólo tareas de contenido viso-espacial; otro selec-
ciona una tarea viso-espacial, otra de contenido verbal y otra de contenido numérico; un
tercero, varias tareas para cada contenido. Al realizar el AFE, cada uno obtendrá resulta-
dos distintos. Es posible que el primero obtenga un factor de MT viso-espacial, el segundo
un factor de MT general y, el tercero, un factor general y varios específicos. En este ejem-
plo se ilustran algunas consideraciones importantes sobre las variables a incluir en un
Análisis Factorial Exploratorio:
Capítulo 6. Análisis Factorial Exploratorio 245

1. La selección de tareas determina el nivel de generalidad de las variables latentes. El


primer y el segundo investigador obtienen un único factor de MT, pero la naturaleza
del factor obtenido en cada estudio es distinta.
2. Un factor sólo puede aparecer si se incluyen variables en el AFE que midan ese factor.
En el ejemplo anterior, es evidente que el primer investigador no puede obtener el fac-
tor general y el segundo investigador no puede obtener el factor específico.
3. Una variable puede ser indicadora de distintas variables latentes, en función del conjun-
to de variables adicionales consideradas en el análisis. Por ejemplo, la proporción de
varianza común que compartiría con las otras pruebas el test de MT viso-espacial es
distinta en cada uno de los estudios.

Todo lo anterior sirve para resaltar la importancia que tiene plantear estudios sobre evi-
dencias de validez de contenido (como se enfatizó en el tema 5), previos a la aplicación de
un test. Esos estudios previos pueden servir para descubrir aspectos relevantes que deben
considerarse para garantizar la representación del dominio, y que de otra forma pueden ser
ignorados.

Recomendaciones en cuanto a la selección de la muestra y de las variables


Combinando los aspectos de tamaño muestral y de selección de variables, y siguiendo en
parte las recomendaciones de Ferrando y Anguiano (2010), deberíamos considerar:

1. No utilizar nunca muestras de menos de 200 personas.


2. Utilizar al menos 4 variables por factor (con pesos sustanciales en el mismo) o, si se
trata de un AFE de ítems, al menos 7 variables por factor.
3. Contrastar modelos teóricos de pocos factores.
4. A ser posible, utilizar variables marcadoras, por ejemplo ítems que pesan en un único
factor conocido y que han sido identificados en estudios previos.
5. Evitar la inclusión de ítems redundantes, ya que éstos suelen dar problemas de ajuste
del modelo (p. ej., presencia de residuos altos).
6. Para la selección de los ítems, atender a la evidencia sobre la validez basada en el con-
tenido.
246 Medición en Ciencias Sociales y de la Salud

Apéndice 6.1. Componentes Principales

Concepto de autovalor y autovector en el contexto del AF

Los conceptos de autovector y autovalor provienen del campo del álgebra lineal. Su comprensión
técnica está más allá de los objetivos de este capítulo, pero es fácil ilustrar a qué se denomina auto-
vector y autovalor en el contexto del AFE.
Considere un conjunto de J variables Xj; las relaciones entre las variables Xj se expresan en la
matriz de varianzas-covarianzas S. En el álgebra lineal se conoce cómo descomponer un conjunto de
puntuaciones Xj observadas en otro nuevo conjunto de J variables predictivas P1, …, Pm,…, PJ in-
dependientes (p. ej., rP1P2 = 0) y ordenadas por su importancia predictiva, tales que se cumpla que
cualquier puntuación observada Xj sea función de esas nuevas variables P:

J
[6.23]
Xj = ∑ω
m =1
jm Pm

donde ωjm es el peso de la variable Xj en la variable predictiva Pm; puesto que las variables predicto-
ras Pm son independientes, los elementos de la matriz de varianzas y covarianzas S se deducen per-
fectamente de los pesos ω y de las varianzas de las J variables Pm:

M
[6.24]
S X2 j = ∑ω
m =1
2 2
jm S Pm

M
[6.25]
SX
j X j'
= ∑ω
m =1
2
jmω j ' m S Pm

Para que el modelo [6.25] esté identificado, los pesos deben satisfacer algunas restricciones10:

∑ω 2
jm = 1 , para cualquier m [6.26]
j =1
J

∑ω 2
jm = 1 , para cualquier j [6.27]
m =1
J J

∑∑ ω jmω j 'm = 0 , para cualquier m ( j ≠ j’) [6.28]


j =1 j '=1
J J

∑ ∑ω jmω jm ' = 0 , para cualquier j (m ≠m’) [6.29]


m =1 m '=1

Además, dadas las restricciones anteriores, la importancia predictiva de las variables P está relacio-
nada con su varianza. Así pues, las nuevas variables P están ordenadas por el tamaño de su varianza
(S2P1 > S2P2 >…> S2PJ); P1 es la variable más predictiva y tiene la máxima varianza posible que pue-

10
Matricialmente, Ω’Ω = I, siendo Ω la matriz de pesos de dimensiones J x J e I la matriz identidad.
Capítulo 6. Análisis Factorial Exploratorio 247

de tener una variable construida de esa manera; P2 es la variable que tiene la máxima varianza des-
pués de P1, etc.
Pues bien, si se crean las variables P de esa manera, la varianza de cada variable predictiva Pm
(S 2Pm) coincide con lo que en álgebra lineal se denomina autovalor m de la matriz S, y nos referire-
mos a éste como γ m. El vector de pesos de las variables predictivas Pm coincide con lo que en
álgebra lineal se llama autovector m de la matriz S y nos referiremos a éste como ωm{ωm: ω1m, ω2m,
…, ωjm,…, ωJm}.

Método de Componentes Principales


Observe que el modelo [6.23] es muy similar al modelo de la ecuación fundamental del AFE [6.1].
En la ecuación [6.23] las variables P no están estandarizadas (algo que hemos venido asumiendo pa-
ra las variables F). Si estandarizamos las variables P y llamamos F a la variable P estandarizada, se
obtendría el siguiente modelo, casi idéntico al de la ecuación [6.1]:

J
[6.29]
Xj = ∑λ
m =1
jm Fm

donde:

λ jm = ω jm S Pm = ω jm γ m [6.30]

Para algunos autores, el modelo de la ecuación [6.23] puede utilizarse para estimar el modelo facto-
rial. Se obtienen los autovalores (γ) y autovectores (ωm) de la matriz R de correlaciones11. Conoci-
dos éstos, se obtienen los pesos definitivos (λ) mediante la ecuación [6.30]. Aplicando el modelo de
la ecuación [6.23] el investigador obtiene J factores que predicen el 100% de la varianza. Como sa-
bemos, el objetivo del AFE es predecir un conjunto de J variables a partir de un conjunto menor de
M factores (donde M < J). Para ello el investigador selecciona las primeras M variables Pm, las más
predictivas, a las que denomina componentes; de forma que el modelo quedaría como:

M
[6.31]
Xj = ∑λ
m =1
jm Fm

A este procedimiento de estimación de los pesos se le denomina Componentes Principales (CP). La


técnica de CP es una de las más utilizadas como procedimiento de AFE por su sencillez y porque
constituye la técnica por defecto de programas como el SPSS. Sin embargo, su uso supone un grave
error, ya que existe una diferencia importante entre las ecuaciones [6.1] y [6.31]. En la ecuación
[6.31] no se distingue entre factores comunes y únicos (observe que ha desaparecido el término Ej
de la ecuación); esto significa asumir que las variables no tienen parte específica ni error de medida
(algo que nunca es cierto) y puede llevar a resultados erróneos en la estimación de los parámetros.
Por ejemplo, suponga que aplica el modelo de un factor (M = 1). En este caso, aplicar CP es equiva-
lente a buscar los parámetros λ que hacen que las expresiones mostradas en la Tabla 6.27 se
aproximen a cero. Observe las diferencias en los valores diagonales de la Tabla 6.12 y de la Tabla
6.27. En el método CP se asume que los parámetros ψj son 0 para todas las variables y por tanto,
implícitamente, se modifican las ecuaciones correctas del modelo (las de la Tabla 6.12).

11
Si las variables Xj estandarizadas, S es la matriz de correlaciones R.
248 Medición en Ciencias Sociales y de la Salud

Tabla 6.27. Parámetros a estimar y expresiones para la estimación del modelo de un factor (CP)
Parámetros:
λ11 , λ 21 , λ31 , λ 41 , λ51 , λ61 , λ71
Expresiones: Se buscan parámetros que hagan que el valor de cada expresión se aproxime a 0
2
1 − λ11
0,328 − λ 21λ11 1 − λ 221
2
0,332 − λ 31λ11 0,415 − λ 31λ 21 1 − λ 31
0,188 − λ 41λ11 0,231 − λ 41λ 21 0,065 − λ 41λ 31 1 − λ 241
2
0,152 − λ 51λ11 0,170 − λ 51λ 21 0,089 − λ 51λ 31 0,512 − λ 51λ 41 1 − λ 51
2
0,174 − λ 61λ11 0,277 − λ 61λ 21 0,126 − λ 61λ 31 0,316 − λ 61λ 41 0,217 − λ 61λ 51 1 − λ 61
2
0,223 − λ 71λ11 0,348 − λ 71λ 21 0,175 − λ 71λ 31 0,258 − λ 71λ 41 0,236 − λ 71λ 51 0,257 − λ 71λ 61 1 − λ 71

En términos de interpretación (decidir qué ítems pesan en cada factor) las diferencias con otros
métodos suelen ser pequeñas, dado que sólo se modifican las ecuaciones de la diagonal. Sin embar-
go, en el método CP las saturaciones, las comunalidades y las correlaciones residuos serán artifi-
cialmente mayores, pudiendo dar una idea equivocada del modelo (p. ej., sobrestimando el poder
explicativo de los factores). Por otro lado, las diferencias entre CP y otros métodos se reducen cuan-
to mayor es el número de variables y/o mayores las comunalidades (Henson y Roberts, 2006): cuan-
to mayor el número de variables, menor es la proporción de las ecuaciones en la diagonal (p. ej., pa-
ra 4 variables, los valores en la diagonal suponen un 40% de los elementos no redundantes, mientras
que con 10 variables suponen un 18%); cuanto mayores son las comunalidades más correcto es el
supuesto de que ψj = 0. Aun dicho esto, es preferible el uso de otros métodos de estimación.

Ejemplo 6.18. Matriz factorial inicial por CP

Para los datos de la Tabla 6.2, los autovalores se muestran en la Tabla 6.28.

Tabla 6.28. Autovalores de la matriz R


Autovalores
% de la varianza
Componentes Total % de la varianza
acumulado
1 2,469 35,265 35,265
2 1,272 18,174 53,439
3 0,831 11,874 65,313
4 0,742 10,603 75,916
5 0,686 9,797 85,713
6 0,539 7,705 93,418
7 0,461 6,582 100,000

En la solución inicial los factores aparecen ordenados por su importancia predictiva, lo que es carac-
terístico de la mayor parte de los métodos. Cada autovalor indica la varianza que tendría cada uno
de los J componentes principales, P, antes de ser estandarizados (γ1 = 2,469; γ2 = 1,272,…; γJ =
0,461). La suma de las varianzas de los componentes sin estandarizar es igual a la suma de las va-
Capítulo 6. Análisis Factorial Exploratorio 249

rianzas de las variables Xj, que en este caso es 7. En la segunda columna aparece el porcentaje de va-
rianza total explicado por el componente [γm100/J]. El primer Componente explica el 35,265% de la
varianza total. Entre los dos primeros componentes se explica el 53,439% de la varianza. Ésta es una
sobrestimación de la proporción de varianza total explicada (ver Ejemplo 6.5).
En la Tabla 6.29 se muestra la matriz factorial inicial con los pesos λ de las variables en los
componentes extraídos, que se denomina Matriz de Componentes. Si el investigador extrajera dos
componentes obtendría la parte izquierda de la tabla; puede verse que esos pesos son excesivamente
altos, comparándolos con los de la matriz factorial no rotada obtenida por ML (ver Tabla 6.19).

Tabla 6.29. Matriz de Componentes no rotada (pesos λ)


Matriz de
Componentes Ignorados
Componentes
1 2 3 4 5 6 7
X1 0,568 0,370 0,324 0,137 0,643 –0,023 –0,052
X2 0,687 0,365 –0,132 –0,060 –0,262 –0,519 –0,192
X3 0,506 0,607 0,233 0,092 –0,389 0,356 0,183
X4 0,631 –0,545 0,196 0,066 –0,034 –0,207 0,466
X5 0,570 –0,549 0,388 –0,089 –0,154 0,179 –0,399
X6 0,567 –0,187 –0,553 0,548 0,039 0,171 –0,075
X7 0,611 –0,008 –0,398 –0,631 0,160 0,197 0,074

Apéndice 6.2. Otros métodos de extracción

Método de Ejes Principales

El método de Ejes Principales (EP) es muy similar al método de CP pero proporciona resultados
más adecuados. Primero se obtiene la matriz de correlaciones reducida (R*), que es igual que la ma-
triz de correlaciones observadas salvo en un punto: se sustituyen los valores de la diagonal por una
estimación de las comunalidades de cada variable. De esta forma se descuenta de las varianzas de
las variables la parte que se debe a los factores específicos y que no se predice por los pesos
λ. Puesto que no se conocen las comunalidades de las variables, se establece un procedimiento itera-
tivo para su estimación:

1. Como estimación inicial de la comunalidad puede utilizarse la correlación múltiple al cuadrado12.


Una vez obtenida la matriz R*, se obtienen los autovalores (γm) y autovectores (ωm) de esa ma-
triz; después, se obtienen los pesos λ de los M factores que haya decidido extraer el investigador
(aplicando la ecuación [6.30]).

12
La correlación múltiple al cuadrado indica la proporción de varianza de una variable Xj que se puede predecir
a partir de las otras variables Xj y, por tanto, es una estimación de la proporción de varianza de una variable que
es común a las demás variables.
250 Medición en Ciencias Sociales y de la Salud

2. A partir del modelo inicial obtenido en el paso anterior, se obtienen nuevas comunalidades, se
obtiene una nueva matriz R* y se vuelven a obtener los pesos λ con esa nueva matriz. Se repite
el proceso hasta que no haya cambios en los pesos λ en iteraciones sucesivas. Las comunalidades
y parámetros λ obtenidos en la última iteración son considerados como definitivos.

Aplicar EP es muy similar a buscar los parámetros λ que hacen que las ecuaciones mostradas en la
Tabla 6.30 se aproximen a cero. Esta tabla es similar a la mostrada en la Tabla 6.19, lo que quiere
decir que EP es un método adecuado de AF.

Tabla 6.30. Parámetros a estimar y expresiones para la estimación del modelo de un factor (EP)
Ecuaciones: Se buscan parámetros que hagan que el valor de cada expresión se aproxime a 0
2
1 − λ11 − ψˆ1
0,328 − λ 21λ11 1 − λ 221 − ψˆ 2
2
0,332 − λ 31λ11 0,415 − λ 31λ 21 1 − λ 31 − ψˆ 3
0,188 − λ 41λ11 0,231 − λ 41λ 21 0,065 − λ 41λ 31 1 − λ 241 − ψˆ 4
2
0,152 − λ 51λ11 0,170 − λ 51λ 21 0,089 − λ 51λ 31 0,512 − λ 51λ 41 1 − λ 51 − ψˆ 5
2
0,174 − λ 61λ11 0,277 − λ 61λ 21 0,126 − λ 61λ 31 0,316 − λ 61λ 41 0,217 − λ 61λ 51 1 − λ 61 − ψˆ 6
2
0,223 − λ 71λ11 0,348 − λ 71λ 21 0,175 − λ 71λ 31 0,258 − λ 71λ 41 0,236 − λ 71λ 51 0,257 − λ 71λ 61 1 − λ 71 − ψˆ 7

Método de Mínimos Cuadrados no Ponderados (ULS)


En el método ULS, se buscan aquellos parámetros que minimizan directamente las discrepancias en-
tre los elementos de la matriz de correlaciones observadas y los elementos de la matriz de correla-
ciones reproducida. Por ejemplo, para el modelo de un factor (ver tabla 6.30):

F (λ 1 ,..., λ m ,...λ M ,ψ 1 ,...,ψ j ,...ψ J ) =


J J J
= ∑j
(1 −λ2j1 − ψ j ) 2 + ∑∑ (r
j =1 j '=1
jj ' − λ j1λ j '1 ) 2
[6.32]

j '≠ j

La diferencia principal entre ULS y EP es que en ULS se estiman los parámetros ψ sin iteraciones.
Primero se estiman las unicidades. Conocidas las unicidades, se obtienen las comunalidades y, por
tanto, la matriz R* definitiva. El resto del proceso es similar al método EP pero sin iteraciones, pues
las comunalidades estimadas en el primer paso de ULS son definitivas. Se obtienen los autovalores
y autovectores de la matriz de correlaciones reducida, R*, y se obtienen los pesos λ de los M facto-
res que haya decidido extraer el investigador. ULS se considera un método más correcto que EP,
aunque ambos suelen proporcionar resultados casi idénticos.

Método de Máxima Verosimilitud (ML)

Cómo su propio nombre indica, mediante el procedimiento ML se obtienen aquellos parámetros que
maximizan la verosimilitud de las respuestas en la muestra:

L( X; λ 1 ,..., λ m ,...λ M ,ψ 1 ,...,ψ j ...ψ J ) [6.33]


Capítulo 6. Análisis Factorial Exploratorio 251

donde X es la matriz I x J con las respuestas de las personas. Bajo el supuesto de que las variables
siguen una distribución multivariada normal, la función anterior equivale a:

L ≡ L(R | λ 1 ,..., λ m ,...λ M ,ψ 1 ,...,ψ j ...ψ J ) [6.34]

Donde R es la matriz de correlaciones que contiene toda la información necesaria para la estimación
y L sigue una distribución conocida (la distribución de Wishart).
La diferencia principal entre ML y ULS es que en ML se tiene en cuenta que la muestra de per-
sonas proviene de una población. En ML se busca qué valor deben tener los parámetros del modelo
poblacional para maximizar la verosimilitud de los datos en la muestra. Para ello se hacen supuestos
sobre la distribución de las variables en la población. En ULS se buscan directamente los paráme-
tros que minimizan los residuos en la muestra.
Los procedimientos de estimación son muy similares a los utilizados para ULS. Primero se es-
timan las unicidades, ya que los pesos en cada factor (λm) y las unicidades (ψj) se pueden estimar
independientemente. Conocidas las unicidades, existe un procedimiento para encontrar los pesos λm
que maximizan la ecuación [6.34]. Primero, se re-escalan las variables Xj para que sus unicidades
sean 1. Para re-escalar la variable j, se divide por la raíz de su unicidad:

Xj
X *j = [6.35]
ψ j

Posteriormente, se obtiene la matriz de varianzas-covarianzas S entre las variables X*j. Finalmente,


se resta 1 de cada valor de la diagonal de la matriz S para construir una nueva matriz S, S*. Esto es
análogo a lo que se hacía en los procedimientos ULS o EP; se descuenta de las varianzas de las va-
riables X*j la parte que se debe a los factores específicos y que no se predice por los pesos λ (re-
cuerde que 1 es el valor de unicidad de las variables X*j). El resto del proceso es similar al descrito
para ULS. Se obtienen los autovalores y autovectores de la matriz S* y se obtienen los pesos λ de
los M factores que haya decidido extraer el investigador. En el caso de ML, los pesos para las varia-
bles Xj se obtienen como:

λ jm = ψ j ω jm γ m [6.36]

donde γm y ωm son, respectivamente, el autovalor y el autovector m de la matriz S*.


Por tanto, y tal como recuerdan Ferrando y Anguiano (en prensa), utilizar el método ML es
equivalente a minimizar las correlaciones parciales entre variables (las correlaciones entre variables
después de restar el efecto de los factores comunes). Cada correlación parcial no es más que el resi-
duo “estandarizado” (dividido por la raíz del producto de las varianzas específicas de las variables):

res jj '
rX j X j ' , F 1F 2... = [6.37]
ψ jψ j '

Por esa razón, ULS y ML proporcionarán generalmente resultados muy parecidos.


252 Medición en Ciencias Sociales y de la Salud

Ejemplo 6.19. Matriz factorial no rotada obtenida por distintos métodos


(EP, ULS y ML)

Para los datos de la Tabla 6.2, las matrices factoriales (no rotadas) obtenidas mediante los distintos
métodos aparecen en la Tabla 6.31. Los valores son muy similares cuando se utilizan ULS y EP. El
patrón de pesos es muy similar al que se obtenía utilizando CP (ver Tabla 6.29). Sin embargo, al uti-
lizar ULS, EP o ML se obtienen valores λ sensiblemente inferiores para los pesos factoriales (lo que
ilustra que en el método CP se sobrestiman los pesos λ).

Tabla 6.31. Matriz factorial no rotada obtenida por los métodos EP, ULS y ML
Matriz factorial Matriz factorial Matriz factorial
(EP) (ULS) (ML)
1 2 1 2 1 2
X1 0,451 0,229 0,451 0,229 0,397 0,301
X2 0,625 0,351 0,624 0,351 0,544 0,472
X3 0,420 0,424 0,420 0,425 0,332 0,491
X4 0,644 –0,496 0,645 –0,497 0,736 –0,365
X5 0,504 –0,351 0,503 –0,350 0,565 –0,251
X6 0,444 –0,058 0,444 –0,058 0,446 0,037
X7 0,484 0,044 0,484 0,045 0,455 0,158

Apéndice 6.3. Métodos adicionales para decidir


el número de factores

El método MAP (Minimum Average Partial Correlation)

En el método MAP (Velicer, 1976) se calcula la matriz de correlaciones parciales (las correlaciones
entre variables después de restar el efecto de los factores comunes):

rX j X j ' , F 1F 2... = res jj ' ψ jψ j '

Para un número concreto de factores (m: 1, 2, 3…) se calcula el promedio de las correlaciones par-
ciales (al cuadrado). El número de factores a retener es el valor m en el que el promedio alcanza un
mínimo. La lógica es que cada nuevo factor que explica las covarianzas entre ítems reduce los resi-
duos. Cuando un factor no explique demasiada varianza común, el numerador (los residuos) no se
reducirá, pero sí el denominador (las varianzas específicas de las variables), con lo que el indicador
comenzará a aumentar. Existen macros de SPSS y SAS que permiten hacer uso de este efectivo pro-
cedimiento (O’Connor, 2000).
Capítulo 6. Análisis Factorial Exploratorio 253

Medidas de ajuste heurísticas derivadas de los modelos


de Análisis Factorial Confirmatorio
Se han desarrollado numerosas medidas de ajuste en el marco de los modelos de Análisis Factorial
Confirmatorio. Dos de ellas son los indicadores CFI y NNFI (o TLI). La explicación de estos indi-
cadores se desarrolla en el capítulo 10. Baste por el momento saber que estos indicadores toman va-
lores entre 0 y 1 y que valores por encima de 0,9 son necesarios para concluir que el modelo se ajus-
ta a los datos. TLI y CFI son medidas de ajuste comparativo; esto quiere decir que se compara el
modelo factorial con otro modelo mucho más simple, el modelo de independencia (modelo en el que
se asume que las variables Xj no están correlacionadas en la población y que, por tanto, no hay fac-
tores comunes). Si el valor del TLI y el CFI es superior a 0,9 al extraer m factores, puede concluirse
que el modelo propuesto es mucho mejor que el modelo de independencia.

Ejemplo 6.20. Decisión sobre el número de factores: otras reglas

En el ejemplo de la Tabla 6.2, según la regla MAP se extraería un único componente (ver Tabla
6.32).

Tabla 6.32. Número de factores atendiendo a la regla MAP


Promedio de las correlaciones parciales al cuadrado
0 Componentes 0,0697
1 Componentes 0,0503
2 Componentes 0,0720
3 Componentes 0,1302
4 Componentes 0,2458
5 Componentes 0,4272
6 Componentes 1

En la Tabla 6.33 se muestran los valores TLI y CFI para los modelos de uno y dos factores. En este
caso, el modelo de dos factores proporciona un buen ajuste a los datos (TLI, CFI > 0,90), mientras
que el modelo de un factor no se ajusta (TLI, CFI < 0,9).

Tabla 6.33. Valores TLI y CFI para los modelos de uno y dos factores
TLI CFI
Modelo de un factor 0,73 0,60
Modelo de dos factores 0,96 0,99
254 Medición en Ciencias Sociales y de la Salud

Apéndice 6.4. El significado del término rotación


El término rotación tiene su origen en la interpretación geométrica del AFE. Las variables pueden
representarse como vectores en un espacio con tantas dimensiones como factores y sus pesos facto-
riales como coordenadas en los ejes que representan los factores. Por ejemplo, para una solución de
dos factores el vector de la variable X3 se prolongaría desde el punto (0, 0) hasta el punto (λ31, λ32).
En la Figura 6.6 se representan los pesos factoriales de 7 variables en 2 factores.

Figura 6.6. Representación geométrica de la matriz factorial


1
Matriz factorial no rotada 0,8
1 2 0,6 X3 X2
X1 0,397 0,301 0,4 X1
0,2 X7
X2 0,544 0,472 F2 X6
0
X3 0,332 0,491 X5
− 0,2
X4
X4 0,736 –0,365 − 0.4

X5 0,565 –0,251 − 0.6
X6 0,446 0,037 − 0.8
−1
X7 0,455 0,158
−1 − 0,8−0,6 −0,4 0,2 0 0,2 0,4 0,6 0,8 1
F1

En la figura se representan los ítems como puntos. Observe que las coordenadas para cada ítem son
sus pesos λ en los factores. Por ejemplo, el ítem 3 se sitúa en las coordenadas (0,332, 0,491). El vec-
tor para ese ítem se señala con una flecha.
Las ecuaciones que hemos estudiado tienen su “traducción” geométrica. Por ejemplo, la comu-
nalidad es la raíz de la longitud del vector. Para el ítem 3, la longitud del vector que va desde el ori-
gen hasta ese punto puede calcularse, siguiendo el Teorema de Pitágoras, como 0,3322 + 0,4912 que
es 0,593. Observe que ese valor es justamente la raíz de la comunalidad de ese ítem
( h32 = 0,332 2 + 0,4912 = 0,351 ).
Otro ejemplo de esta traducción geométrica se refiere a las correlaciones. La correlación repro-
ducida entre dos variables (sean éstas, por ejemplo, ítems o factores) es el coseno entre los corres-
pondientes vectores, multiplicado por las longitudes de los vectores. Es decir, la correlación entre
dos variables se relaciona con el ángulo entre los vectores que las representan.
En la Figura 6.7 aparecen las representaciones de las relaciones entre un ítem y un factor (iz-
quierda) y entre dos factores (derecha). La correlación entre X3 y F2 sería el coseno del ángulo que
forman los vectores [Cos 34º = 0,828] multiplicado por 1 (la longitud del vector asociado al Factor)
y por 0,593 (la longitud del vector asociado a X3); es decir, que, en este caso, la correlación sería
0,491. En la figura de la derecha puede comprobarse que la correlación entre los dos factores sería 0
(Cos 90º = 0).
Capítulo 6. Análisis Factorial Exploratorio 255

Figura 6.7. Representación de la relación entre F2 y X3 (izquierda) o de la relación entre F1 y F2 (dere-


cha)
1 1
0,8 0,8
0,6 X3 0,6
0,4 34º 0,4
0,2 0,2
F2 F2
0 0
− 0,2 −0,2
− 0,4 −0,4
− 0,6 −0,6
− 0,8 −0,8
−1 −1
− 1 −0,8−0,6−0,4−0,2 0 0,2 0,4 0,6 0,8 1 −1 − 0,8−0,6−0,4−0,2 0 0,2 0,4 0,6 0,8 1
F1 F1

En otras palabras, la posición relativa de los vectores y su longitud representan el modelo factorial.
Desde esta interpretación geométrica, la transformación de los pesos puede entenderse como una ro-
tación de los ejes de representación en el espacio geométrico. Al rotar los ejes, cambian las coorde-
nadas pero no cambian las comunalidades (la longitud de los vectores asociados a las variables) ni
las correlaciones reproducidas (los cosenos entre los vectores asociados a las variables). Esto puede
observarse en la Figura 6.8, en la que se representa el resultado de una rotación ortogonal. La rota-
ción ortogonal se caracteriza porque los ejes se rotan de tal forma que siguen manteniendo un ángu-
lo de 90º entre sí.

Figura 6.8. Representación geométrica de la matriz factorial rotada (VARIMAX)

Matriz factorial rotada F2


1 2
X1 0,162 0,471 X3 X2
X1
X2 0,190 0,695 X7
X3 0,002 0,593 X6

X4 0,815 0,106 X5
X4
X5 0,609 0,105
X6 0,350 0,279 F1
X7 0,290 0,384
256 Medición en Ciencias Sociales y de la Salud

En la Figura 6.9 se representa el resultado de una rotación oblicua. En este caso, cada eje se rota por
separado, lo que implica que pueden mantener entre sí un ángulo distinto de 90º, y que por tanto
pueden correlacionar.

Figura 6.9. Representación geométrica de la matriz factorial rotada o de configuración (OBLIMIN)

Matriz factorial rotada


1 2 F2

X1 0,060 0,471 X3 X2
X1
X2 0,036 0,706 X7
X3 –0,139 0,635 X6

X4 0,842 –0,055 X5
X4
X5 0,623 –0,013 F1
X6 0,306 0,226
X7 0,217 0,351

Apéndice 6.5. Análisis factorial de segundo orden


Si obtenemos más de dos factores correlacionados, pueden obtenerse factores de segundo orden (es
decir, factores que explican las correlaciones entre los factores de primer orden). En un AFE de se-
gundo orden se toma como matriz de entrada la matriz de correlaciones entre factores obtenida tras
realizar el AFE de los ítems. Se obtienen entonces pesos λjm de primer orden (pesos de las variables
Xj sobre los M factores primarios, Fm) y pesos λmm’ de segundo orden (pesos de los factores prima-
rios Fm sobre los M’ factores generales o de segundo orden, Fm’). En términos de ecuaciones:

M
Xj = ∑λ
m =1
jm Fm + Ej [6.38]

M'
Fm = ∑λ
m '=1
mm ' Fm ' + Em [6.39]

donde λjm es el peso de la variable Xj en el factor de primer orden Fm ; λmm’ es el peso del factor de
primer orden Fm en el factor de segundo orden Fm’. Em es la parte específica del factor de primer or-
den (es decir, la parte que no tiene que ver con los factores de segundo orden).
En ocasiones interesa conocer: (1) La influencia directa del factor de segundo orden, Fm’, sobre
las variables; (2) La influencia de los factores de primer orden, Fm, sobre las variables que es inde-
pendiente del factor de segundo orden. A la parte del factor de primer orden, Fm, que es indepen-
diente del factor de segundo orden la denominaremos, Fm(SL). El modelo quedaría como:
Capítulo 6. Análisis Factorial Exploratorio 257

M' M
Xj = ∑
m '=1
λ jm '( SL ) Fm′ + ∑λ
m =1
jm ( SL ) Fm ( SL ) + Ej [6.40]

donde los factores Fm’ y Fm(SL) son independientes y están expresados en puntuaciones típicas. Para
obtener los nuevos pesos puede hacerse una transformación de los pesos originales:

M
λ jm '( SL ) = ∑λ
m =1
jm λ mm ' [6.41]

λ jm ( SL ) = λ jm 1 − hm2 [6.42]

donde hm2 es la comunalidad del factor Fm. En efecto, a partir de las ecuaciones [6.38] y [6.39]:

∑( )
M  M' 
Xj = ∑ λ jm 

λ mm′ Fm′ + E m  + E j =

m =1  m'=1 
M  M'   M 
= ∑∑ 
   ∑
λ jm λ mm′ Fm′  +  λ jm E m  + E j =

m =1  m '=1   m =1 
 M' M   M 
=
 ∑∑   


λ jm λ mm′ Fm′  +  λ jm E m  + E j
 m'=1 m=1   m=1

Y, considerando las ecuaciones [6.41] y [6.42], se obtiene la ecuación [6.40]:

 M'   M 
Xj =
 ∑   ∑
λ jm′( SL ) Fm '  +  λ jm ( SL ) Fm ( SL )  + E j

 m '=1   m =1 

donde Fm(SL) es la parte específica del factor de primer orden expresada en puntuaciones típicas:

Em
Fm( SL ) = [6.43]
1 − hm2

La ecuación [6.41] indica los pesos directos de las variables en el factor general Fm’ y la ecuación
[6.42] indica los pesos en unos nuevos factores específicos, Fm(SL), que son ortogonales al factor ge-
neral y que representan el efecto del factor específico que no tiene que ver con el factor general. A
esta transformación de los pesos se la denomina transformación Schmid-Leiman (Schmid y Leiman,
1957) y se pueden obtener con el programa Factor (Lorenzo y Ferrando, 2006).
258 Medición en Ciencias Sociales y de la Salud

Ejemplo 6.21. AFE de segundo orden

En la Tabla 6.34 se muestran los resultados de un AFE (1º y 2º orden) aplicado a las puntuaciones
de 1.369 personas en los subtests del WAIS-III. Los factores de primer orden obtenidos estaban
fuertemente correlacionados (rF1F2 = 0,766; rF1F3 = 0,796; rF2F3 = 0,707), por lo que se extrajo un
factor de segundo orden (F1’). Los pesos obtenidos en el AF de primer orden se muestran en la parte
superior izquierda (p. ej., Comprensión es la variable que más pesa en F2 con una saturación de
0,88). Los pesos obtenidos en el AF de segundo orden se muestran en la parte inferior izquierda de
la tabla (p. ej., F1 es la variable que más pesa en el factor general, F1’, con una saturación de 0,93).
Los resultados de la transformación Schmid-Leiman se muestran en la parte derecha de la tabla.
Los factores F1(SL), F2(SL), F3(SL) y F1’(SL) son independientes. Puede observarse que el factor general,
F1’(SL) tiene pesos muy altos en todas las variables, mientras que el peso directo en los factores es-
pecíficos (F1(SL), F2(SL) y F3(SL)) es bastante bajo, especialmente para el primero de ellos. Los pesos
son fáciles de obtener. Por ejemplo, el peso λ11’(SL) de Vocabulario en el factor general, F1’, es
0,08(0,93) + 0,80(0,83) + 0,03(0,86) = 0,75. El peso λ12(SL) de Vocabulario en su factor específico es
0,80(0,56) = 0,45, donde 0,56 es la raíz de (1 – 0,69).

Tabla 6.34. AFE de primer y de segundo orden (método ML, rotación Direct-Oblimin)

Análisis factorial de primer orden1 Pesos Schmid-Leiman

F1 F2 F3 F1(SL) F2(SL) F3(SL) F1’

Vocabulario 0,08 0,80 0,03 Vocabulario 0,03 0,45 0,01 0,75


Semejanzas 0,15 0,73 0,01 Semejanzas 0,05 0,41 0,01 0,74
Comprensión –0,11 0,88 0,05 Comprensión –0,04 0,50 0,03 0,67
Información 0,13 0,69 0,04 Información 0,05 0,39 0,02 0,72
Fig. Incompletas 0,66 0,21 –0,04 Fig. Incompletas 0,24 0,12 –0,02 0,75
Cubos 0,89 0,00 –0,03 Cubos 0,33 0,00 –0,02 0,80
Matrices 0,79 0,10 0,02 Matrices 0,29 0,06 0,01 0,84
Historietas 0,69 0,13 0,04 Historietas 0,26 0,08 0,02 0,79
Rompecabezas 0,86 –0,01 –0,06 Rompecabezas 0,32 –0,01 –0,03 0,74
Dígitos 0,00 0,08 0,76 Dígitos 0,00 0,05 0,39 0,72
Letras/números 0,07 0,03 0,85 Letras/números 0,03 0,02 0,44 0,82
Claves num. 0,68 –0,06 0,22 Claves num. 0,25 –0,03 0,11 0,78
Búsqueda de Búsqueda de
0,75 –0,08 0,17 0,28 –0,05 0,09 0,77
Símbolos Símbolos
Aritmética 0,25 0,28 0,32 Aritmética 0,09 0,16 0,16 0,73
Análisis factorial de segundo orden
F1’ hm2
F1 0,93 0,86
F2 0,83 0,69
F3 0,86 0,74
1
Se resaltan en negrita las correlaciones mayores que 0,3
Capítulo 6. Análisis Factorial Exploratorio 259

Apéndice 6.6. El análisis factorial de ítems


Cuando se analizan variables categóricas (p. ej., ítems dicotómicos o de categorías ordenadas), las
correlaciones de Pearson pueden ser inadecuadas para establecer su grado de relación, ya que varia-
bles con distribuciones similares tienden a correlacionar más alto que variables con distribuciones
distintas. Por ejemplo, en el caso dicotómico, la correlación de Pearson máxima entre dos ítems de
igual dificultad es 1, mientras que la correlación máxima entre dos ítems con índices de dificultad
0,9 y 0,1 es 0,11. Esto hace que, al realizar el análisis factorial, surjan los denominados como facto-
res de dificultad (factores donde se agrupan ítems de dificultad similar). Otro problema es que el
análisis factorial asume relaciones lineales entre las variables observables y los factores latentes, lo
cual no es asumible para las variables categóricas (donde existen puntuaciones máximas y míni-
mas), especialmente si los ítems son muy discriminativos. Posibles soluciones son:

1. Llevar a cabo el análisis factorial sobre las correlaciones tetracóricas (policóricas) entre las va-
riables dicotómicas (politómicas). Las correlaciones tetracóricas son un tipo especial de correla-
ción que se basa en la siguiente idea. En la Figura 6.10 se muestra un gráfico de dispersión que
representa la relación entre dos variables continuas, Z1 y Z2. La correlación entre ambas es r =
0,640. Suponga que se crean dos nuevas variables, X1 y X2, dicotomizando cada una de las dos
variables según las líneas de referencia que aparecen en la figura (si Z1 > 1, X1 = 1, de lo contra-
rio X1 = 0; si Z2 > 0, X2 = 1, de lo contrario X2 = 0). En la tabla de la derecha, aparece una tabla
de contingencia que indica la frecuencia de casos con cada patrón de respuestas en los dos ítems.
Pues bien, la correlación tetracórica entre las variables X1 y X2 es una aproximación a la correla-
ción de Pearson entre las variables Z1 y Z2. Para calcular la correlación tetracórica entre dos va-
riables X dicotómicas se asume que a cada una de esas variables subyace una variable Z continua
dicotomizada (también se asume que esas variables subyacentes tienen una distribución bivariada
normal). Con los datos de la tabla de contingencia entre X1 y X2 y los supuestos anteriores, puede
deducirse la correlación original entre Z1 y Z2.
En nuestro ejemplo, la correlación de Pearson entre X1 y X2 es 0,293, mientras que la correlación
tetracórica es 0,552, mucho más próxima a la correlación real entre las variables Z1 y Z2.

Figura 6.10. Correlación tetracórica


Gráfico de dispersión entre las variables Z1 y Z2 Tabla de contingencia entre las variables
4 X1 y X2
X2
3 0 1
2 X1 0 463 373 836
1 26 138 164
1 489 511
Z2 0

−1

− 2

− 3

− 4
−4 −3 −2 −1 0 1 2 3 4
Z1
260 Medición en Ciencias Sociales y de la Salud

Un razonamiento similar se puede seguir para calcular la correlación policórica. Existen distintos
programas que permiten realizar el AFE sobre las matrices de correlaciones tetracóricas (o po-
licóricas): PRELIS-LISREL (Jöreskog y Sörbom, 2004), MPLUS (Muthen y Muthen, 2006) o
FACTOR (Lorenzo y Ferrando, 2006) son algunas de las alternativas. La única particularidad es
que, por el tipo especial de correlaciones, es preferible el uso de métodos robustos de estimación
(p. ej., RWLS en MPLUS). Al aplicar estos programas, obtendremos los parámetros λ, ψ y τ del
siguiente modelo para las variables latentes:

M
Zj = ∑λ
m =1
jm Fm + Ej [6.41]

El parámetro ψ es la varianza específica o error (varianza de Ej) y τj es una estimación del um-
bral por el que se dicotomiza la variable Zj tal que:

X j = 1, si Z j > τ j
[6.42]
X j = 0, si Z j ≤ τ j

2. Existen procedimientos más sofisticados para resolver los problemas descritos, como es la apli-
cación del Análisis Factorial de Información Completa (Full Information Factor Analysis) im-
plementado en TESTFACT (Bock y cols., 2003). En este caso, se estima el modelo:

1
P j (θ 1 ,..., θ m ,..., θ M ) ≅ [6.43]
τj M λ jm
1 + exp(1,702 ψ
− 1,702 ∑
m =1
ψ
θm )

donde la probabilidad de acertar el ítem es función del nivel del evaluado en M rasgos (θ1, θ 2,…,
θ m, …, θ M); este modelo es matemáticamente equivalente al que se obtiene al analizar las corre-
laciones tetracóricas. λ, ψ y τ tienen el mismo significado que cuando se utilizan la ecuaciones
[6.41] y [6.42]. La diferencia principal entre este procedimiento y el anterior es que para estimar
los pesos, como en cualquier modelo de TRI, se utiliza no sólo la información de la matriz de co-
rrelaciones sino de toda la matriz de respuestas. El modelo de la ecuación [6.43] también se pue-
de expresar como un modelo multidimensional de TRI:

1
P j (θ 1 ,..., θ m ,..., θ M ) ≅ M
[6.44]
1 + exp(1,702(− ∑a
m =1
mθ m + d m ))

3. Puede aplicarse también el Análisis factorial No Lineal implementado en el programa NOHARM


(Fraser y McDonald, 1988). El modelo no lineal es una extensión del modelo lineal que permite
modelar la relación no lineal entre θ y la probabilidad de acierto directamente, introduciendo una
sucesión de términos. Por ejemplo, en el caso unidimensional:

Pj (θ ) = A + B1θ + B2 (θ 2 − 1) + ... [6.45]


Capítulo 6. Análisis Factorial Exploratorio 261

donde A, B1, B2,… se escogen para que la función [6.45] se corresponda con el modelo de ojiva
normal y son función de λ y τ (ver Maydeu-Olivares, 2005: p. 79). Por tanto, a partir de este mo-
delo pueden derivarse también los parámetros λ y τ, que serán equivalentes a los estimados con
otras estrategias.
4. También pueden crearse parcelas de ítems. Se crean nuevas variables (subtests) agregando ítems
y se realiza el AFE sobre los subtests. Estas nuevas variables, generalmente, cumplen mejor los
supuestos distribucionales (linealidad y distribución multivariada normal) requeridos en los pro-
cedimientos de estimación. El problema de estos procedimientos es que se requiere que los ítems
que formen una faceta midan una única dimensión (lo que requiere a su vez un análisis factorial
de ese subconjunto de ítems).

Ejemplo 6.22. AFE para ítems dicotómicos y politómicos

En la Tabla 6.35 se muestran los resultados al analizar las correlaciones policóricas de los ítems de
la escala de cordialidad. Los resultados son muy similares a los encontrados cuando se analizan las
correlaciones de Pearson. Éste es un resultado que suele encontrarse cuando los ítems tienen medias
similares o, como en este caso, cuando tienen 4 o más categorías de respuesta.

Tabla 6.35. AFE con el programa FACTOR (ULS) sobre las correlaciones policóricas

Matriz de factores rotados (ULS-Promax)1

1 2
Z1 0,528 0,036
Z2 0,775 0,009
Z3 0,722 –0,192
Z4 –0,091 0,902
Z5 –0,031 0,667
Z6 0,230 0,328
Z7 0,356 0,250
1
rF1F2 = 0,467

Con ítems de respuesta dicotómica, los resultados pueden ser bastante distintos. Para ilustrar los dis-
tintos procedimientos con ítems de respuesta dicotómica, se simularon las respuestas de 1.000 eva-
luados a 7 ítems con una estructura factorial unidimensional (λ = 0,71, para todos los ítems) pero
con valores de dificultad variados (τ1 = –1, τ2 = –1, τ3 = –0,5, τ4 = 0, τ5 = 0,5, τ6 = 1, τ7 = 1). En la
Figura 6.11 y en la Tabla 6.36 se muestran los resultados para el gráfico de sedimentación y de las
soluciones de uno y dos factores, según el tipo de correlaciones (Pearson y tetracóricas).
A partir de la información que aparece en el gráfico de sedimentación, parecería aconsejable ex-
traer dos factores con las correlaciones de Pearson (cuando de hecho se simuló un único factor) y
uno con las correlaciones tetracóricas, donde es más claro que la solución es esencialmente unidi-
mensional. Según los resultados del análisis paralelo, cuando se emplean las correlaciones de Pear-
son se debería extraer un factor (aunque las líneas casi se cruzan en el segundo autovalor, lo que
plantearía la posibilidad de retener un segundo factor).
262 Medición en Ciencias Sociales y de la Salud

Figura 6.11. Gráfico de sedimentación (izquierda) y análisis paralelo con correlaciones de Pearson
(derecha)
5 3
Pearson muestra empírica
4
Tetracóricas muestras aleatorias
2
3

autovalor
autovalor

2
1

0 0
1 2 3 4 5 6 7 1 2 3 4 5 6 7
Factor Factor

En la Tabla 6.36 se muestran, a la izquierda, los parámetros reales (simulados) para el modelo uni-
dimensional y, en las siguientes columnas, los resultados que se estiman (con correlaciones de Pear-
son y con correlaciones tetracóricas) para los modelos de uno y de dos factores. Los pesos de la so-
lución de un factor con correlaciones tetracóricas se asemejan más a los pesos reales que los corres-
pondientes a la solución unidimensional obtenida a partir de las correlaciones de Pearson. En este
ejemplo, se puede observar también que con las correlaciones de Pearson surgen factores de dificul-
tad (p. ej., los pesos en el primer factor son proporcionales a pj, cuando de hecho los 7 pesos reales
son iguales). Además, la solución bidimensional con correlaciones tetracóricas es claramente inade-
cuada (p. ej., uno de los ítems alcanza una saturación de 1 en el segundo factor, lo que es irrealista).

Tabla 6.36. AFE con el programa FACTOR (ULS) sobre las correlaciones de Pearson y tetracóricas; se
muestran los pesos factoriales para cada solución y método, así como el índice de dificultad de los ítems
(p j)
Estimado Estimado
Real
(Pearson) (Tetracóricas)
Unidimensional Bidimensional1 Unidimensional Bidimensional2
λj pj F F1 F2 F F1 F2
Z1 0,71 0,85 X1 0,49 0,57 –0,02 Z1 0,85 0,33 0,64
Z2 0,71 0,85 X2 0,45 0,57 –0,05 Z2 0,65 0,85 –0,16
Z3 0,71 0,71 X3 0,54 0,51 0,10 Z3 0,68 0,69 0,03
Z4 0,71 0,51 X4 0,58 0,35 0,29 Z4 0,69 0,63 0,10
Z5 0,71 0,32 X5 0,55 0,18 0,45 Z5 0,71 0,61 0,14
Z6 0,71 0,15 X6 0,43 0,01 0,50 Z6 0,67 0,53 0,18
Z7 0,71 0,16 X7 0,46 –0,07 0,64 Z7 0,79 –0,00 1,00
1
rF1F2 = 0,57; 2rF1F2 = 0,65
Capítulo 6. Análisis Factorial Exploratorio 263

Apéndice 6.7. Procedimientos alternativos para calcular las


puntuaciones factoriales

Además del método heurístico de la suma o ponderación simple, existen varios procedimientos es-
tadísticos alternativos para obtener los pesos w y así obtener las puntuaciones factoriales de las per-
sonas en las dimensiones:

J
Fˆm = ∑w
j =1
jm X j

Los procedimientos consisten en definitiva en estimar según diferentes criterios la matriz de pesos
de ponderación de las variables (p. ej., los ítems estandarizados) en las dimensiones, W, que se de-
nomina como matriz de coeficientes de las puntuaciones factoriales. Existen distintos procedimien-
tos para el cálculo de las puntuaciones factoriales que pueden ser evaluados según el grado en que
responden a los siguientes criterios (Grice, 2001b; DiStefano, Zhu y Mindrila, 2009):

1. Maximización del coeficiente de validez. En este contexto se denomina coeficiente de validez a la


estimación de la correlación entre Fm y su estimador F̂ m (i. e., ρ F ˆ )13. El coeficiente de va-
m Fm
lidez máximo es ρm, siendo ρ 2m la correlación múltiple al cuadrado entre cada factor y las varia-
bles observadas. ρ 2m indica la proporción de varianza del factor que es predecible a partir de las
variables.
2. Univocidad para los factores ortogonales. La univocidad se relaciona con la validez discrimi-
nante de las estimaciones. Es importante cuando los factores son independientes. Por ejemplo,
las puntuaciones estimadas F̂1 deberían correlacionar con F1, pero no con otro factor (p. ej., F2).
Se cumple el criterio de univocidad si las correlaciones entre las puntuaciones estimadas en el
factor y las correlaciones en el resto de factores son 0 (i. e., ρ F Fˆ = 0 , para cualquier m’ dis-
m m′
tinto de m).
3. Preservación de la correlación: Otra característica a partir de la cual valorar los métodos de es-
timación de las puntuaciones factoriales es el grado en que las correlaciones entre las puntuacio-
nes factoriales estimadas se corresponden con las correlaciones entre factores obtenidas en el
análisis factorial. Por ejemplo, si los factores F son independientes, las puntaciones estimadas
deberían ser independientes (i. e., ρ Fˆ Fˆ = 0 , para cualquier m’ distinto de m).
m m′

A continuación se describen los principales procedimientos de estimación de las puntuaciones facto-


riales.

13
Matricialmente, puede calcularse la matriz de correlaciones entre los factores estimados y los factores verda-
deros, RFF’ como: RFF’ = S’WL−1 donde S es la matriz de estructura (de orden J x M), W es la matriz de pesos
(de orden J x M) y L es una matriz diagonal con las desviaciones típicas de las puntuaciones factoriales estima-
das en la diagonal. La diagonal RFF’ proporciona los coeficientes de validez y los valores fuera de la diagonal los
valores para evaluar la univocidad. Estas correlaciones se pueden calcular mediante macros de SAS
(http://psychology.okstate.edu/faculty/jgrice/).
264 Medición en Ciencias Sociales y de la Salud

Método de Regresión
En el método de Regresión se toman los ítems como variables predictoras, los factores como varia-
bles dependientes y se buscan aquellos pesos w que minimizan los errores de predicción a través de
los individuos14:

I
Crit REG = min ∑ (F
i =1
im − Fˆim ) 2 [6.46]

Las puntuaciones factoriales en cada factor m tienen media 0 y varianza igual al cuadrado de la co-
rrelación múltiple entre los ítems y el factor (es decir, ρ 2m). Las puntuaciones pueden estar correla-
cionadas incluso cuando los factores son ortogonales. Mediante el método de Regresión se maximi-
za la validez ( ρ F Fˆ ). Por tanto, si se pretende predecir las puntuaciones en los factores estos es-
m m
timadores son los mejores.

Método de Bartlett
Uno de los problemas al calcular las puntuaciones factoriales es que, como es una suma ponderada
de los ítems, la parte específica de estos ítems contribuye a la puntuación factorial. En el método de
Bartlett se obtienen las puntuaciones que minimizan la contribución de la parte específica de las va-
riables.
El modelo factorial, si los factores únicos están estandarizados, es:

M
Xj = ∑λ
m =1
jm Fim + ψ j E *j [6.47]

donde E*j es la parte específica de la variable estandarizada, que se puede expresar como:

M
Xj − ∑λ
m =1
jm Fm

E *j = [6.48]
ψj

En el procedimiento de Bartlett (1937) se propone obtener los valores de w que minimizan la in-
fluencia de los factores específicos a través de las variables15:

14
Matricialmente, W = R–1S, donde W es la matriz de pesos (de orden J × M), R es la matriz de correlaciones
entre los ítems (de orden J x J) y S es la matriz de estructura (de orden J × M).
15
Matricialmente, W = Ψ–1 P (P’ Ψ–1 P) –1, donde W es la matriz de pesos (de orden J x M), Ψ–1 es la inversa
de una matriz diagonal con las unicidades en la diagonal (de orden J × J) y P es la matriz de configuración (de
orden J × M).
Capítulo 6. Análisis Factorial Exploratorio 265

J J
( xij − ∑λ ˆ
jm Fm )
2

Crit Bartlett = min ∑E


j =1
*2
j = min ∑
j =1
m

ψ j
[6.49]

Donde F̂m indica las puntuaciones estimadas que dependen de los pesos w. Este método es equiva-
lente a encontrar las puntuaciones factoriales F que hacen más verosímiles las puntuaciones obser-
vadas, asumiendo la normalidad de las variables X y F (McDonald, 1985):

max P ( xij | Fˆim )

Las puntuaciones resultantes tienen media 0 y varianza igual al cuadrado de la correlación múltiple
entre los ítems y el factor. Cuando los factores son independientes, utilizando este procedimiento se
maximiza la univocidad, es decir, que las puntuaciones estimadas en un factor no correlacionen con
las puntuaciones estimadas en otro factor. Además, las estimaciones son insesgadas (Hershberger,
2005).

Método de Anderson-Rubin
Aunque los factores sean independientes según el modelo factorial, las estimaciones de las puntua-
ciones en un factor estarán correlacionadas con las estimaciones de otros factores. Este método es
una modificación del método de Bartlett, que asegura la ortogonalidad de las puntuaciones factoria-
les estimadas. Las puntuaciones resultantes tienen media 0, desviación típica de 1 y no correlacio-
nan entre sí16. Resulta especialmente recomendable cuando se utiliza un procedimiento de rotación
ortogonal.

Ejemplo 6.23. Puntuaciones factoriales


Se calcularon las puntuaciones factoriales para los distintos métodos de rotación y de estimación de
las puntuaciones factoriales, en la solución bidimensional del test de Cordialidad. Las correlaciones
entre las puntuaciones factoriales F̂m y los factores Fm se muestran en la Tabla 6.37. El método de
regresión maximiza los coeficientes de validez (las dos primeras columnas). Por ejemplo, en el caso
del segundo factor el coeficiente de validez (ρ) es 0,836. Este valor coincide exactamente con la
desviación típica de las puntuaciones factoriales estimadas por este método, y por tanto ρ 2 = 0,8362
= 0,699, lo que indica que aproximadamente el 69,9% de la varianza del factor puede ser predicha a
partir de las Xj.
Con el método de Bartlett se mantienen altos coeficientes de validez pero se reduce además la
correlación de la estimación de cada factor con el otro factor verdadero (las dos siguientes colum-
nas). Esto puede ser importante si queremos que las estimaciones de los distintos factores sean inde-
pendientes. Por otro lado, cuando el método de rotación es ortogonal, el método de Anderson-Rubin

16
Matricialmente, W = Ψ–1 P (P’ Ψ–1 R Ψ–1 P) –1/2, donde W es la matriz de pesos (de orden J x M), Ψ–1 es la
inversa de una matriz diagonal con las unicidades en la diagonal (de orden J x J), P es la matriz de configura-
ción (de orden J x M) y R es la matriz de correlaciones entre los ítems (de orden J x J).
266 Medición en Ciencias Sociales y de la Salud

es el método en el que la correlación entre los factores estimados se parece más a la correlación en-
tre los factores verdaderos (comparación de la quinta y sexta columnas). Finalmente, el método de la
Suma es el que peores resultados ofrece en cuanto a coeficiente de validez y univocidad.

Tabla 6.37. Correlaciones entre factores verdaderos ( F1 , F2 ) y estimados ( F̂1 , F̂2 ) según los distin-
tos métodos de rotación y de estimación de las puntuaciones factoriales
Estimación
Rotación de las puntuaciones rF Fˆ rF ˆ rF Fˆ rF ˆ rF1F2 rFˆ Fˆ
1 1 2 F2 1 2 2 F1 1 2
factoriales
Oblimin Regresión 0,871 0,836 0,436 0,419 0,400 0,501
Oblimin Bartlett 0,867 0,828 0,331 0,347 0,400 0,289
Oblimin Anderson-Rubin 0,850 0,798 0,193 0,248 0,400 0,000
Ponderación simple
Oblimin 0,813 0,807 0,376 0,384 0,400 0,356
o Suma
Varimax Regresión 0,854 0,811 0,106 0,101 0,000 0,124
Varimax Bartlett 0,847 0,805 0,000 0,000 0,000 –0,124
Varimax Anderson-Rubin 0,853 0,810 0,052 0,052 0,000 0,000
Ponderación simple
Varimax 0,786 0,775 0,233 0,217 0,000 0,356
o Suma

En la Tabla 6.38 se muestran las respuestas de las cinco primeras personas y sus puntuaciones facto-
riales correspondientes a la rotación oblicua (método de regresión).

Tabla 6.38. Respuestas y puntuaciones factoriales de 5 evaluados


Evaluados X1 X2 X3 X4 X5 X6 X7 F1 F2
1 4 5 5 3 2 1 5 –0,71 0,69
2 4 4 5 3 4 4 4 –0,08 0,31
3 4 5 4 2 5 3 4 –0,46 0,43
4 5 4 5 3 3 3 4 –0,38 0,41
5 3 3 5 1 3 5 1 –1,95 –0,99

Al haber concluido que el test mide dos factores sería incorrecto utilizar una única puntuación en el
test para describir el nivel de cada persona. Puesto que la escala es bidimensional, las personas pue-
den tener altas puntuaciones en una parte de la escala y bajas en otra (por ejemplo, los evaluados 1,
3 y 4 puntúan sensiblemente por encima de l