Unidad Iii y Iv

TOMÁS PEDRO PABLO CAYCHO RODRÍGUEZ
Tercera
UNIDAD
Validación del Instrumento
Psicométrico
“La elaboración de pruebas psicológicas requiere de mucha paciencia.

Los reactivos rara vez pueden redactarse sin sufrir una revisión extensa.
Se realizan numerosas pruebas piloto antes de que surja un instrumento aceptable.
No hay una edición final de una prueba; siempre aguarda la siguiente versión”
Aaron T. Beck, M.D.

Extracto del Test Developer Prrofile publicado en Cohen (1999)
y en internet en www.mayfieldpub.com/psychtesting
¿Qué procedimiento se debe emplear para el análisis de

ítems?
¿Qué nos indica la confiabilidad de un test?
¿Qué nos indica la validez de un test?
1
Competencias
CONCEPTUALES:
 Identifica las relaciones entre psicología y las medidas

estadísticas.
 Define los conceptos pertinentes a las medidas
estadísticas.
 Define los conceptos de confiabilidad y validez
PROCEDIMENTALES:
 Provee de validez de constructo a los instrumentos

psicométricos, comprendiendo la relación entre las
técnicas estadísticas y la finalidad de los instrumentos
psicológicos.
 Obtiene la confiabilidad mediante métodos apropiados

a problemas psicométricos.
ACTITUDINALES:
 Asume una actitud científica frente a la psicología.

 Valora el proceso de validación de un instrumento
psicométrico.
 Valora los aportes de las ciencias matemáticas y los
métodos estadísticos.
2
CONTENIDO TEMÁTICO
Lección I: Análisis de Ítems
Índice de Dificultad
Índice de Homogeneidad
Análisis del poder de discriminación
Índice de Validez
Análisis de opciones incorrectas de respuestas
Corrección de los efectos del azar
Selección de ítems para el formato final del test
Lección II: Confiabilidad. Concepto, características y aplicaciones
Confiabilidad como estabilidad temporal

Confiabilidad por consistencia interna
Confiabilidad por el método de formas paralelas
Estimación del error típico de medida
Factores que afectan la confiabilidad
Lección III: Validez. Concepto, características y aplicaciones
Concepto
Validez de contenido
Validez de constructo
Validez Predictiva
3
ESQUEMA CONCEPTUAL
VALIDACIÓN DEL
INSTRUMENTO
PSICOMÉTRICO
Análisis Análisis de la Análisis de la

de ítems Confiabilidad Validez
Índice de dificultad
Estabilidad Validez de
Temporal Contenido
Índice de
homogeneidad
Consistencia Validez de
Interna Constructo
Índice de
discriminación
Formas Paralelas
Validez Predictiva
Índice de validez
Índice de dificultad
CONCEPTOS CLAVES
Homogeneidad, discriminación, dificultad, validez, confiabilidad, estabilidad,

consistencia interna, contenido, constructo, predictiva
4
Lección I
Análisis de Ítems1
Los ítems se construyen con la finalidad de medir el constructo, variable, o

rasgo que interesa evaluar con el test psicológico. Ahora bien, el grado en
que cada ítem "mide bien" el rasgo de interés es algo que se puede comprobar
estadísticamente de manera sencilla al obtener tres indicadores para cada
ítem:
a) El índice de dificultad.
b) El índice de homogeneidad.
c) El índice de validez.
Para ello, tras aplicar el cuestionario provisional a una muestra de sujetos

representativa de la población a la que va dirigida la prueba (se aconseja
entre 5 y 10 veces más sujetos que ítems), y una vez cuantificadas las
respuestas de cada individuo, se forma una matriz de datos de sujetos x
ítems:
Tabla 8
Matriz de puntuaciones
Ítems
1 2 3 ……… n X
Sujeto
1
Sujeto
2
Sujeto
3
.
.
.
Sujeto
N
Un elemento aij de esta matriz indica el valor asignado a la respuesta que da

el sujeto i al ítem j. Sumando por filas podemos obtener las puntuaciones
1
Algunas de las ideas de este acápite se basan en Abad, F., Garrido, J., Olea J. & Ponsoda, V.
(2006). Introducción a la Psicometría. Teoría Clásica de los Test y Teoría de Respuesta al
Item. Madrid: Universidad Autónoma de Madrid. Se agradece a los autores por la deferencia
para con el autor, a fin de que sean tomados para dar forma a los capítulos de esta unidad.
5
directas (X) de los sujetos en el total del test. Veamos cómo se obtienen (y
qué sentido tiene su obtención) los tres índices citados anteriormente.
El procesamiento de los datos para obtener las características de los ítems,

implica realizar necesariamente los siguientes tipos de análisis:
 Distribuir las frecuencias de las puntuaciones totales y de cada sub-test (si

es que la prueba los tiene).
 Representar de manera gráfica (polígonos de frecuencia o histogramas) las
distribuciones de frecuencia de las puntuaciones totales y de cada sub-
test.
 Calcular la media, varianza, desviación estándar, asimetría y kurtosis, de
la distribución de las puntuaciones totales y de las parciales de cada sub-
test.
 Tabular la dificultad de ítem y corregirla para evitar el efecto del azar, así
como la proporción de elección de cada uno de los distractores incluidos.
 Computar la varianza y desviación estándar de la puntuación total y de las
puntuaciones parciales de los que eligieron la respuesta correcta.
 Computar el poder discriminativo de cada ítem.
 Computar el coeficiente de validez de cada ítem.
1. Índice de Dificultad
Este primer indicador sirve para cuantificar el grado de dificultad de cada

ítem, por lo que sólo tiene sentido su cálculo para ítems de test de
rendimiento óptimo. Indica la proporción de personas que respondieron
correctamente la pregunta. El índice de dificultad de un ítem j se define
como el cociente entre el nº de sujetos que lo han acertado (Aj) y el nº
total de sujetos que lo han intentado resolver (Nj)
Ejemplo: Supongamos que la siguiente tabla recoge las respuestas de una

muestra de 10 personas a un test formado por 6 ítems dicotómicos (1
indica acierto y 0 error):
Tabla 9
Matriz de puntuaciones de 10 personas
6
Ítems
1 2 3 4 5 6 X
1 0 0 0 1 1 1 3
2 0 1 - 0 - 1 2
3 0 0 1 - 0 1 2
4 0 0 0 - 1 1 2
5 0 1 0 1 - 1 3
6 0 1 - - - 1 2
7 0 0 - 1 1 1 3
Sujetos 8 0 0 1 - 0 - 1
9 0 1 0 - 0 1 2
10 0 1 0 - 0 1 2
0 5 2 3 3 9
Aj
10 10 7 4 7 9
Nj
0 0.5 0.29 0.75 0.43 1
Dj
Con estos resultados podemos comprobar varios aspectos de la

interpretación de Dj:
- El valor mínimo que puede asumir Dj es 0 (ningún sujeto acierta el ítem)

y el valor máximo 1 (todos los sujetos que lo intentan lo aciertan).
- A medida que Dj se acerca a 0 indica que el ítem ha resultado muy difícil;

si se acerca a 1, que ha resultado muy fácil; y si se acerca a 0,5, que no
ha resultado ni fácil ni difícil.
- Dj está relacionado con la varianza de los ítems: Si Dj es 0 ó 1, la varianza

es igual a cero; a medida que Dj se acerca a 0,5, la varianza del ítem
aumenta. De nada sirve un ítem con Dj = 0 o Dj = 1, ya que no
discriminaría entre los diferentes sujetos (todos aciertan o todos fallan).
Al diseñar un cuestionario de rendimiento óptimo, al inicio se sitúan los

ítems más fáciles (con mayor Dj); en la parte central, los de dificultad
media (entre 0,30 y 0,70); y al final, los más difíciles (con menor Dj). El
número de ítems de cada categoría de dificultad que deben incluirse en el
test depende de los objetivos que quiera conseguir la persona que diseña
el cuestionario. En general, la mayor parte de los ítems deben ser de
dificultad media.
7
Debido a que la mayoría de los ítems de las pruebas de ejecución máxima

son de la modalidad de elección múltiple, se hace necesario cuando se
estudia su nivel de dificultad corregir su valor, debido a la probable
existencia de la adivinación al responder. Este procedimiento es conocido
como la corrección para el azar y se calcula a partir de la siguiente
fórmula:
R– W
P= O–1
N
Donde:
P: Dificultad corregida.
R: Número de participantes que marcaron correctamente el ítem.
W: Número de participantes que marcaron incorrectamente el ítem.
O: Número de alternativas que tiene el ítem.
N: Número total de participantes evaluados.
Una vez corregida la dificultad es posible jerarquizar los ítems desde

los más fáciles hasta los más difíciles como es el caso de las pruebas de
dificultad creciente (Tabla 7).
2. Índice de Homogeneidad
La contribución de caca ítems a la consistencia interna del test se evalúa

con el índice de Homogeneidad. El índice de homogeneidad, llamado a
veces índice de discriminación de un ítem (Hj) se define como la correlación
de Pearson entre las puntuaciones de los N sujetos en el ítem j y las
puntuaciones X en el total del test:
Hj= rjx
Según la disposición de la matriz de datos, para obtener los Hj de los ítems,

debemos calcular la correlación entre las columnas j y la columna X de
puntuaciones directas en la prueba. Recordemos que en la matriz de
puntajes o bases de datos, la columna j (también denominada columna de
las x o columna de puntajes directos (PD) señala el puntaje total que en el
test obtiene cada sujeto. Luego, la lógica del procedimiento a seguir es
simple: Si el ítem mide lo mismo que el test, entonces debe haber una
correlación estadísticamente significativa entre la puntuación del ítem y la
puntuación total que obtiene cada sujeto en el test. Ahora bien,
estadísticamente, se averigua el grado de relación entre dos variables (en
este caso el ítem y el test) utilizando un coeficiente de correlación.
8
Los coeficientes de correlación que más se utilizan para averiguar el grado

de relación entre un ítem y el test son dos: el coeficiente de correlación
biserial y el coeficiente de correlación punto o continuo biserial. Cada uno
de estos coeficientes tiene sus ventajas y desventajas; así como sus
propias fórmulas que pueden consultarse en cualquier libro de psicometría
o estadística aplicada a la psicología. En este capítulo, como lo dijimos
líneas arriba, utilizaremos el coeficiente de correlación punto biserial. Este
coeficiente es un caso especial del coeficiente producto momento de
Pearson para el caso del ítem-test. En consecuencia, utilizaremos el
coeficiente de Pearson.
El coeficiente de Pearson varía entre los siguientes valores: -1, 0, +1; los
ítems del pretest demostrarán su homogeneidad o consistencia interna en
la medida en que el valor del coeficiente de correlación del ítem con el test
se acerquen significativamente a +1.
Ejemplo: Supongamos un test formado por 3 ítems con formato de

respuesta de categorías ordenadas, que se valoran entre 0 y 5. Después
de aplicarse a un grupo de 5 sujetos se obtienen los siguientes datos:
Tabla 10
Matriz de puntuaciones
Ítems
1 2 3 X
1 2 3 5 10
Sujetos 2 3 1 0 4
3 5 4 5 14
4 0 1 0 1
5 4 3 0 7
Puede comprobarse que los índices de homogeneidad de los 3 elementos

son:
El índice de homogeneidad de un ítem nos va a informar del grado en que

dicho ítem está midiendo lo mismo que la prueba globalmente; es decir,
del grado en que contribuye a la homogeneidad o consistencia interna del
test. Los ítems con bajos índices de homogeneidad miden algo diferente a
lo que refleja la prueba en su conjunto. Si con el test se pretende evaluar
9
un rasgo o constructo unitario, deberían eliminarse los que tienen un Hj

próximo a cero.
En ocasiones, un test está formado por diferentes subtest con contenidos

distintos. En este caso, los Hj deben obtenerse con relación a las
puntuaciones directas del subtest concreto. Cuando un Hj es negativo y
alto, debemos cuestionar el sistema de cuantificación de las respuestas
que se ha seguido en ese ítem. Si un ítem obtiene una correlación negativa
y alta con el total de la prueba, seguramente es debido a que se ha
cuantificado erróneamente el ítem (se ha tomado como directo siendo
inverso, o viceversa).
Cuando un test tiene un número pequeño de ítems, resulta más apropiado

obtener el índice de homogeneidad corregido (rj,x-j). Consiste en
correlacionar las puntuaciones en un ítem con las puntuaciones en el total
del test después de restar de este total las puntuaciones del ítem cuyo
índice queremos obtener. En el ejemplo precedente, el índice de
homogeneidad corregido para el ítem 1 será 0.49, resultado de
correlacionar la 1ª columna de la tabla (2, 3, 5, 0, 4) con la columna (10-
2 = 8, 4-3 = 1, 14-5 = 9, 1-0 = 1, 7-4 = 3). Análogamente, los índices de
homogeneidad corregidos para los ítems 2 y 3 son, respectivamente, 0.89
y 0.54. Como resulta lógico suponer, el Hj corregido de un ítem suele ser
inferior a su Hj sin corregir.
Una vez obtenidos los índices de Homogeneidad (Hj) de cada ítem con la
fórmula r de Pearson, debemos informar si los coeficientes hallados indican
si el ítem tiene una correlación estadísticamente significativa con el test.
Para ello, debemos consultar las tablas de significación de los
coeficientes r (Tabla 11). En primer lugar, debemos determinar los
grados de libertad (gl); después el nivel de significación
(generalmente el de 0.05 o el de 0.01). Para determinar los grados de
libertad se utiliza la fórmula: N-2, donde N es el tamaño de la muestra y 2
es una constante. En el ejemplo anterior (Tabla 10, matriz de 5 sujetos y
3 ítems), los gl son: 5-2=3; para estos grados de libertad en un nivel de
significación del 0.05 le corresponde el valor de .0.878 y en un nivel de
significación de 0.01 el valor es de 0.959. Luego en la tabla 10, los índices
de homogeneidad de cada ítem debe ser iguales o superiores a 0.878 para
decir que hay una relación estadísticamente significativa entre el ítem y el
test; y deben ser iguales o superiores a 0.959 para decir que hay una
relación estadísticamente muy significativa. Si los índices de
homogeneidad no alcanzan o superan a los valores r de la tabla se dirá que
no hay relación entre el ítem y el test, es decir, para efectos del análisis,
el ítem no mide lo mismo que el test.
10
El tamaño de los índices de homogeneidad estadísticamente significativos

serán elementos de juicio muy importantes al momento de seleccionar los
ítems del pretest para la versión final o test.
Tabla 11
Significación del coeficiente de correlación de Pearson (Tomado de
Aliaga, 2005, p. 65)
gl 0.1 0.05 0.01 0.001 gl 0.1 0.05 0.01 0.001
1 0.988 0.997 1.000 1.000 22 0.344 0.404 0.515 0.629
2 0.900 0.950 0.990 0.999 23 0.337 0.396 0.505 0.618
3 0.805 0.878 0.959 0.991 24 0.330 0.388 0.496 0.607
4 0.729 0.811 0.917 0.974 25 0.323 0.381 0.487 0.597
5 0.669 0.755 0.875 0.951 26 0.317 0.374 0.479 0.588
6 0.622 0.707 0.834 0.925 27 0.312 0.367 0.471 0.579
7 0.582 0.666 0.798 0.898 28 0.306 0.351 0.463 0.570
8 0.549 0.632 0.765 0.872 29 0.301 0.355 0.456 0.562
9 0.521 0.602 0.735 0.847 30 0.296 0.349 0.449 0.554
10 0.497 0.576 0.708 0.823 35 0.275 0.325 0.418 0.519
11 0.476 0.553 0.684 0.801 40 0.275 0.304 0.393 0.490
12 0.458 0.532 0.661 0.780 45 0.243 0.288 0.372 0.465
13 0.441 0.514 0.641 0.760 50 0.231 0.273 0.354 0.443
14 0.426 0.497 0.623 0.742 55 0.220 0.261 0.339 0.425
15 0.412 0.482 0.606 0.725 60 0.211 0.250 0.325 0.408
16 0.400 0.468 0.590 0.708 70 0.195 0.232 0.302 0.380
17 0.369 0.456 0.575 0.693 80 0.183 0.217 0.283 0.357
18 0.378 0.444 0.561 0.679 90 0.173 0.205 0.267 0.338
19 0.369 0.433 0.549 0.665 100 0.164 0.195 0.254 0.321
20 0.360 0.423 0.537 0.652 120 0.150 0.178 0.232 0.294
21 0.352 0.413 0.525 0.640 150 0.134 0.159 0.208 0.264
200 0.116 0.138 0.181 0.230
11
3. Análisis del poder de discriminación
De acuerdo con Delgado, Escurra & Torres (2006) aquí se trata de medir
el grado con el cual el ítem es capaz de establecer diferencias entre las
personas con niveles altos y bajos de una habilidad, aptitud o conocimiento
que está siendo evaluado.
Se separan las pruebas considerando el grupo superior (27%) y el grupo

inferior (27%), luego se obtiene separadamente para cada ítem el
porcentaje de participantes que responden correctamente, ambos datos se
restan y el resultado final es la discriminación que tiene cada ítem
(Cortada, 1999). Su fórmula es la siguiente:
Disc.= GS – GI
Donde:
GS: % del grupo superior que contestó correctamente el ítem.
GI: % del grupo inferior que contestó correctamente el ítem.
El valor obtenido debe ser positivo y para aceptar el ítem debe ser igual o
mayor a 0.30
Tabla 12
Clasificación de la discriminación de los ítems (Tomado de
Delgado, Escurra & Torres, 2006, p. 65)
CLASIFICACIÓN DISCRIMINACIÓN
MUY BUENA DISCRIMINACIÓN De 0.40 a 0.99
DISCRIMINACIÓN ACEPTABLE De 0.30 a 0.39
DISCRIMINACIÓN INTERMEDIA De 0.20 a 0.29
DISCRIMINACIÓN INACEPTABLE De 0.05 a 0.19
4. Índice de Validez
El índice de validez puede calcularse una vez que se conocen los siguientes
dos estadísticos:
 La desviación estándar de la puntuación del ítem.

 La correlación entre la puntuación del ítem y una puntuación criterio.
La correlación entre la puntuación en el ítem 1 y una puntuación en la

medida criterio se multiplica por la desviación estándar de la puntuación
del ítem 1. El producto es igual a un índice de la validez de un ítem.
12
Las puntuaciones de los N sujetos en un ítem j pueden correlacionarse

también con las que estos sujetos obtienen en un criterio de validación
externo al test (Y); esta correlación define el índice de validez del ítem j:
Vj= rjy
El criterio de validación "Y" es una medida diferente del test para reflejar
el mismo rasgo u otro muy relacionado, de tal manera que si el test mide
lo que se pretende, debería correlacionar de forma elevada con el criterio.
Por ejemplo, un criterio para validar un test de inteligencia verbal puede
ser otro test que incluye cuestiones verbales; los supervisores de unos
trabajadores podrían valorar el grado de motivación de cada uno y utilizar
estas valoraciones como el criterio de validación de un test de motivación
laboral; el total de ventas en pesetas que realizan los vendedores puede
ser un buen criterio para validar un test de aptitud para la venta.
Supongamos que partimos de los datos del ejemplo precedente, y que

conocemos las puntuaciones directas de las 5 personas en un criterio Y:
Sujeto : 1 2 3 4 5
Y: 5 3 6 0 6
Los índices de validez de los tres ítems serán:
V1= r1Y = 0,87

V2= r2Y = 0,88
V3= r3Y = 0,54
Los elementos que tengan una correlación con el criterio próxima a cero
deberían eliminarse de la prueba, en la medida que no contribuyen a
evaluar el rasgo que se pretende medir. Si lo que se pretende es
seleccionar los ítems que más contribuyen a la validez del cuestionario, de
entre los ítems de igual varianza, serían preferibles los que tienen alto Vj
y bajo Hj. El cálculo del índice de validez del ítem será importante cuando
la meta es maximizar la validez de la prueba relacionada con un criterio.
5. Selección de ítems para el formato final del test
1. Se seleccionará los ítems del pretest por sus índices de homogeneidad

estadísticamente significativos.
2. Se agrupará los ítems por sus valores “p” (el número de ítems en
porcentajes para cada franja de valores “p” aparece en la tabla anterior).
13
3. Se reordenará los ítems de acuerdo a sus valores “p”, colocando en

primer lugar al del valor “p” más cercano a 1 y así sucesivamente en
forma descendente hasta el último, que será el valor “p” más cercano a
0.
Antes de la elaboración de la versión final del test, siempre se debe hacer

una última inspección de los ítems seleccionados para descartar cualquier
falla en su redacción o en su presentación, de tal modo que el test sea
óptimo en todos los aspectos.
Lección II
14
Confiabilidad
Concepto, características y aplicaciones
Siguiendo a Abad, Garrido, Olea & Ponsoda (2006), la idea fundamental de

la teoría de la confiabilidad, según la teoría clásica de los test (TCT), se basa
en el supuesto que el puntaje empírico obtenido por un individuo en el test,
está compuesto por un puntaje verdadero más un puntaje de error. El modelo
expresa que el puntaje empírico X es una función lineal de la puntuación
verdadera, más el error de medida. El puntaje verdadero se puede definir
como la calificación obtenida por una persona en el caso de que un
instrumento de medición efectuara sus mediciones sin error (Brown, 1980).
X=V+E (1)
Esta definición peca de circular siendo el mejor definir el puntaje verdadero

como la media aritmética de los puntajes empíricos que se obtendría de
aplicar un mismo test infinitas veces al mismo sujeto, bajo las mismas
condiciones y asumiendo que no se contaminarán por efecto de las prácticas
sucesivas ni por variaciones del individuo.
Se entiende por confiabilidad el grado de estabilidad, precisión o consistencia

que manifiesta el test como instrumento de medición de un rasgo
determinado. Si un herrero mide varias veces con una cinta métrica la
longitud de una barra de hierro, siempre obtendrá la misma medición, debido
a que tanto la cinta métrica como la barra permanecen invariantes. Ahora
bien, cuando empleamos un test para medir un rasgo psicosocial
determinado, puede ocurrir que ni uno ni otro permanezcan invariantes de
una situación a otra; análogamente, sería como disponer de una cinta métrica
elástica y de una barra de hierro sometida a diferentes temperaturas (y, por
lo tanto, más o menos dilatada). Es labor de la psicometría establecer en cada
caso el grado de estabilidad del instrumento de medición.
Hasta el momento, el modelo clásico de puntuación verdadera y el

planteamiento de la confiabilidad como correlación entre formas paralelas, se
han establecido en términos paramétricos; es decir, suponiendo conocidos
los datos de la población de referencia. Lo real es que en la práctica vamos a
disponer de datos obtenidos en una muestra o grupo normativo concreto.
Esto significa que, de modo directo, únicamente vamos a disponer de las
puntuaciones empíricas de dicha muestra, a partir de las cuales podemos
obtener los estadísticos que sean oportunos.
15
El concepto de confiabilidad lleva implícita la idea de que los puntajes

empíricos están afectados por fuentes de error. Aunque los errores son
muchos y variados, debe señalarse que en el estudio de la confiabilidad
interesan los errores aleatorios o accidentales, producidos después de
eliminarse las fuentes de error susceptibles de control. En los puntajes de
error de medición no se incluyen los errores constantes. De hecho, en la
construcción de un test se busca minimizar los errores atribuirles a la prueba.
El puntaje de error de medida puede determinarse a partir de la ecuación (1)

y se define como la diferencia entre el puntaje empírico (X) y el puntaje
verdadero (V):
E= X – V (2)
Puesto que cualquier puntaje empírico puede descomponerse en dos partes,

en un puntaje verdadero y en un puntaje de error, del mismo modo puede
representarse la varianza de una prueba
S2 x = S2 v + S 2 e (3)
Esto significa que la varianza total (S2x) de los puntajes, está integrada por
la varianza de los puntajes verdaderos (S2v) más la varianza de los puntajes
de error (S2e ). Es de suponer que los puntajes verdaderos y los puntajes de
error son independientes, no están correlacionados, su correlación es cero.
Entonces podemos escribir la confiabilidad en los siguientes términos, como
la proporción entre la varianza verdadera y la varianza total.
En suma, la confiabilidad se refiere al grado de varianza de las mediciones

atribuibles a las fuentes de error. Esto significa que cuando la porción de la
varianza de error es baja, el coeficiente de confiabilidad será alto. Un
coeficiente de confiabilidad de 0.95 indicará que el 95% de la varianza de los
puntajes de un test corresponden a la varianza verdadera y el 5% a la
varianza de error.
En la práctica, la estimación del coeficiente de confiabilidad no se realiza

empleando las ecuaciones anteriores. Más bien, se han ideado numerosas
fórmulas que permiten determinar los diversos conceptos referentes a la
confiabilidad. Tradicionalmente, la confiabilidad de un test puede entenderse
de tres maneras diferentes:
a) Aludiendo a la estabilidad temporal de las medidas que proporciona.

b) Haciendo referencia al grado en que diferentes partes del test miden un
rasgo de manera consistente.
c) Enfatizando el grado de equivalencia entre dos formas paralelas.
16
1. Confiabilidad como estabilidad temporal
Si disponemos de las puntuaciones de N personas en un test y, después

de transcurrido un tiempo, volvemos a medir a las mismas personas en el
mismo test, cabe suponer que siendo el test altamente fiable, deberíamos
obtener una correlación de Pearson elevada entre ambos mediciones.
Dicha correlación entre la evaluación test y la evaluación retest (rxx) se
denomina coeficiente de confiabilidad test-retest, e indicará mayor
estabilidad temporal de la prueba cuanto más cercano a uno sea. Este
modo de operar se desprende directamente del modelo lineal clásico,
según el cuál se define la fiabilidad como la correlación entre las
puntuaciones empíricas en dos formas paralelas, ya que no existe mayor
grado de paralelismo entre dos tests que cuando en realidad es uno
aplicado dos veces.
Ejemplo: A una muestra de 10 estudiantes de COU se le aplica un

cuestionario de hábitos de estudio. Transcurridos dos meses, se vuelve a
aplicar el mismo test a las mismas personas bajo las mismas condiciones.
Sus puntuaciones directas en las dos aplicaciones fueron las siguientes:
Tabla 14
Matriz de respuestas a un cuestionario de hábitos de
estudio
Persona Test Retest

1 16 10
2 14 14
3 12 8
4 11 12
5 10 10
6 8 8
7 8 7
8 6 5
9 4 4
10 1 2
Para obtener el coeficiente de fiabilidad test-retest basta con correlacionar

los datos de las dos últimas columnas:
rxx = 0.87
En este caso se obtiene una elevada estabilidad de las puntuaciones. Si los
niveles de rasgo (hábitos de estudio) de las personas no han variado a lo
largo de los dos meses transcurridos entre las dos aplicaciones, podemos
decir que el test proporciona bastantes garantías respecto a la precisión
17
con la que mide, dado que una persona concreta obtiene puntuaciones muy
parecidas (o similares) en las dos aplicaciones.
Más concretamente, y haciendo uso del teorema demostrado en el tema

anterior, podemos interpretar que el 87 % de la varianza empírica se debe
a la variabilidad de las personas a nivel de puntuaciones verdaderas.
Este coeficiente se obtiene, sobre todo, en pruebas cuyo objetivo de

medida es un rasgo estable (pruebas de inteligencia general, aptitudes,
rasgos de personalidad, etc.) dado que, de lo contrario, no se podría
discernir entre la inestabilidad debida al rasgo de la causada por el
instrumento de medición. Es aconsejable dejar periodos largos entre la
evaluación test y la retest cuando los ítems y las respuestas pueden
memorizarse con facilidad; de lo contrario, los sujetos podrían emitir
pautas de respuesta similares en las dos aplicaciones del test únicamente
por efectos del recuerdo y del deseo de responder de manera congruente,
con lo que rxx se incrementaría debido a factores ajenos a la fiabilidad de
la prueba.
Debe tenerse en cuenta, sin embargo, que cuanto mayor es el intervalo

temporal que se deja entre ambas aplicaciones, mayor es la posibilidad de
que las puntuaciones de los sujetos oscilen diferencialmente debido a
factores de tipo madurativo y, por lo tanto, esto tiene un efecto concreto
en el decremento de la correlación entre las puntuaciones del test y del
retest.
2. Confiabilidad por consistencia interna
La precisión o confiabilidad de un test se puede entender también como el

grado en que diferentes subconjuntos de ítems miden un rasgo o
comportamiento homogéneo; es decir, el grado en que covarían,
correlacionan o son consistentes entre sí diferentes partes del cuestionario.
Lo más usual es obtener la consistencia entre dos mitades del test (método
de dos mitades) o entre tantas partes como elementos tenga la prueba
(consistencia interna).
2.1 Método de dos mitades
Este procedimiento consiste en dividir el test en dos mitades

equivalentes (normalmente una con los elementos pares y otra con los
impares). Para cada sujeto se obtiene la puntuación directa en ambas
mitades. Disponemos entonces de dos variables (P e I), cuya
correlación de Pearson (rPI) indica su grado de relación.
18
Si la mitad par e impar fueran entre sí formas paralelas (ya sabemos

cómo comprobarlo estadísticamente), la correlación entre ambas sería
una medida de la fiabilidad de cada una de ellas. Ahora bien, cuando
hemos deducido la fórmula general de Spearman-Brown hemos visto
que los test más largos (con más ítems) suelen ser más fiables, por lo
que rPI estará subestimando el coeficiente de fiabilidad del test total en
la medida que P e I son variables extraídas de la mitad de ítems que
tiene el test. Para superar este problema, y así obtener el coeficiente
de fiabilidad del test completo, debemos aplicar la fórmula de
Spearman-Brown, considerando ahora que estamos trabajando con
datos muestrales, y haciendo n = 2 ya que el test completo tiene el
doble de ítems que cualquiera de sus mitades:
A partir de esta fórmula podemos comprobar que el coeficiente de

fiabilidad, entendido como la expresión de la consistencia entre dos
mitades, es mayor que la correlación de Pearson entre ambas mitades.
Ejemplo: Supongamos que la siguiente tabla refleja los resultados de

una muestra de 10 personas que responden a un cuestionario de 6
ítems valorados de forma dicotómica:
Tabla 15
Resultados de respuesta a un cuestionario de 6 ítems
En este caso se obtiene que rPI = 0.34, y por tanto:
19
De nuevo el tope de rxx lo tenemos en 1, con lo que podemos decir que

las dos mitades del test no son muy consistentes entre sí. Únicamente
un 51 % de la varianza de las puntuaciones empíricas se debe a la
varianza de las puntuaciones verdaderas. No podríamos afirmar con
suficiente certeza que ambas mitades miden con precisión el rasgo de
interés.
La razón de dividir el test en la mitad par y la impar es garantizar su

equivalencia. Los test de rendimiento óptimo suelen tener ítems
ordenados en dificultad, de tal forma que se comienza a responder los
ítems más fáciles hasta llegar a los situados al final del test, que son
los más difíciles. Si realizásemos la partición en dos mitades
atendiendo a su disposición en la prueba (la primera mitad formada
por los primeros n/2 ítems, la segunda por los n/2 ítems últimos)
difícilmente podría cumplirse que ambas tuvieran la misma media.
1.2 Coeficiente Alfa de Cronbach
En el tema precedente vimos que si los k ítems de un test fueran

paralelos, el coeficiente de confiabilidad del test podría obtenerse
aplicando la fórmula general de Spearman-Brown:
siendo k el nº de ítems del test y ρjl la correlación de Pearson entre

cualquier par de ítems. Expresada la fórmula anterior para datos
muestrales, quedaría como:
Una fórmula equivalente a la anterior; es decir, que proporciona

exactamente el mismo resultado, es el denominado coeficiente α de
Cronbach:
donde k es el nº de ítems
ΣS2j es la suma de las varianzas de los ítems y S2x es la varianza del

test
20
Dado que las puntuaciones en el test son la suma de las puntuaciones

en los ítems, la varianza del test puede expresarse como:
por lo que la expresión inicial puede quedar como:
Esta fórmula reproduce el coeficiente de confiabilidad del test si todos

los ítems son paralelos. En la práctica, es muy difícil que esto se
produzca pero, sin embargo, tiene sentido su aplicación para
establecer el grado en que los diferentes ítems están midiendo una
única dimensión o rasgo. Podemos observar en la última expresión que
α depende del grado de covariación de los ítems: tendrá un valor alto
(cercano a 1) cuando los ítems covaríen fuertemente entre sí; asumirá
valores cercanos a cero si los ítems son linealmente independientes (si
covarían de forma escasa). Matemáticamente, α puede asumir valores
negativos.
Insistimos en que el coeficiente alfa no es un coeficiente de fiabilidad

si, como ocurre en la práctica totalidad de los test, los ítems no son
paralelos. Suele considerarse una "estimación por defecto" del
coeficiente de fiabilidad, lo que significa que es igual al coeficiente (si
los ítems son paralelos) o menor (cuando no lo son). Debe
interpretarse como un indicador del grado de covariación entre los
ítems, y es aconsejable complementarlo con otras técnicas estadísticas
(por ejemplo Análisis Factorial) antes de interpretarlo como una
medida de unidimensionalidad.
Ejemplo:
Tabla 16
Matriz de puntuaciones para el análisis del coeficiente de
confiabilidad de Cronbach
21
En este caso, el coeficiente α obtenido representa un valor medio, que

nos indica que no existe un elevado grado de covariación entre los
ítems. No podemos afirmar con rotundidad que este test mide un rasgo
unitario.
El coeficiente α puede obtenerse también entre diferentes grupos de

ítems (subtest). En ese caso, k será el número de subtests y ΣS2j la
suma de las varianzas de los subtests. Un coeficiente α bajo indicará
que los diferentes subtests miden rasgos o constructos diferentes.
2. Confiabilidad por el método de formas paralelas
A veces, por razones de índole práctica o investigadora, se diseña un test

y una segunda versión del mismo, denominada forma paralela, que intenta
evaluar o medir lo mismo que el test original pero con diferentes ítems.
Como ya hemos explicado, dos versiones o formas se consideran paralelas
si, aplicadas a una misma muestra de personas, obtienen medias y
varianzas probabilísticamente similares.
La correlación de Pearson entre las puntuaciones obtenidas en una misma

muestra en dos formas paralelas se considera el coeficiente de fiabilidad
de cualquiera de ellas, e indicará el grado en que pueden considerarse
equivalentes.
Ejemplo:
Tabla 17
Matriz de puntuaciones para el análisis de la Confiabilidad
por el método de formas paralelas
22
Sujetos Forma 1 Forma 2
1 1 4
2 14 12
3 11 13
4 11 19
5 10 12
Medias 9.4 10
Varianzas 19.44 10.8
Varianzas (ins.) 24.3 13.5
No es común diseñar una forma paralela de un test para obtener datos

sobre su fiabilidad. Cuando se diseñan (tarea por otra parte difícil) es
porque van a utilizarse en determinados trabajos que requieren 2
aplicaciones sucesivas de un test que se puede recordar con facilidad. Por
ejemplo, para evaluar la eficacia de ciertos programas cortos de
enriquecimiento cognitivo o motivacional, conviene utilizar antes y después
del entrenamiento pruebas equivalentes aunque con contenidos diferentes
(formas paralelas) para evitar los efectos del recuerdo.
3. Estimación del error típico de medida
El coeficiente de confiabilidad no da una indicación directa de la cantidad

de variabilidad (error) que se espera en las puntuaciones de un individuo
en una medición. Esta indicación la da el error típico de medida.
Asumiendo el postulado fundamental del modelo clásico, que expresa la

relación:
X=V+E
es fácil demostrar que se cumple la siguiente relación para datos

muestrales:
Sx2 = Sv2 + Se2
23
A la desviación típica de los errores de medida (Se) se denomina error

típico de medida. En cierta manera, el Se representa también una medida
de precisión: cuanto más cercano a cero sea el error típico de medida de
un test, eso significará que dicho test proporciona a cada persona una
puntuación X cercana a su nivel de rasgo V.
En términos paramétricos, habíamos demostrado en el tema anterior que:
Para datos muestrales, la expresión anterior queda establecida como:
De donde se deduce que el error típico de medida puede obtenerse a partir

de la expresión:
Sx= desviación estándar de la distribución de puntajes

directos del test en la muestra estudiada.
1= constante
rxx= coeficiente de confiabilidad
El error de medida permite, a su vez, precisar un rango de puntaje que

abarca a la puntuación verdadera del sujeto. Este rango se denomina
intervalo de confianza. Los niveles de confianza son principalmente dos: el
de 68% y del 95%.
4. Factores que afectan la confiabilidad de un test 2
Según Hogan (2004), la confiabilidad se relaciona con la consistencia de

las puntuaciones en la medición al margen de lo que mida el instrumento,
2 Sección redactado por el Lic. Christian Jibaja. Presidente del Círculo de investigación y
Desarrollo de Instrumentos Psicométricos – CIDIPSI, al cual se le agradece su colaboración.
24
y en este sentido parece coincidir con Muñiz (1994), quien indica que la
confiabilidad o fiabilidad se refiere a la estabilidad de las mediciones
cuando no existan razones teóricas o empíricas para suponer que la
variable a medir haya sido modificada diferencialmente para los sujetos,
por lo que esta estabilidad es asumida como tal, mientras no se demuestre
lo contrario.
En una definición más técnica, Cohen y Swerdlick (2001), señalan que la

confiabilidad es la proporción de la varianza total atribuida a la varianza
verdadera, y en consecuencia, entre mayor sea la proporción de la varianza
total atribuida a la varianza verdadera, la prueba será más confiable.
Entonces, parafraseando a Kerlinger y Lee (2002) se puede definir a la
confiabilidad como la ausencia relativa de errores de medición en un
instrumento de medición.
Es por tal motivo, que al incrementar la proporción de la varianza de error,

exista menor confiabilidad. De acuerdo con este enfoque, la confiabilidad
de un test puede expresarse en términos del “Coeficiente de
confiabilidad”, es decir, la correlación entre dos mediciones obtenidas de
la misma forma, y en función del “error estándar de la medición”
(Alarcón, 2008).
De esta manera, se observa que la confiabilidad suele estar definida

en términos de constancia temporal, es decir si existe o no cierta
variabilidad que dé indicios de estabilidad en una serie de aplicaciones de
la prueba; y en su estructura interna, o sea, si se encuentra que los
reactivos que conforman la prueba son consistentes entre sí, y por lo tanto
miden un mismo rasgo, habilidad o variable con precisión y de forma
consistente.
Tomando en cuenta tales definiciones de la confiabilidad, planteadas

en párrafos anteriores, es necesario mencionar ciertos factores que la
afectan, ocasionando que ésta sea mínima o máxima, de acuerdo a los
estándares permitidos, para considerar a un instrumento de medida o un
test con una buena precisión.
Por lo tanto, la presente revisión teórica expondrá e intentará explicitar

todos aquellos aspectos implicados a la problemática de la confiabilidad,
pasando por su estimador principal de medida e interpretación, así como,
aquellos procedimientos que permitirán resolver los mínimos grados de
confiabilidad de un instrumento psicométrico, hasta alcanzar un mayor
nivel de precisión en la medición y coadyuven a manifestar que el
instrumento utilizado puede ser fiable para una réplica posible y futura
25
medición en lo sucesivo de las aplicaciones; todo esto según el marco

referencial de la Teoría Clásica de los Test (TCT).
5.1. Factores que Afectan a la Confiablidad.
Son diversas fuentes que afectan la confiabilidad. En tal sentido,

haciendo una revisión en la literatura se ha podido destacar, tres
principales factores que tienen impacto sobre la confiabilidad de una
prueba psicológica o educativa. Estos factores son las que provienen
de características naturales del test, la variabilidad de la muestra y la
longitud de la prueba. De esta forma, se pasará a exponer y detallar
cada uno de estos factores propuestos.
5.1.1. Características Naturales del Test.
La naturaleza de una prueba (o test psicológico) hace referencia

a las características propias del test, aquí se incluyen
consideraciones como si los reactivos de una prueba son de
naturaleza homogénea o heterogénea; si la capacidad, rasgo o
característica que se está midiendo es dinámica o estática; si el
rango de puntuaciones de la prueba está restringido o no, si la
prueba es de velocidad o de poder; y si la prueba se lleva cabo
con referencia a algún criterio o no (Cohen y Swerdlik, 2001),
las mismas que suelen afectar la confiabilidad. A continuación, se
pasará a detallar cada una de estas consideraciones:
a) Homogeneidad contra heterogeneidad de los reactivos

de la prueba sobre la medida de una variable.
Esta consideración señala que si la prueba es homogénea en

sus reactivos, sería necesario esperar un alto grado de
consistencia interna y por lo tanto, confiabilidad. Esto se debe
a que los reactivos deben guardar una relación en conjunto
con la variable o factor que se está midiendo, como una
habilidad, capacidad, rasgo o característica.
b) Características Dinámicas versus las Estáticas de la

variable a medir.
Al obtener una estimación de la confiabilidad, se tiene que

tener en cuenta las implicancias de las características
dinámicas que pueden influir en la confiabilidad de un test,
ya que estas se dan en función de las experiencias
26
situacionales y cognoscitivas que afrontan los sujetos. Es así

que si se aplicara una prueba de ansiedad estado a una
persona que trabaja de cajero en un banco a lo largo de un día
atareado, un podría encontrar como esta característica cambia
de una hora a otra; así que la mejor estimación de la
confiabilidad podría obtenerse a partir de una medida de
consistencia interna, debido a que la medida de la ansiedad
estado suele ser una característica que puede cambiar
continuamente. Sin embargo, existen otras variables o
características como por ejemplo, la inteligencia en la que su
naturaleza tiende a ser estática o inmutable, y en este caso
sería necesario utilizar métodos de prueba y postprueba o el
método de formas alternas, ya que no se esperaría que la
medición varíe en función al tiempo.
c) Restricción o Inflación del rango de varianza.
Este criterio, señala la importancia de la varianza y los rangos

de varianza en referencia a la interpretación del coeficiente de
confiabilidad.
Si la varianza de cualquier variable en el análisis de

correlaciones es restringida por el procedimiento de muestreo
usado, entonces el coeficiente de confiabilidad resultante
tiende a ser menor, de lo contrario si la varianza es inflada
por el procedimiento de muestreo usado, entonces la
confiabilidad será mayor (Esto se ampliará mejor más adelante
en la variabilidad de las muestras). Asimismo, es importante
considerar, si el rango de las varianzas empleadas es
apropiado para el objetivo del análisis correlacional, sea para
cualquier medida de comparación de un sujeto conforme a una
evaluación grupal.
d) Según el tipo de Prueba: Pruebas de Velocidad frente a

Pruebas de Poder.
Una prueba de Velocidad es aquella prueba que por lo general

posee reactivos de nivel de dificultad uniforme, de modo que
cuando se dan límites de tiempo, todos los que responden
a la prueba, serian capaces de completar la totalidad de los
reactivos de la prueba en forma correcta. No obstante, cuando
27
de manera práctica se establece un límite de tiempo en una

prueba de velocidad, quienes logran responder a la prueba
serán capaces de completar la prueba en su totalidad. La
estimación de la confiabilidad en este tipo de pruebas va hacia
la demostración de la consistencia de velocidad de respuesta
y en tal sentido la confiabilidad en este tipo de pruebas, no
debe calcularse a partir de una sola aplicación con un límite
de tiempo único, sino tiene que hacerse en dos periodos.
El calcular la confiabilidad mediante métodos de una sola

aplicación, como los de la consistencia interna, se obtendría un
coeficiente de confiabilidad alto, pero falso.
En contraste a lo mencionado existen las pruebas de Poder,

que son aquellas que presentan un límite de tiempo bastante
largo, en donde a diferencia de la prueba de velocidad,
aquí se es capaz de obtener un puntuación perfecta.
e) Pruebas con base a un Criterio.
Las pruebas con base a un criterio están diseñadas para

proporcionar un indicio de la posición de quien las responde
como un objetivo educativo o vocacional. Las puntuaciones de
este tipo de prueba tienden a interpretar el desempeño
individual en función de aprobar o reprobar, y cualquier
resultado tiende a darse con propósitos de diagnóstico.
Una medida de confiablidad depende de la variabilidad de las

puntuaciones de la prueba, es decir lo diferentes que son las
puntuaciones entre sí, a causa de las diferencias
individuales. Sin embargo, lo determinante en una prueba en
base al criterio, no corresponde a las puntuaciones de la
prueba, sino a si se ha obtenido alguna puntuación criterio
que indique la clasificación de los individuos en base a un
objetivo.
Dado que la confiabilidad, no sólo depende de las

características propias de un test, y además suele expresarse
según el coeficiente de correlación, también existen otros
dos factores que pueden influir en los datos de confiabilidad.
Por lo tanto, se plantean estos importantes factores para
tomarlos en consideración.
5.1.2. Variabilidad de las Muestras.
28
Según la Teoría Clásica de los Test (TCT), un instrumento de

medición (test psicológico o educativo) se describe en función de
los objetos medidos. Entonces, la confiabilidad de un test
depende del tipo de muestra de sujetos utilizados para calcularla
(Muñiz, 1994).
Uno de los aspectos de la muestra que influye en la confiabilidad

es su variabilidad. Se ha mencionado que la confiabilidad está
estimada por el coeficiente de confiablidad, por lo tanto, este
puede aumentar, al incrementarse la variabilidad de la
muestra (muestra más heterogénea). Esto se debe a que el
coeficiente de confiabilidad está definido como la correlación de
entre dos formas paralelas de un test y esta correlación viene
afectada por la variabilidad del grupo, aumentando con ésta. En
otras palabras, un test no posee un coeficiente de confiabilidad
fijo, ya que depende de la variabilidad de la muestra en la que
se calcule.
Una fórmula que permite estimar este aumento de la variabilidad

y por ende de la confiabilidad, es aquella que surge de la
varianza de los errores de medida. Se dice que la fórmula es
apropiada si se cumple el supuesto que se basa en que la
varianza de los errores de medida en el test es la misma en
ambas poblaciones; o cual es la menos o más variable. Cabe
resaltar que la varianza siempre está definida como un índice de
variabilidad. A continuación se presenta el error típico de
medida:
e  x 1  rxx
Al comparar dos grupos, obtenemos:
( e 1)2 = ( e 2)2; ( e 1)2 > ( e 2)2 ó ( e 1)2 < ( e 2)2
Donde:
e : Error típico de medida.
σx : Desviación estándar empírica.
rxx : Coeficiente de confiabilidad en la población.
( e 1)2: Varianza de error de medida en una población.
( e 2)2: Varianza de error de medida en otra población.
Por lo tanto, mientras mayor sea la varianza de las puntuaciones

de un test o prueba psicológica y/o educativa que refleje una
29
muestra, mayor será el coeficiente de confiabilidad encontrado.
5.1.3. Longitud del Test.
La longitud de una test hace referencia al número de reactivos o

ítems que posee un test. En este sentido, la Confiabilidad también
depende de esta longitud del test, y se basa en una lógica que se
refiere que cuando se incluyen más ítems o reactivos en una
prueba, más aspectos de la variable o rasgo a medir se podrán
evaluar, evidenciando así, un incremento en la posibilidad de
poseer un mayor coeficiente de confiabilidad.
La fórmula de Spearman-Brown, permite explicar este supuesto,

debido a que estima el coeficiente de confiabilidad de un test en
función del aumento de la longitud de éste. Es decir, la fórmula
de Spearman – Brown, se traduce, por ejemplo, en si tenemos
un test “A” y se aumenta su longitud “n” veces a base de ítems
o reactivos paralelos a los originales, se obtendrá la confiabilidad
del nuevo test alargado. A continuación se presenta la fórmula
de Spearman – Brown:
nrxx'
rXX 
1  ( n  1) rxx '
Donde:
rXX : Confiabilidad del test alargado.

rxx' : Confiabilidad del test original.
n : Número de veces que se ha alargado el test.
Cabe destacar que una prueba o test breve suele ser inestable o
poco confiable; o en el mejor de los casos puede poseer una
confiabilidad muy limitada. Según Hogan (2004), entre las
pruebas que se han desarrollado adecuadamente y de uso más
generalizado, las confiabilidades de 0,80 exigen un mínimo de
25 ítems o reactivos, mientras que aquellas pruebas que poseen
coeficientes de confiabilidad de 0,90 requieren de unos 45 ítems
o reactivos.
Analizando lo anteriormente mencionado, la longitud de una

prueba es importante, debido a que la cantidad de reactivos de
una prueba, nos puede ayudar a predecir cuán confiable puede
ser un test, y mientras más larga sea la prueba, más confiable
podrá ser. Sin embargo, Kerlinger y Lee (2002) manifiestan que
30
si bien esta fórmula es una medida de estimación de la

confiabilidad, no quiere decir que se alcance medidas de
confiabilidad del todo favorables en el test, ya que la confiabilidad
también dependería de cuán bien desarrollados en su contenido
se encuentren los reactivos o ítems y permitan discriminar las
diferentes individualidades que responden a los reactivos.
5.2. Interpretación del Coeficiente de Confiabilidad.
Al iniciar la presente revisión bibliográfica, se planteó que la

confiabilidad puede especificarse en términos del Coeficiente de
Confiabilidad (Alarcón, 2008), en la que su definición es la correlación
entre dos formas paralelas de un test. Según Alarcón (2008), la
confiabilidad denota estabilidad y constancia de los puntajes,
esperándose que no se presenten variaciones en el curso de una serie
de aplicaciones del test. Por consiguiente, la interpretación del
coeficiente de confiabilidad viene dado por cuán preciso es un
instrumento de medición, cuando posee la menor varianza de error.
Por ejemplo, de la lectura de un coeficiente de confiabilidad para un
rxx = 0,80; se interpretaría lo siguiente: “En una población X, en
condiciones estandarizadas o tipificadas de aplicación; el 80% de la
varianza de los puntajes directos se debe a la varianza verdadera,
mientras que un 20% a la varianza de error”.
Ahora que se entiende como dar lectura a un coeficiente de

confiabilidad, la pregunta que tendríamos a continuación, sería ¿qué
nivel define que la confiabilidad de un test es aceptable o no? Al
respecto diversos investigadores han confluido en sus opiniones,
tomando como criterio la severidad de una decisión sobre los puntajes
de un test, la cual necesariamente responde al grado de precisión y
rigurosidad que se tenga en el estudio ya sea de un grupo de personas
o una persona sobre alguna determinada variable. De esta forma,
según Nunnally & Bernstein (1995) mencionan que si se platean
tomar decisiones importantes con respecto a las puntuaciones de una
prueba, una confiabilidad de 0,90 es lo mínimo que se podría aceptar
y una confiabilidad de 0,95 debe considerarse como lo deseable, de
acuerdo a la rigurosidad que plantean estos autores.
No obstante, haciendo una síntesis de las opiniones de los diversos

investigadores Hogan (2004), caracterizan los diferentes niveles de
confiabilidad de la siguiente forma:
 De 0,90 – 1,00 se percibe un Elevado nivel de confiabilidad.
 Cuando existe una confiabilidad de 0,80 – 0,90 se percibe un
31
Elevado y Moderado nivel de confiablidad.
 Alrededor de 0,70 – 0,80 se perciben como un nivel de confiabilidad

Bueno.
 Entre 0,60 – 0,70 se perciben confiabilidades con niveles Bajos.
Si un instrumento obtiene un coeficiente de confiabilidad de 0.60,

indica niveles inaceptablemente bajos como para tomar decisiones
para medir algún rasgo, característica o variable. Si se desea utilizarse
para fines serios, deberá incrementar su confiabilidad quizá alargando
la prueba.
5.3.Procedimientos para Incrementar la Confiabilidad de un Test.
Una vez habiendo sido expuestos todos aquellos factores que afectan
la confiabilidad de un test, se hace necesario trabajar con algunos
métodos que permitan incrementar el nivel de confiabilidad de una
prueba, obteniéndose así, instrumentos de mayor fiabilidad, con
menores índices de error, de manera que se resuelvan todas aquellas
causas externas, como internas de la medición. De esta forma, tal y
como lo mencionan Kerlinger & Lee (2002) el principio que subyace al
incremento de la confiabilidad vienen a estar dado por el principio
MAXIMINCON; y esto hace referencia a Maximizar la varianza de las
diferencias individuales y Minimizar la varianza del error. Para
desarrollar esto, Kerlinger y Lee (2002) proponen tres pasos o
procedimientos a seguir. El primero de ellos es escribir sin
ambigüedades los reactivos de los instrumentos de medición
psicológica o educativa ya que sería fuente de ingreso de la varianza
de error; el segundo procedimiento esta dado por los métodos de
amplitud de un test que pasaremos a revisar más adelante; y
finalmente como tercer procedimiento se encuentra la especificación
de instrucciones claras y estándar, la cuales tienden a reducir los
errores de medición.
Todo esto permitirá sacar conclusiones de que aquello que está

midiendo, tiene consistencia en tiempo y espacio, además de una
buena estabilidad en sus resultados.
5.3.1. Análisis de Reactivos:
Es a través de procedimientos estadísticos denominados análisis

de reactivos que se pueden incrementar, no sólo la confiabilidad,
sino también la validez de un test. En este sentido, se pueden
32
hacer análisis de dificultad del reactivo para instrumentos, en

donde las respuestas se evalúan como correctas e incorrectas
(aquí se encontrarían las pruebas de inteligencia, capacidades y
en general los tests cognitivos) y se puede calcular con la
siguiente fórmula:
Na
Dificultad del Reactivo =
Nt
Donde:
Na : Número de personas que responden correctamente a un

reactivo.
Nt : Número total de personas que toma la prueba.
Otro índice que se usa también, es el índice de acuerdos, el cual

es utilizado en pruebas donde no existen respuestas correctas o
incorrectas (aquí se encontrarían las pruebas de orden afectivo o
de personalidad), las cuales se pueden calcular con la siguiente
fórmula:
Ni
Índice de Acuerdos =
Nt
Donde:
Na : Número de personas que selecciona una respuesta.

Nt : Número total de personas que toma la prueba.
Para ambos índices, por regla general un mayor valor indicaría

mayor facilidad o acuerdo del reactivo o ítem y por lo tanto, más
personas respondieron correctamente o coincidentemente con el
rea ctivo. Es por eso que una gran cantidad de investigadores
concuerdan que los mejores índices de dificultad o de acuerdos
son los que se encuentran entre 0,5 y 0,7, siendo el 0,0 y 1,00
que contribuyen pobremente a la información de las diferencias
entre las personas de acuerdo al reactivo.
Otro índice para el análisis de reactivos según Kerlinger & Lee

(2002) es el índice de discriminación de reactivos, ya que indica
que tan efectivamente es capaz de discriminar un reactivo entre
puntuaciones altas y bajas. Vale aclarar que un reactivo se
considera bueno siempre y cuando es contestado correctamente
por personas que obtuvieron altas puntuaciones, y contestado
por erróneamente por las personas por aquellas con baja
puntuación y es allí que se puede mencionar que el reactivo
33
discrimina o nos puede revelar dichas diferencias individuales.

Esto suele explorarse con mayor certeza en pruebas de orden
cognitivo y la fórmula viene dada de la siguiente forma:
Pa  Pb
Índice de Discriminación =
Nap
Donde:
Pa : Número de personas en el grupo de alta puntuación que

respondieron correctamente al reactivo.
Pb : Número de personas en el grupo de baja puntuación que
respondieron correctamente al mismo reactivo.
Nap : Número de personas en el grupo de alta puntuación.
Valores de 0,0; 1,0 y -1,0 son raros de encontrar. A mayor valor

existe mayor discriminación del reactivo, por lo tanto, se espera
obtener valores altos y positivos. No obstante, si existiesen
valores negativos la discriminación del reactivo es inversa y en
consecuencia el reactivo no está funcionando bien.
Para pruebas donde no existen respuestas correctas e incorrectas

como los tests de tipo afectivo o de personalidad, se hace uso de
la correlación de la puntuación del reactivo con la puntuación
total, sin embargo, este procedimiento también puede emularse
para pruebas de tipo cognitivo. Este tipo de incremento de la
confiabilidad se verá con más detenimiento más adelante en el
punto que refiere al cálculo de la confiabilidad de un test
extrayendo los ítems que cuyas puntuaciones correlacionan bajo
con el total del test.
5.3.2. La Amplitud del test.
Tal como se había mencionado, uno de los factores que afectan

la confiabilidad de una prueba o test, es su longitud; de manera
que a mayor cantidad de reactivos que pudiera poseer una
prueba, existiría una mayor probabilidad de poseer un
incremento en el coeficiente de confiabilidad, y por ende en la
confiabilidad.
Una de las forma de remediar una baja obtención del coeficiente

de confiabilidad después de una aplicación del test en un estudio
piloto; se basa en este factor (la longitud del test). Es así
34
que utilizando la fórmula de Spearman – Brown, podemos

estimar o predecir el efecto debido al incremento de la amplitud
sobre la confiabilidad del test:
nrxx'
rXX 
1  ( n  1) rxx '
Donde:
rXX : Confiabilidad del test alargado.

rxx' : Confiabilidad del test original.
n : Número de veces que se ha alargado el test.
Por ejemplo: Un test que consta de 15 ítems, se aplicó a una

muestra de sujetos, con lo que se obtuvo un coeficiente de
confiabilidad de 0,60. Si se añadiera 10 ítems paralelos a
los que posee ¿Cuál sería la nueva confiabilidad?
En un primer momento se debe calcular “ n ”, que es la suma de

el número actual de ítems con los añadidos, dividido con el
número actual de ítems:
15  10
n  1,67
15
Una vez obtenido “ n ” se procede a estimar el nuevo

coeficiente de confiabilidad:
(1,67)(0,60)
rXX   0,71
1  (1,67  1)(0,60)
Se puede observar que la nueva confiabilidad que se ha obtenido,

se encuentra en el rango (0,70 – 0,80), que corresponde a un
buen nivel, por lo que se tendría que tomar la decisión de
incrementar 10 ítems al test, para volver hacer una nueva
aplicación. Sin embargo, esto no garantiza las respuestas que
puedan ejercer los sujetos al momento de la evaluación, por lo
que este nuevo incremento de un mínimo de 10 ítems tiene
que estar en función a la variable que se va medir, de manera
que haya una homogeneidad dentro de los factores y en toda la
variable que se pretenda medir, pero que de oportunidad a una
diversidad de respuestas.
35
5.3.3. Varianzas de las muestras.
Usando la fórmula de la varianza de error de medida, se pueden

comparar las varianzas de dos poblaciones de interés a las cuales
se pretende obtener el coeficiente de confiabilidad. La intención
de esta comparación es observar qué población presentaría la
mayor varianza de error.
Tal como se había declarado anteriormente, en la

variabilidad de las muestras; el error típico de medida viene
dado por la siguiente fórmula:
e  x 1  rxx
Donde:
σe : Error típico de medida.

σx : Desviación estándar empírica.
rxx : Coeficiente de confiabilidad en la población.
Si se compara la varianza de error típico de medida en dos

poblaciones tenemos lo siguiente:
(σe 1)2 = (σe 2)2
De esta manera se reemplazan los valores de la varianza de error

típico de medida en ambas poblaciones:
 12 (1  r11 )   22 (1  r22 )
Despejando r22, se obtiene la formula de estimación de

la nueva confiabilidad:
 22
r22  1  2 (1  r11 )
1
Donde:
r11 : Coeficiente de confiabilidad en población 1.
r22 : Coeficiente de confiabilidad en población 2.
σ12: Varianza empírica en población 1.
σ22: Varianza empírica en población 2.
36
Analizando esta fórmula obtenida, si las varianzas fueran iguales,

el coeficiente de confiabilidad no varía, pero si hay diferencias,
existirá variación, ya sea de un incremento o de un decremento
en la estimación de la confiabilidad.
Por ejemplo, en una prueba de motivación de logro académico se

obtuvo un coeficiente de confiabilidad de 0,68 y cuya varianza es
41 en una muestra de estudiantes universitarios. Si la varianza
fuera de 128, se obtendría un nuevo coeficiente de confiabilidad
con la fórmula de estimación de la confiabilidad, de esta forma:
41
r22  1  (1  0,68 )  0,89
128
Por lo tanto, se demuestra el axioma mencionado, en la cual el

coeficiente de confiabilidad aumenta de 0,68 a 0,89, al aumentar
la variabilidad de la muestra de 41 a 128.
Utilizando el programa estadístico SPSS en su versión 17, se

puede observar la diferencia de las varianzas en grupos de los
cuales nos llevaría a pensar que a una mayor varianza existiría
una mayor confiabilidad. Para esto se usa la opción t para
muestras independientes, ubicado entre las opciones de
“Analizar” y localizado entre las opciones de “Comparar Medias”.
Una vez ubicada la opción “Prueba T para muestras

independientes” en “Comparar Medias”, se coloca el total de las
puntuaciones de la prueba en: “Variables para Contrastar”; y en
la parte de: “Variables de Agrupación”; se coloca el grupo en que
se desea ver las diferencias, obviamente después de haberlo
categorizado, para luego ubicar dicho espacio las dos categorías.
Este procedimiento nos lleva a ver la igualdad o diferencia de

varianza, en un primer momento, y posteriormente la igualdad
de medias; sin embargo, para efectos de este trabajo, sólo se
comparará las varianzas. Esto se lleva a cabo mediante la Prueba
de Levene para la igualdad de varianzas, en donde se señala si
las diferencias son significativas o no de acuerdo con el nivel
de significación de 0,05. De esta forma podemos ver si existe
homogeneidad (principio de homocedasticidad o dispersión
similar) o heterogeneidad (principio de heterocedasticidad o
dispersión diferente) en las varianzas entre las muestras.
Siguiendo el mismo ejemplo de la prueba de motivación de

37
logro se observa, en la Tabla 18, la diferencia de varianzas

empíricas en las dos muestras, debido a que se obtuvo un F =
31,497 con un nivel de significación menor a 0,05.
Tabla 18
Varianza de dos muestras
Prueba de Levene
Prueba de muestras independientes
para la igualdad de
varianzas
F Sig.
Se han asumido varianzas
Motivación de iguales 31,497 0,00
Logro No se han asumido varianzas 0
iguales
Tabla 19
Estadísticos de la escala en la muestra 1
Media Varianza Desviación N de

típica elementos
94,53 40,991 6,40 19
2
Tabla 20
Estadísticos de la escala en la muestra 2
Media Varianza Desviación N de

típica elementos
85,32 127,541 11,293 19
En ese sentido, si bien existen diferencias significativas en las
varianzas de ambas muestras en la misma prueba; su puede
notar en las Tablas 19 y 20, que la varianza de la muestra 2 es
mayor que la varianza de la muestra.
Haciendo un análisis de la confiabilidad en ese mismo test de

motivación de logro académico, la cual se compone de 19
reactivos en una escala de diferencial semántico de 6 grados, se
obtuvo los siguientes coeficientes de confiabilidad mediante el
Alfa de Cronbach, para las dos muestras en mención:
La muestra 1, cuya varianza es 40,991 (ver Tabla 02), posee una

confiabilidad de 0,681 que se muestra en Tabla 4.
Tabla 21
Confiabilidad de una muestra 1
38
Estadísticos de fiabilidad en la
muestra 1
Alfa de N de elementos
Cronbach
0,68 19
1
La muestra 2, cuya varianza es 127,541 (ver Tabla 20), posee
una confiabilidad de 0,866 la misma que se muestra en la Tabla
22:
Tabla 22
Confiabilidad de una muestra 2
Estadísticos de fiabilidad en la
muestra 2
Alfa de Cronbach N de elementos
0,86 19
6
De esta manera, se comprueba la fórmula de estimación de la
confiabilidad en una prueba mediante el programa estadístico
SPSS 17; en la que la confiabilidad de la muestra 2 es mayor
que la de la muestra 1 ( r22 > r11 ), ya que la muestra 2 posee
mayor varianza que la muestra 1, es decir la muestra 2 es más
aleatoria que la muestra 1 (existe mayor variabilidad en la
muestra 2): σ22 > σ12.
5.3.4 Cálculo de la confiabilidad de un test extrayendo los ítems

que cuyas puntuaciones correlacionan bajo con el total del
test.
Este método se fundamenta en el principio de la correlación de

la puntuación del ítem con la puntuación total del test.
Para obtener una mayor confiabilidad en un test del que se ha

obtenido al evaluarse a una determinada población, se tiene que
extraer del test aquellos ítems o reactivos que poseen una
correlación baja con el total del test. Esto se fundamenta en la
consistencia interna que poseen los ítems en relación con el test o
prueba, es decir en qué grado los ítems de un test se encuentran
intercorrelacionados entre sí con el total del test y midan de esta
forma una misma característica. No obstante, este incremento no
llega a ser tan diferenciado con el coeficiente de confiabilidad
39
obtenido.
Este método, generalmente suele usarse para la validez de

constructo, que por lo general, se suele llamar: “Validación de
constructo mediante la Correlación ítem – test”.
A continuación, utilizando el programa estadístico SPSS versión 17,

se realizará un ejemplo de este incremento cuando ciertos ítems
que poseen bajas correlaciones con el total del test son extraídos
de éste, dando como resultado una nueva confiabilidad
relativamente elevada.
A manera de ejemplo se utilizará una prueba de Motivación de

Logro Académico de 22 reactivos; que al aplicarse a una muestra
de 202 estudiantes universitarios, se obtuvo el siguiente coeficiente
de confiabilidad: r = 0,834.
Para haber obtenido la confiabilidad de este instrumento con el

programa SPSS 17, se procedió de esta manera:
Se utilizó la opción “Analizar”, luego “Escala”, de allí se ingresó a

“Análisis de fiabilidad” y se anotó todos los ítems que componen el
test a la columna “Elementos”, para finalmente, entrar a
“Estadísticos”, en donde se marcó en el menú de “Descriptivos
para”, las opciones de “Elemento”, “Escala” y “Escala si se elimina
el elemento”. Al terminar, se eligió el botón “Continuar”, y luego
“Aceptar”. En ese primer análisis de la confiabilidad, el resultado se
muestra a continuación en las Tablas 23 y 24:
Tabla 23
Estadísticos de confiabilidad
Estadísticos de
fiabilidad
Alfa de N de
Cronbach elementos
0,834 2
2
Tabla 24
Correlación total elemento
Estadísticos total-elemento
40
Alfa de
Correlación
Correlación Cronbach
elemento-
múltiple al si se
total
cuadrado elimina el
corregida
elemento
ML 1 ,419 ,487 ,827
ML 2 ,085 ,132 ,843
ML 3 ,351 ,433 ,830
ML 4 ,142 ,112 ,838
ML 5 ,223 ,260 ,835
ML 6 ,537 ,478 ,821
ML 7 ,573 ,419 ,819
ML 8 -,177 ,184 ,850
ML 9 ,523 ,438 ,823
ML 10 ,427 ,310 ,826
ML 11 ,556 ,477 ,821
ML 12 ,615 ,556 ,818
ML 13 ,545 ,394 ,821
ML 14 ,268 ,222 ,833
ML 15 ,399 ,388 ,827
ML 16 ,326 ,209 ,830
ML 17 ,582 ,514 ,821
ML 18 ,584 ,463 ,819
ML 19 ,550 ,459 ,822
ML 20 ,492 ,379 ,824
ML 21 ,583 ,444 ,822
ML 22 ,374 ,289 ,828
Se puede observar en el Tabla 7, que los reactivos ML2, ML4 y

ML8, poseen bajos índices en sus coeficientes de correlación con
el total del test, ya que son menores a 0,20. No obstante, si
se logra sacar cada uno de estos ítems que tienen bajas
correlaciones, se tendrá una reducción del número de reactivos,
pero la confiabilidad tendrá un ligero incremento.
Tabla 25
Correlación total elemento
Estadísticos total-elemento
Alfa de
Correlación
Correlación Cronbach
elemento-
múltiple al si se
total
cuadrado elimina el
corregida
elemento
ML 1 ,457 ,475 ,861
ML 3 ,379 ,425 ,863
41
ML 5 ,226 ,237 ,869

ML 6 ,551 ,451 ,856
ML 7 ,578 ,415 ,854
ML 9 ,517 ,423 ,858
ML 10 ,410 ,298 ,861
ML 11 ,589 ,471 ,855
ML 12 ,623 ,551 ,853
ML 13 ,558 ,388 ,856
ML 14 ,253 ,198 ,867
ML 15 ,427 ,362 ,861
ML 16 ,334 ,199 ,865
ML 17 ,590 ,510 ,855
ML 18 ,603 ,462 ,854
ML 19 ,546 ,456 ,857
ML 20 ,491 ,350 ,858
ML 21 ,583 ,440 ,856
ML 22 ,363 ,275 ,864
Tabla 26
Estadísticos de fiabilidad
Alfa de N de
Cronbach elementos
0,866 19
De esta forma, se nota que la confiabilidad logró aumentar

ligeramente de 0,834 a 0,866, habiendo disminuido la cantidad de
reactivos del test.
Como complemento a lo todo lo mencionado, se tiene que tener

presente cuatro aspectos importantes en la confiabilidad. El
primero de ellos, es que la confiabilidad siempre es importante
porque nos indica el nivel de precisión de un instrumento, prueba o
test. Un instrumento poco o no fiable, no puede utilizarse para tomar
decisiones y aseveraciones sobre la medición de algún rasgo,
capacidad, habilidad o característica. En segundo lugar, considerar la
relación existente entre la longitud del test y la confiabilidad. En
consecuencia las pruebas o test breves suelen ser bastante
inestables o poco confiables. Si por ejemplo, una prueba es larga o
breve y posee una confiabilidad de 0.60, y tal como se señaló en la
parte de la Interpretación del coeficiente de confiabilidad, una
prueba con ese nivel de confiabilidad no es fiable de ser utilizado
para fines serios, con lo que se tendría que proceder a alargar la
prueba, para incrementar la confiabilidad.
42
Al alargar una prueba (Amplitud del test), se tiene que considerar,

que este procedimiento de incremento de la confiabilidad de una
prueba, no sea un factor determinante en los examinados, en que
les cause fatiga o los desaliente en la tarea, ya que se estaría
incidiendo en un error de construcción de la prueba (Error no
sistemático) que ayudaría a aumentar la varianza de error y por ende
una menor confiabilidad.
Cuando se ha aplicado una prueba, no se debe confundir el aumento

de la variabilidad con el aumento de una muestra, ya que no
necesariamente depende de la cantidad de sujetos que han
respondido una serie de reactivos de un test, sino que depende de
la varianza, es decir cuán variables son las respuestas a los reactivos
de esa prueba aplicada, aunque en ciertas ocasiones es necesario
aumentar la muestra, de manera que nos permita ver si hay mayor
variabilidad conjuntamente con ese nuevo grupo de sujetos. Por
otro lado, es necesario y primordial utilizar la mejor técnica de
muestreo, buscando así la aleatorización, de manera que se obtenga,
una mejor variabilidad en las características de los sujetos como
variable.
Destacar como tercer punto, revisar los niveles de los coeficientes de

confiabilidad de la prueba o test, tal y como se expuso en la parte de
la interpretación del coeficiente de confiabilidad; de manera que se
realicen los análisis respectivos sobre los reactivos o ítems de
acuerdo a las correlaciones de sus puntajes sobre el total de la
prueba, de manera que permitan tomar decisiones con la finalidad
de mejorar la precisión y estabilidad de la prueba o test psicológico.
Finalmente, es necesario indicar que una gran herramienta, que

puede favorecer a ejecutar los procedimientos de incrementar la
confiabilidad de un test, es la de realizar estudios pilotos con el test,
de manera que permitan controlar las fuentes e influencias de error
que forman parte de la varianza de error y que por ende afectan la
confiabilidad de una prueba psicológica o educativa.
TIPOS DE CONFIABILIDAD
Denominación Procedimiento Varianza de Error

Estabilidad Retest con la misma Fluctuación
forma en distinta Temporal
ocasión.
43
Equivalencia Retest con forma Especificidad del

paralela en la misma elemento
ocasión.
Estabilidad y Retest con forma Fluctuación

Equivalencia paralela en distinta temporal y
ocasión. especificidad del
elemento
Consistencia Interna División por Especificidad del

mitades. elemento
Consistencia Interna Kuder – Richardson Especificidad del

Homogeneidad Kr20 y Kr21 element
heterogeneidad
Consistencia Interna Alfa de Cronbach Especificidad del

Homogeneidad elemento
heterogeneidad
Lección III
Validez
Concepto, características y aplicaciones3
1. Concepto
3
44
Siguiendo a Abad, Garrido, Olea & Ponsoda (2006), una cosa es que el test
mida de manera precisa o estable (esta cualidad se refiere a su
confiabilidad), y otra diferente es la cuestión de qué es lo que
auténticamente está evaluando. En el ámbito psicosocial, los diferentes
constructos resultan difícilmente operativizables de manera indiscutible, y
a veces se producen dudas razonables sobre qué mide un determinado
test. Una prueba de inteligencia general tendrá un elevado grado de validez
si asigna puntuaciones altas a las personas muy inteligentes, puntuaciones
medias a las personas medianamente inteligentes y puntuaciones bajas a
las personas de poca inteligencia. Un cuestionario para evaluar el nivel de
autoestima tendrá un elevado nivel de validez si se demuestra que mide
de forma exhaustiva todos los componentes en que puede manifestarse la
autoestima.
La validación es un proceso continuo, que incluye procedimientos

diferentes para comprobar si el cuestionario mide realmente lo que dice
medir. Dicho de otro modo, tiene que ver con el tipo de conclusiones o
inferencias que pueden realizarse a partir de las puntuaciones obtenidas
en el test. Las inferencias pueden ser de muy diverso tipo: ¿qué rasgo
estamos midiendo realmente? ¿Qué podemos predecir sobre el
comportamiento de un sujeto que obtiene una determinada puntuación en
el test? ¿Qué consecuencias de diverso tipo tiene esa puntuación, en
contextos de evaluación o selección?
Aunque cada vez se tiende más a concebir la validez como un proceso

unitario que tiene como objetivo aportar pruebas sobre las inferencias que
podemos realizar con un test, tradicionalmente se han diferenciado varios
procedimientos de validación, alguno de los cuales incluye varios métodos
diferentes de comprobación. Los fundamentales procedimientos son
denominados como validez de contenido, de constructo y referida al
criterio.
2. Validez de contenido
Sobre todo en pruebas de rendimiento (por ejemplo, pruebas de

inteligencia, de aptitudes, etc.) y en pruebas de conocimientos
(cuestionarios para evaluar el rendimiento en una materia escolar o en una
especialidad temática concreta), tiene sentido justificar que el conjunto de
ítems que forman el test conforman una muestra representativa del
universo de contenidos que interesa evaluar. Un test de conocimientos de
Química en 3er grado secundaria, por ejemplo, debería incluir cuestiones
representativas de los diferentes núcleos de contenidos que oficialmente
deben impartirse en ese nivel de estudios. Sería una prueba poco válida si
incluye demasiadas cuestiones de unos temas y muy pocas de otros.
45
Para justificar, aunque sólo sea racionalmente, que un test posee validez
de contenido, debe quedar bien definido el universo o dominio conductual
de referencia: especificar claramente cuáles son los contenidos de Química
que debe conocer un alumno de 3er grado secundaria, cuáles son los
componentes que interesa considerar en un cuestionario de cultura
general, qué tipo de conocimientos y destrezas son las pertinentes para
medir el nivel básico de inglés, etc. En definitiva, nos referimos a explicitar
claramente los objetivos de la evaluación y la importancia que se quiere
dar a cada uno, lo que determinará la cantidad de cuestiones a incluir
referidas a cada uno de esos objetivos. En definitiva, la validez de
contenido es un tema particular del de muestreo: si deseamos realizar
inferencias sobre el rendimiento de las personas en una población de
contenidos determinada, el test debe incluir una muestra representativa
de dichos contenidos.
El proceso de validación de contenido es eminentemente lógico, si bien

pueden utilizarse jueces expertos en el tema para valorar la congruencia
entre los diversos ítems y los diversos objetivos. Existen procedimientos
cuantitativos diversos para que cada experto valore el grado en que un
ítem sirve para evaluar el objetivo al que corresponde. El procedimiento
cuantitativo más sencillo sería el siguiente:
- Especificar los diversos objetivos (áreas diferentes de contenidos) que se

pretenden evaluar.
- Elaborar varios ítems para cada objetivo.
- Seleccionar una muestra de expertos en el contenido del test.
- Pedirles que, según su opinión, asignen cada ítem al objetivo que
pretende medir.
- Seleccionar los ítems en los que los expertos manifiestan mayor acuerdo
en sus clasificaciones.
La verificación de la validez de contenido de una prueba educacional no

encierra dificultades, sobre todo porque se dispone de fuentes empíricas,
como programa escolar, textos utilizados en la enseñanza y objetivos de
instrucción que facilitan verificar la validez de contenido del test. Sin
embargo, en pruebas que miden variables psicológicas, este tipo de
validez afronta serios problemas. Anastasi refiere que el contenido de los
test de aptitud y de personalidad apenas sirve más que para revelar la
hipótesis que llevó al psicólogo, elaborador del test, a escoger un
determinado contenido para medir un rasgo específico. Hay que confirmar
empíricamente estas hipótesis para establecer la validez del test (Anastasi,
1978).
Muy en relación con la validez de contenido se encuentra lo que se ha dado

en llamar validez aparente, que se refiere al grado en que un test da la
46
impresión a los evaluados de que mide lo que se pretende. En situaciones

aplicadas, es importante que las personas perciban que los ítems del test
tienen que ver con la finalidad que se persigue con el procedo de
evaluación.
Para establecer la validez de contenido se requiere, en suma, que se defina

con precisión el comportamiento que se trata de medir y que se incluya en
el test una muestra representativa de los indicadores relevantes del
comportamiento. En la práctica, la validez de contenido, a diferencia de
otros tipos de validez, que son determinados por coeficientes de
correlación, la validez de contenido es verificada por jueces expertos,
quienes evalúan la representatividad de los indicadores de la conducta que
se mide, buscando establecer si representan el universo del contenido de
esa conducta y la relevancia de los ítems para medir tales indicadores. Se
debe ofrecer a los jueces claras especificaciones acerca de lo que juzgarán.
3. Validez de constructo
Un constructo es un concepto elaborado por los teóricos de la Psicología

para explicar el comportamiento humano. Inteligencia fluida, extroversión,
autoconcepto, asertividad, motivación intrínseca... son constructos que
forman parte de teorías psicológicas y que precisan de indicadores
observables para su estudio. En muchas ocasiones, estos indicadores son
los ítems de un test, y debe comprobarse empíricamente que resultan
adecuados para reflejar el constructo de referencia.
La validez de constructo se define como el grado en que un test mide la

construcción teórica en la que el test reposa. Todo test psicológico se basa
en una construcción teórica que el autor desarrolla o asume, para explicar
la organización y funcionamiento de una conducta. La validez de constructo
se determina mostrando que las consecuencias que pueden predecirse
sobre la base de la teoría con respecto a los datos del test pueden, en lo
fundamental, confirmarse por una serie de pruebas. (Magnusson, 1969).
La comprobación de la validez de constructo requiere de un largo proceso,

pues lo que se trata de verificar es la hipótesis referida a la conducta que
se intenta medir. En el curso del proceso de validación el investigador
incrementa sus conocimientos acerca del test proyectado, lo revisa y
progresivamente lo mejora para hacerlo un instrumento de medida del
constructo. Puede cambiar sus conceptos teóricos y también el
instrumento para medir esos conceptos teóricos. Todo esto lo realiza
mediante información adquirida a través de estudios empíricos.
La literatura respecto a las técnicas para establecer la validez de constructo

muy a menudo reiteran los procedimientos utilizados para determinar la
47
validez relacionada con criterios, y no pocas veces han surgido confusiones

con la validez de contenido. Es claro que las técnicas han sido utilizadas
con diferentes propósitos. Al respecto, Kerlinger (1975), señala que, en
cierto sentido, cualquier tipo de validación es validación de construcción.
Las siguientes son las técnicas más utilizadas para determinar este tipo de
validez.
3.1 Métodos para la estimación de la validez de constructo
La validez de constructo incluye la planificación y ejecución de

determinados estudios de investigación orientados a comprobar
empíricamente que un test mide realmente el constructo o rasgo que
pretendemos. Aunque los métodos a emplear son sin duda variados,
así como las técnicas estadísticas para analizar los datos, podemos
encontrar un común denominador a todos ellos, que se sintetiza en las
siguientes fases:
1.- Formular hipótesis relevantes (extraídas de deducciones

teóricas o del sentido común) en las que aparezca el constructo
que pretendemos evaluar con el test. En definitiva, una hipótesis
de trabajo consiste en poner en relación dos o más variables. Pues
bien, una de esas variables ha ser el constructo que pretendemos
medir con el test.
2.- Efectuar en la práctica mediciones oportunas de las variables

o constructos involucrados en las hipótesis. La medición del
constructo de interés se realizará con la prueba diseñada a tal
efecto, que es la que pretendemos validar.
3.- Determinar si se verifican o no las hipótesis planteadas. En el

caso de que así sea, queda confirmado mediante una investigación
que el test mide el constructo de interés ya que, de lo contrario, no
habría razones lógicas para que se cumplieran las hipótesis
formuladas. Si las hipótesis no se confirman no significa en
principio que el test no es válido, ya que puede ser debido a que
las hipótesis no estaban planteadas de manera adecuada, lo cual
exigiría una revisión de la teoría subyacente.
Imaginemos, por ejemplo, que un investigador está interesado en

validar una prueba de motivación intrínseca-extrínseca que ha
construido. Desde la teoría motivacional de partida se puede deducir
que las personas motivadas intrínsecamente deberían rendir mejor en
actividades escolares que las personas motivadas por razones
extrínsecas (deseos de alcanzar determinada nota o determinado
refuerzo externo). Para validar su prueba, el investigador tiene que
48
demostrar empíricamente que mide auténticamente el constructo

motivacional que se pretende, y podría proceder de la siguiente
manera:
a) Aplicar el test a un grupo amplio de alumnos del nivel escolar

apropiado.
b) Recoger información de cada alumno sobre su nivel intelectual, su

calificación académica media en el último curso y las horas que
dedica al estudio.
c) Formar dos grupos diferentes (A y B), de tal manera que ambos

tengan un mismo nivel intelectual medio y que ocupen un número
similar de horas en el estudio, pero que el grupo A tenga niveles
altos de motivación intrínseca y el B niveles altos de motivación
extrínseca.
d) Comparar el rendimiento académico de los dos grupos. Si la

hipótesis de partida fuera cierta, el grupo A debería rendir
significativamente más que el grupo B, con lo cual se aportaría
información sobre la validez del test. Desde luego, si el test no
midiera motivación, sería improbable que se verificase la hipótesis
de trabajo.
Pueden ser muy variados los métodos a seguir que, cumpliendo el

proceso de ejecución planteado anteriormente, sirvan para poner a
prueba la validez de constructo de un test. En cada caso habrá que
seguir el que más convenga para contrastar las hipótesis de partida,
pero algunos métodos suelen ser más frecuentes. Entre ellos
destacamos:
- Obtener las relaciones entre las puntuaciones en el test y en otras

variables que deberían relacionarse con el constructo de interés. Si
el modelo teórico está bien fundamentado, debe establecer
relaciones entre el constructo de interés y otros diferentes, y por
tanto debe ser posible establecer diseños de investigación para
contrastar las previsiones teóricas. Por ejemplo, para predicir (y
comprobar) que una escala de susceptibilidad al castigo (que mide
el grado de evitación de situaciones reales aversivas) debe
proporcionar puntuaciones relacionadas directamente con
neuroticismo e inversamente con estabilidad emocional.
- Evaluar mediante el test a grupos que se supone deben ser diferentes

en el constructo, para comprobar si realmente es así. Resulta un
49
enfoque eminentemente diferencial: si el test es válido, debería

reflejar las diferencias entre grupos que se predicen desde la teoría
psicológica. Por ejemplo, si un test de inteligencia general para
edades infantiles es válido, debería reflejar el mayor rendimiento de
los niños de más edad.
- Utilizar una estrategia experimental para comprobar si el test resulta

sensible para detectar los efectos previsibles debidos a la
manipulación o selección de los niveles en una o más variables
independientes. El ejemplo expuesto anteriormente sobre
motivación y rendimiento puede servir para entender esta
estrategia.
- Aplicar la técnica multivariada del Análisis Factorial (exploratorio o

confirmatorio) sobre la matriz de correlaciones entre items, para
descubrir estadísticamente las variables o dimensiones subyacentes
(factores) a la covariación entre los elementos.
3.2 Validez por medio del análisis factorial
Este último método, denominado validez de constructo factorial,

requiere alguna precisión que puede ser pertinente por fundamentarse
en una técnica estadística relativamente sofisticada y, sobre todo,
porque su utilización práctica es muy extensa.
El análisis factorial es una técnica estadística multivariante que sirve

para estudiar las dimensiones que subyacen a las relaciones entre
varias variables. Normalmente toma como datos de partida la matriz
de correlaciones entre las n variables que interesa analizar. Como
información final, proporciona una matriz de tamaño n × p,
denominada matriz factorial rotada.
Esta matriz contiene las saturaciones de cada variable en cada una de

las “p” dimensiones extraídas, y que son las correlaciones de Pearson
entre cada variable y cada dimensión. El análisis factorial se realiza con
dos objetivos 1) determinar cual es el número de dimensiones o
factores que mide un test y descubrir cual es el significado de cada
una; 2) obtener la puntuación de cada sujeto en cada dimensión.
Normalmente, el número de dimensiones que mide un test es mucho
menor que el de ítems. Para descubrir su significado y darles sentido
es necesario fijarse en las variables que saturan de forma elevada en
cada dimensión. Cuando el investigador se enfrenta con la tarea de dar
significado a una dimensión, debe realizar un proceso inferencial para
encontrar el nexo de unión entre las variables que manifiestan
correlaciones elevadas en la dimensión. Además, los diferentes
50
factores (dimensiones) extraídos no tienen la misma importancia. Cada

uno explica una determinada cantidad de la varianza total de los ítems,
que se expresa porcentualmente, y que indica la importancia de esa
dimensión para dar cuenta de la covariación entre las variables. Si un
factor explica un porcentaje elevado de la varianza total, eso es
síntoma de que las saturaciones de las variables en dicho factor son
altas, lo que significa que es una dimensión importante a la hora de
describir las relaciones entre las variables originales.
Un psicólogo ha elaborado una prueba de cinco ítems para evaluar la

actitud hacia las nuevas tecnologías por parte de las personas
mayores. Los ítems, que se responden en una escala de siete
categorías ordenadas (desde 1: “muy en desacuerdo" hasta 7: “muy
de acuerdo"), son los siguientes:
ítem 1: El uso de teléfonos móviles puede hacerme la vida más fácil.

ítem 2: Los aparatos modernos son demasiado caros.
ítem 3: Me gustaría tener una agenda electrónica.
ítem 4: El coste de las llamadas desde un móvil es razonable.
ítem 5: Gracias a internet podemos resolver muchos problemas.
Los 5 ítems se aplicaron a una muestra de 200 personas. La matriz de

correlaciones entre ellos se sometió a un análisis factorial,
obteniéndose los siguientes resultados. Esta matriz contiene las
saturaciones, es decir, la correlación de cada ítem con cada uno de los
factores que mide el test:
Tabla 18
Análisis factorial exploratorio
Hay dos factores fundamentales que explican las relaciones entre los 5
items. Supongamos que se tipifican las puntuaciones en los ítems; la
varianza total sería cinco, que es la suma de la varianza de cada ítem.
El factor I explica un 34% de la varianza total, el factor II explica un
51
21% de la varianza total. Con los dos factores se explica el 55% de la

varianza de los ítems.
En el factor I obtienen saturaciones altas los items 1, 3 y 5, que indican

si la persona considera que las nuevas tecnologías pueden ser útiles
para mejorar su calidad de vida. El ítem 2 tiene una saturación negativa
(aunque baja) porque posiblemente manifiesta una actitud contraria
hacia las nuevas tecnologías. Por tanto, el factor I puede denominarse
“Actitud positiva hacia las nuevas tecnologías como medio para
mejorar la calidad de vida”.
En el factor II obtienen saturaciones elevadas (en valor absoluto) los

ítems 2 y 4, mientras que el resto de saturaciones son cercanas a cero.
El hecho de que el ítem 2 tenga una saturación positiva y el 4 negativa
significa que las personas con puntuación alta en el factor II tienden a
estar de acuerdo con el ítem 2 y en desacuerdo con el 4. Este segundo
factor podría etiquetarse “Sensibilidad hacia el gasto que supone
utilizar las nuevas tecnologías”.
Vemos, pues, que las relaciones de covariación entre los ítems

podemos explicarlas con dos dimensiones que resultan bastante claras
de identificar. Como el lector puede suponer, las cosas no son tan
evidentes en la realidad; el investigador debe decidir cuántos factores
están presentes en los datos y, sobre todo, debe asignar un significado
a cada factor, lo que normalmente no es tan sencillo como en este
ejemplo. Lo cierto es que la aplicación del análisis factorial aporta
información sobre las dimensiones que estamos midiendo con un
determinado cuestionario, es decir, proporciona información sobre la
validez de la prueba. En las siguientes secciones se describe más
detalladamente cómo se obtiene e interpreta la estructura factorial que
subyace a las respuestas a los ítems de un test.
El análisis factorial se basa en un modelo que es una extensión del

utilizado en teoría clásica de test. A modo de ejemplo, consideremos
los siguientes seis ítems de una escala de Cordialidad dirigida a
población infantil:
1. Me comporto de manera honesta y correcta con los demás.

2. Trato a mis compañeros afectuosamente.
3. Si un compañero tiene dificultades, le ayudo.
4. Confío en los demás.
5. Pienso que otras personas son buenas y honradas.
6. Dejo que los demás usen mis cosas.
52
Estos ítems se aplicaron a una muestra de 564 chicos y chicas de entre

11 y 14 años. La matriz de correlaciones obtenida en esta muestra fue:
a. Análisis factorial con un único factor
Puede plantearse que los seis ítems miden una misma

característica, la “cordialidad”. Aplicando el modelo de la teoría
clásica de test a las puntuaciones de los ítems, se obtienen las
ecuaciones:
Esto significa que todos los ítems miden la misma característica (la
cordialidad), representada por V en el modelo. Además, hay un
error de medida que puede ser distinto para cada ítem (Ei). Es
posible plantearse que no todos miden igual de bien la cordialidad.
Por esta razón se definen los parámetros λi, denominados
saturaciones, que indican la relación de cada ítem con la
característica o factor que miden todos ellos. Cuanto mayor sea λi,
mejor indicador de la cordialidad será la puntuación en el ítem. Si
a la cordialidad se la denomina F en lugar de V, se obtiene el
modelo de un factor:
53
Las saturaciones se calculan a partir de la matriz de correlaciones

entre los ítems. Los cálculos exigen la aplicación de cálculos de
álgebra matricial y se realizan mediante ordenador. Sin embargo,
la lógica es fácil de ejemplificar. Asumamos que las variables X1,
X2, X3, X4, X5, X6 y F están en puntuaciones típicas. Si el modelo
unidimensional fuera cierto, la correlación esperada entre X1 y X2
(que denominaremos r12*) sería:
Lo que se simplifica a:
Asumiendo que los errores no correlacionan entre sí ni con la

puntuación en el factor (como en la Teoría Clásica), obtenemos que
la correlación esperada según el modelo sería igual al producto de
los pesos de los 2 ítems en el factor:
Para entender la última simplificación, debe recordar es la

varianza de las puntuaciones F; al estar las puntuaciones F en
puntuaciones típicas su varianza es 1. Por tanto, sabiendo que F
= 0:
Si calculáramos cuales son los valores esperados de las

correlaciones según el modelo unidimensional, a las que
denominamos correlaciones reproducidas ( r* ), obtendríamos la
siguiente matriz:
54
En términos generales, los programas de análisis factorial buscan

aquellos valores de λ (λ1, λ2, λ3 , λ 4 , λ 5 y λ 6) que hacen que las
correlaciones esperadas según el modelo (r* 21 , r* 31 , r* 41 , r* 51,
etc.) se parezcan lo más posible a las correlaciones observadas
(0,459, 0,313, 0,246, 0,171, etc.). En el ejemplo, a partir de la
matriz de correlaciones mencionada anteriormente, se llega al
siguiente modelo de un factor:
Lo cual significa que el factor tiene una relación más fuerte con el
ítem 2 que con los demás, aunque todas las saturaciones son
elevadas. En el caso de un factor, las saturaciones resultan ser
iguales a las correlaciones de cada ítem con el factor. Pueden tomar
valores positivos o negativos. Si la saturación es cero, o próxima a
cero, no existe relación entre el ítem y el factor. Saturaciones
extremas, en cualquier dirección, significan que la relación es
fuerte. Generalmente, en los programas informáticos, las
saturaciones se disponen en una matriz que se denomina matriz
factorial:
Las correlaciones esperadas según el modelo serían:
55
Según el modelo de un factor los dos ítems que más deberían

correlacionar son los ítems 2 y 3 puesto que son los que más
correlacionan con ese factor. Las correlaciones reproducidas se
parecen a las correlaciones observadas en nuestra muestra, pero
no son iguales. La diferencia entre una correlación observada y una
reproducida se llama residual:
Por ejemplo, el residual para la correlación entre los ítems 1 y 3 (r

31− r 31) es 0,020. A partir del modelo de un factor, y teniendo en
*
cuenta las propiedades de las combinaciones lineales de variables,

la varianza de un ítem puede calcularse como una función de su
saturación en el factor, de la varianza del factor y de la varianza
del error. Por ejemplo, sabiendo que:
la varianza de X1 (σ2 X1) puede calcularse como:
donde F2σ y ψ2 1representan la varianza de F y la varianza de E1.

Al estimar el modelo factorial a partir de la matriz de correlaciones,
se está asumiendo implícitamente que los ítems y el factor vienen
expresados en puntuaciones típicas. Esto significa que las
varianzas del factor y del ítem son 1 (σ2F = 1, σ 2X1= 1); Por tanto,
la varianza del ítem (1) se descompone del modo siguiente:
Como se puede ver, una parte de la varianza del ítem depende de

su saturación en el factor común. A esa parte se la denomina
comunalidad y se la representa por el símbolo h 2 i. El resto de la
varianza del ítem depende de la varianza del error ( 2 1 ψ ). A esa
parte se la denomina unicidad. Simbólicamente,
La comunalidad de un ítem indica la cantidad de su varianza

explicada por el factor. En el modelo de un factor, la comunalidad
de un ítem se obtiene elevando la saturación de ese ítem en el
factor al cuadrado. En el ejemplo, las comunalidades son h 21=
56
0,292 (que es 0.5402), h 22= 0,450 (que es 0.6712), h 23= 0,294,

h 24 = 0,280, h 25= 0,234 y h 26= 0,191. La varianza de los errores
se denomina unicidad, y se simboliza, como ya hemos mencionado,
mediante 2 i ψ. La unicidad de un ítem indica cuanta varianza del
mismo no depende del factor, es decir, es varianza específica del
ítem que no se relaciona con lo que los ítems miden en conjunto.
Las unicidades se calculan . En el ejemplo, las unicidades

son
La suma de las comunalidades es la varianza de los ítems explicada

por el factor. En nuestro ejemplo, esta suma es 1,740. Como la
varianza total de los ítems es 6, la proporción de varianza explicada
por el factor es 1,740/6 = 0,290; es decir, el 29%. La suma de las
unicidades es la varianza de los ítems no explicada por el factor,
en este caso el 71% del total.
b. Análisis factorial con más de un factor
Es posible formular modelos factoriales en los que cada ítem mida

más de una característica simultáneamente. Supongamos que se
hipotetiza que el cuestionario mide dos factores, denominados F1
y F2. Entonces, las saturaciones se denominan λij (siendo i el ítem
y j el factor), y el modelo de dos factores es:
De forma genérica, para un número p el número de factores

independientes:
De nuevo, el programa busca aquellos valores de λ que hacen

que las correlaciones esperadas según el modelo
se parezcan lo más posible a las
57
correlaciones observadas (0,459, 0,313, 0,246, 0,171,…). Al

estimar las saturaciones a partir de la matriz de correlaciones se
obtiene el resultado:
Los programas nos informarán de esas saturaciones, mediante una

matriz denominada matriz de factores rotados:
Puede verse que los ítems 1, 2 y 3 tienen una correlación más

fuerte con el factor I que con el factor II, mientras que ocurre lo
contrario para los ítems 4, 5 y 6. Viendo las saturaciones y el
contenido de los ítems, puede suponerse que el factor I significa
“Trato a los demás”, mientras que el factor II podría indicar
“Confianza en los demás”.
Al haber dos factores independientes, las comunalidades se

calculan mediante h2i =λ2i1 + λ2i2. Las comunalidades de los 6 ítems
serían 0,354, 0,581, 0,277, 0,500, 0,397 y 0,188. En el ejemplo,
la varianza explicada por cada factor es 1,226 y 1,072, que,
representa un porcentaje del 20 % y del 18 % respectivamente.
Por tanto, el porcentaje de varianza explicada por el modelo de dos
factores es del 38% aproximadamente.
En la práctica el análisis factorial se aplica en dos pasos. En primer

lugar se obtiene la solución inicial, lo que permite evaluar la bondad
de ajuste del modelo y determinar el número de factores. En
segundo lugar se realiza una rotación, ortogonal u oblicua, según
58
los propósitos del investigador. La solución rotada sirve para

interpretar el sentido de los factores. Si se realiza la rotación
ortogonal, es posible calcular las comunalidades, unicidades y la
varianza explicada por cada factor. Si se realiza la rotación oblicua,
se obtiene la correlación entre factores y unas saturaciones más
sencillas de interpretar.
En resumen, la validez factorial es determinada mediante análisis

factorial. Sabemos que la covariación de un grupo de subtest o de
ítems define un factor que representa una dimensión teórica
subyacente a todos ellos. Esto significa que los ítems miden
dimensiones unitarias independientes, de modo que un test se
puede caracterizar por los factores más predominantes que
determinan sus puntuaciones y por la saturación de cada factor. La
carga factorial correspondiente al factor que el test mide se
denomina “validez factorial”. De acuerdo con este método, se
eligen los factores que explican el mayor porcentaje de la varianza
total del test; asimismo, se toman los ítems con mayor peso
factorial en cada uno de los factores.
4. Validez predictiva
La Validez Predictiva se centra en la comprobación de que las pruebas

predicen aquello para lo que fueron diseñadas. Constituye un aspecto
clave en la utilización aplicada de los test y las escalas en ámbitos en
los cuales se toman decisiones importantes para las personas
basándose en las pruebas, por ejemplo en el ámbito de la selección de
personal, orientación, o situaciones de carácter clínico, por citar
algunos. La capacidad predictiva de una prueba suele expresarse
mediante su Coeficiente de Validez (vxy), que es la correlación entre
las puntuaciones en la prueba (x) y la ejecución en el criterio que se
pretende predecir (y). A medida que el valor del coeficiente de validez
se acerca a 1 mayor es la capacidad predictiva de la prueba. Cuando
se utilizan varias pruebas para predecir un criterio se utiliza como
coeficiente de validez la correlación múltiple de las pruebas con el
criterio (Ryy’).
Un criterio es cualquier desempeño que los sujetos tienen en la vida

real, por ejemplo, las medidas de rendimiento académico, medidas de
rendimiento laboral, clasificaciones psiquiátricas, etcétera. En muchos
casos resulta imposible hallar un criterio no ambiguo de un rasgo
mental. Por ejemplo, dos psicólogos, Tomás y Aurora, que investigan
el rasgo de aptitud numérica pueden emplear diferentes criterios
externos para correlacionar los puntajes del test que han creado. Así,
Aurora puede considerar que el criterio externo más adecuado son las
59
calificaciones que reciben los sujetos en un curso de mecánica en taller;

mientras que Tomás puede considerar como criterio el periodo de
tiempo que gastan los estudiantes en aprender una tarea mecánica y
sencilla durante el entrenamiento en un fabrica. ¿Qué sucede si las
pruebas que emplean ambos psicólogos correlacionan 0.006 con uno
de los criterios, y 0.70 con el otro?, ¿cómo podemos afirmar que la
prueba es valida cuando arrojan resultados de cierta clase?, ¿se trata
en verdad de una prueba de aptitud mecánica? En razón a situaciones
como esta se llego a la conclusión de que la validación de un test es
un proceso largo y no un hecho aislado. Solamente a través de estudios
de correlación con una amplia variedad de criterios podremos
comprender que mide la prueba. Así, una serie de investigaciones
sobre la “prueba de actitud mecánica” nos puede demostrar que en
realidad esta midiendo la habilidad para realizar movimientos fino y
cuidadosamente controlados, siendo completamente independiente
para comprender las reacciones complejas de la piezas mecánicas. De
esta manera el test puede tener una alta correlación con las
calificaciones obtenidas en el taller y ninguna con los trabajos e
maquinarias.
TEXTO SELECCIONADO 3
Intervalos de confianza asimétricos para el índice la validez de

contenido: Un programa Visual Basic para la V de Aiken4
Particularmente, los intervalos de confianza es forma más informativa y útil

de expresar el grado de imprecisión o in-certidumbre asociada con los
resultados cuantitativos de una investigación o algún cálculo en general; eso
sería una consecuencia apropiada de la situación muy común de utilizar una
muestra de limitado tamaño. Actualmente, la construcción de intervalos de
confianza para los puntajes obtenidos es una práctica recomendada y a veces
es referida como un elemento esencial para la interpretación del reporte de
resultados de un sujeto (Charter, 2003).
4
Referencia Original: Merino C. & Livia, J. (2009). Intervalos de confianza asimétricos para el
índice la validez de contenido: Un programa Visual Basic para la V de Aiken. Anales de
Psicología, 25(1), 169-171.
60
En el presente artículo presentamos un programa informático para calcular

intervalos de confianza para el índice de validez de contenido, V, propuesto
por Aiken (1980, 1985). El procedimiento para obtener el intervalo de
confianza es por medio del método score, que recientemente fue derivado en
Penfield y Giacobbi (2004) para este coeficiente. Hay pocos precedentes
sobre el uso del coeficiente V de Aiken en publicaciones científicas hispanas,
excepto la sencilla presen-tación descriptiva por Escurra (1989) que no se
incluía un programa informático para su cálculo. El desarrollo de un programa
que calcule este coeficiente podría ser de menor utilidad dado que el cálculo
no presenta complejidades aún para el usuario sin conocimientos
estadísticos, pero el pro-grama presentado aquí incluye cálculos que van más
allá del planteamiento original de Aiken, quien consideraba la tradicional
prueba de hipótesis del coeficiente V, particularmente con su contraste de
hipótesis nula fijada en V = 0.50 para establecer los valores críticos. Esta
característica nueva resuelve los cálculos para obtener intervalos de
confianza para V usando el método score; pero ya que calcularlos puede llevar
a errores debido a sus ecuaciones (el lector los verá más adelante en el
presente artículo).
El método de los intervalos de confianza para la V de Aiken representa los

límites que tienen una alta probabilidad de que ocurra V en la población; y
esta probabilidad es de una extensión del 95% u otro límite crítico que el
examina-dor elija. La justificación de utilizar intervalos de confianza para la
cuantificación de la validez de contenido va de acuerdo con el actual énfasis
de su uso para reportar hallazgos de investigación psicológica (Wilkinson y
APA Task Force on Statistical Inference, 1999; American Psychological
Association, 2001; Fidler, 2002).
Coeficiente de validez de contenido V de Ai-ken
En la literatura metodológica se han descrito algunos enfoques de análisis

cuantitativos para la validez de contenido que parecen promisorios (por
ejemplo, Anderson y Gerbing, 1991; Schriesheim, Powers, Scandura,
Gardiner y Lankau, 1993; Sireci, 1998a; Hinkin y Tracey, 1999), pero
requieren de mayor examen metodológico para obtener de ellas resul-tados
confiables en investigaciones aplicadas. Un método sencillo es el cálculo del
coeficiente V de Aiken (Aiken, 1980; 1985), y se aplica en un método lógico
de validez: la opinión de expertos sobre la validez de un material evaluativo.
Este coeficiente es una de las técnicas para cuantificar de validez de contenido
o relevancia del ítem respecto a un dominio de contenido en N jueces, cuya
magnitud va desde 0.00 hasta 1.00; el valor 1.00 es la mayor magnitud
posible que indica un perfecto acuerdo entre los jueces respecto a la mayor
puntuación de validez de los contenidos evaluados. La interpretación del
coeficiente usa la magnitud hallada y la determinación de la significancia
61
estadística mediante las tablas de valores críticos que se pueden hallar en

Aiken (1985). La ecuación, algebraicamente modificada por Penfield y
Giacobbi (2004), es:
X es la media de las calificaciones de los jueces en la muestra, l es la

calificación más baja posible, y k es el rango de los valores posibles de la
escala Likert utilizada. Por ejemplo, si l = 1 y k = 5, entonces k = 5 – 1= 4.
La estimación de los intervalos de confianza para el coeficiente V de Aiken
usará el método score (Wilson, 1927; Penfield y Giocobbi, 2004), que a
continuación describimos brevemente.
Intervalos de confianza para V de Aiken por el método score
Para la construcción de intervalos de confianza se usa tradicionalmente el

método de Wald, que asume la distribución normal asintótica de la variable
en estudio; pero particular-mente su aplicación al coeficiente V es inapropiada
(Penfield y Giocobbi, 2004). Uno de los métodos para afrontar las limitaciones
de este método tradicional es el método de Wilson (1927), conocido como
método score, que tiene muy buenas propiedades para el análisis debido que
no depende de la distribución normal de la variable, es asimétrica respecto a
la variable y es altamente exacto. Una presentación técnica del método score
aplicado a las proporciones y sus diferencias está en Newcombe (1998a,
1998b, 1998c), y otra menos técnica en Newcombe y Merino (2006). La
derivación de la formulación original del método score para su uso con V de
Aiken aparece en el apéndice de Penfield y Giocobbi (2004), quienes trataron
la V de Aiken como una proporción para obtener la construcción del intervalo
en un nivel de confianza determinado. La ecuación para el límite inferior del
intervalo es:
62
La complejidad computacional de este procedimiento puede hacer que el

usuario sea proclive a errores, y por tal motivo facilitamos al lector un
programa informático de libre distribución.
El programa y su disponibilidad
El programa está escrito y compilado en Visual Basic 6.0, y corre bajo las
versiones actuales de Windows para PC, específicamente Windows 95 o
superior. Para ejecutar el pro-grama, se presenta una interfaz gráfica fácil de
manejar. La activación del programa requiere hacer doble clic en su ico-no
respectivo.
El usuario ingresará los siguientes datos: a) la calificación promedio o rating

obtenido previamente para el ítem seleccionado para el análisis, b) la
calificación mínima y máxima posibles en la escala, y c) el número de jueces
o expertos.
Para pasar de un cuadro de texto al siguiente, el usuario puede usar el ratón,

presionar la tecla enter o tab luego del ingreso de cada dato. Con estos datos,
el programa calculará automáticamente el rango de valores de las
calificaciones (calificación máxima - calificación mínima), el índice V de Aiken,
y los intervalos de confianza en los niveles del 90%, 95% y 99%, que son los
niveles más usuales en las estimaciones de intervalos de confianza. El
programa, de uso sencillo, está disponible sin costo escribiendo al autor
principal en las direcciones de contacto.
Usos
El intervalo de confianza para la V de Aiken permite al usuario probar si la

magnitud obtenida del coeficiente es superior a una que es establecida como
mínimamente aceptable para concluir sobre la validez de contenido de los
ítems. Por ejemplo, de desea probar si un coeficiente V es significativamente
diferente del mínimo nivel de validez según los estándares de los expertos;
este estándar puede estar en un nivel liberal (Cicchetti, 1994) de Vo = 0.50,
o en un nivel más conservador, como Vo = 0.70 o más (Charter, 2003). Luego
de recolectar el juicio de 5 jueces, en una escala de 1 al 5, el rating promedio
es 4.2, y al 95% de confianza el intervalo del coeficiente obtenido será [0.62,
0.90]. Con este dato, no podemos aceptar el ítem a la luz del estándar mínimo
más exigente (0.70), ya que el límite inferior del intervalo está por debajo de
tal punto. En las fases iniciales de la construcción de ítems, se puede elegir
un criterio más liberal (Vo = 0.50) o un nivel de confianza igual a 90%,
especialmente si el número de jueces es pequeño (Penfield y Giacobbi, 2004).
También, para fines inferenciales, el enfoque de intervalos de confianza
permite probar la hipótesis nula de igualdad mediante coeficientes V, ya que
63
la información contenida en el intervalo de confianza conduce a juzgar el

grado en que los coeficientes V comparados se traslapan o se mantienen lo
suficientemente alejados como para concluir que son diferentes.
La significancia estadística para el coeficiente V de Aiken tiene por hipótesis

nula que un valor del contraste de 0.50, que representa la variación aleatoria;
pero este nivel es in-aceptable para fines prácticos y está por debajo de las
recomendaciones en la construcción de pruebas para cualificar la magnitud
de un coeficiente de validez (Cicchetti y Sparrow, 1981; Cicchetti, 1994;
Nunnally y Bernstein, 1995; Anastasi y Urbina, 1997; Prieto y Muñiz, 2000;
Charter, 2003; Lindley, Bartram y Kennedy, 2005). Al investigador aplicado
y al usuario además de interesarle si el valor estimado del coefi-ciente de
validez es diferente de lo que ocurriría en relaciones aleatorias, observará si
tal magnitud es lo suficientemen-te alto como para tomar decisiones
acertadas sobre la aceptabilidad de los ítems para capturar el contenido del
constructo. Contrastando con la original propuesta de prueba de hipótesis de
Aiken, se puede probar cualquier valor declara-do como valor nulo o Vo y no
únicamente Vo = 0.50. Esto da al usuario flexibilidad sobre los valores críticos
apropia-dos al contexto de estudio y a la fase de construcción de escalas en
que se halla.
Finalmente, el programa permite interactivamente hacer una estimación del

número de jueces necesitados para lograr un nivel deseado intervalo de
confianza, y obtener un grado de precisión del coeficiente V de Aiken. Bajo el
mismo contexto del ejemplo anterior, se necesitaría un mínimo de 14 jueces
y un nivel de confianza de 90% para lograr un intervalo que incluya al
estándar establecido, ya que el intervalo del coeficiente V de Aiken se
modificaría a [0.70, 0.87]. Es fácil concluir que a medida que el tamaño
muestral se incremente, la amplitud del intervalo será menor, y por lo tan-
to, la precisión de la estimación del coeficiente V será mejor.
64
ACTIVIDADES DE AUTOAPRENDIZAJE
1. Elabora un cuadro comparativo de las diferentes clases de validez
Validez de Validez de Validez Predictiva

Contenido Constructo
65
2. Escribe tres diferencias entre los métodos de confiabilidad

descritos en el manual
AUTOEVALUACIÓN 3
1. Responda a las siguientes afirmaciones indicando si lo que se dice es

verdadero o falso. Justifique sus respuestas.
a) El índice de homogeneidad de un ítem indica en que grado mide lo

mismo que el test.
b) Un ítem con un Hj bajo siempre debe ser descartado en un proceso de
selección.
c) El índice de homogeneidad permite ver en qué medida un ítem permite
predecir un criterio.
d) Cuando construimos un cuestionario que mide varios rasgos debemos
rechazar aquellos ítems que correlacionen poco con la puntuación total
en el test.
e) Un ítem con un índice de homogeneidad alto pero con un bajo índice de
validez no es necesariamente un mal ítem. Estos resultados pueden
deberse a que el criterio seleccionado sea poco adecuado.
66
2. Un psicólogo construye una escala de actitudes para evaluar el

dogmatismo religioso. La escala consta de 4 ítems, y en cada uno se puede
manifestar la opinión según una escala de 7 puntos (del 1 al 7). A
continuación se detallan las respuestas de un grupo normativo de 5
personas:
Obtenga e interprete el coeficiente α de la prueba.
3. Un pequeño test de aptitudes intelectuales consta de dos ítems de aptitud

verbal (el 1 y el 4) y de dos ítems de aptitud numérica (el 2 y el 3). Después
de aplicarse a un grupo normativo, la matriz de correlaciones se sometió
a un análisis factorial, cuya matriz F rotada se presenta en la tabla que
aparece a continuación.
a) ¿Considera que el estudio factorial aporta datos a la validez del test?

b) Calcule el porcentaje de la varianza total explicado por el Factor I.
4. La confiabilidad es:
a) El grado de consistencia entre dos medidas de un mismo instrumento.
b) La propiedad por la cual un instrumento mide lo que dice medir.
c) La característica de un test centrada en los errores sistemáticos.
d) Sólo aplicar pruebas.
5. Marque lo correcto respecto a la confiabilidad

a) En toda medida, el valor obtenido está compuesto por el valor verdadero
y los errores de medición.
67
b) Un instrumento será más confiable en la medida que maximice el valor

verdadero y minimice el error.
c) Los únicos errores que interesan en la teoría de la fiabilidad son los errores
sistemáticos.
d) Un instrumento será más confiable en la medida que minimice el valor
verdadero.
6. Cuando evaluamos la validez de un instrumento estableciendo

estadísticamente los factores que configuran el constructo que se está
evaluando, estamos realizando
a) Validez de contenido.
b) Validez concurrente.
c) Validez predictiva.
d) Validez de constructo.
7. Marque lo correcto
a) Mayor cantidad de muestra, menor confiabilidad.
b) Dos versiones o formas de un test se consideran paralelas si, aplicadas a
una misma muestra de personas, obtienen medias y varianzas diferentes.
c) Idealmente, el puntaje observado y verdadero coincidirían.
d) A Menos error, menos precisa sería la medición.
8. Marque lo incorrecto
a) La validez de contenido se va mediante jueces expertos.
b) En psicología las mediciones son objetivas y sin errores.
c) Para la estimación de la validez de constructo se realiza el análisis factorial
exploratorio.
d) En la confiabilidad por consistencia interna se utiliza el alfa.
9. Marque lo correcto con respecto al métodos de estimación de la

confiabilidad por mitades
a) Para cada sujeto no se obtiene la puntuación directa en ambas mitades.
b) Si la mitad par e impar no fueran entre sí formas paralelas, la correlación
entre ambas no sería una medida de la fiabilidad de cada una de ellas.
c) Para cada sujeto se obtiene solamente una puntuación directa para sólo
una mitad.
d) Este procedimiento consiste en dividir el test en dos mitades equivalentes.
10. Marque lo correcto con respecto al métodos de estimación de la

confiabilidad por formas paralelas
a) Las pruebas paralelas intentan evaluar o medir lo mismo que el test original
con ítems iguales a los originales.
b) Implica diseñar un test y una segunda versión del mismo, denominada
forma paralela.
c) Dos versiones o formas se consideran paralelas si, aplicadas a una misma
muestra de personas, obtienen medias y varianzas probabilísticamente
diferentes.
68
d) Es común diseñar una forma paralela de un test para obtener datos sobre
su fiabilidad.
RESPUESTAS:
1.
a) Verdadero, dado que es una correlación entre las puntuaciones en el

ítem y en el test.
b) Falso. Siempre que se pretenda medir un único rasgo con el test, debe
ser descartado; si se pretenden medir varios rasgos, podría ser admitido.
c) Falso, la afirmación hace referencia al índice de validez.
d) Falso. Al diseñar un test que mida varios rasgos, se pretende buscar
ítems que correlacionen con los ítems que miden el mismo rasgo, y que
además no correlacionen con otros ítems que miden un rasgo diferente. En
esta situación, la correlación entre los ítems y las puntuaciones del test
pueden ser bajas.
e) Verdadero. El ítem mide lo mismo que el test, pero no mide lo mismo
que el criterio, que podría ser poco adecuado.
2. α = 0.77, que se puede considerar un coeficiente medio-alto. Los 4 ítems

covarían entre sí de forma apreciable.
3. a) Parece que sí, dado que los dos ítems de aptitud verbal obtienen
saturaciones altas en el Factor II, mientras que los dos ítems de aptitud
numérica obtienen saturaciones altas en el Factor I.
b) El porcentaje de varianza explicado por el factor I será (1.77)(100)/4 =
44.
4) a. 5) a. 6) d. 7) c. 8) b. 9) d. 10)
69
EXPLORACIONES ON-LINE
http://www.apa.org/science/standars.html.
http://www.uv.es/meliajl/Psicomet1.html
http://www.uv.es/facpsi/analesps.html
http://www.uniovi.es/user_htm/herrero/REMA.html
http://www.uniovi.es/UniOvi/Apartados/Departamento/Psicologia/metodos/tut
or.1indice.html
http://www.intestcom.org/
http:/huitoto.udea.edu.co/ceo/Validez02.htm
http:/webpages.ull.es/users/pprieto/escalamiento/escala41.html
BIBLIOGRAFÍA
Abad, F., Garrido, J., Olea (2006). Introducción a la Psicometría. Teoría Clásica
J. & Ponsoda, V. de los Test y Teoría de Respuesta al Item. Madrid:
Universidad Autónoma de Madrid.
70
Aiken, L. R. (1985). Three coefficients for analyzing the

reliability and valid-ity of ratings. Educational and
Psychological Measurement, 45, 131-142.
Aiken, L. R. (1980). Content validity and reliability of single

items or ques-tionnaires. Educational and.
Psychological Measurement, 40, 955–959.
Aiken, L. R. (1996) Tests psicológicos y evaluación. México, D.

F.: Prentice Hall.
Alarcón, R. (1998). La Teoría Clásica de los Test. Logros y

limitaciones. En Universidad de San Martín de
Porres (Ed.) Nuevos modelos en la medición
psicológica (pp. 9-30). Lima: Universidad San
Martín de Porres.
Alarcón, R. (2008). Métodos y Diseños de Investigación del

Comportamiento (2da ed.). Lima: Editorial
Universitaria.
Aliaga, J. (2005). Separatas del curso de Psicometría II. Lima:

Universidad Nacional Mayor de San Marcos
American Psychological (2001). Publication manual of the American

Association. Psychological Association (5th ed.). Washington,
DC: Author.
Anastasi, A. (1978). Test Psicológicos. Madrid: Aguilar.
Anastasi, A. y Urbina, S. (1997). Psychological testing (7th ed). New York:

McMillian.
Anderson, J. C., y (1991). Predicting the performance of measures in

Gerbing, D. W. a confirmatory factor analysis with a pretest
assessment of their substantive validities. Journal
of Applied Psychology, 76, 732-740.
Brown, F. (1980). Principios de la medición en psicología y

educación. México: Ed. Manual Moderno.
Charter, R. A. (2003). A breakdown of reliability coefficients by

test type and reliability method, and the clinical
implications of low reliability. Journal of General
Psychology, 130(3), 290-304.
Cicchetti D.V. y Sparrow, (1981) Developing criteria for establishing the

S.S. interrater reliability of specific items in a given
inventory. American Journal of Mental Deficiency,
86, 127-137.
71
Cicchetti, D. V. (1994) Guidelines, criteria, and rules of thumb for

evaluating normed and standardized assessment
instruments in psychology. Psychological
Assesments, 6, 284-290.
Cohen, R., & Swerdlik, M. (2001). Pruebas y Evaluación Psicológicas:

Introducción a las pruebas y a la medición (4ta ed.).
México: McGraw-Hill.
Cortada, N (1999). Teorías psicométricas y construcción de

test. Buenos Aires: Lugar Editorial.
Delgado, A., Escurra, M. & (2006). La medición en psicología y educación.

Torres, W. Teoría y aplicaciones. Lima: Ed. Hozlo.
Escurra, L. (1989) Cuantificación de la Validez de Contenido por

Criterio de Jueces. Revista de Psicología - PUCP, 6,
103-111.
Fidler, F. (2002). The 5th edition of the APA Publication

Manual: Why its statistics recommendations are so
controversial. Educational and Psycho-logical
Measurement, 62, 749-770.
Hinkin, T. R. y Tracey, J. (1999) An analysis of variance approach to content

B. validation. Organizational Research Methods, 2(2),
175-186.
Hogan, T. (2004). Pruebas Psicológicas: Una Introducción

Práctica. México: Manual Moderno.
Kerlinger, F. (1975). Investigación del comportamiento. Técnicas

y metodologías. México: Interamericana.
Kerlinger, F., & Lee, H. (2002).Investigación del Comportamiento.

Métodos de Investigación en Ciencias Sociales (4ta
ed.). México: McGraw-Hill Interamericana, S.A.
Lindley, P., Bartram, D., y (2005) EFPA review for the description and
Kennedy, N evaluation of psychological test: Test review form
and notes for reviewers (version 3.41). Report of
the Standing Committee on Test and Testing to
General Assembly. Granada: EFPA.
Magnuson, D. (1969). Teoría de los test. México: Trillas.
May, R. B., Masson, M. J., (1990). Application of statistics in behavioral

y Hunter, M. A. research. New York: Harper & Row.
Merino C. & Livia, J. (2009). Intervalos de confianza asimétricos para el

índice la validez de contenido: Un programa Visual
72
Basic para la V de Aiken. Anales de Psicología,

25(1), 169-171.
Miller, J. M., y Penfield, R. (2006). Using the Score method to construct

D. asymmetric confidence intervals: An SAS program
for content validation in scale development.
Behavior Research, Methods, Instruments, and
Computers, 37, 450-452.
Muñiz, J. (1994). Teoría clásica de los test (2ª ed.). Madrid:

Pirámide.
Newcombe, R. G. y (2006) Intervalos de confianza para las

Merino, C. estimaciones de proporciones y sus diferencias
entre ellas. Interdisciplinaria, 23(2), 141-154.
Newcombe, R.G. (1998a).Two-sided confidence intervals for the

single proportion: Comparison of seven methods.
Statistics in Medicine, 17, 857-872.
Newcombe, R.G. (1998b). Interval estimation for the difference

between independent proportions: comparison of
eleven methods. Statistics in Medicine, 17, 873-
890.
Newcombe, R.G. (1998c). Improved confidence intervals for the

difference between binomial proportions based on
paired data. Statistics in Medicine, 17, 2635-2650.
Nunnally J., & Bernstein, (1995). Teoría Psicométrica (3ra ed.). México:
I. McGraw-Hill.
Penfield, R. D. y Giacobbi, (2004) Applying a score confidence interval to

P. R., Jr. Aiken’s item content-relevance index. Measurement
in Physical Education and Exercise Science, 8(4),
213-225.
Penfield, R. D. y Miller, J. (2004) Improving content validation studies using

M. an asymmetric confidence interval for the mean of
expert ratings. Applied Measurement in Education,
77(4), 359-370.
Prieto, G. y Muñiz, J. (2000). Un modelo para evaluar la calidad de los

tests utilizados en España. Papeles del Psicólogo,
77, 65-71.
Schriesheim, C. A., (1993). Improving construct measurement in

Powers, K. J., Scandura, management re-search: Comments and a
quantitative approach for assessing the theo-retical
73
T. A., Gardiner, C. C., y adequacy of paper-and-pencil and survey-type

Lan-kau, M. J. instruments. Journal of Management, 19, 385-417.
Sireci, S. G. (1998a) Gathering and analyzing content validity

data. Educational Assessment, 5(4), 299-321.
Sireci, S. G. (1998b) The construct of content validity. Social

Indicators Re-search, 45, 83-117.
Wilkinson, L., y APA Task (1999). Statistical methods in psychology journals:

Force on Statistical Guidelines and explanations. American
Inference. Psychologist, 54, 594-604.
Wilson, E.B. (1927). Probable inference, the law of succession,

and statistical inference. Journal of the American
Statistical Association, 22, 209-212.
BIBLIOGRAFÍA COMENTADA
Cortada de Kohan, N. (2000). Técnicas psicológicas de evaluación y

exploración. México D.F.: Editorial Trillas.
En el libro se presentan las técnicas de evaluación psicológica señalando su

fundamentación teórica, y analizar en forma crítica sus méritos y sus
insuficiencias desde el punto de vista teórico tanto de su elaboración como de
su aplicación. De esta manera cuando el psicólogo desee estudiar algún aspecto
de la inteligencia, el conocimiento, las actitudes o la personalidad, entre otros
temas, podrá consultar cuáles son los instrumentos más adecuados para sus
fines.
74
Cuarta
UNIDAD
Normatividad del Instrumento

Psicométrico
75
“El aspecto más importante y significativo de la elaboración de la prueba

fue el proceso de construir las normas”
Glen Roberts, Ph.D.

Extracto del Test Developer Prrofile publicado en Cohen (1999)
y en internet en www.mayfieldpub.com/psychtesting
¿Qué son los baremos?

¿Cómo se clasifican los baremos?
¿Cómo determinación los baremos de una prueba para una muestra
de personas?
Competencias
CONCEPTUALES:
 Conoce los diferentes tipos de baremos utilizados en

psicología.
 Conoce cómo se utilizan las tablas de baremos para
obtener el diagnóstico psicológico.
PROCEDIMENTALES:
76
 Emplea datos empíricos y criteriales para construir

normas de interpretación de las diferencias individuales
que le permitan evaluar el desempeño de los examinados
en los instrumentos de medición.
ACTITUDINALES:
 Valora la utilidad de los baremos para el diagnóstico

psicológico.
 Valora la preparación del investigador en la aplicación e
interpretación de los resultados de los test
psicométricos.
CONTENIDO TEMÁTICO
77
Lección I: Baremos. Conceptos y clasificación
Baremos Cronológicos
Baremos Percentiles
Puntuaciones típicas
Lección II: Determinación del Baremo
Obtención de percentiles
Obtención del rango percentilar
Obtención de eneatipos
Equivalencias entre puntajes T; CI; eneatipos; percentiles; nivel y
rango
ESQUEMA CONCEPTUAL
78
Normatividad
del
Instrumento
Baremos
Baremos Obtención de
Cronológicos Baremos
79
Baremos
Cronológicos
Baremos
Percentiles
Puntuaciones
Típicas
S CLAVES
ico, puntuaciones típicas, percentiles,

tipos, nivel, rangos.
Lección I
Baremos
Conceptos y clasificación5
La puntuación directa de una persona en un test no es directamente

interpretable si no la referimos a los contenidos incluidos en el test o al
rendimiento de las restantes personas que comparten el grupo normativo.
Nosotros centramos en este segundo sentido el tema de la interpretación de
una puntuación directa en un cuestionario, para lo cual es necesario tratar el
tema de la obtención de baremos para comparar esta puntuación con las que
obtienen las personas que han formado el grupo normativo. De una u otra
forma, los baremos consisten en asignar a cada posible puntuación directa
un valor numérico (en una determinada escala) que informa sobre la posición
que ocupa la puntuación directa (y por tanto la persona que la obtiene) en
5
80
relación con los que obtienen las personas que integran el grupo normativo
donde se bareman las pruebas. Entre las múltiples formas de baremar un
test, destacamos las siguientes:
- Baremos cronológicos: Edad Mental y Cociente Intelectual.

- Percentiles o percentiles.
- Puntuaciones típicas: estándares, normalizadas, escalas T y D, eneatipos.
Lo más usual en las pruebas comercializadas es encontrarse baremos

realizados en escala de percentiles ó eneatipos.
1. Baremos cronológicos
Para rasgos psicológicos que evolucionan con la edad (sobre todo de tipo
intelectual) tiene sentido comparar la puntuación de un sujeto con las que
obtienen los de su misma edad y los de edades diferentes. Esto se puede
realizar mediante dos tipos diferentes de baremos: las Edades Mentales
(EM) y los Cocientes Intelectuales (CI).
Supongamos que aplicamos un test de Inteligencia de dificultad progresiva

a diferentes grupos de edad (niños entre 5 y 14 años), y que obtenemos
las puntuaciones medias de cada grupo de edad en la prueba, siendo las
que siguen:
Hemos realizado una correspondencia entre las edades y puntuaciones

medias que nos va permitir obtener la EM de cualquier niño al que
apliquemos el test. Por ejemplo, si un niño obtiene el test una puntuación
directa de 14 puntos, le asignamos una EM de 9 años, independientemente
de su edad cronológica real, ya que esa puntuación es la media que
obtienen los niños de 9 años.
El Cociente Intelectual (CI) se denomina así (y no coeficiente, como es

usual escuchar en determinados ámbitos) porque es el resultado de dividir
la edad mental (EM) entre la edad cronológica (EC) del sujeto; para evitar
decimales el resultado se multiplica por 100, de tal manera que se puede
obtener a partir de la fórmula:
81
Por ejemplo, en el ejemplo anterior, si un niño de 10 años obtiene una

puntuación directa de 18 puntos, diremos que su EM es de 11 años, y que
su CI es:
Podemos observar que si la EM de un sujeto coincide exactamente con su

EC, el CI es igual a 100, e indicará que este sujeto obtiene exactamente la
puntuación media de su grupo de edad. Si el CI supera el valor de 100
significará que el sujeto tiene una Inteligencia superior al promedio de su
edad, mientras que si su CI es inferior a 100, significa que el sujeto tiene
una inteligencia inferior a la media de su grupo de edad. Usualmente,
Cocientes Intelectuales inferiores a 70 indican problemas importantes
(deficiencias) de tipo cognitivo, mientras que Cocientes Intelectuales
superiores a 140 indican excepcionalidad intelectual.
2. Baremos percentiles
Los percentiles, como recordaremos, representan medidas de posición en

una distribución de frecuencias. Los baremos percentiles consisten en
asignar a cada posible puntuación directa un valor (en una escala de 1 a
100) que se denomina percentil y que indican el porcentaje de sujetos del
grupo normativo que obtienen puntuaciones iguales o inferiores a las
correspondientes directas. Así, si un sujeto obtiene en un cuestionario de
autoritarismo una puntuación de 20 puntos, poco sabemos sobre su nivel
de autoritarismo, pero si sabemos que a esa puntuación le corresponde el
percentil 95 , ya conocemos que este sujeto supera en ese rasgo al 95%
de los sujetos utilizados para baremar el test; si el grupo normativo fuese
una muestra representativa de la población general, podríamos inferir que
esta persona supera en autoritarismo al 95% de las personas, y que sólo
un 5% de personas son más autoritarias que él.
El modo de cálculo del percentil asociado a una puntuación se resume en

los siguientes pasos:
1) Disponer en una columna, ordenadas de mayor a menor o de menor a

mayor, las posibles puntuaciones directas (Xi) que se puedan obtener
en el test.
2) Asignar a cada puntuación su frecuencia (fi), es decir, el nº de sujetos

del grupo normativo que la han obtenido.
3) Disponer una tercera columna de frecuencias acumuladas (Fi).
82
4) Para cada valor de Fi, obtener el valor Ci= (100) Fi/N, siendo Ci el
percentil asignado a la puntuación directa Xi, Fi la frecuencia acumulada
correspondiente a Xi y N el número total de sujetos que forman el grupo
normativo.
Ejemplo: Supongamos que aplicamos un cuestionario de conocimientos en

el manejo de ordenadores a un grupo de 200 universitarios y que las
puntuaciones directas obtenidas (X) y los sujetos que obtuvieron cada una
de ellas (f) son las siguientes:
A partir de estos datos, los percentiles correspondientes a cada puntuación

directa, se obtienen de la siguiente forma:
Así, si un sujeto obtiene una puntuación directa de 20 puntos en el

cuestionario, diremos que supera en conocimientos informáticos al 9,5%
de los sujetos universitarios, mientras que más del 90% de los alumnos
universitarios tienen mayor conocimiento en el manejo de ordenadores que
la persona evaluada.
La ventaja de los rangos percentilares es que el puntaje derivado más

rápido de entender y el de más fácil comunicación, lo que lo hace muy
satisfactorio para informar a las personas que carecen de una formación
estadística. Además, se puede interpretar de una manera exacta, aún,
cuando la distribución de los puntajes del test no sean estrictamente
normales. Por el contrario, una desventaja es que, al no tener distancias
iguales (por ser una escala ordinal y no de intervalo), tiende a exagerar
las pequeñas diferencias hacia la zona media, diferencias que no son
importantes y reduce el tamaño aparente de diferencias realmente
importantes y amplias en los extremos de la distribución. Por otra parte,
83
es poco adecuado para los análisis estadísticos, pues no se pueden emplear

operaciones aritméticas entre ellos.
3. Puntuaciones típicas
En Análisis de Datos se vio el significado y proceso de cálculo de las

puntuaciones típicas (Zx) asociadas a unas puntuaciones directas
determinadas. En este apartado vamos a encontrar una clara aplicación de
estas puntuaciones, y de otras que se derivan de éstas, para baremar un
cuestionario; vamos a diferenciar además entre baremos típicos
estándares y baremos normalizados.
3.1 Puntuaciones estándar
Como sabemos, una puntuación típica Zi se obtiene haciendo:
puede ser positiva o negativa, e indica el nº de desviaciones típicas

que se aleja de la media una determinada puntuación directa. Así,
conociendo la puntuación típica de un sujeto en un test y la variabilidad
del grupo normativo, podemos interpretar el nivel de rasgo del sujeto
(atendiendo a la cuantía y signo de su puntuación Zi) en comparación
con los niveles de los restantes sujetos. Por ejemplo, una puntuación
típica de -2,33 indica que es un sujeto cuya puntuación se encuentra
2,33 desviaciones típicas por debajo de la media.
3.2 Puntuaciones normalizadas
Cuando se puede asumir (o se comprueba) que las puntuaciones de un

grupo normativo en un test siguen una distribución normal, un
percentil concreto Ci dividido entre 100 indica el área de la curva
normal que queda por debajo de la puntuación correspondiente. Por
ejemplo, observando la curva normal de la figura, podemos constatar
que el C1 es aproximadamente el percentil 10, y deja por debajo un
área de 0,10 de la curva normal; el C2 es el percentil 42, y deja por
debajo una proporción de 0,42 del área de la curva normal; el C3 es
aproximadamente el percentil 95, y deja por debajo de sí un área de
0,95 de la curva normal.
84
Pues bien, conociendo la proporción que queda por debajo de un punto

dado de la distribución, podemos utilizar la tabla de la curva normal
para obtener sin cálculos la puntuación típica asociada (Zn), que se
denominará puntuación típica normalizada. Indicará el número de
desviaciones típicas que una puntuación se encuentra por encima (si
es positiva) o por debajo (si es negativa) de la media en una
distribución normal. Por ejemplo, las puntuaciones típicas
normalizadas asociadas a los percentil 1, 26, 57 y 97 son:
Si no se puede asumir racionalmente o no se puede comprobar que las

puntuaciones siguen una distribución normal, no se puede hacer uso
de las tablas de la curva normal para obtener las Zn. Sí podrían
calcularse las puntuaciones típicas estándares Zx, ya que no asumimos
ningún supuesto sobre la distribución de los datos. Si los datos de una
muestra se ajustan a la normal, entonces cada Zx de una persona es
similar a su Zn.
Las puntuaciones normalizadas adquieren mayor significado cuando

comprendemos su relación con la distribución o curva normal llamada
curva de Gauss, la cual tiene las siguientes propiedades:
- La curva es simétrica, es decir, la media, la mediana y la moda

coinciden en la mitad de la curva.
85
- La curva es asintótica en relación al eje de la abcisa. Esto indica que

las colas de la curva nunca llegan a tocar el eje horizontal y se
extienden desde el infinito negativo, hasta el infinito positivo.
- La ordenada máxima de la curva se ubica en la media, donde la
unidad de la curva normal es igual a 0.3989 y z = 0.
- A partir de los puntos donde se ubican (+ -), 1ª desviación estándar
(encima o debajo de la curva promedio), la curva cambia en relación
al eje de las abcisas de convexa a cóncava.
- Entre (+ -) la desviación estándar cubre el 68.29% del área de la
curva.
La mayor ventaja de transformar puntajes brutos a puntuaciones

normalizadas, es que con las primeras tendríamos un número infinito
de distribuciones normales con diferentes medias o promedios
aritméticos y desviaciones estándar, mientras que con puntuaciones
normalizadas podemos relacionar todas las distribuciones normales a
una distribución de frecuencia relativa. De esta manera, cuando la
curva normal es utilizada como referencia, a través de las puntuaciones
normalizadas, recibe el nombre de distribución normal estándar, en
donde el promedio de dicha distribución es 0 y la desviación estándar
es 1.
3.3 Puntuaciones derivadas
Las puntuaciones típicas (estándares y normalizadas) tienen dos

dificultades formales para su interpretación: la posibilidad de asumir
valores no enteros y negativos. Con objeto de superar estas pequeñas
dificultades, se han propuesto otros baremos, que no son más que una
transformación lineal de las puntuaciones típicas, con lo que no se
alteran las propiedades de la escala típica. Estas puntuaciones se
denominan escalas típicas derivadas (si el objeto de la
transformación lineal es una puntuación típica estándar) o escalas
típicas derivadas normalizadas (si suponen la transformación lineal
de una puntuación típica normalizada), siendo las principales las
denominadas como escala T, escala D y estaninos (o eneatipos):
86
En definitiva, las puntuaciones T representan una escala con media 50

y desviación típica 10. Así, una puntuación T = 78 significa que la
persona obtiene una puntuación Zi = 2.8, es decir, 2.8 desviaciones
típicas por encima de la media del grupo normativo.
Las puntuaciones D suponen una escala con media 50 y desviación

típica 20. Por ejemplo, una puntuación D = 35 indica que la persona
obtuvo una puntuación Zi = -.75, o lo que es lo mismo, una puntuación
que se encuentra .75 desviaciones típicas por debajo de la media del
grupo normativo donde se barema el test.
Los estaninos representan otra escala con media 5 y desviación típica

2. Una persona que obtenga el estanino 8 en un test de aptitud espacial
indicará que se encuentra 1.5 desviaciones típicas por encima de la
media del grupo normativo.
Consideremos un caso de baremación de una misma puntuación en

diferentes escalas. Por ejemplo, a un sujeto que obtiene una
puntuación directa de 30 puntos en un test de aptitud mecánica con
media de 38 puntos y desviación típica 4, le podemos asignar
puntuaciones en los siguientes baremos:
Todas estas puntuaciones en escalas o baremos diferentes indican lo

mismo: que es un sujeto que se encuentra dos desviaciones típicas por
debajo de la media de grupo normativo en aptitud mecánica.
La interpretación de cada una de las escalas típicas derivadas

normalizadas sigue la misma lógica que su correspondiente escala
típica derivada sin normalizar, haciendo siempre la salvedad de que la
interpretación hay que referirla a una distribución normal.
La principal ventaja de las puntuaciones típicas, es que son útiles para

los análisis estadísticos (se asume que se dan en una escala de
intervalo). Al contrario, no pueden ser fácilmente interpretados cuando
las distribuciones empíricas de puntajes del test se alejan del patrón
de la distribución normal, lo cual puede llevar a conclusiones erróneas.
87
Lección II
Determinación del Baremo
1. Obtención de percentiles
Para obtener percentiles existen procedimientos gráficos y numéricos. En

este caso utilizaremos los procedimientos numéricos.
Para halla percentiles (Pc) se utiliza la siguiente fórmula:
Pc =li + n x /100 – fa i
Donde:
Pc= Percentil
li = Límite inferior matemático, en el que se encuentra n x/100
n x/100 = Número de datos (n) multiplicado por el percentil buscado (x);
todo ellos dividido entre 100 (constante aplicada por ser referida a tanto
por ciento).
f = Frecuencias, número de sujetos en el intervalo en el cual se encuentra
n x/100.
88
fa = Frecuencia acumulada al intervalo inferior en el cual se encuentra n

x/100.
i = Amplitud de intervalo.
Para hallar percentiles se sigue el siguiente procedimiento:
1. Identifique el puntaje total percentil a obtener (Pc), para reemplazarlo

luego en la fórmula.
2. Calcule n x/100, donde: n= tamaño de la muestra; x = percentil
buscado; 100 = constante.
3. Halle li. Con el dato anterior vaya a la columna Fa y empezando desde
el intervalo inferior busque el intervalo en el cual se encontraría el valor
de n x/100. El límite inferior de este intervalo al cual se le resta 0.5
constituye el límite inferior matemático. Haga el reemplazo en la
fórmula.
4. Fa = Determine la frecuencia acumulada al intervalo inferior en el cual
se encuentra n x/100. Con el valor hallado haga el reemplazo en la
fórmula.
5. F = Establezca la frecuencia o número de sujetos dentro del intervalo
en el cual se encuentra n x/100.
6. i = Determine la amplitud del intervalo y haga el reemplazo en la
fórmula.
7. Realice las operaciones indicadas en la fórmula y obtendrá el Pc
buscado.
Ejemplo, 177 niños rindieron un test de vocabulario. Los puntajes directos

(x), frecuencias (F) y frecuencias acumuladas (Fa) son las siguientes. ¿Cuál
es el valor del Pc 90?
(x) F Fa
32 4 177
31 7 173
30 17 166
29 22 149
28 18 127
27 28 109
26 15 81
25 22 66
24 14 44
23 14 30
22 12 16
21 3 4
20 1 1
1. Pc = 90
89
2. n x/100 = 177 x 90/100=159.
3. li =29.5 (el valor de n x/100 = 159.3 es ubicado en la columna Fa. Se

encuentra entre 149 y 166. En consecuencia el intervalo en el cual se
ubica este valor es el que corresponde al puntaje 166; vale decir, al
puntaje directo 30. El límite inferior matemático de 30 es 29.5.
4. Fa = La frecuencia acumulada al intervalo inferior en el cual se

encuentra n x/100, corresponde al intervalo 29, es decir, la Fa es 149.
5. F = la frecuencia de sujetos dentro del intervalo en el cual se encuentra

n x/100 es 17.
6. i = la amplitud del intervalo es 1.
Reemplazando los valores en la fórmula:
Pc 90 = 29.5 + 159.3 – 149 1

17
Pc 90 = 30.19 = 30
2. Obtención del rango percentilar
Para hallar qué percentil le corresponde a un determinado puntaje, se sigue

la siguiente secuencia:
1. Prepare una distribución de frecuencias de las puntuaciones directas en

intervalos de amplitud uno (x).
2. Determine la frecuencia acumulada al límite inferior (Fali) de cada

puntaje directo (empezando por el intervalo inferior, es conveniente
hacerse la pregunta ¿Cuál es el Fali de cada puntaje directo?). Esto es,
la suma de todas las puntuaciones que se encuentran por debajo del
puntaje directo en cuestión. Por ejemplo, en la tabla anterior que
utilizaremos también en este caso (x), la Fali del puntaje directo (x) 23
es 1+3+12=16, que es el número de sujetos con puntuaciones directas
de 23 o menos.
90
3. Determine la frecuencia acumulada en el punto medio del intervalo de

las puntuaciones ¿Cuál es el fapm de cada intervalo? Se obtiene
dividiendo f/2 y sumándole al resultado su correspondencia Fali. Por
ejemplo, al puntaje directo (x) de 23, le corresponde:
Fapm = 14/2 + 16 = 23.0
4. Determine la proporción acumulada (PA9 dividiendo la Famp

correspondiente entre N (número de sujetos). Por ejemplo, en nuestra
tabla a la calificación directa de 23 le corresponde el PA = 23.0:177 =
0.130.
5. Finalmente obtenga los rangos percentialres (RP) multiplicando el PA

correspondiente por 100. Así la calificación directa de 23 se le asigna el
RP= 0.130 x 100 =13. Un RP de 13 significa que 13 de cada 100
estudiantes (13%) alcanzaron puntuaciones directas menores a 23 en
el test y 87 de cada 100 tuvieron puntuaciones más altas.
x F Fali FApm PA RP
32 4 173 175.0 0.989 99
31 7 166 169.5 0.958 96
30 17 149 157.5 0.890 89
29 22 127 138.0 0.780 78
28 18 109 118.0 0.667 67
27 28 81 95.0 0.537 54
26 15 66 73.5 0.415 45
25 22 44 55.0 0.311 31
24 14 30 37.0 0.209 21
23 14 16 23.0 0.130 13
22 12 4 10.0 0.056 6
21 3 1 2.5 0.014 1
20 1 0 0.5 0.003 1
3. Obtención de eneatipos
1. Calcular la media de la distribución.

2. Calcular la desviación estándar de la distribución
3. Obtener la constante K: K=S/4
91
4. Seguir el siguiente algoritmo.
Eneatipo Algoritmo
9= X + (K x 7)
8= X + (K x 5)
7= X + (K x 3)
6= X + (K x 1)
5= X - (K x 1)
4= X - (K x 3)
3= X - (K x 5)
2= X - (K x 7)
1= X - (K x 1)
4. Equivalencias entre puntajes T; CI; eneatipos; percentiles; nivel

y rango
T CI Eneatipos Percentiles Nivel Rango

67 - 128- 9 96 – 99 Muy Alto I
63 - 66 121 -127 8 89 – 95 Alto II+
58 - 62 112 – 120 7 77 – 88 Alto II
53 - 57 104 – 111 6 60 – 76 Medio III+
48 - 52 96 – 103 5 40 – 59 Medio III
43 - 47 88 – 95 4 23 – 39 Medio III-
38 - 42 80 – 87 3 11 – 22 Bajo IV
33 - 37 72 – 79 2 4 – 10 Bajo IV-
0 - 32 63 - 71 1 0-3 Muy Bajo V
92
TEXTOS SELECCIONADO 4
DIFERENCIACIÓN ENTRE NORMAS Y ESTANDARIZACIÓN6
Normas
Las pruebas frecuentemente utilizadas en el diagnóstico son las llamadas

pruebas referidas a normas (Sattler, 1988), pues los resultados individuales
se comparan con los resultados de un grupo, para conocer la posición del
desempeño del sujeto frente a ellos. Este grupo de comparación o referencia
se llama grupo normativo (Cohen & Swerdlik, 1999), es decir, el grupo de
personas cuyo rendimiento en una prueba se usa para generar normas para
tal prueba y como fuente de referencia para evaluar los resultados
individuales (Cohen & Swerdlik, 1999). Sin embargo, hay normas o grupos
de referencia de tipo nacional, regional y local; según la edad y grado de
6
Extraído de: Merino, C. & Kenny, D. (2003) Revisión de Algunos Conceptos y
Recomendaciones en la Medición Psicopedagógica. Revista de Actualidad
Pedagógica, 23(55), 51-59.
93
instrucción; según el tipo de desempeño laboral u otra condición específica.

Por ejemplo, normas para estudiantes de educación especial, para profesores
con n años de experiencia, etc. Esta información generalmente se encuentra
en las tablas normativas o baremos que los manuales o algunos artículos
científicos publican; en los artículos científicos, los datos normativos se
pueden construir a partir de los reportes de la media y desviación estándar
del grupo estudiado.
Una práctica equivocada sería elegir datos normativos de un grupo específico

y utilizarlo para interpretar los resultados de un sujeto con características
notablemente diferentes al grupo normativo. Por ejemplo, se han encontrado
evidencias que sugieren que la interpretación normativa para hombres y
mujeres (o personas de media vs. baja condición socioeconómica, o
adolescentes vs. adultos) en algunos atributos debe hacerse por separado,
pero una práctica negligente sería no tomar en cuenta esta información
cuando iniciamos la calificación de la prueba aplicada.
Generalmente, las diferencias normativas se extraen de un estudio en que se

muestra que las diferencias entre las submuestras (por ejemplo, profesores
varones vs. mujeres) ha evidenciado diferencias significativas en su
distribución. El usuario debe identificar si la prueba posee normas relevantes
con las cuales comparar sus resultados individuales y si se reporta algún tipo
de descripción de la muestra, así como los procedimientos de selección.
Existen también normas de limitada utilidad, como los que son elaborados en
(a) el periodo de construcción de una prueba o (b) recogidas de la aplicación
específica en un grupo (Angoff, 1971). En la primera situación, el autor de la
prueba deriva las normas del grupo cuyos resultados sirvieron para el análisis
de ítems y la definición final del instrumento. En la segunda situación, la
muestra es auto-seleccionada o sólo “estaba ahí”. Se debe considerar
finalmente que las conclusiones basadas en normas tienden a variar con
respecto al grupo de comparación (Andreani, 1975), de tal modo que el
puntaje de un sujeto puede ser alto al usar una norma pero cuando es
comparada con otras normas, su ubicación puede descender (Lyman, 1991).
Estandarización
Básicamente, la estandarización señala que el instrumento de medición está

organizado de tal manera que es administrado en condiciones estándar, es
decir, igual para todos los momentos de aplicación, a una muestra
representativa de sujetos, con el propósito de establecer normas (Cohen &
Swerdlik, 1999). Glascoe (1997) afirma que el término estandarización
significa, idealmente que (1) las instrucciones de administración y calificación
han sido probados en estudios de campo y están establecidos claramente,
pudiendo ser administrados de la misma manera por diferentes
examinadores; (2) que la prueba se ha aplicado a una gran cantidad de
94
sujetos que han sido extraídos representativamente de la población de

interés; y (3), que se ha obtenido un desempeño promedio de los sujetos de
acuerdo a ciertas variables clasificadoras (sexo, región, estatus
socioeconómico, etc.). La modificación de alguna parte estandarizada de la
prueba, por lo tanto, introduciría una variable de error en el puntaje obtenido.
Las instrucciones de administración y calificación son las guías suficientes

para decidir la flexibilidad o rigurosidad que el examinador usará. Uno debería
cuestionar los resultados obtenidos por una aplicación en la que se las
instrucciones originales son modificadas, si es que ello no forma parte de una
experimentación de las modificaciones para algún fin preestablecido.
ACTIVIDADES DE AUTOAPRENDIZAJE
1. Elabora un mapa conceptual indicando los principales tipos de

baremos que se pueden utilizar, señalando además ejemplos de
instrumentos que los utilicen.
2. Elabora un proyecto para elaborar un test psicométrico. Elabora los

ítems. Aplica los mismos a una muestra de 100 personas y realiza
el análisis de los ítems, confiabilidad, validez y determinación de
baremos tal como indica en el manual.
95
AUTOEVALUACIÓN 4
1. ¿Cuál es el objetivo de la construcción de baremos?
2. Un grupo de 200 personas obtuvo en un test de inteligencia una media de

14.78 puntos y una desviación típica de 3.34. La siguiente tabla recoge la
distribución de frecuencias de las puntuaciones obtenidas por los sujetos
en el test:
a) Calcule los percentiles correspondientes a cada una de las puntuaciones

directas.
b) Calcule las puntuaciones típicas, puntuaciones T y D que corresponden a
sujetos con puntuaciones directas de 10 y 21 puntos.
c) Suponiendo que la distribución se adapta a la distribución de la curva
normal, que puntuaciones típicas normalizadas y en las escalas derivadas
(T, D y E) corresponderían a esos mismos sujetos.
96
a) Si el CI supera el valor de 100 significará que el sujeto tiene una

Inteligencia inferior al promedio de su edad.
b) Si el CI es inferior a 100, significa que el sujeto tiene una inteligencia
normal superior.
c) Cocientes Intelectuales inferiores a 70 indican excepcionalidad
intelectual de tipo cognitivo
d) Cocientes Intelectuales inferiores a 70 indican problemas importantes
de tipo cognitivo
a) Los baremos percentiles consisten en asignar a cada posible puntuación
directa un valor (en una escala de 1 a 100) que se denomina percentil
y que indican la media de sujetos del grupo normativo que obtienen
puntuaciones iguales o superiores a las correspondientes directas.
b) Si un sujeto obtiene en un cuestionario de autoritarismo le corresponde
el percentil 95, ya conocemos que este sujeto supera en ese rasgo al
95% de los sujetos utilizados para baremar el test.
c) Los percentiles, representan medidas de posición en una distribución de
frecuencias
d) La desventaja de los rangos percentilares es que el puntaje derivado
es más rápido de entender y más fácil comunicación.
5. Es incorrecto en relación a los baremos

a) Los baremos consisten en asignar a cada posible puntuación directa un
valor numérico que informa sobre la posición que ocupa la puntuación
directa en relación con los que obtienen las personas que integran el
grupo normativo.
b) La puntuación directa de una persona en un test no es directamente
rendimiento de las restantes personas que comparten el grupo
normativo.
c) Puntuaciones típicas pueden ser: estándares, normalizadas, escalas T y
D, eneatipos
d) Baremos cronológicos no pueden ser: Edad Mental y Cociente
Intelectual.
a) Las Edades Mentales (EM) y los Cocientes Intelectuales (CI) son
baremos percentiles.
b) Si el CI supera el valor de 100 significará que el sujeto tiene una
Inteligencia inferior al promedio de su edad
97
c) El Cociente Intelectual se denomina así porque es el resultado de dividir

la edad mental entre la edad cronológica del sujeto
d) En la estimación del coeficiente intelectual, para evitar decimales el
resultado se divide por 100
7. Los baremos percentiles
a) Son poco adecuados para los análisis estadísticos, pues no se pueden

emplear operaciones aritméticas entre ellos.
b) Pueden interpretarse de una manera inexacta, sólo cuando la
distribución de los puntajes del test sean estrictamente normales
c) Son más rápido de entender y más difíciles de comunicar
d) Los baremos percentilares pueden interpretarse de una manera
inexacta, sólo cuando la distribución de los puntajes del test sean
estrictamente normales.
a) Los baremos percentiles consisten en asignar a cada posible puntuación
directa un valor (en una escala de 1 a 100) que se denomina eneatipo
y que indican la media de sujetos del grupo normativo que obtienen
puntuaciones iguales o superiores a las correspondientes directas.
b) Si un sujeto obtiene en un cuestionario de autoritarismo le corresponde
el percentil 95, ya conocemos que este sujeto supera en ese rasgo al
5% de los sujetos utilizados para baremar el test.
c) La desventaja de los rangos percentilares es que el puntaje derivado es

más rápido de entender y más fácil comunicación
d) Los percentiles, representan medidas de posición en una distribución
de frecuencias
9. Es correcto en relación a los baremos

a) Los baremos no consisten en asignar a cada posible puntuación directa
un valor numérico que informa sobre la posición que ocupa la puntuación
directa en relación con los que obtienen las personas que integran el
grupo normativo.
b) Baremos cronológicos no pueden ser: Edad Mental y Cociente
Intelectual.
c) Puntuaciones típicas no pueden ser: estándares, normalizadas, escalas
T y D, eneatipos
d) La puntuación directa de una persona en un test no es directamente
rendimiento de las restantes personas que comparten el grupo
normativo.
98
a) Las Edades Mentales (EM) y los Cocientes Intelectuales (CI) son

baremos cronológicos.
b) El Cociente Intelectual se denomina así porque es el resultado de dividir
la edad mental entre la edad cronológica del sujeto
c) Si el CI supera el valor de 100 significará que el sujeto tiene una
Inteligencia inferior al promedio de su edad
d) En la estimación del coeficiente intelectual, para evitar decimales el
resultado se multiplica por 100
RESPUESTAS
1. La construcción de baremos tiene por objeto poder interpretar

puntuaciones directas de los test en función de la posición relativa que esas
puntuaciones directas tienen en el conjunto de las puntuaciones obtenidas.
2. a) Los percentiles se muestran en la cuarta fila
b)
c)
3) d. 4) d. 5) d. 6) c. 7) a. 8) d. 9) d. 10) c.
99
EXPLORACIONES ON-LINE
http://www.uniovi.es/UniOvi/Apartados/Departamento/Psicologia/metodos/tut
or.1indice.html
http://www.intestcom.org/
http:/huitoto.udea.edu.co/ceo/Validez02.htm
http:/webpages.ull.es/users/pprieto/escalamiento/escala41.html
http:/www.aera.net/
http:/www.ncme.org/
http:/www.educastur.princast.es/eoep/eonalon/investigación/inter_m2_fa.pdf
BIBLIOGRAFÍA
Abad, F., Garrido, J., Olea (2006). Introducción a la Psicometría. Teoría Clásica
J. & Ponsoda, V. de los Test y Teoría de Respuesta al Item. Madrid:
Universidad Autónoma de Madrid.
Andreani, O., (1975). Aptitud mental y rendimiento escolar.

Barcelona: Herder.
Angoff, W. H. (1989). Scales, norms, and equivalente scores”. En

R. L. Linn (Ed.) Educational measurement, New
York: ACE/Mac Millan.
Cohen, R. J. & Swerdlik, (1999) Psychological testing and assessment: An

M. E. introduction to test and measurement (4th ed.)
Montain View, California: Mayfield Publishing.
Glascoe, F. (1997). A validation study and the psychometric

propierties of the Brigance Screens. North Billera,
Massachusetts: Curriculum Associates.
Lyman, H. (1991). Test scores and what they mean (5th ed.)
USA: Allyn and Bacon.
100
Merino, C. & Kenny, D. (2003) Revisión de Algunos Conceptos y

Recomendaciones en la Medición Psicopedagógica.
Revista de Actualidad Pedagógica, 23(55), 51-59.
Sattler, J. M. (1988). Evaluación del a inteligencia infantil y

habilidades especiales, (2da edición) México, D.F.:
El Manual Moderno.
BIBLIOGRAFÍA COMENTADA
Magnusson, D. (1972). Teoría de los Test. México D.F.: Editorial Trillas.
El propósito fundamental del libro es ofrecer una introducción coherente, desde

el punto de vista teórico y estadístico en: a) la teoría básica de la medición de
las diferencias individuales; b) los métodos y la metodología aplicados a los
problemas de dependencia, y c) para los modelos y métodos de uso para
emplear los datos de psicología diferencial en las situaciones prácticas de la
índole de elaboración de test, diagnóstico, orientación, selección y
clasificación. La presentación de cada área se termina cuando el propósito del
resumen se ha logrado sin suponer que el lector tiene una preparación
avanzada en estadística. Se dan sugerencias de lecturas superiores para viene
de quienes deseen hacer un estudio más avanzado.
101
GLOSARIO
Adaptación : Proceso que permite que los contenidos de un test sean

acordes al nivel cultural, edad y capacidad de las
personas.
Análisis Factorial : Técnica estadística que examina la estructura interna de

la unidad de medida, mide si los indicadores tienen algo
en común, es decir si tienen un común denominador,
mide las correlaciones entre los indicadores e intenta
descubrir si hay algo subyacente. Los ítems deben tener
un común denominador que debe aflorar
estadísticamente. La estructura subyacente o común
denominador se llama factor (faceta).
Análisis de ítems : Estudio de las propiedades de los elementos

(preguntas) de un test directamente relacionadas con
las propiedades de éste.
Baremos o tablas : Tabla que sistematiza las medidas que trasmutan los
de normas puntajes directos en puntajes derivados, susceptibles
de interpretación estadística.
Coeficiente de : Coeficiente de correlación entre dos grupos de puntajes

Confiabilidad e indica el grado en que los individuos mantienen sus
posiciones dentro de un grupo. Abarca valores desde 0
a 1. Cuanto más se acerque el coeficiente a 1, más
confiable será la prueba. El coeficiente de confiabilidad
señala la cuantía en que las medidas del test están
libres de errores casuales o no sistemáticos. Por
ejemplo, un coeficiente de 0.95 quiere decir que en la
muestra y condiciones fijadas de aplicación del test el
102
95% de la varianza de los puntajes directos se debe a

la auténtica medida, y sólo el 5%, a errores aleatorios.
Confiabilidad : Propiedad mediante la cual un instrumento mide con

exactitud y precisión lo propuesto. Es la cualidad, la que
hace que una misma prueba aplicada dos veces a la
misma persona en circunstancias idénticas, proporcione
similares resultados. La confiabilidad indica si la prueba
es constante en las mediciones que obtiene de una
misma persona, registrando únicamente fluctuaciones
de menor importancia.
Constructo : Idea científica desarrollada o construido para describir

o explicar el comportamiento.
Cuestionario : Instrumento de recolección de datos, integrado por

preguntas que solicitan información referida a un
problema, objeto o tema de investigación, el cual es
normalmente administrado a un grupo de personas.
Este tipo de instrumento es de uso generalizado en los
estudios de naturaleza psicológica.
Cuestionario de : Cuestionarios en que cada reactivo o pregunta consta

Respuesta de un número fijo de escogencias o alternativas de
Cerrada respuestas. En estos casos, se le pide al sujeto marcar
la alternativa de respuesta que considere más
apropiada o de tipo dicotómicas como si o no; verdadero
o falso.
Cuestionario de : Cuestionarios que además de presentar diferentes

Respuesta alternativas de posibles respuestas, incluyen, además,
Semiabierta una alternativa abierta identificada con la palabra:
Otro(a), dejando el espacio correspondiente para
responder.
Cuestionario de : Cuestionarios cuyas respuestas requieren de la

Respuesta Abierta expresión escrita del sujeto, el cual debe elaborar
claramente su respuesta. En estos casos, en lugar de
anticipar posibles alternativas de respuestas, el
investigador simplemente provee un espacio suficiente
para la redacción de cada respuesta.
103
Cuestionarios : Cuestionarios integrados por algunas preguntas

Mixtos cerradas o semi-cerradas y por otras abiertas.
Definición : Manera de especificar el significado de un término,

Conceptual como las que figuran en los diccionarios, empleándose
en ella otros términos que son sinónimos (en mayor o
menor medida) de aquél que se está definiendo.
Definición : Especificación de las actividades del investigador para

Operacional medir o manipular una variable. Es decir, que dicha
definición es como un «manual de instrucciones» para
el investigador, pues le indica cómo debe hacer
determinadas cosas (y qué cosas no debe hacer). En
definitiva, define o da sentido a una variable diciendo al
investigador, palabra por palabra, lo que debe hacer
para medir el constructo.
Dimensión : Distintos aspectos en que puede ser considerado un

concepto o variable, representando así sus
componentes.
Estandarización : Procedimiento mediante el cual siempre que se desee

comparar a cierto número de personas con respecto a
las calificaciones de una prueba, permite que se les
administre la misma prueba o distintas formas de la
misma.
Indicadores : Definiciones operacionales o componentes de un

modelo tales que: a) Están relacionados con el
concepto o dimensión que tratan de indicar y, b) son
expresiones cuantitativas. Por ejemplo, el test NEO-PI
cuenta con 5 factores, cada uno dividido en 6
dimensiones. Cada una de estas dimensiones cuenta a
su vez con 8 indicadores o Ítems.
Índice de : Un ítem tiene poder discriminativo si distingue entre los

Discriminación sujetos que puntúan alto y los que puntúan bajo en el
test (si permite distinguir entre sujetos eficaces frente
a ineficaces). Indica la capacidad del ítem para
distinguir entre los sujetos de mayor conocimiento y los
de menor. Este índice mide qué tan capaz es un ítem
para medir las diferencias individuales; desde el punto
de vista de objetivo evaluado. Proporciona un indicador
bruto del desempeño en cada ítem por separado de los
104
respondientes competentes frente a los menos

competentes.
Medición : Proceso de asignar números u otros símbolos a los

objetos de tal forma que las propiedades de los números
o símbolos reflejan propiedades del atributo medido.
Nivel Nominal : Nivel de medición que permite diferenciar conductas y

características dentro de las variables y asignar a
aquellos nombres categoriales no ordenables.
Nivel Ordinal : Nivel de medición que requiere que los objetos de un

conjunto puedan ser ordenados con base en alguna
característica o propiedad.
Nivel de Intervalo : Nivel de medición que posee las características de las

ordinales pero suponen que las distancias
numéricamente iguales en la escala representan
distancias iguales en la propiedad que se mide. Las
distancias entre las categorías o puntos de la escala se
llaman intervalos. Una escala que tiene una distancia
fija entre sus puntos se llama Escala de Intervalos.
Nivel de Razón : Nivel de medición ideal del científico pues permite todo
tipo de cálculos matemáticos al tener entre sus valores
un cero real, es decir la ausencia de la propiedad que se
está midiendo. Ello hace posible la aplicación de las
propiedades de la multiplicación (y la división) base de
los números fraccionarios.
Normas : Afirmación de cómo se ha desempeñado una población

de referencia en un test. Tales afirmaciones se
sustentan básicamente en los cálculos estadísticos
realizados en base al rendimiento del grupo normativo.
Percentiles : Expresan en función del porcentaje de personas del

grupo normativo, que quedan por debajo de una
puntuación directa determinada. Un percentil indica la
posición relativa del individuo en el grupo normativo.
Puntajes : Puntuaciones que se obtienen de los puntajes directos

Derivados del grupo normativo, a través de procedimientos
105
estadísticos y que posibilitan la interpretación

psicométrica de tales puntuaciones.
Puntajes directos : Puntuaciones que se obtienen directamente de los

o brutos sujetos del grupo normativo.
Validez : Criterio de calidad relacionado con la adecuación de las

puntuaciones del test para el objetivo que suscitó su
aplicación. Un test es válido si mide lo que pretende. Se
distingue entre validez teórica y empírica. La primera
indica lo que el test mide; la segunda, aquello para lo
que sirve. La validez de un test se define ya sea por
medio de la relación entre sus puntuaciones con alguna
medida de criterio externo, o bien la extensión con la
que la prueba mide un rasgo subyacente específico
hipotético o “constructo”.
Validez Muestral : Indica que el test es una muestra adecuada de lo que

aspira a medir; p. ej., los test de conocimientos suelen
elaborarse con elementos que representen el campo y
el nivel de los conocimientos que interesen.
Validez : Indica que el test responde al concepto de lo que se

Conceptual quiere medir. Es de dos tipos: factorial y congruente. La
validez factorial se expresa por el coeficiente del test en
un factor; la validez congruente, por el conjunto de
datos que en investigaciones y con métodos diversos
concuerdan en mostrar la consistencia del concepto.
Validez de : Grado en que un procedimiento de medida contempla

Constructo de forma adecuada el constructo teórico o rasgo
abstracto que pretende medir y en qué nivel de
hipótesis derivadas del mismo se confirman
empíricamente mediante dicho procedimiento.
Variable : Constructos o propiedades estudiadas por los científicos

que adquieren diferentes valores. Ejemplos:
Coeficiente Intelectual, Perfil de personalidad, Estado
civil.
106

Unidad Iii y Iv

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Unidad Iii y Iv

Diunggah oleh

Hak Cipta:

Format Tersedia

TOMÁS PEDRO PABLO CAYCHO RODRÍGUEZ

“La elaboración de pruebas psicológicas requiere de mucha paciencia.

Aaron T. Beck, M.D.

¿Qué procedimiento se debe emplear para el análisis de

 Identifica las relaciones entre psicología y las medidas

 Provee de validez de constructo a los instrumentos

 Obtiene la confiabilidad mediante métodos apropiados

 Asume una actitud científica frente a la psicología.

Lección I: Análisis de Ítems

Lección II: Confiabilidad. Concepto, características y aplicaciones

Confiabilidad como estabilidad temporal

Lección III: Validez. Concepto, características y aplicaciones

Análisis Análisis de la Análisis de la

Homogeneidad, discriminación, dificultad, validez, confiabilidad, estabilidad,

Los ítems se construyen con la finalidad de medir el constructo, variable, o

Para ello, tras aplicar el cuestionario provisional a una muestra de sujetos

Un elemento aij de esta matriz indica el valor asignado a la respuesta que da

El procesamiento de los datos para obtener las características de los ítems,

 Distribuir las frecuencias de las puntuaciones totales y de cada sub-test (si

Este primer indicador sirve para cuantificar el grado de dificultad de cada

Ejemplo: Supongamos que la siguiente tabla recoge las respuestas de una

Con estos resultados podemos comprobar varios aspectos de la

- El valor mínimo que puede asumir Dj es 0 (ningún sujeto acierta el ítem)

- A medida que Dj se acerca a 0 indica que el ítem ha resultado muy difícil;

- Dj está relacionado con la varianza de los ítems: Si Dj es 0 ó 1, la varianza

Al diseñar un cuestionario de rendimiento óptimo, al inicio se sitúan los

Debido a que la mayoría de los ítems de las pruebas de ejecución máxima

Una vez corregida la dificultad es posible jerarquizar los ítems desde

La contribución de caca ítems a la consistencia interna del test se evalúa

Según la disposición de la matriz de datos, para obtener los Hj de los ítems,

Los coeficientes de correlación que más se utilizan para averiguar el grado

Ejemplo: Supongamos un test formado por 3 ítems con formato de

Puede comprobarse que los índices de homogeneidad de los 3 elementos

El índice de homogeneidad de un ítem nos va a informar del grado en que

un rasgo o constructo unitario, deberían eliminarse los que tienen un Hj

En ocasiones, un test está formado por diferentes subtest con contenidos

Cuando un test tiene un número pequeño de ítems, resulta más apropiado

El tamaño de los índices de homogeneidad estadísticamente significativos

gl 0.1 0.05 0.01 0.001 gl 0.1 0.05 0.01 0.001

1 0.988 0.997 1.000 1.000 22 0.344 0.404 0.515 0.629

2 0.900 0.950 0.990 0.999 23 0.337 0.396 0.505 0.618

3 0.805 0.878 0.959 0.991 24 0.330 0.388 0.496 0.607

4 0.729 0.811 0.917 0.974 25 0.323 0.381 0.487 0.597

5 0.669 0.755 0.875 0.951 26 0.317 0.374 0.479 0.588

6 0.622 0.707 0.834 0.925 27 0.312 0.367 0.471 0.579

7 0.582 0.666 0.798 0.898 28 0.306 0.351 0.463 0.570

8 0.549 0.632 0.765 0.872 29 0.301 0.355 0.456 0.562

9 0.521 0.602 0.735 0.847 30 0.296 0.349 0.449 0.554

10 0.497 0.576 0.708 0.823 35 0.275 0.325 0.418 0.519

11 0.476 0.553 0.684 0.801 40 0.275 0.304 0.393 0.490

12 0.458 0.532 0.661 0.780 45 0.243 0.288 0.372 0.465

13 0.441 0.514 0.641 0.760 50 0.231 0.273 0.354 0.443

14 0.426 0.497 0.623 0.742 55 0.220 0.261 0.339 0.425

15 0.412 0.482 0.606 0.725 60 0.211 0.250 0.325 0.408

16 0.400 0.468 0.590 0.708 70 0.195 0.232 0.302 0.380

17 0.369 0.456 0.575 0.693 80 0.183 0.217 0.283 0.357

18 0.378 0.444 0.561 0.679 90 0.173 0.205 0.267 0.338

19 0.369 0.433 0.549 0.665 100 0.164 0.195 0.254 0.321

20 0.360 0.423 0.537 0.652 120 0.150 0.178 0.232 0.294

21 0.352 0.413 0.525 0.640 150 0.134 0.159 0.208 0.264

200 0.116 0.138 0.181 0.230

3. Análisis del poder de discriminación

Se separan las pruebas considerando el grupo superior (27%) y el grupo