Los tests construidos y evaluados con los procedimientos descritos, se denominan: Test
referidos a la norma, ya que el rendimiento de los sujetos, se evala en referencia a otros
sujetos que forman el grupo normativo. Este enfoque de los tests referidos a normas, no
proporciona, en ocasiones, una informacin adecuada de la habilidad real de un sujeto, sino
de su posicin relativa, respecto a otros sujetos. Supongamos que un sujeto punta por
encima del 80% de sus compaeros en un determinado test. Si deseamos saber la posicin
relativa de dicho sujeto respecto al rasgo evaluado, tenemos que tener informacin acerca
del grado de representatividad de esa muestra. Si estamos hablando de que un sujeto se
encuentra en un percentil 80 respecto a una prueba de resolucin de problemas, podemos
plantearnos cuestiones como: qu tipo de problemas es capaz de resolver, qu tipo de
resolucin requieren dichos problemas, cul es el lmite de capacidad de resolucin de
problemas de dicho sujeto
Los Tests Referidos al Criterio (TRC): tienen sus orgenes en los trabajos de Flanagan y
Nedelsky, que introdujeron el concepto de estndar absoluto y relativo respecto a las
puntuaciones obtenidas en los tests. La denominacin de Tests Referido al Criterio, se debe
a Ebel, y su diferenciacin respecto a los Tests Normativos, fue establecida por Glaser
estable la diferenciacin con los tests normativos.
Segn Hambleton las principales causas que generan su aparicin son: la necesidad de
conocer la eficacia de los programas educativos, el inters por evaluar el nivel de
habilidades bsicas alcanzado por los sujetos y el clima contrario al uso de los tests, que
caracteriza la situacin de la sociedad americana, en la dcada de los aos 60. Durante esta
dcada, se produce una escasez de investigaciones en este campo; merece destacar, sin
embargo, el artculo en 1969 de Popham y Husek, en el que se reaviva el tema y se
amplan las distinciones entre tests referidos a normas y tests referidos al criterio.
Hacia la 2 mitad de los aos 80, se produjo una disminucin significativa en la produccin
de publicaciones dedicadas a esta perspectiva, debido a la irrupcin en el contexto educativo
del nuevo enfoque denominado medicin autntica o evaluacin de la ejecucin
aunque se considera que ambos trminos, son simplemente, trminos alternativos de la
medicin referida a criterio. Hoy en da, es un tema de gran relevancia en el terreno de la
medicin psicolgica y educativa.
Se han propuesto numerosas definiciones para hacer referencia a este tipo de tests, siendo la
ms aceptada la propuesta de Popham: un TRC se utiliza para evaluar el status absoluto
del sujeto, con respecto a algn dominio de conductas bien definido. Teniendo en cuenta
esta definicin, los TRC, no constituyen un nuevo marco terico en la Teora de los Tests,
sino un nuevo enfoque, que responde a preguntas y necesidades distintas de los Tests
referidos a las Normas (TRN).
Desde la perspectiva de los TRC, el objetivo es construir y evaluar tests, que permitan
interpretar las puntuaciones en sentido absoluto, sin referencia a ningn grupo, y describir
con mayor precisin los conocimientos, habilidades y destrezas de los sujetos en un
dominio concreto de contenidos.
FINALIDAD
Construccin
del test
TEST REFERIDOS A
NORMAS (TRN)
Describe al sujeto en el
continuo de algn rasgo,
haciendo hincapi en las
diferencias individuales y
expresando
su
posicin
relativa respecto al grupo
normativo.
Los tems suelen derivarse de
alguna teora de rasgos, y no
se hace tanto hincapi en la
especificacin
clara
del
Criterios de
seleccin de
tems del test
dominio de contenidos.
El determinar la longitud del test, o el nmero de tems que van a evaluar cada uno de los
objetivos incluidos en el test, constituye un problema crucial, ya que de ello va a depender la
utilidad de las puntuaciones obtenidas en dicho test.
Si el nmero de tems es pequeo: la interpretacin que hagamos de las puntuaciones
obtenidas, tiene un valor limitado, por lo que se debera ser cautos a la hora de emplear
dichas puntuaciones para llevar a cabo cualquier tipo de decisin que implique, por
ejemplo, una seleccin. As mismo, la estimacin del dominio ser imprecisa y dar
lugar a clasificaciones que, o bien son inconsistentes a lo largo de varias presentaciones
de formas paralelas, o no son indicativas del verdadero nivel de maestra de un sujeto,
es decir, se obtendrn clasificaciones poco fiables. Si el propsito que se persigue, es
establecer el grado de maestra de un sujeto: la determinacin de la longitud del test,
est directamente relacionada con el nmero de errores de clasificacin tolerables.
Si el nmero de elementos del test es elevado: se pueden asegurar valores de
probabilidad de clasificacin incorrecta mnimos. Un excesivo nmero de tems
tampoco es lo ms adecuado, debido a limitaciones de tiempo, economa, etc.
Se pueden considerar 2 maneras de reducir el nmero de errores sin aumentar la longitud
del test:
Modelos bayesianos y
Mtodos basados en tests computarizados.
Vamos a presentar el Modelo propuesto por Millman: basado en el modelo binomial;
considera la proporcin esperada de tems que un sujeto puede contestar correctamente para
ser considerado como apto, de la poblacin de tems definidos, as como el error mximo que
se est dispuesto a tolerar
Dicho modelo, parte de los siguientes supuestos:
El test est compuesto por una muestra aleatoria de tems dicotmicos.
La probabilidad de una respuesta correcta por parte de un sujeto, es constante para
todos los tems
Las respuestas dadas a los tems del test, son independientes unas de otras.
Los errores se ajustan al modelo binomial.
!
= =
! ( )!
A partir de esta ecuacin, podemos calcular la Longitud del Test, supuesta una
determinada proporcin de aciertos:
( )
Dnde:
n= nmero de tems del test
Pc= proporcin de aciertos para ser considerado apto
n=
0.85(10.85)
0.052
n=
0.851-0.85
0.022
error mximo de 0.02, tendramos 319 tems y admitiramos un margen de aciertos entre 0.83
y 0.87 (0.850.02)
Tratan en qu medida las clasificaciones hechas por un tests, coinciden con las hechas por
otro en una muestra (2 formas paralelas de test).
Estos mtodos implican la existencia de una sola muestra de sujetos y dos aplicaciones de
un mismo test o de dos formas paralelas.
Test A
7
9
8
8
7
6
6
6
6
5
Test B
6
8
6
7
5
7
6
6
6
4
sujeto
11
12
13
14
15
16
17
18
19
20
Test A
5
5
4
3
4
3
2
5
3
1
Test B
3
5
4
3
3
4
2
2
1
1
Estas puntuaciones, pueden agruparse tal y como aparecen en la siguiente MATRIZ, en funcin
de que superen o no la puntuacin de corte (en este caso 7), lo que va a permitir clasificarlos en
una categora u otra. Como vemos, los sujetos 2 y 4, son los nicos sujetos que han sido
clasificados en el grupo de Maestra en ambos tests. Del 7 al 20, los sujetos estn clasificados
dentro del grupo No Maestra, tanto en el test A como en el test B. El resto de los sujetos, han
sido clasificados de distintas maneras en ambos tests.
Test A
Maestra
No maestra
Total (N i )
Test B
No Maestra
3
14
17
Maestra
2
1
3
Total (N i )
5
15
20=N
= =
1=1
11 22
+
+ +
= =
1=1
2 14
+
= 0.80
20 20
Esto es, el 80% de los sujetos El valor mximo de p c , es 1, valor que se obtendr, cuando
todos los sujetos sean clasificados de la misma forma en los dos tests.
El valor mnimo, ser igual a la proporcin de clasificaciones consistentes, que podemos
esperar por azar (p a ) valor que viene dado, en funcin de las Frecuencias Marginales de la
matriz (N j )
=
=1
Ante estos resultados, se puede decir que la utilizacin de los tests supone una mejora
importante en la consistencia de las clasificaciones, y por tanto una fiabilidad de las mismas,
con respecto a las realizadas por mero azar. Mientras que por azar obtenemos una fiabilidad de
0.67, el uso de los tests, nos reporta una fiabilidad de 0.80
Si aplicamos el Coeficiente Kappa a los datos del ejemplo anterior, el resultado sera:
0.80 0.675
= .
1 0.675
Dnde:
Fc = Frecuencia observada de clasificaciones coincidentes.
Test A
Maestra
No maestra
Total (N i )
Test B
No Maestra
3
14
17
Maestra
2
1
3
Total (N i )
5
15
20=N
=
( )
Si aplicamos la frmula a nuestros datos, en primer lugar, calculamos el error tpico de medida
de K
13.5
=
= 0.32
20(20 13.5)
Dado que el valor K=0, no se encuentra dentro de los lmites del intervalo, podemos
establecer que el acuerdo entre las clasificaciones, es estadsticamente significativo
Estos autores, proponen el ndice P* como alternativa al Coeficiente Kappa de Cohen. Este
ndice se basa en que la probabilidad mnima de una decisin consistente es de 0,50.
Este mnimo tendr lugar si las puntuaciones del test, son estadsticamente independientes y el
punto de corte, est en la mediana de la distribucin conjunta de las puntuaciones obtenidas por
los sujetos en las dos aplicaciones. El coeficiente P* viene expresado por la siguiente ecuacin:
=
0.50
= 2 1
1 0.50
Siguiendo a estos autores, el valor de P*=1, cuando las decisiones son totalmente consistentes, y
P*=0, cuando las decisiones, no son ms consistentes, que las que resultaran de utilizar tests
estadsticamente independientes, cuyas puntuaciones presentan la misma distribucin y un
punto de corte igual a la mediana de la distribucin comn.
En nuestro ejemplo: P C = 0.80, por tanto:
= (2 0.80) 1 = 0.60
Los mtodos que se han presentado anteriormente, implican la existencia de una sola muestra y
2 aplicaciones de un mismo tests o de 2 formas paralelas. El mtodo de Huynh, constituye un
procedimiento matemtico sofisticado, para estimar la consistencia de clasificacin, a partir de
una sola administracin de un test de maestra. Una de las principales ventajas del mtodo de
Huynh, es que slo se precisa un test y una sola aplicacin. Estos autores, proponen un
mtodo para pronosticar las puntuaciones en un test B, conocidas las puntuaciones de una
muestra de sujetos, en una primera aplicacin (test A). Para hacer ese pronstico, el mtodo
propuesto:
o
de 0,5; y acudiendo a las tablas de la curva normal, se busca el valor de P que deja por
debajo a la Z obtenida (su probabilidad).
=
( 0.5 )
= 0.64 = 0.74
( Pzz ) de
que dos
variables distribuidas normalmente, con una correlacin KR21=0.37, sean menores que
Z=0.64
pc y k
= 1 + 2( )
=
En nuestro ejemplo:
10
2
2
0.58 (0.74)2
= 0.168
0.74 (0.74)2
Este autor, establece un procedimiento con una nica aplicacin, cuando es imposible
establecer una forma paralela de un test. El mtodo, simula las puntuaciones de una segunda
forma paralela del test y al igual que el mtodo de Huynh, proporciona una buena estimacin
de los valores de P C y K.
Para la explicacin del mtodo, vamos a utilizar los datos del ejemplo desarrollado en el
Mtodo de Hambleton y Novick (test de 12 tems) suponiendo que slo se pudiese aplicar el test
A, y que el coeficiente de fiabilidad del test, es igual a 0.62 (coeficiente del test)
Sujeto
1
2
3
4
5
6
7
8
9
10
X Test A
7
9
8
8
7
6
6
6
6
5
sujeto
11
12
13
14
15
16
17
18
19
20
X Test A
5
5
4
3
4
3
2
5
3
1
fx
9
8
7
6
5
4
3
2
1
1
2
2
4
4
2
3
1
1
20
11
9
16
14
24
20
8
9
2
1
103
=
= . ;
= .
= + (1 )
Dnde:
=
=
=
= .
As, para el primer caso de la matriz de frecuencias, es decir, el caso en el que X=9, p X
sera:
9
5.15
= 0.628
= 0.62 + (1 0.62)
12
12
Siguiendo el mismo procedimiento se calcula el resto de los valores de P X, quedando la
columna del siguiente modo:
X
fx
9
8
7
6
5
4
3
2
1
1
2
2
4
4
2
3
1
1
20
9
16
14
24
20
8
9
2
1
103
0.628
0.576
0.525
0.473
0.421
0.370
0.318
0.266
0.215
. En tercer lugar, calculamos P x que es la probabilidad de que una persona, con una
determinada puntuacin X, y una probabilidad p x de acertar cada tem (calculada en el
apartado anterior), respondan correctamente 7 (nuestro punto de corte) o ms tems en
el test, y sea clasificado dentro del grupo de maestra.
Para ello, puesto que podemos considerar los tems, como ensayos de un proceso
binomial, aplicaremos la Funcin de Distribucin Binomial o se buscarn los valores
correspondientes, en las tablas de la distribucin binomial, para lo cual, se tendr en
cuenta:
o El nmero de tems (n)
o El valor del punto de corte (7 en nuestro ejemplo)
o La probabilidad de acertar cada tem, en funcin de la puntuacin obtenida
(p X )
12
Para calcular P x ,
() = ( ) =
Veamos cul sera el proceso a seguir, en el caso de un sujeto que ha obtenido una
puntuacin de 9 en el test y una probabilidad de acertar cada tem, de 0.628 (recordemos que
el punto de corte se estableci en 7)
12
(7) = ( = 7) = 0.6287 0.3725 = 0.21734
7
12
(8) = ( = 8) = 0.6288 0.3724 = 0.22932
8
12
(9) = ( = 9) = 0.6289 0.3723 = 0.17206
9
12
(10) = ( = 10) = 0.62810 0.3722 = 0.087
10
12
(11) = ( = 11) = 0.62811 0.3721 = 0.02675
11
12
(12) = ( = 12) = 0.62812 0.3720 = 0.00376
12
.
=
Por tanto, la probabilidad de acertar 7 o ms tems de 12, es 0.7363, que resulta de la suma
de las probabilidades de acertar 7, 8, 9, 10,11 y 12.
Si en lugar de hacer estos clculos, se acude a las tablas de la distribucin binomial,
habramos de buscar, la probabilidad de que X 7, para n=12, p=0,628, lo que equivale a
buscar 1- la probabilidad de que X 6
Esto mismo, se hace con el resto de puntuaciones y sus correspondientes p X quedando la
tabla como sigue:
X
fx
9
8
7
6
5
4
3
2
1
1
2
2
4
4
2
3
1
1
20
9
16
14
24
20
8
9
2
1
103
13
0.628
0.576
0.525
0.473
0.421
0.370
0.318
0.266
0.215
0.7366
0.6012
0.4556
0.3166
0.1987
0.1102
0.0524
0.0203
0.0059
2 + (1 )2 = 1 2( 2 )
fx
1
2
2
4
4
2
3
1
1
20
0.628
0.576
0.525
0.473
0.421
0.370
0.318
0.266
0.215
0.7366
0.6012
0.4556
0.3166
0.1987
0.1102
0.0524
0.0203
0.0059
(
0.6120
0.5205
0.5039
0.5672
0.6816
0.8039
0.9007
0.9602
0.9882
[1 2( 2 )]
14
fx
9
8
7
6
5
4
3
2
1
1
2
2
4
4
2
3
1
1
20
0.628
0.576
0.525
0.473
0.421
0.370
0.318
0.266
0.215
0.7366
0.6012
0.4556
0.3166
0.1987
0.1102
0.0524
0.0203
0.0059
(
0.6120
0.5205
0.5039
0.5672
0.6816
0.8039
0.9007
0.9602
0.9882
[ ( )]
0.6120
1.0409
1.0079
2.2690
2.6273
1.6078
2.7022
0.9602
0.9882
13.9145
fx
9
8
7
6
5
4
3
2
1
1
2
2
4
4
2
3
1
1
20
0.628
0.576
0.525
0.473
0.421
0.370
0.318
0.266
0.215
0.7366
0.6012
0.4556
0.3166
0.1987
0.1102
0.0524
0.0203
0.0059
(
0.6120
0.5205
0.5039
0.5672
0.6816
0.8039
0.9007
0.9602
0.9882
[ ( )]
0.6120
1.0409
1.0079
2.2690
2.6273
1.6078
2.7022
0.9602
0.9882
13.9145
0.7366
1.2023
0.9112
1.2666
0.7948
0.2204
0.1571
0.0203
0.0059
5.3152
15
En nuestro ejemplo: =
= 1 2
,
,
En nuestro ejemplo: =
En nuestro ejemplo: =
,,
,
= ,
= .
Este coeficiente se desarrolla en el contexto de la Teora Clsica de los Tests. Los mtodos que
hemos visto hasta el momento para el estudio de la fiabilidad, consideran por igual, tanto los
errores cometidos al clasificar a un sujeto perteneciente al grupo de maestra en el grupo de nomaestra, como los que cometemos a la inversa.
Sin embargo, el Coeficiente de Livingston, s tiene en cuenta este tipo de errores, al
considerar ms importante, los errores de clasificacin de los sujetos ms distanciados del punto
de corte de aquellos que estn ms cerca del punto de corte. Evidentemente, es ms fcil
cometer errores de clasificacin cuando un sujeto se encuentra muy cercano al punto de corte y
ser ms difcil cometer estos errores de clasificacin, cuando el sujeto se encuentra muy
alejado del punto de corte. El Coeficiente viene determinado por:
16
Dnde:
2 + ( )2
2 + ( )2
= =
= =
A medida que el punto de corte se distancia del valor de la media del test, aumenta el
valor de K xv2
Cuando la media del test, coincide con el punto de corte, K xv2 = coeficiente alfa
Cuando alfa es igual a 1, tambin K xv2 es igual a 1.
17