Anda di halaman 1dari 6

4.

ANLISIS DE LOS TEMS


Definicin: anlisis de tems = estudio de las propiedades de los elementos (preguntas) de un
test directamente relacionadas con las propiedades de ste (hacer inferencias sobre algn
parmetro del test a partir de propiedades de los tems)
4.1. ndice de dificultad (ID)
Es la proporcin de sujetos que aciertan en relacin con los que intentan resolverlo: ID = A / N
El valor del ndice de dificultad est directamente relacionado con la media del test: la media
del test es igual a la suma de los ndices de dificultad de los tems:

n
i
i
ID X
1
Interpretacin: a medida que el ID aumenta, el tem es ms fcil (en propiedad habra que
llamarlo ndice de facilidad); adems, en muchos tests no tiene sentido de hablar de ID, ej., los
cuestionarios de personalidad, que no tienen respuestas acertadas o errneas
Limitaciones: el ID no es una propiedad intrnseca del tem, su valor depende de la muestra de
sujetos a la que se aplique (la solucin la da la Teora de Respuesta a los tems)
En tems de eleccin mltiple, para corregir los efectos del azar, se suele utilizar la frmula:
N
K E A
ID
) 1 /(

donde:
A: Nmero de sujetos que aciertan el tem
E: Nmero de sujetos que fallan el tem
K: Nmero de alternativas del tem
N: Nmero de sujetos que intentan resolver el tem
La varianza de un tem puede expresarse en trminos de su ID:
j
2
= P
j
Q
j
, donde P
j
sera la
proporcin de sujetos que aciertan el tem (su ID) y Q
j
= (1 P
j
). (la dificultad media de los
tems maximiza su varianza)
4.2. ndice de discriminacin
Un tem tiene poder discriminativo si distingue entre los sujetos que puntan alto y los que
puntan bajo en el test (si permite distinguir entre sujetos eficaces frente a ineficaces)
ndice de discriminacin = correlacin entre las puntuaciones de los sujetos en el tem y sus
puntuaciones en el test
4.2.1. Clculo
Correlacin biserial-puntual (
bp
) (aplicacin de la correlacin de Pearson entre una
variable dicotmica y otra cuantitativa; frmula:
q
p
x
x p
bp
2

donde:

p
: media en el test de los sujetos que aciertan el tem

x
: media del test

x
: desviacin tpica del test
p: proporcin de sujetos que aciertan el tem
q : (1 p).
Al calcular el ndice de discriminacin, a la puntuacin total del test hay que descontarle
el tem cuyo ndice de discriminacin se pretende hallar (X j); en caso contrario, se
puede usar la siguiente correccin:
x j jx x j
j x jx
j x j

2
2 2
) (
+

donde:

j(x-j)
: correlacin entre el tem j y el test tras descontar el tem (x j)

jx
: correlacin tem-test cuando el tem est incluido en el test

x
: desviacin tpica del test

j
: desviacin tpica del tem
Correlacin biserial (b): se usa cuando una variable no dicotmica se dicotomiza (se
pierde informacin)
y
p
x
x p
b

donde:

p
: media en el test de los sujetos que aciertan el tem

x
: media del test

x
: desviacin tpica del test
p: proporcin de sujetos que aciertan el tem
y: ordenada correspondiente al valor de la puntuacin tpica en la curva normal
que deja por debajo un rea igual a p
Notas: es una estimacin de la correlacin de Pearson, y puede dar valores superiores a
1 si alguna de las variables es platicrtica o bimodal.
La relacin entre
bp
y
b
viene dada por:
Coeficiente phi (): es la correlacin de Pearson para dos variables dicotmicas
Correlacin tetracrica: ambas variables dicotomizadas y se asumen distribuidas
normalmente
ndice basado en las proporciones de aciertos:
d = P
c
P
i
donde:
P
c
: proporcin de sujetos competentes (puntan > Md) que aciertan el tem
P
i
: proporcin de sujetos incompetentes que tambin aciertan el tem
4.2.2. Relacin con algunos parmetros del test
a) Variabilidad: la desviacin tpica del test est estrechamente relacionada con el ndice de
discriminacin de los tems

n
j
j x j j x
1
) (

donde:

X
: desviacin tpica del test

j
: desviacin tpica del tem j

j(x-j)
: ndice de discriminacin del tem j
si los tems son dicotmicos, su desviacin tpica vendr dada por:
) 1 (
j j j j j
P P Q P
sustituyendo:

n
j
j x j j j x
Q P
1
) (

donde P
j
es la proporcin de sujetos que aciertan el tem (su ID)
b) Fiabilidad: la fiabilidad de un test puede expresarse en:
( ) 1
1
]
1

2
) (
2
1
1
j x j j
j
n
n

O en el caso de que los tems sean dicotmicos:


[ ]

,
_

2
) 1 (
) 1 (
1
1
j j jX
j j
P P
P P
n
n

En suma, los parmetros de los tests, poder discriminativo (


x
) y fiabilidad () pueden
expresarse en trminos del ndice de dificultad de los tems (P
j
) y de su ndice de discriminacin
(
jX
)
4.3. ndice de validez
El ndice de validez de un tem refleja el grado en que el tem est conectado con la variable que
el test intenta predecir (criterio)
4.3.1. Relacin con los parmetros del test
La conexin entre el ndice de validez de los tems y el coeficiente de validez del test la da:

n
j
jX j
n
j
jY j
xy
1
1

donde:

xy
: coeficiente de validez del test
n: nmero de tems del test

j
: desviacin tpica del tem j

jY
: ndice de validez del tem j

jX
: ndice de discriminacin del tem j
si los tems son dicotmicos, entonces:
) 1 (
j j j j j
P P Q P
y por tanto:

n
j
j j jX
n
j
j j jY
xy
P P
P P
1
1
) 1 (
) 1 (

la frmula anterior es muy importante, pues expresa el coeficiente de validez del test en funcin
de tres parmetros de los tems: dificultad (P
j
), discriminacin (
jX
) y validez (
jY
)
Una paradoja clsica: al maximizar la fiabilidad del test eligiendo tems con ndices de
discriminacin elevados se rebaja el coeficiente de validez del test (cuanto mayores son los
ndices de validez de los tems del test menores son sus ndices de discriminacin)
Comentarios finales:
1) no confundir ndice de validez con la validez factorial de los tems
2) ponderacin de tems: puede ser interesante a veces ponderar tems: regresin mltiple
3) en el proceso de seleccin de tems que van a constituir el test definitivo:
(i) se da mayor error si se eligen tems con ndices de discriminacin y validez
elevados
(ii) el ndice de discriminacin de un tem es la correlacin tem-test y depende no slo
del tem sino del resto de tems: seleccin de tems en pasos o etapas
4.4. Anlisis de las alternativas incorrectas
Un ndice de discriminacin bajo puede deberse a que una de las alternativas falsas atrae por
igual a competentes e incompetentes en el test; adems, hay ciertas alternativas que nadie elige.
4.4.1. Nmero ptimo de alternativas
Al aumentar el nmero de alternativas, se reduce la probabilidad de aciertos al azar, si bien se
ha visto que tems con 2 o 3 alternativas dan fiabilidades tan buenas o mejores que los de 4 o 5
alternativas. El nmero ptimo de alternativas vendra dado por (Grier, 1976):
p r
A
) 1 (
1
1

+
Parece que el nmero ptimo de alternativas sera 3.
Otra cuestin es si modificar el nmero de alternativas tiene el mismo efecto sobre la eficacia
del test para los distintos niveles de competencia de los sujetos, pues los muy incompetentes lo
suelen hacer peor que si contestasen al azar.
4.5. Correccin del azar
1

n
E
A P
donde: A es en n de aciertos, E el n de errores y n el n de alternativas del tem
La frmula se basa en ciertos supuestos que de no cumplirse la invalidan: asume que los
aciertos provienen de que los sujetos conocen la respuesta correcta o que la aciertan por azar,
mientras que los errores son debidos a que los sujetos desconocen la respuesta correcta y
responden al azar, fallando (esto ltimo es incierto, pues a menudo los sujetos suelen conocer
alguna alternativa falsa, descartndola). Cuando se utilice hay que notificarlo a los sujetos, a fin
de unificar en lo posible su conducta a la hora de plantearse dudas.
Prohibicin de omisiones
Si se instruye a los sujetos para que contesten todos los tems (prctica poco recomendable), la
frmula anterior no tiene sentido, ya que entonces E = N A (siendo N el n de tems).
Ahora bien, si bajo las instrucciones de no omitir ningn tem alguien s lo hace, su puntuacin
global ha de corregirse con la frmula: P = A + O / n (siendo O las omisiones)
4.6. Calificacin del conocimiento parcial
La psicometra ha tratado de calificar por diversos caminos el conocimiento que los sujetos
tienen de los tems; entre los enfoques destacaremos:
Juicios de seguridad: se pide a los sujetos que adems de responder a tem emitan un juicio
del grado de confianza o seguridad que tienen de acertarlo; aqu influyen aspectos orcticos
(motivacionales) y se desconoce la influencia sobre importantes parmetros del test.
Responder-hasta-acertar: se indica al sujeto cundo ha acertado un tem, que se punta
penalizando el nmero de respuestas necesarias para alcanzar la solucin correcta.
Ponderacin de las alternativas del tem: comn en mbitos educativos, aunque no hay datos
concluyentes sobre sus beneficios.
4.7. Sesgo
Concepto
Un tem/test est sesgado si sujetos igualmente competentes y pertenecientes a distintas
subpoblaciones no tienen la misma probabilidad de superar el tem/test.
Tiene serias implicaciones sociales (de gnero, etnia, cultura, etc.), sobre todo si el grupo
dominante es el que construye los tests para todos.
Las fuentes del sesgo son mltiples: bagaje cultural, social, econmico, etc.
No hay pruebas del todo exentas de sesgo; se trata de detectar la cantidad de sesgo tolerable.
Hoy da se ha dejado de usar la expresin sesgo de los tems en favor de funcionamiento
diferencial de los tems (FDI), puesto que la tcnica no dice nada acerca de la causa del
funcionamiento diferencial
El anlisis del FDI es slo un primer paso para averiguar las razones psicolgicas, educativas,
culturales, sociales, actitudinales, etc. Que hacen que un tem (o test) no funcione igual para los
grupos estudiados.
Se reserva el trmino sesgo para el estudio ms amplio que sigue a la deteccin del FDI, y que
intenta explicarlo.
De la existencia de FDI no se sigue automticamente la existencia de sesgo.
Evaluacin
Se han propuesto diferentes mtodos, pero aqu slo vamos a tratar el de Manter-Haenszel
El planteamiento general es claro y sencillo: un tem no tiene funcionamiento diferencial si el
cociente entre quienes lo aciertan y lo fallan es el mismo para los grupos comparados en cada
categora o nivel que constituye el test:
j
j
j
j
D
C
B
A
H :
0
para cada una de las categoras j
Aciertos (1) Errores (0) Marginales
Grupo de referencia (R) A
j
B
j
n
Rj
Grupo focal (F) C
j
D
j
n
Fj
Marginales n
1j
n
0j
N
j
Se comienza por dividir la muestra en varias categoras o intervalos en funcin de las
puntuaciones globales del test y luego se computan los aciertos en el tem cuyo funcionamiento
diferencial se indaga para cada categora y grupo.
La asignacin al grupo de referencia o focal es arbitraria, aunque se suele reservar focal para el
grupo posiblemente perjudicado.
El estadstico de Manter-Haenszel viene dado por la frmula:
( )

) (
5 ' 0 ) (
2
2
j j
j j j j
MN
A Var
A E A

donde:
2
MN
: se distribuye segn
2
con 1 grado de libertad
j j
A
: representa la suma de los valores de A para cada una de las categoras j

) (
j j
A E
: es la suma de las esperanzas matemticas de A, que para cada una de las
categoras j viene dada por: E(A
j
) = n
Rj
n
1j
/ N
j

) (
j j
A Var
: es la suma de las varianzas de A para cada una de las categoras j que
viene dada por: Var (A
j
) = n
Rj
n
Fj
n
1j
n
0j
/ N
j
2
(N
j
1)
El mtodo de Manter-Haenszel slo indica si el tem funciona diferencialmente o no para los
grupos estudiados, pero no acerca del grupo perjudicado por el funcionamiento diferencial del
tem ni tampoco sobre la cuanta de las diferencias de funcionamiento. Para ello, hay que
representar grficamente las proporciones de aciertos de cada grupo para las distintas categoras
formadas.
Manter-Haenszel dan un estimador numrico de la cuanta y direccin de las diferencias de
funcionamiento encontradas:

j
j j
j
j
j j
j
MH
N
C B
N
D A

Los valores de
MH

van de cero a infinito; valores mayores que 1 indican que el tem favorece
al grupo de referencia, y menores al focal.
Una sencilla transformacin permite expresar el valor de
MH

en una escala simtrica con


origen cero:
) ln( 35 , 2
MH MH

donde
MH
es la nueva mtrica y ln el logaritmo neperiano de (
MH

)
Deben hacerse tantas categoras como tiene el test ms 1. A medida que se reduce el nmero de
categoras tiende a aumentar la probabilidad de catalogar tems con funcionamiento diferencial,
cuando en realidad no lo tienen (aumenta el error tipo I)
Limitaciones:
1) No conviene utilizar el mtodo de Manter-Haenszel cuando uno de los grupos (focal o
referencia) tienen menos de 200 sujetos;
2) No detecta cuando existe funcionamiento diferencian no uniforme; la solucin es dividir la
muestra en dos grupos, por encima y por debajo de la media total, y hacer los clculos por
separado para cada grupo
Comentarios finales
Adems de los clculos, hay que representar grficamente los datos, pues ello permite distinguir
entre el funcionamiento diferencial del tem y las posibles diferencias reales de los grupos en el
tem: el impacto; los tems han de descartarse cuando estn sesgados, no cuando hay impacto.
Las tcnicas del tipo de la descrita se denominan internas, pues el criterio de contraste para
analizar los tems es interno al test; en cambio, se habla de FDI externo cuando el criterio de
contraste es externo al test; la estrategia habitual en este caso es calcular la recta de regresin
del criterio externo sobre el test para la muestra total y para cada grupo (focal y referencia); hay
cue observar que las tcnicas externas apenas se usan.
Estas tcnicas tambin seran condicionales, en que los aciertos en el tem estudiado se
contrastan condicionalmente para cada categora (en las incondicionales no se establecen
categoras, sino que se usan las puntuaciones globales de los grupos focal y de referencia).
Otros muchos mtodos para el estudio del FDI: SIBTEST, tcnicas de anlisis de tablas de
contingencia (modelos loglineales, logit, regresin logstica), TRI
4.8. Confeccin de los tems
Consideraciones generales sobre escritura de tems:
Definicin clara y precisa del constructo a medir
Estimar el nmero aproximado y formato que van a tener los tems
Confeccionar el doble o triple de tems que va a tener el test definitivo
Muestreo adecuado de todas las facetas de la variable a medir (validez de contenido),
fijando a priori un nmero de tems para cada faceta relevante
Formatos posibles: verdadero-falso, eleccin mltiple, relacionar, completar, respuesta
corta, ensayo (ste difcil de objetivar las puntuaciones, por inconsistencia entre jueces y
dificultad de prever todas las posibilidades de respuesta)
El ms utilizado es el de eleccin mltiple, ya que es rpido, objetivo y flexible (adecuado
para lograr validez de contenido); al elaborar las alternativas se tendr en cuenta:
- las alternativas del tem sern lo ms homogneas posible (longitud, relevancia)
- evitar negaciones dobles, como negacin en enunciado general y alternativa
- evitar reiteraciones innecesarias
- si se utilizan cifras, presentarlas ordenadas
- evitar usar todas las anteriores o ninguna de las anteriores, pues dan pistas
- la ubicacin de la alternativa correcta se ha de establecer al azar
Adems, una vez elaborados, conviene que los tests sean supervisados por expertos ajenos al
constructor