Análisis de Ítems

1.
Estos ndices describen cmo ha funcionado una pregunta en una situacin dada; no hay que asociar
necesariamente juicios de valor sobre la calidad de la pregunta al valor de estos ndices; por eso decimos que
estos ndices describen qu ha sucedido; luego vendr nuestra valoracin. Ya se ha indicado que con estos
ndices (muy tiles por otra parte) no se comprueba la validez de los tems que requiere anlisis cualitativos
(comprobar si preguntamos lo que deberamos preguntar). S se puede hablar de validez en un sentido muy
restrictivo que no es el habitual cuando se habla de validez (los ndices de discriminacin nos dicen si los tems
son vlidos para discriminar, no si son vlidos porque comprueban el objetivo pretendido).
Las preguntas que son muy fciles o muy difciles, por ejemplo, no son discriminantes y tendrn una baja
correlacin tem-total) y tienen su lugar. Otra cosa es cuando estos ndices nos sorprenden porque no
esperbamos estos resultados (si las examinamos podemos ver quizs que la pregunta es ambigua, que alguna
alternativa est mal formulada, que la clave de correccin est equivocada, que hay ms de una respuesta
correcta, etc.).
Un ndice bajo de discriminacin (o una correlacin con el total muy pequea) pueden estar indicando que esos
tems miden algo distinto que la mayora del resto de los tems (por ejemplo un tem que mida comprensin o
capacidad de aplicar principios puede tener un ndice de discriminacin bajo si la mayora de los tems son de
memoria).
2. Estos ndices (sobre todo el ndice de discriminacin 1, el ms utilizado y del que suele tratarse cuando se habla
del ndice de discriminacin) tienen la ventaja clara de que son muy fciles de entender, pero son poco fiables
calculados en muestras pequeas (como son los alumnos de una clase); pueden variar mucho de muestra a
muestra. Con muestras pequeas describen bien lo que ha sucedido en esa muestra y permiten dar un feedback
muy especfico a los alumnos, pero hay que ser muy cauteloso cuando se trata de prescindir de algunos tems
para utilizar el test ocasiones sucesivas; con esta finalidad hay que utilizar muestras grandes (o acumular
anlisis). Cuando se descartan tems en funcin de anlisis hechos con muestras pequeas se corre el riesgo
prescindir de buenos tems; por otra parte ningn anlisis puede sustituir un examen cuidadoso de la
formulacin del tem (Burton, 2001). Para extrapolar los resultados haran falta muestras grandes (N= 400,
unos 100 en los grupos extremos; estas muestras se pueden obtener acumulando datos); sin embargo la
experiencia dice que los ndices obtenidos con grupos pequeos, si se mantiene constante el tipo de muestra,
dan una buena idea de lo que se puede esperar en grupos similares.
3. La correlacin tem-total aporta una informacin semejante al ndice de discriminacin y puede ser preferible
porque se basa en los datos de todos los sujetos. Si se ha impuesto ms (al menos en textos de evaluacin) el
ndice de discriminacin es por la facilidad de clculo antes de que se popularizaran los programas de
ordenador. Sin embargo los ndices se discriminacin siguen siendo ms fciles de entender para los que no
estn familiarizados con la estadstica.
4.
Las preguntas muy discriminantes (que por definicin no suelen ser ni las ms difciles ni las ms fciles) nos
indican dnde fallan, sobre todo, los que tienen malos resultados; pueden incluso indicar por qu fallan cuando
varias preguntas muy discriminantes tienen alguna relacin entre s.
5.
La discriminacin supone diferencias (lo mismo que la fiabilidad calculada con todo el test) y el que haya
diferencias no es necesariamente un buen resultado, por ejemplo cuando las preguntas son en principio fciles,
versan sobre objetivos mnimos, etc. S es, en cambio, importante que las preguntas (bastantes al menos)
discriminen cuando se trata de clasificar, de seleccionar, etc., pero no es ste el caso en muchos exmenes
convencionales.
6. En exmenes largos (sobre todo en exmenes finales), en los que se pregunta de todo, con grupos relativamente
numerosos, la no discriminacin (lo mismo que una fiabilidad muy baja) puede indicar que no se detectan
diferencias que de hecho existen (por ejemplo, puede haber alumnos que saben ms de lo que pueden
manifestar en un determinado examen).
En este tipo de exmenes habr preguntas que no discriminen porque o son fciles, o son importantes y todos
las han estudiado; casi todos las responden bien y ste ser un buen resultado; otras no sern discriminantes
porque son muy difciles y ya se contaba con ello (y tampoco tiene que valorarse como un mal resultado); pero
en el conjunto del examen y para poder calificar con cierto matiz, debe haber preguntas de dificultad media que
discriminen bien.
7. Las preguntas muy discriminantes (que nunca sern las ms difciles) pueden ser tiles en exmenes de segunda
convocatoria, prescindiendo de lo muy fcil y de lo muy difcil; con exmenes ms cortos obtenemos la
informacin suficiente. Claro est que puede haber otros criterios para seleccionar estas preguntas, como son
temas u objetivos determinados y considerados importantes independientemente de que las preguntas
discriminen mucho o poco.
8. No hay que olvidar, cuando se calculan e interpretan estos ndices, que en principio una pregunta es buena:
Si es clara y est correctamente formulada,
Si permite comprobar el objetivo deseado,
Si condiciona en el alumno un tipo de estudio inteligente o al menos deseable
Y tampoco hay que olvidar que una mala pregunta muy analizada sigue siendo una mala pregunta
9.
Estos ndices describen cmo han funcionado los tems en una muestra y situacin concretas y son tiles para
evaluar las preguntas, sugerir qu se puede revisar, etc., pero malas preguntas (triviales, que no comprueban
nada importante, que no responden a los objetivos, que condicionan un estudio poco inteligente, etc.) pueden
tener ndices que podran considerarse como ptimos (por ejemplo pueden discriminar muy bien). Es peligroso
interpretar estos ndices como indicadores automticos de la calidad de una pregunta.
10. Estos ndices (y cualquier otro anlisis semejante) no son prueba de validez, es decir, de que realmente estamos
comprobando lo que deseamos comprobar (comprensin, capacidad de anlisis, etc.). La validez la verificamos
con un cuidadoso examen de la formulacin del tem y tambin viendo su relacin (de cada tem, de bloques de
tems, de toda la prueba) con otros criterios.
11. El anlisis de las diversas alternativas expuesto en la tabla 1, comprobando cuntos eligen cada una, en toda la
muestra o mejor en los dos grupos extremos, es un anlisis sencillo, fcil de entender y comunicar y que da una
informacin sumamente til para ir mejorando las preguntas en ediciones sucesivas sin necesidad de calcular
ningn ndice.
12. Estos ndices (lo mismo que otros datos descriptivos como la media, la desviacin y la correlacin tem-total)
son sin embargo importantes:
para comunicar (y publicar) resultados,
para resumir la informacin y conservarla para una reflexin posterior,
para hacer algn tipo de investigacin, etc.

Análisis de Ítems

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Análisis de Ítems

Diunggah oleh

Hak Cipta:

Format Tersedia

1.

Anda mungkin juga menyukai