Exámenes de Idiomas
Elaboración y evaluación
J. Charles Alderson
Caroline Clapham
Dianne Wall
Exámenes de idiomas
Elaboración y evaluación
J.Charles Alderson
Caroline Clapham
Dianne Wall
CAMBRIDGE
U N IV E R S IT Y P R E SS
PUBLICADO POR THE PRESS SYNDICATE OF THE UNIVERSITY OF CAMBRIDGE
The Pitt Building, Trumpington Street, Cambridge, United Kingdom
Quedan rigurosamente prohibidas, sin la autorización escrita de los titulares del copyright, bajo las
sanciones establecidas en las leyes, la reproducción total o parcial de esta obra por cualquier medio o
procedimiento, comprendidos la reprografia y el tratamiento informático, y la distribución de ejemplares
de ella mediante alquiler o préstamo público.
Apéndices ........................................................................................248
Bibliografía .....................................................................................284
5
1 Génesis y prólogo
7
Génesis y prólogo
8
Génesis y prólogo
9
Génesis y prólogo
talleres para distintos alumnados alrededor del mundo. Tenemos una experien
cia considerable con tribunales de exámenes del Reino Unido com o redactores
de ítems, como m iem bros de comités de redacción, com o examinadores, como
responsables de validación y com o investigadores. Estamos todos familiarizados
con la teoría de la evaluación de idiom as y los principios de diseño de exám e
nes. Sin em bargo, no hem os encontrado una descripción adecuada para la ela
boración de exámenes que deban poner en práctica estos principios.
Nuestro primer intento de recoger información de forma sistemática sobre los
tribunales de exámenes del Reino Unido empezó en 1986, cuando fuimos invita
dos a llevar a cabo un proyecto de investigación que debía ofrecer recomendacio
nes para el control de calidad de los nuevos exámenes de lengua inglesa en Sri
Lanka. Tuvimos una serie de entrevistas con representantes de diversos tribunales
de exámenes de inglés como lengua extranjera para averiguar cómo llevaban a cabo
las pruebas de inglés escrito y hablado. Estas entrevistas dieron como resultado un
número de informes cuyo contenido se consensuó con los interlocutores. Los infor
mes circularon internamente en Lancaster y estuvieron a la disposición de visitan
tes y alumnos, pero nunca se publicaron y en ningún caso cubrieron todos los
responsables de la elaboración y administración de exámenes del Reino Unido.
Uno de los autores de este libro fue invitado por Karl Krahnke y Charles Stans-
field para contribuir como redactor en la publicación por parte de TESOL de los
Reviews of English Language Proficimcy Tests (Informes de los exámenes de aptitud en lengua inglesa).
Parte del trabajo incorporaba el encargo de elaborar informes sobre doce exá
m enes de inglés com o lengua extranjera realizados en el Reino U nido. Estos
inform es, una vez elaborados, se enviaron a los tribunales de exámenes corres
pondientes por si sus miembros querían hacer comentarios. Se modificaron si éste
era el caso y se publicaron en Alderson et al., 1987. Varios redactores de los infor
mes coincidían en sus comentarios sobre los puntos fuertes y los puntos débiles
de los exámenes del Reino Unido, y algunos fueron contestados por los tribuna
les. De los doce exámenes estudiados, nueve fueron criticados por no aportar sufi
cientes pruebas sobre su fiabilidad y validez, y sólo en dos casos los autores del
estudio se m ostraron satisfechos por los datos que se les facilitaron. Alderson
incluyó en dicha publicación para TESOL el trabajo Ai OverView of ESL/EFL Testing in
Britain (Una descripción de la evaluación del inglés como lengua extranjera o como segunda lengua en
Gran Bretaña), que explicaba la tradición británica a lectores de otros países. En su
anáfisis afirmaba:
«Debido a la necesidad constante de elaborar nuevos exámenes y a la falta de
interés por parte de los tribunales de exámenes sobre la necesidad de una
validación empírica y no meramente subjetiva, estos exámenes nunca (o casi
nunca) se ensayan con estudiantes, ni se someten a los análisis estadísticos
típicos. Los tribunales de exámenes no ven la necesidad de experimentar y
validar sus instrumentos ni tampoco la de llevar a cabo análisis a posteriori de
los resultados de las pruebas. Aunque las preguntas de corrección objetiva de
pruebas se experimentan a menudo, raramente se publican las estadísticas.»
(Alderson et al., 1987.)
10
-
Génesis y prólogo
11
Génesis y prólogo
que esa publicación y presenta información más actual. Es posible, naturalmente,
que haya habido cambios en los procedimientos que siguen los tribunales desde
que completamos nuestra investigación. Esperamos no haber malinterpretado a
ningún tribunal de exámenes, pero agradecerem os cualquier corrección, aña
dido o m odificación que sea necesaria. Puesto que la mayoría de los tribunales
de exámenes prefirieron el anonimato cuando se publicaron los resultados del
estudio, sólo m encionam os los nom bres de aquellos que nos dieron perm iso
para hacerlo o cuando citamos bibliografía ya publicada.
Este libro se ha beneficiado de la experiencia y de los conocimientos obteni
dos del resultado del estudio. Esperam os que nuestros lectores se beneficien
igualmente de la lectura de este informe sobre la práctica actual junto a la des
cripción de los principios de la evaluación de idiom as y los procedimientos que
creemos apropiados para la elaboración de exámenes.
Más importante que los detalles de la práctica de los tribunales de exámenes
en sí son los principios que deberían inform ar la práctica de la evaluación de
idiom as y p or esta razón cada capítulo contiene un tratamiento detallado de
estos principios. Tam bién por este motivo cada capítulo termina con una sec
ción en la que se detalla una lista de las preguntas que un evaluador podría hacer
sobre cualquier examen, o un sumario de lo que deben tener en cuenta los res
ponsables de la elaboración de pruebas o los evaluadores.
Los principios generales que deberían gobernar el diseño de pruebas son la
validez y la fiabilidad y hacem os referencia constante a am bos conceptos a lo largo
del libro. La validez estudia hasta qué punto un examen mide lo que se pretende
medir: está relacionada con el uso que se hace de las calificaciones y con la forma
en que se éstas se interpretan y está por tanto relacionada con el propósito de la
prueba. Aunque sólo un capítulo, el número 8, hace referencia a este concepto
en su título, la validez es un punto central en todos los capítulos de este libro.
La fiabilidad estudia hasta qué punto los resultados de la prueba son consisten
tes: si los candidatos hicieran el examen mañana después de haberlo hecho hoy,
¿obtendrían las m ism as notas (presuponiendo que su capacidad no haya cam
biad o)? La fiabilidad es una propiedad de la prueba com o instrum ento de
medida, pero también está relacionada con los candidatos que realicen la prueba:
una prueba puede ser fiable con una población pero no con otra. Al igual que
la validez, y aunque sólo se mencione en el título del capítulo 6, la fiabilidad es
un concepto recurrente a lo largo del libro.
Intentamos definir la terminología especializada en evaluación la primera vez
que la utilizam os y por este m otivo no entram os ahora en definiciones. Sin
embargo, facilitamos un glosario de términos importantes relativos a la evalua
ción para consulta del lector. Som os también conscientes de que la mayoría de
los lectores no estarán familiarizados con las abreviaturas y los acrónim os que
se utilizan habitualmente en la evaluación del inglés como lengua extranjera, y
en particular con los que se usan para referirse a los tribunales de exámenes del
Reino Unido. Hem os facilitado también una lista exhaustiva de estos términos
al final del libro.
12
Bibliografía
Bibliografía
Alderson, J. C. y G. Buck (1993). «Standards in Testing: A Survey of the Practice of
UK Examination Boards in EFL Testing.» Language Testing, 10 (2), págs. 1—26.
Alderson, J. C., K. Krahnke y C. Stansfield (eds.), (1987). Reviews of English Language
Proficiency Tests. TESOL, Washington, DC.
Anastasi, A. (1988). Psychological Testing. Macmillan, Londres.
Carroll, B. J. y R. West (1989). ESU Framework: Performance Scales for English Language
Examinations. Longman, Londres.
Cohen, A. (1994). Assessing Language Ability in the Classroom. 21 edición, Newbury
House/Heinle and Heinle, Rowley, Mass.
Crocker, L. y J. Algina (1986). Introduction to Classical and Modem Test Theory. Holt Rinehart
Winston, Chicago.
Douglas, D. (ed.), (1990). English Language Testing in U. S. Colleges and Universities. NAFSA,
Washington, DC.
Ebel, R. L. (1979). Essentials of Educational Measurement. 3* edición, Prentice-Hall,
Englewood Cliffs, NJ.
Ebel, R. L. y D. A. Frisbie (1991). Essentials of Educational Measurement. 5* edición,
Prentice-Hall, Englewood Cliffs, NJ.
Guilford, J. P. y B. Fruchter (1978). Fundamental Statistics in Psychology and Education.
McGraw-Hill, Tokio.
Hambleton, R. K., H. Swaminathan y H. J. Rogers (1991). Fundamentals of Item Response
Theory. Sage Publications, Newbury Park, Calif.
Heaton, J. B. (1988). Writing English Language Test. 2* edición, Longman, Londres.
Henning, G. (1987). A Guide to Language Testing. Newbury House, Cambridge, Mass.
Hughes, A. (1989). Testing for Language Teachers. Cambridge University Press,
Cambridge.
Ingram, E. (1977). «Basic Concepts in Testing.» En J. P. B. Allen y A. Davies (eds.),
Testing and Experimental Methods. Oxford University Press, Oxford.
Lord, F. M. (1980). Applications of Item Response Theory to Practical Testing Problems. Lawrence
Erlbaum, Hillsdale, NJ.
Oiler, J. (1979). Language Tests at School. Longman, Londres.
Popham, W. J. (1990). Modem Educational Measurement: A Practitioner’s Perspective. 21 edición,
Allyn and Bacon, Boston, Mass.
Weir, C. J. (1990). Communicative Language Testing. Prentice-Hall Regent, Englewood Cliffs,
NJ.
13
2 Especificaciones de examen
Las preguntas a las que se pretende responder con detalle en este capítulo son:
¿Qué son las especificaciones de examen? ¿Quién necesita las especificaciones
de examen? ¿Cómo deben ser las especificaciones de examen? ¿Cómo podem os
elaborar las especificaciones de examen? ¿Qué utilizan actualmente los exám e
nes de inglés com o lengua extranjera com o especificaciones de examen?
14
¿Quién necesita especificaciones de examen?
rías para los que elaboran la prueba. Las personas que van a elaborar la prueba
deben tener m uy claro a quién va dirigida, cuál es su objetivo, el contenido
que cubre, los m étodos que se utilizarán, las partes o secciones en que con
sistirá, su duración, etc. Además, las especificaciones deberán estar a disposi
ción de las person as respon sables de analizar y supervisar el trabajo de los
redactores de ítems, sea a título individual o com o equipo. Estos responsables
pueden operar com o com isión o pueden ser exam inadores jefes o m iem bros
del tribunal de exám enes (véase el capítulo 3 para una discusión m ás a fondo
del proceso de análisis, supervisión y edición). En instituciones m ás pequ e
ñas, puede tratarse de profesores que tengan la responsabilidad de supervisar
una prueba antes de usarla. Las especificaciones deberían consultarse cuando
se revisan las preguntas y las pruebas, por lo que han de estar redactadas de
form a m uy clara para poder consultarlas con facilidad durante el debate. Para
los que elaboran exám enes, las especificaciones deberán ser lo m ás detalladas
posible, y pueden incluso ser confidenciales, especialmente si se trata de un
exam en de selección m uy com petido.
Las especificaciones tam bién son necesarias para los responsables o intere
sados en establecer la validez de una prueba (es decir, si la prueba evalúa lo
que se pretende evaluar). Estas personas pueden no ser elaboradores de prue
bas sino individuos independientes cuyas necesidades pueden ser distintas de
las de los elaboradores de pruebas o de los supervisores de su edición. Puede
ser que a los encargados de la validación les resulte m enos im portante tener
inform ación «práctica» de, por ejem plo, la duración y las partes del examen,
y m ás im portante saber la justificación teórica del contenido, las teorías sobre
la lengua y el dom inio de la m isma subyacentes en la prueba y por qué la prueba
es así y no de otra forma.
Los usuarios también necesitan la descripción del contenido de una prueba,
y distintos tipos de usuarios pueden necesitar distintas descripciones. Por ejem
plo, los profesores que van a ser los responsables de los estudiantes asignados a
su clase mediante una prueba necesitan saber qué significan los resultados de la
prueba: qué saben en particular los alumnos, qué pueden hacer, qué necesitan
aprender. Aunque la interpretación de los resultados supone saber cómo se cal
culan y publican los m ism os (véase capítulo 7), comprender realmente lo que
significan también tiene que ver con lo que una prueba evalúa, y por tanto con
una form a de especificación.
Los profesores que desean presentar a sus alumnos a un examen oficial nece
sitan saber qué exam en será el m ás apropiado para ellos con relación al pro
grama de estudio que hayan seguido. Necesitarán información que les ayude a
decidir qué prueba escoger de las muchas a su disposición. Aquí también ayu
dará algún tipo de especificación, probablem ente una versión sim plificada,
conocida com o la descripción de contenidos (syllabus).
Las personas responsables de la admisión en distintos tribunales, que tienen
que tomar decisiones a partir de los resultados de la prueba, también necesita
rán algún tipo de descripción de la prueba que les ayude a decidir si la prueba
15
Especificaciones de examen
es válida para las decisiones que van a tomar: si se trata de la admisión en una
universidad, una prueba que no m ida destrezas lingüísticas académicas tenderá
a ser m enos válida que una que sí lo haga.
Finalmente, las especificaciones de examen son una fuente de inform ación
valiosa para los editores que quieran producir libros de texto relacionados con
la prueba: los autores de libros de texto querrán asegurarse de que las pruebas
prácticas que elaboran, por ejemplo, sean del nivel de dificultad apropiado, con
contenido, temas, tareas, etc. apropiados.
16
¿Qué aspecto deben tener las especificaciones de examen?
17
Especificaciones de examen
18
¿Qué aspecto deben tener las especificaciones de examen?
Los candidatos deben demostrar capacidad para leer libros de texto, artí
culos especializados y otras fuentes de información relevantes del mundo
académico. Se espera que los candidatos puedan mostrar capacidad para
usar las siguientes destrezas de comprensión de lectura:
19
Especificaciones de examen
i) comprensión de la estructura interna de la frase;
j) comprensión de las relaciones entre frases y entre párrafos;
k) comprensión de la función comunicativa de frases y párrafos.
Tipo de tarea. Cada pregunta debería evaluar una o más de las destrezas
de comprensión de lectura listadas con anterioridad. Los redactores de la
prueba deberían intentar encontrar el equilibrio entre las distintas destre
zas y evitar que una o dos estén más representadas a expensas de las
demás.
Tipos de ítem. La prueba de comprensión de lectura debería constar de
40 o 50 ítems, doce para cada pasaje aproximadamente. Cada pasaje y
sus ítems correspondientes formará una sub-prueba. Cada ítem tendrá el
valor de un punto. Los ítems pueden ser de respuesta abierta, pero deben
poder puntuarse de forma objetiva.
Los responsables de la elaboración de la prueba deberían usar tipos de
ítem variados, pueden incluirse:
20
¿Qué aspecto deben tener las especificaciones de examen?
21
Especificaciones de examen
22
¿Qué aspecto deben tener las especificaciones de examen?
Otros m odelos en los que se han basado las especificaciones de examen recien
temente son: The Coundl of Europe Threshold Skills, y Communication Needs Processor (1978)
de Munby, que informaron la elaboración y la validación del Test of English for Edu-
cational Purposes (TEEP) a cargo del Associated Examining Board (AEB) y del examen de
la UCLES/British Counril English Language Testing Service (ELTS). Otros modelos de com
petencia comunicativa articulados de form a m enos explícita están detrás de la
elaboración, si no de la validación, de pruebas tales como el antiguo Examination
in the Coramunicative Use of English as a Foreign Language (CUEFL) de la Royal Society of Arts
(RSA).
El contenido de las especificaciones de examen para los responsables de la
validación de la prueba dependerá obviamente del marco de referencia teórico
utilizado y no será tratado aquí de forma extensa. Sin embargo, el lector debe
ría tener en cuenta que gran parte del contenido listado en el apartado anterior
se incluiría en las especificaciones para la validación. Debería ofrecerse, en par
23
Especificaciones de examen
ticular, inform ación sobre qué habilidades se evalúan, sobre las interrelaciones
entre estas habilidades, sobre qué m étodos de evaluación se usarán y cómo pue
den influir (o no) estos m étodos en la medición de las habilidades, y sobre qué
criterios se utilizarán para la evaluación.
De m enor im portancia para este tipo de especificaciones son quizá cuestio
nes como la extensión de la prueba, la duración de cada parte, los ejemplos pro
vistos para cada tipo de ítem, la longitud de los textos e incluso su dificultad;
en resumen, aquellas cuestiones que guían a los redactores de la prueba en la
producción de los ítems pero que se sabe que no tienen un efecto significativo
en la m edición de la habilidad. Debería señalarse, sin embargo, que los inves
tigadores de exám enes de idiom as no pueden todavía concretar qué variables
afectan a la validez del constructo y cuáles no, y el consejo más útil, aunque no
el m ás práctico, es que las especificaciones para la validación deberían ser lo más
completas posible.
Discutir el valor de un m odelo o teoría en particular va m ás allá del pro
pósito de este libro, y es en realidad del d om in io de libros de idiom as, de
enseñanza de la lengua y del uso de la lengua. Sin em bargo, cualquier trata
m iento adecuado de la elaboración de pruebas debe incluir referencias a las
teorías relevantes. Por ejemplo, Fundamental Considerations in Language Testing (Bach-
man, 1990) es esencialm ente una discusión sobre un m odelo de lenguaje, y
Language Tests at School (1 9 7 9 ), de John Oller, trata de form a extensa su teoría
sobre la gram ática de expectativa pragm ática (grammar of pragmatic expectancy),
de la que se desprende la base para los tipos de pruebas que Oller defiende.
Por desgracia, hay pocos libros de texto para los responsables de la elabora
ción de pruebas de idiom as que contengan un debate sobre los constructos
que es de suponer van a evaluar las pruebas y sobre los tipos de prueba y los
tipos de ítem que se discuten. Pero no se puede diseñar una prueba de com
prensión de lectura sin algún tipo de definición previa de lo que es la com
prensión de lectura y de las habilidades que deben m edirse con una prueba
adecuada. Tal definición, pues, debería tam bién form ar parte de las especi
ficaciones del examen.
24
¿Cómo pueden elaborarse las especificaciones de examen?
apio. Para evitar tales usos indebidos, las especificaciones deberían representar de
la forma ibas exacta posible las características, la utilidad y las limitaciones de la
prueba y describir la población para la cual es apropiada la prueba.
Tales especificaciones para usuarios deberían facilitar ejemplos representati
vos de tipos de ítem o, m ejor, pruebas com pletas, incluyendo todas las in s
trucciones. Deberían facilitar una descripción de una actuación tipo para cada
nota o para cada nivel de la prueba y, siempre que fuera posible y relevante, una
descripción de lo que se supone que puede hacer «en el m undo real» un can
didato que aprueba el exam en u obtiene una nota determinada. Además de
ejemplos de ítem s o pruebas, es especialmente útil para los profesores y tam
bién para los estudiantes el tener ejemplos de actuación lingüística de candida
tos en pruebas anteriores o en pruebas m odelo, y una descripción de cóm o se
usaron los criterios de evaluación para valorar estas actuaciones.
En m uchos exámenes puede también resultar útil facilitar a los usuarios una
descripción del tipo de curso o de preparación que puede ser apropiada antes
de presentarse a la prueba.
Es m uy importante que los candidatos reciban la información adecuada que
les permita saber exactamente cóm o será la prueba: su duración, su dificultad,
qué m étodos de evaluación incluirá, y cualquier otro tipo de información que
los familiarice con la prueba antes de realizarla. La intención de tales especifi
caciones para candidatos es la de garantizar, en la m edida que sea posible y
mientras no interfiera con la seguridad de la prueba, que los candidatos puedan
dar lo m ejor de sí m ism os durante la prueba.
O bien:
La prueba B es una prueba de nivel, diseñada para distribuir a los estudiantes
que han solicitado plaza en los cursos de idiomas de la Alliance Française en clases
apropiadas a su nivel lingüístico.
25
Especificaciones de examen
O bien:
La prueba C está pensada para diagnosticar los puntos fuertes y los puntos
débiles de los estudiantes de cuarto curso de secundaria en gramática alemana.
A partir de los ejem plos citados, debería quedar claro que el objetivo de un
exam en va a influir sobre su contenido. La prueba A deberá incluir con toda
probabilidad la evaluación de habilidades que son relevantes para el uso del
inglés en clase por parte de los futuros profesores durante la fase de prácticas.
La prueba B intentará extraer un muestreo de la descripción de contenidos (sylla
bus) o de pruebas de aprovechamiento de cada nivel ya realizadas por la m isma
Alliance Franfaise. La prueba C deberá tener com o punto de referencia un m odelo
de gramática del alemán, una lista de las estructuras que los estudiantes deben
conocer en este nivel y probablemente los problemas típicos que tienen los estu
diantes y los errores que cometen habituahnente.
Una vez determinados el propósito y la población tipo, los elaboradores nece
sitarán identificar un marco de referencia teórico en el que se pueda basar el exa
men. Puede tratarse de una teoría lingüística -u n a visión de la lengua en el caso
de los exámenes de dominio (profidmcy tests), o una definición de los componentes
de la aptitud en el caso de los exámenes de aptitud (aptitude tests) - o bien puede
considerarse necesario hacer prim ero un análisis de las situaciones y del uso de
la lengua meta, así com o de las actuaciones lingüísticas que el propio examen
prevé. En este caso, los responsables de la prueba pueden decidir llevar a cabo
un análisis del tipo de trabajo o de las tareas que previsiblemente deberán lle
var a cabo los estudiantes en el futuro, y puede que tengan que realizar un aná
lisis de sus necesidades lingüísticas.
Los análisis de necesidades implican habituahnente la recogida de inform a
ción sobre los contenidos lingüísticos que van a necesitar los candidatos para
realizar la prueba. Este análisis puede implicar la observación directa de perso
nas en situaciones habituales en la lengua meta para determinar el tipo de varia
bles relevantes en el uso de la lengua. Puede suponer la realización de
cuestionarios o entrevistas a hablantes de la lengua, la consulta de bibliografía
o el contacto con expertos en el tipo de com unicación analizada. Un ejem plo
del tipo de variables que pueden considerarse es el descrito por Munby en su
Communication Needs Processor (1 9 7 8 ):
Participante; edad, sexo, nacionalidad, domicilio.
Propósito: tipo de inglés para fines específicos (ESP) necesario, y
objetivos para los que va a usarse.
Entorno: por ejemplo: lugar de trabajo, entorno tranquilo o
ruidoso, ambiente conocido o no conocido.
Interacción: papel del participante; por ejemplo: situación en el
trabajo, personas con las que se relacionará, relaciones
de rol y relaciones sociales.
Instrumento: medio, modo y canal de comunicación, por ejemplo:
comunicación oral o escrita, monólogo o diálogo, libro
de texto o retransmisión radiofónica
26
¿Cómo pueden elaborarse las especificaciones de examen?
La bibliografía sobre el inglés para fines específicos (ESP) —véase, por ejem
plo, Hutchinson y Waters, 1987; Robinson, 1980, Swales, 1 9 8 5 - es útil para
los responsables de la elaboración de pruebas que necesitan llevar a cabo algún
üpo de análisis de necesidades antes de empezar a elaborar sus especificaciones.
Nótese que tanto el Test of English for Educational Purposes (TEEP) com o el English Lan-
guage Testing Service (ELTS) se desarrollaron inicialmente usando alguna forma de
análisis de necesidades al estilo de la de Munby.
Los análisis de necesidades desembocan a m enudo en una gran taxonomía de
variables que influyen en el tipo de lengua que se necesitará en la situación pre
vista. A partir de esta taxonomía, los responsables de la elaboración deberán pro
bar tareas, textos, escenarios, etc. hasta llegar a un tipo de prueba manejable. Sin
embargo, el proyecto de revisión del ELTS, que fue el responsable del desarrollo
del International English Language Testing System (IELTS), sucesor del ELTS original, se
desarrolló de forma distinta. Una vez identificados los principales problemas en
el ELTS (véase Criper y Davies, 1988), el proyecto de revisión llevó a cabo un
extenso ejercicio de recogida de datos y se pidió a los responsables universitarios
cómo creían que debía revisarse el examen de ELTS. Al mismo tiempo se revisó
la bibliografía sobre los exámenes de dom inio relacionados con el inglés para
fines académicos, English for Academic Purposes (EAP) y se pidió la opinión de emi
nentes especialistas en lingüística aplicada sobre la naturaleza de la competencia
lingüística y cómo ésta debería evaluarse en el IELTS. Se pidió entonces a equipos
de redactores que tuvieran en consideración los datos recogidos y produjeran un
borrador de especificaciones e ítem s para diferentes partes del examen. Estos
borradores se mostraron a evaluadores y a profesores, así como a profesores de
universidad en diversas disciplinas académicas. Se preguntó a los profesores de
universidad si consideraban adecuados para los estudiantes de sus disciplinas aca
dém icas los borradores de las especificaciones y de los ítem s y si deberían
incluirse otros tipos de textos y tareas. Los redactores revisaron entonces la bate
ría de pruebas y sus especificaciones para poder tener en cuenta todos los comen
tarios. Procediendo de esta m anera, los m iem bros del proyecto de revisión
pudieron utilizar la investigación sobre análisis de necesidades ya existente y lle
var a cabo una validación del contenido del borrador de la prueba (véase Alder-
son y Clapham, 1992a y 1992b, y Clapham y Alderson, en impresión). Para una
discusión sobre cóm o desarrollar especificaciones para una prueba de ESP, y la
relación entre análisis de necesidades, especificaciones de una prueba e infor
madores, véase Alderson, 1988b.
27
Especificaciones de examen
28
Estudio sobre los tribunales de exámenes de inglés...
uno. Además, los responsables de examen (subject officers) de cuatro de los exá
menes de UCLES completaron también cuestionarios sobre las distintas seccio
nes de cada examen. Por este motivo, las respuestas de UCLES se han combinado.
En el cuadro 2.1, que detalla las respuestas de todos los tribunales a las preguntas
6 a 10, las cifras de UCLES representan la mayoría de las respuestas. Si, por ejem
plo, de cada cinco partes de un examen, tres responsables de examen respon
dían afirm ativam ente a una pregunta y dos respondían negativamente, la
respuesta contabilizada es la afirmativa. (Para detalles sobre el redactado de cada
sub-pregunta, véase más adelante, y para una copia del cuestionario completo,
véase el apéndice 2.)
Como puede verse en el cuadro 2.1, todos los tribunales respondieron afirma
tivamente a las preguntas 6 y 7 a) b) y c). Todos los tribunales publicaban des
cripciones de sus exám enes y éstas incluían la definición de objetivos del
29
Especificaciones de examen
examen, una descripción del tipo de estudiante a quien iba dirigido y una des
cripción del nivel de dificultad de la prueba. U n estudio de los docum entos
publicados m ostró, sin embargo, que el nivel de detalle variaba de un tribunal
a otro. Véanse los siguientes ejemplos:
DEFINICIÓN DE OBJETIVOS
En la descripción de contenidos del Joint Matriculation Board (JMB) se da ima de las
descripciones m ás completas sobre el propósito de un examen:
El objetivo del examen es evaluar las destrezas identificadas [...] en un
contexto lo más similar posible al que probablemente se encontrarán en un
curso para graduados. La prueba se considera particularmente adecuada para
candidatos que quieren seguir estudios en las áreas de ciencias, ingeniería,
estudios empresariales y ciencias sociales. El nivel de inglés de la prueba no es
el suficiente ni el apropiado para estudiantes que quieren seguir estudios de
literatura. La preparación para tales estudios debe incluir un estudio más
completo de la lengua inglesa del que se requiere en este examen.
(Descripción de UETESOL, JMB, 1991)
30
Estudio sobre los tribunales de exámenes de inglés...
ESTUDIANTES TIPO
El Trinity College describe a los estudiantes para los que la prueba no es ade
cuada y no a los estudiantes a los que va dirigida:
No se admite la entrada a las pruebas de inglés hablado a aquellos que hablan
la lengua inglesa como primera lengua, ni tampoco a candidatos de edad
inferior a los siete años. Se recomienda a los adultos que no se presenten a un
nivel inferior al nivel tres y a los candidatos menores de trece años que no se
presenten a los niveles once y doce; aparte de éstas, no hay otras restricciones.
NIVEL DE DIFICULTAD
Varios tribunales definen los niveles lingüísticos de sus exámenes haciendo refe
rencia a los estadios del Consejo de Europa. Por ejemplo:
Ambos exámenes están basados en el nivel Waystage descrito por el Consejo de
Europa. De manera menos académica, esto puede describirse como nivel de
31
Especificaciones de exam en
PREGUNTA (7d): Descripción de una actuación tipo para cada nivel o calificación
Las Oxford-ARELS Reguiations describen lo que deberían poder hacer los candidatos
que aprueben. Por ejemplo, cuando obtiene un aprobado (pass) en el Prdiminary
Stage of the Oxford Exam, un candidato, entre otras cosas:
tiene las destrezas básicas de supervivencia en la expresión escrita y la
comprensión de lectura en inglés;
tiene la capacidad de comunicarse de forma clara por escrito (aunque puede
cometer un número de errores, y el dominio de las estructuras y el
vocabulario puede ser lim itado);
puede comprender y extraer la información relevante de textos auténticos no
literarios (por ejemplo instrucciones, reglamentos, formularios) y responder
de forma apropiada.
(Rationale, Reguiations and Syllabuses, New Edition, The Oxford-ARELS Examinations in English
as a Eoreign Language)
32
Estudio sobre los tribunales de exámenes de in g lés...
El examen de UCEES IELTS otorga resultados para nueve niveles, cada uno de
los cuales tiene una descripción de actuación. Por ejemplo, un candidato que haya
obtenido las calificaciones globales correspondientes al nivel 7 se describe como:
Buen usuario. Tiene un dominio operativo de la lengua, aunque con
inexactitudes e inadecuaciones ocasionales y no sistemáticas. Pueden ocurrir
malentendidos en situaciones no habituales. Maneja bien la argumentación
compleja y detallada.
(¿in Introduction to IELTS, The British Council, UCLES, International Development
Program of Australian Universities Colleges)
Tal com o ocurre con el nivel de dificultad citado más arriba, los niveles de
los alum nos tipo parecen considerarse implícitos en las descripciones genera
les. En la m ayoría de las publicaciones de los tribunales no están descritos de
forma específica y deben deducirse de las descripciones de examen.
PREGUNTA 7(e): Descripción de lo que se puede esperar que haga «en el mundo real» un candidato
que obtiene un certificado o una calificación determinada en un nivel concreto.
Dada la tendencia hacia la utilización de tareas y situaciones auténticas en las
pmebas de idiomas, muchos tribunales argumentan que su examen imita la actua
ción «en el mundo real». En realidad las descripciones presentadas más arriba se
refieren más al mundo real que al entorno de examen. Ningún tribunal distingue
entre las actuaciones lingüísticas previstas en el examen y el mundo real.
PREGUNTA 7 (f): Descripción de los estudios que se supone que deben seguir los candidatos antes de
presentarse al examen.
En general, los tribunales de exámenes no presuponen que sus candidatos hayan
seguido ningún curso en particular. Un tribunal dijo en su respuesta al cuestio
nario: «N osotros diseñamos esquemas, es decir, muestras de contenidos, no cur
sos». Y otro dijo que el hecho de que no describieran cursos era intencionado.
Sin embargo, el reglamento de Oxford-ARELS recomienda dos libros de texto.
33
Especificaciones de examen
PREGUNTA 7(g): Descripción del contenido del examen en cuanto a: (I) estructuras, vocabulario,
funciones lingüísticas
El mayor o menor detalle sobre las destrezas macrolingüísticas y microlingüís-
ticas depende en gran parte del nivel de la prueba. Sólo el Preliminary English Test
(PET), entre los exámenes de la UCLES, facilita listas de vocabulario, sintaxis y
funciones del lenguaje.
La descripción de contenidos para el nivel 1 de las pruebas del Trinity College
incluye una lista de consignas y órdenes tipificadas:
Toca
Señala
Sujeta
Muestra
Dame
Ponlo(los) aquí (allí)
y una lista de preguntas tipificadas, así como los nom bres de los adjetivos de
color y de tamaño. El nivel 2 incluye:
el presente continuo, como en What am I (are you/we/they, is he/she/it) doing?, el
presente habitual, etc.
Y dice:
Vocabulario: los candidatos deberían estar familiarizados con unas cien
palabras aparte de las mencionadas con anterioridad. NO se exige un
vocabulario extenso.
(Syllabus of Grade Examinations in Spoken English for Speakers of Other Languages,
Trinity College, Londres, 1990)
Las pruebas orales en inglés hablado del ESB (The ESB Oral Assessments in Spoken
English as an Acquired Language) son mucho m enos específicas. Para los tres niveles
base los candidatos:
deberán reconocer y producir los nombres de objetos de uso común (por ejemplo,
ropa, mobiliario), y deberían demostrar desde el principio que son conscientes de
los patrones básicos del orden de las palabras en inglés (por ejemplo, grupos
nominales, grupos preposicionales, sujeto —verbo - complemento).
(Oral Assessments in English as an Acquired Language, ESB, 1990)
Un tribunal dice que tiene listas «p ara los exam inadores pero que no las
publica a propósito». Otro dice que dan algunas directrices pero que una «d e s
cripción detallada no se considera apropiada para exámenes com unicativos».
Nos fue difícil encontrar la lógica tras esta afirmación.
PREGUNTA 7(g): Descripción dd contenido dd examen en cuanto a: (II) tema y longitud de los textos
ARELS y Oxford no incluyen una lista de temas establecidos para sus exámenes,
pero tienen una lista de los temas que han tratado en exámenes anteriores. Por
ejemplo, la descripción de contenidos del Oxford Preliminary Levd lista los siguien
tes temas, que se han usado para la pregunta «Escribe acerca de»:
34
Estudio sobre los tribunales de exámenes de inglés...
PREGUNTA 7(g): Descripción del contenido del examen en cuanto a: (III) tipos de pregunta, pon
deración de las preguntas, tiempo para cada prueba, tiempo para cada parte de la prueba
Como puede verse en el cuadro 2.1, todos los centros que respondieron a las
preguntas dijeron que describían los tipos de pregunta que incluían en sus exá
menes y especificaban la duración de cada examen, pero había más variación en
el tipo de información sobre la ponderación y la duración de cada prueba. Algu
nos, como ARELS, publican el porcentaje de puntos adjudicado a cada prueba:
Nivel preliminar
Prueba 1: uso social del inglés (20% de los puntos).
Prueba 2: comprensión oral (50% de los puntos).
Prueba 3: expresión oral (30% de los puntos).
(New Edition of Rationale, Regulations and Syllabuses, the Oxford-ARELS
Examinations in English as a Foreign Language)
35
Especificaciones de exam en
PREGUNTA 7 (h): Descripción de los criterios que se usarán para evaluar la actuación de las estudiantes
Aunque la m ayoría de las tribunales de exámenes dijeron que publicaban los
criterios con los que se evaluaban las actuaciones de los estudiantes, sólo pudi
m os encontrar esta inform ación en algunos de los docum entos que nos hicie
ron llegar. La JMB describía sus criterios para la evaluación de dos tareas de
expresión escrita:
Criterios de evaluación
La nota más alta para la parte B refleja una mayor exigencia en cuanto a
organización e interpretación. Se exigirán respuestas de alrededor de 300
palabras. Puesto que se pide a los candidatos el desarrollo lógico de una
muestra escrita que interprete la información facilitada, deberá evitarse la
descripción extensa de toda la información facilitada. Los candidatos deberían
ser capaces de comparar y contrastar, mostrar relaciones de causa y efecto,
sacar conclusiones, formular hipótesis y producir otros patrones de discurso.
Deberían ser capaces de organizar su escrito en párrafos y de usar variedad de
medios para crear coherencia entre frases y dentro de un mismo párrafo.
Deberían producir frases de la complejidad requerida en el registro formal. Se
espera que los candidatos escriban prosa gramatical prestando atención al
orden de la frase, a la concordancia sujeto/verbo y mostrando un uso
adecuado de la voz y de los tiempos verbales.
(Syllabus for UETESOL, JMB, 1991)
Como puede verse, se han listado los criterios, pero no se explica cóm o van
a transform arse estas ideas en puntos o calificaciones. Tam poco lo hace el
siguiente pasaje de LCCI:
2. Se otorgarán puntos de forma diferenciada por contenido, tono, estilo,
presentación, corrección e impacto comunicativo, según la naturaleza de cada
una de las tareas.
4. No puede quedar duda alguna de que para cualquier tipo de propósito
comercial, el candidato puede percibir y transmitir significado en su expresión
escrita, con rapidez y corrección. El inglés de los candidatos debería ser lo
suficientemente correcto, especializado e idiomàtico como para permitirle
detectar sutilezas de detalle y significado y poderlas expresar cuando escriben.
Los candidatos deberán utilizar su sentido común en cuestiones de adecuación
y conveniencia. Deberían poder hacerse una idea general de la situación a
partir de los fragmentos que se les han presentado y responder de forma
lingüística de manera que beneficie a su situación.
(Regulations, syllabuses and timetables of examinations,
English for Business, 3rd Level, LCCI, 1991)
Las respuestas a esta pregunta coinciden claramente en algunos aspectos con
las respuestas a la pregunta 7 (d ), que preguntaba si los tribunales daban des
cripciones de la ejecución de una prueba m odelo para cada nivel. Uno de los
ejemplos citados bajo la pregunta 7(d) procedía del Trinity College, que intro
duce cada uno de sus doce exámenes orales con un breve párrafo que describe
el nivel del candidato que puede aprobar en el nivel correspondiente.
36
Estudio sobre los tribunales de exámenes de in g lés...
Lo que no está claro es si los examinadores usan alguno de los ejemplos ante
riores como criterios de evaluación o si sólo se utilizan para propósitos de infor
mación. El IELTS ha fijado bandas generales para cada nivel que se presentan a
los estudiantes y que son distintas de las que se usan en los criterios de evalua
ción de la producción escrita y oral de los candidatos. No está claro por qué
algunos tribunales dan un trato confidencial a sus criterios, pues los usuarios de
los exámenes podrían beneficiarse de conocer exactamente cuáles son.
Un tribunal que sí da a conocer sus criterios de evaluación es la Oxford Dele-
gacy, que publica un documento titulado Criterios de puntuación y muestras. Este docu
mento presenta los criterios de puntuación para cada una de las preguntas de
expresión escrita, por ejemplo:
Evaluación de la pregunta 1
Categoría 1 Estilo apropiado y bien planteado. Adecuado a la
tarea, (de 26 a 30 puntos) Gama de vocabulario buena y apropiada y
buen control de las estructuras. Si hay errores
no interfieren con la comprensión. Una
actuación realmente competente.
Categoría 2 Pocos errores, buen control. Adecuado a la tarea.
(de 20 a 25 puntos) Gama de vocabulario buena y apropiada.
Conocimiento del estilo adecuado aunque no lo
domine por completo necesariamente.
O bien, extremadamente correcto, pero con una
gama, complejidad o estilo deficiente.
(Marking Criterio and Samples, Higher Level Paper 1, The Oxford Examination
in English as a Foreign Language)
El documento explica el sistema de evaluación de cada una de las preguntas de
expresión escrita y hace algunos comentarios sobre la actuación de los estudian
tes en cada pregunta. También incluye muestras de tareas de expresión escrita y
facsím iles de una gam a de respuestas de los estudiantes a las preguntas. Cada
muestra está puntuada y cada puntuación va acompañada de una explicación.
Este docum ento es m uy útil, tanto para los estudiantes com o para los profe
sores. Al m enos en lo que se refiere a esta prueba, los estudiantes pueden pre
pararse bien antes de entrar a la sala de examen.
UCLES también facilita manuscritos y puntuáciones para algunos de sus exá
menes. En un volumen llamado English as a Foreign Language: General Handbook (UCLES,
1987), se describen algunos de los exámenes de inglés como lengua extranjera.
Se incluyen pruebas de muestra y, para las pruebas de expresión escrita del FCE
y del CPE, criterios de evaluación, facsímiles de respuestas de alumnos y pun
tuaciones con explicación.
37
Especificaciones de exam en
PREGUNTA 8: ¿Se ha llevado a cabo algún tipo de «análisis de necesidades» para ayudar al tribunal
a tomar decisiones sobre el propósito, el contenido, el método, el nivel, etc. del examen?
La interpretación que los tribunales hacen del análisis de necesidades varía
ampliamente. La AEB se refirió a la tesis doctoral de Weir (1983), que contiene
un análisis detallado de las necesidades de los estudiantes en ambientes acadé
m icos; un tribunal incluyó algunos informes; y uno mencionó un inform e de
investigación que se utilizó com o base para una revisión de la prueba. Tres tri
bunales se refirieron m uy claramente de form a implícita a la investigación de
m ercados, y dos dijeron que profesores y otras personas facilitaban comenta
rios que aconsejaban las revisiones de las descripciones de contenidos y de exá
m enes. Un centro dijo que sus descripciones de contenidos se revisaban
anualmente pero no indicó cóm o se decidía lo que debía modificarse cada año.
38
Estudio sobre los tribunales de exám enes de in g lé s.. .
PREGUNTA 10: Cuando los estudiantes se matriculan para su examen, ¿qué información reciben
sobre su objetivo y contenido?
Nueve tribunales no pertenecientes a UCLES dijeron que los centros de exa
men daban a los estudiantes detalles sobre las pruebas. Entre las respuestas más
corrientes de los tribunales, se hallan las siguientes:
La información está a disposición de los estudiantes en los centros en que se
matriculan; además, cualquier estudiante puede recibir la misma información
solicitándola directamente al tribunal de exámenes.
Y también:
Es responsabilidad de los centros que matriculan a los alumnos y que
administrarán la prueba el facilitar información completa sobre el objetivo y el
contenido del examen.
39
Especificaciones de exam en
2.6. Debate
Tal como dijim os en la introducción a este apartado, hay una gran variedad en
el enfoque por parte de los tribunales con respecto a la elaboración de especi
ficaciones y a la transparencia con la que facilitan los fundamentos, los conte
nidos y los criterios de evaluación que sirven de base a sus exám enes. Esta
variedad en la transparencia de la información debe tratarse más a fondo.
Es cierto que hay una serie de aspectos de los contenidos de la prueba que deben
ser confidenciales, especialmente si sólo hay una versión segura; sin embargo, en
muchos casos no se trata de una cuestión de confidencialidad. Cuanto más sepan
<los estudiantes sobre los contenidos y los objetivos de una prueba, m ejor podrán
comportarse de acuerdo con sus propias capacidades en el momento del examen.
Además, cuanto más sepan los profesores sobre la prueba, más fácil les será deci
dir si la prueba es la apropiada para sus estudiantes y también prepararles para la
misma. Saber cuáles son, por ejemplo, las especificaciones para los redactores de
la prueba y tener un conocimiento claro y detallado de los criterios de evaluación,
además de estar familiarizados con los criterios que tienen los examinadores sobre
las muestras de respuestas de otros estudiantes, sería inestimable para todos los
usuarios de la prueba y aumentaría la fiabilidad de los exámenes.
Debería tenerse en cuenta que la información disponible por parte de los tri
bunales no suele identificar claramente su público, y menos de acuerdo con las
directrices propuestas en nuestro apartado 2.3. Los tribunales deberían consi
derar quién debe recibir qué información antes de revisarla, con el fin de adap
tarla al público previsto.
Para finalizar, los Standards for Educational and Psychological Testing (véase el capítulo
11) contienen considerables detalles sobre cóm o deberían elaborarse las prue
bas. Por ejemplo, el criterio 3.2 dice:
Las especificaciones utilizadas para la elaboración de ítems [...] y para el
diseño del instrumento de evaluación como tal deberían definirse claramente.
Debería describirse la definición del universo o ámbito que se utiliza para la
elaboración o para la selección de ítems (página 25).
El Code of Fair Testing Practices in Education (véase capítulo 11) dice que los res
ponsables de un examen deberían:
definir lo que cada examen evalúa y para qué debería usarse;
describir la población para la que el examen resulta apropiado... (afirmación 1);
describir el proceso de elaboración de un examen. Explicar cómo se
seleccionaron el contenido y las destrezas que se van a evaluar (afirmación 4).
Parece que la práctica habitual en los tribunales de exámenes del Reino Unido
no siempre se ajusta a estos criterios.
40
Bibliografía
2.7. Sumario
Puesto que las especificaciones variarán de acuerdo con el uso a que estén des
tinadas, no todos los puntos de la lista siguiente estarán presentes en todas las
especificaciones. Por encima de todo, los redactores de especificaciones deben
decidir, para empezar, quién es su público y facilitar la información apropiada.
Las especificaciones de exam en deberían incluir todos o la m ayoría de los
siguientes puntos:
El propósito del examen
Descripción del candidato
Nivel de la prueba
Constructo (marco de referencia teórico para el examen)
Descripción de un curso o libro de texto adecuado
Número de secciones/pruebas
Ponderación de cada sección/prueba
Situaciones contempladas en la lengua meta
Tipos de texto
Longitud de los textos
Destrezas lingüísticas que se van a evaluar
Elementos lingüísticos que se van a evaluar
Tipos de tareas
Procedimientos
Instrucciones
Criterios de evaluación
Descripción de realizaciones lingüísticas típicas para cada nivel
Descripción de lo que los candidatos para cada nivel pueden hacer en el
m undo real
Muestras de exámenes
Muestras de las actuaciones de los estudiantes en cuanto a las tareas.
Biliografía
Alderson, J. C. (1988b). «New Procedures for Validating Proficiency Tests of ESP?
Theory and Practice.» Language Testing, 5 (2), págs. 220-232.
Alderson, J. C. y C. M. Clapham (1992a). «Applied Linguistics and Language Testing:
a Case Study o f the ELTS Test.» Applied Linguistics, 13, págs.149—167.
Alderson, J. C. and C. M. Clapham (1992b). Examining the ESTS Test: An Account of the First
Stage of the ELTS Revision Project. IELTS Research Report 2. The British Council,
University o f Cambridge Local Examination Syndicate and International
Development Program o f Australian Universities and Colleges, Cambridge.
Bachman, L. F. (1990). Fundamental Considerations in Language Testing. Oxford University
Press, Oxford.
Bachman, L. F., A. Kunnan, S. Vanniariajan y B. Lynch (1988). «Task and Ability
Analysis as a Basis for Examining Content and Construct Comparability in Two EFL
Proficiency Test Batteries.» Language Testing, 5, pigs. 128—160.
41
Especificaciones de exam en
Clapham, C. M. y J. C. Alderson (en prensa). Constructing and Trialling the IELTS Test. IELTS
Research Report 3. The British Council, University o f Cambridge Local
Examinations Syndicate and International Development Program o f Australian
Universities and Colleges, Cambridge.
Criper, C. y A. Davies (1988). ELTS Validation Project Report, ELTS Research Report 1 (I).
The British Council y University o f Cambridge Local Examination Syndicate,
Londres y Cambridge.
Davidson, F. y B. Lynch (1993). «Criterion-Referenced Language Test Development.
A Prolegomenon.» En A. Huhta, K. Sajavaara y S. Takala (eds.), Language Testing: New
Openings. Institute for Educational Research, Universidad de Jyvaskyla, Finlandia.
Hughes, A. (1988). «Achievement and Proficiency: The Missing Link.» En A.
Hughes (ed.), Testing for University Study, ELT Documents 127. Modern English
Publications, Londres.
Hutchinson, T. y A. Waters (1987). English for Specific Purposes: A Learner Centred Approach.
Cambridge University Press, Cambridge.
Hymes, D. H. (1972). «O n Communicative Competence.» En J. B. Pride y J. Holmes
(eds.), Sociolinguistics, pags. 269—293. Penguin, Harmondsworth.
Munby, }. (1978). Communicative Syllabus Design. Cambridge University Press,
Cambridge.
Oiler, J. (1979). Language Tests at School. Longman, Londres.
Robinson, P. (1980). ESP (English for Specific Purposes). Pergamon, Oxford.
Swales, J. (1985). Episodes in ESP. Pergamon, Oxford.
Weir, C. J. (1983). «Identifying the Language Problems of Overseas Students in
Tertiary Education in the United Kingdom.» Tesis doctoral. Universidad de Londres.
42
3 La redacción de ítems y la función moderadora
43
La redacción de ítem s y la función moderadora
44
■
45
La redacción de ítems y la función moderadora
46
Tipos de ítems
47
La redacción de ítem s y la función m oderadora
48
Problemas con tipos de ítem s concretos
Puede ser que el ítem evalúe ortografía, pero también evalúa la inteligencia,
la habilidad para resolver anagramas y, quizá, vocabulario. Para realizar esta tarea
con éxito puede ser m ás importante el saber hacer la operación mental reque
rida que saber ortografía.
Es m uy común, por desgracia, especialmente en exámenes de dominio de un
nivel avanzado, evaluar la inteligencia al m ism o tiempo o en lugar de la lengua.
De forma similar, también se evalúan conocimientos generales en vez de la com
prensión oral o de lectura. Dos ejemplos de este tipo de ítem se discutirán en el
apartado 3.5.2.
Otro punto fundam ental es que se dé un punto por cada ítem, y que cada
ítem sea independiente del resto. El éxito en responder a un ítem no debería
depender del éxito en otro ítem. Por ejem plo, si sólo es posible responder al
segundo ítem en una prueba de comprensión de lectura después de haber con
testado correctamente al prim ero, el candidato que suspenda el ítem número
1 suspenderá automáticamente el ítem número 2 y perderá por tanto dos pun
tos en vez de uno. Algunos redactores integran los ítems de tal forma que res
ponder correctam ente a unos ítem s depende de haber contestado bien a los
que les precedían, y esto puede acarrear problem as. Discutirem os este punto
en el apartado 3.5.4.
El punto final de este apartado general es que las instrucciones para todos los
ítems deben estar m uy claras. A m enudo los estudiantes suspenden un examen
o un ítem no porque tengan un nivel bajo de conocimientos lingüísticos sino
49
La redacción de ítem s y la función moderadora
50
Problemas con tipos de ítem s concretos
51
La redacción de ítem s y la función m oderadora
52
Problemas con tipos de ítem s concretos
Aunque no leam os el texto, está claro que éste es un mal ítem. El sentido
común y la experiencia nos dicen que la opción A no es verdadera, que la D es
m uy poco probable, y que la B es probablemente la respuesta correcta. La única
alternativa que parece depender del texto para su interpretación es la C, puesto
que «n o conocido» y «fácil» son palabras relativamente ambiguas.
Tales ejemplos son corrientes, incluso cuando los ítems han pasado por dis
tintos filtros. Aquí hay otro ejemplo sacado de un examen de ámbito nacional,
en el que cinco ítems se podían contestar sin leer el texto:
(A continuación de un texto sobre árboles.)
¿Quién obtiene comida de los árboles?
A. Sólo el hombre.
B. Sólo los animales.
C. El hom bre y los animales.
Diga lo que diga el texto, es sin duda del dominio general que tanto los huma
nos com o los animales obtienen comida de los árboles.
Este problem a de ítems independientes del texto que se lee o se escucha no
se limita a ítems de respuesta múltiple. Puede encontrarse también en otro tipo
de preguntas con respuestas de corrección objetiva, y también en preguntas de
respuesta breve. Para asegurarse de que no se puede responder a preguntas de
com prensión sin hacer referencia al texto, los supervisores de ítems deberían
intentar responder a las preguntas antes de ver o escuchar el texto sobre el que
están redactadas.
Para finalizar, otra dificultad con la que pueden encontrarse los redactores de
ítems se halla en las tareas en las que los estudiantes deben corregir algún texto.
En el caso de que deban identificar un error en una frase, por ejemplo,
A B C
A pesar de la lluvia / el profesor de los niños / no permitió /
D E
quedarse dentro / durante el recreo.
En este caso tanto la opción C como la D pueden ser las respuestas correctas,
dependiendo del tipo de error que se esté buscando. Cualquiera de las frases
siguientes es correcta:
53
f La redacción de ítem s y la función m oderadora
ÍTEMS DICOTÓMICOS
Los ítems a los que debe responderse con un Verdadero/Falso o S í/N o son en
general insatisfactorios puesto que hay un S 0% de posibilidades de acertar la res
puesta al azar. Si queremos saber algo sobre la capacidad de un estudiante es nece
sario tener un gran número de estos ítems para poder reducir los efectos del azar.
Algunos redactores de ítems reducen la posibilidad de acertar la respuesta correcta
al azar incluyendo una tercera categoría com o «n o se dice» o «n o consta». Esto
puede ser útil en una prueba de comprensión de lectura, pero no en una prueba
de comprensión oral, especialmente si el texto sólo se pasa una vez, puesto que
puede ser demasiado exigente y puede llevar a confusión.
RELACIONAR (MATCHING)
Con «relacionar» nos referimos a los ítems en los que se da a los estudiantes una
lista de posibles respuestas que tienen que emparejar con otra Üsta de palabras,
expresiones, frases, párrafos o estímulos visuales. En el siguiente ejemplo, los estu
diantes deben emparejar las cuatro palabras de la izquierda con las de la derecha
para formar otras palabras inglesas. Por ejemplo: car y pet forman caipet.
1. car A. room
2. cup B. pet
3. bed C. dress
4. night D. board
El inconveniente de este ítem es que, una vez que se han emparejado correc
tamente tres de los cuatro ítems, el cuarto será correcto por defecto. Es aconse
jable, pues, dar m ás alternativas de las que la tarea en sí requiere. El ejem plo
anterior podría m ejorarse si los estudiantes tuvieran que escoger entre seis o
siete palabras en la columna de la derecha.
TRANSFERENCIA DE INFORMACIÓN
Este tipo de tarea se usa en la m ayor parte de los casos en las tareas de com
prensión oral y de lectura. Los candidatos deben transferir información del texto
a un cuadro, tabla, cuestionario o m apa. Estas tareas se asem ejan a m enudo a
actividades que se realizan en el m undo real y son por tanto m uy utilizadas en
las series de pruebas que intentan incluir tareas auténticas. Algunas veces las res
puestas consisten sólo en nom bres y núm eros, y pueden corregirse de forma
objetiva. A veces toman la forma de expresiones o de frases cortas y deben corre
girse de forma m ás subjetiva. El problema de estos últimos ítems es similar a los
que hem os descrito en un apartado m ás adelante bajo el nom bre de preguntas
con respuestas cortas.
Lino de los principales problem as de las preguntas de transferencia de infor
m ación es que la tarea puede ser m uy complicada. A veces los candidatos tar
54
Problemas con tipos de ítem s concretos
dan tanto en descubrir lo que debe escribirse en la tabla que no consiguen resol
ver lo que lingüísticamente es un problem a sencillo.
Otro problem a es que la tarea puede ser discriminatoria desde un punto de
vista cultural o cognitivo. Por ejemplo, el candidato puede tener que escuchar
la descripción del itinerario de alguien a través de una ciudad y marcar la ruta
en el m apa. Los estudiantes que no estén familiarizados con planos o que ten
gan dificultades a la hora de leer m apas estarán en desventaja con tareas de
este tipo.
TAREAS DE ORDENAMIENTO
En una tarea de ordenamiento se pide a los candidatos que ordenen un grupo
de palabras, expresiones, frases o párrafos. Tales tareas son habitualmente uti
lizadas para evaluar la gramática, simple o compleja, la referencia y la cohesión,
o la comprensión de lectura. Casi todas estas tareas son difíciles de redactar por
que no es fácil encontrar palabras o expresiones que sólo tengan sentido orde
nadas de una form a concreta. Por ejem plo, la siguiente pregunta puede
responderse com o m ínim o de dos formas:
Es todavía m ás difícil redactar ítem s en los que las frases o párrafos deban
reordenarse. Por ejemplo:
Las frases y expresiones siguientes proceden de un pánafo de una historia de aventuras. Ponías en
Hay al menos dos formas de ordenar este párrafo. La clave de respuestas faci
litada es 1-D, 2-G, 3-E, 4-C, 5-A, 6-B, 7-F, pero también es aceptable 1-D, 2-
B, 3-F, 4-G, S-E, 6-C, 7-A. En este caso es posible m ejorar el ítem añadiendo
«p e ro » a la frase G, para que diga «pero creyó oír a alguien silbar». Esto hará
que sólo la segunda de las dos respuestas sea aceptable. Sin embargo, aunque
sea posible redactar un ítem en el que los componentes sólo se puedan orde
nar de una form a, no está siem pre claro lo que se está evaluando, y siempre
existe el problem a de la corrección. Imaginemos que un estudiante comete dos
errores en la ordenación al principio de la secuencia, pero ordena el resto de
55
La redacción de ítem s y la función m oderadora
CORRECCIÓN
Las pruebas de corrección consisten a m enudo en frases o pasajes en los que
se han introducido errores que el candidato debe identificar. Pueden tomar la
form a de preguntas de respuesta múltiple, com o en el apartado 3.5.2, o pue
den ser m ás abiertas. Un m étodo com ún es preguntar a los estudiantes que
identifiquen un error en cada línea de un texto, bien m arcándolo en el texto,
bien escribiendo la form a correcta junto a cada línea apropiada. La principal
dificultad con este tipo de ítem es asegurarse de que sólo hay un error en cada
línea.
Algunos redactores de pruebas han intentado hacer la tarea más real pidiendo
a los estudiantes que hagan una lista de los errores sin decir cuántos hay. Esto
significa que los estudiantes pueden llegar a perder mucho tiempo barriendo el
texto para buscar errores, puesto que nunca creen que los han encontrado todos.
También significa que la corrección es difícil puesto que a los estudiantes se les
puede escapar un error al principio, o marcar un error no existente, por lo que
su lista no podrá cotejarse con la clave de respuestas oficial. Se debería por lo
menos informar a los estudiantes del número de errores que hay. (Y esto tam
bién afecta a la m ayoría de las tareas en las que los candidatos deben producir
algún tipo de lista)
COMPLETAR HUECOS
«Com pletar huecos» se refiere aquí a las pruebas en las que el candidato recibe
un pasaje corto en el que se han suprim ido algunas palabras o expresiones. Las
supresiones se han seleccionado a propósito por parte del redactor para eva
luar aspectos lingüísticos concretos tales com o la gramática o la com prensión
de lectura.
Las tareas de rellenar huecos se basan a menudo en textos auténticos y a veces
en pasajes escritos con este propósito. En am bos casos, la m ayor dificultad es
asegurarse de que cada hueco lleva a los estudiantes a escribir la palabra o pala
bras esperadas. Idealmente debería haber sólo una respuesta para cada hueco,
pero esto es en general m uy difícil de conseguir. La clave de respuestas tiene a
m enudo más de una respuesta para algunos huecos. Para una mayor fiabilidad
de corrección es im portante reducir el núm ero de respuestas alternativas al
m ínim o, y asegurarse de que no hay otras respuestas posibles que no estén en
la clave de respuestas.
56
Problemas con tipos de ítem s concretos
Otro problem a es que a los candidatos no se les ocurra pensar en una res
puesta, no porque tengan pocos conocim ientos, sino porque simplemente la
palabra no les viene a la mente. De nuevo nos encontram os en una situación
que no ha previsto el redactor, y que no podía prever, ya que él sí tiene el texto
com pleto y por eso ve obvia la respuesta. Y de nuevo aconsejam os que debe
ensayarse la prueba con colegas prim ero y después con estudiantes de nivel y
características parecidas a los futuros candidatos.
Si nos encontram os con un texto en el que hay bastantes huecos que no se
pueden completar fácilmente, o si hay dificultades de corrección, la tarea con
sistente en completar huecos en un texto utilizando las palabras provistas (ban-
ked gap filling) puede ofrecer una solución. Se trata de un tipo de tarea parecida a
la de relacionar. Cada una de las palabras o grupos de palabras que completan
el texto se incluyen en una lista que se presenta en la misma página que el texto
con huecos. La lista contiene más palabras que huecos hay en el texto, y la tarea
del candidato estriba en seleccionar la palabra correcta para cada hueco. Debe
ría haber sólo una respuesta posible para cada hueco, pero los candidatos debe
rían estar informados de que cualquier palabra de la lista puede ir en más de un
hueco. Las palabras deberían estar en orden alfabético.
Es siempre importante informar a los estudiantes si cada hueco se completa
con una o m ás de una palabra. Si se acepta más de una palabra, la corrección es
más difícil. Si sólo se perm ite una palabra, se deberían evitar contracciones y
palabras compuestas.
A veces una frase o una expresión es correcta con o sin la palabra suprimida.
Por ejemplo:
CLOZE
Llamamos doze a las pruebas en las que se suprimen algunas palabras de un texto
de forma mecánica. Cada equis número de palabras se suprime una, sea cual sea
su función en la frase. Por ejemplo, cada sexta palabra se suprime y se deja en
blanco para que los estudiantes lo rellenen.
Com o d ijim o s anteriorm ente en este capítulo, uno de los problem as de
suprim ir una de cada equis palabras es que la selección de la prim era palabra
puede afectar a la validez de la prueba, puesto que una vez que se ha supri
m ido la prim era palabra el resto de supresiones sigue automáticamente. Los
experim entos que se han hecho com parando pruebas basadas en el m ism o
texto pero con distintos huecos, han demostrado que las pruebas varían tanto
en validez com o en fiabilidad (Alderson, 1978, 1979, y Klein Braley, 1981).
Algunas versiones de la prueba pueden, por ejem plo, contener una propor
ción alta de huecos correspondientes a palabras gramaticales, que puede resul
tar fácil de com pletar para estudiantes com petentes en la lengua y que
57
La redacción de ítem s y la función m oderadora
PRUEBAS DE TIPO C-
Las pmebas de tipo c- también incorporan la supresión mecánica, pero en esta oca
sión se mutila cada segunda palabra de un texto. Esta mutilación consiste en supri
mir la mitad de la palabra para dar al candidato pistas sobre la palabra original.
Las pruebas de tipo c- tienen los m ism os inconvenientes que las de rellenar
huecos o las de tipo doze, aunque el hecho incluir las primeras letras de la pala
bra que se debe com pletar reduce el núm ero de posibles respuestas de cada
hueco. Sin em bargo, incluso cuando se da la prim era m itad de una palabra,
puede haber dificultades para dar con la respuesta acertada.
Cada hueco en la prueba siguiente debe rellenarse con la segunda parte de una palabra. Si la pala
bra completa tiene un número de letras par, faltarán exactamente la mitad de las letras:
58
Problemas con tipos de ítem s concretos
El prim er problem a con el que nos encontramos aquí es que las instruccio
nes son dem asiado com plejas. La tarea puede parecer m enos difícil si las ins
trucciones simplemente informan al candidato de que se facilita el número de
letras que faltan en cada hueco. Los prim eros huecos del ejem plo anterior se
presentarían de la siguiente forma:
DICTADO
Un dictado sólo será equitativo para los estudiantes si se presenta a todos de la
m ism a forma, y esto generalmente significa el tenerlo que grabar en una cinta
para que no sólo se presente de la m isma forma a todos los candidatos, sino para
que la velocidad de lectura y la colocación de las pausas puedan probarse con
anterioridad. Si no se va a poder utilizar una grabación, las personas que lean el
dictado deberán estar m uy bien preparadas.
Los dictados pueden corregirse de forma objetiva si se exige a los candidatos
que escriban el texto tal cual se ha dictado, y si el corrector tiene un sistema para
decidir cómo debe puntuarse. Sin embargo, tales sistemas son difíciles de diseñar.
Por ejemplo, si las instrucciones para la corrección dicen «reste un punto por cada
falta de ortografía y dos puntos por cada palabra que falte o que no se corresponda
con el original», no está siempre claro si una palabra contiene una falta de orto
grafía o si simplemente no es la palabra que corresponde. El mismo problema se
produce si se instruye al corrector para que ignore las faltas de ortografía.
El otro problem a de este m étodo de corrección del dictado es que es lento y
pesado. Esto significa no sólo que va a resultar caro sino también que los correc
tores cometerán errores. Algunos redactores evitan este problem a escogiendo
dictados sólo parciales, en los que los candidatos deben completar un texto dado
en el que faltan palabras, expresiones o frases completas. Los candidatos deben
completar el texto mientras el examinador lo lee completo en voz alta.
Algunas pruebas de dictado no piden a los alumnos que copien las palabras
al pie de la letra, sino que sólo anoten los puntos principales, como en una tarea
de tomar notas. Por ejemplo, puede leerse el program a de un curso y pedir a
los alumnos que tomen nota de la información que van a necesitar si siguen el
curso. Tal tipo de dictado incluye una tarea de comprensión oral m ás auténtica
que los dictados tradicionales, pero provoca problemas de corrección como los
que se discutirán en el siguiente apartado.
59
La redacción de ítem s y la función m oderadora
60
Problemas con tipos de ítems concretos
REDACCIONES Y TRABAJOS
A primera vista, escribir los enunciados para las redacciones parece m uy fácil,
m ucho m ás fácil, por ejem plo, que escribir preguntas de respuesta múltiple.
Todo lo que se debe hacer, al parecer, es dar un tema y dejar al alum no que
redacte una respuesta. Es m uy corriente el siguiente tipo de enunciado:
«Viajar da amplitud de ideas» 0 . Smith). Coméntelo.
Esta tarea tiene varios inconvenientes. El primero es la terminología. Los can
didatos pueden no estar familiarizados con las convenciones existentes tras el
uso técnico de la palabra «com éntelo» y no sabrán lo que se espera de ellos. Los
redactores deben asegurarse de que todos los candidatos comprenden términos
com o «com en te», o «ejem plifique».
Las instrucciones no contienen información necesaria para que los candida
tos puedan dar lo m ejor de sí m ismos.
Los candidatos necesitan saber la longitud que debería tener el texto y tam
bién si se deducirán puntos si el texto es demasiado corto.
Tienen que saber a quién va dirigido su escrito, para decidir si deben redac
tarlo en el estilo coloquial que usarían en una carta, o en estilo académico pare
cido al utilizado en un trabajo escolar. En el ejem plo citado m ás arriba, los
candidatos sabrán que el trabajo debe redactarse utilizando un estilo formal si
están familiarizados con el término «com éntelo». Sin embargo, algunos enun
ciados pueden ser m enos claros.
Los estudiantes tienen que saber cómo va a puntuarse su trabajo. ¿Qué se pun
tuará, la corrección o la fluidez? ¿Se darán puntos por la organización del tra
bajo, por la habilidad de presentar un buen razonamiento, o solamente por el
uso de la gramática y del vocabulario? Los candidatos tienen que saber todo esto
para decidir si usarán estructuras fáciles que dominan, para que no les penali
cen por los errores, o si correrán riesgos porque se dan puntos por el uso de un
lenguaje com plejo y creativo. (La corrección de tareas escritas de este tipo se
discute en el capítulo 5.)
Los candidatos tendrían m ás claro cómo abordar la respuesta si el enunciado
se presentara de la siguiente forma:
Escribe una redacción para tu profesor en estilo formal explicando si estás de acuerdo con la frase
de J. Smith, «Viajar da amplitud de ideas».
61
r i
Estás perdido en una tormenta. Describe cómo intentas encontrar el camino a casa.
Otras tareas esperan que los estudiantes escriban algo interesante sobre un
tema que puede ser irrelevante o aburrido. Por ejemplo:
Comenta las ventajas y los inconvenientes de vivir en el domicilio paterno durante tus estudios uni
versitarios.
Para evitar algunos de estos problem as es m ejor dar a los estudiantes algo de
información antes de que empiecen a escribir para que no tengan que ser cre
ativos. Puede dárseles un texto corto y fácil de leer que ilustre la situación, para
que el estudiante no pierda un tiempo precioso leyendo en vez de escribiendo
y para no penalizar a estudiantes que sean lectores mediocres. Algunas de estas
ayudas reducen el tiem po de lectura requerido presentando un gráfico o una
im agen o serie de imágenes. En este caso es esencial que el gráfico sea fácil de
entender y que las im ágenes estén claras.
Muchas tareas, naturalmente, no son tan form ales com o las redacciones.
Cuando se pide a un estudiante que escriba una carta inform al o una nota, es
importante que la tarea sea lo más natural posible. No es pues aconsejable pedir
a los estudiantes que escriban cartas o notas a am igos o parientes, puesto que
habitualmente escribirían a tales personas en su lengua materna. Puede ser nece
sario inventar un escenario que obligue al candidato a escribir en la lengua
extranjera. Por ejemplo, puede pedírsele que escriba a un am igo extranjero, o
que deje una nota para su patrona.
RESÚMENES
Los resúmenes se usan a m enudo para evaluar la comprensión oral y de lectura
y la expresión escrita. En algunas pruebas recientes se han utilizado para evaluar
62
"1
ENTREVISTAS ORALES
A m enudo se cree que entrevistar a alguien es una forma rápida y fácil de eva
luar la com petencia lingüística de esa persona. Mucha gente cree, por ejem
plo, que si se tiene una breve charla con un recién llegado a la escuela, se
podrá evaluar el nivel de com petencia de ese estudiante rápidam ente. Sin
em bargo, esto no es así. La conversación puede versar sobre temas superfi
ciales que sólo requieren un vocabulario lim itado y no el uso de estructuras
com plejas. Este no es el lugar apropiado para tratar las entrevistas orales en
63
L a redacción de ítem s y la función m oderadora
detalle, pero debería quedar claro que la entrevista debe estar estructurada
cuidadosam ente para que los aspectos de la prueba considerados im portan
tes se cubran con cada estudiante, y cada estudiante sea evaluado de form a
similar. No es justo para los alum nos que algunos sólo deban hacer com en
tarios apropiados pero sim ples, m ientras que a otros en igualdad de co n di
ciones se les ob ligu e a utilizar un len guaje co m plejo que puede poner en
evidencia sus debilidades. Los entrevistadores deben saber cóm o lograr que
los candidatos se sientan a gusto para conseguir una conversación auténtica
sin interferir o hablar dem asiado, deben dem ostrar interés en cada entrevista
y tam bién deben saber qué preguntar para conseguir que la entrevista cubra
los contenidos lingüísticos deseados. El capítulo 5 trata brevemente la form a
ción de los entrevistadores orales.
64
Com ités de redacción
65
La redacción de ítem s y la función m oderadora
66
Estudio sobre los tribunales de exámenes de inglés...
PREGUNTA 11: ¿Qué criterios utilizan a la hora de nombrar redactores de ítems o de pruebas?
Los tribunales pedían requisitos distintos. Cinco dijeron que los redactores
debían estar en posesión de la titulación correspondiente, uno especificaba titu
lación universitaria, y uno titulación en inglés como lengua extranjera o como
segunda lengua (EFL/ESL). Seis pedían experiencia en la docencia, en la adm i
nistración de exámenes o en la materia que se iba a evaluar, mientras que cua
tro esperaban que los redactores fueran profesores en activo acostumbrados a
preparar a sus alumnos para el examen en cuestión. Uno pedía una fuerte vin
culación a un enfoque comunicativo en la docencia y en la evaluación y otro
dijo que la aceptación de un redactor dependería de su comportamiento en una
reunión de redacción.
PREGUNTA 13: ¿Con cuánta antelación respecto a la fecha de examen se pide a los redactores que
empiecen a redactar sus ítems?
Cinco tribunales pedían a sus redactores que escribieran sus ítems unos dos
años antes de la administración de la prueba, y tres un año antes. Entre el resto
de respuestas, un tribunal dijo que la redacción de ítem s era una «actividad
siempre en curso»; otro dijo: «N o hay necesariamente una relación directa entre
el encargo y el exam en»; y otro dijo: «Los redactores presentan materiales sobre
la marcha, formando un banco de ítems potenciales. Se les paga por ítems uti
lizados. No hay plazos ni presión sobre los redactores». Las respuestas de UCLES
variaban entre «tres años» y «d e doce a dieciocho m eses».
PREGUNTA 14: ¿ Cuánto tiempo se da a los redactores para que redacten sus ítems?
Ocho tribunales dieron el plazo concreto: oscilaban entre seis semanas y doce
meses. Dos tribunales tenían un enfoque flexible; uno de ellos decía: «Depende
del ítem y del redactor», y el otro decía: «M uy flexible, de común acuerdo». El
tiempo de UCLES oscilaba entre seis semanas y seis meses.
67
r La redacción de ítems y la función moderadora
PREGUNTA 16: ¿Se reúne algún comité en algún momento del proceso para discutir cada prueba?
Todos los tribunales excepto dos respondieron afirmativamente. Uno de los
dos tribunales que no tenía un com ité fijo tenía «com ités ad hoc para discu
tir aspectos concretos de los exám enes, cam bios en el proceso, m odificacio
nes de los criterios de puntuación, etc. El proceso de unificación se hace por
correo».
En caso afirmativo, ¿cómo se llama este comité?
El título más com ún era el de «C om ité/C onsejo de unificación/unificador».
Otros títulos eran «C om ité de selección», «C om isión asesora perm anente»,
«Com ité de revisión de EFL», «Com ité de edición», «Equipo de redacción de
pruebas» y «Subcom ité preparatorio».
PREGUNTA 17: ¿Qué requisitos deben reunir los miembros de este comité?
La com posición de este comité variaba. En dos casos estaba constituida por
exam inadores y supervisores y en un tercer caso tam bién incluía redactores,
correctores y profesores en activo. Un com ité también incluía directivos del
tribunal y otro incluía industriales que habían «hecho una contribución excep
cional al trabajo del tribunal» Los com ités de UCLES los constituían, en gene
ral, el exam inador jefe, el responsable del exam en, los redactores de ítem s y
otros expertos en EFL. Los com ités de otros tribunales estaban form ados por
profesores con experiencia especializados en la m ateria, por profesores que
estaban preparando a candidatos para los exámenes, y por supervisores o auto
res de materiales.
68
Estudio sobre los tribunales de exámenes de inglés...
PREGUNTA 19: ¿Qué pasos se dan, si se dan, para comprobar que el borrador presentado coincide
con la descripción de contenidos de la prueba (si existe)?
La m itad de los tribunales piden a sus redactores que sigan la descripción
de contenidos y confían en que así sea. La otra m itad da instrucciones inicia
les pero tam bién hace com probaciones, que son responsabilidad de: a) tres
m iem bros del com ité de selección, b) los supervisores, c) el exam inador jefe
y varios directores o m oderadores, y d) un «rev iso r» que hace comentarios
sobre las pruebas y su correlación con la descripción de contenidos. UCLES
parece seguir lo que hacen los otros tribunales y en algunos exám enes da a
los redactores la descripción de contenidos esperando que la sigan, y en otras
se com prueba si los exámenes coinciden con la descripción por parte del res
ponsable de la prueba o por parte del «presidente, responsable de EFL, selec-
cionador...»
PREGUNTA 2 0: ¿Qué pasa habitualmente con el borrador después de las deliberaciones del comité?
La forma m ás clara de resumir las respuestas a esta pregunta es la de listar los
ejemplos de los distintos procedimientos:
1. Se da el manuscrito a imprenta, se encargan los gráficos, dibujos o fotos,
se graban las cintas; las pruebas se hacen llegar al examinador jefe y al
supervisor, se corrigen por el corrector de pruebas; se pasa la prueba
final a imprenta con una orden de impresión.
2. Los ítems seleccionados que deben modificarse. Preparación y corrección
de la prueba una vez aprobada. Se devuelve al examinador jefe para la
revisión y aprobación final con el fin de garantizar que el examen se ha
preparado de acuerdo con la copia revisada y aprobada.
3. Una vez completada la versión pactada de la prueba se pasa al ordena
dor y se entrega para im presión. Todos los m iem bros del comité de
revisión ven la primera prueba y tienen la oportunidad de hacer cam
bios de todo tipo.
4. [El responsable de la prueba] revisa el borrador a la luz de los informes
de cinco exam inadores expertos y lo prepara para la versión final.
Durante la grabación, los actores hacen comentarios sobre la claridad y
naturalidad del lenguaje utilizado. El texto final y la copia de la cinta se
m andan al director, quien organiza la im presión de los textos y el
copiaje de las cintas a partir de la grabación original.
5. El presidente del exam en y el responsable de la prueba confeccionan
dos versiones paralelas.
69
La redacción de ítems y la función moderadora
3.9. Debate
Como puede verse en las respuestas anteriores, la mayoría de los tribunales de
exámenes tratan el proceso de redacción de ítems de forma m uy seria. Dan a los
redactores tiempo de sobra para producir futuros exámenes, y llevan a cabo con
troles a fondo de los borradores.
Un área que no siempre recibe la atención suficiente es la correspondiente a
la cobertura de la descripción de la prueba. Aunque casi todos los tribunales
dicen a los redactores que sus pruebas deben cubrir la descripción de conteni
dos, sólo la mitad comprueban que así sea. Puesto que algunas áreas de una des
cripción de contenidos son siem pre m ás fáciles de evaluar que otras, los
redactores se encuentran a veces con dificultades para evaluar los aspectos más
difíciles y, por este motivo, la prueba puede no estar equilibrada. Creemos, pues,
que es esencial comprobar los borradores de examen para ver si la descripción
de los contenidos se ha cubierto de forma adecuada.
3.10. Sumario
1. Para com prender exactamente qué hace un ítem, es esencial intentar
responderlo como lo haría un candidato. Un vistazo no es suficiente.
2. Responder a un ítem propio es importante pero inadecuado. El autor
«sa b e » lo que cree que el ítem requiere. Es por tanto importante que
otras personas expertas y con dom inio de la lengua respondan en las
m ism as condiciones en que lo haría un candidato.
3. Nadie escribe buenos ítems solo. Incluso autores profesionales necesi
tan la opinión de otras personas. Es necesario pedir a otras personas que
respondan a los ítems.
70
Sumario
71
1
Bibliografía
Alderson, J. C. (1978). A Study of the Cloze Procedure with Native and Non-Native Speakers of
English. Tesis doctoral inédita, Universidad de Edimburgo.
Alderson, J. C. (1979). «The Cloze Procedure and Proficiency in English as a Foreign
Language.» TESOL Quarterly, 13 (2), págs. 219—227. Reimpreso en J. W. Oller
(ed.), (1983). Issues in Language Testing Research. Newbury House, Rowley, Mass.
72
Bibliografía
Alderson, J. C. y D. Wall (1993). «Does Washback Exist?» Applied Linguistics, 14, págs.
115-129.
Alian, A. (1992). «Development and Validation o f a Scale to Measure Test-Wiseness
in EFL/ESL Reading Test Takers.» Language Testing, 9, pigs. 101-123.
Buck, G. (1989). «Written Tests o f Pronunciation: Do They Work?» English Language
Teaching Journal, 41, págs. 50—56.
Heaton, J. B. (1988). Writing English Language Test. 2* edición, Longman, Londres.
Hughes, A. (1989). Testing for Language Teachers. Cambridge University Press,
Cambridge.
Klein-Braley, C. (1981). Empirical Investigation of Cloze Test. Tesis doctoral, Universidad de
Duisburg.
Lado, R. (1961). Language Testing. McGraw-Hill, Nueva York.
Oiler, J. (1979). Language Tests at School. Longman, Londres.
Peirce, B. N. (1992). «Demystifying the TOEFL Reading Test.» TESOL Quarterly, 26,
pigs. 665-689.
Valette, R. M. (1977). Modem Language Testing. 21 edición, Harcourt Brace Jovanovich,
Nueva York.
Wall, D. y J. C. Alderson (1993). «Examining Washback.» Language Testing, 10 (1),
pigs. 41-69.
Weir, C. J. (1988). Communicative Language Testing. Universidad de Exeter.
73
4 Ensayos previos y análisis
Este capítulo trata la cuestión de los ensayos previos y del análisis de los ítems.
Discutiremos las razones para realizar ensayos previos, la naturaleza de los p ro
cesos im plicados y las diferencias entre ensayos piloto y ensayos generales del
examen como tal. Explicaremos la estadística básica necesaria para el análisis de
ítems individuales y describiremos las formas más comunes de informar sobre
los resultados generales de la prueba.
74
Pruebas piloto
niñeados. Puede significar, por ejemplo, que un ítem que está previsto que eva
lúe una estructura en particular no lo haga en realidad, o puede significar que el
ítem consigue diferenciar a los alumnos de distintos niveles de forma que los
alum nos con m ayor competencia lingüística pueden responder m ejor que los
alumnos m enos competentes. Es sorprendente que a menudo los ítems, aunque
se hayan redactado con cuidado, no distingan entre alumnos de esta forma. Es
im posible prever si los ítem s funcionarán sin haberlos probado. El funciona
miento de los ítems de respuesta múltiple puede resultar el más difícil de prever,
puesto que la presencia de una variedad de respuestas correctas e incorrectas faci
lita el terreno a la ambigüedad y al desacuerdo, pero los ítems de respuesta abierta
y las pruebas corregidas de forma subjetiva también pueden producir sorpresas.
Por ejemplo, una pregunta de respuesta abierta puede resultar más confusa para
los candidatos destacados que para los candidatos m ás flojos, o una tarea de
expresión escrita puede provocar el uso de sólo una pequeña gama de conteni
dos lingüísticos por parte de los candidatos. Aunque la combinación de redacto
res experimentados y un procedimiento de selección y de corrección estrictos de
los ítems asegura que se descarten muchos malos ítems en potencia, algunos pro
blemas no se identificarán en este estadio y sólo se descubrirán durante el perí
odo en que se realicen los ensayos previos. Es esencial, pues, que todos las
pruebas se ensayen, tanto si se trata de ítem s discretos de corrección objetiva
como de ítems de respuesta abierta de corrección subjetiva.
75
Ensayos previos y análisis
siados estudiantes, pero si hay al menos veinte, mejor. Tales pruebas pue
den hacerse de forma relativamente rápida y barata, y dan una inform a
ción inestim able sobre la facilidad de adm inistración de la prueba, el
tiem po que necesitarán los alum nos para completarla, la claridad de las
preguntas, la exactitud y amplitud de la clave de respuestas, la facilidad de
uso de los esquem as de puntuación, y otros. Los resultados revelarán
m uchos fallos im previstos en la prueba y ahorrarán tiem po y esfuerzos
cuando se lleven a cabo los ensayos generales.
76
Fase general de ensayo
Sin tener en cuenta el núm ero de alum nos que haya en el ensayo, es
im portante que la m uestra sea, en la m edida en que esto sea posible, repre
sentativa del núm ero final de candidatos, con una gam a parecida de habili
dades y co n ocim ien to s generales. Si los alum nos que se utilizan para los
ensayos no son sim ilares a la pob lación que se presentará al exam en, los
resultados de los ensayos pueden ser inútiles: las pruebas se com portan de
form a m uy diferente con distintas poblaciones (para una discusión de este
punto véase Crocker y Algina, 1986).
Es también importante que los estudiantes del ensayo se tomen la prueba en
serio y la respondan lo m ejor posible. Si no valoran su importancia, y la tratan
como un juego, los resultados que salgan pueden invalidar el proceso de ensayo
por completo. Describiremos una forma de paliar este problema al final de este
capítulo.
El ensayo general de un examen debería administrarse de la m ism a manera
en que se administrará el examen final, de forma que se puedan ensayar no sólo
las directrices de administración sino también los ítems, que deberán presen
tarse en las m ism as circunstancias que en el examen real. El único aspecto que
puede tener que ser distinto hace referencia a la duración del examen. Si los exa
minadores quieren hacer una estimación sobre la fiabilidad de la prueba (véase
más adelante), los estudiantes deberían poder tomarse todo el tiempo que nece
siten para responder al examen. Esto puede contradecir los principios del mismo
examen, durante el cual, y por motivos teóricos o prácticos, los alumnos pue
den tener menos tiempo del que en realidad quisieran. Si es necesario limitar el
tiempo dado a los estudiantes durante los ensayos, todavía es posible evaluar la
fiabilidad de la prueba, pero los resultados deberán tratarse con precaución
puesto que es probable que sobrestimen la fiabilidad de la prueba (véase Croc
ker y Algina, 1986).
En la discusión estadística sobre el análisis de pruebas de corrección objetiva
que sigue, se asumirá que los ensayos de examen se refieren a una norma o rango (norm-
referenced), es decir, que tienen como objetivo establecer el orden que ocupan los
candidatos en una escala ordenada, para que puedan compararse los unos con
los otros. Si el examen se refiere a un criterio (criterion-referenced), y los alumnos no se
comparan los unos con los otros sino con un nivel de aprovechamiento o una
serie de criterios recogidos en las descripciones de corrección, las m edidas con
referencia a un rango o norma pueden no ser aplicables. En muchos sistemas de
exámenes podem os ver que las pruebas de corrección objetiva se tratan con refe
rencia a un rango, y las de corrección subjetiva se tratan con referencia a un cri
terio. Esto es así probablemente por cuestiones prácticas y no debido a una base
teórica concreta. Puesto que los ítems correctos de una prueba objetiva pueden
sumarse para dar una nota total, los alumnos pueden ordenarse de acuerdo con
estos totales, y la actuación en ítems concretos puede compararse con los resul
tados totales (véase m ás adelante el apartado «Análisis clásico de íte m s»). Para
pruebas que tienen com o punto de referencia un criterio, puede no ser apro
piado basar un análisis de ítems en la ordenación de los resultados de los alum
77
Ensayos previos y análisis
78
A n á lisis de exám en es
B 2 7 6- •
C 3 6 5- •
D 4 5 4- •
E 5 4 •
3-
F 6 3
2- ■
G 7 2
1- •
H 8 1
0 1 2 3 4 5 6 7 8
Prueba 3
Fie. 4.2. C o r relac ió n - —1,0
Podría parecer que hay una relación igual de fuerte entre estos dos resultados
com o la que había entre los resultados anteriores de las pruebas 1 y 2, pero esta
vez se trata de una relación negativa. Es difícil encontrar correlaciones negati
vas tan importantes entre los resultados de dos pruebas de idiom as, pero pue
den encontrarse, por ejemplo, entre los resultados de una prueba de idiom as y
algún tipo de m edidas de personalidad.
Finalmente, la figura 4.3 muestra los resultados de las pruebas 1 y 4. En este
caso no hay una relación obvia entre los dos grupos de resultados. Podría
deberse a la casualidad, y no hay un patrón que se pueda distinguir en el dia
gram a de dispersión . Los puntos aparecen dispersos en todo el gráfico. El
índice de correlación para este grupo de resultados es de + 0 ,0 5 , lo que se
acerca tanto al 0 ,0 0 que podem os decir que no hay correlación entre los dos
grupos de resultados.
No es m uy corriente que no haya correlación alguna entre los resultados de
dos pruebas de lengua. Puesto que ambos pretenden evaluar aspectos del mismo
rasgo —competencia lingüística —se espera que al menos muestren algún grado
79
Ensayos previos y análisis
de coincidencia. Una correlación más posible entre dos pruebas puede verse en
la figura 4.4. Se distingue en las escalas de los estudiantes que participaron en
la prueba que había una cierta sim ilitud entre los dos grupos de resultados.
B 2 3 6- •
C 3 5 s- •
D 4 1 4- •
E 5 7
3- •
F 6 8
2“
G 7 2
i- •
H 8 4
1 ! 1 1 i 1
> 1 2 3 4 5 6 7 8
Fie. 4.3. C orrelación = +0,5 Prueba 4
A B C D E F G H I J K L M N O P Q R S T
Prueba 1 1 2 3 4 S 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Prueba 2 7 3 4 1 10 8 2 18 11 13 5 6 12 14 15 20 17 9 16 19
Prueba 1 20-
18-
16-
14-
12 -
10 -
8-
- •
6"
4- •
2- •
0 i — i— i— i— ¡— i— i— ¡— ;— ¡— i— i— i— i— i— i— ¡— ¡— i— ;— i -
0 2 4 6 8 10 12 14 16 18 20 Prueba 2
F ig . 4 .4 . C orrelación = + 0 , 7
80
Análisis de exámenes
Coeficiente de dificultad
El coeficiente de dificultad de un ítem es el porcentaje de alumnos que lo contes
tan correctamente. Si hay 300 estudiantes y 150 responden correctamente, el coe
ficiente de dificultad del ítem es de 15 0 /3 0 0 , lo que es el 50% (a menudo citado
como una proporción: 0,5). Esta simple medida da inmediatamente a los redac
tores idea de la dificultad del ítem para el muestreo de alumnos. Si sólo 6 /3 0 0
estudiantes responde correctamente a un ítem, la dificultad será de un 2%, y está
claro que se trata de un ítem muy difícil. De forma similar, si la dificultad es del
81
Ensayos previos y análisis
índice de discriminación
Así como es importante conocer la dificultad de un ítem, también es importante
saber lo bien que discrimina, lo bien que distingue entre alumnos de distintos
niveles de com petencia. Si el ítem funciona bien, se podría esperar que haya
más alum nos con buenas calificaciones que alum nos con calificaciones bajas
que sepan la respuesta correcta. Si los alumnos buenos dan una respuesta inco
rrecta, m ientras que los alum nos flojos dan una respuesta correcta, está claro
que hay un problem a en el ítem que debe investigarse.
Hay muchas formas de calcular el índice de discriminación, pero una de las
más fáciles supone ordenar a los alumnos de acuerdo con sus notas finales en la
prueba y comparar la proporción de respuestas correctas del tercio superior del
m uestreo con las del tercio inferior. Por ejem plo, si el m ejor grupo tiene 10
alumnos, y 7 aciertan el ítem (0 ,7 ), mientras que sólo 2 de los 10 del grupo
más flojo (0 ,2 ) aciertan, el I.D. es de 0,7 —0,2 = + 0,5. Se considera que un
ítem con un I.D. de + 0 ,5 discrim ina bien, puesto que los alumnos de buenas
notas lo han contestado m ejor que los alumnos de notas bajas. (Véase apéndice
3 para el estudio de ejemplos desarrollados.)
El m ayor índice de discriminación posible es + 1 ,0 0 , y se consigue si todos
los alumnos del grupo más alto dan la respuesta correcta y ninguno de los alum
nos del grupo m ás bajo responde correctamente. Tales ítems son m uy raros. A
m enudo los redactores se contentan con un I.D. a partir de + 0 ,4 pero no hay
reglas en cuanto a esto, puesto que la posibilidad de obtener unos I.D. altos
82
A nálisis de exámenes
No está claro lo que no funciona en este ítem, pero por alguna razón no fun
ciona, y por lo tanto debería cambiarse o suprimirse de la prueba.
Con ítems de respuesta múltiple, un índice de discriminación bajo puede a
menudo explicarse por el comportamiento de una o de varias opciones. Las res
puestas pueden distribuirse en tina tabla, como en el ejemplo siguiente, que mues
tra los resultados de una prueba piloto de un ítem de comprensión oral. Se puso
la cinta, y los estudiantes tuvieron que seleccionar la respuesta apropiada.
T a bl a . 4 . 1 . T a b ú de a n á l isis de ítem
A B C* D En blanco Total
A - - 14 7 - 21 * La respuesta
correcta es la C.
M 17 3 20
' C. D. = 71%
B 6 13 - 2 21
I.D. = + 0 ,0 5
Total 6 - 44 10 2 62
83
Ensayos previos y análisis
Esta tabla muestra cómo funcionó el ítem con estos alumnos. 44 de 62 esco
gieron la alternativa correcta, la C, pero esta alternativa atrajo igualmente a alum
nos de los tres grupos. No distinguió entre alumnos de niveles diferentes, y el
I.D. es sólo de + 0 ,0 5 . Si analizamos cómo funcionaron las alternativas, veremos
lo que funcionó mal. Primero, la alternativa B fue inútil puesto que nadie la
escogió. Segundo, la alternativa D atrajo a los que se equivocaron; 7 estudian
tes del grupo alto la escogieron, al igual que 3 del grupo m edio y ninguno del
grupo bajo. Puesto que más estudiantes destacados que flojos escogieron la alter
nativa supuestam ente incorrecta, debe de haber algo extraño en esa opción.
Podría discutirse si «Are you going along n ow ?» tiene sentido en el contexto
dado. Esta alternativa debería pues suprimirse. La única alternativa que parece
funcionar es la A, puesto que todos los que la escogieron pertenecen al grupo
bajo. Esta alternativa fue la única que discriminó. La distribución de los alum
nos que dejaron el ítem en blanco tam bién contribuyó a esta discrim inación
positiva puesto que las respuestas en blanco pertenecían sólo al grupo bajo.
M encionam os m ás arriba que si querem os que los ítem s tengan I.D. altos,
deberían tener C.D. cercanos al 50%. Esto es así porque los ítem s de dificul
tad m edia dan m ás cam po para la discrim inación. La tabla 4 .2 , a continua
ción, lo dem uestra al m ostrar los I.D. que consiguen los ítem s con distinta
dificultad. En este ejem plo im aginario, 30 alum nos hicieron el examen, y la
tabla m uestra cuántos alum nos en cada uno de los grupos alto, m edio y bajo,
respondieron correctam ente al ítem. Había 1 0 alum nos en cada uno de los
tres grupos.
Obviamente, si todos los alum nos tienen un ítem bien (ítem 1), no puede
haber discriminación alguna, y de la m ism a form a si todos tienen un ítem mal
(ítem 11) tam poco. Por otra parte, si la m itad de los alumnos lo aciertan y el
84
Análisis de exámenes
C.D. es del 50% (ítem 6), es posible contar con el I.D. m áximo de 1,00, pues
todo el grupo alto ha contestado correctamente y todo el grupo bajo ha con
testado mal. La tabla m uestra que con unos C.D. del 66% al 33% es posible
conseguir I.D. m áxim os, pero que cuando la dificultad se aparta de estos valo
res, ya no es posible obtener I.D. altos. Por ejemplo, si el C.D. es del 80% (ítem
3), no es posible que todos los que hayan acertado el ítem estén en el grupo
alto, por lo que la discrim inación no puede ser más alta de + 0 ,6 . Esto debería
recordarse a la hora de considerar los I.D. Si un ítem tiene un C.D. del 6% y
todavía tiene un I.D. de + 0 ,2 , está discrim inando m uy bien si tenemos en
cuenta que es un ítem m uy difícil.
Si el número de sujetos es pequeño, como suele ocurrir en un ensayo previo,
el I.D. puede calcularse utilizando el m étodo descrito aquí o usando la formula
Ej 3 que produce los m ism os resultados (véase apéndice 3).
H oy en día los responsables de exámenes utilizan program as informáticos
para su análisis de ítems. Estos no calculan el I.D. con la fórmula Ej 3 (véase el
apéndice 3), pero calculan las correlaciones biseriales y las correlaciones bise-
riales puntuales. Como el E1 3 , estas dos correlaciones comparan el comporta
m iento del ítem con el de la prueba completa, pero utilizan procedim ientos
m atem áticos más com plejos. La fórm ula E] 3 y estas dos correlaciones produ
cen resultados similares, pero las dos correlaciones biseriales tienen la ventaja
de que tienen en cuenta todas las respuestas de todos los alumnos, y no sólo las
de los grupos alto y bajo. La correlación biserial, que tiende siempre a ser más
alta que la correlación biserial puntual, debería usarse si la muestra tiende a ser
de un nivel de competencia lingüística distinto del de la población a la que va
dirigida la prueba. En los otros casos, debería usarse siempre la correlación bise
rial puntual. Las fórmulas para estas correlaciones se pueden encontrar en cual
quier libro de estadística y Crocker y Algina, 1986, dan una explicación clara
de su utilización. El program a informático ITEMAN de Microcat, calcula auto
máticamente la dificultad y las dos correlaciones biseriales de todos los ítems,
y también inform a sobre el funcionamiento de las alternativas. Paquetes esta
dísticos com o el SPSS y el SAS llevan a cabo los m ism os procesos pero son más
complicados de utilizar. (Para nombres y direcciones completas de estos y otros
program as informáticos, véase el apéndice 8.)
Quizá deberíam os mencionar aquí un aspecto antes de continuar. Para obte
ner el I.D. dijim os que los resultados de los alumnos se ordenaban de acuerdo
con la nota. En el ejem plo de la prueba de com prensión oral que analizamos
anteriorm ente, la calificación era la de la prueba de com prensión oral. Sin
em bargo, si esta prueba hubiera form ado parte de una serie de pruebas, los
alum nos habrían pod id o agruparse de acuerdo con las calificaciones resul
tantes de toda la serie. El propósito de agrupar los resultados es para ordenar
a los estudiantes de acuerdo con alguna m edida de com petencia lingüística,
y a m en udo la m ejor m edida son los resultados obten idos en una serie de
pruebas com pleta. Sin em bargo, si la prueba de com prensión oral se propo
nía evaluar destrezas m uy distintas de las del resto de componentes de la serie,
85
En sayos previos y análisis
no ofrecería una correlación alta con las otras pruebas, y los ítem s de co m
prensión oral no tendrían dem asiada correspondencia con los resultados del
conjunto de pruebas. Los índices de discriminación de los ítems tenderían por
lo tanto a ser bajos. Lo que los responsables de exam en hacen en estos casos
es comparar el comportam iento de los ítems con las notas totales de los alum
nos en aquellas pruebas de la serie que parecen evaluar destrezas sim ilares a
las evaluadas por los ítem s en consideración. Por ejem plo, si la serie de prue
bas contiene pruebas de respuesta m últiple de gram ática y de vocabulario y
pruebas de expresión oral y expresión escrita, los responsables de la prueba
agruparán a los estudiantes de acuerdo con los resultados obten idos en las
pruebas de gramática y de vocabulario y utilizarán esta escala para analizar los
ítem s de gram ática y vocabulario.
Puesto que com parar ítems con los resultados de una prueba de la que for
man parte, y que todavía no se ha experimentado, es lógicamente dudoso, algu
nos responsables de examen agrupan a los alumnos de acuerdo con alguna otra
m edida de competencia lingüística, como puede ser el orden dado por el pro
fesor de estos alumnos, y comparan el comportamiento de cada ítem con esta
medida extema. La dificultad aquí estriba en encontrar una medida extema que
sea fiable y que m ida las destrezas lingüísticas relevantes. Anastasi, 1988, dis
cute este punto con m ás detalle.
Los ítems que requieren respuestas de una sola palabra, de un grupo de pala
bras o de frases pueden analizarse de la m ism a m anera que los ítem s de res
puesta m últiple, pero en este caso, naturalmente, no hay alternativas que
analizar. Aparte de calcular el C.D. y el I.D., y de estudiar el comportamiento de
los huecos, el aspecto más importante de este tipo de análisis es estudiar las res
puestas erróneas de los estudiantes. Estas respuestas darán inform ación sobre
cómo entendieron la tarea los estudiantes y sobre si el ítem evalúa lo que inte
resa. Tam bién revelarán inexactitudes y om isiones en la clave de respuestas, y
descubrirán am bigüedades en el sistema de puntuación. Por ejem plo, las ins
trucciones de puntuación pueden decir «ignore faltas de ortografía», pero puede
no estar claro lo que esto significa en realidad. Si la respuesta correcta es «tuvo»,
¿qué pasa con «tu b o »? Utilizar la clave de respuestas y los criterios de evalua
ción durante la fase de ensayos previos debería pulir cualquier problem a que
pudiera presentarse en el exam en definitivo, puesto que en este caso se preci
saría cóm o tratar este tipo de respuestas incorrectas.
Frecuentem ente, n os encontram os con pruebas supuestam ente de correc
ción objetiva que son difíciles de puntuar de form a coherente. Por ejem plo,
es difícil redactar pruebas de com prensión lectora o com prensión oral de res
puesta abierta que tengan un núm ero de respuestas correctas lim itado. Ade
m ás de d ificu ltad es tales com o el tratam iento de las faltas de ortografía
descrito antes, las respuestas abiertas pueden incluir am bigüedades gram ati
cales que interfieren en la claridad de la respuesta. Además, cuanto m ás larga
sea la respuesta prevista, m ayor es la posibilidad de respuestas aceptables ines
peradas. Si los correctores tienen prisa p or acabar con un núm ero elevado de
86
A nálisis de exámenes
exám enes, estarán tentados de tom ar sus propias decisiones sobre la bondad
de tales respuestas, y estas decisiones serán distintas de las tom adas por otros
correctores. Puede, pues, que sea necesario com probar la consistencia de los
correctores com parando las notas dadas p or dos o m ás correctores (véase el
apartado sobre fiab ilid ad m ás ad elan te). M ientras pueda m antenerse una
corrección coherente, el análisis de ítem s puede llevarse a cabo de la form a
habitual.
4.4.3. Fiabilidad
Si diéram os la m ism a prueba a los m ism os estudiantes varias veces, probable
mente constataríamos que los estudiantes no siempre obtienen las mismas notas.
Algunas de estas variaciones en los resultados pueden estar motivadas por dife
rencias reales o sistemáticas, com o pueden ser la m ejora de los alumnos en la
destreza evaluada, y otras pudieran estar producidas por errores, esto es, cam
bios no sistemáticos causados, por ejemplo, por lagunas en la concentración por
parte de los estudiantes o ruidos en la sala de examen. El objetivo a la hora de
administrar un exam en es producir pruebas que m idan los cam bios sistemáti
cos y no los no sistemáticos, y cuanta mayor sea la proporción de variación sis
temática en la calificación de la pm eba, más fiable es. Un examen perfectamente
fiable sólo m edirá cam bios sistemáticos.
Aunque es a m enudo im posible obtener un examen perfectamente fiable, los
responsables de examen deben procurar que las pruebas sean lo más fiables posi
ble. Pueden hacerlo reduciendo al mínimo las causas de variación no sistemática.
87
Ensayos previos y análisis
88
Análisis de exámenes
inform áticos). El K R 2 1, que asume que todos los ítems son también dicotómi-
cos, se basa en notas totales de la prueba. Puesto que el KR21 utiliza menos infor
m ación que el K R 20, es m enos exacto y siem pre produce un coeficiente de
fiabilidad más bajo. Ambas fórmulas asumen una perfecta fiabilidad de correc
ción. (Puede consultarse un ejemplo desarrollado de KR21 en el apéndice 7 ). La
fórm ula KR20 es difícil de calcular, y no la recomendamos a quien no tenga un
ordenador. El coeficiente de fiabilidad del método de las dos mitades es el más
fácil de los tres de calcular y en general produce resultados similares a los de las
fórmulas KR20 y KR21.
La fiabilidad de una prueba depende de muchos factores, como el tipo y la lon
gitud de la prueba, y la gama de competencia lingüística de los alumnos con los
que se ensayó la prueba. Una prueba objetiva y bien redactada de 100 ítems de
elección múltiple, que se ha ensayado con alumnos de distintas competencias,
podría tener un coeficiente de fiabilidad de + 0 ,9 5 . Sin embargo, una prueba de
comprensión oral igualmente bien redactada de 20 ítems de respuesta abierta que
se ha ensayado con alumnos avanzados puede tener sólo una fiabilidad de +0,75.
La fiabilidad también depende de la homogeneidad de los ítems. Si se supone que
todos los ítems evalúan la m isma destreza de la m ism a forma, estos ítems m os
trarán correlaciones altas y la prueba tendrá un coeficiente de fiabilidad alto. Si la
prueba contiene apartados que evalúan distintas destrezas de forma distinta, estas
secciones no mostrarán una correlación alta con las demás, y la fiabilidad será
menor. (Esto se discute con más extensión en el capítulo 8.) Cuando interprete
m os un coeficiente de fiabilidad es importante considerar todos estos aspectos.
Tal com o m encionam os antes, las fórm ulas de Kuder Richardson deberían
usarse sólo si los estudiantes han tenido el tiem po necesario para acabar la
prueba. En caso contrario, los alumnos m ás flojos no habrán llegado a respon
der algunos ítems, en particular los del final, por lo cual el coeficiente de fiabi
lidad tenderá a ser demasiado alto. (Para m ás información acerca de la fiabilidad,
véase Guilford y Fruchter, 1978; Anastasi, 1988, y Crocker y Algina, 1986).
En una prueba subjetiva, naturalmente, la corrección m isma puede que no
resulte fiable. Esto puede ser debido a factores como la variación en las distin
tas formas en que se llevó a cabo la entrevista, la ambigüedad de los criterios de
evaluación, la aplicación de distintos m odelos por distintos correctores y la
inconsistencia por parte de algunos correctores. La fiabilidad de tales pruebas
puede evaluarse comparando las notas otorgadas por el mismo corrector en dis
tintas ocasiones. Puesto que estas comparaciones se harán con respecto al orden
en que los correctores coloquen a los estudiantes, pero no con respecto a las
notas obtenidas, es posible que dos examinadores ordenen un grupo de estu
diantes de la m ism a forma y muestren de esta forma una correlación perfecta
entre ellos, a pesar de que uno haya dado notas más altas que el otro o haya
usado una gam a m enos amplia de notas. Es pues también necesario comparar
las notas m edias dadas por cada corrector. Existe un coeficiente de fiabilidad
basado en el análisis de la varianza que toma en cuenta tanto el orden como el
nivel y se discutirá en el capítulo 6.
89
Ensayos previos y análisis
90
Análisis de exámenes
Hay tres m odelos principales de TRI, y las opiniones varían acerca de qué
m odelos son los más apropiados para distintas circunstancias. Sin embargo, cual
quiera que esté pensando en utilizar el TRI para analizar pruebas debería pedir
consejo antes de embarcarse. Todo lo que podem os hacer es describir breve
mente las principales ventajas e inconvenientes de cada modelo.
91
Ensayos previos y análisis
Las matemáticas que subyacen en el TRI son demasiado complejas para poder
explicarlas aquí, pero Henning, 1987, y Crocker y Algina, 1986, contienen bre
ves introducciones al respecto; Wright y Stone, 1979, Wright y Masters, 1982,
Lord, 1980, y Hambleton, Swaminathan y Rogers, 1991, lo explican con más
detalle.
Un program a informático que puede utilizarse para efectuar análisis de uno,
dos y tres parámetros es el BILOG (véase el apéndice 8).
El TRI es un instrum ento adicional útil para el responsable de un examen.
Puede utilizarse para identificar ítem s que no se adaptan al grupo que se va a
evaluar. Es útil para detectar la parcialidad de una prueba, y puede utilizarse para
analizar los resultados tanto de pruebas objetivas como subjetivas. También es
m uy bueno para las pruebas adaptadas al ordenador. Sin embargo, no es nece
sario para el análisis de ítems básico de una prueba nueva.
BANCOS DE ÍTEMS
El TRI es ideal para aquellos que desean almacenar ítem s en bancos de ítems.
Los ítem s ensayados o grupos de ítem s pueden «calib rarse» de acuerdo con
características com o la competencia de una persona, la dificultad del ítem, su
poder de discrim inación, y puede ser almacenado en un banco para ser utili
zado cuando sea necesario. Entonces, cuando los responsables de una prueba
están pensando en la elaboración de una nueva versión de un examen, pueden
seleccionar del banco los ítem s que tengan no sólo el nivel adecuado para la
población del exam en sino que también pueden com binarlos de manera que
elaboren una prueba que sea equivalente en cuanto a dificultad y discrim ina
ción a pruebas anteriores del m ism o tipo.
El disponer de un banco de ítems depende de la disponibilidad de al menos
200 personas para cada ensayo y de la existencia de un grupo de ítems de anclaje
que estén ya calibrados y por lo tanto se sepa su nivel de dificultad. Los nuevos
ítems se colocarán en la m ism a escala de dificultad que los ítems ya existentes.
92
Análisis de exámenes
7 7n
« (*>)
jÉJ 6' 86
1S 5 .1 S
j¡j 4- ï +J
flj 8<U 4
lÜ 3'
£l
•P
;
2 l
0 U i---t t f
Ó i 2 3 4 S 6 7 8 9 Í0 0 12 3 4 S 6 7 8 9
N o ta N ota
Media 6 6 6
Moda 6 7 6
Mediana 6 6,5 6
N°. de rango 4 8 2
En los tres casos, 12 alumnos han hecho una prueba de 10 ítems. Podemos ver
en los histogramas que aunque la media es 6 cada vez, los resultados globales de
la prueba son m uy distintos. En A y en B, por ejemplo, hay m ás alumnos que
obtuvieron la nota media que cualquier otra nota: 4 alumnos tuvieron un 6 en
A, y 6 alumnos tuvieron un 6 en C. Sin embargo, en B hay más alumnos con un
7 que con un 6. La nota obtenida por el m ayor grupo de alum nos se llama la
moda, que en el caso de B es 7. Es útil tener la moda además de la media, en par
ticular si la prueba es muy fácil o m uy difícil, o cuando parece que los alumnos
que han realizado la prueba tienen dos niveles diferenciados. La figura 4.7 da un
ejem plo de los resultados de una prueba que resultó m uy fácil para los estu
diantes. La m oda es 20, mientras que la media es 15,55. Tal distribución de notas,
en la que éstas se agrupan en el extremo alto del histograma se describe como
«asim etría negativa», porque el número de notas decrece hacia la izquierda del
gráfico. Si una prueba es m uy difícil y los resultados disminuyen hacia la dere
cha del gráfico, se dirá que existe una «asimetría positiva».
La figura 4.8 muestra los resultados de una prueba que podrían haber reali
zado estudiantes con dos niveles de competencia distintos. Por ejemplo, el res
ponsable de la evaluación quizá ha adm inistrado la prueba a dos grupos
distintos, un grupo de nivel intermedio y otro de nivel avanzado. En este caso
se describirá la distribución como «bim odal», puesto que tendrá dos modas. Si
sólo hubiéram os buscado la nota media, no habríamos obtenido una idea clara
de los resultados puesto que sólo un alumno tuvo un 11. Si se dan la m edia y
las m odas la distribución de las notas se describe de forma más informativa.
93
Ensayos previos y análisis
N o ta
N ota
Media = 1 1 Modas = 6 y 17
F ig . 4 .8
94
Análisis de exámenes
d on es sim étricas de (a) y de (c) y la m ediana son iguales con la m edia, pero
que en la (b) la m ediana, 6,5, es distinta.
Una vez estudiadas estas medidas de tendenda central, tenemos una idea más
dara de las diferencias en las distribudones de notas de los ejemplos de la figura
4.6. Sin em bargo, ninguna de estas m edidas explica las diferencias en la dis
persión de resultados. Por ejem plo, A y C tienen m edias, m odas y m edianas
idénticas, pero puede verse a simple vista que A tiene una distribudón de resul
tados m ucho m ás am plia que la C. La form a m ás sim ple de analizar esta dife-
rencia es ver d rango de cada distribudón. El rango es la diferenda entre la nota
más alta y la nota m ás baja. Así pues, d rango en A es de 8—4, que es igual a 4,
y en C es 2. Cuando sabem os los rangos, se muestran algunas de las diferencias
existentes en las amplitudes de las tres distribudones. Está ahora claro que C con
un rango de 2, tiene una distribudón de notas reducida, mientras que B, con
un rango de 8, la tiene amplia.
El rango es un a m edida m uy útil de «d isp ersió n », pero tiene un inconve
niente: no tiene en cuenta los huecos en la distribudón, es d ed r, las califica-
don es que nadie obtuvo. Así, en B, ningún alumno tuvo un 5 o un 9, por tanto
d rango es quizá una exageradón de la distribución de las notas. La m edida de
dispersión que tiene en cuenta cada una de las notas obtenidas es la desviación
típica. Ésta es una estadística m uy importante y debería obtenerse siempre que
sea posible. Cualquier libro introductorio de estadística explicará la desviadón
típica, y puesto que es m ás complicada de explicar que las otras m edidas des
critas, la describiremos aquí m uy brevemente. La desviadón típica (D.T.) corres
ponde, aproximadamente, a la variación m edia de la nota de cada alumno con
respecto a la media. Si un alumno tiene una nota de 4, y la nota m edia es un 6,
este estudiante se desvía —2 de la m edia. De la m ism a manera, un alumno con
un 10 se desviará un 4 de la m edia. La D.T. inform a sobre la m edia entre las
desviaciones de cada nota respecto a la m edia. Si vem os la figura 4 .6 otra vez
veremos que A tiene una D.T. de 1,13, B la tiene de 2 ,3 4 y C de 0,74. Compa
rando estas cifras podem os ver al instante que C está m enos dispersa que A o B.
Hay otras estadísticas y gráficos que se utilizan para describir la distribución
de resultados (véase cualquier libro de introducción a la estadística), pero un
histogram a y las cinco m edidas mencionadas m ás arriba son adecuadas para la
mayoría de los objetivos. Con estas medidas es posible comparar el nivel de difi
cultad y la dispersión de resultados de distintas partes de una prueba o de dis
tintas pruebas entre sí.
Estas medidas de tendencia central y de dispersión mostrarán hasta qué punto
es apropiado el borrador de examen para los propósitos con los que se ha redac
tado. Por ejem plo, será posible ver si la prueba tiene el nivel de dificultad ade
cuado. Tam bién será posible ver si la prueba es capaz de discrim inar entre
distintos estudiantes. Si una prueba debe distinguir entre m uchos niveles de
estudiantes, una que sea m uy fácil o m uy difícil con una distribución asimétrica
no será adecuada, puesto que demasiadas personas se agruparán a la izquierda
o a la derecha de la distribución. Lo que hace falta en este caso es una disper
95
Ensayos previos y análisis
sión amplia de notas con sólo unos pocos estudiantes que obtengan una nota
en concreto (véase la figura 4.9 a continuación). Para este tipo de prueba, los
ítems deberían tener unos I.D. altos, puesto que éstos provocarán que las notas
de los alumnos estén dispersas. Sin embargo, si la prueba tiene una nota de corte
única y los resultados son sólo de aprobado/suspenso, la prueba puede necesi
tar una distribución bimodal, agrupando a los alumnos a un lado o a otro m ien
tras unos pocos alumnos obtienen la nota de corte m ism a (véase la figura 4.8).
Si una prueba se redacta pensando en seleccionar sólo los alumnos que estén en
lo más alto o en lo más bajo del rango de competencia, los coeficientes de difi
cultad de los ítems deberían reflejarlo.
6-1
S 5'
1+J
Z 3-j
2<u 2 -
£
Fig. 4.9
Así, por ejemplo, si una prueba está pensada para seleccionar al 20% de los
estudiantes más flojos para darles clases suplementarias, entonces los ítems debe
rían tener coeficientes de dificultad altos. Esto llevará a una discriminación más
alta entre los alum nos m ás flojos, com o puede verse en la figura 4.7, en la que
los alumnos de nivel alto se agrupan juntos, y el 10% de los más flojos se agru
pan en el extremo inferior de la distribución. Para m ás información sobre este
aspecto, véase Crocker y Algina, 1986 y Anastasi, 1988.
96
Hablantes nativos
97
Ensayos previos y análisis
hablantes nativos también varían entre sí. Sin embargo, para pruebas de correc
ción objetiva, los ensayos con hablantes nativos son valiosísimos. Puesto que se
supone que m uchos candidatos no tendrán un nivel de lengua tan alto com o el
de hablantes nativos cultos, cualquier ítem que resulte dem asiado difícil para
estos nativos deberá suprimirse.
PREGUNTA 21: ¿Llevan a cabo ensayos previos con los ítems o preguntas? En caso afirmativo, ¿cómo
se seleccionan los estudiantes y cuántos responden a cada ítem o pregunta?
De los doce tribunales, seis dijeron que sus ítems se ensayaban y seis dijeron
que no.
De los seis que dijeron que llevaban a cabo ensayos previos, dos se referían a
ensayos informales; uno dijo que ensayaba los ítems con unos pocos alumnos
puesto que «la confidencialidad del material es esencial» y el otro dijo que los
m étodos de evaluación y los ítems difíciles se ensayaban de m anera inform al
«con redactores o exam inadores que en sus propias escuelas utilizan candida
tos de ñar». La confidencialidad de la prueba es lo más importante». De los otros
cuatro tribunales, uno dijo que sólo ensayaba los ítems durante la fase de desa
rrollo del examen, y otro sólo ensayaba los ítems de respuesta múltiple.
Los dos centros restantes que dijeron que llevaban a cabo ensayos previos
fueron UCLES y la AEB (Associated Examining Board). Los ensayos previos de UCLES
variaban de acuerdo con cada examen y con cada parte. Todos los componentes
de IELTS, CCSE (Certificates in Communicative Skills in English) y CEIBT se sometían
a ensayos previos. De los otros cinco exám enes, se ensayaban las pruebas
98
Estudio sobre los tribunales de exámenes de inglés...
99
Ensayos previos y análisis
PREGUNTA 22: Si realizan ensayos previos, ¿qué estadísticas calculan a partir de los resultados?
Uno de los tribunales que no realizaba ensayos previos a gran escala respon
dió: «N o se necesitan estadísticas: si cualquiera de los m iem bros del comité de
redacción tiene serias dudas sobre la adecuación de un ítem, éste no se utiliza».
Otro tribunal dijo: «N o se calculan estadísticas oficiales», pero «se usa la infor
mación obtenida en los ensayos informales para mejorar o rechazar preguntas».
Sólo tres tribunales llevaban a cabo anáfisis estadísticos de los resultados de
los ensayos. U no de estos, la City and Guilds, usa la siguiente inform ación para
cada ítem de respuesta m últiple: el coeficiente de dificultad, el índice de dis
criminación biserial puntual, el porcentaje de candidatos que escogen cada una
de las opciones, la nota m edia de la prueba de los candidatos que escogen cada
opción y el porcentaje de alumnos que escogen cada alternativa en el tramo del
27% superior e inferior de la muestra (City and Guilds, 1984).
De nuevo, los procedimientos de UCLES eran m uy variados. Este tribunal no
llevaba a cabo anáfisis estadísticos de ninguna de las partes del CCSE ni tampoco
de la mayoría de las pruebas corregidas de forma subjetiva. Además, no calculaba
estadísticas para CEIBT porque no había un número suficiente de alumnos en los
ensayos. Sin embargo, calculaba los coeficientes de dificultad y las correlaciones
biseriales puntuales de todas las pruebas de respuesta múltiple restantes, y para
100
Estudio sobre los tribunales de exámenes de inglés...
PREGUNTA 23: ¿Qué ocurre si los ítems o preguntas que se ensayan no son satisfactorios?
Los seis tribunales que ensayaban sus ítems dijeron que si los ítems no eran
satisfactorios, se reformulaban o se descartaban. Tres de las respuestas de UCLES
dijeron que todos los ítem s revisados se volvían a someter a un ciclo de ensa
yos previos.
Cada vez que se vuelve a redactar un ítem debería probarse de nuevo, puesto
que no hay ninguna garantía de que un ítem m odificado sea m ejor que su pre
decesor. Sin embargo, en m uchos tribunales, puede resultar im posible volver a
ensayar los ítems. En estos casos debería analizarse el ítem una vez se ha admi
nistrado la prueba final para poder suprimir los m alos ítems del cómputo final.
101
Ensayos previos y análisis
PREGUNTA 2 4 : ¿Qué pasos se dan, además de los mencionados anteriormente, para controlar la cali
dad de los redactores de ítems o pruebas?
Dentro de las respuestas de UCLES, las correspondientes a las pruebas orales
del PET, FCE, CAE y CPE dijeron que se recogían comentarios de los examina
dores, de los candidatos y de los distintos tribunales. Los redactores de las par
tes de corrección objetiva se reunían en sesiones de selección y estaban
supervisados por el presidente del comité y por el responsable de la prueba. Una
respuesta m encionó un curso de formación de redactores, pero no estaba claro
si éste tenía lugar antes o después de realizarse los ensayos previos.
Del resto de tribunales de exám enes, cinco no contestaron a la pregunta o
dijeron que no era procedente en su caso. Tres dijeron que los borradores de
las pruebas se analizaban y los com entarios resultantes se hacían llegar a los
redactores antes de la prueba, y los tres tribunales restantes dijeron que los
correctores hacían com entarios después de la administración de un exam en y
que el trabajo de los redactores de analizaba entonces. Uno dijo que «el análi
sis revelaba calidad» y que los redactores no competentes «n o continuaban».
4.9. Debate
La principal preocupación que se desprende de los resultados anteriores es, sin
duda, la no realización de ensayos previos por parte de m uchos tribunales. Es
una pena que el análisis exhaustivo y el proceso de selección de las pruebas que
llevan a cabo la mayoría de los tribunales no vaya seguido de comprobaciones
empíricas.
La diñcultad de encontrar alumnos adecuados es en realidad importante y los
centros que no llevan a cabo ensayos previos deberían averiguar cómo pueden
hacerlos los demás.
Una forma de solucionar el problema de encontrar muestras representativas,
y al m ism o tiempo garantizar que se mantiene la confidencialidad de los mate
riales, es dar los ítems piloto a los candidatos mientras realizan exámenes rea
les. Si estos ítem s añadidos se incluyen en el exam en sin que lo sepan los
candidatos, tendremos no sólo candidatos del nivel y conocimientos generales
apropiados sino que también conseguiremos que se tomen los ítems con la serie
102
Sumario
dad que a m enudo falta en los ensayos. Los resultados de estas partes piloto del
examen no se tendrán en cuenta en la calificación final que se entregará a los
candidatos, pero una vez se hayan analizado los ítems, se podrán almacenar los
que hayan resultado satisfactorios en un banco de ítems para exámenes futuros.
Un inconveniente de este método de ensayo previo es que la inclusión de mate
rial piloto puede hacer el exam en dem asiado largo o exigente. Sin embargo,
parece ser la forma más sencilla de realizar un ensayo y de obtener los resulta
dos más válidos. Si los examinadores están preocupados por dar a los candida
tos ítems no probados que pueden resultar poco claros y por lo tanto provocar
ansiedad, siempre pueden informar a los candidatos de que algunos ítems son
de muestra y no se puntuarán. Sin embargo, esto podría causar problemas. Los
candidatos podrían prestar menos atención a los ítems que creen que son piloto,
lo que provocaría actuaciones poco representativas. Además, podría haber un
problem a de confidencialidad, puesto que si los candidatos creen haber identi
ficado con éxito los ítems piloto, pueden memorizarlos para pasar la informa
ción a futuros candidatos.
4.10. Sumario
ENSAYOS PREVIOS: PROCEDIMIENTOS
Pruebas piloto (con un pequeño grupo de candidatos que incluya hablantes nati
vos del idiom a que se vaya a exam inar).
Com probar la administración de la prueba, el tiempo, las instrucciones, el
contenido, la clave de respuestas, etc.
Ensayos generales (con tantos alumnos como sea posible, incluyendo hablantes nati
vos en exámenes de nivel avanzado).
Comprobar la administración de la prueba, las instrucciones, el contenido, la
clave de respuestas, etc.
Pruebas de corrección objetiva
Análisis de ítems: índice de discriminación y coeficiente de dificultad
Examen completo: fiabilidad, por ejemplo KR20 o KR21.
Pruebas de corrección subjetiva
Corregir una muestra de redacciones o de entrevistas para comprobar cómo
funcionan las tareas, los criterios, etc.
Fiabilidad:
Com probar la consistencia externa e intem a de los correctores
(ver capítulo 6).
Para todas las pruebas, calcular las estadísticas de distribución
H isto g ra m a
Media, m oda, mediana, rango, desviación típica.
Después de los ensayos previos, hay que cambiar los procedimientos de admi
nistración, el tiempo, etc.; se modificarán los ítems y, si es posible, se volverán
a ensayar una vez modificados.
103
Ensayos previos y análisis
Bibliografía
Alderson, J. C. (1980). «Native and Non-native Speaker Performance on Cloze Test.»
Language Learning, 13 (1), págs. 59—76.
Alderson, J. C. (1993). «Judgements in Language Testing.» En D. Douglas, y C.
Chapelle, A New Decade of Language Testing. TESOL, Alexandria, Virginia.
Anastasi, A. (1988). Psychological Testing. Macmillan, Londres.
Angoff, W. y A. J. Sharon (1971). «A comparison o f scores earned on the Test of
English as a Foreign Language by native American college students and foreign
applicants.» TESOL Quarterly, 5, pig. 129.
Bachman, L. F. (1990). Fundamental Considerations in Language Testing. Oxford University
Press, Oxford.
Buck, G. (1991). Expert estimates of test item characteristics. Contribución presentada en el
Language Testing Research Colloquium, Princeton, NJ.
Crocker, L. y J. Algina (1986). Introduction to Classical and Modem Test Theory. Flolt Rinehart
Winston, Chicago.
Davies, A. (1991). The Native Speaker in Applied Linguistics. Edinburgh University Press,
Edimburgo.
Guilford, J. P. y B. Fruchter (1978). Fundamental Statistics in Psychology and Education.
McGraw-Hill, Tokio.
Hambleton, R. K., H. Swaminathan y H. J. Rogers (1991). Fundamentals of Item Response
Theory. Sage Publications, Newbury Park, Calif.
Hamilton, J., M. Lopes, T. McNamara y E. Sheridan (1993). «Rating Scales and
Native Speaker Performance on a Communicatively Oriented EAP Test.» Melbourne
Papers in Language Testing, 2, págs. 1—24.
Henning, G. (1987). A Guide to Language Testing. Newbury House, Cambridge, Mass.
Hudson, T. y B. Lynch. (1984). «A Criterion Referenced Measurement Approach to
ESL Achievement Testing.» Language Testing, 1, pigs. 171—202.
Lord, F. M. (1980). Applications of Item Response Theory to Practical Testing Problems. Lawrence
Erlbaum, Hillsdale, NJ.
Magnusson, D. (1966). Test Theory. Addison Wesley, Reading, Mass.
Weir, C. J. (1983). «Identifying the Language Problems of Overseas Students in
Tertiary Education in the United Kingdom.» Tesis doctoral. Universidad de Londres.
Wright, B. D. y M. H. Stone (1979). Best Test Design: Rasch Measurement. Mesa Press,
Chicago.
Wright, B. D. y G. N. Masters (1982). Rating Scale Analysis: Rasch Measurement. Mesa Press,
Chicago.
104
5 La formación de examinadores y administradores
105
La formación de examinadores y administradores
y fiable, todo el trabajo llevado a cabo para obtener un instrum ento de «c ali
d ad » habrá sido una pérdida de tiem po. Aunque las especificaciones reflejen
las finalidades de la institución o aunque se haya cuidado m ucho la elabora
ción y los ensayos previos, todos los esfuerzos serán vanos si los usuarios de
la prueba no pueden confiar en los resultados que los exam inadores dan a los
candidatos.
La m edición, según Mathews, 1985: 90, «incluye un instrum ento de eva
luación estándar y un operador que puede aplicarlo de form a consistente». Y
continúa con la afirmación de que hay al menos tres fuentes de inexactitud que
pueden amenazar la solvencia de cualquier prueba:
1. dudas sobre la naturaleza de los atributos de los alumnos que van a exa
minarse y de las unidades de m edida que se les adjudicarán;
2. dudas sobre hasta qué punto las preguntas y las respuestas tienen real
mente una relación con estos atributos, aunque en este caso se haya iden
tificado su naturaleza;
3. inexactitudes en los sistemas de puntuación y variedad de interpretación
y aplicación de éstos por parte de los correctores.
Los dos prim eros puntos se han discutido en los capítulos 2 (Especificacio
nes de exam en) y 3 (La redacción de ítem s y la función m oderadora). El ter
cero aparece sólo durante la fase de form ación de los exam inadores. En las
páginas que siguen a continuación discutiremos los pasos que pueden darse para
disminuir tanto la inexactitud del sistema de puntuación com o la variedad que
puede darse entre examinadores que empiezan a interpretar y aplicar sus siste
m as de puntuación.
PUNTUACIÓN OBJETIVA
La puntuación objetiva se utiliza para los ítems de respuesta múltiple y de ver
dadero/falso, para los ítems que requieren la identificación de un error y para
otro tipo de ítem s en los que el candidato debe producir una respuesta que
puede puntuarse como «correcta» o «incorrecta». En la puntuación objetiva, el
exam inador com para la respuesta del candidato con la respuesta o la gam a de
respuestas que el redactor ha determinado com o correctas. El conjunto de res
puestas aceptables puede llamarse «clave» (key) o «plantilla de corrección» (mark
scheme), según la necesidad que tengan los examinadores de ejercitar su albedrío
106
¿Qué supone k formación de examinadores?
PUNTUACIÓN SUBJETIVA
La puntuación subjetiva se utiliza habitualmente para puntuar pruebas de expre
sión escrita o de expresión oral. Los examinadores deben emitir juicios de valor
que son m ás com plicados que las decisiones «correcto/incorrecto» a las que
nos referim os anteriormente: deben evaluar lo bien que un candidato lleva a
cabo una tarea determ inada y para esto necesitan tina «escala de valoración»
(rating scale). Esta escala puede consistir en núm eros, en letras u otras etiquetas
(por ejem plo: «Excelente» o «M uy bu en o ») que pueden ir acom pañadas de
afirmaciones sobre el tipo de actuación lingüística al que se refiere cada punto
de la escala. Estas afirmaciones se llaman «descriptores».
Hay básicam ente dos tipos de escalas. Los exam inadores pueden tener que
juzgar la actuación lingüística del candidato en su totalidad, en cuyo caso utili
zarán una «escala holística» o global (holisticscale). Un ejemplo de una escala de
este tipo se presenta en la figura 5.1.
107
La formación de examinadores y administradores
Cuando los examinadores utilizan este tipo de escala, se les pide que no ten
gan m uy en cuenta ningún aspecto en concreto de la producción del candidato,
sino que emitan un juicio sobre su eficacia en general. Este tipo de escala es a
m enudo tam bién denom inada «escala de im presión general» (impression scale),
especialm ente cuando se pide a los exam inadores que em itan sus juicios de
forma rápida.
Otros exam inadores pueden tener que juzgar varios com ponentes de una
actuación lingüística por separado (por ejemplo, la caligrafía, la organización
de los párrafos, la gramática, la selección de vocabulario). Este tipo de puntua
ción requiere una «escala analítica» (analytic scale), en la que hay descriptores
para cada com ponente (véase figura 5.2 ). En la puntuación analítica el candi
dato puede obtener una nota más alta en un componente de la actuación lingüís
tica que en otro; la institución debe decidir después si se combinan las distintas
puntuaciones y cómo se combinarán para obtener una calificación final. (Véase
la discusión sobre «ponderación» en el capítulo 7.)
Estas escalas (figuras 5.1 y 5.2) son sólo dos de las muchas disponibles en la
evaluación del inglés como lengua extranjera. El número de puntos de la escala y
el núm ero de com ponentes a analizar variará según el tipo y la exigencia de la
tarea escrita u oral. El reto para los examinadores es el de comprender los princi
pios que subyacen en las escalas de puntuación con las que deben trabajar y el de
interpretar los descriptores de forma coherente. Este es el principal objetivo de los
programas de formación para los examinadores de la expresión escrita y uno de
los dos principales objetivos para los examinadores de la expresión oral. En los
próximos apartados discutiremos, primero, una serie general de pasos que han de
seguir para formar a los examinadores de la expresión escrita y después explica
108
¿Qué supone la formación de examinadores?
remos cóm o pueden modificarse estos pasos para los examinadores de la expre
sión oral. Se discutirá entonces una segunda dim ensión en la formación de los
examinadores de la expresión oral: la necesidad de desarrollar destrezas específi
cas si deben interaccionar con los candidatos al m ism o tiempo que los evalúan.
Cohesión
0. La cohesión está casi totalmente ausente. El escrito es tan fragmentario que
la com prensión de la comunicación prevista es prácticamente imposible.
1. La cohesión poco satisfactoria puede causar dificultades en la com pren
sión de la m ayor parte de la comunicación prevista.
2. Cohesión satisfactoria en su mayor parte aunque existen deficiencias oca
sionales que pueden provocar que ciertas partes de la com unicación no
sean siem pre eficaces.
3. Uso satisfactorio de la cohesión que comporta una comunicación eficaz.
109
La formación de examinadores y administradores
Gramática
0. Casi todas las estructuras gramaticales son incorrectas.
1. Frecuentes incorrecciones gramaticales.
2. Algunas incorrecciones gramaticales.
3. Casi no se encuentran incorrecciones gramaticales.
110
¿Qué supone la formación de examinadores?
exam in adores. R ecom en daríam os escalas con siete puntos com o m áxim o,
puesto que es difícil hacer distinciones m ás sutiles, y tam bién recom endarí
am os que se acom pañaran la m ayoría de los puntos de la escala de descrip
tores explícitos. Puede ser im portante tener diferentes escalas para distintas
tareas: una escala de nivelación es raramente apropiada para la evaluación de
todas las actuaciones lingüísticas, escritas u orales. Tanto las tareas com o las
escalas deberían probarse durante la fase de ensayos previos al desarrollo del
exam en (véase el capítulo 4 ).
111
La formación de examinadores y administradores
112
¿Qué supone la formación de examinadores?
113
La formación de examinadores y administradores
de actuaciones, es m ejor reunirlas en una m ism a cinta para que los coordina
dores de las sesiones de unificación de criterios puedan encontrar con rapidez
las actuaciones que necesitan. Las anotaciones de la com isión sobre la puntua
ción acordada para cada actuación deberían ir acompañadas del número corres
pondiente en el contador. Todas las grabaciones deberían ser de alta calidad para
que los exam inadores no tengan problem as con la visibilidad o la audición de
los candidatos. Este punto puede recomendar la grabación en un estudio en lugar
de en un aula.
Probablemente será imposible que los examinadores puedan escuchar las cin
tas antes de la sesión de unificación de criterios, por lo que debe preverse el sufi
ciente tiempo para escuchar cada actuación y volver a escuchar algunas partes de
la m ayoría de actuaciones. Los coordinadores deben ser realistas a la hora de
determinar la cantidad de muestras de actuaciones que pueden analizarse en una
reunión: probablemente menos de la m itad de los ejercicios escritos que anali
zan los examinadores de la expresión escrita en el m ism o período de tiempo. El
proceso seguido en la reunión debería ser básicamente el m ism o que el seguido
en las reuniones de los exam inadores de la expresión escrita: escucha y visio-
nado, puntuación independiente, discusión de notas, m odificación de la escala
de valoración si hace falta y aceptación de puntuaciones consensuadas.
Algunas instituciones también invitan a alumnos voluntarios a «exam inarse»
durante la sesión de unificación de criterios. De esta forma, los examinadores
tienen la oportunidad de probar sus destrezas (entre las cuales se halla la capa
cidad de interactuar con los candidatos —véase más adelante) en una situación
real. El problem a de usar actuaciones en directo es que no resulta posible vol
verlas a ver, cosa a m enudo deseable cuando se han dado diferentes puntuacio
nes, a no ser que, naturalmente, también se graben estas actuaciones.
La tercera diferencia entre la formación de los examinadores de la expresión
escrita y los exam inadores de la expresión oral es que en muchas pruebas los
examinadores de la expresión oral están presentes en el aula y deben interactuar
con el candidato durante la prueba. En algunas pruebas otra persona (a menudo
un profesor) puede tomar el rol de «interlocutor», ocupándose de conversar
con el candidato mientras el examinador está libre para evaluar, pero es mucho
más corriente encontrar al exam inador solo dando instrucciones, haciendo las
preguntas, respondiendo a las contribuciones del candidato e intentando eva
luar la actuación ¡al m ism o tiempo!
En este caso, se debería tener una sesión de formación por separado para per
mitir a los exam inadores realizar con éxito la evaluación, sesión en la que sus
compañeros actúan como candidatos o, si es posible, se trabaja con candidatos
voluntarios. Los examinadores deberían recibir instrucciones sobre dónde sen
tarse con relación a los candidatos, qué tipo de preguntas hacer para conseguir
que el candidato dé lo m ejor de sí, cómo conseguir manejar los papeles que ten
drán en las manos (no sólo sus propias instrucciones, la escala y la hoja de pun
tuación, sino también todo el material que el candidato necesitará), cómo anotar
sus puntuaciones de form a discreta, cóm o acoger al candidato y cóm o dar por
114
La importancia de la formación de los administradores
finalizada la prueba, etc. En algunas pruebas esta formación puede ocupar medio
día, que debe añadirse al día reservado para la unificación de criterios. Esto es
esencial para garantizar una administración y puntuación fiables.
Los exam inadores e interlocutores deben estar familiarizados con las tareas
que administrarán, los papeles que deben desempeñar, las tarjetas de roles que
deben utilizar o las preguntas que deben hacer (véase también el apartado 5.4.1,
más adelante). Para aquellos que no sólo deben examinar sino también llevar la
conversación, esta tarea es extremadamente difícil, y se debe desarrollar un tipo
de form ación que permita a los examinadores familiarizarse con estas tareas.
115
La formación de examinadores y administradores
116
Estudio sobre lo.' adúnales de exámenes de inglés
117
La formación de examinadores y administradores
PREGUNTA 33: ¿Hay partes del examen a) puntuadas de forma objetiva, por ejemplo por una máquina
o por administrativos; b) puntuadas de forma centralizada, por ejemplo por equipos que trabajan jun
tos; c) puntuadas de forma individual, por ejemplo, por el administrador de la prueba o su equivalente?
Sólo dos tribunales respondieron que puntuaban de forma objetiva. Uno de
ellos puntualizó que «lo s administrativos que puntúan son personal temporal
ordinario que está preparado para aplicar los esquemas de puntuación bajo una
supervisión estricta».
Cuatro tribunales dijeron que puntuaban de forma centralizada; ocho no lo
hacían. Uno de los tribunales se refirió a un «fin de sem ana de expresión
escrita», pero no dio detalles sobre cóm o se organizaba. Los otros centros no
describieron cóm o funcionaba su puntuación centralizada.
Sólo cuatro tribunales dijeron que llevaban a cabo puntuación individual; sin
embargo, puede ser que la pregunta se interpretara de forma distinta por parte
de los tribunales, puesto que algunos de ellos, de los que sabem os que tienen
examinadores que puntúan en su dom icilio, respondieron de form a negativa.
Según nuestra experiencia la mayor parte de los tribunales tiene organizada en
realidad una «industria casera», en la que los exámenes se mandan a los dom i
cilios de los examinadores para que los puntúen en un período concreto. Aun
11 8
Estudio sobre los tribunales de exámenes de inglés...
que esto es lo más conveniente para los examinadores, y sin duda menos caro
que la puntuación centralizada, este procedimiento tiene consecuencias para la
supervisión de la corrección y la puesta en marcha de controles de fiabilidad.
Quizá el punto m ás importante es que haya un período de tiempo desde que el
exam inador puntúe el escrito hasta que el exam inador jefe sea capaz de com
probar si la puntuación es la adecuada. Se discutirá este punto en el capítulo 6.
PREGUNTA 3 4 : ¿Convocan una sesión de coordinación con los correctores? Si la respuesta es afir
mativa, ¿cómo se llama? ¿Cuánto tiempo dura normalmente?
Once de los doce tribunales que respondieron mantienen reuniones de coor
dinación; uno no. El tribunal que no hacía este tipo de reunión respondió que
la coordinación de los exam inadores la llevaba a cabo «el exam inador jefe de
manera inform al». El nom bre de este tipo de reunión varía, de acuerdo con el
examen. El nom bre m ás com ún es «sesión de unificación de criterios», pero
también se usan «reunión de coordinación», «reunión de evaluadores», «reu
nión de exam inadores» y «reunión informativa».
El tiempo previsto para la reunión varía desde medio día a un día. Un tribu
nal dijo que la formación de sus examinadores para evaluar 10 niveles distintos
duraba sólo un día, lo que parece m uy insuficiente para asegurar una familia-
rización adecuada con las escalas de nivelación y con el procedimiento general.
119
La formación de examinadores y administradores
Demostración en directo con candidatos, evaluadores y evaluadores que
puntúan. Corrección individualizada con hojas de puntuación por parte de los
evaluadores presentes. Se discuten los resultados verbalmente de forma
inmediata y se evalúan y supervisan los comentarios por escrito después de la
reunión.
PREGUNTA 36. ¿Qué pasos se dan al final de la sesión de unificación de criterios para establecer el
grado de acuerdo entre los correctores?
Muchos de los tribunales mencionaron que pretendían llegar a un «acuerdo»
al final de sus sesiones de unificación de criterios, pero no estaba claro cóm o
decidían si se había conseguido un grado suficiente de acuerdo. La siguiente
descripción ilustra este punto:
Los correctores habrán tenido los escritos durante una semana y habrán
corregido provisionalmente unos 10 por nivel. En la reunión se discutirán y
revisarán, si es necesario, los esquemas de puntuación y se acordará un
enfoque común.
120
Estudio sobre los tribunales de exámenes de inglés...
de equipo dirigirán su propio proceso de unificación de criterios. Los
correctores deben puntuar los ejercicios escritos seleccionados y comparar sus
resultados con los de la reunión. No se empieza la puntuación «en serio»
hasta que se haya llegado a un acuerdo completo entre los distintos equipos.
121
La formación de examinadores y administradores
AI cabo de dos o tres días después del examen, todos los examinadores asisten
a una sesión de unificación de criterios. En esta reunión el examinador jefe
discute cada pregunta y su esquema de puntuación correspondiente. Se toma
nota de lo que se requiere para cada puntuación; se acuerdan cuáles son las
respuestas alternativas aceptables y también se toma nota no sólo de las
respuestas aceptables sino también de las que sólo son correctas parcialmente y
de las que son totalmente incorrectas. Se tratan aspectos diversos sobre las
respuestas analizadas y se toman decisiones sobre todos ellos. Además, se
discute el sistema de puntuación para garantizar que todos los examinadores
corrigen de la misma forma. El objetivo de esta reunión es garantizar una
correcta aplicación del esquema de puntuación por parte de todos los
examinadores en todos los escritos para que, sea quien sea quien puntúe y sin
importar dónde puntúe, una respuesta en particular reciba siempre una
puntuación apropiada. En muchas materias el tribunal se asegura de que todos
los examinadores corrijan fotocopias de los mismos ejercicios escritos para
comprobar que puntúan de acuerdo con el mismo criterio y de la misma
forma antes de que abandonen la reunión (página 11).
122
Debate
5.7. Debate
Resultó reconfortante constatar que hay muchos tribunales que mantienen sesio
nes de unificación de criterios, pero es preocupante comprobar que hay dos que
no lo hacen. Fue útil leer las descripciones ofrecidas por los tribunales sobre su
proceso de formación; sin embargo, las descripciones eran a menudo muy bre
ves. Todavía no hemos resuelto distintas preguntas sobre diversos estadios de la
formación y especialmente sobre cuándo decide un tribunal que sus examina
dores están preparados para empezar a puntuar «en serio». Varios tribunales
mencionaron que los examinadores deben llegar a un acuerdo sobre los ejerci
cios escritos seleccionados o sobre las actuaciones grabadas en vídeo, pero no
sabemos si este acuerdo es el resultado de la discusión (en cuyo caso se persuade
y no se convence a los exam inadores) o si es una prueba que deben pasar los
examinadores. Si éste fuera el caso, no sería razonable esperar que cada exam i
nador estuviera de acuerdo por completo con cada puntuación otorgada por el
exam inador jefe y los jefes de equipo, pero si se perm ite variación («desvia
ción »), ¿cuánta se acepta?
N os sorprendió constatar que al menos uno de los tribunales forma a sus exa
m inadores por correo o por teléfono y no de form a presencial. El tribunal se
toma la m olestia de form ar a los jefes de equipo en grupo, pero los jefes de
equipo no forman a sus examinadores en persona. No se sabe si el tribunal cree
que sería una pérdida de tiem po reunir a todos sus examinadores para la dis
123
La formación de examinadores y administradores
cusión, pero nos encontramos ante una falsa idea de la economía. En el caso de
que el centro fuera capaz de dar razones convincentes para la form ación por
correo o por teléfono, todavía veríamos poco claro que los examinadores em pe
zaran a m andar los prim eros escritos puntuados a los jefes de equipo después
de haber empezado la corrección en serio. Parecería más sensato pedir a los exa
m inadores que enviaran los prim eros escritos puntuados antes de em pezar a
puntuar en serio y pedir a los examinadores que esperaran instrucciones antes
de continuar puntuando.
D escubrim os dos novedades interesantes: el «fin de sem ana de expresión
escrita» que convoca un centro para formar a los examinadores de la expresión
escrita y para supervisarlos mientras están puntuando, y los manuales de fo r
mación autodidacta, que un centro utiliza para preparar a los examinadores que
no pueden asistir a las sesiones de form ación. El fin de sem ana de expresión
escrita parece facilitar un buen ambiente para discutir los criterios de puntua
ción y para discutir y volver a discutir ejercicios escritos que no se adaptan con
facilidad a ninguno de los puntos de las escalas de clasificación: si los correcto
res no tienen que viajar y no tienen que preocuparse de las presiones dom ésti
cas, pueden concentrarse en la corrección por completo. El manual de formación
autodidacta podría ser una buena idea en países en los que viajar resulta difícil
y en donde el tribunal de exámenes sólo tiene la opción de facilitar formación
a distancia. Sin em bargo, sería im portante conocer m ejor cóm o funciona el
manual de formación y cóm o decide el centro que un exam inador está capaci
tado antes de poder recomendar esta práctica.
Un punto final: los materiales facilitados por algunos tribunales para ayudar
a los profesores a comprender cóm o se evalúan la expresión oral y la expresión
escrita eran m uy interesantes. Sería útil que todos los centros ofrecieran cintas
de vídeo (o casetes) que ilustraran los criterios que utilizan para evaluar con
ejemplos de los distintos niveles de actuación lingüística. Es especialmente útil
que estas grabaciones vayan acompañadas de las puntuaciones que daría el exa
m inador jefe a las actuaciones, junto con notas explicativas de las razones.
Existe siem pre el peligro de que capítulos com o este, que describen el pro
ceso que ha de seguirse para llegar a un objetivo final, sean considerados dem a
siado prescriptivos o poco prácticos. Está claro que cada institución tiene sus
limitaciones y que a m enudo es necesario llegar a situaciones de com prom iso.
No insistiremos en que todos los pasos del proceso descrito se sigan al pie de la
letra, pero sí insistiremos en que hay que hacer ciertas cosas para garantizar que
los exam inadores estén bien preparados. Entre éstas se cuentan las siguientes:
La institución debe tener un programa de formación de algún üpo. Las institu
ciones no deberían suponer jamás que las plantillas de corrección y las escalas de
valoración son perfectas o que los examinadores pueden aplicarlas sin practicar.
Las instituciones deben prever un período de tiem po razonable para la for
m ación, especialmente si los exam inadores se forman por prim era vez. N o es
posible hacer una form ación com pleta de los exam inadores de la expresión
escrita o de la expresión oral en un par de horas.
124
Sumario
Las instituciones deberían facilitar fotocopias de los escritos que se van a dis
cutir para que los examinadores puedan hacer sus anotaciones y puedan guar
darlas para una futura consulta.
Los exam inadores deben tener la oportunidad de tomar sus propias decisio
nes y discutirlas con otros examinadores y con el examinador jefe o con el jefe
de equipo. Debe evitarse que el EJ o el jefe de equipo simplemente expliquen
lo que debe hacerse.
Las instituciones deberían tener una política sobre el grado de acuerdo que
esperan de sus exam inadores y debería haber algún m odelo definido que los
examinadores deban conseguir antes de que se les permita examinar en serio.
5.8. Sumario
Una plantilla de corrección o una escala de valoración debe estar diseñada de
forma apropiada para las tareas que se van a pedir a los candidatos.
Antes de la formación, el examinador jefe debe fijar los criterios aplicando el
esquem a o la escala a una muestra de exámenes o actuaciones. Si fuera necesa
rio, debería m odificarse el esquem a o la escala a partir de este ensayo.
El EJ debería seleccionar ejercicios escritos o actuaciones adecuadas para el
program a de formación.
Deben seleccionarse examinadores experimentados y cualificados.
En la sesión de unificación de criterios, deben tenerse en cuenta los ejercicios
escritos o las actuaciones consensuadas y las problemáticas, y se debe llegar a
un acuerdo sobre la forma de aplicar las plantillas o escalas.
Los examinadores que actúan de form a poco satisfactoria durante la form a
ción deben volverse a formar o ser rechazados.
Si es necesario, las plantillas o escalas y las directrices para su aplicación debe
rían revisarse a partir de la sesión de unificación de criterios antes de utilizarse
«e n serio».
Para las pruebas de expresión oral, las actuaciones que se graben para ser uti
lizadas en la form ación se compilarán en una única cinta.
En la reunión de formación para la expresión oral, se garantizará la visión y audi
ción de las cintas. Cuando esto no sea posible, se organizarán actuaciones en directo.
Los exam inadores de la expresión oral necesitarán consejos prácticos sobre
cóm o sentarse y qué hacer con sus papeles y deberían disponer de instruccio
nes por escrito antes del examen.
Debería organizarse una form ación específica para los interlocutores y tam
bién para los exam inadores si no sólo van a evaluar sino también a conversar
con el candidato. Esta form ación debería capacitar a los interlocutores y a los
exam inadores para conseguir la actuación oral apropiada.
También los que administrarán la prueba tienen que ser preparados para saber
cuáles son sus cometidos.
En las pruebas de com prensión oral, deberá com probarse que el aula o las
aulas tengan la capacidad y la acústica adecuada, la existencia y el estado de cual-
125
La form ación de exam inadores y adm inistradores
quier equipam iento especial que sea necesario y tam bién debería hacerse un
ensayo previo. Si la prueba debe administrarse en directo y no utilizando una
grabación, el conferenciante o conferenciantes necesitan formación e instruc
ciones claras por escrito que expliquen qué hacer y cuándo hacerlo.
Bibliografía
Mathews, J. C. (1985). Examinations: A Commentary. George Alien and Unwin, Londres.
126
6 La supervisión de la fiabilidad
de los examinadores
127
La supervisión de la fiabilidad de los exam inadores
128
Corrección centralizada
dinado por el examinador jefe. Si hay más candidatos, puede haber varios equi
pos, cada uno coordinado por el jefe de equipo. Todos los jefes de equipo
habrán sido coordinados por el examinador jefe y ellos habrán coordinado a los
m iem bros de sus equipos (véase capítulo 5). Cada equipo corregirá en su zona
de la sala de corrección o en una sala separada. Esto permitirá al jefe de equipo
supervisar toda la corrección de forma eficaz y facilitará a los correctores la dis
cusión de problem as de corrección tal com o vayan surgiendo.
Los exam inadores deberían corregir según su preparación, deberían tener
especial cuidado en no escribir comentario alguno sobre el ejercicio escrito y
deberían anotar sus resultados en las hojas de puntuación diseñadas al efecto.
Algunos tribunales de exámenes piden a los examinadores que anoten sus pun
tuaciones delante o detrás del pliego de examen, pero no recom endam os esta
práctica en absoluto, puesto que incita a los otros examinadores, jefes de equipo
o «segund os correctores» (véase sección 2.3 más adelante) a mirar la puntua
ción escrita antes de dar la suya propia.
El procedim iento de m uestreo debería comenzar justo después de que
empiece la corrección. Los párrafos siguientes explicarán los pasos del proceso.
(Nótese que en esta explicación y en las otras de este capítulo supondremos que
el coordinador de corrección es un jefe de equipo.)
Cada examinador debe corregir un cierto número de ejercicios durante el pri
mer día de corrección. El jefe de equipo recoge un número de ejercicios puntua
dos por el examinador (a menudo 1 o 2 ejercicios de cada 10) y los lee otra vez
para dar una puntuación independiente. (Esto se llama «puntuación a ciegas»,
porque el jefe de equipo no debería conocer las notas del examinador mientras
está puntuando). Si las puntuaciones del jefe de equipo están de acuerdo con las
del examinador, se permite que el examinador continúe corrigiendo. Si, por el
contrario, las puntuaciones del jefe de equipo no están de acuerdo con las del exa
m inador y las diferencias son serias (por ejemplo, una diferencia de más de un
punto en una escala de 1 al 5), el jefe de equipo discute la situación con el exa
minador. El objetivo de la discusión es el de reducir las diferencias de opinión
entre las dos partes, por lo que debe haber una lectura exhaustiva de los ejercicios
problemáticos y de la escala de puntuación. Ocasionalmente el examinador con
vencerá al jefe de equipo para que reconsidere su decisión, pero en instituciones
en las que se lleva a cabo un muestreo se suele asumir que el jefe de equipo tiene
razón y al final es el examinador el que debe modificar su puntuación.
El proceso de m uestreo debería continuar a lo largo de todo el periodo de
puntuación, aún cuando el jefe de equipo se sienta seguro de que los examina
dores están corrigiendo bien. Una de las causas más comunes de ausencia de
fiabilidad en la corrección es la autocomplacencia, pero afortunadamente es tam
bién una de las m ás fáciles de prevenir.
129
La supervisión de la fiabilidad de los exam inadores
130
Corrección centralizada
131
La supervisión de la fiabilidad de los exam inadores
132
Alternativas cuando la corrección se lleva a cabo fuera del centro de exámenes
133
La supervisión de la fiabilidad de los exam inadores
134
Estudio sobre los tribunales de exámenes de inglés...
resolvían los conflictos entre exam inadores y qué tipos de estadísticas utiliza
ban para investigar la fiabilidad de la corrección de sus exámenes.
PREGUNTA 3 7 : Una vez empezada la corrección, ¿se lleva a cabo la doble corrección de algunos ejer
cicios? En el caso de respuesta afirmativa, ¿qué proporción de ejercicios?
Cuando redactamos esta pregunta presum imos que los tribunales de exáme
nes intentarían mejorar la fiabilidad de las correcciones subjetivas utilizando dos
examinadores para corregir cada ejercicio y quizá cada actuación oral. Descubri
m os, sin embargo, que sólo tres tribunales utilizaban este sistema: un tribunal
dijo que llevaba a cabo una doble corrección de todas las pruebas de expresión
escrita en su único examen de inglés como lengua extranjera, otro respondió que
utilizaba la doble corrección en m uchos de sus exámenes, y otro que llevaba a
cabo la doble corrección de las actuaciones orales en el nivel más avanzado.
Otros seis tribunales parecieron interpretar «doble corrección» en la fo rm a
que nosotros utilizamos «corrección de m uestreo» anteriormente: informaron
que en algún punto durante el proceso de corrección el exam inador jefe, o el
jefe de equipo analizaba un porcentaje de los ejercicios corregidos por un exa
m inador cualquiera. Algunos tribunales no dijeron cuántos ejercicios se anali
zaban de esta m anera; otros dijeron que analizaban un 10 o un 15 por ciento
de los exámenes correspondientes a cada examinador. Un tribunal dijo que sólo
llevaba a cabo la doble corrección «a petición»: presumiblemente si un candi
dato o un centro de administración no estaba satisfecho con el resultado final y
pedía revisión de examen.
No quedó del todo daro cuándo tenía lugar d muestreo. Un centro respondió que:
Una muestra inicial de 10 a 15 ejercicios para cada parte (aproximadamente
un 10%) es supervisada por d examinador jefe y d examinador adjunto. Si
hay motivo de preocupadón, se tienen en cuenta más ejerddos. Si es
necesario, se vuelve a corregir desde cero.
Esto indica que los ejerdcios escritos son com probados por un examinador
veterano sólo al comienzo d d proceso de correcdón, cuando los examinadores
están frescos y se comportan según la norma. Sólo aquellos examinadores que
no actúan de form a satisfactoria en este estadio se vuelven a supervisar. Parece
arriesgado perm itir a los examinadores corregir durante tanto tiempo ( d resto
del periodo de corrección) sin algún tipo de evaluación de su trabajo, puesto
que hay muchas presiones que pueden rebajar su nivel de atendón y hacerles
corregir peor de lo que debieran. Sin em bargo, al m enos un tribunal continúa
analizando muestras a lo largo de todo el periodo de corrección:
Se analizan muestras de los ejerddos escritos de todos los examinadores al
prindpio, en la mitad y al final d d proceso de corrección. Al final los
examinadores se someten a corrdaciones estadísticas y empíricas. Esto puede
originar una nueva correcdón de los ejerd dos que han sido corregidos por
malos examinadores (que no se volverán a contratar) o un escalonamiento de
los examinadores demasiado exigentes o demasiado benévolos.
135
La supervisión de la fiabilidad de los exam inadores
(Para una breve explicación del término «escalonam iento» véase la pregunta
41 m ás adelante.)
Es importante hacer notar en este punto que la mayoría de los tribunales que
respondieron a la pregunta sobre la doble corrección hacían referencia a sus exá
menes escritos, quizá porque nuestra pregunta mencionaba «ejercicios escritos».
Sólo cuatro mencionaron pruebas orales. Un tribunal mencionó que grababan
todas las actuaciones orales del nivel superior y que éstas eran corregidas por dos
examinadores, y por m ás en casos de desacuerdo. Una respuesta de otro centro
mencionaba que a menudo usaban interlocutores y examinadores en algunas de
sus pruebas, y que los interlocutores podían contribuir a la evaluación (aunque
en caso de diferencias de opinión entre el interlocutor y el examinador, el punto
de vista del examinador prevalecía sobre el del interlocutor). Otros dos tribuna
les que administran pruebas orales respondieron que la doble corrección «no pro
cedía», aunque am bos se refirieron al «m uestreo» o a la «supervisión» en sus
respuestas a la pregunta 41. Sabemos pues m uy poco sobre los procedimientos
que se utilizan en la mayor parte de los tribunales para garantizar que sus exam i
nadores de expresión oral mantengan sus criterios de forma consistente.
PREGUNTA 38: ¿Qué ocurre en caso de discrepancia entre el primero y el segundo corrector? Mar
que los apropiados:
1. Se llama a un tercer corrector, y se utilizan las dos puntuaciones más cercanas.
2. Se hace media entre las dos puntuaciones.
3. Se respeta la puntuación de1 segundo corrector.
4. Los dos correctores discuten y llegan a un acuerdo.
5. Otros.
Los tribunales que afirmaron utilizar la «doble corrección» en el sentido que
nosotros lo entendíamos —es decir, utilizando dos examinadores independien
tes para corregir cada ejercicio o actuación—tenían diferentes formas de llegar
a una puntuación final cuando los dos examinadores no estaban de acuerdo. La
práctica de pedir a los dos examinadores que discutieran y llegaran a un acuerdo
la llevaba a cabo un tribunal, pero dos dijeron que en algunos de sus exámenes
esta decisión se dejaba al jefe de equipo o al examinador jefe. El cuarto tribunal
dijo que el proceso no acababa aquí necesariamente. Si la decisión del exam i
nador jefe no era satisfactoria, se podía llamar a los examinadores de otros equi
pos para que diera su opinión: «y algunos candidatos han tenido el privilegio
de tener hasta nueve correcciones antes de tomar una decisión».
Los tribunales que usaban el m étodo del m uestreo dijeron que se respetaba
la opinión del segundo corrector. Este corrector era un exam inador veterano
(examinador jefe o jefe de equipo) en todos los casos.
136
Estudio sobre los tribunales de exámenes de in g lés...
PREGUNTA 4 0 : ¿Se calculan habitualmente las medias y las desviaciones típicas de los correctores?
Ocho tribunales dijeron que calculaban las m edias y las desviaciones típicas
habitualmente; dos dijeron que sólo lo hacían en ocasiones. Otros dos dijeron
que esto no procedía con su examen o bien porque «el examinador jefe corrige
todos los ejercicios escritos» o bien porque el examen era de«evaluación oral».
De nuevo encontram os curioso el núm ero de tribunales que dicen llevar a
cabo estos cálculos porque no sabemos qué medias se comparan y no tenemos
evidencia de los resultados de estos cálculos.
PREGUNTA 4 1 : ¿Se sigue habitualmente otro proceso para calcular o comprobar la fiabilidad de los
correctores?
Varios tribunales se refirieron a su proceso de formación y muestreo, que ya
hemos comentado en el capítulo 5; otros mencionaron nuevos procedimientos.
Dos tribunales se refirieron al procedimiento llamado «escalonamiento»; un tri
bunal de exámenes «subirá» (ajustará la puntuación dada a) los ejercicios escri
tos que han sido corregidos por alguien que resulta ser demasiado estricto, y
«b ajará» los ejercicios corregidos por examinadores demasiado benevolentes.
Suponem os que los tribunales deciden sobre la dirección y el grado de escalo
namiento analizando las m edias y las desviaciones típicas de sus examinadores,
pero no está claro con quién comparan a cada examinador ni cómo se hace el
«escalonam iento».
El problema del escalonamiento es que puede haber una tendencia a creer que
la fiabilidad de la corrección se ha obtenido porque los resultados de los exa
m inadores se han ajustado para «com pensar discrepancias». Sin em bargo, el
escalonamiento puede en realidad empeorar los problemas; a no ser que los exa
minadores que han demostrado no tener fiabilidad extem a sean examinadores
con fiabilidad interna com probada —cosa harto difícil—la m odificación de los
resultados de los candidatos puede resultar menos, y no más, justa todavía. En
resumen, la corrección y la precisión del escalonamiento están puestas en duda
y los responsables de los exámenes deberían al menos comprobar que al menos
el escalonamiento consigue lo que se pretende. Es m ejor, creemos, asegurar la
fiabilidad de los examinadores de la forma descrita más arriba.
Otros procedim ientos utilizados incluían inform es sobre cada exam inador
recogidos por el examinador jefe (confidenciales para el centro), y la «repeti
137
La supervisión de la fiabilidad de los exam inadores
138
Estudio sobre los tribunales de exámenes de in g lés...
3. Muestreo complementario
El examinador jefe puede pedir más muestras de los ejercicios corregidos por el
examinador adjunto «para comprobar que están de acuerdo con el criterio
establecido». Al final del periodo de corrección, el examinador jefe debería
escribir un informe sobre el comportamiento de los examinadores adjuntos cuyo
trabajo ha sido comprobado, por ejemplo:
a. Corrección satisfactoria. Reutilizar para pruebas futuras.
b. Corrección inicial ligeramente irregular, pero se hicieron los ajustes
adecuados, por lo que el examinador adjunto puede volverse a utilizar para
pruebas futuras.
c. Este examinador adjunto no pudo adaptar su corrección a los criterios
requeridos. No se volverá a utilizar.
Hay varias características positivas en esta descripción, como son que el exa
minador jefe compruebe las correcciones una vez modificadas por el examinador
y que el tribunal guarde la información sobre qué examinadores deberían volver
a corregir en el futuro. Sin embargo, hay varios puntos que hay que aclarar:
1. ¿Por qué es el examinador quien selecciona los ejercicios escritos que van
a ser com probados, y no m anda el paquete entero al exam inador jefe
dejándole así escoger qué ejercicios corregirá? Com o dijim os anterior
mente, pedir al examinador que escoja los ejercicios puede provocar que
la muestra enviada esté corregida más cuidadosamente que el resto.
2. ¿Por qué no se continúa solicitando m uestras a todos los correctores
durante todo el periodo de corrección? Si los examinadores no se «m an
tienen en alerta», la complacencia puede hacer acto de presencia.
3. ¿Cómo decide el examinador jefe que el examinador no está corrigiendo
suficientemente bien? No se mencionan los procedimientos que utiliza el
tribunal o los resultados que considerarán com o evidencia de fiabilidad
o no fiabilidad.
4. ¿Qué ocurre con los ejercicios corregidos por un examinador que no pudo
«ajustarse al criterio requerido»? Algunos tribunales afirman que vuelven
a corregir todos los ejercicios de un examinador que ha demostrado ser
poco fiable; suponem os que esto ocurre en esos tribunales pero no lo
sabem os a ciencia cierta.
El folleto del AEB How to set and mark GCE examinations (Cómo administrar y corregir los
exámenes de GCE) presenta un procedimiento que es muy similar al de la LCCI, pero
sugiere que todos los ejercicios escritos de los exam inadores se someten a un
muestreo durante el periodo de corrección y afirma de forma explícita que se
volverán a corregir todos los ejercicios escritos si ello es necesario (página 12).
El AEB también da detalles sobre lo que ocurre al final del periodo de correc
ción com o una comprobación complementaria de la fiabilidad de la corrección.
Aunque este procedimiento no es pertinente en exámenes de inglés como len
gua extranjera (el AEB ya no produce este tipo de exam en), suponem os que se
139
La supervisión de la fiabilidad de los exam inadores
140
Estudio sobre los tribunales de exámenes de in g lés...
Los aspectos en esta descripción que vale la pena señalar son que el muestreo
es continuo para cada profesor incluso una vez finalizada la corrección y que se
utiliza información estadística que sirva de ayuda en el proceso de toma de deci
siones. Por desgracia, no sabemos qué tipo de información se utiliza. UCLES tam
bién describe su proceso de supervisión para el FCE y el CPE en el General Handbook
(Manual General). Es importante señalar que en el proceso seguido por UCLES no
parece haber una división clara entre formación y supervisión: el examinador
recibe una muestra de ejercicios escritos para su formación al mismo tiempo que
recibe el primer paquete de «ejercicios de verdad», y debe devolverlos al mismo
tiempo. Aunque este sistema es sin duda rápido si el examinador corrige bien la
muestra de ejercicios, debe de ser difícil decidir qué hacer si estos ejercicios dan
problemas. No se dan detalles sobre lo que ocurre en estos casos.
Hay que señalar que ninguno de los tres informes menciona los procedimientos
estadísticos utilizados para tomar decisiones sobre la fiabilidad de la corrección.
Resulta alentador saber que este tribunal lleva a cabo tanta doble corrección
y que también se pide una tercera opinión en caso de discrepancias. Es curioso,
sin embargo, que el examen de nivel inferior es corregido por sólo un exam i
nador, excepto en el caso en que la nota del prim er exam inador esté cerca del
límite entre dos puntuaciones.
141
La supervisión de la fiabilidad de los exam inadores
E n c o n tr a m o s s ó lo o tr a re fe re n c ia a p r o c e d im ie n to s d e s u p e r v is ió n e n lo s d o c u
m e n t o s q u e r e c i b i m o s d e l o s c e n t r o s . L C C I e n s u f o lle t o Languages for Industry and Com
merce: Oral Examinations. Syllabus Booklet, Regulations and Teacher's Guide, 1 9 9 0 - 1 9 9 2 (Lenguas
para Ja Industria y el Comercio: exámenes orales. Folleto de descripción, normativa y libro del profesor,
1 9 9 0 —1 9 9 2 ) , d i c e l o s i g u i e n t e a c e r c a d e la s p r u e b a s d e e x p r e s i ó n o r a l:
Los coordinadores actúan como examinadores jefes para el grupo y son los
responsables de la supervisión de todos los examinadores de su grupo y les
observarán durante la administración de los exámenes para mantener la
formación y los criterios (página 41).
6.7. Debate
Es clara la importancia que tiene la supervisión de la corrección de una prueba
para que pueda hablarse de la fiabilidad del resultado. La form a m ás corriente
de hacer esto por parte de los tribunales de exámenes es sacando muestras de
las puntuaciones de los examinadores y pidiendo ajustes si la corrección no es
satisfactoria. En los exámenes con gran núm ero de candidatos, el m uestreo lo
llevan a cabo los jefes de equipo, cuyas decisiones no se cuestionan; en algunos
exámenes, sin em bargo, las correcciones de los jefes de equipo las supervisa a
través de un m uestreo el examinador jefe, cuya decisión es definitiva.
Sólo unos cuantos tribunales de exámenes ofrecieron detalles de sus proce
dim ientos de m uestreo. Las descripciones que dieron fueron útiles, pero hay
algunas cuestiones que deben clarificarse:
142
Sum ario
6.8 Sumario
Presentamos a continuación una serie de cuestiones que deberían plantearse las
instituciones cuando organizan la supervisión de la fiabilidad de sus examina
dores:
¿Se han dividido los exam inadores por equipos y está claro quién es el jefe
de cada equipo?
¿Se ha entregado a los examinadores la última versión de la plantilla de correc
ción o de las escalas de valoración que incorporan clarificaciones y otras mejo
ras acordadas durante la formación?
¿Se ha recordado a los examinadores que no deben escribir en los ejercicios
escritos de los candidatos?
¿Se ha acordado un sistema de supervisión de correctores? ¿Se hará un mues-
treo, se utilizarán ejercicios escritos de fiabilidad o se llevará a cabo la doble
corrección?
Si la supervisión se va a hacer mediante muestreo, ¿se ha informado a todos
sobre los detalles del sistema?
¿Qué porcentaje de los ejercicios corregidos por cada examinador analizará
el jefe de equipo?
¿Qué opinión prevalecerá si la evaluación de un ejercicio por parte del jefe
de equipo difiere de la del examinador?
¿Se llevará a cabo el m uestreo al comienzo del proceso de corrección o con
tinuará a lo largo de todo el proceso?
¿Volverá a analizar el jefe de equipo los ejercicios que haya tenido que vol
ver a corregir un examinador?
Si la supervisión se va a efectuar mediante «ejercicios escritos de fiabilidad»,
¿se ha inform ado a todos sobre los detalles del sistema?
143
La supervisión de la fiabilidad de los exam inadores
¿Se han dado a los ejercicios escritos que se utilizarán para estudiar la fiabili
dad una «pu n tuación de con sen so» por parte del exam inador jefe y de la
com isión de unificación de criterios?
¿Se han hecho las suficientes fotocopias de los ejercicios escritos para que
todos los equipos puedan realizar el procedim iento de fiabilidad al m ism o
tiempo?
¿Se ha tom ado una decisión sobre qué nivel de correlación indica una fiabi
lidad aceptable entre correctores?
¿Saben los jefes de equipo cóm o calcular las correlaciones para poder infor
m ar a sus examinadores tan pronto como termine el estudio de la fiabilidad?
Si la supervisión se va a realizar mediante la doble corrección, ¿se ha infor
mado a todos sobre los detalles del sistema?
¿Se ha tom ado una decisión sobre la amplitud de las discrepancias que debe
existir entre dos examinadores antes de discutir sus puntuaciones respectivas?
¿Se ha tom ado una decisión sobre lo que debe hacerse si ninguno de los dos
examinadores está dispuesto a cambiar sus puntuaciones?
¿Se ha creado un sistema para supervisar los exámenes orales? ¿Se grabará cada
actuación, o al m enos una muestra de las actuaciones?
Si hacia el final del proceso se descubre que un examinador no ha sido cohe
rente en sus correcciones, o ha sido demasiado generoso o estricto, ¿existe un
sistema para corregir las puntuaciones erróneas? ¿Si se utiliza el «escalona-
m iento», existe un sistema para decidir cuándo y cómo ponerlo en práctica?
¿Se guardarán informes completos para que los examinadores que no hayan
corregido bien no vuelvan a puntuar en el futuro?
¿Se pubhcará de alguna manera la inform ación obtenida durante el proceso
de supervisión? Si no, ¿cóm o sabrán los usuarios del examen que la correc
ción ha sido fiable?
Bibliografia
Crocker, L. y J. A lgina (1 9 8 6 ). Introduction to Classical and Modem Test Theory. H olt R inehart
W in ston , C hicago.
G uilford, J. P. y B. F ru ch ter (1 9 7 8 ). Fundamental Statistics in Psychology and Education.
M cG raw -H ill, Tokio.
144
7 Informe de resultados y determinación
de la puntuación de aprobado
En este capítulo se tratan las cuestiones que se han de considerar una vez se ha
corregido el exam en. Se deberán tom ar decisiones sobre si sim plem ente se
suman los diferentes resultados para llegar a una puntuación total para la prueba,
o si se da a unos ítem s m ás im portancia que a otros. Los responsables de la
prueba deben decidir de qué manera informarán de los resultados, y a menudo
también deben decidir qué candidatos se han comportado de forma adecuada,
desde el punto de vista lingüístico, y por lo tanto han superado la prueba, y cuá
les han suspendido.
7.1. Resultados
Una vez se han corregido las pruebas, será posible calcular algún tipo de resul
tado para cada candidato. Si la prueba tiene secciones de corrección objetiva
(por ejem plo, ejercicios de respuesta de opción múltiple o de reconocimiento
del error), se habrá adjudicado un punto si la respuesta ha sido correcta y un 0
si la respuesta ha sido incorrecta. Estas puntuaciones pueden sumarse para lle
gar a un total para cada sección de la prueba o a un total global para toda la
prueba, o pueden hacerse ambas cosas. Si la prueba se corrige de forma subje
tiva, se pueden dar puntuaciones globales o analíticas (véase capítulos 5 y 6) a
las actuaciones lingüísticas de toda la prueba o de algunas tareas en particular.
En este último caso, las puntuaciones pueden sumarse para llegar a la puntua
ción global del examen.
A veces, los resultados de las pruebas objetivas se m odifican para paliar los
efectos de un acierto por azar. En tales casos, el resultado obtenido por el estu
diante se ajusta deduciendo un porcentaje calculado a partir de las posibilida
des de acertar el ítem por azar. En una prueba de verdadero/falso, en la que las
posibilidades de acertar la respuesta correcta es del 50%, se puede esperar que
los estudiantes respondan correctamente a una pregunta por cada pregunta que
respondan incorrectamente, por lo que la modificación consistirá en la deduc
ción del núm ero de respuestas erróneas del núm ero de respuestas correctas. La
fórmula general es:
Respuestas erróneas
Resultado m odificado = Respuestas correctas — --------------------------------
Número de alternativas —1
145
Inform e de resultados y determ inación de la puntuación de aprobado
7.2. Ponderación
7 .2 .7 . Ponderación de los ítems
Los redactores de pruebas creen a m enudo que algunos ítems son m ás im por
tantes que otros y que tales ítem s deberían por lo tanto tener m ás peso en el
total de la prueba. Dar valor extra a algunos ítems se conoce com o «pondera
ción» (weighting). Sin em bargo, la ponderación diferenciada de ítems raramente
m ejora la fiabilidad o la validez.
Se da m ás peso a algunos ítems porque se cree que el completarlos requiere
m ayor com petencia o m ás conocim ientos, o porque requiere m ás tiem po, o
porque se cree que son m ás im portantes en el currículo o en el concepto de
dominio. Ebel, sin embargo, condena de forma taxativa la ponderación de ítems:
Si una prueba de aprovechamiento cubre dos áreas, una de las cuales se
considera el doble de importante que la otra, deberían redactarse el doble de
ítems sobre esta área más importante. Esto redundará en medidas más fiables y
válidas que si se presenta el mismo número de ítems para las dos áreas y los
que pertenecen a la parte más importante valen el doble.
Los ítems complejos o que necesitan de más tiempo para ser contestados
deberían, si es posible, producir más de una respuesta que pueda puntuarse de
forma independiente como correcta o incorrecta.
(Ebel, 1979: 199.)
146
Transform ación
Otra razón para la ponderación puede ser pedagógica: para enfatizar ante los
alumnos la importancia de algunas partes del currículo. Por ejemplo, puede ser
difícil producir ítems o tareas con un componente oral, pero los profesores pue
den considerar las destrezas orales como cruciales y por lo tanto dar m ás peso
a este componente aunque no esté en proporción al número de ítems.
Otra razón para el distinto peso de distintos componentes puede ser el de ase
gurarse de que los candidatos utilicen su tiempo de forma adecuada cuando res
ponden a la prueba.
La relación entre las distintas secciones de una prueba según las correlaciones
existentes entre las mismas puede ser una consideración a tener en cuenta a la hora
de ponderarlas. Si distintas secciones de la prueba tienen una correlación alta entre
ellas, entonces el hecho de ponderarlas o no deja de ser un problema: la ponde
ración natural «n o ponderada» dará unos resultados tan válidos com o los que
resultarían de procedimientos estadísticos más complejos (Ebel, 1979: 252).
Si los componentes de una prueba no van a tener el mismo peso, normalmente
la prueba más fiable debería tener más peso. Si los componentes tienen la misma
fiabilidad, entonces se pueden usar de forma legítima juicios sobre la importan
cia relativa: debería insistirse, sin embargo, en que estos son subjetivos.
Una correlación baja de una sección de una prueba con respecto a otras sec
ciones significa a m enudo que está midiendo algo distinto que las demás. Puede
darse más peso a esta parte para aumentar su contribución a la puntuación total.
Si las partes de distinta longitud tienen la misma ponderación, deberían pon
derarse los resultados técnicamente para que sus desviaciones típicas fueran igua
les (para una explicación y discusión detalladas, véase Ebel, 1979: 252—5). En
general, sin embargo, el m ejor consejo es no ponderar las secciones de acuerdo
con un ajuste de puntuaciones según una fórm ula, sino ponderarlas en el
m om ento de la elaboración de la prueba, incluyendo más o menos ítems en las
distintas partes.
7.3. Transformación
Si, a pesar de las diferencias de longitud, cada parte de la prueba se considera
igualmente importante, entonces será necesario transformar las puntuaciones
antes de sumarlas o compararlas. La forma más común de transformación es la
de convertir las puntuaciones de cada parte en porcentajes: dividiendo la pun
tuación por el núm ero de ítems y multiplicando por 100.
Hay form as m ás com plejas de transform ación de resultados (puntuaciones
según criterios, puntuaciones z y otras): se tratan en la mayoría de los libros de
texto sobre la evaluación en la educación y no se describirán aquí. Baste decir
que el efecto final de tales transformaciones es el de hacer comparables las pun
tuaciones de distintas secciones y, a m enudo, si se suman, conseguir que estén
ponderadas equitativamente.
Las decisiones sobre la transformación pueden suponer la comparación de la
actuación de un candidato dado en una sección de la prueba con su actuación
147
Informe de resultados y determinación de la puntuación de aprobado
en otra sección. Puede decidirse ajustar las puntuaciones de una parte a la luz
de las puntuaciones de otra. Por ejemplo, la puntuación de un candidato en la
prueba de expresión oral, corregida de form a subjetiva, puede ajustarse para
acercarla a la puntuación de esta m ism a persona en una prueba de comprensión
oral corregida de form a objetiva: esto podría justificarse si una prueba se con
sidera o se sabe que es m ás válida o fiable que otra. La justificación para trans
formar puntuaciones es a m enudo subjetiva y está influida por consideraciones
pedagógicas, psicométricas y de lingüística aplicada.
Puede ser importante saber si las partes de una prueba se han transformado
y cóm o ha ocurrido, puesto que afecta directamente a la puntuación final y por
lo tanto lo que ésta significa. Si, por ejemplo, la puntuación de una prueba de
expresión escrita con un valor m áxim o de 20 puntos se sum a a la puntuación
de una prueba de comprensión lectora con un valor m áxim o de 50 puntos para
llegar a una puntuación final m áxim a de 70, esta puntuación final contará cla
ramente con m ás puntos de lectura que de expresión escrita: en otras palabras,
la capacidad lectora de una persona tendrá más peso en la nota final que la capa
cidad de redactar, si las dos pruebas tienen una dificultad, fiabilidad y variabi
lidad equivalentes.
148
Las distintas puntuaciones
149
Inform e de resultados y determ inación de la puntuación de aprobado
IS O
La determ inación de las puntuaciones para aprobar
1S1
Inform e de resultados y determ inación de la puntuación de aprobado
152
La determ inación de las puntuaciones para aprobar
Nota
154
Estudio sobre los tribunales de exámenes de in g lés...
pues se hace lo m ism o para el resto de las puntuaciones (en este caso, C, B y A).
A continuación, un experto lee el prim er ítem de la prueba y decide si un
alumno flojo puede responderlo de forma adecuada. Si es así, se etiqueta el ítem
con una D. Si no, el experto decide si un alumno de nivel C puede responderlo
correctamente y etiqueta el ítem con una C. Se sigue este procedim iento para
todos los ítems de la prueba. Se cuenta el número de ítems que tienen una D y
el núm ero resultante representa la puntuación de corte para un alumno D. El
total de ítem s que tienen una C se sum a a la puntuación de corte para D y se
convierte en la puntuación de corte para C. Se siguen procedimientos similares
para obtener el resto de puntuaciones de corte, que deberán ajustarse a la baja
para compensar posibles errores de medición. Otros procedimientos para la fija
ción de criterios se describen en la bibhografia sobre la evaluación referida a un
criterio (véase por ejemplo Popham, 1990).
No hace falta decir que en estos procedimientos, y para aspirar a una validez
m ínim a, resulta im prescindible tener razones de peso para entender que los
expertos son tales, y estas razones deben ser explícitas. En la práctica, aunque
estos procedim ientos podrían llevarlos a cabo tribunales de exámenes im por
tantes, la decisión sobre las puntuaciones para aprobar se tom a a m enudo de
form a m ás arbitraria y se refiere - d e form a in apropiada- al porcentaje global
que se ha usado históricamente.
En resum en, el proceso de ponderación y de com binación de las notas por
ítem y por nivel para llegar a resultados adecuados puede ser complejo. Los pro
cedimientos que se utilicen dependerán en gran parte del objetivo de la prueba
y deberían reflejar lo que uno cree o, m ejor, lo que uno sabe sobre la natura
leza de la competencia lingüística y del aprendizaje de idiom as. Tomar decisio
nes sobre lo que se puede considerar aprobado o suspenso es igualm ente un
tema com plejo, y por este m otivo los elaboradores de pruebas tienden a evi
tarlo, dejando la decisión en m anos de instituciones y de usuarios para que
actúen de acuerdo con sus intereses. Sin embargo, cuando se espera que un exa
men facilite las decisiones de aprobado y suspenso, existen —aunque haya difi
cultades- form as de obtener puntuaciones de corte empírica y racionalmente,
o al m enos defendibles, y no de forma arbitraria o al azar.
A continuación veremos cómo toman tales decisiones los tribunales de exá
menes de inglés com o lengua extranjera en el Reino Unido.
155
Inform e de resultados y determ inación de la puntuación de aprobado
PREGUNTA 4 2 : ¿Se convocan reuniones (reuniones para decidir las notas, reuniones de examinado
res) antes de entregar los resultados? En caso de respuesta afirmativa, ¿cómo son estas reuniones?
La mitad de los centros que respondieron dijeron que existen esas reuniones,
llamadas «sesiones de resultados». En esta reunión, para citar a un tribunal,«se
determinan los límites entre puntuaciones, se revisan los casos límite y se ana
lizan los ejercicios escritos en los que algunos examinadores expertos tuvieron
dificultades o dudas».
Citando a otro tribunal: «Los examinadores tienen a su disposición durante
la reunión las estadísticas del año en curso y de años anteriores, los exámenes
del año en curso y los casos límite de años anteriores. Utilizando esta inform a
ción se determina el límite entre aprobado y suspenso, se revisan los casos límite
y se redacta un informe sobre la puntuación final». Tres tribunales se refirieron
al proceso de análisis de los «casos lím ite» como una «reconsideración del tra
bajo de todos los candidatos que están justo por encima o por debajo de cada
límite de puntuación». Debería mencionarse, sin embargo, que sólo cuatro tri
bunales describieron tal tipo de proceso.
Entre los tribunales que respondieron que no mantenían tal tipo de reunión,
uno respondió: «Se solían convocar, pero ahora se da una nota para cada des
treza», y otro respon dió: «L os exám enes pueden revisarse si se solicita. Los
correctores tienen instrucciones de corregir de nuevo los resultados que se hallan
en el límite y en caso de duda, someterlos a la consideración del tribunal para
que lo hagan llegar, si es necesario, al supervisor.»
El único examen de UCLES que no mantenía este tipo de reunión era el IELTS,
que no facilita puntuaciones de aprobado y suspenso (véase la discusión en los
apartados 7.4 y 7.6 más arriba). El resto de los exámenes de UCLES seguía pro
cedimientos parecidos a los m encionados anteriormente.
La pregunta 43 consultaba de forma explícita sobre los procedim ientos para
determinar el límite entre aprobado y suspenso, presuponiendo que el proceso
no necesariamente debía desarrollarse durante una reunión, sino que podían
hacerlo los responsables del examen posiblemente con un ordenador.
PREGUNTA 4 3 : ¿Se sigue algún procedimiento especial para decidir sobre los límites entre aprobado
y suspenso?
Tres cuartas partes de los tribunales que respondieron explicaron los proce
dimientos especiales que seguían para decidir las puntuaciones para aprobar. A
m enudo se parecían a los descritos, pero un tribunal añadió la siguiente infor
mación: «El informe sobre la puntuación final que se elabora después de la reu
nión incluye las discrepancias que pueda haber entre las puntuaciones para
aprobar del año en curso y las de años anteriores (teniendo en cuenta nuestra
rápida expansión y por lo tanto el cam bio en núm ero y en naturaleza de nues
tra población de can didatos).» Sólo tres tribunales hicieron referencia a esta
dísticas sobre la actuación de los candidatos en el examen del año en curso o de
años anteriores. El examinador jefe parece ser importante en este proceso para
al menos un tribunal.
156
Estudio sobre los tribunales de exámenes de in g lés...
Entre los tribunales que respon dieron negativam ente a la pregunta, uno
señaló que «se determinan los lím ites entre las distintas puntuaciones antes
del exam en ». D esconocem os cóm o pueden com pensar la dificultad inespe
rada de un examen.
La m ayoría de los exámenes de UCLES parecen seguir procedimientos espe
ciales a la hora de decidir los límites entre puntuaciones, pero sólo dos respon
sables detallaron sus respuestas:
Informes del examinador, datos sobre el nivel de los ítems, comparación con
actuaciones anteriores (FCE, CAE, CPE, Paper 4).
En cada prueba un candidato sólo puede suspender una tarea. Para aprobar el
examen, los candidatos deben aprobar todas las pruebas (CEIBT).
Esta última respuesta era el único caso en que las respuestas al cuestionario
hicieron referencia a las decisiones de aprobar o suspender a un nivel de sec
ciones de una prueba. Sin embargo, pudim os recoger información sobre estos
aspectos al analizar los docum entos que recibim os (véase apartado 7.10 más
adelante).
Las respuestas a estas dos preguntas fueron diversas y detalladas. Parece que es
habitual que los examinadores y los responsables de examen tengan reuniones
para discutir las puntuaciones para aprobar. Debido a que en el Reino Unido los
resultados de los exámenes de GCSE y de los niveles A reciben mucha publici
dad, en especial en lo que se refiere a los cambios de puntuación para aprobar
año tras año, y puesto que se comparan estos cambios entre los diferentes tribu
nales de exámenes —una de las pocas áreas que puede ser analizada por el gran
público- se presta mucha atención al mantenimiento de los criterios año tras año.
Otro tema es si los criterios son apropiados, que puede tratarse o no en las reu
niones m encionadas. Sin em bargo, es tranquilizador saber que parece que se
siguen los m ism os procedim ientos para los exám enes de inglés com o lengua
extranjera o inglés com o segunda lengua (que no forman parte del sistema de
los niveles A o del GCSE.) Los procedim ientos parecen combinar la evaluación
referida a una norm a y la evaluación referida a un criterio. Lo que no sabemos
con detalle es cómo se deciden exactamente las puntuaciones para aprobar: pode
m os sólo suponer que las personas implicadas en ello toman decisiones a partir
de la información que recogen con respecto a lo que constituye una actuación
adecuada. El tener muestras de actuaciones de las distintas puntuaciones facilita
obviamente el proceso y nos da m ás confianza en su validez. Para pruebas que
incluyen componentes orales esto es naturalmente más problemático.
La reunión de puntuación, cuando tiene a su disposición información sobre
la actuación en el año en curso, las estadísticas de años anteriores, las pruebas
de los candidatos y las pruebas límite de años anteriores, está en condiciones de
mantener los criterios constantes a través de los años, si podem os suponer que
la población que se presenta al exam en es constante en lo que se refiere a sus
capacidades y a su actuación. Sin embargo, esto no ocurre cuando la población
crece o disminuye o cuando se han introducido innovaciones en el formato de
157
Inform e de resultados y determ inación de la puntuación de aprobado
7.10.1. Ponderación
La mayoría de los centros de exámenes no dan demasiada información sobre la
ponderación de sus exámenes. La excepción son la Oxford Delegacy, el ARELS
Examinations Trust y UCLES.
Por ejemplo, Rationale, Regulations and Syllabuses incluye comentarios sobre la pon
deración de las distintas secciones de las pruebas de Oxford:
Excepto para la sección 1, el número preciso de puntos adjudicados varía de
examen a examen, para poder llevar a cabo los ajustes necesarios según el
trabajo que se requiere para cada sección. La proporción es en general:
Sección 1 33 a 35%
Sección 2 40 a 54%
Sección 3 11 a 15%
Sección 4 5 a 6%
Sección 5 5 a 6%
Las secciones 1 y 2 tienen el mayor número de puntos, pero los candidatos
cometen a menudo el error de no prestar la suficiente atención a las últimas
secciones, en las que todavía pueden ganar puntos.
(Rationale, Regulations and Syllabuses, sin fecha: 4)
El UCLES General Handbook (1 9 8 7 ) hace referencia a un «program a de investi
gación intensivo en el que se estableció la deseable ponderación relativa de los
elementos objetivos y subjetivos en la evaluación de la lengua hablada y escrita»
(1987: 3), pero no se dan m ás detalles sobre esta investigación. Sin em bargo,
se da información sobre cómo se calculan y combinan los resultados de las dife
rentes secciones de cada prueba. Se dice que los puntos fuertes y las lim itacio
nes de diversos form atos ampliamente aceptados se com pensan los unos con
los otros... Los resultados en las secciones de corrección objetiva, sección 1 y
sección 4, se correlacionan con los resultados obtenidos de form a m ás tradi
cional, por ejemplo, los obtenidos por la actuación en diversas tareas com uni
cativas» (1 9 8 7 : 3).
158
Estudio sobre los tribunales de exámenes de in g lés...
En efecto, tal com o hem os visto en el apartado 7.4 más arriba, lo que sucede
es que los resultados de las pruebas subjetivas se ajustan a la luz de las pruebas
objetivas «teniendo en cuenta cualquier variación entre exam inadores» o, en el
caso de la sección 5 (expresión oral), «cuando su contribución a la puntuación
total no coincide con la prevista a partir de la actuación del candidato en otras
partes» (1987: 4). En otras palabras, si un candidato obtiene muy buenos resul
tados en la prueba de expresión oral en comparación con su actuación en el resto
del examen, su resultado se ajustará probablemente a la baja.
El General Handbook da la siguiente información sobre lo que sucede después del
proceso de puntuación:
... las puntuaciones iniciales se convierten en «puntuaciones normalizadas»
calculando la media y la desviación típica de todas las puntuaciones otorgadas
por un examinador en concreto, ajustándolas para que se acerquen a la media
y a la desviación típica de las puntuaciones obtenidas por los candidatos en la
sección 1 [...] de modo que se minimice la subjetividad de la corrección [...]
La utilización de puntuaciones normalizadas tiene el efecto de reducir el
«agrupamiento» de resultados que se halla a menudo en la corrección de
redacciones y el de asegurar que muchos candidatos obtengan el máximo de
40 puntos (1987: 17).
El problem a de este enfoque es, naturalmente, que no perm ite que haya
demasiada diferencia entre las distintas capacidades de un candidato: si la actua
ción no «está en línea», se ajusta para que se acerque a la actuación en otras sec
ciones. N os gustaría haber encontrado m ás fundam entos, especialm ente del
programa de investigación citado, para esta práctica dudosa. Los ajustes pueden
hacerse para compensar la baja fiabilidad de la entrevista si se compara con las
otras partes de la prueba, pero esto tenderá a afectar a la validez. Sería más ade
cuado tratar el problem a de una baja fiabilidad con una m ejor form ación y
supervisión de los correctores.
En A Brief Guide. EFL Examinations and TEFL Schemes, se describe el PET como una
prueba con 100 puntos en la que se adjudica un 25% a cada componente (com
prensión de lectura, expresión escrita, comprensión oral y expresión oral). No se
dan razones para el uso de una ponderación de igualdad en este examen en vez
de la ponderación más complicada que se utiliza en el resto de exámenes de UCLES
descritos más arriba. No hay información disponible sobre actuaciones flojas en
un componente y cómo pueden compensarse por una buena actuación en otro.
159
Inform e de resultados y determ inación de la puntuación de aprobado
Además (en dos exám enes), «las notas que caen entre los m árgenes 45—49
después de este nuevo proceso de escrutinio darán al candidato la posibilidad
de un aprobado en un nivel inferior al que se ha presentado» (1987: 9).
Los siguientes comentarios adicionales provienen del Handbook of Duties for Exa
minen:
Se recomienda a los examinadores que no otorguen un aprobado, notable o
sobresaliente como resultado de la suma «mecánica» de notas. Cada prueba
debería juzgarse en última instancia como un todo: la plantilla de corrección
debe ayudar a juzgar, no a distorsionar el proceso. El criterio primordial de los
exámenes del tribunal es el criterio práctico de su utilidad. Nuestros exámenes
evalúan con referencia a un criterio, por lo tanto no con referencia a una
norma: aprobamos a los que merecen aprobar (y suspendemos a los que
merecen suspender), independientemente de los resultados estadísticos.
160
Debate
Este candor es admirable: sin embargo, no explica cómo el LCCI puede con
fiar en que sus notas para aprobar sean las apropiadas, a pesar de sus afirm a
ciones, sin información sobre la fiabilidad y validez de los juicios emitidos por
sus examinadores.
7.11. Debate
La práctica en lo que se refiere a las explicaciones facilitadas y a la publicación
de resultados y obtención de notas varía obviamente según los diferentes tri
bunales. Algunos dan bastantes detalles sobre cómo combinan, ponderan y trans-
/
161
Inform e de resultados y determ inación de la puntuación de aprobado
form an los resultados y llegan a las notas finales o a decisiones sobre quién
aprueba o suspende. Otros dan información que es poco adecuada.
Puesto que algunos tribunales se ven en condiciones de facilitar informes y
descripciones, no puede suponerse que el resto no lo haga por cuestiones de
seguridad.
El problema de decidir cuándo un candidato reúne las condiciones para apro
bar una prueba en particular es obviamente compleja y difícil. Depende en gran
parte del objetivo de la prueba, de la naturaleza de los candidatos, de la com
posición de la prueba, de su fiabilidad y de las consecuencias que se despren
derán para los candidatos: cuanto más importante sea la prueba, más importante
resulta garantizar que se tom an decisiones válidas y fiables. Enmascarar con
secretismo o misterio el proceso de toma de decisiones no es una respuesta ade
cuada al problema. Los elaborado res de las pruebas tienen el deber de informar
a los candidatos y a otros interesados sobre los procedimientos que han seguido
para garantizar que se mantengan los criterios y se tomen decisiones razonables,
y también para dar a la gente confianza sobre los propios criterios y su signifi
cado con respecto al propósito con el que se utilizarán.
Obviamente, la naturaleza de la información facilitada variará según la natu
raleza de las pruebas a las que se refieran, pero no debería ser difícil, largo ni
costoso para los elaboradores de pruebas el facilitar información estándar sobre
los procedim ientos que siguen y los resultados estadísticos de sus exámenes.
Tal inform ación debería incluir inform es apropiados y fáciles de entender
sobre los resultados, con una descripción clara y precisa sobre la actuación en
la prueba. Debería también explicar el significado y las limitaciones de los resul
tados ofrecidos. También debería facilitarse información sobre cómo se llega a
la decisión de aprobar o suspender.
Una información adecuada podría incluir lo siguiente:
162
Sum ario
El Code of Fair Testing Practice in Education (véase capítulo 11), dice que los elabo-
radores de las pruebas deberían:
Facilitar informes de resultados adecuados y fácilmente comprensibles, que
describan la actuación en la prueba de forma clara y precisa. También explicar
el significado y las limitaciones de los resultados publicados (Punto 9,
Elaboradores de pruebas).
Facilitar información que ayude a los usuarios a seguir los procedimientos
razonables para la fijación de la nota para aprobar... (Punto 12, Elaboradores
de pruebas).
7.12. Sumario
Una vez se ha puntuado la prueba, los responsables de la m isma deben tener en
cuenta una serie de aspectos. Algunas de estas decisiones se habrán tomado en el
momento de la redacción de las especificaciones de la prueba o en el momento
de la redacción de la prueba misma. Pueden, sin embargo, revisarse y m odifi
carse después de la corrección, antes de la publicación de los resultados.
¿Se dará la m isma puntuación a cada ítem, o se darán más puntos a unos ítems
que a otros? ¿Superan los inconvenientes de hacer esto último a las ventajas prác
ticas de utilizar una puntuación uniforme?
¿Cómo se sumarán las notas de cada ítem? ¿Se requieren notas para cada can
didato en cada prueba, o en las secciones de cada prueba?
¿Se ajustarán los resultados de algunas secciones según la actuación en otras
secciones? ¿Se ponderarán las distintas secciones de forma diferente? ¿Cómo?
¿Cómo se publicarán los resultados? ¿Se transformarán en una letra como cali
ficación final o se darán en forma de porcentaje? ¿Se facilitará un perfil de los
resultados, en letras, bandas o números? ¿Se dará una nota total final?
¿Se facilitará sólo urna nota de aprobado o suspenso? ¿Se puede aprobar o sus
pender cada parte o sólo se tendrá en cuenta todo el examen?
163
Inform e de resultados y determ inación de la puntuación de aprobado
Bibliografía
Ebel, R. L. (1979). Essentials of Educational Measurement. 3* edición, Prentice-Hall,
Englewood Cliffs, NJ.
Ebel, R. L. y D. A. Frisbie (1991). Essentials of Educational Measurement. 5* edición,
Prentice-Hall, Englewood Cliffs, NJ.
Ingram, E. (1977). «Basic Concepts in Testing.» En J. P. B. Allen y A. Davies (eds.),
Testing and Experimental Methods. Oxford University Press, Oxford.
Joint Committee on Testing Practices (1988). Code of Fair Testing Practices in Education.
American Psychological Association, Washington, DC.
Nevo, D. y E. Shohamy (1986). «Evaluation Standards for the Assessment o f
Alternative Testing Methods: an Application.» Studies in Educational Evaluation, 12,
págs. 149-158.
Popharn, W. J. (1990). Modem Educational Measurement: A Practitioner's Perspective. 21 edición,
Allyn and Bacon, Boston, Mass.
164
8 La validación
165
La validación
166
La validez interna
interna de una prueba, pero las tres más comunes son: la «validación aparente»,
que se obtiene recogiendo comentarios sobre el valor de una prueba entre per
sonas que no han colaborado directamente en su elaboración, como pueden ser
los alumnos y los administradores de la misma; la «validación de contenido»,
en la que los redactores o expertos en la materia juzgan la prueba, y la «valida
ción de respuesta» (Henning, 1987: 9 6 ), en la que se utilizan una serie de téc
nicas de apreciación cualitativa, tales como la introspección y la observación de
sí m ism os por parte de los candidatos para comprender cómo responden a los
ítems y por qué.
167
La validación
den hacerlo m ejor y responder a los ítem s de form a apropiada. En otras pala
bras, creemos que la validez aparente influye en la validez de respuesta de una
prueba.
Pueden recogerse datos sobre la validez aparente entrevistando a alumnos o
pidiéndoles que com pleten un cuestionario sobre sus actitudes, reacciones e
im presiones con respecto a una prueba que acaban de terminar o de analizar.
Los resultados pueden sumarse estadísticamente, si se quiere, para poder deter
minar la aceptabilidad de los ítems y de las distintas partes de la prueba.
168
La validez interna
Muy Muy
ORGANIZACIÓN simPle compleja
RETÓRICA 0 1 2
169
La validación
Lo que estos distintos enfoques tienen en com ún es, prim ero, que utilizan
como informadores a expertos en el cam po que se analiza y, segundo, que los
expertos reciben una lista o instrucciones precisas sobre los aspectos de la prueba
que se van a considerar.
Finalmente, una advertencia sobre la utilización de expertos. Durante mucho
tiempo se ha supuesto, con respecto a la evaluación de idiom as, que las op i
niones de los expertos son decisivas: lo único que hay que hacer es seleccionar
a las personas adecuadas y éstas producirán opiniones válidas. Desgraciadamente,
esto no siempre es así. Recientes investigaciones sobre la evaluación de idiomas
han em pezado a exam inar la naturaleza de los juicios em itidos por expertos
(véase Alderson, 1993). Reflexionando, no sorprende que a m enudo los exper
tos no coincidan en sus opiniones. Algunas veces sólo uno o dos tienen o p i
niones ampliamente divergentes, pero otras es m uy difícil entrever un consenso
entre ellos. Es interesante para los investigadores del m undo de la evaluación
constatar esta variedad en la em isión de juicios: sugiere que los aspectos que
hay que juzgar son mucho m enos claros, más controvertidos, quizá m ás com
plejos de lo que se pensó en un principio. Si se analiza tal com plejidad a fondo
surgen todo tipo de nuevos matices. Sin embargo, el responsable de una prueba
se encuentra ante un dilem a en tales circunstancias. Si los «e x p erto s» no se
ponen de acuerdo sobre lo que evalúa una prueba, ¿qué es en realidad lo que
ésta evalúa? Al contrario de un investigador, que puede perm itirse el lujo de
investigar este tema durante un tiempo, los responsables de una prueba necesi
tan información sobre la validez de sus instrumentos tan pronto como sea posi
ble. Si no se ha llegado a un acuerdo, ¿debería desecharse la prueba?
La respuesta a este dilema, creemos, se encuentra en el hecho de que la vali
dez de una prueba es más relativa que absoluta. Si los procedim ientos de vali
dación del contenido revelan problemas relacionados con la validez de contenido
de la prueba, se deben recoger otros tipos de evidencia de validez: validez
externa, validez aparente, validez de respuesta, y así sucesivam ente. A largo
plazo, podrían pedir que se investigara sobre el problema que se ha descubierto,
pero de momento no deben desesperarse. Más bien deben aceptar que en la eva
luación de idiom as, com o en otros m uchos aspectos, hay todavía m ucho que
desconocem os y hay que continuar a la búsqueda de la validez o m odificar su
prueba o las especificaciones de la m ism a a la luz de los desacuerdos.
Una form a de solucionar este dilem a, a la que m uchos se resistirían, sería
agrupar expertos que se sabe que coinciden habitualmente u organizado todo,
mediante un proceso de formación o de alguna otra manera, para que se m ini
mice el desacuerdo. A lo largo de este libro hem os señalado el valor que tiene
la form ación de exam inadores, de redactores de pruebas, de administradores.
Sin embargo, la formación de jueces expertos para fomentar o para asegurar un
acuerdo tiene sus riesgos: el riesgo de la clonación. Cuando se utiliza a exper
tos, es im portante utilizar a aquellos cuya opinión se respetará. Intentar cam
biar esta opinión por m edio de la formación, porque discrepe del resto, es sólo
cubrir el expediente y poner la fiabilidad por delante de la validez.
170
La validez interna
171
La validación
especialm ente los procesos m ás autom áticos relacionados con los procesos
lingüísticos de abajo a arriba (bottom-up), con ítems de gramática o de léxico o
con las pruebas de pronunciación o entonación. Sin em bargo, especialmente
para el tipo de pruebas en la que los candidatos deben ser conscientes de lo que
están haciendo —como en el caso de los exámenes de expresión escrita, por ejem
p lo - tales m étodos de recogida cualitativa de datos pueden facilitar información
m uy útil sobre lo que las pruebas evalúan en realidad.
Los tipos m ás com unes de validez externa son la validez concurrente y la validez
predictiva; la estadística utilizada con m ás frecuencia es el coeficiente de correla
ción (véase el capítulo 4 para una explicación del término «co rrelació n »). El
concepto de validez externa es quizá más fácil de comprender a través de la dis
cusión sobre validez concurrente.
172
La validez extem a
¿Cómo evaluaría a cada alumno sobre una escala del 1 al 5 para cada una de las siguientes destrezas:
gramática, expresión escrita, expresión oral, competencia lingüistica en general?
Etc.
173
La validación
Ejemplo 2:
¿Cómo evalúa su capacidad de usar la lengua francesa en las áreas siguientes? Por favor, dibuje un
círculo alrededor del número que mejor describe su capacidad.
LECTURA
No lo Justo Muy bien Casi
suficientemente para como un
bien para sobrevivir sobrevivir nativo
2 3 4 5 6 7
174
La validez extem a
175
La validación
nota ñnal refleja no sólo la capacidad lingüística sino también habilidades aca
démicas, conocimiento de las distintas materias, perseverancia, técnicas de estu
dio, capacidad de adaptación a la cultura y al contexto del país extranjero y
muchas otras variables.
Es posible utilizar otras medidas en vez de la puntuación final o la media de
las puntuaciones. Se podría intentar, por ejemplo, recoger las opiniones de los
que están en contacto habitual con los alumnos. El responsable de la validación
de la prueba puede pedir a los distintos profesores que evalúen a los alumnos
que han hecho la prueba sobre sus habilidades lingüísticas: su habilidad en expre
sión escrita, sus habilidades de comunicación oral... Sin embargo, aquí de nuevo
podem os encontramos con una muestra truncada. También nos encontraremos
con el problem a de que muchos profesores no son capaces de dar una opinión
útil sobre las habilidades lingüísticas de sus alumnos hasta el final del primer tri
mestre, cuando los alumnos ya han tenido oportunidades de sobra para mejorar
su capacidad lingüística (véase Criper y Davies, 1988, y Wall, Clapham y Alder-
son, 1994). Las correlaciones resultantes son m uy difíciles de interpretar.
Otro ejemplo de un estudio de validación predictiva puede ser la validación
de una prueba de competencia lingüística para alumnos que quieren ser profe
sores de la lengua en cuestión. En este ejem plo, tales alum nos deben pasar la
prueba antes de poder empezar las asignaturas de m etodología de su curso, en
las que necesitaran un alto nivel de competencia en la lengua extranjera. La vali
dez predictiva de la prueba supone realizar un seguimiento de los alumnos que
pasan la prueba y pedir a sus alumnos, sus com pañeros docentes y sus obser
vadores que los evalúen de acuerdo con su habilidad lingüística en clase. La vali
dez predictiva de la prueba sería la correlación entre los resultados de la prueba
y las evaluaciones de su habilidad lingüística en el aula.
En todas estas circunstancias no esperaríamos correlaciones altas entre la prueba
y la medida extema. En realidad, en los estudios de validez predictiva, es corriente
que los redactores de pruebas y los investigadores estén satisfechos con un coe
ficiente tan bajo com o + 0 ,3 . Sin embargo, la dificultad de llevar a cabo estudios
de validación predictiva no absuelve a los responsables de la prueba de la res
ponsabilidad de recoger datos para demostrar que sus pm ebas poseen un grado
de validez para el propósito para el cual están previstas y se utilizan.
A veces, la frontera entre la validez concurrente y la validez predictiva es muy
tenue. Por ejemplo, después de dar a los alumnos una prueba de nivel, los eva
luadores deberán intentar confirmar la validez de la prueba preguntando a los
profesores que tienen a estos alumnos en sus clases si se han colocado en la clase
adecuada. Los profesores deberán responder a esta pregunta durante la primera
semana de clase, antes de que los alumnos hayan tenido tiempo de mejorar, para
que la validación se considere concurrente y predictiva.
En muchas de las circunstancias en que se desarrollan las pmebas, es poco prác
tico, si no im posible, recoger datos externos sobre los candidatos a la prueba.
Puede resultar que la institución responsable de la pmeba no tenga control alguno
o acceso a los alumnos una vez se ha administrado la pm eba; puede ser que no
176
La validez de constructo
Una explicación más breve es la dada por Gronlund, 1985, para quien la vali
dación de constructo m ide «e n qué grado la actuación en una prueba puede
interpretarse como una medida significativa de alguna característica o cualidad»
(página 58).
177
La validación
es que todos ellos m idan algo distinto y por lo tanto contribuyan a la visión de
conjunto que se intenta obtener sobre la habilidad lingüística m ediante la
prueba, deberíam os suponer que las correlaciones serán bajas, posiblem ente
entre + 0 ,3 y + 0 ,5 . Si dos partes tienen una correlación m uy alta, digam os de
+ 0 ,9 , podrem os suponer que las dos partes de la prueba son en esencia lo
m ism o. Si este es el caso, podem os decidir desechar una de las dos. Las corre
laciones entre cada parte de la prueba y toda la prueba, por otra parte, se puede
suponer que serán más altas, al menos de acuerdo con la teoría clásica de la eva
luación, posiblemente alrededor de + 0 ,7 o más, puesto que la puntuación glo
bal se considera una m edida más general de la habilidad lingüística que la
obtenida en cada parte de la prueba. Obviamente, si la puntuación de este com
ponente se incluye en la puntuación global, la correlación será en parte la resul
tante entre este componente consigo m ism o, lo que aumentará la correlación
de forma artificial. Por este m otivo es habitual que en estudios de correlación
intema se correlacionen los componentes de una prueba con la puntuación glo
bal menos el componente en cuestión.
n = 2,443
Datos sacados de Alderson, Wall y Clapham, 1986.
178
La validez de constructo
179
La validación
dez d ivergente): los alum nos responden a la prueba experim ental al m ism o
tiempo que a las otras pruebas cuyas propiedades ya se conocen (com o se hace
en la validación concurrente). W ood, 1991, da una explicación m uy clara sobre
el análisis m ultirrasgo-m ultim étodo, y variaciones sobre este procedim iento
pueden verse en estudios realizados por Bachman y Palmer, 1981,1982.
180
Fiabilidad y validez
es en realidad buena o mala (véase Buck, 1989). Por otra parte, es posible admi
nistrar una prueba oral de pronunciación que sea válida, pero puede resultar
m uy difícil de corregir de forma fiable. Algunas personas argumentarán que la
fiabilidad debe sacrificarse en aras de la validez. Pero no podem os tener validez
sin fiabilidad. En la práctica, ni la validez ni la fiabilidad son valores absolutos:
hay grados de ambas y es habitual hablar de un com prom iso entre las dos: se
m axim iza una en detrimento de la otra. Lo que se decide m aximizar depende
del objetivo de la prueba y de las consecuencias para los candidatos que obten
gan un resultado inadecuado.
El análisis de las correlaciones entre partes de la prueba nos da un buen ejem
plo de los intereses divergentes de la fiabilidad y de la validez. D ijim os m ás
arriba que era en general m ejor obtener correlaciones bajas entre las distintas
partes de la prueba puesto que cada parte estaba allí para evaluar una destreza o
rasgo distinto. Sin embargo, lo que no mencionam os fue que cuanto más bajas
son las correlaciones, m enos hom ogéneos son los ítems de la prueba, y por lo
tanto más bajas son las correlaciones entre los ítems, y m ás bajo es el índice de
fiabilidad de la consistencia interna de toda la prueba. Por lo tanto una validez
de constructo alta puede comportar una baja consistencia interna.
Sin em bargo, si una prueba contiene ítem s que no son hom ogéneos, ¿sig
nifica esto que la prueba no es fiable? Puede tener un índice bajo de consis
tencia interna porque m ide distintos rasgos con la m ism a prueba, pero puede
estar m idiendo estos rasgos de form a consistente. Si este es el caso, el índice
de consistencia interna no parece que sea una form a de evaluar la fiabilidad.
Sin em bargo, puesto que indica si se están m idiendo uno o m ás rasgos, puede
constituir, aunque de form a un poco perversa, una m edida de validez. Tene
m os pues un ejem plo de un índice de fiabilidad que puede utilizarse com o un
índice de validez. Esto plantea dos problemas. El prim ero es que los conceptos
de fiabilidad y validez no están siem pre tan bien delim itados com o podría
suponerse. El segun do es que cuando calculam os un índice de fiabilidad en
particular necesitam os saber qué nos dice este índice para saber si es el apro
piado para nuestros propósitos.
En el caso de pruebas que tienen a propósito una gam a de ítem s heterogé
neos, por lo que se puede esperar un índice de consistencia interna bajo, podrí
am os decir que el índice sólo debería calcularse para las distintas partes de la
prueba y que para toda la prueba es m ejor utilizar el m étodo de comprobación
de la fiabilidad con el uso de pruebas paralelas descrito en el capítulo 4.3 y 4.5.
Con este m étodo no im porta cuántos rasgos se estén evaluando, mientras cada
prueba evalúe lo m ism o. Si las dos pruebas m uestran una correlación alta, la
prueba será fiable.
Sin embargo, tenemos aquí un problema a la hora de distinguir entre validez
y fiabilidad. Para saber si la segunda prueba es realmente paralela a la primera,
debem os hacer correlaciones entre los resultados de las dos pruebas para esta
blecer la validez concurrente de la segunda prueba. ¿Cuál es pues la diferencia
entre esta correlación, que se supone que comprueba la validez concurrente, y
181
La validación
182
Estudio sobre los tribunales de exámenes de inglés...
Otro tribunal respondió que esta pregunta no era pertinente, puesto que la
suya era una prueba oral. Esta respuesta, naturalmente, no tiene ningún sentido.
No se pidieron detalles, ni nos los dieron, sobre cóm o se estimaban o calcu
laban estos tipos de validez, pero el LCCI respondió que se estimaban de forma
«im presionista y anecdótica, no de forma matemática, todavía».
Un tribunal dio breves detalles. Sobre la validez concurrente dijo: «A medida
que vam os obteniendo datos, llevamos a cabo estudios comparativos con los
exámenes de TOEFL y de UCLES, y la comparación con nuestra propia prueba
(otra prueba para alumnos extranjeros) es una de las características clásicas de
nuestro proceso de adjudicación de resultados en los niveles superiores». Con
respecto a la validez de constructo, el tribunal respondió: «Las pruebas se estruc
turan en seis niveles, cada uno de los cuales evalúa destrezas específicas», e hizo
hincapié en que los estudios de validez predictiva «estaban planificados, pero
de momento no había suficientes candidatos como para dar estadísticas fiables».
Otro tribunal respondió que se estimaban algunos tipos de validez pero no en
todas las pruebas; sin embargo, «las compañías y las universidades que utilizan
las pruebas parecen contentas». Esto haría referencia a la validez aparente.
Un tribunal facilitó una respuesta detallada:
1) Validez concurrente. Este tipo de validez es pertinente. En realidad se h an llevado
a cab o distintas in vestigacion es com paran do [los exám en es] con entrevistas
«c a ra a cara». M ás recientem ente se está elab oran do u n a tesis doctoral [se
cita el n o m b re del alu m n o] q u e com para las actuaciones de distintos
can didatos en u n o de n uestros exám en es con los resultados ob ten idos en
entrevistas orales.
2) Validez predictiva. Existen organ izacion es q u e los utilizan [los exám en es] para
prever la capacidad d e actuación de ciertos in dividu os en el lugar de trabajo.
Por e jem p lo [la com pañ ía X ], requiere q u e su personal pase el exam en antes
de perm itirles participar en in tercam bios internacionales. D e fo rm a sim ilar,
la p ro m o c ió n a niveles adm inistrativos «in tern acion ales» en [com pañ ía Y]
req u iere un ap ro b ad o en el exam en , y tod os lo s p ro feso res en [p aís Z]
deb en dem ostrar tam bién el m ism o nivel de com petencia oral en la prueba.
N u n ca h em o s estim ado estadísticam ente la validez predictiva del exam en,
p e ro asu m im o s, p u esto q u e tales organ izacion es parecen estar satisfechas
con los resultados ob ten idos a lo largo de los añ os (1 2 en el caso de la
com pañ ía y ) , que el exam en deb e de tener la validez predictiva esperada.
183
La validación
UCLES. Sin embargo, analizando las respuestas parece que hay una gran varia
ción de un examen a otro, y de una parte a otra. Las pruebas de expresión escrita
en tres de los exámenes y en una de uso del inglés, se analizaban para com pro
bar su validez concurrente y su validez de constructo, pero no hay estudios de
validación en las pruebas de lectura, comprensión oral y expresión oral. Cuatro
de los otros exámenes no se validaban de forma sistemática, pero uno de ellos,
el IELTS se sometía a estudios específicos de validación.
A partir de las respuestas obtenidas parece que hay tribunales poco familiari
zados con los m étodos para evaluar la validación descritos en este capítulo, y
hay al m enos un tribunal que no está familiarizado con nuestra utilización del
término «validez». Esto no significa, naturalmente, que la validez no se evalúe
bajo otro nom bre, pero demuestra una falta de conocim iento de los términos
y procedimientos establecidos en la evaluación educativa.
PREGUNTA 2 6 : ¿Llevan a cabo estudios específicos de validación de sus exámenes? En caso de res
puesta afirmativa, facilite detalles.
Cinco tribunales dijeron que llevaban a cabo tales estudios, aunque es dudoso
en el caso de un tribunal puesto que la respuesta explicaba: «Se llevan a cabo
sesiones de unificación de criterios a lo largo del año, a las que asisten los ase
sores».
Otro tribunal respondió que los estudios de validez tenían lugar « a partir de
la revisión del esquem a general», pero no dio m ás detalles.
El AEB se refirió a Weir, 1983.
Un tribunal dijo que no llevaban a cabo estudios específicos pero sin embargo
añadió: «Algunas tesis de doctorado han utilizado [los exámenes] como base».
También dijo que «la English Speaking Union ha validado los exám enes». Debería
m os insistir aquí en que la aprobación de la ESU no implica la validación de la
prueba en el sentido en que se ha utilizado el término en este capítulo.
La respuesta de un centro fue «H ay proyectos en curso».
El único tribunal que nos facilitó inform ación sobre estudios de validez fue
el LCCI; aunque dijo que los estudios «eran confidenciales», añadió que «algu
nos resultados pueden publicarse» y adjuntó un artículo como ejemplo.
PREGUNTA 27: En el caso de que se administren distintas versiones de su examen, ¿se toman medi
das para garantizar que sean equivalentes?
Las respuestas de los tribunales fueron: sí, 9; no, 1; no procede, 2.
A la pregunta sobre la descripción de las m edidas que se toman, hubo dis
tintas respuestas.
Dos de los tribunales utilizaban análisis estadístico de los resultados (uno men
cionó el análisis de Rasch) y el resto dependía de las opiniones de los comités
de redacción. Cinco de los tribunales señalaron el hecho de que utilizaban los
m ismos redactores y supervisores para todas las versiones, o que todas las prue
bas de un m ism o año se analizaban en una m ism a sesión.
Un tribunal dio una respuesta m ás detallada:
184
Debate
PREGUNTA 28: ¿Se administra más de un tipo de prueba distinto durante el mismo periodo de exa
men? En caso afirmativo, ¿qué medidas se toman para garantizar que cada tipo de prueba sea equi
valente en dificultad?
Las respuestas de los tribunales fueron: sí, 5; no, 5.
Los pasos que se dieron para asegurar la equivalencia en dificultad entre dis
tintas pruebas son los m ismos que los detallados en la respuesta a la pregunta 27.
Las tres excepciones fueron:
1. M edian te la u n ificació n d e criterios y la evaluación.
2. A través del p ro ceso de análisis de la prueba. Si aparecen discrepancias en las
actuaciones de los candidatos, se solucion an a la h ora de decidir los lím ites
entre pun tuacion es en la reun ión para la determ inación de las calificaciones.
3. El tribu nal fu n cio n a con u n sistem a « a p e tic ió n », con lo q u e lo s distin tos
cen tros e sc o g e n el día y la h ora d e la realización del exam en . El com ité de
red acció n garan tiza la co m p arab ilid ad y la ad ecu ación de los ítem s. El nivel
de dificu ltad está d eterm in ado p o r el fo rm ato de lo s exám enes.
8.9. Debate
Vimos en el capítulo 3 que la mayoría de los tribunales emplean gran cantidad de
tiempo y energía en la redacción de sus ítems, concentrándose en los problemas
relacionados con la validez aparente y de contenido. Sin embargo, salvo una o dos
excepciones, parece, por los resultados de nuestro informe, que no analizan si sus
185
La validación
exámenes son válidos en la práctica. De la misma forma que muchos tribunales con
fían en que hay ítems que funcionan bien sin ningún ensayo previo, también parece
que confían en que sus exámenes son válidos sin confirmación empírica alguna.
Vale la pena citar los comentarios de W ood sobre los procedimientos de vali
dación de los tribunales de exámenes del Reino Unido. Nótese que estos comen
tarios hacen referencia a los tribunales de exámenes del Reino Unido en general
y no sólo a los de inglés com o lengua extranjera.
Los tribu n ales d e exám en es h an ten ido suerte en n o en zarzarse en u n a
d iscu sió n so b re la validez. Al con trario de la fiab ilid ad , la validez n o se p resta
a in fo rm e s sen sacion alistas. Sin em b arg o , el nivel de o lvido de la validez p o r
parte de lo s cen tros es o b v io u n a vez se centra la aten ción sob re el tem a.
Siem pre q u e lo s cen tros argu m en tan q u e están m id ie n d o la cap acid ad de
em itir ju icio s claros y razon ad os, o la cap acid ad d e llegar a con clu sio n es
(a m b o s e jem p lo s del exam en d e ec o n o m ía d e IGCSE), tien en la
re sp o n sa b ilid a d d e al m e n o s intentar u n a valid ació n d e las m e d id a s [...] L os
tribunales sab en tan p o c o so b re lo q u e están evalu an d o q u e si, p o r e jem p lo , se
les dijera q u e lo s p ro feso re s están evalu an d o h ab ilid ad es (in teligen cia) y n o
ap rovech am ien to , lo s tribu nales n o estarían e n p o sic ió n d e p o d e rse defender.
(W o o d , 1 9 9 1 : 1 5 1 )
8.10. Sumario
Tipos de validez Procedimientos de evaluación
Validez interna
186
Bibliografia
Validez externa
Validez concurrente a) Estudiar las correlaciones entre los resultados de
los alumnos y los resultados en otras pruebas.
b) Estudiar las correlaciones entre los resultados de
los alumnos y las valoraciones de los profesores.
c) Estudiar las correlaciones entre los resultados de
los alumnos y otras medidas de sus capacidades,
com o las valoraciones de los estudiantes o de los
profesores.
Validez de constructo
a) Estudiar la correlación de cada parte de la prueba
con las otras partes.
b) Estudiar la correlación de cada parte de la prueba
con la prueba en su totalidad.
c) Estudiar la correlación de cada parte de la prueba
con la prueba en su totalidad menos la parte ana
lizada.
d) Comparar los resultados de los alumnos con sus
datos personales y características psicológicas.
e) Estudios multimétodo-multirrasgo.
f) Análisis factorial.
Bibliografia
A lderson, J. C. (1 9 8 8 b ). « N e w Procedures fo r V alidating Proficiency Tests o f ESP?
T h eory an d P ractice.» Language Testing, S (2 ), p ig s . 2 2 0 - 2 3 2 .
A lderson , J. C. ( 1 9 9 0 ). «T e stin g R eadin g C om p reh en sion Skills (Part T w o ): G etting
Studen ts to Talk ab ou t T aking a R eadin g Test (A Pilot S tu d y ).» Reading in a Foreign
Language, 7 (1 ), p ig s . 4 6 5 - 5 0 2 .
A lderson , J. C. ( 1 9 9 1 ). «D is-sp o rtin g L ife .» En A lderson J. C. y B. N orth, (e d s.),
Language Testing in the 1990s. M acm illan , L ondres.
187
La validación
188
Bibliografía
189
9 Los informes posteriores a la prueba
En este capítulo se discute por qué es importante escribir inform es una vez ter
m inada y administrada la prueba. Los inform es podrán ir dirigidos a distinto
tipo de público y las características de cada informe, según el público a quien
va dirigido, se describen con detalle.
190
Los inform es posteriores a la prueba para la propia institución
fesionales del m undo de la evaluación y otros cam pos relacionados, que están
interesados en saber cómo asumen los retos clásicos planteados por la validez,
la fiabilidad y las cuestiones prácticas los distintos tribunales de exámenes.
Cada institución debe decidir por sí m ism a el público al cual quiere dirigirse
y considerar a continuación la clase de información que puede resultar más útil
para este público. Sin embargo, uno de los asuntos más importantes es la res
ponsabilidad ante el público, por eso debería publicarse una inform ación
mínima para todas las partes interesadas.
En el apartado que sigue discutiremos la clase de información que interesa a
cada tipo de público y revisarem os los inform es posteriores a la prueba que
hemos recibido de distintos tribunales de exámenes, para ver si lo hacen y cómo
lo hacen.
191
Los informes posteriores a la prueba
1. Estadísticas descriptivas para toda la prueba y para cada una de sus partes:
histograma, m edia, m oda, m ediana, rango y desviación típica.
2. Análisis de ítems para cada ítem de corrección objetiva: coeficiente de difi
cultad e índice de discriminación.
3. Correlaciones entre las distintas partes de la prueba y entre cada parte y el
total de la prueba m enos ésta.
4. Fiabilidad de cada sección de corrección objetiva.
5. Fiabilidad de la corrección de cada sección de corrección subjetiva.
Los detalles de cómo llevar a cabo los primeros cuatro análisis se encuentran en
el capítulo 4, y los detalles sobre el quinto están en el capítulo 6. Los resultados
deberían indicar si las diferentes partes de la prueba se comportan como debieran
y si no, dónde parecen encontrarse los problemas. Esta información estadística
puede combinarse con la clase de información descrita m ás adelante para deter
minar si las partes de la prueba que plantean problemas tenían defectos intrínse
cos o si los problemas se debieron a una preparación inadecuada de los candidatos
o a una prueba mal administrada que produjo resultados inesperados.
Deberían darse explicaciones sobre cualquier problem a detectado, junto con
las recomendaciones sobre cóm o evitar tales problem as en el futuro.
Problemas: _____________________________________
Problemas: _____________________________________
192
Los inform es posteriores a la prueba para la propia institución
que pudieron haber influido en los resultados de los candidatos tanto favorable
como negativamente. Ejemplos de los problemas que pueden afectar a los resul
tados son:
El administrador no evita que los candidatos hablen durante la prueba. (Los
candidatos pueden intercambiar información y / o im pedir la concentración
de los que se encuentran a su alrededor.)
El profesor que está dictando un texto a los candidatos pronuncia m al varias
palabras. (Los candidatos no entienden el sentido del texto y por tanto no
comprenden otras palabras que han sido bien pronunciadas.)
Después de la sesión de formación, el examinador jefe no envía a los exami
nadores una versión revisada de las escalas de puntuación para la expresión
escrita. (Los examinadores terminan usando la escala original, que contiene
conceptos «desdibujados», una redacción poco clara, etc., resultando así difí
cil una corrección consistente.)
Durante la corrección de la expresión escrita se permite a los examinadores
que escriban sus comentarios encima de los ejercicios escritos de los candi
datos. (Los exam inadores que deben hacer una segunda corrección se sien
ten influidos por los comentarios de los primeros correctores.)
Las instrucciones dadas a los administradores decían que la prueba debía durar
30 m inutos y las instrucciones dadas a los candidatos decían que duraría 35
m inutos. (Hubo confusión durante los últim os cinco m inutos de la prueba
puesto que tanto los administradores com o los candidatos intentaron decidir
qué instrucciones eran las correctas.)
El redactor de la prueba pretendía cubrir todo el libro de texto, pero la mayo
ría de las clases que se presentaron a la prueba no pasaron de la penúltima
lección. (Esto no invalidaría la prueba, pero explicaría la mala actuación de
los candidatos en alguno de los ítem s.)
A los exam inadores no les gustó la regla que decía que los candidatos que
escribieran al menos seis palabras obtendrían un 1 en la escala de puntuación
de 5 pinitos. (Esto podría explicar por qué había m ás puntuaciones de 0 de
lo esperado.)
193
T
Los inform es posteriores a la prueba
Un análisis de los ejercicios escritos tam bién revelará los problem as de los
candidatos que simplemente no tienen la competencia requerida para una buena
actuación. En estos casos puede que la culpa no sea de la prueba.
194
Inform es posteriores a la prueba para profesores...
195
Los informes posteriores a la prueba
196
Inform es posteriores a la prueba para profesores...
cia para profesores y para alumnos, y debería constituir el cuerpo del informe.
Los evaluadores deberían, prim ero, reflejar con claridad lo que se evaluaba
en cada sección de la prueba.
A continuación, deberían indicar cóm o respondieron los candidatos a cada
sección y mencionar el tipo de problema que resultó más difícil para la pobla
ción en general o para ciertos segmentos de la población. Es importante entrar
en detalle en este punto, pero también es importante que emerjan puntos gene
rales de entre los detalles. Si los evaluadores pueden ver que los problemas que
tuvieron los candidatos con un ítem en especial están relacionados con los pro
blemas que tuvieron con otros ítems, deberían decirlo claramente, en parte por
que los profesores tal vez no vean las conexiones (si no tienen acceso a las
especificaciones para cada ítem, puede que no sean conscientes de lo que se está
evaluan do), pero tam bién porque de esta form a pueden concentrarse en los
aspectos específicos que provocaron las dificultades en esta ocasión y no en las
categorías lingüísticas más generales que pueden aparecer otra vez en versiones
futuras de la prueba.
Finalmente, los evaluadores deberían hacer recomendaciones sobre el tipo de
contenidos lingüísticos y las destrezas en las que deberían hacer hincapié los
candidatos en el futuro, o sobre técnicas que pueden resultar útiles para los can
didatos con el fin de mejorar su actuación.
197
Los informes posteriores a la prueba
parejas com patibles. Sin em bargo, pueden surgir otros problem as porque los
profesores pierdan el control del tiempo, den a los candidatos ayuda excesiva,
no observen las reglas de seguridad, etc. A veces, por desgracia, los profesores
no son conscientes de los procedim ientos correctos, sobre todo si no han reci
bido formación en esta área.
El inform e posterior a la prueba puede ser una manera efectiva de recordar
a los p rofesores estos p rob lem as y lo que deben hacer para evitarlos en el
futuro.
198
Inform e sobre los tribunales de exámenes de in g lés...
En algunos países, las instituciones que producen pruebas para su uso extemo
deben facilitar un m anual que contiene inform ación sobre el objetivo de la
prueba, la población a la que va dirigida, su elaboración y desarrollo, los estu
dios de validez y de fiabilidad, y la investigación en curso. Aquellos que están
interesados en averiguar si una prueba es apropiada para sus propósitos o en
saber lo que significan los resultados, consultan primero el manual. El sistema
de evaluación del Reino Unido no utiliza manuales de forma tan extensa como
otros sistemas (en reabdad los manuales son prácticamente inexistentes), por lo
que aquellos que necesitan información sobre la validez y la fiabilidad de una
prueba deben acudir a otra parte. Un posible lugar puede ser un informe pos
terior a la prueba. Este informe no debería ser tan detallado com o los informes
elaborados para uso intem o, y tampoco debería analizar y evaluar las actuacio
nes de los candidatos de la m ism a manera que lo hacen los informes para pro
fesores. No debería ser excesivamente largo, puesto que su principal objetivo
es el de inform ar a los lectores sobre hechos, no servir de prueba para tomar
decisiones o com o material de formación de profesores o alumnos.
199
Los inform es posteriores a ¡a prueba
200
Inform e sobre los tribunales de exámenes de in g lés...
INFORMACIÓN ESTADÍSTICA
En el apartado 9.2 afirmamos que a los profesores les interesarían cuatro tipos
de información estadística. Listamos a continuación las preguntas que hicimos
junto con la información que recibim os de JMB o de la Delegación de Oxford.
T abla 9 .1 .C andidatura para los exámenes de oxford por año t país ( página 3 )
Superior Preliminar
1988 2630 1988 6538
1989 3073 1989 6988
Aquí podem os ver que hay m ás candidatos para el nivel preliminar que para
el superior, y que las cifras para cada prueba aumentaron unos 400 candidatos
a lo largo del año analizado. También podem os ver en qué partes del m undo
son m ás populares estos exámenes y si los candidatos aumentan o disminuyen.
Estas cifras darán a los profesores y a sus alum nos una idea de si la prueba es
conocida o im portante en su propia parte del m undo, lo que puede ayudar a
decidir si quieren adoptarla o no.
Los tribunales no facilitaron m ás detalles sobre sus candidatos.
201
Los informes posteriores a la prueba
202
Inform e sobre los tribunales de exámenes de in g lés...
203
r Los inform es posteriores a la prueba
Aquí el tribunal no sólo describe el problema que tuvieron los candidatos sino
que también intenta clarificar el concepto para los profesores. Aunque no todo
el m undo estaría de acuerdo con la distinción dada por el tribunal, está claro
que esto es lo que esperan los examinadores en el futuro.
El JMB también facilita una crítica clara del comportamiento de los candida
tos, aunque reconoce que en los últimos años ha habido una m ejoría en algu
nos aspectos de su actuación:
En esta pregunta se vio claramente que se había tomado nota de los
comentarios relativos a la importancia de las respuestas bien organizadas y
presentadas. En contraste con años anteriores fue reconfortante ver que la gran
mayoría de candidatos había incluido una introducción, organizado sus
respuestas en párrafos, y había incorporado algún tipo de conclusión.
Por desgracia, el resto de la composición fue a menudo decepcionante. La
mayoría de los candidatos todavía no saben cómo dar explicaciones o hacer
comentarios sobre datos cuando la pregunta lo requiere. Cuando el informe
debe acompañar a los datos, el lector no espera la repetición de los mismos.
Espera que el informe los haya interpretado y los comente. Esto supone tomar
nota de las tendencias o patrones, si los hay, detectar las anomalías y
seleccionar puntos de interés concretos... (página 4).
Las consecuencias de una crítica explícita son a m enudo obvias, pero resulta
útil si los tribunales explican claramente el tipo de docencia que deberían im par
tir los profesores o los tipos de repaso que deberían hacer los alumnos.
El inform e de JMB facilita varios ejem plos interesantes sobre cóm o puede
hacerse esto. En el caso de los candidatos que no «saben cóm o dar explicacio
nes o hacer comentarios sobre datos» (véase más arriba), recomiendan:
El lenguaje necesario para comentar datos numéricos o gráficos debe enseñarse
de forma más explicita... (página 4).
En una sección posterior del m ism o inform e el tribunal lista una serie de
libros de texto útiles que el profesor puede utilizar para ayudar a sus candida
tos a solventar estos problemas. Esta información es especialmente valiosa para
profesores que todavía no tienen demasiada experiencia en la preparación de
candidatos para esta prueba.
204
Inform e sobre los tribunales de exámenes de in g lés...
El JMB también reconoce sus propios problemas: en este ejemplo admite que
ama parte en particular no resultó tan equilibrada como hubiera sido de esperar:
Esta parte resultó más difícil de lo esperado, por lo que se ajustaron los resultados
como corresponde [...] Esta parte en concreto mostró una marcada parcialidad
hacia los ítems de gramática en detrimento de los ítems de léxico y esto puede
haber contribuido al nivel de dificultad. Los exámenes en el futuro tenderán a
estar más equilibrados y se considerará importante el desarrollo del vocabulario a
través de textos, trabajo de diccionario y actividades diversas (página 12).
20S
Los inform es posteriores a la prueba
206
Debate
9.7. Debate
Los informes posteriores a la prueba son importantes por las razones que hemos
discutido al principio de este capítulo. Sin embargo, la evidencia recogida es que
hay pocos y escasos informes adecuados sobre la actuación en las pruebas de idio
mas, al menos en el campo del inglés como lengua extranjera. Hemos extraído bas
tantes pasajes de los informes que recibimos porque son buenos ejemplos de la dase
de información que debería estar a disposidón de los distintos tipos de público y
de como podría presentarse. Sin embargo, tales informes son difíciles de encontrar,
y esto es una pena. Puede ser que hasta el momento no haya habido la suficiente
presión sobre los que elaboran pruebas para que presenten evidencia de la validez
y fiabilidad de sus instrumentos, pero tal como dijimos al principio de este capí
tulo, puede que esto cambie, y sólo puede cambiar a mejor. Puede también deberse
a que los profesores no piden información sobre la actuación de sus candidatos,
pues la mayor parte de éstos son extranjeros y no están en la posición de presionar
a los tribunales de exámenes. Esto contrasta con los profesores de enseñanza secun
daria del Reino Unido, que sí pueden presionar a los tribunales para que faciliten
la información adecuada para ayudar a los que preparan los exámenes. Puesto que
los tribunales de exámenes del Reino Unido presumen de la relación entre la docen
cia y la evaluación, todavía sabe peor que tan pocos faciliten una información ade
cuada a los profesores y alumnos de inglés como lengua extranjera.
El incremento general de publicaciones com o el Code of Fair Testing Practices in
Education y los APA/AERA/NCME Standards (véase capítulo 11) asegura que los usua
rios de las pruebas y otras partes interesadas reciben la información más com
pleta posible sobre la prueba que utilizan. La m ejor m anera de facilitar tal
información es mediante los manuales y los informes que hemos defendido.
El docum ento APA/AERA/NCME Standards dedica un apartado com pleto (el
número 5) a la descripción de lo que deberían contener los manuales técnicos
y las guías del usuario. El apartado de los once m odelos sobre este tema va pre
cedido por la siguiente frase: «Los editores deberían facilitar la suficiente infor
mación para que un usuario o revisor cualificado de una prueba pueda evaluar
si es apropiada y técnicamente adecuada» (página 35). Los tribunales de exá
menes del Reino Unido deberían hacer lo m ismo.
207
Los informes posteriores a la prueba
9.8. Sumario
Las instituciones deberían primero determinar las obligaciones existentes —tanto
legales com o morales—para publicar informes sobre la actuación en sus prue
bas. Esto variará según el contexto.
Se debería tener en cuenta las necesidades del público al que se dirigen los infor
m es: ¿Qué necesitan saber? ¿Qué podría resultarles de ayuda?
Debería facilitarse información estadística relacionada con los asuntos que inte
resan al público.
¿Deben incluirse los resultados de la supervisión del examen?
¿Existen com entarios recibidos de los alum nos, de los exam inadores o de los
administradores ?
¿Se han analizado los ejercicios escritos de los alum nos para ver qué pueden
revelar sobre los puntos fuertes y débiles del examen y de los candidatos?
¿Existe evidencia de parcialidad en la prueba?
¿Cómo se relaciona esta prueba con las versiones anteriores?
¿Cómo pueden preparar los profesores m ejor a sus alumnos, o cóm o pueden
los alumnos prepararse a sí m ism os?
¿Qué consideran los examinadores com o buenas actuaciones y actuaciones flo
jas, y por qué? ¿Qué criterios se utilizan para evaluar la actuación?
¿Qué problem as se detectaron en la prueba?
¿Qué cam bios se prevén en un futuro próxim o?
¿Qué contenidos o destrezas cubre la prueba, y para qué sirven los resultados
de un candidato?
¿Es la prueba válida?
¿Es la prueba fiable?
208
10 Desarrollo y mejora de los exámenes
209
Desarrollo y mejora de los exámenes
210
La supervisión de una prueba
Puede ocurrir que los procedimientos recomendados por los que han elabo
rado la prueba no se lleven a la práctica por parte de los responsables de la misma
o se abandonen una vez comenzada la prueba. Las comprobaciones rutinarias de
los procedimientos pueden identificar tales situaciones. Para ilustrar este punto
podem os citar el ejemplo de una nueva prueba de idiomas, cuyo proyecto de ela
boración incluía también el desarrollo de procedimientos de formación, certifi
cación y supervisión de los examinadores de las pruebas de expresión oral y de
expresión escrita. Se consideró la importancia de que las puntuaciones se lleva
ran a cabo de form a fiable porque la prueba se administraba en varios países y
podía darse el caso de que sólo hubiera un corrector por prueba. Los elaborado-
res prepararon un manual de formación para los examinadores, que incluía actua
ciones grabadas en vídeo, una muestra de ejercicios escritos y directrices sobre
cóm o puntuar, junto con instrucciones sobre cóm o dirigir sesiones de forma
ción en las que utibzar los materiales. Tam bién elaboraron un procedim iento
para calcular la fiabilidad de las puntuaciones otorgadas por los profesores al final
del taller, lo que perm itiría a las autoridades poder certificar que un profesor
cum plía los criterios requeridos. Además, se acordaron y diseñaron procedi
mientos para la recogida rutinaria de muestras grabadas de actuaciones de can
didatos en la prueba oral, junto con m uestras de la expresión escrita de los
candidatos, que debían mandarse a un punto centralizado para volver a puntuar.
Esta supervisión debía llevarse a cabo de manera regular, y los correctores que se
«apartaran del cam ino» (puntuando demasiado alto o demasiado bajo) serían
avisados y despedidos o tendrían que volver a seguir un programa de formación.
Después de los ensayos, se pusieron en funcionamiento la prueba y los pro
cedimientos recom endados, pero éstos se abandonaron pronto porque fueron
considerados «in n ecesarios». Los talleres de form ación se substituyeron por
«form ación autodidacta». Los exam inadores debían leer el m anual y ver los
vídeos, y se suponía que, como consecuencia de ello, podrían puntuar de forma
fiable. No se llevaron a cabo com probaciones rutinarias sobre la fiabilidad de
las puntuaciones. Las propuestas de los responsables de la elaboración de la
prueba se frustraron por una ejecución imperfecta de los procedim ientos. En
tales casos, hay probablemente necesidad de supervisión extema de la puesta en
práctica. La disponibilidad de informes posteriores a la prueba, como se ha des
crito en el capítulo 9, daría la oportunidad de realizar esta supervisión.
Un problem a aparece cuando se utilizan las pruebas sin cam bio alguno
durante un núm ero de años. Los examinadores empiezan a relajarse en la utili
zación de las escalas de puntuación y la formación dada a los examinadores, que
es en un com ienzo adecuada, puede volverse laxa y mecánica, al tiem po que
éstos creen que ya tienen la suficiente experiencia en la administración de la
prueba. Sin embargo, experiencia no siempre equivale a fiabilidad, y las com
probaciones rutinarias sobre el consenso entre exam inadores, especialmente
cuando tiene lugar una doble corrección auténtica, son esenciales para garanti
zar que se mantengan los estándares y que la formación y la unificación de cri
terios de los examinadores continúen siendo satisfactorias.
211
'■ ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
212
La influencia de nuevos hallazgos en la necesidad...
10.1.3. Características de la población de la prueba
Un aspecto relacionado con la supervisión que resulta útil es la determinación de
las características de la población de la prueba (no sólo de los que aprueban). Es
posible que con el tiempo la población cambie: el origen geográfico, el bagaje
lingüístico, el sexo, el nivel educativo, el nivel de aprovechamiento y el nivel de
habilidad, etc. Por este motivo, la administración rutinaria de un cuestionario que
recoja información biográfica sobre los candidatos es de un valor considerable. Ade
más, pueden organizarse estudios específicos para analizar las características de la
población con más profundidad, por ejemplo su modvadón, las razones para pre
sentarse a la prueba, su historial como estudiantes de la lengua, sus estrategias comu
nicativas, y otros aspectos. Los resultados de un estudio de este tipo pueden damos
información sobre la pmeba y sobre los posibles cambios necesarios. Los estudios
sobre la parcialidad de las pruebas son cada vez más comunes y potencialmente
importantes para los exámenes de idiomas. ¿Es la pmeba parcial con referencia al
sexo o a una etnia? ¿Lo hacen mejor que el resto los candidatos de ciertas regiones
o grupos socioeconómicos? Puede, sin embargo, haber dificultades a la hora de
interpretar los resultados o de decidir qué hacer. En un estudio, Lynch, Davidson y
Henning, 1988, descubrieron que partes del examen de nivel de inglés como
segunda lengua de la UCLA (Universidad de California en Los Ángeles) favorecían
a los estudiantes de habla española y perjudicaban a los estudiantes de habla core
ana. Sin embargo, una vez analizado el problema, parece claro que esto sucede por
que el inglés es de por sí parcial: a causa de la afinidad lingüística, a los alumnos
de habla española les resulta más fácil aprender inglés que a los de habla coreana.
Tal parcialidad sugeriría que la pmeba es válida en lugar de señalar su no validez.
Finalmente, es im portante supervisar los niveles de aprovechamiento y de
habilidad de la población que se presenta a la pm eba. Si, a lo largo del tiempo,
parece que los niveles estén cambiando, puede ser necesario investigar las cau
sas y ajustar la prueba. Podría suceder que, debido a la creciente familiaridad
con la prueba y a una m ejor preparación, la pm eba estuviera volviéndose más
fácil, o podría ser que con una m ejor enseñanza del idiom a la habilidad de la
población estuviera aumentando. En cualquier caso, podría resultar necesario
ajustar la pmeba. Como alternativa, puede decidirse que tales cambios en la difi
cultad o en la habilidad requerida queden reflejados en un mayor porcentaje de
éxito en la prueba. Mucho dependerá, com o siempre, de los objetivos que se
buscaban con la administración de la pmeba, pero si no se hace un seguimiento
de la actuación de los candidatos se perderá una información importante.
213
Desarrollo y mejora de los exámenes
vos m étodos de análisis. Por ejem plo, el desarrollo de m etodologías que ana
lizan distintos rasgos y distintos m étodos (multi-trait, multi-method methodologies)
para la investigación de la validez convergente y divergente (véase el capítulo
8; Bachman y Palmer, 1981, y Cam pbell y Fiske, 1959) fue el detonante de
varios estudios de validez que contribuyeron a nuestra com pren sión de la
form a en que podría evaluarse m ejor la competencia lingüística. El descubri
miento del análisis factorial confirm atorio com o un nuevo instrumento junto
con el análisis factorial exploratorio llevó a descubrim ientos similares. Este es
el caso del desarrollo de los program as de ordenador que perm iten realizar
nuevos análisis estadísticos. Un m uy buen ejem plo reciente de esto es el desa
rrollo y la disponibilidad de FACETS (Linacre y Wright, 1992). Este program a
permite el análisis de la actuación de distintos examinadores en distintas tareas,
bajo distintas condiciones operativas y con distintos tipos de candidatos. Es
posible explorar hasta qué punto algunos exam inadores en concreto funcio
nan de form a poco consistente o idiosincrática, o si hay que ajustar las esca
las de puntuación o se deben m odificar las tareas para obtener puntuaciones
más consistentes o válidas. Antes de la aparición de estos program as, podían
hacerse com probacion es sobre la variabilidad entre exam inadores, pero de
forma m uy rudimentaria. Ahora es posible explorar el proceso de puntuación
y los factores que influyen en los resultados con m ás profundidad y conoci
m iento. En tales circunstancias es p o sib le que pruebas que pod ían parecer
satisfactorias tengan que ser revisadas porque m uestren aspectos problem áti
cos después de ser analizadas con m ejores instrum entos.
Una situación parecida ha ocurrido recientem ente cuando los investiga
dores de la evaluación de idiom as se han interesado y fam iliarizado con téc
nicas de investigación «cu alitativ as», que pueden utilizarse para investigar
la validez de la prueba. U n ejem plo de tales técnicas es el u so de inform es
introspectivos de candidatos y exam inadores, llam ados inform es de «pen sar
en voz alta», y relatos retrospectivos sobre los procesos de realización de una
prueba (véase capítulo 8 ). Tales datos cualitativos pueden revelar in form a
ción sorprendente sobre lo que los alum nos y los exam inadores están pen
sando en lo relativo a las tareas de una prueba, que puede estar en conflicto
con lo que lo s resp o n sab les de la elabo ración de la pru eb a creen que los
alum nos o los exam inadores «d eb erían h acer». En tanto que los datos dan
evidencia de la validez (o no validez) del contenido, los responsables de la
prueba deberían hacer todos los esfuerzos que estén en su m ano para reco
ger in form ación sobre el funcionam iento de los instrum entos existentes y
hacer las m odificaciones necesarias en los ítems, instrucciones, m étodo, esca
las de puntuación y otras facetas de la elaboración de la prueba que se con
sideren apropiadas.
El m ensaje claro es que los administradores y los redactores de una prueba,
al igual que los investigadores, deben estar familiarizados con los nuevos des
cubrimientos de m étodos de análisis, para poder aplicarlos a las pruebas exis
tentes y a las pruebas que puedan desarrollarse en el futuro.
214
La influencia de nuevos hallazgos en la necesidad...
215
Desarrollo y mejora de los exámenes
216
Nuevas tendencias
Por tanto, mientras sigan cambiando los currículos y los libros de texto, cam
biarán también las pruebas basadas en éstos para mantener su validez curricu
lar (de contenido). Al desarrollarse nuevas form as de enseñanza de las
habilidades de com prensión oral, por ejemplo, o de la enseñanza de la gram á
tica de form a significativa y comunicativa, las pruebas deberán cambiarse para
incorporar tales novedades. Esto no quiere decir que la evaluación de idiom as
dependa de la docencia y deba responder a cada capricho de la m oda pedagó
gica; de hecho, hay pruebas que tendrán que mantenerse independientes de los
currículos para poder cumplir su propósito. Los responsables de la elaboración
de pruebas trabajan bajo determ inados im perativos que no se aplican de la
m ism a form a a los autores de libros de texto y a los autores de un currículo (los
exámenes son sólo muestras, deben administrarse en un periodo de tiempo rela
tivamente corto, no pueden ayudar a los alum nos flojos, etc.) y tienen que
capear cualquier deseo o presión de seguir la m oda con consideraciones que
tengan en cuenta los aspectos prácticos, la validez y la fiabilidad. Sin embargo,
es difícil concebir una situación de evaluación en la que los responsables de la
prueba puedan mantenerse inmunes a la influencia de los avances externos y al
m ism o tiem po conservar la aceptación de sus pruebas por parte de la comuni
dad profesional de profesores, especialistas en lingüística aplicada y otros eva
luadores. Así pues, hay una necesidad constante de encontrar formas que pongan
al día y m odifiquen las pruebas para incorporar los avances externos.
U na form a habitual de cam biar las pruebas es som eterlas a una revisión
importante cada cierto núm ero de años, como se ilustra en la siguiente cita de
Alderson, 1986:
D esp u és de con siderar, al m e n o s, las p au tas de d esarrollo del in glés c o m o
le n g u a extranjera, diría q u e un a p ru e b a tien e u n c id o vital e sta b le a d o d e 12 a
1S añ os. U n a vez ha n acido, u n a p ru e b a necesita tiem p o y cu idad os
e sm erad o s p a ra desarrollarse, p ara atraer m á s y m á s aten ción y can didatos,
p a ra establecer su cred ib ilidad c o m o in stru m en to p a ra u n o b jetivo en
particular, p a ra q u e sea reco n o cid a c o m o válida y fiable, alg o q u e n o so tro s en
el R ein o U n id o m e d im o s m ás p o r la o p in ió n del p ú b lic o y el p re stig io q u e
p o r datos e m píricos. Este p e rio d o suele ocu par entre tres y cin co años.
U n a vez establecida, la p ru e b a se con sidera c o m o aceptable durante un
p e rio d o de tie m p o razon able. D urante este p e rio d o p u e d e resultar aceptada
p o r varied ad d e in stitucion es, citada en la b ib lio g rafía so b re evalu ación y
d e sp u és en la b ib lio g rafía so b re docen cia. Puede tener gran n ú m e ro de
can didatos, a m e n u d o con stituyen do el o b jetivo d e su fo rm ació n y sus
asp iracion es. Este p e rio d o p u e d e durar entre cin co y o ch o años.
H acia el fin al de este p e rio d o , sin em b argo , aparecen sig n o s d e sen ilid ad en
fo rm a d e au m en to de críticas so b re la in fluen cia d e la p ru e b a en la docen cia y
en las am b icio n es y vida de lo s alu m n os. La q u e ja habitual es q u e la pru eb a
ejerce u n a in fluen cia restrictiva en la docen cia, y q u e n o p erm ite a lo s
p ro feso re s en señ ar de fo rm a deseab le o sig u ie n d o la m od a.
La p re sió n p u e d e en ton ces crecer den tro d e la o rgan ización m ism a (en el caso
de G ran Bretaña, den tro del p ro p io tribu nal d e e xám en es) p ara q u e cam b ien
217
*
las esp ecificacion es, el con ten id o o el fo rm a to de la pru eba. Estas presion es
p ara el cam b io , c o m o verem o s, n o están tan relacion adas con la re c o g id a de
datos q u e d em u estren la in cap acid ad d e la p ru e b a p ara satisfacer el p ro p ó sito
esp ecificad o c o m o con la sen sació n q u e tienen las partes in teresadas d e que
existe u n d e sfase de la p ru e b a con resp ecto a lo s avances de la teoría didáctica
y d e la lin gü ística aplicada. En un sen tido m á s general, p u e d e tratarse d e q u e
la p ru e b a ya n o cu m p la con su fu n c ió n original.
Puede q u e el c am b io lo p ro d u zcan p ro feso re s un iversitarios d e lin güística
ap licada a través de la in vestigación , a m e n u d o im p u lsa d a p o r com ités o
c o m isio n es de trabajo, o p o r el m ism o tribu nal de exám en es a través d e la ya
existen te o recién creada re d de p ro feso re s—evalu adores [...] o p u e d e ser
p ro v o cad a p o r u n a im p licació n directa, n o siem pre solicitada, de los
p ro feso re s m e d ian te m o v im ie n to s c o m o el de las p ru eb as escalon ad as (g rad e ó
test movement) en el caso del R eino U n id o. Sea cual sea el agen te del cam b io, un
n uevo alu m b ram ie n to es in evitable, a m e n u d o d e sp u é s de un p e rio d o de
ge stació n de d o s o tres añ os. Y volverem os a contar con otra in n ovación : el
n acim ien to de u n a n ueva pru eba. Esta p u e d e p arecerse m u c h o a la an terior o
ser m u y distin ta d e ella.
D e tod as fo rm as, es lícito p regu n tarse: ¿Existía la n ecesidad real de u n a nueva
pru eb a? ¿D on d e re sid ía la dem ostración , y n o só lo la op in ió n , d e q u e la
p ru e b a an tigu a n o era eficaz, de q u e estaba periclitada, a pu n to d e p asar a otra
vida? ¿Q u é n ecesid ad sen tían o q u é sab ían de la n ecesid ad de u n a n ueva
p ru e b a su s u su a rio s: lo s alu m n os, lo s p atrocin ad ores, las in stitucion es?
(p ágin as 9 6 —9 7 ).
218
Informe sobre los tribunales de exámenes de inglés...
219
Desarrollo y mejora de los exámenes
procesos de producción para poder estimar hasta qué punto tales centros podían
sentir la necesidad de cambiar sus pruebas en un futuro.
PREGUNTA 47: ¿Existen procedimientos rutinarios para garantizar que sus exámenes se revisen a la
luz de los comentarios?
Es interesante remarcar que tres tribunales respondieran que tales procedi
mientos no existían. Una respuesta de UCLES decía que los grupos de trabajo
discutían el tema a intervalos de seis meses.
PREGUNTA SO: ¿Tienen planes para realizar cambios como los descritos más arriba en los procedi
mientos que siguen?
La mitad de los tribunales dijo que sí tenían tales planes y la otra mitad res
pondió que no. Se hizo mención a una revisión de envergadura en curso, pero
no se facilitaron detalles.
Las últimas preguntas pretendían sondear hasta qué punto los centros estaban
satisfechos con sus pruebas y hasta qué punto creían que sus pruebas eran «supe
riores» a otras pruebas del mercado. Aunque estas respuestas no estaban directa
mente relacionadas con la supervisión de la prueba o con su mejora, dan idea de
si los centros creen, al menos en público, que sus pruebas tienen que mejorar.
PREGUNTA 51: Se dice que la fuerza de los exámenes británicos reside en su relación con la docen
cia. ¿Está de acuerdo? ¿Puede describir cómo se demuestra esta relación en el caso de su examen?
220
Informe sobre los tribunales de exámenes de inglés...
N ingún tribunal discrepó de esta afirmación, aunque uno dijo que no tenía
opinión, puesto que «la fortaleza de nuestros esquem as reside en unas defini
ciones claras de actuación. No dictamos materiales de aprendizaje».
Entre los que respondieron «A lgo », uno dijo: «H ay otros puntos fuertes, y
la docencia es una base tambaleante, porque las m odas cam bian frecuente
m ente.» La m ayoría respondió con un rotundo Sí y tres dijeron que sus exá
m enes tenían efectos de rebote positivos. Sin em bargo, no tenemos
conocimiento de ningún estudio sobre la materia. La suposición más común fue
que la cercanía a la docencia estaba asegurada con la implicación de los profe
sores como examinadores y con la evaluación de las destrezas comunicativas.
PREGUNTA 52: También se dice que los criterios y procedimientos «psicométricos» o «americanos»
son irrelevantes para los exámenes británicos. ¿Está de acuerdo? Si está de acuerdo, ¿qué criterios y/o
procedimientos son irrelevantes para sus exámenes?
Una gran mayoría de los tribunales discrepó de esta afirmación, aunque varios
decían que tales «procedim ientos» sólo afectaban a las secciones de corrección
objetiva de sus exámenes. Dos tribunales, sin embargo, añadieron calificacio
nes a su desacuerdo, que creemos vale la pena citar completas:
U n a co m b in ac ió n de re alism o lin gü ístico b ritán ico y de psicom etría am ericana
es, creo, m u y deseab le y técnicam ente p o sib le , m ien tras se su p o n g a q u e los
exam in ad o res n o sean u n os sinvergüen zas y, dentro de u n os lím ites, tien dan a
co n verger en su s o p in io n e s sob re lo s con ten idos lin gü ístico s y los can didatos
[...] el an álisis p sico m é trico n o es n un ca lo suficien tem en te com pleto co m o
p a ra d isip ar todas las sosp ech as y n o con ven cerá a lo s p ro feso res si entra en
con flicto con el sen tido com ú n , evidencia em pírica q u e p u ed en com pren der
fácilm en te a sim p le vista.
Y también:
Su ap licació n au m en taría de fo rm a sign ificativa el coste de u n pro d u cto que
d eb ería tener u n p re cio m o d erad o .
PREGUNTA 53: ¿Cuáles son, en su opinión, los puntos fuertes de sus exámenes?
Esta pregunta provocó gran variedad de respuestas, desde «flexibilidad de la
administración», «disponibilidad a petición», «tareas prácticas realistas», exá
menes «disponibles para distintos niveles», a las m enos modestas «fiabilidad,
justicia com pleta, validez y procedim ientos de adm inistración intachables».
Gama de textos y tipos de tarea, autenticidad, relación con la docencia y la afir
m ación de efectos de rebote fueron los puntos fuertes más mencionados.
PREGUNTA 54: ¿Cuáles son, si los tienen, los puntos débiles de sus exámenes?
¡No es de sorprender que las respuestas a esta pregunta fueran más breves!
Cuatro tribunales dijeron que no tenían ninguno, y uno afirm ó que el único
punto débil de sus exámenes es que todavía no se convocaban en Estados U ni
dos o Canadá. Sin embargo, uno o dos dio respuestas más detalladas, haciendo
221
Desarrollo y m ejora de los exámenes
10.6. Discusión
Según estos resultados, parecerá que los tribunales están en general satisfechos
de sus pruebas, aunque estén im plicados en u n proceso de revisión habitual. Lo
que está m en os claro es hasta qué punto esta revisión es el resultado de la reco
gid a sistem ática de d ato s, y hasta q ué pu n to refleja reaccio n es in tu itivas del
«ám b ito p ro fesio n al» y del «m e rc a d o ». N uestra posición es que la recogida de
com entarios in form al a través de «ru m o re s» es una base p oco fiable para fu n
dam entar la satisfacción sob re la prueba, o in cluso las revisiones de la m ism a.
Sin em bargo, algunas respuestas aseguraron que se identificaban los problem as
y que se tom aban m edid as para ponerles rem edio.
La supuesta estrecha relación con la docencia era quizá predecible, pero debe
tom arse con escepticism o, p uesto que la práctica varía de form a considerable.
Las afirm acion es sob re el efecto de rebote b en eficio so so n com u n es, p ero no
presentan pruebas y , com o han señalado Alderson y Wall, 1 993, ésta es un área
que p o d ría b en eficiarse de u n a co n sid erab le in v estig ació n . D ada la su p u esta
estrecha relación entre la d ocencia y la evaluación, p u ede darse el caso de que
las pruebas puedan m ejorarse m ediante u n estudio exhaustivo de la práctica de
la preparación de pruebas.
10.7. Sumario
¿Qué p rocedim ientos de supervisión se llevan a cabo?
análisis de ítem s y fiabilidad de la prueba
cálculo de la fiabilidad de la corrección
222
Sum ario
223
Desarrollo y m ejora de los exámenes
¿Puede sim plificarse la prueba sin que se vean afectadas la validez y la fiabili
dad?
¿Cómo son las pruebas de la competencia? ¿Puede su prueba mejorar lo que ellas
hacen?
¿Revelan los estudios de m ercado la necesidad de cam bio? ¿Hay huecos en el
mercado?
Bibliografía
Alderson, J. C. (1986a). En Leach y Candlin (eds.), Computen in English Language Education
and Research. Longman, Londres.
Alderson, J. C. (1986b). «Innovations in Language Testing?» En M. Portal (ed.).
Innovations in Language Testing, págs. 93—IOS. NFER-Nelson, Windsor, Berks.
Alderson, J. C. (1988a). «Innovations in Language Testing: Can the Microcomputer
Help?» Número especial de Language Testing Update.
Alderson, J. C. y S. W. Windeatt (1991). «Computers and Innovation in Language
Testing.» En J. C. Alderson y B. North (eds.). Language Testing in the 1990s: The
Communicative Legacy. Macmillan, Nueva York.
Alderson, J. C. y D. Wall (1993). «Does Washback Exist?» Applied Linguistics, 14, págs.
115-129.
Bachman, L. F. (1990). Fundamental Considerations in Language Testing. Oxford University
Press, Oxford.
Bachman, L. F. y A. S. Palmer (1981). «A Multitrait-Multimethod Investigation into
the Construct Validity o f Six Tests o f Listening and Reading.» En A. S. Palmer, P. J.
M. Groot y G. A. Trosper (eds.), The Construct Validation of Tests of Communicative
Competence. TESOL, Washington, DC.
Campbell, D. T. y D. W. Fiske (1959). «Convergent and Discriminant Validation by
the Multitrait-Multimethod Matrix.» Psychological Bulletin, 56, pigs. 81—105.
Hymes, D. H. (1972). «O n Communicative Competence.» En J. B. Pride y J. Holmes
(eds.), Sociolinguistics, pigs. 269-293. Penguin, Harmondsworth.
Linacre, J. M. y B. D. Wright (1992). FACETS: Many-Facet Rasch Measurement. MESA Press,
Chicago.
Lynch, B., F. Davidson y G. Henning (1988). «Person dimensionality in language
test validation.» Language Testing, 5 (2), pigs. 206—219.
Wall, D. y J. C. Alderson (1993). «Examining Washback.» Language Testing, 10 (1),
pigs. 41—69.
224
11 Criterios de la evaluación de lenguas:
el estado de la cuestión
En este capítulo final se tratan los principios y los criterios que hemos pretendido
establecer e ilustrar en este libro hasta el momento. Cada capítulo ha tratado un
estadio distinto del proceso de redacción y de evaluación de las pruebas, y ha des
crito lo que consideramos como «práctica deseable» en la evaluación de idiomas.
Al mismo tiempo hemos intentado ilustrar la práctica habitual en una zona en par
ticular —el Reino Unido—y en un grupo de pruebas: las de inglés como segunda
lengua o lengua extranjera. Si hubiéramos descrito la práctica de otras partes del
mundo o de otros idiomas en el Reino Unido, sin duda hubiéramos hecho otro
retrato, quizá m ejor, quizá peor del que hem os pintado en estas páginas. Hay
muchos factores que influyen en el proceso de evaluación: prácticos, financieros
y políticos. Distintos responsables de distintas pruebas pueden empezar con la
m ism a idea, pero acaban con instrumentos y procedimientos m uy diferentes a
causa de las limitaciones del entorno en el que trabajan. Heaton (1988: 24) uti
liza el término «com prom iso» para describir el tira y afloja que está siempre pre
sente en el proceso de elaboración de una prueba. Si tales compromisos resultan
inevitables, al menos debemos garantizar que estén basados en ciertos principios.
Tener una idea clara de cuál es la mejor práctica ayudará a los responsables de la
prueba a ver qué elementos pueden permitirse sacrificar y cuáles deben mantener
a pesar del alto coste. Aquí reside el significado de «criterios» (standards).
225
Criterios de la evaluación de lenguas: el estado de la cuestión
226
Standards for Educational and Psychological T estin g ...
bien im portante darse cuenta de que algunos docum entos reconocen a otros
com o fuente de inspiración. Ha habido mucho intercambio en esta área hasta
el m om ento, y es probable que continúe en el futuro.
11.2.1. Antecedentes
Quizá los criterios m ás conocidos son los Standards for Educational and Psychological
Testing, a los que m uchos se refieren com o los «criterios APA». Estos criterios
fueron publicados en 1985 por The American Educational Research Association (AERA),
The American Psychological Association (APA) y The National Council on Measurement in Edu
cation (NCME). APA y AERA habían pubÜcado por separado «recomendaciones
técnicas» para pruebas a m ediados de los años cincuenta y, junto con NCNE,
contribuyeron a la publicación de sus prim eros criterios conjuntos en 1966.
Estos fueron revisados en 1974 y de nuevo en 1985. La versión de 1985 incluye
la gran cantidad de cambios que tuvieron lugar en el campo de la evaluación en
los años setenta, incluyendo adelantos técnicos, nuevos usos de las pruebas para
«preocupaciones sociales crecientes sobre el papel de la evaluación en la logro
de objetivos sociales» (página 5). Suponem os que habrá otra revisión durante
la presente década.
11.2.2. Propósito
El docum ento de los criterios es suficientemente explícito en cuanto a su pro
pósito:
El propósito al publicar este documento es el de facilitar criterios para la
evaluación de pruebas, prácticas evaluativas y los efectos producidos por esta
práctica [...] Pueden aportar un marco de referencia para garantizar que se
tratan los aspectos importantes [...] Todos los responsables de la elaboración
de pruebas, los que las costean, los editores, y los usuarios deberían hacer
esfuerzos para cumplir estos criterios y animar a otros a hacer lo mismo
(página 2).
Se da por hecho que hay pruebas que no ofrecen la calidad que el público
espera de ellas: los criterios pueden utilizarse com o una base para identificar
las pruebas que cum plen con sus objetivos y las que no. El docum ento reco
noce que «la utilización de criterios en litigios es inevitable» (página 2 ); sin
em bargo, se han ideado com o guía para contribuir a la tom a de decisiones,
pero no de form a prescriptiva. En realidad, hay que señalar recientes debates
con AERA sobre cóm o, o sobre si los criterios deberían «im p o n erse». El
Comité de Revisión los ve claramente com o voluntarios, aunque con un grado
de obligación moral.
El prefacio al documento de los criterios da información detallada sobre cómo
cree el Comité de Revisión que éstos deberían operar:
227
Criterios de la evaluación de lenguas: el estado de la cuestión
11.2.3. Objetivos
Los criterios van dirigidos a las pruebas, según se definen en el documento de
la siguiente forma:
Por pruebas se entiende instrumentos de habilidad (aptitud y
aprovechamiento) tipificados, mecanismos de diagnóstico y evaluación,
listados de intereses, listados de personalidades e instrumentos de proyección
[...] En los criterios se cubren tres categorías amplias de instrumentos de
evaluación: tareas para evaluar la actuación, cuestionarios, y en menor medida,
muestras de actuaciones (páginas 3—4).
Sin em bargo, los criterios no sólo van dirigidos a los instrum entos de eva
luación sino también, y sobre todo en la revisión de 1985, al uso de las prue
bas y, en particular, a sus aplicaciones y a los procedimientos administrativos.
Procuran ser completos, dirigiéndose a «u n uso mayoritario de las pruebas, a
los aspectos técnicos relativos a una amplia gam a de preocupaciones sociales y
legales, y a las distintas necesidades de los participantes en el proceso de eva
luación» (página v iii).
228
Standards for Educational and Psychological T estin g ...
7 7 .2 .5 . Características distintivas
Los criterios comprenden tres tipos distintos de recomendaciones: criterios pri
m arios, secundarios y condicionales. Los criterios primarios deberían:
cumplirlos todas las pruebas antes de su utilización y deberían cumplirse en
todas las utilizaciones posibles, a no ser que haya una razón profesional de
peso que demuestre por qué no es necesario o técnicamente posible en un
caso en particular. Los responsables de la elaboración de las pruebas y sus
usuarios, al igual que los patrocinadores de la prueba, deben poder explicar
por qué alguno de los criterios primarios no se ha cumplido (página 2).
Los criterios secundarios, por otra parte, son deseables, pero pueden encon
trarse «m ás allá de lo que puede esperarse en muchas situaciones» (página 3).
Tales criterios describen procedimientos beneficiosos pero pueden ser difíciles
de poner en práctica cuando los recursos son limitados. Un ejemplo de criterio
secundario es el número 2.10:
Los errores típicos de corrección deberían hacerse públicos si afectan a los
límites para pasar la prueba. Si se especifican las notas de corte para selección
229
C riterios de la evaluación de lenguas: el estado de la cuestión
Aunque sería útil para los patrocinadores de la prueba, para los adm inistra
dores y otros el poderse referir a tal tipo de manual, podría resultar poco razo
nable pretender que una persona responsable de la elaboración de la prueba
elabore un manual para cada versión de la misma, especialmente si se adm inis
tra más de una versión cada año. Esto no significa que no tenga que haber docu
m entos que respondan a las preguntas de futuros usuarios, sino que estos
documentos pueden tener el formato de informes breves en lugar de publicarse
oficialmente en forma de folletos.
Además de distinguir entre criterios esenciales y los que pueden no tenerse
en consideración si las circunstancias lo piden, el docum ento también facilita
un comentario explicativo para ciertos criterios. Este comentario contiene una
información general, una justificación, una ejemplificación y una explicación
de la redacción del criterio: pretende contribuir a la comprensión, no constituir
otro principio que deba ser tenido en cuenta.
11.2.6. Comentario
Por lo que hem os dicho se puede deducir que los criterios son m uy totalizado
res. Aunque a primera vista puedan abrum am os, con 16 apartados y 181 direc
trices, una vez que el lector se haya fam iliarizado con la organización de las
definiciones y se hayan leído los prólogos y el comentario, no son difíciles de
comprender. Existen, sin embargo, dos aspectos que quisiéramos comentar.
El primero es que no está claro por qué los criterios secundarios se conside
ran m enos «prim ordiales» que los criterios prim arios. Alrededor del diez por
ciento de todas las directrices corresponden a esta categoría «secundaria», que
significa que los evaluadores no necesitan seguirlos si creen que no son prácti
cos, ni tienen que explicar por qué no los han seguido. Naturalmente, si los eva
luadores se concentran en los criterios primarios, su práctica será tan correcta y
estará tan bien documentada que la falta de los criterios secundarios ni se notará;
sin em bargo, es difícil entender las razones para decidir qué criterios pueden
soslayarse.
230
Code of F air Testing Practices in E ducation...
El segundo aspecto tiene que ver con el entorno educativo en el que se utili
zan las pruebas. En Estados Unidos existe una gran dependencia del uso de prue
bas normalizadas; una serie de preocupaciones sobre los problemas que pueden
resultar de este tipo de evaluación es lo que llevó, en primer lugar, al desarro
llo de los criterios. En otros entornos, las pruebas norm alizadas pueden ser
m enos corrientes y presentar, por tanto, m enos causas de preocupación sobre
posible abusos o usos erróneos.
Sin em bargo, la fam iliaridad con los criterios es útil para los evaluadores o
profesores de idiom as, para los evaluadores de programas y para los investiga
dores de lingüística que necesiten elaborar o utilizar pruebas de idiomas, y no
pretendemos excusam os por haber tratado este conjunto de criterios en detalle.
11.3.1. Antecedentes
A principios de los años ochenta, durante el periodo en que los Criterios de eva
luación educativa y psicológica estaban en el estadio de revisión final, la APA empezó
a preocuparse por la cantidad de críticas dirigidas hacia la práctica de la evalua
ción en Estados Unidos y sobre el volumen de legislación y los litigios relacio
nados con los exámenes y su uso. Aunque la edición revisada de los Criterios
iba a tener en cuenta el papel cambiante de las pruebas en la sociedad, algunos
m iem bros de la APA creyeron que sería útil centrarse en cómo mejorar la prác
tica de la evaluación. Se celebró una conferencia en 1984, que congregó a repre
sentantes de la APA, de la AERA, de NCME, de la Canadian Psychological Aaoaation y
a 23 editores de pruebas. Se constituyó el Joint Committee on Testing Practices (JCTP)
y se form ó un grupo de trabajo que estudiara la posibilidad de crear un código
de comportamiento para evaluadores. El resultado de su trabajo fue el Code of Fair
Testing Practices in Education (Diamond y Fremer, 1989: passim ).
11.3.2. Propósito
El propósito del Código es «establecer las principales obligaciones hacia los can
didatos y hacia los profesionales que elaboran o que utilizan pruebas en educa
ción» (JCTP, 1980: 1). No es intención del Código el modificar o complementar
él documento sobre criterios del año 1985, sino el subrayar ciertos aspectos tra
tados, en particular los relativos al uso correcto de las pruebas en educación.
Como los Criterios, el Código está preocupado sobre todo por las pruebas elabora
das de forma profesional, incluyendo las producidas por editores comerciales,
m ás que por las pruebas a pequeña escala elaboradas por profesores o escuelas.
Está redactado en un estilo que pretende ser comprensible para el público en
general; de hecho, su parte introductoria afirma que debe ser «significativo para
los candidatos y /o para sus padres o tutores» (página 2).
231
C riterios de la evaluación de lenguas: el estado de la cuestión
11.3.3. Objetivos
El Código especifica directrices para los redactores de pruebas y para sus usuarios.
Considera que los redactores son «las personas que elaboran la prueba así como
las que diseñan la política de unos program as de evaluación en particular», y
que los usuarios son «las personas que seleccionan pruebas, encargan su elabo
ración, o toman decisiones a partir de las notas de las m ism as» (página 1). Reco
noce que estos papeles pueden solaparse en ocasiones, como se daría en el caso
de que el M inisterio de Educación decidiera elaborar un nuevo exam en para
complem entar un nuevo program a de enseñanza a escala nacional, y utilizara
los resultados de la prueba para juzgar la eficacia del programa.
232
Code of F a ir Testing Practices in E ducation..,
En el apartado D hay cinco directrices. Sin embargo, en esta sección los redac
tores y los usuarios tienen las mismas obligaciones, que tienen que ver con faci
litar a los que van a hacer la prueba la información que necesitan para decidir,
ante todo, si se presentan a la misma, familiarizarse con el nivel exigido, obte
ner copias de la prueba una vez realizada, solicitar una nueva corrección, pre
sentar una reclamación, etc.
7 7 .3.5. Comentario
El Code of Fair Testing Practices in Education pretende reforzar m uchos de los princi
pios que ya aparecieron por prim era vez en los Criterios APA/AERA/NCME,
pero se lim ita a las pruebas de educación. Aunque sienta principios para los
responsables de la elaboración de pruebas, va dirigido en realidad a los usua
rios de las pruebas y a los candidatos, dándoles aquella inform ación a la que
tienen derecho antes y después de la adm inistración de una prueba. El fo r
m ato de los principios es fácil de utilizar y el lenguaje no incluye térm inos
técnicos. Com o en los Criterios, en el Código se utiliza el término «debería» en
lugar de « d e b e » , m ás obligatorio; sin em bargo, insiste en las obligaciones
m orales de los responsables de la prueba y de los usuarios, una vez que han
decidido cum plir el Código:
Las organizaciones, las instituciones y aquellas personas que suscriben el Código
se comprometen a defender los derechos de los candidatos siguiendo los
principios listados (página 2).
233
C riterios de la evaluación de lenguas: el estado de la cuestión
Al contrario del docum ento de los Criterios, el Código otorga el m ism o peso a
todas sus directrices: no se discute sobre qué criterios pueden ser deseables aun
que no prácticos en la vida real. Esto puede ser debido a que el Código pretende
operar a un nivel general, m ientras que el docum ento de los Criterios da reco
m endaciones m ucho m ás técnicas y detalladas.
ALTE ha adoptado este Código «para hacer explícitos los criterios que pretende
cumplir, y para reconocer públicam ente las obligaciones bajo las que opera»
(página 3).
El Código está inspirado de cerca en el de JCTP y utiliza m ucha de su termino
logía. Se dirige a los responsables de la elaboración de exámenes, a sus usuarios
y a los candidatos, y cubre las m ism as áreas que el JCTP. Sin embargo, es inte
resante su tono. Con referencia a los responsables de los exámenes, el Código dice,
para cada apartado: «En la práctica, esto significa que los m iem bros de ALTE
garantizarán lo siguiente: ...» (ib., passim ).
Este nuevo código para los responsables de exámenes debe ser bienvenido; será
interesante ver cómo puede llevarse a la práctica y cómo puede supervisarse.
7 1.4.1. Antecedentes
En 1981, el Educational Testing Service (ETS) de Estados Unidos adoptó los ETS Stan
dards for Quality and Fairness. El propósito del docum ento era hacer explícitos los
principios, la política y las directrices que el ETS pretendía seguir en su deseo
de asegurar «transparencia en la evaluación, información al público, calidad y
equidad» (página iii). Los Criterios del ETS se encontraban entre los documentos
consultados por el Standards Revisión Committee de AERA/APA/NCME a prin
cipios de los años ochenta, cuando estaban intentando actualizar sus propios
criterios y hacerlos más sensibles a los cam bios educativos en Estados Unidos.
Varios años m ás tarde, el ETS devolvió el cumplido, analizando el documento
234
ETS Standards for Q uality and F airn ess...
11.4.2. Propósito
Los Criterios del ETS pretenden garantizar el producto y los servicios de una orga
nización en particular. Contienen criterios explícitos para juzgar la actuación de
los profesionales de la evaluación, en cuanto a los principios, la política y las
directrices. El ETS deja m uy claro, sin embargo, que sus Criterios se han redac
tado teniendo presente el propio ETS; por ello, quizá no puedan aplicarse a otros
organism os o a otras personas.
235
C riterios de k evaluación de lenguas: el estado de la cuestión
11.4.5. Comentario
Los criterios del ETS son claros y comprensibles: se han escrito para profesio
nales de la evaluación más que para el público en general, pero su organización
y redacción los hace; fáciles de seguir. El documento incluye un glosario de siete
236
Standards for Educational Testing M ethods...
páginas que clarifica los términos clave utilizados en las directrices que se deben
seguir durante el proceso.
La cobertura de los criterios es también amplia. El ETS trata la calidad técnica
de las pruebas y sus responsabilidades hacia los usuarios y los candidatos; ade
m ás el ETS trata temas relacionados con la accesibilidad de la información para
investigadores y para el público en general.
Sin embargo, la característica más importante de estos criterios no es su redac
ción o su cobertura, sino el hecho de que se escribieron para ser cum phdos.
Puesto que el no cumplirlos, si no se explica de forma m uy convincente, puede
traer serias consecuencias (incluyendo la reducción del program a), los profe
sionales del ETS deben considerar de form a m uy cuidadosa todos los pasos que
siguen a la hora de preparar un producto para su público y no pueden perm i
tirse a sí m ism os ni a sus colegas caer en la complacencia. N o está claro si tal
control sería posible o incluso deseable para los evaluadores en general. Este es
uno de los temas que debe considerarse en futuros debates sobre criterios.
11.5.1. Antecedentes
En 1986 Nevo y Shohamy escribieron sobre una adaptación que habían hecho
de los Standards for Evaluación of Educational Programs, Projects and Materials (1981). Estos
criterios los había desarrollado a lo largo de los años el Joint Committee on Stan
dards for Educational Evaluation, com puesto por m iem bros de AERA, APA,
NCME y otras nueve organizaciones. Se redactaron para servir como guía a los
profesionales relacionados con la evaluación de programas educativos y se pre
tendía que el establecimiento de un conjunto de principios comunes contribu
yera a la m ejora de la práctica de la evaluación en el campo de la educación.
El Comité redactó una lista de 30 criterios, divididos bajo cuatro grandes titula
res: criterios de utilidad, de viabilidad, de adecuación y de corrección. Dedicaron
un capítulo a cada uno de los criterios, con una definición formal del criterio, un
prólogo explicando por qué era importante, directrices para los investigadores para
cumplirlo, una lista de posibles dificultades, una lista de advertencias y un histo
rial de casos problemáticos que tuvieron los investigadores en el pasado cuando no
eran conscientes del criterio o no lo siguieron. El historial va acompañado de con
sejos para ayudar a futuros investigadores a evitar los mismos problemas.
Nevo y Shohamy intentaron extender tales criterios a los métodos de evaluación.
A partir de los 30 criterios originales del comité, elaboraron una lista de 23 que
creyeron adecuados para la evaluación. Se eliminaron algunos criterios originales,
se combinaron otros, y se añadieron uno o dos nuevos. Al igual que el comité, divi
dieron sus criterios en cuatro apartados. Organizaron estos apartados en un orden
distinto, pero dejaron los criterios más o menos agrupados de la misma forma que
en el documento original. Todos los criterios se redactaron de nuevo para adap
tarlos a los métodos de evaluación y no a los programas de evaluación.
237
-------- ----------------------------------------- ----------------------------------------- —
238
Standards for Educational Testing M ethods...
11.5.3. Comentario
Aunque las propuestas de Nevo y de Shohamy tratan aspectos técnicos de la eva
luación (como por ejemplo B - l, medición válida: «La evaluación se lleva a cabo
mediante instrumentos y procedim ientos que facilitan información válida para
un uso con creto»; y B-2, m edición fiable: «La evaluación se lleva a cabo
mediante instrumentos y procedimientos que facilitan información viable para
un uso co n creto »), m uestran m ayor interés en el contexto de la situación de
evaluación y la consideración que la prueba en sí merece al público; los infor
mes; el efecto de la prueba en los candidatos, la educación y la sociedad. La via
bilidad política de una prueba (C-2: «La evaluación se planifica y se lleva a cabo
teniendo en cuenta las distintas posiciones de los diversos grupos de interés,
para poder obtener su cooperación») es un problem a que no aparece en otros
conjuntos de criterios de evaluación. En el docum ento original del comité, el
criterio se presentaba de la siguiente forma:
La evalu ación se d eb ería plan ificar y llevar a cab o teniendo en cuenta las
distin tas p o sic io n e s de los diversos g ru p o s d e interés p ara p o d e r obten er su
co o p erac ió n y p o d e r con trolar o contrarrestar cu alq u ier p osib le intento p o r
parte d e u n o de estos g ru p o s d e acortar las operacion es evaluativas o d e aplicar
lo s re su ltad o s d e fo rm a p arcial o errón ea (p ágin a 5 6 ).
239
C riterios de la evaluación de lenguas: el estado de la cuestión
11.6.1. Antecedentes
The Schools Examination and Assessment Council (SEAC) fue fundado por el gobierno del
Reino Unido en los años ochenta para regular los criterios y los procedim ien
tos de elaboración de exámenes en el contexto del National Curriculum para escue
las de enseñanza primaria y secundaria de Inglaterra y Gales. A partir de entonces
se ha reorganizado y se ha cam biado su nom bre por el de Schools Curriculum and
Assessment Authority (SCAA).
En Inglaterra y Gales, a la edad de 16 años los alumnos de secundaria deben
presentarse a unos exámenes que, para muchos, marcan el final de sus estudios:
las pruebas para obtener el General Certifícate of Secondary Education (G CSE). Tales exá
menes son elaborados por distintos grupos u organism os examinadores, que a
lo largo del tiempo han producido gran número de currículos, exámenes y prác
ticas evaluativas distintas.
Con la aparición del National Curriculum, se vio la necesidad de racionalizar esta
pluralidad de programas y de sistemas, y de regular la preparación y validación
de exámenes por parte de los distintos grupos. A finales de los años ochenta, el
Secretario de Estado para Educación pidió a SEAC que preparara un código de
comportamiento para la administración de los exámenes del GCSE en Inglate
rra y Gales. «Se requiere el cumplimiento del código para la aprobación de las
calificaciones del GCSE y de los currículos asociados, según el apartado 5 de la
Ley de Reforma Educativa de 1988» (SEAC, prólogo).
11.6.2. Propósito
El Mandatory Code pretende garantizar la «calidad y consistencia en el proceso de eva
luación para todos los grupos que ofrecen las pruebas del CGSE. Garantizará que
los criterios de puntuación sean constantes para cada asignatura en todos los tri
bunales de exámenes y con los distintos currículos en diferentes años» (loe. d t.).
11.6.3. Organización
El Código de comportamiento obligatorio está dividido en seis apartados, com o sigue:
1. Responsabilidades de los grupos examinadores y del personal del grupo examinador
Define los papeles del consejo rector del grupo, su jefe ejecutivo, los res
ponsables de grupo exam inador, el presidente de los exam inadores, el
exam inador jefe, los exam inadores titulares, los revisores, los asesores,
los examinadores adjuntos y los supervisores principales y adjuntos.
2. La Administración de los exámenes y los esquemas de puntuación provisionales para los exá
menes finales y las pruebas de fin de módulo
Este apartado trata sobre cóm o deberían garantizar los grupos exam ina
dores que los exámenes y los esquemas de puntuación cubran los objeti
240
SEAC's M andatory Code of P ractice...
11.6.4. Comentario
Quizá la característica m ás destacada de este Código de comportamiento es que sea
prescriptivo, es decir, legalmente obligatorio. Todavía no se sabe cóm o funcio
nará, cómo se aplicará y se supervisará, y qué sanciones se impondrán si hay un
grupo que no cumple con alguno de sus requisitos. Será interesante ver su evo
lución a lo largo del tiempo.
El segundo punto que hay que considerar es que este Código se refiere a prue
bas o exámenes orientados a medir el aprovechamiento, cuyos currículos fun
cionan com o program as de enseñanza en las escuelas y cuyo contenido está
definido por ley a través del National Curriculum. Así pues, el Código afecta igual
mente a la evaluación del trabajo de clase y de las pruebas de fin de m ódulo y
a los exámenes.
Dado que el inglés com o lengua extranjera no forma parte del National Curri
culum, las pruebas de esta materia no se ven afectadas por el Código, aunque sí se
verá afectado el inglés como lengua materna, al igual que otras lenguas moder-
241
C riterios de la evaluación de lenguas: el estado de la cuestión
ñas. Está por ver si los tribunales que elaboran exámenes de inglés para extran
jeros deciden voluntariamente adherirse a este código; a nosotros, por nuestra
parte, nos gustaría poder analizar de cerca los m otivos de cualquier centro que
decida no extender este código (que, según se dice, está basado «e n la m ejor
práctica evaluativa») a las asignaturas no reguladas, por ejemplo el inglés como
lengua extranjera.
Finalmente, es interesante señalar que el gobierno del Reino Unido ha con
siderado adecuado legislar sobre la evaluación de parte del uso de la lengua
inglesa, mientras ignoraba otros muchos aspectos. El cinco por ciento de la pun
tuación de cada sección escrita de los exámenes (excepto en las partes de res
puesta m últiple y en las que deben responderse en una lengua extranjera)
corresponde a la ortografía, la puntuación y la gramática, de acuerdo con tres
criterios de actuación: umbral, interm edio y avanzado. El hecho de que unos
criterios acordados intem acionalmente se im pongan de una manera tan pres-
criptiva es un punto discutible, que trataremos en el próxim o apartado.
242
Estado de la cuestión en la evaluación del inglés...
¿Los criterios deberían ser muy detallados? ¿Dónde se traza la línea entre el deta
lle esencial y la trivialidad?
¿Qué tipo de lengua debería usarse: lengua comprensible por los evaluadores o
lengua que puede comprender el público en general?
¿En qué idiom as deberían redactarse, y quién hará las traducciones?
¿Los criterios deberían ser idealistas? ¿Deben describir un m ínim o de buena
práctica o el m áxim o?
¿Hasta qué punto deben ser o pueden ser prescriptivos?
¿Debe haber irnos criterios más prescindibles que otros? La distinción entre pri
marios, secundarios y condicionales, ¿es útil o confunde?
¿Deberían ser obligatorios? Si éste es el caso, ¿quién se ocupará de hacerlos cum
plir? Si la respuesta es negativa, ¿cóm o podem os asegurar que todas las partes
harán lo posible para que se cumplan?
¿Hay alguna manera de «com probar» los criterios para averiguar si son efectivos?
243
C riterios de la evaluación de lenguas: el estado de la cuestión
la doble corrección de todos los escritos; la existencia de reuniones para fijar las
puntuaciones; la disponibilidad de los informes de los examinadores jefes; y el
cálculo y disponibilidad de estadísticas sobre la realización de la prueba.
Algunos análisis mostraron, sin embargo, que el acuerdo puede, en algunos
casos, ser más aparente que real. Así, por ejemplo, aunque la mayoría de los tri
bunales calcula la fiabilidad del corrector, la frecuencia con la cual se calcula, cómo
se calcula, y qué ocurre con los resultados varía de forma considerable. De forma
parecida, aunque la doble corrección tiene lugar en la mayoría de los tribunales, lo
que éstos entienden por doble corrección varía, siendo en muchos casos poco más
que un control de algunos examinadores llevado a cabo por el examinador jefe.
Aunque la mayoría de los tribunales tienen sesiones de unificación de criterios para
correctores, lo que realmente ocurre en estas reuniones varía. Necesitaríamos lle
var a cabo una inspección mucho más detallada de las actividades de cada tribunal
para llegar a una descripción precisa de lo que ocurre en realidad.
Así pues, aunque no nos abstenemos de emitir un juicio, es probable que una
evaluación justificada de la calidad de los procedim ientos de control de calidad
deban esperar a esta inspección detallada. Esto sería sólo posible contando con
la colaboración de los tribunales, y sólo tendría sentido llevarla a cabo si hubiera
coincidencia entre lo que debería ocurrir durante la producción de la prueba y
su administración y lo que el investigador quiere averiguar. Los distintos crite
rios que hem os visto en este capítulo son puntos de referencia obvios.
Los resultados del informe parecen demostrar que en general hay información
disponible sobre el contenido de los exámenes pero que el tipo de información y
el grado de detalle que contiene varía de forma considerable. Las recomendacio
nes dirigidas específicamente a los candidatos están ausentes, y pocos centros dan
ejemplos de las actuaciones de los alumnos en exámenes previos. Aunque la mayo
ría de los centros argumentan que existe un «análisis de necesidades» que justi
fica o guía la elaboración de sus exámenes, la naturaleza de tales análisis parece
que varía mucho. La mayoría de los centros parecen interpretar el término «aná
fisis de resultados» de forma equivalente a «preguntar a los profesores».
Los redactores de ítems son por lo general profesores titulados y experimen
tados en inglés com o lengua extranjera, que se consideran en contacto con las
corrientes de pensamiento existentes en la profesión y son, por tanto, capaces
de incorporar tales ideas a los exámenes. La falta de redactores profesionales a
tiempo completo puede también verse com o una forma de garantizar este con
tacto con la profesión. Los redactores reciben una cantidad considerable de direc
trices relativas al contenido y al m étodo de la prueba. Existen procedim ientos
de m oderación y de revisión final de la prueba, pero es difícil determ inar lo
concienzudos que son. Es posible que varíen entre tribunales, entre los distin
tos com ités, y en particular entre los exam inadores jefes. En otras palabras,
mucho depende de la calidad de las opiniones de personas individuales. En par
ticular, no se conoce la m inuciosidad de los procedim ientos para comparar el
contenido de la prueba con el currículo. Además, no está claro hasta qué punto
los comités de redacción están abiertos a las opiniones de «críticos extem os».
244
Estado de la cuestión en la evaluación del in g lés...
24S
T
Criterios de la evaluación de lenguas: el estado de la cuestión
públicamente. El hecho es que la información existente no está disponible con
facilidad ni públicamente, y costó mucho tiempo y m uchos esfuerzos llegar tan
lejos com o hem os llegado. Esto debería ser innecesario. Si la evidencia que
demuestra la calidad supuesta de la prueba existe, debería estar a disposición del
público. Además, creem os que la inform ación debería estar fácilmente dispo
nible, y no sólo después de haber hecho esfuerzos considerables para obtenerla.
En la actualidad, parece que los diferentes tribunales im pücados en la eva
luación del inglés com o lengua extranjera hacen cosas distintas, con distintos
grados de rigor, para supervisar la calidad de sus exámenes. Los resultados de
este informe muestran que no hay coincidencia en los procedimientos a seguir
por los que elaboraran exámenes de inglés com o lengua extranjera y tampoco
existe un conjunto unitario de criterios que deban seguir.
Creemos que la situación está madura para que los tribunales de exámenes del
Reino Unido y los redactores de pruebas elaboren un conjunto de criterios para todas
las pruebas de inglés como lengua extranjera, y para discutir qué procedimientos
serían los más apropiados para garantizar el cumplimiento de tales criterios.
11.9. Conclusión
La evaluación de idiom as todavía no tiene unos criterios comunes con los que
poder evaluar, comparar o seleccionar las pruebas. La necesidad de tales crite
rios se está discutiendo y ya se está trabajando en el tema, lo que puede con
ducir al desarrollo de unos criterios apropiados reconocidos intemacionalmente.
Sin em bargo, creemos que este libro ha dejado claro que la teoría de la eva
luación de idiom as ya ha ñjado un conjunto de principios que pueden inspirar
la elaboración de pruebas y la investigación en el cam po de la evaluación. Estos
principios se recogen bajo etiquetas tales com o validez, fiabilidad, practicidad
o viabilidad, e impacto o efecto de rebote. Los redactores de pruebas tienen tam
bién un conjunto de procedimientos generalmente aceptados para el desarrollo
y adm inistración de pruebas si se pretende que tales pruebas representen lo
mejor de la prácdca profesionaL Este libro ha pretendido explicar los principios
y describir los procedim ientos. Tam bién hem os podido describir la práctica
habitual de un grupo de redactores de pruebas. La práctica varía de forma con
siderable en cuanto a su naturaleza, su concreción y su calidad.
Existen, sin embargo, razones comprensibles de que no haya ninguna prueba
que se adapte a todos los principios y procedimientos, y esperamos que la m ayo
ría de los redactores de pruebas sean conscientes de la necesidad de m ejorar de
forma continuada sus procedimientos y sus productos. Esperamos que este libro
haya indicado no sólo dónde pueden mejorar éstos, sino también cómo pueden
producirse esas mejoras, y esperamos llevar a cabo un nuevo informe en el futuro,
con respecto al Reino Unido o con miras internacionales, sobre el inglés u otros
idiomas. Esperamos que las cosas evolucionen, que haya mejoras y que progrese
la profesionalidad de los evaluadores, de los tribunales de exámenes y de las com
pañías comerciales, de los ministerios y de los colegios y universidades.
246
Bibliografía
Bibliografía
A m erican E ducation R esearch A ssociation , A m erican Psych ological A ssociation , y
N ation al C oun cil o n M easurem en t in Education ( 1 9 8 5 ). Standard for Educational and
Psychological Testing. A m erican Psych ological A ssociation , Inc., W ashin gton , DC.
A ssociation o f L an gu age Testers in E urope (1 9 9 4 ). The ALTE Code of Practice. ALTE,
C am bridge.
D iam on d , E. E. y J. Frem er ( 1 9 8 9 ). «T h e Jo in t C om m ittee on T estin g Practices and
the C o d e o f Fair T estin g Practices in E d u catio n .» Educational Measurement: Issues and
Practice. N ú m e ro de prim avera.
H eaton , J. B. ( 1 9 8 8 ). Writing English Language Test. 2 1 ed ició n , L on gm an , Londres.
Jo in t C om m ittee o n Stan dards fo r Educational Evaluation (1 9 8 1 ). Standards for
Evaluations of Educational Programs, Projects, and Materials. M cG raw -H ill, N ueva York.
Jo in t C om m ittee on T estin g Practices ( 1 9 8 8 ). Code of Fair Testing Practices in Education.
A m erican P sy ch ological A ssociation , W ash in gton , DC.
N evo, D. y E. Sh oh am y ( 1 9 8 6 ). «E valu ation Standards for the A ssessm ent o f
A lternative T estin g M eth ods: an A p p lic atio n .» Studies in Educational Evaluation, 12,
p ig s . 149—158.
Pollitt, A. ( 1 9 9 0 ). Standards. Notes prepared for a meeting to discus language testing standards.
U n iversity o f C am b rid g e Local E xam in ation s Syndicate, C am bridge.
Sch ools E xam in ation an d A ssessm en t C oun cil ( 1 9 9 3 ). Mandatory Code of Practice for the
GCSE. SEAC, Londres.
247
A p é n d ic e s
248
A p é n d ic e 1
249
A péndices
250
A p é n d ic e 2
JC A /A IG D
N o v ie m b re d e 1 9 9 0
Q u erid o colega:
251
Apéndices
A tentam ente,
J. Charles A lderson
C oord in ad or
Lancaster Language Testing Research Group
252
Cuestionario y carta explicatoria enviada a los tribunales de exámenes
Cuestionario
El objetivo de este cuestionario es establecer y confirmar las prácticas seguidas
por los tribunales británicos de exámenes de ESOL a la hora de elaborar, validar
y administrar sus exámenes. Puede darse el caso de que alguna de la
información que puede Ud. darnos sea confidencial o de uso restringido. Por
favor indique en sus respuestas a las preguntas que siguen si este es el caso.
Puede ser que no quiera responder a una pregunta en particular o que la
pregunta sea irrelevante. Si se encuentra en una de estas dos situaciones, por
favor indíquelo al lado de la pregunta correspondiente.
Puede que le parezca, una vez completado el cuestionario, que hay aspectos
importantes de su trabajo que no hemos cubierto o señalado suficientemente. Si eso
ocurre, por favor indíquelo en una carta por separado o al final del cuestionario.
Finalmente si la práctica o los procedimientos son distintos según la prueba,
indique por favor las diferencias donde sea necesario.
253
.Apéndices
ELABORACIÓN DE LA PRUEBA
11. ¿Qué criterios utilizan a la hora de nombrar
redactores de ítems o de pruebas?
12. ¿Para cuánto tiempo se nom bran los redactores?
13. ¿Con cuánta antelación respecto a la fecha de examen se
pide a los redactores que empiecen a redactar sus ítems?
14. ¿Cuánto tiem po se da a los redactores para que elaboren
el prim er borrador de un ítem?
15. Una vez que el redactor entrega el prim er borrador,
¿qué sucede?
254
Cuestionario y carta expiicatoria enviada a los tribunales de exámenes
VALIDACIÓN
25. Además de los procedim ientos anteriores para la validación de aspecto
y de contenido, los siguientes tipos de validez:
a) ¿son pertinentes?
b) ¿se estiman o calculan?27*
pertinente estimada
i) validez concurrente Sí No Sí No
ii) validez de predicción Sí No Sí No
iii) validez del constructo Sí No Sí No
¿Llevan a cabo estudios de validación específicos
en sus exámenes? Sí No
En caso de respuesta afirmativa, facilite detalles
o una copia de los informes relevantes.
27. En caso de que se administren distintas versiones
de su examen, ¿se toman m edidas para asegurar
que son equivalentes? Sí No
En caso de respuesta afirmativa, incluya por favor una
descripción de tales medidas.
255
Apéndices
ADMINISTRACIÓN
29. ¿Se da una formación específica a los administradores? Sí No
En caso afirmativo, ¿quién da esta formación
y cuanto tiempo dura?
30. ¿Se supervisa la administración de la prueba? Sí No
En caso afirmativo, ¿quién? ¿Qué ocurre como
resultado de la supervisión?
CORRECCIÓN
31. ¿Qué criterios se utilizan para el nombramiento
de correctores?
32. ¿Para cuánto tiempo (meses, años) se nom bran
los correctores? 35678*
33. ¿Hay algunas secciones del examen
a) que se corrigen de form a objetiva, por ejemplo,
por m edio de una m áquina o de un corrector? Sí No
b) que se corrigen de form a centralizada, por
ejemplo, por m edio de equipos de trabajo? Sí No
c) que se corrigen de form a local, por m edio
personas que trabajan solas, por ejemplo,
el administrador de la prueba o un equivalente? Sí No
¿Convocan una «sesión de unificación de criterios»
para los correctores? Sí No
En caso afirmativo, ¿cómo se llama a este tipo de reunión?
¿Cuánto tiempo dura normalmente?
35. Si su tribunal mantiene una «sesión de unificación de
criterios», ¿qué ocurre habitualmente durante esta sesión?
36. ¿Qué pasos se dan al final de la sesión de unificación
de criterios para establecer el grado de acuerdo
entre correctores?
37. ¿Una vez empezada la corrección, se lleva a cabo
la doble corrección de algunos ejercicios escritos? Sí No
En caso de respuesta afirmativa, ¿en qué proporción?
38. ¿Qué ocurre si no hay acuerdo entre el prim er y el
segundo corrector? Dibuje un círculo alrededor del
número que corresponda:
256
Cuestionario y carta explicatoria enviada a los tribunales de exámenes
RESULTADOS
42. ¿Se mantienen otras reuniones antes de la publicación
de resultados (reuniones de adjudicación de
puntuaciones, reuniones de examinadores)? Sí No
En caso de respuesta afirmativa, ¿qué forma toman
estas reuniones?
43. ¿Se siguen procedimientos específicos para la decisión
sobre las puntuaciones de aprobado/suspenso o los
límites entre notas? Sí No
En caso afirmativo, ¿puede describir tales procedimientos
o mandarnos o darnos referencias sobre publicaciones
o informes relevantes?45
44. Redactan informes los examinadores jefes? Sí No
Ji éste es el caso, ¿están a disposición
a) de los profesores? Sí No
b) de los estudiantes? Sí No
c) sólo de forma restringida? Sí No
Si tales informes existen, ¿podría enviamos una copia?
Si no puede m andam os una copia, ¿podría describir
más abajo o por separado lo que habitualmente
contiene un informe de este tipo?
45. ¿Se calculan estadísticas sobre los ítems o pm ebas
cuando el examen ha concluido? Sí No
En caso afirmativo, ¿cuáles?
En caso afirmativo, ¿qué ocurre con los resultados?
257
Apéndices
REVISIÓN DE EXÁMENES
46. ¿Se recogen comentarios sobre sus exámenes? Sí No
En caso afirmativo, ¿cóm o y quién la recoge?
47. ¿Existen procedim ientos rutinarios que garanticen que sus
exámenes se revisan teniendo en cuenta los comentarios? Sí No
48. ¿Cada cuánto tiempo, por término m edio,
se revisan sus exámenes?
49. ¿Hay aspectos importantes de sus procedimientos
de control de calidad que crea que no han sido
incluidos en este cuestionario? Sí No
En caso afirmativo, dé detalles m ás abajo o por separado.
50. ¿Existen planes para hacer cam bios en los procedimientos
que realizan, tal com o se han descrito antes? Sí No
En caso de respuesta afirmativa, por favor facilite detalles
junto con una estimación sobre cuándo serán operativos.
51. Se dice que la fuerza de los exámenes británicos de
inglés com o lengua extranjera reside en su relación
con la docencia. ¿Está de acuerdo? Sí No Algo
¿Puede describir cóm o puede demostrarse esta
relación con respecto a su examen?
52. También se dice que los criterios y procedimientos
«am ericanos» o «psicom étricos» no son pertinentes
para los exámenes británicos. ¿Está de acuerdo? Sí No Algo
Si está de acuerdo (parcialmente), ¿qué criterios y /o
procedim ientos no son relevantes para sus exámenes?
53. ¿Cuáles son, en su opinión, los puntos fuertes
de sus exámenes?
54. ¿Cuáles son, si los hay, los puntos débiles de sus exámenes?
Pretendemos publicar los resultados de
este estudio de form a anónima. ¿Preferiría que
nom bráramos su tribunal en nuestra presentación? Sí No
258
A p é n d ic e 3
G A -G B
TA
259
A p é n d ic e 4
Estadísticas de distribución
Imaginar que ocho estudiantes tuvieron los siguientes resultados:
12 28 19 15 15 35 14 15
La media
La m edia es la suma de todas las notas, dividida por el número de estudiantes:
M — m edia X = la puntuación
£X _ 12 + 28 + 1 9 + 15 + 15 + 35 + 1 4 + 1 5 _ 153 _
N 8 " 8 “ 1
La m edia es pues 19,13.
La moda
Es la nota más frecuente. En este caso hay tres 15, y sólo una de cada una de las
otras notas. La m oda es por lo tanto 15.
La mediana
La mediana es la nota del medio, o el punto medio en las notas. Primero se orde
nan las notas de m ayor a menor:
35 28 19 15 15 15 14 12
A continuación se calcula el punto medio de las notas. Puesto que hay ocho estu
diantes, el punto m edio está entre la cuarta y la quinta nota (hay cuatro notas
por encima de este punto, y cuatro por debajo). Puesto que la cuarta y la quinta
notas son las dos un 15, el punto m edio es un 15. La mediana es un 15.
Si las notas hubieran sido 3 5 - 2 8 - 1 9 - 1 7 - 1 5 - 1 5 - 1 4 —12, la m ediana hubiera
sido el 16.
Si hubiera habido un núm ero impar de notas, la mediana hubiera sido enton
ces la nota del m edio. Por ejem plo, si las notas fueron 3 5 - 2 8 - 1 9 - 1 7 -1 5 , la
mediana hubiera sido 19.
260
Estadísticas de distribución
El rango
El rango es la diferencia entre la nota m ás alta y la nota más baja. El rango es:
3 5 -1 2 = 23.
La desviación típica
Es la raíz cuadrada de la desviación media al cuadrado de la media de las notas
de los alumnos.
(X —M )2
DT =
/ N - 1
N = el número de alumnos
Notas:
a) Utilizar la m edia exacta; no corregir ningún
decimal.
b) El resultado de la sum a de los núm eros en
(X—M) debería ser 0.
X (X -M ) (X -M )2
35 15,875 252,02
28 8,875 78,77
19 - 0,125 0,02
15 - 4 ,1 2 5 17,02
15 - 4 ,1 2 5 17,02
15 - 4 ,1 2 5 17,02
14 - 5 ,1 2 5 26,67
12 - 7 ,1 2 5 50,77
0 ” X (X -M )2 = 458,91
261
.Apéndices
262
A p é n d ic e 5
X = suma de
Ejemplo
1. Hacer una lista de los resultados de los estudiantes en cada prueba igual
que en la tabla de la página siguiente. Asegúrese de que las dos puntua
ciones del m ism o estudiante están en una m ism a línea. Por ejem plo, las
notas del estudiante A son 20 y 12, y las del estudiante G son 13 y 17.
3. Encontrar las diferencias entre las dos escalas de cada estudiante (d), dedu
ciendo el número m enor del mayor. La diferencia entre las dos escalas del
estudiante A es 3—1 = 2 . 4
263
Apéndices
X d2 = 5 7 ,5 0
N = 10
Xd2 = 5 7 ,5 0
1-
i 6X57,5 \
rho - 1 1 - 0 , 3 4 8 4 = 0,6516
1^10(100— 1) J
264
A p é n d ic e 6
3. Dar a cada alum no dos escalas, una para la prueba im par y una para la
prueba par.
4. Calcular la correlación por orden de escala entre los dos grupos de escalas.
rho = 1 —
5. Esta correlación entre las dos mitades de la prueba nos dice la fiabilidad de
una prueba que fuera la mitad de la prueba completa. Para averiguar la fia
bilidad para toda la prueba, debe utilizarse la fórmula correctiva de Spear
m an Brown:
= 2r,hh
1 + rhh
rK = fiabilidad
265
Apéndices
Estudiante Resultado Resultado Resultado Escala Escala
en toda en la mitad en la mitad en la mitad en la mitad
la prueba impar par impar par d d2
A 15 8 7 2,5 3 0,5 0,25
B 8 6 2 4,5 9 4,5 20,25
C 9 6 3 4,5 7,5 3 9
D 6 2 4 8 5,5 2,5 6,25
E 3 0 3 10 7,5 2,5 6,25
F 10 5 5 6 4 2 4
G 14 4 10 7 1 6 36
H 18 10 8 1 2 1 1
I 2 1 1 9 10 1 1
J 12 8 4 2,5 5,5 3 9
X d 2 = 9 3 ,0 0
N = 10 E d 2 = 93
ruu = 1 - í . . 6? '6X93 \
2 . U i - I - i - n t í . — HA A.
2rhh _ 2 X 0,44
r“ “ 1 + rhh “ 1 + 0 ,4 4 “ ° ’61 Por lo tanto rtt = ° - 61
266
A p é n d ic e 7
Kuder Richardson 21
fórmula es la siguiente:
nv —M (n —M)
r tt
(n - l)v
r« = el índice de fiabilidad
V = varianza de la prueba
M = nota media
97
2. La nota m edia es de ^ , por lo que M = 9,7.
4. nv = 2 0 X 2 6 , 9 = 538
5. n-M = 2 0 - 9 , 7 = 10,3
7. n- 1 = 2 0 - 1 = 19
8 ( n - l) v = 19 X 26,9 = 511,1
_ nv —M (n —M)
rtt ( n —l ) v
538-99,91 4 3 8 ,0 9 n oc,
'« = 511,1 = 7 ÏÏT = 0’857
267
.Apéndices
La razón de que este índice de fiabilidad sea tan distinto del de las dos mitades
se debe probablem ente a que el núm ero de alumnos es m uy pequeño y a que,
por tanto, los resultados están m uy influidos por el factor azar. Si hubiera habido
100 estudiantes, o incluso 50, los dos índices habrían sido probablemente m uy
parecidos, aunque el índice de las dos mitades habría sido ligeramente m ás bajo.
268
A p é n d ic e 8
Paquetes estadísticos
IT E M A N Part of the M icroCA T testing system
A s se ss m e n ts S y ste m s C o rp o r a tio n ,
2 2 3 3 , U n iv e r s ity A v e n u e , S u ite 4 0 0 ,
S t. P a u l,
M in n e so ta 5 5 1 1 4 ,
U SA .
270
Glosario
A nálisis Rasch
Véase T eoría de respuesta al ítem .
271
*
se com binarán para form ar una prueba que sea equivalente en dificultad y
discriminación a las pruebas previas del m ism o tipo (capítulo 4).
B im odal (Bimodal)
Se llama bim odal a una distribución que tiene dos m odas (capítulo 4).
Clave (Key)
Una clave es el conjunto de respuestas aceptables en una prueba de correc
ción objetiva. En una clave sólo hay una respuesta aceptable para cada ítem
(capítulo 5).
C urtosis (Kurtosis)
La curtosis se refiere a la indinación de la curva de distribución de una prueba
(capítulo 4).
272
Glosario
nes. La descripción de los contenidos es un documento público, a menudo
mucho m ás simplificado, que indica a los usuarios lo que incluirá la prueba.
Mientras que las especificaciones son para los redactores de la prueba y para
los que necesitan evaluar si una prueba cum ple con su objetivo, la descrip
ción de los contenidos va dirigida a los profesores y a los estudiantes que
desean prepararse para la prueba, a personas que deben tomar decisiones con
respecto a las notas de la prueba y a editores que desean elaborar materiales
relacionados con la prueba (capítulo 2). (Véase Especificaciones.)
D escriptores (Descriptors)
Los descriptores son las definiciones que describen los niveles de actuación
en cada punto o prácticam ente en cada punto de una escala de valoración
(capítulo 5).
Ensayos (Trialling)
Véase Ensayos previos.
273
Exámenes de idiomas. Elaboración y evaluación
a probarla con un centenar de estudiantes, pero, en cualquier caso, su obje
tivo principal es limar los principales problem as antes de los ensayos genera
les (capítulo 4).
Entrevistador (Interlocutor)
Una persona (a m enudo un profesor) que interacciona con el candidato en
una prueba de expresión oral para obtener una producción lingüística, m ien
tras que otra persona llamada examinador evalúa la actuación del candidato
(capítulo 5). (Véase Exam inador.)
274
Glosario
Especificaciones (Specifications)
Las especificaciones de una prueba constituyen la descripción oficial de lo que
una prueba evalúa y cóm o evalúa lo que pretende evaluar. Las especificacio
nes son la guía a seguir por los redactores de la prueba y de los ítems, y tam
bién son esenciales para establecer la validez del constructo de la prueba
(capítulo 2). (Véase Descripción de los contenidos.)
275
Exámenes de id io m a s. Elaboración y evaluación
cíente de correlación, o mediante algún tipo de análisis de la varianza (capí
tulo 6). (Véase Fiabilidad intem a.)
Fórm u la Ej 3
Véase índice de discrim inación.
M edia (Mean)
La nota m edia de una prueba es lo que comúnmente se llama la media; esto
es, la sum a de las notas de todos los estudiantes dividida por el núm ero de
estudiantes (capítulo 4).
M ediana (Median)
La mediana es la nota obtenida por el estudiante que se encuentra en la mitad
de los resultados obtenidos por la totalidad de los estudiantes. Si, por ejem
plo, cinco alumnos responden a una prueba, u obtienen unas notas de 9, 7,
6, 2 y 1, la mediana sería de 6. La mediana es particularmente útil cuando el
evaluador cree que la media no es, de alguna manera, representativa del nivel
de habilidad de todo el grupo (capítulo 4).
276
Glosario
M oda (Mode)
La m oda es la nota obtenida por el mayor número de estudiantes (capítulo 4).
Ponderación (Weighting)
Los redactores de pruebas a m enudo creen que hay ítems más importantes
que otros y que tales ítems deberían tener más peso. Dar valor añadido a algu
nos ítems se conoce como ponderación (capítulo 7).
Prueba t (T-test)
La prueba t se lleva a cabo para averiguar si la diferencia entre dos medias es
signiñcativa (capítulo 6).
277
Exámenes de idiomas. Elaboración y evaluación
Pruebas de corrección subjetiva (Subjective testing)
Estas pruebas hacen referencia a los ítems o tareas en las que los examinadores
no pueden aplicar juicios del tipo «correcto» o «incorrecto». Deben evaluar la
calidad de la respuesta de un candidato a una tarea, y para ello deben utilizar una
«escala de valoración» (capítulo 5). (Véase Pruebas de corrección objetiva.)
278
Glosario
Rango (Range)
El rango es la diferencia entre las notas más altas y las más bajas de una prueba
(capítulo 4).
R eferencia a la n o rm a (Norm-referenced)
Si una prueba se considera con referencia a la norma pretende ordenar a los
alum nos en algún tipo de escala, para poderlos com parar unos con otros
(capítulo 4 ). (Véase Referencia a un criterio.)
V alidez (Validity)
La validez define hasta qué punto una prueba m ide lo que se supone que
mide: se refiere al uso o usos que se darán a las calificaciones de una prueba
y a las formas en las que pueden interpretarse estas calificaciones, por lo que
siempre está relacionada con el propósito de la prueba. Aunque el único capí
279
Exámenes de idiomas. Elaboración y evaluación
tulo del libro que hace referencia a la validez en su título es el número 8, el
concepto de validez es central en todos los capítulos, desde el dedicado a las
especificaciones hasta el que trata de los criterios.
280
Glosario
281
Abreviaturas y acronimos
282
Abreviaturas y acrânimos
283
Bibliografía
A lderson, J. C. ( 1 9 7 8 ). A Study of the Cloze Procedure with Native and Non-Native Speakers of
English. Tesis doctoral in édita, U n iversid ad de E dim bu rgo .
A lderson, J. C. ( 1 9 7 9 ). «T h e C loze P rocedure an d P roficien cy in E nglish as a F o reig n
L a n g u a g e .» TESOL Quarterly, 13 (2 ), p ig s . 2 1 9 —2 2 7 . R eim p reso en J. W . Oiler
(e d .), ( 1 9 8 3 ) . Issues in Language Testing Research. N e w b u ry H o u se, R ow ley, M ass.
A lderson, J. C. ( 1 9 8 0 ). «N a tiv e an d N on -n ative Speaker P erform ance o n C loze Test »
Language Learning, 13 (1 ), p ig s . 5 9 - 7 6 .
A lderson, J. C. (1 9 8 6 a ). En Leach y C an dlin (e d s.), Computers in English Language Education
and Research. L o n gm an , L ondres.
A lderson, J. C. (1 9 8 6 b ). «In n o v atio n s in L an gu age T e stin g ?» En M. Portal (e d .),
Innovations in Language Testing, p i g s . 9 3 - 1 0 5 . N FER -N elson, W in dsor, Berks.
A lderson, J. C. (1 9 8 8 a ). «In n o v atio n s in L an gu age T estin g: Can the M icro com p u ter
H e lp ?» N ú m e ro especial d e Language Testing Update.
A lderson, J. C. (1 9 8 8 b ). « N e w P rocedures fo r V alidating Proficiency Tests o f ESP?
T h eory an d P ractice.» Language Testing, 5 (2 ), p ig s . 2 2 0 —2 3 2 .
A lderson, J . C. ( 1 9 9 0 ). «T e stin g R ead in g C o m p reh en sio n Skills (Part T w o ): G ettin g
Students to Talk ab o u t T akin g a R e ad in g T est (A Pilot S tu d y ).» Reading in a Foreign
Language, 7 (1 ), p ig s . 4 6 5 - 5 0 2 .
A lderson, J. C. (1 9 9 1 ). «D is-sp o rtin g L ife .» En A ld erson J. C. y B. N orth, (e d s.),
Language Testing in the 1990s. M acm illan, Londres.
A lderson, J. C. (1 9 9 3 ). «Ju d g e m e n ts in L an gu age T e stin g .» En D. D ou glas, y C.
Chapelle, A New Decade of Language Testing. TESOL, A lexandria, V irginia.
A lderson, J. C. y G. Buck (1 9 9 3 ). «Stan d ard s in T estin g: A Survey o f the Practice o f
U K E xam in ation B o ard s in EFL T e stin g .» Language Testing, 10 (2 ), p ig s . 1—26.
A lderson, J . C. y C. M . C lapham (1 9 9 2 a ). «A p p lie d Linguistics an d L an gu age Testin g:
a Case Study o f the ELTS T e st.» Applied Linguistics, 13, p ig s . 149—167.
A lderson, J. C. an d C. M. C lapham (1 9 9 2 b ). Examining the ESTS Test: An Account of the First
Stage of the ELTS Revision Project. IELTS Research R eport 2. T h e British Council,
U n iversity o f C am b rid ge Local E xam in ation Syndicate an d International
D evelopm en t P rogram o f A ustralian U n iversities an d C olleges, C am bridge.
A lderson, J. C , K. K fah n ke y C. Stan sfield (e d s.), (1 9 8 7 ). Reviews of English Language
Proficiency Tests. TESOL, W ash in gton , DC.
A lderson, J. C. y Y. L ukm an i ( 1 9 8 9 ). «C o g n itio n an d Levels o f C o m p reh en sio n as
E m b o d ied in Test Q u e stio n s.» Reading in a Foreign Language, 5 (2 ), p ig s . 2 5 3 —2 7 0 .
A lderson, J . C. y B. N orth (e d s.), ( 1 9 9 1 ). Language Testing in the 1990s. M acm illan,
Londres.
A lderson, J. C. y D. W all ( 1 9 9 3 ). «D o e s W ashback E x ist?» Applied Linguistics, 14, p ágs.
1 1 5 -129.
A lderson, J. C , D. W all y C. M. C lapham ( 1 9 8 6 ). An Evaluation of the National Certificate in
English. Centre for R esearch in L an gu age E ducation, U n iversid ad d e Lancaster.
284
Bibliografía
285
Exámenes de idiom as. Elaboración y evaluación
Criper, C. y A. Davies (1988). ELTS Validation Project Report, ELTS Research Report 1 (I).
The British Council y University of Cambridge Local Examination Syndicate,
Londres y Cambridge.
Crocker, L. y J. Algina (1986). Introduction to Classical and Modem Test Theory. Holt Rinehart
Winston, Chicago.
Davidson, F. y B. Lynch (1993). «Criterion-Referenced Language Test Development.
A Prolegomenon.» En A. Huhta, K. Sajavaara y S. Takala (eds.), Language Testing: New
Openings. Institute for Educational Research, Universidad de Jyvaskyla, Finlandia.
Davies, A. (1991). The Native Speaker in Applied Linguistics. Edinburgh University Press,
Edimburgo.
Diamond, E. E. y J. Fremer (1989). «The Joint Committee on Testing Practices and
the Code o f Fair Testing Practices in Education.» Educational Measurement: Issues and
Practice. Número de primavera.
Douglas, D. (ed.), (1990). English Language Testing in U. S. Colleges and Universities. NAFSA,
Washington, DC.
Ebel, R. L. (1979). Essentials of Educational Measurement. 3* edición, Prentice-Hall,
Englewood Cliffs, NJ.
Ebel, R. L. y D. A. Frisbie (1991). Essentials of Educational Measurement. 51 edición,
Prentice-Hall, Englewood Cliffs, NJ.
Faerch, C. y G. Kasper (1987). Introspection in Second Language Research. Multilingual
Matters, Clevedon.
Gronlund, N. E. (1985). Measurement and Evaluation in Teaching. Macmillan, Nueva York.
Grotjahn, R. (1986). «Test validation and cognitive psychology: some
methodological considerations.» Language Testing, 3 (2), pigs. 159—185.
Guilford, J. P. y B. Fruchter (1978). Fundamental Statistics in Psychology and Education.
McGraw-Hill, Tokio.
Hambleton, R. K., H. Swaminathan y H. J. Rogers (1991). Fundamentals of Item Response
Theory. Sage Publications, Newbury Park, Calif.
Hamilton, J., M. Lopes, T. McNamara y E. Sheridan (1993). «Rating Scales and
Native Speaker Performance on a Communicatively Oriented EAP Test.» Melbourne
Papers in Language Testing, 2, pigs. 1—24.
Heaton, J. B. (1988). Writing English Language Test. 2* edición, Longman, Londres.
Henning, G. (1987). A Guide to Language Testing. Newbury House, Cambridge, Mass.
Hudson, T. y B. Lynch. (1984). «A Criterion Referenced Measurement Approach to
ESL Achievement Testing.» Language Testing, 1, pigs. 171—202.
Hughes, A. (1988). «Achievement and Proficiency: The Missing lin k .» En A. Hughes
(ed.), Testing for University Study, ELT Documents 127. Modern English Publications,
Londres.
Hughes, A. (1989). Testing for Language Teachers. Cambridge University Press,
Cambridge.
Hutchinson, T. y A. Waters (1987). English for Specific Purposes: A Learner Centred Approach.
Cambridge University Press, Cambridge.
Hymes, D. H. (1972). «O n Communicative Competence.» En J. B. Pride y J. Holmes
(eds.), Sociolinguistics, págs. 269-293. Penguin, Harmondsworth.
Ingram, E. (1977). «Basic Concepts in Testing.» En J. P. B. Allen y A. Davies (eds.),
Testing and Experimental Methods. Oxford University Press, Oxford.
Joint Committee on Standards for Educational Evaluation (1981). Standards for
Evaluations of Educational Programs, Projects, and Materials. McGraw-Hill, Nueva York.
286
Bibliografía
Joint Committee on Testing Practices (1988). Code of Fair Testing Practices in Education.
American Psychological Association, Washington, DC.
Kerlinger, F. N. (1973). Foundations of Behavioral Research. Holt, Rinehart and Winston,
Nueva York.
Klein-Braley, C. (1981). Empirical Investigation of Cloze Test. Tesis doctoral, Universidad de
Duisburg.
Lado, R. (1961). Language Testing. McGraw-Hill, Nueva York.
Linacre, J. M. y B. D. Wright (1992). FACETS: Many-Facet Rasch Measurement. MESA Press,
Chicago.
Lord, F. M. (1980). Applications of Item Response Theory to Practical Testing Problems. Lawrence
Erlbaum, Hillsdale, NJ.
Lynch, B., F. Davidson y G. Henning (1988). «Person dimensionality in language
test validation.» Language Testing, S (2), pigs. 206—219.
Magnusson, D. (1966). Test Theory. Addison Wesley, Reading, Mass.
Mathews, J. C. (1985). Examinations: A Commentary. George Allen and Unwin, Londres.
Morrow, K. (1979). «Communicative Language Testing: Revolution or Evolution?»
En C. J. Brumfit y K. Johnson (eds.), The Communicative Approach to Language Teaching.
Oxford University Press, Oxford.
Morrow, K. (1986). «The Evaluation of Tests of Communicative Performance.» En
M. Portal (ed.), Innovations in Language Testing. NEER-Nelson, Windsor, Berks.
Munby, J. (1978). Communicative Syllabus Design. Cambridge University Press, Cambridge.
Nevo, D. y E. Shohamy (1986). «Evaluation Standards for the Assessment of
Alternative Testing Methods: an Application.» Studies in Educational Evaluation, 12,
págs. 149-158.
Oiler, J. (1979). Language Tests at School. Longman, Londres.
Peirce, B. N. (1992). «Demystifying the TOEFL Reading Test.» TESOL Quarterly, 26,
pigs. 665—689.
Pollitt, A. (1990). Standards. Notes prepared for a meeting to discus language testing standards.
University o f Cambridge Local Examinations Syndicate, Cambridge.
Popham, W. J. (1990). Modem Educational Measurement: A Practitioner’s Perspective. 21 edición,
Allyn and Bacon, Boston, Mass.
Robinson, P. (1980). ESP (English for Specific Purposes). Pergamon, Oxford.
Schools Examination and Assessment Council (1993). Mandatory Code of Practice for the
GCSE. SEAC, Londres.
Stevenson, D. K. (1985). «Authenticity, Validity and a Tea Party.» Language Testing, 2
(1), pigs. 41-47.
Swain, M. (1993). «Second Language Testing and Second Language Acquisition: Is
There a Conflict with Traditional Psychometrics?» Language Testing, 10 (2), pigs.
193-207.
Swales, J. (1985). Episodes in ESP. Pergamon, Oxford.
Thorndike, R. L. y E. P. Hagen (1986). Measurement and Evaluation in Psychology and
Education. Macmillan, Nueva York.
Valette, R. M. (1977). Modern Language Testing. 21 edición, Harcourt Brace Jovanovich,
Nueva York.
Wall, D. y J. C. Alderson (1993). «Examining Washback.» Language Testing, 10 (1),
pigs. 41—69.
Wall, D., C. M. Clapham y J. C. Alderson (1994). «Evaluating a Placement Test.»
Language Testing, 11 (3), pigs. 321—343.
287
Exámenes de idiom as. Elaboración y evaluación
288
Indice
289
Exámenes de id io m as. E laboración y evaluación
290
índice
291
Exámenes de idiom as. Elaboración y evaluación
292
índice
293
Exámenes de idiom as. Elaboración y evaluación
294
validez predictiva, 172, 175—177,
281
validez racional, 166, 281
Vallette, R., 49
Vanniariajan, S., 168
varianza, 262
video,
para la formación de los
examinadores, 123
usados en las pruebas, 215
- i
3
Exámenes de idiomas Q
&
à
T radu cción de. N e u s F i g u e r a s or
D ire cto r d e ¡a ..e le c c ió n : A lv a r o G a rc ía S a n t a C e c ilia
C a m b r id g e
U N IV I K S m l ’ Kf- -s
IS B N 84-8323-030-5
ft\ ___
**