Anda di halaman 1dari 297

C am bridge

Exámenes de Idiomas
Elaboración y evaluación

J. Charles Alderson
Caroline Clapham
Dianne Wall
Exámenes de idiomas
Elaboración y evaluación

J.Charles Alderson
Caroline Clapham
Dianne Wall

Traducción de Neus Figueras

CAMBRIDGE
U N IV E R S IT Y P R E SS
PUBLICADO POR THE PRESS SYNDICATE OF THE UNIVERSITY OF CAMBRIDGE
The Pitt Building, Trumpington Street, Cambridge, United Kingdom

CAMBRIDGE UNIVERSITY PRESS


The Edinburgh Building, Cambridge CB2 2RU, UK http://w w w .cup.cam.ac-11^
40 West 20th Street, New York, NY 10011-4211, USA http://w w w .cup.org
10 Stamford Road, Oakleigh, Melbourne 3166, Australia
Ruiz de Alarcon, 13, 28014 Madrid, España

Título original: Language Test Construction


and Evaluation (ISBN 0 521 47829 4)
publicado por Cambridge University Press, 1995
© Cambridge University Press, 1995

Edición española como Exámenes de idiomas,


elaboración y evaluación
Primera edición 1998
© Cambridge University Press, Madrid, 1998
© Traducción española, Neus Figueras, 1998
ISBN 84 8323 0305 rústica

Quedan rigurosamente prohibidas, sin la autorización escrita de los titulares del copyright, bajo las
sanciones establecidas en las leyes, la reproducción total o parcial de esta obra por cualquier medio o
procedimiento, comprendidos la reprografia y el tratamiento informático, y la distribución de ejemplares
de ella mediante alquiler o préstamo público.

Impreso en España por C +I, S.L.


Maquetado en QuarkXPress™ por Yeltes Soluciones Gráficas, S.L.
Depósito legal: M -41566-1998
Sumario

Capítulo 1 Génesis y prólogo ...................................................... 7

Capítulo 2 Especificaciones de examen ..................................14

Capítulo 3 La redacción de ítems


y la función moderadora ....................................... 43

Capítulo 4 Ensayos previos y análisis .....................................74

Capítulo 5 La formación de examinadores


y administradores ..................................................105

Capítulo 6 La supervisión de la fiabilidad


de los examinadores ............................................ 127

Capítulo 7 Informe de resultados y determinación


de la puntuación de aprobado .......................... 145

Capítulo 8 La validación ...........................................................165

Capítulo 9 Los informes posteriores a laprueba ................ 190

Capituló lo Desarrollo y mejora de los exámenes ............. 209

Capítulo 11 Criterios de la evaluación de lenguas:


el estado de la cuestión ......................................225

Apéndices ........................................................................................248

Glosario ....... 271

Abreviaturas y acrónimos .......................................................... 282

Bibliografía .....................................................................................284

índice ............................................................................................... 289

5
1 Génesis y prólogo

Este libro va dirigido a profesores de idiom as que tengan la responsabilidad


de elaborar pruebas de competencia lingüística y a profesionales que quizá no
estén directamente im plicados en la docencia pero que tengan que elaborar o
evaluar pruebas o exám enes de idiom as, o interpretar la inform ación resul­
tante de tales pruebas. (Com o la distinción entre «p ru eb a» -test- y «exam en »
-examination—es tan vaga, en este libro utilizarem os am bos términos indistin­
tamente.) Aunque nuestros ejemplos provengan en su m ayor parte del campo
del inglés com o lengua extranjera, los principios y la práctica que describi­
m os pueden aplicarse a la evaluación de cualquier otro idiom a, y este libro es
sin duda relevante para profesores y evaluadores de cualquier lengua, ya sea
considerada com o segunda lengua o lengua extranjera, ya lo sea com o p ri­
m era lengua.
Los profesores en activo deben elaborar a m enudo pruebas de nivel para los
alumnos nuevos, pruebas de final de trimestre o pruebas parciales de aprove­
chamiento para los diferentes cursos de una institución, o quizá sean los res­
ponsables de la elaboración de series de pruebas de aprovechamiento al final de
un período de estudio relativamente largo.
Entre los no docentes que deben saber cóm o preparar pruebas se cuentan las
personas que trabajan para tribunales de exámenes e instituciones oficiales, que
necesitan m edidas válidas y fiables para evaluar el aprovechamiento.
Entre otras personas que pueden tener que elaborar exámenes se incluyen
estudiantes graduados, investigadores y académicos de lingüística aplicada, que
necesitan exámenes com o parte de sus investigaciones. Los exámenes pueden
ser una forma de obtener los datos lingüísticos que son objeto de estudio o el
m edio para obtener información sobre la competencia lingüística con el fin de
poder comparar ésta con otra variable lingüística.
Pero adem ás de aquellos que necesitan elaborar pruebas, se encuentran los
que quieren entender cóm o funcionan éstas y cómo deberían elaborarse para
poder entender m ejor el proceso de evaluación, o para poder seleccionar entre
una colección de pruebas a su disposición el instrumento m ás adecuado a su
situación particular. Estas personas tienen a m enudo dificultades a la hora de
valorar las cualidades que las distintas fuentes de producción de exámenes atri­
buyen a sus propios instrum entos. Al entender lo que constituye una buena
práctica en el terreno de la evaluación y conociendo las prácticas m ás corrien­
tes, estos lectores tendrán suficiente información para decidir y escoger aque­
llo que m ejor se adapte a sus objetivos.

7
Génesis y prólogo

En este libro describim os el proceso de elaboración de pruebas, desde el


borrador de las especificaciones iniciales hasta la publicación de resultados y la
elaboración de nuevas pruebas, incorporando novedades y comentarios sobre
los resultados de la convocatoria anterior. Este libro pretende describir e ilus­
trar la buena práctica en el desarrollo de exámenes y los principios de diseño,
elaboración y administración que deben fundamentar esta buena práctica.
El libro se divide en once capítulos, cada uno de los cuales trata un estadio en
el proceso de elaboración de las pruebas. En el capítulo 2 se trata el conjunto de
especificaciones en las que se basará el examen. En el capítulo 3 se describe el
proceso de redacción de cada uno de los ítems que pasará a formar parte de la
prueba y el análisis, discusión y selección a que debe someterse toda prueba. En
el capítulo 4 se discute sobre la importancia de los ensayos previos a la primera
versión de la prueba y se describe cóm o deben analizarse las pruebas en esta
fase. En el capítulo 5 se trata la formación de los correctores y administradores
de la prueba, mientras que en el capítulo 6 se muestra cóm o supervisar la fia­
bilidad de los examinadores. En el capítulo 7 se tratan aspectos relacionados con
la fijación de criterios de comportamiento y la publicación de resultados, mien­
tras que en el capítulo 8 se describen aspectos del proceso de validación de las
pruebas. En el capítulo 9 se describe cóm o deben redactarse y presentarse los
informes sobre el funcionamiento de la prueba com o tal y en el capítulo 10 se
discute cóm o se pueden desarrollar y mejorar los exámenes a partir de la expe­
riencia y de la investigación. En el capítulo final se discute la cuestión de los cri­
terios en la evaluación de idiom as y se describe el estado actual de la cuestión.
Sin duda esta breve descripción de los contenidos del libro puede parecer
abrumadora: el proceso de elaboración de pruebas es bastante com plejo y exi­
gente. Sin embargo, hem os intentado exponer nuestro trabajo de forma que sea
fácil de utilizar de diferentes maneras. Cada capítulo empieza con un breve enun­
ciado de las cuestiones que se tratarán y concluye con un sumario de los aspec­
tos principales que se han tratado, que pueden consultar profesores atareados,
m iembros de tribunales de exámenes, investigadores y evaluadores de pruebas.
Nuestras descripciones de los principios y procedimientos que constituyen la
evaluación de idiom as no presuponen ningún conocimiento previo sobre eva­
luación o estadística. En realidad, nuestro objetivo es dar a los lectores los cono­
cim ientos técnicos m ínim os necesarios para elaborar y analizar sus propias
pruebas o para evaluar pruebas elaboradas por otros. Sin em bargo, este no es
un libro de texto de psicom etría: existen libros de texto sobre este tema y se
anima al lector interesado en este aspecto de la evaluación a consultar los volú­
menes citados al final de este capítulo. No obstante, debe tenerse en cuenta que
muchos libros de m edición en el campo de la educación no se limitan a la eva­
luación de idiom as sino que con frecuencia presuponen un cierto grado de
conocimiento de matemáticas y una familiaridad con conceptos estadísticos que
sabemos, por experiencia, que la mayoría de las personas implicadas en la eva­
luación de idiom as no posee. Esperamos, sin embargo, que una vez leído este
volumen, estas personas estén preparadas para leer m ás sobre el tema.

8
Génesis y prólogo

tJna de las cosas que no pretendemos en este libro es la descripción detallada


de técnicas de evaluación. Esto es así en parte porque ese tema está tratado
am pliam ente en otros libros, por ejem plo en Oller, 1979; Heaton, 1988;
Idugues, 1990; Weir, 1990; Cohén, 1994. Además, y todavía más importante,
creem os que no es posible tratar este tema con profundidad en las páginas de
este libro. Para seleccionar técnicas de evaluación y para redactar buenos ítems
un redactor de pruebas necesita conocimientos de lingüística aplicada, de didác­
tica y de adquisición de la lengua que no pueden transmitirse de form a ade­
cuada en un libro de recetas, y m ucho m enos en el m ism o libro en el que se
discuten principios y procedim ientos de evaluación. Así pues dirigim os a los
lectores que necesiten una breve ejemplificación de técnicas de evaluación a los
libros de'evaluación citados m ás arriba.
A lo largo del libro complementamos nuestra discusión de los principios de
elaboración de exámenes con ejemplos de cómo ponen en práctica estos prin­
cipios los tribunales de exámenes de inglés como lengua extranjera en el Reino
Unido. En la segunda parte de cada capítulo se ilustra la puesta en práctica de lo
descrito tal com o se lleva a cabo en el Reino Unido.
Nuestro objetivo no es el de proponer que todos los exámenes se elaboren de
la m isma forma en que se hace en los tribunales de exámenes del Reino Unido;
ni m ucho menos. Lo que querem os es facilitar ejemplos concretos que ayuden
a nuestros lectores a comprender m ejor la teoría. Esperamos que esta informa­
ción sea interesante para todos nuestros lectores y no solamente para las miem­
bros de los tribunales de exám enes, aunque creem os que estas personas
considerarán instructivos los procedimientos y las prácticas de otros tribunales.
Aunque los ejemplos que aparecen en este libro están claramente localizados en
un entorno concreto —el Reino U n id o - sabem os por experiencia que en otros
países se siguen prácticas similares y creem os firmemente que la práctica lle­
vada a cabo en un tribunal de exámenes concreto resultará relevante para otros
evaluadores de diferentes partes del m undo con respecto a su propia situación.
Los principios son universales, aunque la práctica varíe.
Hem os descubierto, dirigiendo talleres para evaluadores en ciernes alrededor
del mundo, que las personas interesadas en aprender las técnicas de elaboración
de exámenes, sean de nivel, de aprovechamiento o de competencia, pueden apren­
der de la experiencia de los demás. Presentamos los datos de la práctica habitual
en el Reino Unido de forma crítica: discutimos los puntos a favor y los inconve­
nientes, y hacemos sugerencias para modificar esa práctica con el fin de mejorarla.
El lector verá que incluso los tribunales de exámenes no hacen las cosas a la per­
fección; todos podem os aprender al relacionar los principios con la práctica.
Esta inform ación fue recogida de distintas formas, tal y com o describim os
más adelante, pero prim ero querem os explicar por qué escribimos este libro.
Los tres autores habíam os experim entado una frustración considerable al no
haber obtenido ningún docum ento que diera cuenta de cóm o elaboran sus
pruebas los tribunales de exámenes. Los tres hem os dado clases sobre evalua­
ción de idiom as en cursos de Máster, en cursos de reciclaje para profesores y en

9
Génesis y prólogo
talleres para distintos alumnados alrededor del mundo. Tenemos una experien­
cia considerable con tribunales de exámenes del Reino Unido com o redactores
de ítems, como m iem bros de comités de redacción, com o examinadores, como
responsables de validación y com o investigadores. Estamos todos familiarizados
con la teoría de la evaluación de idiom as y los principios de diseño de exám e­
nes. Sin em bargo, no hem os encontrado una descripción adecuada para la ela­
boración de exámenes que deban poner en práctica estos principios.
Nuestro primer intento de recoger información de forma sistemática sobre los
tribunales de exámenes del Reino Unido empezó en 1986, cuando fuimos invita­
dos a llevar a cabo un proyecto de investigación que debía ofrecer recomendacio­
nes para el control de calidad de los nuevos exámenes de lengua inglesa en Sri
Lanka. Tuvimos una serie de entrevistas con representantes de diversos tribunales
de exámenes de inglés como lengua extranjera para averiguar cómo llevaban a cabo
las pruebas de inglés escrito y hablado. Estas entrevistas dieron como resultado un
número de informes cuyo contenido se consensuó con los interlocutores. Los infor­
mes circularon internamente en Lancaster y estuvieron a la disposición de visitan­
tes y alumnos, pero nunca se publicaron y en ningún caso cubrieron todos los
responsables de la elaboración y administración de exámenes del Reino Unido.
Uno de los autores de este libro fue invitado por Karl Krahnke y Charles Stans-
field para contribuir como redactor en la publicación por parte de TESOL de los
Reviews of English Language Proficimcy Tests (Informes de los exámenes de aptitud en lengua inglesa).
Parte del trabajo incorporaba el encargo de elaborar informes sobre doce exá­
m enes de inglés com o lengua extranjera realizados en el Reino U nido. Estos
inform es, una vez elaborados, se enviaron a los tribunales de exámenes corres­
pondientes por si sus miembros querían hacer comentarios. Se modificaron si éste
era el caso y se publicaron en Alderson et al., 1987. Varios redactores de los infor­
mes coincidían en sus comentarios sobre los puntos fuertes y los puntos débiles
de los exámenes del Reino Unido, y algunos fueron contestados por los tribuna­
les. De los doce exámenes estudiados, nueve fueron criticados por no aportar sufi­
cientes pruebas sobre su fiabilidad y validez, y sólo en dos casos los autores del
estudio se m ostraron satisfechos por los datos que se les facilitaron. Alderson
incluyó en dicha publicación para TESOL el trabajo Ai OverView of ESL/EFL Testing in
Britain (Una descripción de la evaluación del inglés como lengua extranjera o como segunda lengua en
Gran Bretaña), que explicaba la tradición británica a lectores de otros países. En su
anáfisis afirmaba:
«Debido a la necesidad constante de elaborar nuevos exámenes y a la falta de
interés por parte de los tribunales de exámenes sobre la necesidad de una
validación empírica y no meramente subjetiva, estos exámenes nunca (o casi
nunca) se ensayan con estudiantes, ni se someten a los análisis estadísticos
típicos. Los tribunales de exámenes no ven la necesidad de experimentar y
validar sus instrumentos ni tampoco la de llevar a cabo análisis a posteriori de
los resultados de las pruebas. Aunque las preguntas de corrección objetiva de
pruebas se experimentan a menudo, raramente se publican las estadísticas.»
(Alderson et al., 1987.)

10
-

Génesis y prólogo

Este análisis se actualizó para la publicación de un capítulo en Douglas, 1990, sobre


los exámenes de inglés como lengua extranjera del Reino Unido. Para recoger infor­
mación actualizada, Alderson mandó una copia del informe original a los tribunales
de exámenes del Reino Unido y preguntó si todavía eran válidos los comentarios allí
recogidos o si eran necesarias algunas modificaciones. Pocos centros respondieron,
y aquellos que lo hicieron dijeron que la situación no había cambiado.
El grupo The Lancaster Language Testing Research Group decidió a continuación realizar
un estudio sobre los tribunales. Para este propósito tomamos como punto de refe­
rencia el Apéndice en Carroll and West, 1989, y el informe sobre el Proyecto
Marco de la English Speaking Union (ESU). Además, decidim os incluir en nuestro
informe el Schools Examination and Assessment Council (SEAC, antiguamente SEC, el Secon­
dary Examinations Council), un organismo fundado por el gobierno con la responsa­
bilidad de establecer criterios para evaluar exámenes en el campo de la educación
y para determinar la validez de dichos exámenes.
Nuestro informe tenía tres partes. Primero, en diciembre de 1989 escribimos
cartas a cada uno de los tribunales m encionados y al SEAC. Estas cartas conte­
nían las siguientes tres preguntas abiertas, que intentaban recabar los puntos de
vista de los tribunales sobre sus criterios y sobre los procedimientos que utili­
zaban para establecer la fiabilidad y la validez:

1. ¿Tiene criterios concretos a los que se ciñe?


2. ¿Qué procedimientos se siguen para estimar la fiabilidad de sus exámenes?
3. ¿Qué procedim ientos se siguen para asegurar la validez de sus exámenes?

Presentamos los resultados de esta primera fase de nuestra investigación en


una reunión de la Association of British ESOL Examining Boards (ABEEB, Asociación de
tribunales británicos de exámenes de inglés para hablantes de otras lenguas) en
noviembre de 1990.
A continuación, pasam os un cuestionario a los m ism os tribunales en diciem­
bre de 1990. Parte de la segunda mitad de cada capítulo de este libro es un resu­
men de las respuestas a este cuestionario. En mayo de 1991 se mandó una copia
de los resultados del cuestionario a los tribunales im plicados por si tenían
comentarios al respecto y se discutieron aspectos relativos al estudio. Cada tri­
bunal tuvo también la oportunidad de actualizar su respuesta en el caso de que
hubiese habido cam bios en los m eses comprendidos entre diciembre y mayo,
y recibimos respuestas m uy detalladas, en particular del University of Cambridge Local
Examinations Syndicate (UCLES).
En tercer lugar, recibimos gran cantidad de material impreso relacionado con
los distintos exám enes y los distintos tribunales, y lo analizamos con detalle:
presentam os los resúm enes y ejem plos de este análisis en cada capítulo. Sin
em bargo, puede ser de interés para el lector saber qué documentos recibimos.
Se han listado, junto con los nombres de los centros y de los exámenes que ela­
boran, en el apéndice 1.
Un resumen de algunos de los resultados principales de la fase 2 de la inves­
tigación ya apareció en Alderson y Buck, 1993, pero este libro es más detallado

11
Génesis y prólogo
que esa publicación y presenta información más actual. Es posible, naturalmente,
que haya habido cambios en los procedimientos que siguen los tribunales desde
que completamos nuestra investigación. Esperamos no haber malinterpretado a
ningún tribunal de exámenes, pero agradecerem os cualquier corrección, aña­
dido o m odificación que sea necesaria. Puesto que la mayoría de los tribunales
de exámenes prefirieron el anonimato cuando se publicaron los resultados del
estudio, sólo m encionam os los nom bres de aquellos que nos dieron perm iso
para hacerlo o cuando citamos bibliografía ya publicada.
Este libro se ha beneficiado de la experiencia y de los conocimientos obteni­
dos del resultado del estudio. Esperam os que nuestros lectores se beneficien
igualmente de la lectura de este informe sobre la práctica actual junto a la des­
cripción de los principios de la evaluación de idiom as y los procedimientos que
creemos apropiados para la elaboración de exámenes.
Más importante que los detalles de la práctica de los tribunales de exámenes
en sí son los principios que deberían inform ar la práctica de la evaluación de
idiom as y p or esta razón cada capítulo contiene un tratamiento detallado de
estos principios. Tam bién por este motivo cada capítulo termina con una sec­
ción en la que se detalla una lista de las preguntas que un evaluador podría hacer
sobre cualquier examen, o un sumario de lo que deben tener en cuenta los res­
ponsables de la elaboración de pruebas o los evaluadores.
Los principios generales que deberían gobernar el diseño de pruebas son la
validez y la fiabilidad y hacem os referencia constante a am bos conceptos a lo largo
del libro. La validez estudia hasta qué punto un examen mide lo que se pretende
medir: está relacionada con el uso que se hace de las calificaciones y con la forma
en que se éstas se interpretan y está por tanto relacionada con el propósito de la
prueba. Aunque sólo un capítulo, el número 8, hace referencia a este concepto
en su título, la validez es un punto central en todos los capítulos de este libro.
La fiabilidad estudia hasta qué punto los resultados de la prueba son consisten­
tes: si los candidatos hicieran el examen mañana después de haberlo hecho hoy,
¿obtendrían las m ism as notas (presuponiendo que su capacidad no haya cam ­
biad o)? La fiabilidad es una propiedad de la prueba com o instrum ento de
medida, pero también está relacionada con los candidatos que realicen la prueba:
una prueba puede ser fiable con una población pero no con otra. Al igual que
la validez, y aunque sólo se mencione en el título del capítulo 6, la fiabilidad es
un concepto recurrente a lo largo del libro.
Intentamos definir la terminología especializada en evaluación la primera vez
que la utilizam os y por este m otivo no entram os ahora en definiciones. Sin
embargo, facilitamos un glosario de términos importantes relativos a la evalua­
ción para consulta del lector. Som os también conscientes de que la mayoría de
los lectores no estarán familiarizados con las abreviaturas y los acrónim os que
se utilizan habitualmente en la evaluación del inglés como lengua extranjera, y
en particular con los que se usan para referirse a los tribunales de exámenes del
Reino Unido. Hem os facilitado también una lista exhaustiva de estos términos
al final del libro.

12
Bibliografía

La investigación a la que se hace referencia en este libro es el resultado de


m uchos m eses de colaboración entre m iem bros de The Lancaster Language Testing
Research Group y de investigadores visitantes. Estamos m uy agradecidos a las
siguientes personas por su ayuda, su aliento y sus criticas: Joan Allwright, Gary
Buck, Nicki McLeod, Frank Bonkowski, Rosalie Banko, Marian Tyacke, Matilde
Scaramucci y Pal Heltai. También querem os dar las gracias a los diversos tribu­
nales de exámenes, al British Council y al Educational Testing Service, de New Jersey,
por su ayuda.

Bibliografía
Alderson, J. C. y G. Buck (1993). «Standards in Testing: A Survey of the Practice of
UK Examination Boards in EFL Testing.» Language Testing, 10 (2), págs. 1—26.
Alderson, J. C., K. Krahnke y C. Stansfield (eds.), (1987). Reviews of English Language
Proficiency Tests. TESOL, Washington, DC.
Anastasi, A. (1988). Psychological Testing. Macmillan, Londres.
Carroll, B. J. y R. West (1989). ESU Framework: Performance Scales for English Language
Examinations. Longman, Londres.
Cohen, A. (1994). Assessing Language Ability in the Classroom. 21 edición, Newbury
House/Heinle and Heinle, Rowley, Mass.
Crocker, L. y J. Algina (1986). Introduction to Classical and Modem Test Theory. Holt Rinehart
Winston, Chicago.
Douglas, D. (ed.), (1990). English Language Testing in U. S. Colleges and Universities. NAFSA,
Washington, DC.
Ebel, R. L. (1979). Essentials of Educational Measurement. 3* edición, Prentice-Hall,
Englewood Cliffs, NJ.
Ebel, R. L. y D. A. Frisbie (1991). Essentials of Educational Measurement. 5* edición,
Prentice-Hall, Englewood Cliffs, NJ.
Guilford, J. P. y B. Fruchter (1978). Fundamental Statistics in Psychology and Education.
McGraw-Hill, Tokio.
Hambleton, R. K., H. Swaminathan y H. J. Rogers (1991). Fundamentals of Item Response
Theory. Sage Publications, Newbury Park, Calif.
Heaton, J. B. (1988). Writing English Language Test. 2* edición, Longman, Londres.
Henning, G. (1987). A Guide to Language Testing. Newbury House, Cambridge, Mass.
Hughes, A. (1989). Testing for Language Teachers. Cambridge University Press,
Cambridge.
Ingram, E. (1977). «Basic Concepts in Testing.» En J. P. B. Allen y A. Davies (eds.),
Testing and Experimental Methods. Oxford University Press, Oxford.
Lord, F. M. (1980). Applications of Item Response Theory to Practical Testing Problems. Lawrence
Erlbaum, Hillsdale, NJ.
Oiler, J. (1979). Language Tests at School. Longman, Londres.
Popham, W. J. (1990). Modem Educational Measurement: A Practitioner’s Perspective. 21 edición,
Allyn and Bacon, Boston, Mass.
Weir, C. J. (1990). Communicative Language Testing. Prentice-Hall Regent, Englewood Cliffs,
NJ.

13
2 Especificaciones de examen

Las preguntas a las que se pretende responder con detalle en este capítulo son:
¿Qué son las especificaciones de examen? ¿Quién necesita las especificaciones
de examen? ¿Cómo deben ser las especificaciones de examen? ¿Cómo podem os
elaborar las especificaciones de examen? ¿Qué utilizan actualmente los exám e­
nes de inglés com o lengua extranjera com o especificaciones de examen?

2.1. ¿Qué son las especificaciones de examen?


Las especificaciones de un examen facilitan información oficial sobre lo que un
exam en evalúa y cóm o lo evalúa. Las especificaciones son el plan que deben
seguir los redactores del examen y de los ítems y son esenciales para establecer
la validez del constructo de la prueba.
La descripción de contenidos del examen deriva de las especificaciones del
m ism o. Aunque algunos tribunales de exámenes del Reino Unido utilizan espe­
cificaciones (specifications) y descripción de contenidos (syllabus) indistintamente, vem os
una diferencia entre los dos. Una especificación de examen es un docum ento
detallado, y a m enudo es sólo de uso interno. Es a veces de uso confidencial,
sólo para la organización. La descripción de contenidos es un docum ento
público, a m enudo m uy sim plificado, que indica a los usuarios del examen el
contenido del m ismo. Mientras que la especificación de examen es para los que
van a desarrollar y redactar la prueba y para los que necesitan evaluar si una
prueba ha cumplido sus objetivos, la descripción de contenidos va dirigida más
a profesores y a alumnos que quieren prepararse para la prueba, a las personas
que deben tomar decisiones a partir de los resultados de la prueba y a los edi­
tores que quieran producir materiales relacionados con la prueba.
El desarrollo y la publicación de especificaciones y de descripciones de exa­
m en es, pues, una parte crucial en el proceso de elaboración y evaluación de
un examen. Este capítulo pretende describir el tipo de cosas que deben incluir
las especificaciones y las descripciones y considerará los docum entos actual­
m ente dispon ibles de los exám enes de in glés com o lengua extranjera en el
Reino Unido.

2.2. ¿Quién necesita especificaciones de examen?


Tal com o ya h em os sugerido, una am plia variedad de personas necesita las
especificaciones de exam en. En prim er lugar, y principalm ente, son necesa-

14
¿Quién necesita especificaciones de examen?

rías para los que elaboran la prueba. Las personas que van a elaborar la prueba
deben tener m uy claro a quién va dirigida, cuál es su objetivo, el contenido
que cubre, los m étodos que se utilizarán, las partes o secciones en que con­
sistirá, su duración, etc. Además, las especificaciones deberán estar a disposi­
ción de las person as respon sables de analizar y supervisar el trabajo de los
redactores de ítems, sea a título individual o com o equipo. Estos responsables
pueden operar com o com isión o pueden ser exam inadores jefes o m iem bros
del tribunal de exám enes (véase el capítulo 3 para una discusión m ás a fondo
del proceso de análisis, supervisión y edición). En instituciones m ás pequ e­
ñas, puede tratarse de profesores que tengan la responsabilidad de supervisar
una prueba antes de usarla. Las especificaciones deberían consultarse cuando
se revisan las preguntas y las pruebas, por lo que han de estar redactadas de
form a m uy clara para poder consultarlas con facilidad durante el debate. Para
los que elaboran exám enes, las especificaciones deberán ser lo m ás detalladas
posible, y pueden incluso ser confidenciales, especialmente si se trata de un
exam en de selección m uy com petido.
Las especificaciones tam bién son necesarias para los responsables o intere­
sados en establecer la validez de una prueba (es decir, si la prueba evalúa lo
que se pretende evaluar). Estas personas pueden no ser elaboradores de prue­
bas sino individuos independientes cuyas necesidades pueden ser distintas de
las de los elaboradores de pruebas o de los supervisores de su edición. Puede
ser que a los encargados de la validación les resulte m enos im portante tener
inform ación «práctica» de, por ejem plo, la duración y las partes del examen,
y m ás im portante saber la justificación teórica del contenido, las teorías sobre
la lengua y el dom inio de la m isma subyacentes en la prueba y por qué la prueba
es así y no de otra forma.
Los usuarios también necesitan la descripción del contenido de una prueba,
y distintos tipos de usuarios pueden necesitar distintas descripciones. Por ejem­
plo, los profesores que van a ser los responsables de los estudiantes asignados a
su clase mediante una prueba necesitan saber qué significan los resultados de la
prueba: qué saben en particular los alumnos, qué pueden hacer, qué necesitan
aprender. Aunque la interpretación de los resultados supone saber cómo se cal­
culan y publican los m ism os (véase capítulo 7), comprender realmente lo que
significan también tiene que ver con lo que una prueba evalúa, y por tanto con
una form a de especificación.
Los profesores que desean presentar a sus alumnos a un examen oficial nece­
sitan saber qué exam en será el m ás apropiado para ellos con relación al pro­
grama de estudio que hayan seguido. Necesitarán información que les ayude a
decidir qué prueba escoger de las muchas a su disposición. Aquí también ayu­
dará algún tipo de especificación, probablem ente una versión sim plificada,
conocida com o la descripción de contenidos (syllabus).
Las personas responsables de la admisión en distintos tribunales, que tienen
que tomar decisiones a partir de los resultados de la prueba, también necesita­
rán algún tipo de descripción de la prueba que les ayude a decidir si la prueba

15
Especificaciones de examen

es válida para las decisiones que van a tomar: si se trata de la admisión en una
universidad, una prueba que no m ida destrezas lingüísticas académicas tenderá
a ser m enos válida que una que sí lo haga.
Finalmente, las especificaciones de examen son una fuente de inform ación
valiosa para los editores que quieran producir libros de texto relacionados con
la prueba: los autores de libros de texto querrán asegurarse de que las pruebas
prácticas que elaboran, por ejemplo, sean del nivel de dificultad apropiado, con
contenido, temas, tareas, etc. apropiados.

2.3. ¿Qué aspecto deben tener las especificaciones de examen?


Puesto que las especificacion es van a variar según el público al cual vayan
dirigid as, este apartado está d ividido de acuerdo con los distin tos gru pos
de p erso n as que van a n ecesitar e sp ecificacio n es. Sin em b arg o , co m o el
usu ario p rin cip al va a ser el redactor o su p erv isor, el prim er apartado es
m ás extenso e incluye gran parte de lo que puede ser im portante para otros
usuarios.

2.3.1. Especificaciones para los responsables


de la elaboración de la prueba
Las personas que redactan exámenes necesitan una guía práctica que les ayude
en el proceso de elaboración. Necesitan respuestas a tona amplia gam a de pre­
guntas. Las respuestas a estas preguntas pueden también utilizarse para tipificar
una pregunta, un texto, o un banco de pruebas de manera que, una vez que las
preguntas estén escritas y validadas, puedan clasificarse de acuerdo con uno de
los aspectos siguientes y archivarse hasta que sean necesarias.

1. ¿Cuál es el propósito del examen? Los exámenes tienden a encuadrarse en una


de las siguientes categorías: nivel (placement), progreso (progress), aprovecha­
miento (achievement), dom inio (proficiency) y diagnóstico (diagnostic).
Las pruebas de nivel están pensadas para evaluar el nivel lingüístico de los
alum nos con el objeto de poderlos asignar a un curso o clase apropiada.
Estas pruebas pueden basarse en aspectos del program a que se enseña en
la institución o en m ateriales no relacionados con éste. En algunas aca­
dem ias de idiom as los alum nos se agrupan de acuerdo con los resulta­
dos obtenidos de forma que, por ejemplo, los ocho alumnos con mejores
resultados van a la clase de nivel m ás alto. En otros centros puede hacer
falta identificar la habilidad de los alum nos en distintas destrezas com o
pueden ser la lectura y la escritura. En un centro de este tipo un alumno
podría asignarse a la clase de lectura del nivel m ás alto y en la clase de
nivel m ás bajo de escritura, o cualquier otra combinación. En otros cen­
tros la prueba de nivel puede tener com o objetivo saber si los alum nos
necesitan m ás clases o no. Por ejem plo, m uchas universidades adm inis­
tran pruebas a los alum nos de otros países al comienzo del curso acadé-

16
¿Qué aspecto deben tener las especificaciones de examen?

m ico para ver si necesitan clases de lengua o de alguna destreza usada


en la universidad.
Las pruebas de progreso se administran en diferentes m om entos a lo largo de
un curso para ver lo que los alumnos han aprendido.
Las pruebas de aprovechamiento son parecidas a las anteriores, pero tienden a
administrarse al final del curso. El contenido de las pruebas de progreso y
de las de aprovechamiento está normalmente basado en el programa del
curso o en el libro de texto.
Las pruebas de dominio, por el contrario, no están basadas en un programa en
concreto. Están diseñadas para evaluar la competencia de los alumnos en
diferentes cam pos del aprendizaje de idiomas. Algunas pruebas de dom i­
nio, como muchas de las elaboradas por tribunales de exámenes del Reino
Unido, pretenden determinar si los alumnos han adquirido un cierto nivel
de com petencia lingüística. Otras están pensadas para determinar si los
alumnos tienen la suficiente competencia lingüística para poder utilizar la
lengua en un área específica como puede ser la medicina, el turismo o los
estudios académicos. Tales pruebas se denominan a menudo «pruebas para
fines específicos» —Specific Purposes (SP) tests-, y su contenido está norm al­
mente basado en un análisis de necesidades relativo al tipo de contenidos lingüís­
ticos que se requiere para un determinado fin. Por ejemplo, una prueba
de dom inio para los controladores del tráfico aéreo se basaría en las des­
trezas lingüísticas necesarias en la torre de control.
Las pruebas de diagnóstico pretenden identificar las áreas en las que un alumno
necesita ayuda complementaria. Estas pruebas pueden ser bastante gene­
rales y determinar, por ejemplo, si un alumno necesita refuerzo en una de
las cuatro destrezas; o pueden ser m ás específicas, si intentan identificar
los puntos débiles en el uso de la gramática de un alumno en particular.
Estas pruebas de diagnóstico m ás específicas no son fáciles de preparar
puesto que es difícil diagnosticar precisam ente los puntos fuertes y los
puntos débiles entre las complejidades de la competencia lingüística. Por
esta razón en realidad existen muy pocas pruebas de diagnóstico puras. Sin
embargo, se usan con frecuencia pruebas de aprovechamiento y de dom i­
nio, aunque de forma no sistemática, con el propósito de una prueba de
diagnóstico.
2. ¿Qué tipo de estudiante se presentará a la prueba: edad, sexo, nivel de com ­
petencia o estadio de aprendizaje, primera lengua, bagaje cultural, país de
origen, nivel y tipo de educación, motivo para presentarse a la prueba, inte­
reses personales y profesionales, nivel aproxim ado de conocim iento del
mundo?
3. ¿Cuántas secciones o partes debería tener el examen, qué duración deberían tener
y cómo deberían diferenciarse: un examen de tres horas, cinco partes sepa­
radas de dos horas cada una, tres secciones de 45 minutos, comprensión de
lectura separada de la gramática, comprensión oral y expresión escrita inte­
gradas en una única prueba, etc.?

17
Especificaciones de examen

4. ¿Qué situación en la lengua meta se ha previsto para la prueba? ¿Se simulará de


alguna form a en el contenido y el m étodo de la prueba?
5. ¿Qué tipos de texto deberían seleccionarse, escritos u orales? ¿Cuáles deberían
ser sus fuentes, el público al cual van dirigidos, los temas, el grado de auten­
ticidad? ¿Cuál debería ser su dificultad o longitud? ¿Qué funciones com u­
nicativas deberían recoger: persuasión, definición, resum en, etc.? ¿Cual
debería ser el grado de com plejidad de la lengua?
6. ¿Qué destrezas lingüísticas deberían evaluarse? ¿Se especifican microdestrezas?
¿Se deberían diseñar las preguntas para evaluar éstas individualmente o de
forma integrada? ¿Se distinguirá entre las preguntas que evalúen la idea prin­
cipal, los detalles específicos, la inferencia?
7. ¿Qué elementos lingüísticos deberían evaluarse? ¿Existe una lista de estructuras
o aspectos gramaticales? ¿Está el léxico especificado de alguna manera: lis­
tas de frecuencia etc.? ¿Se especifican nociones y funciones, actos de habla
o características pragmáticas?
8. ¿Qué tipo de tareas se requieren: ítems discretos, integrados, «pseudo-autén-
ticos», evaluables de form a objetiva?
9. ¿Cuántos ejercicios se necesitan para cada sección? ¿Cuál es el valor de cada
uno? ¿Se puntúan todos igual o se puntúan m ás los m ás difíciles?
10. ¿Qué métodos de evaluación van a utilizarse: elegir entre diversas o p c io ­
nes, com pletar, relacionar, tran sform acion es, respuestas breves, des­
crip ción de fotos, sim u lación con tarjetas de roles, redacción,
com posición guiada?
11. ¿Qué tipo de instrucciones se utilizarán para explicar a los candidatos qué deben
hacer? ¿Harán falta ejem plos para ayudar a com plem entar un ejercicio?
¿Deben incluirse los criterios de corrección?
12. ¿Qué criterios utilizarán los correctores? ¿Cuál es la importancia de la correc­
ción, de la adecuación, de la ortografía, de la lon gitud de la respuesta,
etc.?

Inevitablemente, algunas de las preguntas descritas cubren espacios pareci­


dos: por ejemplo «tip o de texto», «clase de texto» y «com plejidad de texto» se
solapan. Sin embargo, es útil enfocarlos desde distintos ángulos. La taxonomía
completa de unas especificaciones va m ás allá del objetivo de este capítulo, y en
cualquier caso es im posible que sea exhaustiva dada la naturaleza de la lengua
y la variedad de exámenes que pueden diseñarse. Una taxonomía m uy útil que
los lectores podrían consultar es la desarrollada por Lyle Bachman en Fundamen­
tal Considerations in Language Testing (1 9 9 0 ). Esta taxonom ía está descrita con m ás
detalle en el próxim o apartado, pero para dar al lector una idea de lo que pue­
den contener unas especificaciones para los responsables de la elaboración de
los exámenes, incluim os a continuación un ejem plo ficticio de las especifica­
ciones para una prueba de com prensión de lectura. (Véase Davidson y Lynch,
1993, para un ejem plo de especificaciones m ás detalladas de una prueba de
comprensión de lectura con fines académicos.)

18
¿Qué aspecto deben tener las especificaciones de examen?

EXAMEN DE FRANCÉS PARA ESTUDIOS DE POSTGRADO


Especificaciones para la prueba de comprensión de lectura

Propósito general de la prueba


El Examen de francés para estudios de postgrado es una serie de pruebas
elaborada para evaluar la competencia lingüística en francés de estu­
diantes que no hablan francés como primera lengua y que quieren empe­
zar estudios de postgrado en universidades u otras instituciones en donde
el francés es la lengua de enseñanza.
El objetivo de la serie es la selección de estudiantes que tengan un nivel
suficiente de francés para aprovechar un curso académico y la identifi­
cación de aquellas áreas lingüísticas en las que pueden necesitar ayuda.
Las pruebas se centran en el francés para fines académicos.

Detalle de la serie de pruebas


La serie consiste en cuatro pruebas:

- Comprensión de lectura, 60 minutos.


- Expresión escrita, 60 minutos.
- Comprensión oral, 30 minutos.
- Expresión oral, 15 minutos.

Se facilitan los resultados de cada prueba por separado. Hay un listado


de especificaciones distinto para cada una de las cuatro pruebas.

Prueba de comprensión de lectura


Tiempo permitido: una hora.

Nivel de la prueba. El nivel de comprensión de lectura exigido debería


estar entre los niveles 5 y 7 de la escala de haremos de la English Spea-
king Union (ESU).

Los candidatos deben demostrar capacidad para leer libros de texto, artí­
culos especializados y otras fuentes de información relevantes del mundo
académico. Se espera que los candidatos puedan mostrar capacidad para
usar las siguientes destrezas de comprensión de lectura:

a) lectura general o globalizadora (skimming);


b) lectura selectiva (scanning);
c) obtención del sentido general (getting the gisf);
d) distinción entre ideas principales y secundarias;
e) distinción entre hechos y opiniones;
f) distinción entre afirmaciones y ejemplos;
g) deducción de ideas implícitas y de información;
h) deducción por contexto del uso de palabras no conocidas;

19
Especificaciones de examen
i) comprensión de la estructura interna de la frase;
j) comprensión de las relaciones entre frases y entre párrafos;
k) comprensión de la función comunicativa de frases y párrafos.

Procedencia de los textos: libros de referencia, trabajos, reseñas, artí­


culos sobre temas académicos. Los textos no deberían ser demasiado
específicos, ni discriminar a alumnos que no estén familiarizados con
el tema. Todos los pasajes deberían ser comprensibles para lectores
competentes. Si fuese necesario debería facilitarse un glosario con los
términos técnicos.
Debería haber cuatro textos, basados en distintas disciplinas académicas.
Dos de los textos deberían tratar sobre ciencias naturales y físicas y dos
sobre ciencias sociales. En la medida en que esto fuera posible los textos
deberían ejemplificar géneros distintos. Por ejemplo, un texto podría ser
la introducción a un trabajo académico, y los tres restantes podrían ser
una reseña, una descripción de resultados y una discusión.
Los textos deberían ser interesantes pero no provocar inquietud. Debe­
rían evitarse desastres recientes y tragedias.
Los pasajes deberían estar basados en textos auténticos, pero pueden
modificarse sensiblemente para acortarlos o para corregir errores gra­
maticales.
La longitud total de los pasajes debería ser de entre 2.500 y 3.000 pala­
bras.

Tipo de tarea. Cada pregunta debería evaluar una o más de las destrezas
de comprensión de lectura listadas con anterioridad. Los redactores de la
prueba deberían intentar encontrar el equilibrio entre las distintas destre­
zas y evitar que una o dos estén más representadas a expensas de las
demás.
Tipos de ítem. La prueba de comprensión de lectura debería constar de
40 o 50 ítems, doce para cada pasaje aproximadamente. Cada pasaje y
sus ítems correspondientes formará una sub-prueba. Cada ítem tendrá el
valor de un punto. Los ítems pueden ser de respuesta abierta, pero deben
poder puntuarse de forma objetiva.
Los responsables de la elaboración de la prueba deberían usar tipos de
ítem variados, pueden incluirse:

identificar los titulares apropiados,


relacionar,
etiquetar o completar diagramas, cuadros, esquemas, etc.,
copiar palabras del texto,
transferir información,
preguntas con respuesta breve,
rellenar huecos,
ordenar acciones o procesos.

20
¿Qué aspecto deben tener las especificaciones de examen?

Los responsables de la elaboración pueden utilizar otros tipos de ítems,


pero deberían garantizar que puedan puntuarse de forma objetiva.

Instrucciones. Hay una introducción estándar a la prueba de compren­


sión de lectura al principio de las hojas del examen. Sin embargo, los
redactores deberían proponer sus propias instrucciones y un ejemplo para
cada grupo de preguntas. La lengua utilizada en las instrucciones debe­
ría ser de un nivel no superior al nivel 4 de la escala de baremación de
la ESU.

2.3.2. Especificaciones para los responsables


de la validación de la prueba
Cada prueba tiene una teoría tras ella: una creencia abstracta sobre qué es la
lengua, en qué consiste la aptitud lingüística, qué im plica el aprendizaje de
una lengua y qué hacen los hablantes nativos con la lengua. Esta teoría puede
ser m ás o m enos explícita. La m ayoría de los responsables de la prueba se
sorprenderían al oír que tienen una teoría, pero esto no im plica que no esté
ahí, sólo que lo está de form a im plícita y no articulada en form a de m eta-
lenguaje.
Cada prueba es la puesta en práctica de algunas creencias sobre la lengua,
tanto si el responsable se refiere a un m odelo explícito com o si se basa en la
«in tuición».
T oda teoría contiene constructos (o conceptos p sico ló g ic o s), que son sus
principales com ponentes y la relación entre estos com ponentes. Por ejem ­
plo , algunas teorías sobre la com prensión de lectura afirman que ésta incluye
distintos constructos (lectura globalizadora o skimming, lectura selectiva o scan­
ning, etc.) y que los constructos son distintos entre sí. La validación del cons-
tructo su p on e exam in ar hasta qué punto una prueba evalúa los distintos
constructos.
Para poder llevar a cabo la validación, las especificaciones de una prueba
deben hacer explícitos sus fundamentos teóricos, además de la relación entre la
teoría y el objetivo con el cual se ha elaborado la prueba.
El m od elo de Bachm an m encionado anteriorm ente es un m arco de refe­
rencia teórico que se desarrolló para poder analizar pruebas. Fue usado por
Bachman y otros, 1988, por ejem plo, para com parar pruebas elaboradas por
el University of Cambridge Local Examinations Syndicate (UCLES) y el Educational Testing
Service (ETS), pero podría igualm ente usarse com o parte del proceso de ela­
boración o validación de las pruebas. La taxonom ía se divide en dos grandes
apartados: habilidad lingüística com unicativa y facetas del m étodo utilizado
en la prueba.
El m odelo que sigue a continuación m uestra los componentes que incluye
cada apartado.

21
Especificaciones de examen

Esquemas conceptuales relativos a la habilidad


lingüística comunicativa y a distintos aspectos del
método utilizado, según Bachman

A. HABILIDAD LINGÜÍSTICA COMUNICATIVA

1. COM PETENCIA ORGANIZATIVA


Competencia gramatical
Vocabulario, morfología, sintaxis, fonología/grafología.
Competencia textual
Cohesión, organización retórica.
2. COM PETENCIA PRAGMÁTICA
Competencia ilocutiva
Funciones ideativas, manipulativas, heurísticas, imaginativas.
Competencia sociolingüística
Sensibilidad hacia diferencias de dialecto o variedad, sensibilidad
hacia las diferencias de registro, sensibilidad a la naturalidad, habili­
dad para interpretar referencias culturales y lenguaje figurado.
(Bachman, 1990: capítulo 4.)

B. ASPECTOS DEL MÉTODO UTILIZADO EN LA PRUEBA

1. ASPECTOS DEL ENTORNO DE LA PRUEBA


Familiaridad con el lugar y el material
Personal
Hora de administración de la prueba
Condiciones físicas

2. ASPECTOS DE LAS INSTRUCCIONES GENERALES


Organización de la prueba
Prominencia o peso de las distintas partes, secuencia e importancia
relativa de cada una de ellas.
Tiempo disponible
Instrucciones
Lengua utilizada (materna, objeto de estudio), canal (auditivo, visual),
especificación de procedimientos y tareas, explicitación de criterios
de corrección lingüística

3. ASPECTOS DEL CO N TEN IDO DE LA PRUEBA UNPUT)


Formato
Canal de presentación, modo de presentación (receptivo), forma de
presentación (lingüística, no-lingüística, ambas), vehículo de presen-

22
¿Qué aspecto deben tener las especificaciones de examen?

tación (en directo, pre-grabado, ambos), lengua de presentación


(materna, objeto de estudio, ambas), identificación del problema (espe­
cífico, general), velocidad.
Características de la lengua utilizada
Longitud, contenido proposicional (frecuencia y especialización del
vocabulario, grado de contextualización, distribución de la informa­
ción nueva, tipo de información, tema, género), características orga­
nizativas (gramática, cohesión, organización retórica), características
pragmáticas (fuerza ilocutiva, características sociolingüísticas).

4. ASPECTOS DE LA RESPUESTA PREVISTA


Formato
Canal, modo, tipo de respuesta, forma de respuesta, lengua de res­
puesta.
Características de la lengua utilizada
Longitud, contenido proposicional (vocabulario, grado de contextua-
lización, distribución de la información nueva, tipo de información,
tema, género), características organizativas (gramática, cohesión, orga­
nización retórica), características pragmáticas (fuerza ilocutiva, carac­
terísticas sociolingüísticas).
Deficiencias en la respuesta
Canal, formato, características organizativas, características preposi­
cionales e ilocutivas. Duración o longitud de la respuesta.
5. RELACIÓN ENTRE CO NTENIDO DE LA PRUEBA
(INPUT) Y RESPUESTA
Recíproca
No-recíproca
De adaptación
(Bachman, 1990: 119)

Otros m odelos en los que se han basado las especificaciones de examen recien­
temente son: The Coundl of Europe Threshold Skills, y Communication Needs Processor (1978)
de Munby, que informaron la elaboración y la validación del Test of English for Edu-
cational Purposes (TEEP) a cargo del Associated Examining Board (AEB) y del examen de
la UCLES/British Counril English Language Testing Service (ELTS). Otros modelos de com ­
petencia comunicativa articulados de form a m enos explícita están detrás de la
elaboración, si no de la validación, de pruebas tales como el antiguo Examination
in the Coramunicative Use of English as a Foreign Language (CUEFL) de la Royal Society of Arts
(RSA).
El contenido de las especificaciones de examen para los responsables de la
validación de la prueba dependerá obviamente del marco de referencia teórico
utilizado y no será tratado aquí de forma extensa. Sin embargo, el lector debe­
ría tener en cuenta que gran parte del contenido listado en el apartado anterior
se incluiría en las especificaciones para la validación. Debería ofrecerse, en par­

23
Especificaciones de examen

ticular, inform ación sobre qué habilidades se evalúan, sobre las interrelaciones
entre estas habilidades, sobre qué m étodos de evaluación se usarán y cómo pue­
den influir (o no) estos m étodos en la medición de las habilidades, y sobre qué
criterios se utilizarán para la evaluación.
De m enor im portancia para este tipo de especificaciones son quizá cuestio­
nes como la extensión de la prueba, la duración de cada parte, los ejemplos pro­
vistos para cada tipo de ítem, la longitud de los textos e incluso su dificultad;
en resumen, aquellas cuestiones que guían a los redactores de la prueba en la
producción de los ítems pero que se sabe que no tienen un efecto significativo
en la m edición de la habilidad. Debería señalarse, sin embargo, que los inves­
tigadores de exám enes de idiom as no pueden todavía concretar qué variables
afectan a la validez del constructo y cuáles no, y el consejo más útil, aunque no
el m ás práctico, es que las especificaciones para la validación deberían ser lo más
completas posible.
Discutir el valor de un m odelo o teoría en particular va m ás allá del pro­
pósito de este libro, y es en realidad del d om in io de libros de idiom as, de
enseñanza de la lengua y del uso de la lengua. Sin em bargo, cualquier trata­
m iento adecuado de la elaboración de pruebas debe incluir referencias a las
teorías relevantes. Por ejemplo, Fundamental Considerations in Language Testing (Bach-
man, 1990) es esencialm ente una discusión sobre un m odelo de lenguaje, y
Language Tests at School (1 9 7 9 ), de John Oller, trata de form a extensa su teoría
sobre la gram ática de expectativa pragm ática (grammar of pragmatic expectancy),
de la que se desprende la base para los tipos de pruebas que Oller defiende.
Por desgracia, hay pocos libros de texto para los responsables de la elabora­
ción de pruebas de idiom as que contengan un debate sobre los constructos
que es de suponer van a evaluar las pruebas y sobre los tipos de prueba y los
tipos de ítem que se discuten. Pero no se puede diseñar una prueba de com ­
prensión de lectura sin algún tipo de definición previa de lo que es la com ­
prensión de lectura y de las habilidades que deben m edirse con una prueba
adecuada. Tal definición, pues, debería tam bién form ar parte de las especi­
ficaciones del examen.

2.3.3. Especificaciones para usuarios de la prueba


Las especificaciones que van dirigidas a los usuarios de la prueba (que llamare­
m os en esta discusión especificaciones para usuarios, y que incluye la noción de des­
cripción de contenidos -syllabus- presentada en el apartado 2.1) pretenden dar
a los usuarios una idea clara de lo que mide el examen y para qué debería usarse
el m ism o. Estas especificaciones deberían evitar usos concretos indebidos, ya
conocidos o probables.
Un ejemplo típico de uso indebido es el intento de medir el progreso lingüís­
tico de los estudiantes dándoles la m isma prueba de aptitud al principio y al final
del curso. Estas pruebas son medidas tan toscas que si el intervalo de aplicación es
de tres m eses o inferior, puede no haber m ejora en los resultados de los estu­
diantes, y los resultados de algunos pueden incluso ser más bajos que en un prin-

24
¿Cómo pueden elaborarse las especificaciones de examen?

apio. Para evitar tales usos indebidos, las especificaciones deberían representar de
la forma ibas exacta posible las características, la utilidad y las limitaciones de la
prueba y describir la población para la cual es apropiada la prueba.
Tales especificaciones para usuarios deberían facilitar ejemplos representati­
vos de tipos de ítem o, m ejor, pruebas com pletas, incluyendo todas las in s­
trucciones. Deberían facilitar una descripción de una actuación tipo para cada
nota o para cada nivel de la prueba y, siempre que fuera posible y relevante, una
descripción de lo que se supone que puede hacer «en el m undo real» un can­
didato que aprueba el exam en u obtiene una nota determinada. Además de
ejemplos de ítem s o pruebas, es especialmente útil para los profesores y tam­
bién para los estudiantes el tener ejemplos de actuación lingüística de candida­
tos en pruebas anteriores o en pruebas m odelo, y una descripción de cóm o se
usaron los criterios de evaluación para valorar estas actuaciones.
En m uchos exámenes puede también resultar útil facilitar a los usuarios una
descripción del tipo de curso o de preparación que puede ser apropiada antes
de presentarse a la prueba.
Es m uy importante que los candidatos reciban la información adecuada que
les permita saber exactamente cóm o será la prueba: su duración, su dificultad,
qué m étodos de evaluación incluirá, y cualquier otro tipo de información que
los familiarice con la prueba antes de realizarla. La intención de tales especifi­
caciones para candidatos es la de garantizar, en la m edida que sea posible y
mientras no interfiera con la seguridad de la prueba, que los candidatos puedan
dar lo m ejor de sí m ism os durante la prueba.

2.4. ¿Cómo pueden elaborarse las especificaciones de examen?


El propósito para el que se utilizará la prueba es el punto de partida habitual a
la hora de diseñar las especificaciones de un examen. Este objetivo debería defi­
nirse de la manera m ás completa posible. Por ejemplo:
La prueba A se usa al final del segundo año de una diplomatura de Ciencias de
la Educación de tres años de duración para futuros profesores de inglés como
lengua extranjera. Esta prueba mide si los estudiantes tienen suficiente
competencia en inglés para empezar su período de prácticas durante el tercer
año de estudios. Los estudiantes que suspenden la prueba tienen la
oportunidad de volverse a presentar a una versión paralela dos meses más
tarde. Si vuelven a suspender, deberán repetir el segundo curso de inglés.
Aunque el examen tiene como punto de referencia el inglés que se ha
enseñado durante los dos primeros años, se trata de una prueba de dominio,
no una medida de aprovechamiento, y como tal no pretende reflejar el
programa de la asignatura.

O bien:
La prueba B es una prueba de nivel, diseñada para distribuir a los estudiantes
que han solicitado plaza en los cursos de idiomas de la Alliance Française en clases
apropiadas a su nivel lingüístico.

25
Especificaciones de examen

O bien:
La prueba C está pensada para diagnosticar los puntos fuertes y los puntos
débiles de los estudiantes de cuarto curso de secundaria en gramática alemana.
A partir de los ejem plos citados, debería quedar claro que el objetivo de un
exam en va a influir sobre su contenido. La prueba A deberá incluir con toda
probabilidad la evaluación de habilidades que son relevantes para el uso del
inglés en clase por parte de los futuros profesores durante la fase de prácticas.
La prueba B intentará extraer un muestreo de la descripción de contenidos (sylla­
bus) o de pruebas de aprovechamiento de cada nivel ya realizadas por la m isma
Alliance Franfaise. La prueba C deberá tener com o punto de referencia un m odelo
de gramática del alemán, una lista de las estructuras que los estudiantes deben
conocer en este nivel y probablemente los problemas típicos que tienen los estu­
diantes y los errores que cometen habituahnente.
Una vez determinados el propósito y la población tipo, los elaboradores nece­
sitarán identificar un marco de referencia teórico en el que se pueda basar el exa­
men. Puede tratarse de una teoría lingüística -u n a visión de la lengua en el caso
de los exámenes de dominio (profidmcy tests), o una definición de los componentes
de la aptitud en el caso de los exámenes de aptitud (aptitude tests) - o bien puede
considerarse necesario hacer prim ero un análisis de las situaciones y del uso de
la lengua meta, así com o de las actuaciones lingüísticas que el propio examen
prevé. En este caso, los responsables de la prueba pueden decidir llevar a cabo
un análisis del tipo de trabajo o de las tareas que previsiblemente deberán lle­
var a cabo los estudiantes en el futuro, y puede que tengan que realizar un aná­
lisis de sus necesidades lingüísticas.
Los análisis de necesidades implican habituahnente la recogida de inform a­
ción sobre los contenidos lingüísticos que van a necesitar los candidatos para
realizar la prueba. Este análisis puede implicar la observación directa de perso­
nas en situaciones habituales en la lengua meta para determinar el tipo de varia­
bles relevantes en el uso de la lengua. Puede suponer la realización de
cuestionarios o entrevistas a hablantes de la lengua, la consulta de bibliografía
o el contacto con expertos en el tipo de com unicación analizada. Un ejem plo
del tipo de variables que pueden considerarse es el descrito por Munby en su
Communication Needs Processor (1 9 7 8 ):
Participante; edad, sexo, nacionalidad, domicilio.
Propósito: tipo de inglés para fines específicos (ESP) necesario, y
objetivos para los que va a usarse.
Entorno: por ejemplo: lugar de trabajo, entorno tranquilo o
ruidoso, ambiente conocido o no conocido.
Interacción: papel del participante; por ejemplo: situación en el
trabajo, personas con las que se relacionará, relaciones
de rol y relaciones sociales.
Instrumento: medio, modo y canal de comunicación, por ejemplo:
comunicación oral o escrita, monólogo o diálogo, libro
de texto o retransmisión radiofónica

26
¿Cómo pueden elaborarse las especificaciones de examen?

Variedad: por ejemplo: inglés británico o americano,


Nivel: nivel de inglés exigido.
Situación comunicativa: por ejemplo, a un nivel general: atender a dientes en
un restaurante, asistir a conferencias en la universidad; y
a un nivel concreto: tomar nota de un pedido,
introducir un punto de vista distinto
Objetivo comunicativo: «el tono, manera y espíritu con el que se lleva a cabo
un acto» (Hymes, 1972).

La bibliografía sobre el inglés para fines específicos (ESP) —véase, por ejem­
plo, Hutchinson y Waters, 1987; Robinson, 1980, Swales, 1 9 8 5 - es útil para
los responsables de la elaboración de pruebas que necesitan llevar a cabo algún
üpo de análisis de necesidades antes de empezar a elaborar sus especificaciones.
Nótese que tanto el Test of English for Educational Purposes (TEEP) com o el English Lan-
guage Testing Service (ELTS) se desarrollaron inicialmente usando alguna forma de
análisis de necesidades al estilo de la de Munby.
Los análisis de necesidades desembocan a m enudo en una gran taxonomía de
variables que influyen en el tipo de lengua que se necesitará en la situación pre­
vista. A partir de esta taxonomía, los responsables de la elaboración deberán pro­
bar tareas, textos, escenarios, etc. hasta llegar a un tipo de prueba manejable. Sin
embargo, el proyecto de revisión del ELTS, que fue el responsable del desarrollo
del International English Language Testing System (IELTS), sucesor del ELTS original, se
desarrolló de forma distinta. Una vez identificados los principales problemas en
el ELTS (véase Criper y Davies, 1988), el proyecto de revisión llevó a cabo un
extenso ejercicio de recogida de datos y se pidió a los responsables universitarios
cómo creían que debía revisarse el examen de ELTS. Al mismo tiempo se revisó
la bibliografía sobre los exámenes de dom inio relacionados con el inglés para
fines académicos, English for Academic Purposes (EAP) y se pidió la opinión de emi­
nentes especialistas en lingüística aplicada sobre la naturaleza de la competencia
lingüística y cómo ésta debería evaluarse en el IELTS. Se pidió entonces a equipos
de redactores que tuvieran en consideración los datos recogidos y produjeran un
borrador de especificaciones e ítem s para diferentes partes del examen. Estos
borradores se mostraron a evaluadores y a profesores, así como a profesores de
universidad en diversas disciplinas académicas. Se preguntó a los profesores de
universidad si consideraban adecuados para los estudiantes de sus disciplinas aca­
dém icas los borradores de las especificaciones y de los ítem s y si deberían
incluirse otros tipos de textos y tareas. Los redactores revisaron entonces la bate­
ría de pruebas y sus especificaciones para poder tener en cuenta todos los comen­
tarios. Procediendo de esta m anera, los m iem bros del proyecto de revisión
pudieron utilizar la investigación sobre análisis de necesidades ya existente y lle­
var a cabo una validación del contenido del borrador de la prueba (véase Alder-
son y Clapham, 1992a y 1992b, y Clapham y Alderson, en impresión). Para una
discusión sobre cóm o desarrollar especificaciones para una prueba de ESP, y la
relación entre análisis de necesidades, especificaciones de una prueba e infor­
madores, véase Alderson, 1988b.

27
Especificaciones de examen

El desarrollo de una prueba de aprovechamiento es, en teoría, tarea más fácil,


puesto que la lengua que ha de evaluarse ha sido definida, al menos en un prin­
cipio, por la descripción de contenidos sobre la que va a basarse la prueba. El
problema para los responsables de la elaboración de pruebas de aprovechamiento
es garantizar que sean una muestra adecuada de la descripción de contenidos o,
en su defecto, del libro de texto en cuanto a contenidos y método.
H ughes (1 9 8 8 ) argum enta que, aunque está de acuerdo con la distinción
general entre pruebas de dom inio y pruebas de aprovechamiento de final de
curso, no está de acuerdo con que deban seguirse distintos procedim ientos a la
hora de decidir su contenido. Hughes propone que las pruebas de aprovecha­
miento deberían basarse en los objetivos del curso y no en los contenidos del curso
y deberían por tanto ser similares o incluso idénticas a las pruebas de dom inio
basadas en estos m ism os objetivos.
Al final de este capítulo hay una lista que contiene los posibles puntos que
habrían de tratarse en unas especificaciones. Esta lista se presenta de forma lineal,
pero a m enudo el diseño de una prueba y sus especificaciones es cíclico, con
borradores previos y ejemplos bajo constante revisión para tener en cuenta los
comentarios procedentes de pruebas y consejeros.

2.5. Estudio sobre los tribunales de exámenes de inglés


como lengua extranjera: cuestionarios y documentación
En este apartado describiremos la forma de abordar las especificaciones de exa­
men por parte de los tribunales de exámenes de inglés com o lengua extranjera:
cóm o las diseñan y lo que éstas contienen. Informaremos sobre las respuestas
al cuestionario y, siem pre que nos sea posible, harem os referencia a la docu­
mentación remitida por los tribunales. (Véase el capítulo 1 para detalles de cómo
se llevó a cabo este estudio.) Esto no es siempre fácil, porque los tribunales uti­
lizan m étodos distintos y distinta terminología. Por ejemplo, pocos utilizan la
expresión especificaciones; algunos hablan de descripción de contenidos, otros de norma­
tiva, y otros de manuales, y el significado de cada uno de estos térm inos es d is­
tinto de un centro a otro. Además, algunos de los procedim ientos de los
tribunales son confidenciales o bien no se difunden. Tam poco dicen a quién
van dirigidas sus publicaciones, por lo cual no podem os tener en cuenta el
público al que se destinan sus documentos.
Nuestro informe sobre las respuestas de los tribunales a este apartado del cues­
tionario es m ás extenso que en el resto de capítulos. Esto refleja el detalle de las
respuestas: los tribunales consultados no sólo respondieron ampliamente sobre
las especificaciones de examen sino que también enviaron documentación que
contenía gran variedad de inform ación sobre sus exámenes en aspectos relati­
vos a objetivos y descripción de contenidos.
Puesto que UCEES completó cuestionarios por separado para cada uno de sus
exámenes de EFE, resulta difícil combinar sus resultados con los de otros tribu­
nales, cuyas respuestas se referían a veces a un solo examen o a veces a m ás de

28
Estudio sobre los tribunales de exámenes de inglés...

uno. Además, los responsables de examen (subject officers) de cuatro de los exá­
menes de UCLES completaron también cuestionarios sobre las distintas seccio­
nes de cada examen. Por este motivo, las respuestas de UCLES se han combinado.
En el cuadro 2.1, que detalla las respuestas de todos los tribunales a las preguntas
6 a 10, las cifras de UCLES representan la mayoría de las respuestas. Si, por ejem­
plo, de cada cinco partes de un examen, tres responsables de examen respon­
dían afirm ativam ente a una pregunta y dos respondían negativamente, la
respuesta contabilizada es la afirmativa. (Para detalles sobre el redactado de cada
sub-pregunta, véase más adelante, y para una copia del cuestionario completo,
véase el apéndice 2.)

PREGUNTAS 6 A 7(d): ¿Publica su tribunal una descripción dd contenido dd examen (o exámenes)?


¿Se induye una definición de su propósito y una descripción dd tipo de estudiante a quien va dirigido?

CUADRO 2.1. RESPUESTAS DE LOS TRIBUNALES DE EXÁMENES


11 tribunales 8 exámenes
de exámenes de UCLES
Preguntas Sí No N/R Sí No
6. Publican la descripción 11 0 0 8 0
7. Incluye:
a) propósito 11 0 0 8 0
b) tipo de estudiante 11 0 0 8 0
c) nivel de dificultad 11 0 0 8 0
d) actuación tipo 10 1 0 5 3
e) habilidad en el «mundo real» 9 1 1 4 4
f) tipo de estudios o cursos 2 7 1 1 7
g) contenido del examen:
estructuras 6 3 0 2 6
vocabulario 5 4 0 2 6
funciones lingüísticas 6 3 0 2 6
temas 6 3 0 3 S
longitud de los textos 6 2 1 5 2
tipo de preguntas 9 0 0 8 0
ponderación de las preguntas 8 1 0 3 S
tiempo de la prueba 9 0 0 8 0
tiempo por sección 6 3 0 1 7
h) criterios de evaluación 9 1 0 2 6
i) baremo para las calificaciones finales 4 6 0 2 5
j) exámenes anteriores 8 0 2 6 0
k) actuación de antiguos candidatos 2 S 2 7 1
8. Análisis de necesidades 7 1 0 4 3
9. Directrices para redactores 7 1 2 8 0

Como puede verse en el cuadro 2.1, todos los tribunales respondieron afirma­
tivamente a las preguntas 6 y 7 a) b) y c). Todos los tribunales publicaban des­
cripciones de sus exám enes y éstas incluían la definición de objetivos del

29
Especificaciones de examen

examen, una descripción del tipo de estudiante a quien iba dirigido y una des­
cripción del nivel de dificultad de la prueba. U n estudio de los docum entos
publicados m ostró, sin embargo, que el nivel de detalle variaba de un tribunal
a otro. Véanse los siguientes ejemplos:

DEFINICIÓN DE OBJETIVOS
En la descripción de contenidos del Joint Matriculation Board (JMB) se da ima de las
descripciones m ás completas sobre el propósito de un examen:
El objetivo del examen es evaluar las destrezas identificadas [...] en un
contexto lo más similar posible al que probablemente se encontrarán en un
curso para graduados. La prueba se considera particularmente adecuada para
candidatos que quieren seguir estudios en las áreas de ciencias, ingeniería,
estudios empresariales y ciencias sociales. El nivel de inglés de la prueba no es
el suficiente ni el apropiado para estudiantes que quieren seguir estudios de
literatura. La preparación para tales estudios debe incluir un estudio más
completo de la lengua inglesa del que se requiere en este examen.
(Descripción de UETESOL, JMB, 1991)

Los exámenes de la Cámara de Comercio e Industria de Londres (LCCI) tie­


nen también una definición de objetivos m uy clara:
El objetivo del examen es evaluar un nivel alto de comprensión y de expresión
escrita así como la habilidad de procesar tanto la lengua inglesa en general
como las variedades específicas usadas en el mundo de los negocios y la
habilidad de usar formatos apropiados. Un candidato que apruebe habrá
demostrado la capacidad de escribir en un inglés fluido, preciso e idiomàtico
en nombre de un empresario, seleccionando los términos legales, el tono, la
forma y el contenido apropiados a una situación en particular.
(English for Business, Third Level, Regulations, syllabuses and timetables of
examinations, London Chamber of Commerce and Industry Examinations
Board, 1 99 1)
Los tribunales que administran exámenes que no tienen una orientación aca­
démica (EAP) ni de fines específicos (ESP) tienden a describir el objetivo de sus
pruebas a partir de las destrezas lingüísticas que se requerirán. Por ejemplo:
Objetivo
El objetivo del examen es evaluar la capacidad de los candidatos para
comprender y producir el lenguaje de tipo objetivo e impersonal que es el
medio de instrucción a lo largo de sus estudios y de las transacciones
cotidianas, junto con el uso de las destrezas de tipo cognitivo que esto implica.
(Test in English Language Skilis, CENTRA, 1992)
Y también:
El objetivo principal es averiguar hasta qué punto el estudiante comprende y
habla el inglés oral «culto», dentro de los límites de cada nivel.
(Syllabus, Grade Examinations in Spoken English for
Speakers of Other Languages, T rinity C ollege, L ondres, 1990)

30
Estudio sobre los tribunales de exámenes de inglés...

ESTUDIANTES TIPO

Naturalmente, el objetivo del examen y los estudiantes a los que va dirigido se


solapan a menudo. El fragmento de la JMB citado con anterioridad lo demues­
tra, al igual que los fragmentos siguientes:
Este certificado está elaborado para candidatos adultos y con experiencia que
durante sus actividades laborales o sociales deben informar o dar clase
utilizando la lengua inglesa. Los candidatos deberían tener competencia
bilingüe en su campo de acción y deberían poder comunicarse con autoridad,
manteniendo la atención de sus interlocutores, demostrando su capacidad para
liderar y controlar la discusión, así como para facilitar información sobre su
actividad profesional, mostrando sensibilidad hacia las dificultades de su
interlocutor en cuanto al contenido de la conversación.
(The Certificóte in English as an Acquired Language, English Speaking Board
-E SB -, 1990)
Y también:
Candidatos
Los candidatos que se presentan a este examen son adultos y jóvenes adultos que
están siguiendo un curso de inglés en el Reino Unido o en el extranjero. Los
candidatos pueden estar estudiando inglés como parte de su programa escolar o
universitario o también para su uso fuera del aula. Los exámenes van dirigidos a
estudiantes que necesitan una certificación externa sobre sus progresos en la
lengua inglesa y son especialmente adecuados para aquellos estudiantes que llevan
tiempo estudiando y necesitan un tipo de prueba que certifique sus progresos en
el camino hacia el dominio de la lengua, a guisa de peldaños en una escalera.
(A Guide for Teachers, Examinations in English for Speakers of Other Languages. Pitm an
Examinations Institute, 1988)

El Trinity College describe a los estudiantes para los que la prueba no es ade­
cuada y no a los estudiantes a los que va dirigida:
No se admite la entrada a las pruebas de inglés hablado a aquellos que hablan
la lengua inglesa como primera lengua, ni tampoco a candidatos de edad
inferior a los siete años. Se recomienda a los adultos que no se presenten a un
nivel inferior al nivel tres y a los candidatos menores de trece años que no se
presenten a los niveles once y doce; aparte de éstas, no hay otras restricciones.

Algunos tribunales no llegan a describir a los estudiantes tipo, suponiendo


presum iblem ente que la descripción del contenido y del nivel del exam en lo
aclararán.

NIVEL DE DIFICULTAD

Varios tribunales definen los niveles lingüísticos de sus exámenes haciendo refe­
rencia a los estadios del Consejo de Europa. Por ejemplo:
Ambos exámenes están basados en el nivel Waystage descrito por el Consejo de
Europa. De manera menos académica, esto puede describirse como nivel de

31
Especificaciones de exam en

supervivencia: uno de los objetivos esenciales de la prueba es determinar si un


candidato puede sobrevivir en un entorno de habla inglesa. Los exámenes son
adecuados para alumnos de nivel intermedio bajo que han estudiado unas
300—400 horas de inglés.
(New Editian of Rationale, Reguiations and Syllabuses, the Oxford-ARELS
Examinations)
Los niveles del Trinity College pueden com pararse con los del Consejo de
Europa y los nueve niveles de la English Speaking Union. La UCLES describe los nive­
les de sus exám enes com parándolos con la escala de nueve puntos de la ESU,
pero usa sus propias descripciones. Así, el First Certifícate in English (FCE), por
ejemplo, se considera equiparable al nivel 5, que se describe como el del «usua­
rio independiente» y el Certifícate in Proficiency in English (CPE) corresponde al nivel
7, «b u en usu ario ». Dos de los niveles se com paran tam bién a los niveles del
Consejo de Europa; el nivel 3 describe al «u su ario en el nivel Waystage» y el
nivel 4 corresponde al «usuario en el nivel um bral (Threshold)» en A Brief Guide
to EFL Examinations and TEFL Schemes, UCLES. Pitman no compara los niveles de sus
exámenes con ningún criterio extem o, sino que usa sus propias descripciones.
Por ejemplo:
Niveles
Básico: el candidato puede operar en inglés sólo para comunicar necesidades
básicas con mensajes cortos y a menudo poco articulados e inapropiados. El
candidato puede comprender etiquetas, señales sencillas, nombres de calles,
precios, etc., pero no tiene en realidad el suficiente dominio de la lengua para
manejarse normalmente en la comunicación real del día a día.
(A Guide for Teachers ESOL, Pitman Examinations Institute, 1988)

Algunos de los tribunales no describen los niveles de sus pruebas de form a


explícita, suponiendo presumiblemente que las descripciones de los contenidos
lo aclararán.

PREGUNTA (7d): Descripción de una actuación tipo para cada nivel o calificación
Las Oxford-ARELS Reguiations describen lo que deberían poder hacer los candidatos
que aprueben. Por ejemplo, cuando obtiene un aprobado (pass) en el Prdiminary
Stage of the Oxford Exam, un candidato, entre otras cosas:
tiene las destrezas básicas de supervivencia en la expresión escrita y la
comprensión de lectura en inglés;
tiene la capacidad de comunicarse de forma clara por escrito (aunque puede
cometer un número de errores, y el dominio de las estructuras y el
vocabulario puede ser lim itado);
puede comprender y extraer la información relevante de textos auténticos no
literarios (por ejemplo instrucciones, reglamentos, formularios) y responder
de forma apropiada.

(Rationale, Reguiations and Syllabuses, New Edition, The Oxford-ARELS Examinations in English
as a Eoreign Language)

32
Estudio sobre los tribunales de exámenes de in g lés...

El Trinity College describe lo que un candidato puede hacer en cada uno de


los 12 niveles. Siguen a continuación, com o ejemplo, los niveles 1 y 12:
Nivel 1
El candidato utiliza un número reducido de palabras y expresiones tales como
saludos habituales y el nombre de objetos de uso común y de acciones
habituales. Puede haber un cierto grado de comunicación con ayuda.
Nivel 12
El candidato utiliza un amplio abanico de lenguaje con un dominio similar al
de la lengua materna. Puede manejarse en situaciones que requieren un
lenguaje complejo y exigente. Muestra pequeños fallos ocasionales en
corrección, fluidez, adecuación y organización que no afectan a la
comunicación. Hay sólo escasas dudas a la hora de comprender o hacer llegar
el contenido del mensaje.
(Syllabus of Grade Examinations in Spoken English for Speakers of Other Languages, T rinity
College, Londres, 1990)

El examen de UCEES IELTS otorga resultados para nueve niveles, cada uno de
los cuales tiene una descripción de actuación. Por ejemplo, un candidato que haya
obtenido las calificaciones globales correspondientes al nivel 7 se describe como:
Buen usuario. Tiene un dominio operativo de la lengua, aunque con
inexactitudes e inadecuaciones ocasionales y no sistemáticas. Pueden ocurrir
malentendidos en situaciones no habituales. Maneja bien la argumentación
compleja y detallada.
(¿in Introduction to IELTS, The British Council, UCLES, International Development
Program of Australian Universities Colleges)
Tal com o ocurre con el nivel de dificultad citado más arriba, los niveles de
los alum nos tipo parecen considerarse implícitos en las descripciones genera­
les. En la m ayoría de las publicaciones de los tribunales no están descritos de
forma específica y deben deducirse de las descripciones de examen.

PREGUNTA 7(e): Descripción de lo que se puede esperar que haga «en el mundo real» un candidato
que obtiene un certificado o una calificación determinada en un nivel concreto.
Dada la tendencia hacia la utilización de tareas y situaciones auténticas en las
pmebas de idiomas, muchos tribunales argumentan que su examen imita la actua­
ción «en el mundo real». En realidad las descripciones presentadas más arriba se
refieren más al mundo real que al entorno de examen. Ningún tribunal distingue
entre las actuaciones lingüísticas previstas en el examen y el mundo real.

PREGUNTA 7 (f): Descripción de los estudios que se supone que deben seguir los candidatos antes de
presentarse al examen.
En general, los tribunales de exámenes no presuponen que sus candidatos hayan
seguido ningún curso en particular. Un tribunal dijo en su respuesta al cuestio­
nario: «N osotros diseñamos esquemas, es decir, muestras de contenidos, no cur­
sos». Y otro dijo que el hecho de que no describieran cursos era intencionado.
Sin embargo, el reglamento de Oxford-ARELS recomienda dos libros de texto.

33
Especificaciones de examen

PREGUNTA 7(g): Descripción del contenido del examen en cuanto a: (I) estructuras, vocabulario,
funciones lingüísticas
El mayor o menor detalle sobre las destrezas macrolingüísticas y microlingüís-
ticas depende en gran parte del nivel de la prueba. Sólo el Preliminary English Test
(PET), entre los exámenes de la UCLES, facilita listas de vocabulario, sintaxis y
funciones del lenguaje.
La descripción de contenidos para el nivel 1 de las pruebas del Trinity College
incluye una lista de consignas y órdenes tipificadas:
Toca
Señala
Sujeta
Muestra
Dame
Ponlo(los) aquí (allí)

y una lista de preguntas tipificadas, así como los nom bres de los adjetivos de
color y de tamaño. El nivel 2 incluye:
el presente continuo, como en What am I (are you/we/they, is he/she/it) doing?, el
presente habitual, etc.
Y dice:
Vocabulario: los candidatos deberían estar familiarizados con unas cien
palabras aparte de las mencionadas con anterioridad. NO se exige un
vocabulario extenso.
(Syllabus of Grade Examinations in Spoken English for Speakers of Other Languages,
Trinity College, Londres, 1990)
Las pruebas orales en inglés hablado del ESB (The ESB Oral Assessments in Spoken
English as an Acquired Language) son mucho m enos específicas. Para los tres niveles
base los candidatos:
deberán reconocer y producir los nombres de objetos de uso común (por ejemplo,
ropa, mobiliario), y deberían demostrar desde el principio que son conscientes de
los patrones básicos del orden de las palabras en inglés (por ejemplo, grupos
nominales, grupos preposicionales, sujeto —verbo - complemento).
(Oral Assessments in English as an Acquired Language, ESB, 1990)
Un tribunal dice que tiene listas «p ara los exam inadores pero que no las
publica a propósito». Otro dice que dan algunas directrices pero que una «d e s­
cripción detallada no se considera apropiada para exámenes com unicativos».
Nos fue difícil encontrar la lógica tras esta afirmación.

PREGUNTA 7(g): Descripción dd contenido dd examen en cuanto a: (II) tema y longitud de los textos
ARELS y Oxford no incluyen una lista de temas establecidos para sus exámenes,
pero tienen una lista de los temas que han tratado en exámenes anteriores. Por
ejemplo, la descripción de contenidos del Oxford Preliminary Levd lista los siguien­
tes temas, que se han usado para la pregunta «Escribe acerca de»:

34
Estudio sobre los tribunales de exámenes de inglés...

Motivos para cambiar de casa


El mejor día de tu vida
Un día de trabajo típico
Una experiencia aterradora
El final de una amistad.
En los exámenes orales del ESB los candidatos escogen sus propios temas para
aproximadamente la mitad del examen. Por ejemplo, preparan charlas por ade­
lantado y escogen pasajes de lectura para leer en voz alta. En el Certifícate in English
as an Acquired Language hay también una parte de Comprensión en la que se supone
que los candidatos deben responder a preguntas y opiniones sobre un pasaje de
actualidad general leído por el examinador.
Los pasajes se seleccionarán por su actualidad e interés general y, cuando se
considere apropiado, serán relevantes con respecto a la procedencia nacional y
cultural del candidato.
(The Certifícate in English as an Acquired Language, ESB, 1990)
Los dos exámenes del LCCI que evalúan el inglés para fines profesionales (English
for Business Purposes) no dan la lista de ningún tema, pero pueden deducirse hasta cierto
punto de la descripción de las tareas y de la procedencia de los materiales utiliza­
dos. Por ejemplo, una de las cuatro tareas en el nivel tercero es:
Una tarea de comprensión en la que los candidatos deberán mostrar la
comprensión de un pasaje con un objetivo definido. Podría tratarse de un
artículo de prensa, un texto de una publicación de negocios, un informe
comercial, una circular, un documento legal, o cualquier otro tipo de material
comercial escrito con el que los candidatos estén familiarizados en este nivel.
(Rcgulations, syllabuses and timetables of examinations, LCCI, 1991)
Aunque seis de los tribunales y cinco de los responsables de exam en de la
UCLES afirmaron que facilitaban la longitud de los textos, éstos no estaban des­
critos en la m ayoría de las publicaciones que recibim os. Sin em bargo, la ESB
especificaba el tiempo m áxim o permitido para los pasajes que debían leerse en
voz alta, y CENTRA citaba el número de palabras de cada texto.

PREGUNTA 7(g): Descripción del contenido del examen en cuanto a: (III) tipos de pregunta, pon­
deración de las preguntas, tiempo para cada prueba, tiempo para cada parte de la prueba
Como puede verse en el cuadro 2.1, todos los centros que respondieron a las
preguntas dijeron que describían los tipos de pregunta que incluían en sus exá­
menes y especificaban la duración de cada examen, pero había más variación en
el tipo de información sobre la ponderación y la duración de cada prueba. Algu­
nos, como ARELS, publican el porcentaje de puntos adjudicado a cada prueba:
Nivel preliminar
Prueba 1: uso social del inglés (20% de los puntos).
Prueba 2: comprensión oral (50% de los puntos).
Prueba 3: expresión oral (30% de los puntos).
(New Edition of Rationale, Regulations and Syllabuses, the Oxford-ARELS
Examinations in English as a Foreign Language)

35
Especificaciones de exam en

PREGUNTA 7 (h): Descripción de los criterios que se usarán para evaluar la actuación de las estudiantes
Aunque la m ayoría de las tribunales de exámenes dijeron que publicaban los
criterios con los que se evaluaban las actuaciones de los estudiantes, sólo pudi­
m os encontrar esta inform ación en algunos de los docum entos que nos hicie­
ron llegar. La JMB describía sus criterios para la evaluación de dos tareas de
expresión escrita:
Criterios de evaluación
La nota más alta para la parte B refleja una mayor exigencia en cuanto a
organización e interpretación. Se exigirán respuestas de alrededor de 300
palabras. Puesto que se pide a los candidatos el desarrollo lógico de una
muestra escrita que interprete la información facilitada, deberá evitarse la
descripción extensa de toda la información facilitada. Los candidatos deberían
ser capaces de comparar y contrastar, mostrar relaciones de causa y efecto,
sacar conclusiones, formular hipótesis y producir otros patrones de discurso.
Deberían ser capaces de organizar su escrito en párrafos y de usar variedad de
medios para crear coherencia entre frases y dentro de un mismo párrafo.
Deberían producir frases de la complejidad requerida en el registro formal. Se
espera que los candidatos escriban prosa gramatical prestando atención al
orden de la frase, a la concordancia sujeto/verbo y mostrando un uso
adecuado de la voz y de los tiempos verbales.
(Syllabus for UETESOL, JMB, 1991)
Como puede verse, se han listado los criterios, pero no se explica cóm o van
a transform arse estas ideas en puntos o calificaciones. Tam poco lo hace el
siguiente pasaje de LCCI:
2. Se otorgarán puntos de forma diferenciada por contenido, tono, estilo,
presentación, corrección e impacto comunicativo, según la naturaleza de cada
una de las tareas.
4. No puede quedar duda alguna de que para cualquier tipo de propósito
comercial, el candidato puede percibir y transmitir significado en su expresión
escrita, con rapidez y corrección. El inglés de los candidatos debería ser lo
suficientemente correcto, especializado e idiomàtico como para permitirle
detectar sutilezas de detalle y significado y poderlas expresar cuando escriben.
Los candidatos deberán utilizar su sentido común en cuestiones de adecuación
y conveniencia. Deberían poder hacerse una idea general de la situación a
partir de los fragmentos que se les han presentado y responder de forma
lingüística de manera que beneficie a su situación.
(Regulations, syllabuses and timetables of examinations,
English for Business, 3rd Level, LCCI, 1991)
Las respuestas a esta pregunta coinciden claramente en algunos aspectos con
las respuestas a la pregunta 7 (d ), que preguntaba si los tribunales daban des­
cripciones de la ejecución de una prueba m odelo para cada nivel. Uno de los
ejemplos citados bajo la pregunta 7(d) procedía del Trinity College, que intro­
duce cada uno de sus doce exámenes orales con un breve párrafo que describe
el nivel del candidato que puede aprobar en el nivel correspondiente.

36
Estudio sobre los tribunales de exámenes de in g lés...

Lo que no está claro es si los examinadores usan alguno de los ejemplos ante­
riores como criterios de evaluación o si sólo se utilizan para propósitos de infor­
mación. El IELTS ha fijado bandas generales para cada nivel que se presentan a
los estudiantes y que son distintas de las que se usan en los criterios de evalua­
ción de la producción escrita y oral de los candidatos. No está claro por qué
algunos tribunales dan un trato confidencial a sus criterios, pues los usuarios de
los exámenes podrían beneficiarse de conocer exactamente cuáles son.
Un tribunal que sí da a conocer sus criterios de evaluación es la Oxford Dele-
gacy, que publica un documento titulado Criterios de puntuación y muestras. Este docu­
mento presenta los criterios de puntuación para cada una de las preguntas de
expresión escrita, por ejemplo:
Evaluación de la pregunta 1
Categoría 1 Estilo apropiado y bien planteado. Adecuado a la
tarea, (de 26 a 30 puntos) Gama de vocabulario buena y apropiada y
buen control de las estructuras. Si hay errores
no interfieren con la comprensión. Una
actuación realmente competente.
Categoría 2 Pocos errores, buen control. Adecuado a la tarea.
(de 20 a 25 puntos) Gama de vocabulario buena y apropiada.
Conocimiento del estilo adecuado aunque no lo
domine por completo necesariamente.
O bien, extremadamente correcto, pero con una
gama, complejidad o estilo deficiente.

(Marking Criterio and Samples, Higher Level Paper 1, The Oxford Examination
in English as a Foreign Language)
El documento explica el sistema de evaluación de cada una de las preguntas de
expresión escrita y hace algunos comentarios sobre la actuación de los estudian­
tes en cada pregunta. También incluye muestras de tareas de expresión escrita y
facsím iles de una gam a de respuestas de los estudiantes a las preguntas. Cada
muestra está puntuada y cada puntuación va acompañada de una explicación.
Este docum ento es m uy útil, tanto para los estudiantes com o para los profe­
sores. Al m enos en lo que se refiere a esta prueba, los estudiantes pueden pre­
pararse bien antes de entrar a la sala de examen.
UCLES también facilita manuscritos y puntuáciones para algunos de sus exá­
menes. En un volumen llamado English as a Foreign Language: General Handbook (UCLES,
1987), se describen algunos de los exámenes de inglés como lengua extranjera.
Se incluyen pruebas de muestra y, para las pruebas de expresión escrita del FCE
y del CPE, criterios de evaluación, facsímiles de respuestas de alumnos y pun­
tuaciones con explicación.

PREGUNTA 7(i): Descripción de cómo se calculan las puntuaciones o notas finales.


Este tema se ha discutido de forma parcial en la pregunta 7 (g) y se discutirá
con m ás detalle en el capítulo 7.

37
Especificaciones de exam en

PREGUNTA 8: ¿Se ha llevado a cabo algún tipo de «análisis de necesidades» para ayudar al tribunal
a tomar decisiones sobre el propósito, el contenido, el método, el nivel, etc. del examen?
La interpretación que los tribunales hacen del análisis de necesidades varía
ampliamente. La AEB se refirió a la tesis doctoral de Weir (1983), que contiene
un análisis detallado de las necesidades de los estudiantes en ambientes acadé­
m icos; un tribunal incluyó algunos informes; y uno mencionó un inform e de
investigación que se utilizó com o base para una revisión de la prueba. Tres tri­
bunales se refirieron m uy claramente de form a implícita a la investigación de
m ercados, y dos dijeron que profesores y otras personas facilitaban comenta­
rios que aconsejaban las revisiones de las descripciones de contenidos y de exá­
m enes. Un centro dijo que sus descripciones de contenidos se revisaban
anualmente pero no indicó cóm o se decidía lo que debía modificarse cada año.

PREGUNTA 9; ¿Se da a los redactores de pruebas alguna información o guía suplementaria?


Casi todos los tribunales dijeron que daban información suplementaria a los
redactores de pruebas. Sin embargo, uno dijo que no lo hacía, y dos dijeron que
la pregunta no era pertinente. De estos dos, uno hacía referencia a la prueba de
la AEB TEEP, de la que ya no se elaboran más versiones, y el otro era un tribunal
que sólo lleva a cabo pruebas orales. El tribunal que respondió negativamente a
la pregunta presuponía que los redactores no necesitaban inform ación suple­
mentaria porque se trataba de una prueba de expresión oral. No está claro por
qué los dos últimos tribunales creían que no era relevante para sus pruebas sum i­
nistrar información suplementaria a sus redactores, a no ser que quisieran seña­
lar que las preguntas que había de formularse dependían más de los examinadores
que de los redactores de la prueba. Si éste es realmente el caso, es de suponer que
los examinadores reciben asesoramiento sobre cómo seleccionar las preguntas o
tareas siguientes. Este tema no fue tratado por ningún tribunal.
La m ayoría de los tribunales no dio detalles de las directrices que dan a los
redactores de pruebas, pero dos facilitaron manuales para los redactores, y uno
o dos más facilitaron breves explicaciones:
Reuniones de puesta en común sobre la elaboración de la prueba con el
examinador jefe.
Redacción de los ítems de acuerdo con unas directrices y revisión de los
mismos en la reunión.
Los examinadores jefes facihtan a los redactores instrucciones detalladas sobre
la elaboración de la prueba.
Asisten a reuniones de redacción antes de convertirse en redactores. Trabajan
en equipos de tres —un redactor para cada parte- con el asesoramiento de un
redactor más experimentado. Tienen dos reuniones como equipo para
consultar el material existente y planificar tareas (UCLES).
Sólo un tribunal dio inform ación extensa, incluyendo una copia de la carta
muestra enviada a los redactores de ítems. Aunque la publicación de la carta vio­
laría la condición de anonim ato estipulada por el centro, podem os dar la
siguiente información:

38
Estudio sobre los tribunales de exám enes de in g lé s.. .

A lo largo de los años, los redactores de ítems y de pruebas han recibido


asesoramiento de distintas maneras:
a través de cursos y conferencias de fin de semana para correctores y
redactores de ítems, en los que se discutía y analizaba el contenido del
examen y se trataban nuevos enfoques y tipos de examen;
a través de reuniones con redactores motivados en las que se
intercambiaban los ítems en borrador, se discutían y se modificaban para
su inclusión en futuros exámenes;
a través de una carta detallada enviada a cualquier redactor de pruebas en
potencia que mostrara interés en contribuir a los exámenes;
a través de comentarios y notas específicas sobre los materiales enviados
por los redactores al responsable del examen.

PREGUNTA 10: Cuando los estudiantes se matriculan para su examen, ¿qué información reciben
sobre su objetivo y contenido?
Nueve tribunales no pertenecientes a UCLES dijeron que los centros de exa­
men daban a los estudiantes detalles sobre las pruebas. Entre las respuestas más
corrientes de los tribunales, se hallan las siguientes:
La información está a disposición de los estudiantes en los centros en que se
matriculan; además, cualquier estudiante puede recibir la misma información
solicitándola directamente al tribunal de exámenes.

Y también:
Es responsabilidad de los centros que matriculan a los alumnos y que
administrarán la prueba el facilitar información completa sobre el objetivo y el
contenido del examen.

Sin em bargo, un tribunal dijo que facilitaba a cada estudiante la descripción


de contenidos y las directrices relevantes.
De las respuestas de UCLES, dos hacían referencia a los centros responsables
de la matrícula y de la administración de la prueba, dos decían que podían con­
seguirse el reglamento y las especificaciones, así como exámenes para practicar
y exámenes anteriores; y uno mencionó un folleto.
Muchas de las respuestas al cuestionario dan la im presión de que los tribu­
nales de exámenes dan libertad al centro que administrará la prueba para deci­
dir cuántos de entre los num erosos docum entos publicados por el tribunal se
dan a los candidatos. Es posible, naturalmente, que los centros den a los estu­
diantes todo lo que esté disponible; pero si no lo hacen, es causa de preocupa­
ción, pues si unos estudiantes reciben las publicaciones y otros no, los
estudiantes estarán en distintos estados de preparación cuando se presenten al
examen y, por tanto, los resultados serán poco fiables. Los tribunales deberían
garantizar que los estudiantes reciben tanta inform ación sobre sus exámenes
como sea posible, y que todos los centros de administración de exámenes den
a todos los estudiantes la m ism a información.

39
Especificaciones de exam en

2.6. Debate
Tal como dijim os en la introducción a este apartado, hay una gran variedad en
el enfoque por parte de los tribunales con respecto a la elaboración de especi­
ficaciones y a la transparencia con la que facilitan los fundamentos, los conte­
nidos y los criterios de evaluación que sirven de base a sus exám enes. Esta
variedad en la transparencia de la información debe tratarse más a fondo.
Es cierto que hay una serie de aspectos de los contenidos de la prueba que deben
ser confidenciales, especialmente si sólo hay una versión segura; sin embargo, en
muchos casos no se trata de una cuestión de confidencialidad. Cuanto más sepan
<los estudiantes sobre los contenidos y los objetivos de una prueba, m ejor podrán
comportarse de acuerdo con sus propias capacidades en el momento del examen.
Además, cuanto más sepan los profesores sobre la prueba, más fácil les será deci­
dir si la prueba es la apropiada para sus estudiantes y también prepararles para la
misma. Saber cuáles son, por ejemplo, las especificaciones para los redactores de
la prueba y tener un conocimiento claro y detallado de los criterios de evaluación,
además de estar familiarizados con los criterios que tienen los examinadores sobre
las muestras de respuestas de otros estudiantes, sería inestimable para todos los
usuarios de la prueba y aumentaría la fiabilidad de los exámenes.
Debería tenerse en cuenta que la información disponible por parte de los tri­
bunales no suele identificar claramente su público, y menos de acuerdo con las
directrices propuestas en nuestro apartado 2.3. Los tribunales deberían consi­
derar quién debe recibir qué información antes de revisarla, con el fin de adap­
tarla al público previsto.
Para finalizar, los Standards for Educational and Psychological Testing (véase el capítulo
11) contienen considerables detalles sobre cóm o deberían elaborarse las prue­
bas. Por ejemplo, el criterio 3.2 dice:
Las especificaciones utilizadas para la elaboración de ítems [...] y para el
diseño del instrumento de evaluación como tal deberían definirse claramente.
Debería describirse la definición del universo o ámbito que se utiliza para la
elaboración o para la selección de ítems (página 25).

Y el criterio 3.3 dice:


Las definiciones del ámbito y las especificaciones de la prueba deberían ser lo
suficientemente claras como para que los expertos sobre el tema puedan juzgar
la relación de los ítems con los ámbitos que representan (página 26).

El Code of Fair Testing Practices in Education (véase capítulo 11) dice que los res­
ponsables de un examen deberían:
definir lo que cada examen evalúa y para qué debería usarse;
describir la población para la que el examen resulta apropiado... (afirmación 1);
describir el proceso de elaboración de un examen. Explicar cómo se
seleccionaron el contenido y las destrezas que se van a evaluar (afirmación 4).

Parece que la práctica habitual en los tribunales de exámenes del Reino Unido
no siempre se ajusta a estos criterios.

40
Bibliografía

2.7. Sumario
Puesto que las especificaciones variarán de acuerdo con el uso a que estén des­
tinadas, no todos los puntos de la lista siguiente estarán presentes en todas las
especificaciones. Por encima de todo, los redactores de especificaciones deben
decidir, para empezar, quién es su público y facilitar la información apropiada.
Las especificaciones de exam en deberían incluir todos o la m ayoría de los
siguientes puntos:
El propósito del examen
Descripción del candidato
Nivel de la prueba
Constructo (marco de referencia teórico para el examen)
Descripción de un curso o libro de texto adecuado
Número de secciones/pruebas
Ponderación de cada sección/prueba
Situaciones contempladas en la lengua meta
Tipos de texto
Longitud de los textos
Destrezas lingüísticas que se van a evaluar
Elementos lingüísticos que se van a evaluar
Tipos de tareas
Procedimientos
Instrucciones
Criterios de evaluación
Descripción de realizaciones lingüísticas típicas para cada nivel
Descripción de lo que los candidatos para cada nivel pueden hacer en el
m undo real
Muestras de exámenes
Muestras de las actuaciones de los estudiantes en cuanto a las tareas.

Biliografía
Alderson, J. C. (1988b). «New Procedures for Validating Proficiency Tests of ESP?
Theory and Practice.» Language Testing, 5 (2), págs. 220-232.
Alderson, J. C. y C. M. Clapham (1992a). «Applied Linguistics and Language Testing:
a Case Study o f the ELTS Test.» Applied Linguistics, 13, págs.149—167.
Alderson, J. C. and C. M. Clapham (1992b). Examining the ESTS Test: An Account of the First
Stage of the ELTS Revision Project. IELTS Research Report 2. The British Council,
University o f Cambridge Local Examination Syndicate and International
Development Program o f Australian Universities and Colleges, Cambridge.
Bachman, L. F. (1990). Fundamental Considerations in Language Testing. Oxford University
Press, Oxford.
Bachman, L. F., A. Kunnan, S. Vanniariajan y B. Lynch (1988). «Task and Ability
Analysis as a Basis for Examining Content and Construct Comparability in Two EFL
Proficiency Test Batteries.» Language Testing, 5, pigs. 128—160.

41
Especificaciones de exam en

Clapham, C. M. y J. C. Alderson (en prensa). Constructing and Trialling the IELTS Test. IELTS
Research Report 3. The British Council, University o f Cambridge Local
Examinations Syndicate and International Development Program o f Australian
Universities and Colleges, Cambridge.
Criper, C. y A. Davies (1988). ELTS Validation Project Report, ELTS Research Report 1 (I).
The British Council y University o f Cambridge Local Examination Syndicate,
Londres y Cambridge.
Davidson, F. y B. Lynch (1993). «Criterion-Referenced Language Test Development.
A Prolegomenon.» En A. Huhta, K. Sajavaara y S. Takala (eds.), Language Testing: New
Openings. Institute for Educational Research, Universidad de Jyvaskyla, Finlandia.
Hughes, A. (1988). «Achievement and Proficiency: The Missing Link.» En A.
Hughes (ed.), Testing for University Study, ELT Documents 127. Modern English
Publications, Londres.
Hutchinson, T. y A. Waters (1987). English for Specific Purposes: A Learner Centred Approach.
Cambridge University Press, Cambridge.
Hymes, D. H. (1972). «O n Communicative Competence.» En J. B. Pride y J. Holmes
(eds.), Sociolinguistics, pags. 269—293. Penguin, Harmondsworth.
Munby, }. (1978). Communicative Syllabus Design. Cambridge University Press,
Cambridge.
Oiler, J. (1979). Language Tests at School. Longman, Londres.
Robinson, P. (1980). ESP (English for Specific Purposes). Pergamon, Oxford.
Swales, J. (1985). Episodes in ESP. Pergamon, Oxford.
Weir, C. J. (1983). «Identifying the Language Problems of Overseas Students in
Tertiary Education in the United Kingdom.» Tesis doctoral. Universidad de Londres.

42
3 La redacción de ítems y la función moderadora

En este capítulo trataremos lo que se requiere para redactar buenos ítems de


examen. Describirem os algunos de los peligros que se deben evitar y los pro­
cedim ientos que se deben seguir para subsanar m uchos errores obvios antes
de llevar a cabo los ensayos previos a la administración del examen. Intenta­
rem os responder a las siguientes preguntas: ¿Qué hace a un buen redactor de
ítem s? ¿Nace o se hace? ¿Por dónde em pieza la redacción de un ítem? ¿Qué
m étodos son los m ás adecuados para evaluar unas habilidades en particular?
Cuando no hay acuerdo sobre la calidad de un ítem, ¿cóm o podem os resol­
ver el desacuerdo? ¿Qué principios y directrices deberíam os seguir cuando
redactam os ítem s? ¿Cuál es la función del comité de redacción y cóm o fun­
ciona este tipo de comités?

3.1. Requisitos para redactar ítems


El objetivo y el contenido del exam en determinará hasta cierto punto quién
puede ser el m ejor redactor de ítems. Siempre resulta útil que los que redac­
tan los ítem s tengan experiencia reciente en la docencia de estudiantes sem e­
jantes a los que se presentarán al exam en, puesto que su experiencia com o
profesores les perm itirá hacerse una idea sobre lo que estos estudiantes con­
sideran fácil o difícil, lo que les interesa, su bagaje cultural, etc. Por ejem ­
plo, si el exam en es de expresión escrita para fines académ icos, alguien con
experiencia en este cam po y en su docencia y con práctica en la corrección
de los escritos que presentan sus estudiantes estará m ás preparado para redac­
tar m ejores pruebas que alguien sin esta experiencia. Para exámenes de apro­
vechamiento es im portante que aquellos que redacten la prueba sepan lo que
es razonable esperar de alum nos que han finalizado un estadio concreto en
su aprendizaje y tam bién hasta qué punto los estudiantes han progresado en
el program a. Es pues probable que los profesores que tengan experiencia con
alum nos de tales características, o con asignaturas relacionadas, y que cum ­
plan los requisitos profesionales necesarios para la realización de su trabajo
en la situación en la que se desarrolla la prueba, sean buenos redactores de
ítems.
Sin em bargo, estas personas no serán necesariamente buenas redactoras de
ítems. Tener la experiencia necesaria no garantiza que se tengan las ideas claras
sobre lo que significa redactar buenas tareas ni la creatividad e imaginación nece­
sarias para escribir buenos ítems. Creatividad, sensibilidad, ideas claras e im a­
ginación: todas éstas son las cualidades que debe tener un redactor, difíciles de

43
La redacción de ítem s y la función moderadora

definir y difíciles de identificar en los futuros redactores de ítems, pero obvia­


mente ausentes en los m alos redactores.
Algunos exámenes son elaborados por redactores profesionales que trabajan
con dedicación plena para una institución que elabora exámenes, o que traba­
jan de form a independiente com o redactores para varias instituciones. Tales
redactores com binan de form a ideal la experiencia y los requisitos de un pro­
fesor relacionado con la materia y las cualidades de un redactor de ítems pers­
picaz. Tales individuos existen y producen ítems excepcionalmente buenos, pero
debe decirse que no abundan.
Una de las ventajas de emplear a un redactor de ítems profesional es que esta
persona será capaz de reproducir ítem s de un examen para otro: es notoria la
dificultad de escribir pruebas paralelas, y la sabiduría que desarrollan los redac­
tores profesionales sobre cóm o funcionan los ítem s de exam en es un ingre­
diente m uy importante en la producción de pruebas consistentes. Sin embargo,
tales redactores de ítems profesionales tienden a ser m enos sensibles al público
que evalúan, a los cam bios en el currículo o en su aplicación, a las variaciones
en los niveles escolares o en los destinatarios de las pruebas y a otras caracte­
rísticas del entorno del examen. Sin duda, la m ejor solución es tener equipos
de redacción de ítem s que incluyan a redactores profesionales y a profesores
con la experiencia adecuada.

3.2. Exámenes versus ejercicios


Cuando nos preguntam os «¿Q ué caracteriza a un buen redactor de pruebas?»,
también podríam os preguntarnos «¿Q ué caracteriza a un buen autor de libros
de texto? » La elaboración de un ítem es muy similar a la elaboración de un ejer­
cicio escolar en el que se presenta a los estudiantes una tarea que tienen que lle­
var a cabo o unos datos que tienen que interpretar y, mediante las respuestas
del profesor y de los compañeros, junto con la introspección y la observación
de sí m ism os, desarrollar la capacidad de m odificar su com portam iento y su
pensamiento. De manera parecida, los ítems de una prueba pretenden que los
estudiantes lleven a cabo tareas e interpreten datos, pero en este caso el objetivo
es el de provocar actuaciones o enunciados que se considerarán com o dem os­
tración de una habilidad. Un ítem de examen constituye un m étodo para pro­
vocar una actuación o un enunciado, junto con un sistem a por el que tal
actuación o enunciado pueda ser juzgado.
Creemos, pues, que no hay diferencias importantes entre la redacción de un
ítem para una prueba y la redacción de ama tarea de aprendizaje o un ejercicio.
Así, cualesquiera que sean las cualidades requeridas para el redactor de un ejer­
cicio lo son también para los redactores de pruebas. Incluso pueden usarse las
fuentes de inspiración de los ejercicios en la redacción de pruebas: los redacto­
res de pruebas, en otras palabras, pueden y deben ser lo m ás imaginativos posi­
ble cuando piensen en sus tipos de ítem, y una fuente de ideas m uy útil son los
libros de texto y otros materiales de aprendizaje.

44

¿Por dónde empezar?


Resulta interesante que, según nuestra experiencia, los profesores sean tan
reacios a la hora de enseñar a extraños las pruebas que han escrito, mientras que
no tienen ningún inconveniente en mostrar los ejercicios que han escrito para
utilizar en el aula. Eso puede ser así por el aura que rodea a la redacción de prue­
bas, cosa que no sucede con la redacción de ejercicios: existe la creencia de que
los exámenes son de por sí difíciles de redactar. En realidad, nuestra experien­
cia es que los extraños tienden a ser mucho más críticos con los ítems de exa­
m en que con los ejercicios de aprendizaje, y esto puede tener un efecto
inhibidor en los redactores de pruebas.
Esta reticencia a la hora de m ostrar los propios ítems a los demás no sólo se
debe a la creencia de que redactar pruebas es difícil. Puede también deberse a
una diferencia im portante entre las pruebas y los ejercicios de clase que hace
que la redacción de pruebas resulte más difícil. El hecho es que cuando los estu­
diantes responden a una prueba lo hacen de forma individual: no reciben nin­
guna ayuda de sus com pañeros ni de su profesor. ¡Tal ayuda se llamaría
«cop iar»! Sin em bargo, cuando hacen ejercicios, los estudiantes esperan reci­
bir ayuda de com pañeros y profesores, o al m enos esperan poder pedir ayuda
si la necesitan. Así, la principal diferencia entre una prueba y un ejercicio es
que con los ejercicios los estudiantes reciben ayuda; con los exámenes, no. El
efecto de esta diferencia es que los ítem s de un examen deben ser más claros
que los ejercicios de clase. Las instrucciones deben ser lo más simples y preci­
sas posible, y las tareas deben resultar fam iliares para que se pueda evaluar a
todos los candidatos de acuerdo con sus habilidades y no de acuerdo con sus
conocim ientos de la tipología de la tarea. Los ítems de examen, pues, deben
ser autoexplicativos hasta un punto a m enudo innecesario en un ejercicio de
clase. Los profesores pueden compensar un ejercicio poco claro parafraseando,
dando ejem plos, demostrando qué debe hacerse, o incluso saltándose aquellos
ejercicios que los estudiantes no entienden o no les interesan. El estudiante no
tiene esta posibilidad durante un exam en y por tanto el redactor de pruebas
tiene la obligación de garantizar que no haya am bigüedades en ningún ítem.
Es interesante señalar que hablam os de la validez de un ítem de examen m ien­
tras que no es habitual hablar de la validez de un ejercicio de clase. De todas
maneras, el concepto tiene vigencia en un debate sobre las tareas de aprendi­
zaje: las tareas que no permiten a los estudiantes aprender o practicar lo que se
supone que deben aprender o practicar no son válidas. Los exámenes difieren
de los ejercicios de clase en que los prim eros deben ser válidos (y fiables),
mientras que los ejercicios generalmente no lo son.

3.3. ¿Por dónde empezar?


Los redactores de ítem s deben em pezar su tarea por las especificaciones de
la prueba (véase capítulo 2). Esto puede parecer dem asiado obvio, pero es
sorprendente cuántos redactores intentan empezar a redactar pruebas mirando
los exám enes de años anteriores y no las especificaciones. El recurso a los

45
La redacción de ítems y la función moderadora

exámenes de años anteriores se debe probablem ente al hecho de que m uchos


exám enes no tienen especificaciones. Hay dos problem as a la hora de inten­
tar repetir o u tilizar lo s exám enes an tiguos. Prim ero, hay que deducir los
objetivos y los p ropósitos, que a m enudo no son fácilm ente deducibles: los
objetivos y los contenidos están im plícitos en un exam en antiguo, y sólo se
suelen explicitar en las especificaciones. Segundo, las especificaciones abar­
can m ucho m ás que un exam en previo. Cualquier prueba es necesariam ente
sólo una m uestra de lo que podría haber incluido. Redactar una prueba a par­
tir de pruebas previas es pues una form a de lim itar al redactor de las p ru e­
bas a lo que ya se ha evaluado. Es práctica habitual variar el contenido, y a
m enudo el m étodo, de cada nueva prueba que se prepara, a n o ser que se
tenga que elaborar una prueba estrictam ente paralela, y éste no debiera ser
el caso de los exámenes de aprovechamiento ni lo es normalmente de los exá­
m enes de dom inio. Así pues, es prim ordial ir a las especificaciones del exa­
m en para asegurar una m uestra lo m ás am plia posible del contenido y de los
m étodos de exam en.
Lo que debe hacerse después de haber consultado las especificaciones de la
prueba dependerá del tipo de prueba que se vaya a elaborar. Si la pm eba es sobre
elementos lingüísticos discretos, tales como léxico o gramática, el siguiente paso
será probablem ente consultar exámenes previos o algún inventario del conte­
nido de exámenes anteriores para evitar el peligro de repetir excesivamente el
contenido de otras pruebas. Aunque m irar el contenido de exám enes previos
puede ser útil, es m ejor clasificar de forma sistemática el contenido de todas las
pruebas administradas. Los responsables del examen deberían llevar un archivo
del contenido de todas sus pruebas.
Consultar este inventario será un segundo paso m uy útil para los redactores
que están redactando pruebas basadas en textos, por ejemplo, de comprensión
oral o de com prensión de lectura, y quizá también de expresión oral y expre­
sión escrita. El inventario debería mostrar los tipos de textos que ya se han usado,
y las especificaciones indicarán los géneros, procedencia, dificultad, etc. (véase
capítulo 2) apropiados para la prueba en cuestión.
La siguiente tarea del redactor de pruebas en m uchos exámenes es encontrar
textos apropiados. En este caso «ap rop iad os» significa no sólo textos que coin­
cidan con las especificaciones, sino también textos que faciliten ítem s adecua­
dos. No todos los textos se prestan a la redacción de ítem s, y una buena
recomendación para los redactores de ítem s es dedicar tiempo a buscar textos
que prometan. Encontrar textos adecuados puede llegar a ser tan problem a y a
m enudo los redactores guardan su propio «b an co » de textos que pueden utili­
zar en exám enes futuros y que incrementarán constantemente a partir de sus
lecturas diarias. Es a m enudo una buena idea, sobre la que insisten algunos
redactores, conseguir la aprobación de los textos por parte del comité de redac­
ción antes de proceder a la redacción de ítem s o tareas. Es sim plem ente una
forma de ahorrar tiempo, puesto que redactar ítems sobre un texto que se recha­
zará es poco eficaz y resulta deprimente.

46
Tipos de ítems

3.4. Tipos de ítems


Es importante darse cuenta de que el m étodo usado para evaluar una habilidad
lingüística puede p or sí m ism o afectar a la calificación obtenida por el estu­
diante. Los especiahstas llaman a este hecho efecto del método, y su influencia debe­
ría reducirse al m áxim o. N o nos interesa saber si a un candidato se le dan bien
las pruebas de elección múltiple o es m ejor a la hora de completar textos con
huecos (doze tests) que los demás candidatos, o si le resultan bastante difíciles las
descripciones verbales de una serie de fotos. N os interesa averiguar los conoci­
m ientos gramaticales de un candidato, su habihdad lectora o sus destrezas ver­
bales. Todavía no sabemos demasiado sobre el efecto de los métodos de examen,
pero cuanta m ás investigación se dedique a observar cóm o responden los estu­
diantes a los distintos m étodos de evaluación, empezaremos a entender el efecto
o, m ejor, los efectos, de forma más completa.
Sin embargo, se ha llevado a cabo una considerable investigación sobre algu­
nos m étodos: la técnica de doze, y los c-tests, por ejemplo (véanse páginas 57 y
58). Se ha realizado mucha investigación utilizando los exámenes de tipo doze
com o variables, pero se ha hecho mucho m enos para ver lo que estos exám e­
nes m iden exactamente. Lo que está claro, sin embargo, es que diferentes exá­
menes de tipo doze m iden cosas distintas, es decir, un examen producido con la
aplicación de la técnica del doze sobre un texto puede o no medir lo m ism o que
otro examen distinto producido con la m isma técnica sobre el mismo texto. Esta
variación es imprevisible y suele depender de qué palabras se han suprimido.
Resum iendo, no se puede saber por adelantado lo que evaluará una determi­
nada prueba tipo doze sin haber validado la prueba de la forma habitual (véase
el capítulo 8). Esto significa que el efecto del método de la técnica doze será pro­
bablemente muy complejo. Sin embargo, se ha demostrado que cuando los estu­
diantes responden a exámenes de tipo doze, leen de forma distinta a la habitual;
leen una pequeña cantidad de texto justo antes del hueco, pero no leen el texto
que viene justo detrás del hueco. N os parece que esto se debe a la propia téc­
nica de la prueba; la existencia de huecos a intervalos regulares tiende a indu­
cir a una lectura de «texto corto», y muchos de los que responden a exámenes
de tipo cloze m uestran una falta de atención al significado del contexto más
amplio, cosa que no hacen cuando leen normalmente, cuando son realmente
sensibles al contexto.
De form a parecida, se ha demostrado que m uchos alumnos pueden apren­
der estrategias para responder a exámenes de respuesta múltiple que inflan sus
notas artificialmente: técnicas para acertar la respuesta correcta, para eliminar
opciones poco probables, para evitar dos opciones con significado parecido,
para seleccionar una opción notablemente más larga que las otras, etc. (véase
Alian, 1992, y su interesante descripción de una prueba de habilidad para res­
ponder a exám enes elaborada para identificar a estudiantes que han desarro­
llado tales estrategias). Existen tam bién anécdotas de estudiantes que han
realizando pruebas de respuesta m últiple cuyo m étodo les ha llevado a optar

47
La redacción de ítem s y la función m oderadora

por alternativas que no habrían elegido en otras circunstancias (véase el debate


sobre preguntas de respuesta múltiple en Oller, 1979): el m étodo de exam en
engaña a los incautos, que hacen interpretaciones erróneas que no hubieran
hecho en otras circunstancias.
Además, es probable que algunos m étodos de examen en particular se pres­
ten a evaluar unas habilidades concretas y no sean tan buenos para evaluar otras.
Un ejemplo extremo es el de los exámenes de respuesta múltiple, que no son
adecuados para evaluar la habilidad de pronunciar una lengua correctamente.
A pesar de las sugerencias de Lado (1 9 6 1 ) y de las creencias en Japón sobre lo
contrario, Buck (1 9 8 9 ) demostró claramente que los resultados de las pruebas
de respuesta múltiple de pronunciación no muestran correlación con la h abi­
lidad de los candidatos a la hora de pronunciar correctam ente los fonem as
ingleses. Un ejem plo m enos extremo podría ser la técnica de respuesta m últi­
ple para evaluar la com prensión de lectura: puede resultar m ás fácil controlar
los procesos cognitivos de los lectores con técnicas de respuesta múltiple que
con preguntas de respuesta breve (puesto que el redactor de la prueba puede
idear opciones para que los candidatos razonen de ciertas maneras), y este con­
trol puede ser deseable para evaluar la capacidad de inferencia en una lengua
extranjera.
Por desgracia, nuestros conocimientos sobre los efectos del m étodo de exa­
men son todavía tan rudimentarios que no es posible recomendar m étodos con­
cretos para evaluar habilidades lingüísticas en particular. Éste es quizá el talón
de Aquiles de la evaluación de idiom as.
En ausencia de tales recomendaciones el mejor consejo que puede darse a un
redactor de ítems es asegurarse de que se utilice más de un método para evaluar
cualquier habilidad. Una disciplina muy útil es la de idear un ítem de examen que
cubra una habilidad u objetivo, y después idear otro ítem que evalúe la m ism a
habilidad usando un m étodo o un tipo de ítem distinto. Esto puede conducir a
una mayor comprensión sobre lo que distintos tipos de ítems evalúan, y debería
conducir a un mayor conocimiento de las distintas posibilidades de los ítems.
En general, cuanto m ás m étodos diferentes emplee una prueba, más seguri­
dad tendremos de que la prueba no se inclina hacia un m étodo o h ada un tipo
de estudiante en concreto. Además, si una serie de pruebas va a elaborarse a lo
largo de los años (por ejemplo, las pruebas de final de curso de una institución)
recomendamos que los redactores varíen deliberadamente los m étodos usados
para que ninguno predom ine y la prueba no se vuelva prededble (véase tam ­
bién el capítulo 10). Aunque sabem os sorprendentem ente poco sobre cóm o
influyen los exámenes en la d ocen d a (véase Alderson y Wall, 1993, y Wall y
Alderson, 1993, para una discusión sobre el efecto de rebote -washback-), es
probable que el hecho de «m antener a los estudiantes en vilo », variando los
métodos de evaluación año tras año, reduzca la previsibilidad del formato de la
prueba y posiblemente el aprendizaje de estrategias para responder a exámenes
de un tipo de prueba en concreto.

48
Problemas con tipos de ítem s concretos

3.5. Problemas con tipos de ítems concretos


Mientras no se sepan los efectos de los diferentes m étodos de evaluación, los
redactores de pruebas necesitan saber las pegas ya conocidas de algunos m éto­
dos de evaluación en concreto y aprender cómo evitar los errores más comunes
a la hora de redactar ciertos tipos de ítems. Heaton, 1988 aconseja sobre la
redacción de distintos tipos de ítem y cómo evitar redactar m alos ítems, y exis­
ten diversas publicaciones que dan ejemplos de distintos tipos de ítems (véase,
por ejemplo, Valette, 1977; Hughes, 1989, y Weir, 1988). No entraremos pues
en un análisis detallado de ítems, pero describiremos algunos de los problemas
más comunes asociados a ellos, empezando con pruebas de corrección objetiva
y pasando m ás adelante a pruebas más subjetivas.

3.5.1. Problemas generales


Hay algunos problemas que afectan a todos los tipos de pruebas, y quizá lo más
fundamental es la pregunta «¿Q ué evalúa el ítem en realidad?» Es m uy fácil en
m uchos tipos de ítem que se evalúe algo distinto de lo previsto. El ítem
siguiente, por ejemplo, está redactado para evaluar la ortografía:

Reorganiza las letras siguientes para formar palabras inglesas:


RUFTI RSOEH MSAPT
TOLSO RIEWT PAHYP

Puede ser que el ítem evalúe ortografía, pero también evalúa la inteligencia,
la habilidad para resolver anagramas y, quizá, vocabulario. Para realizar esta tarea
con éxito puede ser m ás importante el saber hacer la operación mental reque­
rida que saber ortografía.
Es m uy común, por desgracia, especialmente en exámenes de dominio de un
nivel avanzado, evaluar la inteligencia al m ism o tiempo o en lugar de la lengua.
De forma similar, también se evalúan conocimientos generales en vez de la com ­
prensión oral o de lectura. Dos ejemplos de este tipo de ítem se discutirán en el
apartado 3.5.2.
Otro punto fundam ental es que se dé un punto por cada ítem, y que cada
ítem sea independiente del resto. El éxito en responder a un ítem no debería
depender del éxito en otro ítem. Por ejem plo, si sólo es posible responder al
segundo ítem en una prueba de comprensión de lectura después de haber con­
testado correctamente al prim ero, el candidato que suspenda el ítem número
1 suspenderá automáticamente el ítem número 2 y perderá por tanto dos pun­
tos en vez de uno. Algunos redactores integran los ítems de tal forma que res­
ponder correctam ente a unos ítem s depende de haber contestado bien a los
que les precedían, y esto puede acarrear problem as. Discutirem os este punto
en el apartado 3.5.4.
El punto final de este apartado general es que las instrucciones para todos los
ítems deben estar m uy claras. A m enudo los estudiantes suspenden un examen
o un ítem no porque tengan un nivel bajo de conocimientos lingüísticos sino

49
La redacción de ítem s y la función moderadora

porque no comprenden qué deben hacer. Si es posible, el tipo de redacción uti­


lizado debería ser m ás fácil que el de los ítems en sí, y en algunos casos las ins­
trucciones deberían escribirse en la lengua materna de los candidatos. Cada
nuevo grupo de ítem s debería ir precedido de un ejem plo con su respuesta
correspondiente marcada.

3.5.2. Respuesta múltiple


El requisito m ás importante de un ítem de respuesta múltiple es que la respuesta
«correcta» debe ser verdaderamente correcta. (Véase Peirce, 1992, para comen­
tarios interesantes sobre este punto y sobre otros problem as que surgen en la
elaboración de pruebas de lectura con respuesta múltiple.) Aunque esto parece
obvio, es m uy posible, especialmente en tareas de comprensión oral o de lec­
tura, dar como correctas respuestas con las que muchos colegas no estarían de
acuerdo. Tal tipo de respuestas dudosas es particularmente común en pregun­
tas de inferencia. Cada respuesta «correcta», pues, debe cotejarse con otros pro­
fesores para evitar problem as como el siguiente:
¿Qué respuesta no corresponde?
A. rabbit (conejo)
B. haré (liebre)
C. bunny (conejito)
D. deer (ciervo)

El redactor ha previsto que la respuesta correcta sea la D, pero algún buen


estudiante puede escoger la respuesta C, porque bunny es una palabra del len­
guaje familiar utilizada por los niños.
El otro requisito es que los redactores de ítems deben asegurarse de que sólo
haya qna respuesta correcta cuando la clave de respuestas sólo ofrezca una res­
puesta. Todos hem os hallado ítem s con más de una alternativa correcta. Fre­
cuentemente los redactores de ítem s se centran en una sola respuesta y no
pueden ver que otra u otras alternativas también son posibles y aceptables. Esto
sólo puede descubrirse mostrando los ítems a otras personas.
El siguiente ítem se escribió siguiendo escrupulosamente las reglas dadas en
un libro de texto para principiantes. Sin em bargo, cuando se preguntó cuál es
la respuesta correcta a hablantes nativos de la lengua no se ponían de acuerdo.
-W hy hasn’t your mother come?
-W ell, she said she __________ leave the baby.
A. can’t
B. w on ’t
C. couldn’t
D. m ayn’t

De acuerdo con el libro de texto, la respuesta correcta es la C, según las reglas


del discurso referido. Sin embargo, muchos de los hablantes nativos con los que
se probó este ítem dijeron que tanto A como B eran perfectamente aceptables,

50
Problemas con tipos de ítem s concretos

especialmente en la lengua hablada. Nuestra experiencia nos demuestra que pre­


tender seguir de forma demasiado rigurosa lo que dice el libro de texto puede
llevar a ítems con m ás de una respuesta aceptable.
Cada alternativa errónea debería atraer al m enos a algunos de los alumnos.
Si nadie opta por alguna de las alternativas ofrecidas, es señal de que esta alter­
nativa es inútil y debería suprim irse. En general es una buena idea tener al
m enos cuatro respuestas alternativas, para que sólo haya un 25% de posibili­
dades de que los estudiantes acierten la pregunta al azar, pero si es im posible
encontrar una tercera respuesta errónea, lo más sensato es ofrecer sólo tres alter­
nativas en algunas preguntas.
Si es necesario, los ítem s de respuesta múltiple deberían presentarse en un
contexto. A m enudo el redactor, cuando redacta un ítem, tiene un contexto en
mente que no es necesariamente obvio para los demás, y esto puede afectar a la
respuesta de los estudiantes, que pueden equivocarse aunque tengan el nivel de
conocimientos requerido.
La presentación de contexto reduce a m enudo las posibilidades de am bigüe­
dad, por ejemplo:
Elige la opción más cercana en cuanto a significado a la palabra subrayada:
Vuelve pronto. . . ,
A. dentro de poco tiempo
B. más tarde
C. hoy
D. mañana
La ausencia de contexto hace dudar si la opción B es realmente errónea. Sería
más claro de la forma siguiente:
Rellena el espacio en blanco con la opción más adecuada:
Visitante: Muchas gracias por esta maravillosa reunión.
Anfitriona: Estamos encantados de que pudiera venir. V uelva________ .
A. pronto
B. más tarde
C. hoy
D. mañana
Esta nueva versión tam bién corrige otros problem as. En la versión o rigi­
nal la respuesta correcta, la A, no se adapta fácilmente al verbo que inicia la
frase, puesto que en m uchos contextos no es corriente decir «Vuelva dentro
de poco tiem p o ». Este hecho p odría preocu par a algun os de los m ejores
alum nos, que p odrían escoger una respuesta incorrecta. Com o no hay un
sin ón im o exacto para « p r o n to » , y com o no es necesario en este nivel de
aprendizaje de lengua m ostrar la capacidad de producir sinónim os, la nueva
versión es m ás apropiada.
La alternativa correcta no debería ser m uy distinta a sim ple vista del resto
de las opciones, para que no resulte obvia. No debería ser ni mucho m ás larga

51
La redacción de ítem s y la función m oderadora

ni m ucho m ás corta, ni tam poco debería estar escrita en un estilo distinto.


Heaton (1 9 8 8 : 32) da el ejem plo siguiente cuando describe m alos ítem s de
respuesta m últiple:
Elige la opción más cercana en cuanto a significado a la palabra subrayada:
Se atragantó mientras com ía pescado.
A. empezó a m orir
B. puso a toser y a vomitar
C. le hizo imposible respirar al tener algo en la tráquea
D. enfadó mucho
Hay varios problemas con este ítem. El más obvio es que la respuesta correcta,
la C, es inmediatamente identificable porque es mucho más larga que las otras
alternativas. Parece una definición de diccionario, y cualquier candidato que
dude a la hora de responder la escogerá.
En segundo lugar, la opción B está relacionada con «atragantarse» desde un
punto de vista semántico y podría, por tanto, ser aceptable para m uchos estu­
diantes. Después de todo, ¿qué quiere decir la opción m ás cercana? Para ase­
gurarse de que la opción B es m enos «cercan a en cuanto a sig n ificad o », el
redactor se ha visto forzado a dar una «definición de diccionario» para que la
respuesta C sea realmente la m ás «cercana en cuanto a significado» a la pala­
bra «atragantó».
En tercer lugar, sin m ás contexto que el que se da, no puede saberse si el
sujeto en cuestión se asfixiaba a causa de la comida o si es que estaba m uy enfa­
dado. El hecho de que la frase sea «Se atragantó mientras com ía pescado», en
vez de «Se atragantó con una espina» implica que quizá lo que en realidad pasó
es que se enfadó m ucho. Y si no, ¿por qué se acaba la frase con un «m ientras
com ía pescado»? Es com o una pregunta trampa para confundir a los m ejores
alum nos. Si la frase tuviera un contexto m ás am plio, las alternativas serían
m enos am biguas.
Otro requisito de las preguntas de respuesta múltiple es que cada opción debe
poder encajar perfectamente en el contexto. Heaton (1988: 29) cita el siguiente
ítem, en el que la respuesta correcta, la C, no encaja, porque en inglés el articulo
indefinido « a » no puede usarse delante de un nom bre que empieza por vocal:

Someone who designs houses is a __________ .


A. designer
B. builder
C. architect
D. plumber

Tal com o dijim os en el apartado 3.5.1, algunos ítems no evalúan lo que se


pretende que evalúen. Esto ocurre con m ayor frecuencia en pruebas de com ­
prensión en las que los ítem s suelen acabar evaluando conocim ientos genera­
les. Es por desgracia m uy fácil escribir ítems a los que se puede responder sin
necesidad de leer o escuchar el texto. Por ejemplo:

52
Problemas con tipos de ítem s concretos

(A continuación de un texto sobre la memoria.)


Memorizar es m ás fácil cuando el contenido que hay que aprender ...
A. está en una lengua extranjera.
B. ya es en parte conocido.
C. no es conocido pero es fácil.
D. no tiene demasiado interés.

Aunque no leam os el texto, está claro que éste es un mal ítem. El sentido
común y la experiencia nos dicen que la opción A no es verdadera, que la D es
m uy poco probable, y que la B es probablemente la respuesta correcta. La única
alternativa que parece depender del texto para su interpretación es la C, puesto
que «n o conocido» y «fácil» son palabras relativamente ambiguas.
Tales ejemplos son corrientes, incluso cuando los ítems han pasado por dis­
tintos filtros. Aquí hay otro ejemplo sacado de un examen de ámbito nacional,
en el que cinco ítems se podían contestar sin leer el texto:
(A continuación de un texto sobre árboles.)
¿Quién obtiene comida de los árboles?
A. Sólo el hombre.
B. Sólo los animales.
C. El hom bre y los animales.
Diga lo que diga el texto, es sin duda del dominio general que tanto los huma­
nos com o los animales obtienen comida de los árboles.
Este problem a de ítems independientes del texto que se lee o se escucha no
se limita a ítems de respuesta múltiple. Puede encontrarse también en otro tipo
de preguntas con respuestas de corrección objetiva, y también en preguntas de
respuesta breve. Para asegurarse de que no se puede responder a preguntas de
com prensión sin hacer referencia al texto, los supervisores de ítems deberían
intentar responder a las preguntas antes de ver o escuchar el texto sobre el que
están redactadas.
Para finalizar, otra dificultad con la que pueden encontrarse los redactores de
ítems se halla en las tareas en las que los estudiantes deben corregir algún texto.
En el caso de que deban identificar un error en una frase, por ejemplo,

A B C
A pesar de la lluvia / el profesor de los niños / no permitió /
D E
quedarse dentro / durante el recreo.

En este caso tanto la opción C como la D pueden ser las respuestas correctas,
dependiendo del tipo de error que se esté buscando. Cualquiera de las frases
siguientes es correcta:

... el profesor de los niños no les permitió quedarse dentro...


... el profesor de los niños no permitió que se quedaran dentro...

Es probablemente sensato evitar frases que tengan un error sea de omisión.

53
f La redacción de ítem s y la función m oderadora

3.5.3. Otros ítems de corrección objetiva

ÍTEMS DICOTÓMICOS
Los ítems a los que debe responderse con un Verdadero/Falso o S í/N o son en
general insatisfactorios puesto que hay un S 0% de posibilidades de acertar la res­
puesta al azar. Si queremos saber algo sobre la capacidad de un estudiante es nece­
sario tener un gran número de estos ítems para poder reducir los efectos del azar.
Algunos redactores de ítems reducen la posibilidad de acertar la respuesta correcta
al azar incluyendo una tercera categoría com o «n o se dice» o «n o consta». Esto
puede ser útil en una prueba de comprensión de lectura, pero no en una prueba
de comprensión oral, especialmente si el texto sólo se pasa una vez, puesto que
puede ser demasiado exigente y puede llevar a confusión.

RELACIONAR (MATCHING)
Con «relacionar» nos referimos a los ítems en los que se da a los estudiantes una
lista de posibles respuestas que tienen que emparejar con otra Üsta de palabras,
expresiones, frases, párrafos o estímulos visuales. En el siguiente ejemplo, los estu­
diantes deben emparejar las cuatro palabras de la izquierda con las de la derecha
para formar otras palabras inglesas. Por ejemplo: car y pet forman caipet.
1. car A. room
2. cup B. pet
3. bed C. dress
4. night D. board

El inconveniente de este ítem es que, una vez que se han emparejado correc­
tamente tres de los cuatro ítems, el cuarto será correcto por defecto. Es aconse­
jable, pues, dar m ás alternativas de las que la tarea en sí requiere. El ejem plo
anterior podría m ejorarse si los estudiantes tuvieran que escoger entre seis o
siete palabras en la columna de la derecha.

TRANSFERENCIA DE INFORMACIÓN
Este tipo de tarea se usa en la m ayor parte de los casos en las tareas de com ­
prensión oral y de lectura. Los candidatos deben transferir información del texto
a un cuadro, tabla, cuestionario o m apa. Estas tareas se asem ejan a m enudo a
actividades que se realizan en el m undo real y son por tanto m uy utilizadas en
las series de pruebas que intentan incluir tareas auténticas. Algunas veces las res­
puestas consisten sólo en nom bres y núm eros, y pueden corregirse de forma
objetiva. A veces toman la forma de expresiones o de frases cortas y deben corre­
girse de forma m ás subjetiva. El problema de estos últimos ítems es similar a los
que hem os descrito en un apartado m ás adelante bajo el nom bre de preguntas
con respuestas cortas.
Lino de los principales problem as de las preguntas de transferencia de infor­
m ación es que la tarea puede ser m uy complicada. A veces los candidatos tar­

54
Problemas con tipos de ítem s concretos

dan tanto en descubrir lo que debe escribirse en la tabla que no consiguen resol­
ver lo que lingüísticamente es un problem a sencillo.
Otro problem a es que la tarea puede ser discriminatoria desde un punto de
vista cultural o cognitivo. Por ejemplo, el candidato puede tener que escuchar
la descripción del itinerario de alguien a través de una ciudad y marcar la ruta
en el m apa. Los estudiantes que no estén familiarizados con planos o que ten­
gan dificultades a la hora de leer m apas estarán en desventaja con tareas de
este tipo.

TAREAS DE ORDENAMIENTO
En una tarea de ordenamiento se pide a los candidatos que ordenen un grupo
de palabras, expresiones, frases o párrafos. Tales tareas son habitualmente uti­
lizadas para evaluar la gramática, simple o compleja, la referencia y la cohesión,
o la comprensión de lectura. Casi todas estas tareas son difíciles de redactar por­
que no es fácil encontrar palabras o expresiones que sólo tengan sentido orde­
nadas de una form a concreta. Por ejem plo, la siguiente pregunta puede
responderse com o m ínim o de dos formas:

Ordena ias palabras siguientes de forma que se complete la frase:


Ella d i o __________________________________________.
libro su ayer madre el a

Es todavía m ás difícil redactar ítem s en los que las frases o párrafos deban
reordenarse. Por ejemplo:

Las frases y expresiones siguientes proceden de un pánafo de una historia de aventuras. Ponías en

el orden correcto. Escribe la letra correspondiente en el espacio de la derecha.


La frase D es la primera, y por tanto se ha escrito junto al número 1.
A. se llamaba «El último vals» 1 D
B. la calle estaba en total oscuridad 2_
C. porque era una que él y Bichard habían aprendido en la escuela 3_
D. Peter m iró fuera 4__
E. reconoció la m elodía 5__
F. y parecía desierta 6__
G. creyó oír a alguien silbar 7__

Hay al menos dos formas de ordenar este párrafo. La clave de respuestas faci­
litada es 1-D, 2-G, 3-E, 4-C, 5-A, 6-B, 7-F, pero también es aceptable 1-D, 2-
B, 3-F, 4-G, S-E, 6-C, 7-A. En este caso es posible m ejorar el ítem añadiendo
«p e ro » a la frase G, para que diga «pero creyó oír a alguien silbar». Esto hará
que sólo la segunda de las dos respuestas sea aceptable. Sin embargo, aunque
sea posible redactar un ítem en el que los componentes sólo se puedan orde­
nar de una form a, no está siem pre claro lo que se está evaluando, y siempre
existe el problem a de la corrección. Imaginemos que un estudiante comete dos
errores en la ordenación al principio de la secuencia, pero ordena el resto de

55
La redacción de ítem s y la función m oderadora

la secuencia de forma correcta. ¿Deberíamos dar a este estudiante la m isma cali­


ficación que al que ha ordenado toda la secuencia mal? Parece injusto pu n ­
tuarlos de la m ism a forma, pero una vez que empecemos a dar puntos distintos
para distintos errores, la corrección se complica de forma m uy poco práctica.
Tales ítem s se corrigen pues dando un punto si están correctos por completo
y no dándolo si no lo están, pero en este caso el esfuerzo realizado por parte
del redactor a la hora de redactar la prueba y por parte del estudiante a la hora
de responderla no compensa.

CORRECCIÓN
Las pruebas de corrección consisten a m enudo en frases o pasajes en los que
se han introducido errores que el candidato debe identificar. Pueden tomar la
form a de preguntas de respuesta múltiple, com o en el apartado 3.5.2, o pue­
den ser m ás abiertas. Un m étodo com ún es preguntar a los estudiantes que
identifiquen un error en cada línea de un texto, bien m arcándolo en el texto,
bien escribiendo la form a correcta junto a cada línea apropiada. La principal
dificultad con este tipo de ítem es asegurarse de que sólo hay un error en cada
línea.
Algunos redactores de pruebas han intentado hacer la tarea más real pidiendo
a los estudiantes que hagan una lista de los errores sin decir cuántos hay. Esto
significa que los estudiantes pueden llegar a perder mucho tiempo barriendo el
texto para buscar errores, puesto que nunca creen que los han encontrado todos.
También significa que la corrección es difícil puesto que a los estudiantes se les
puede escapar un error al principio, o marcar un error no existente, por lo que
su lista no podrá cotejarse con la clave de respuestas oficial. Se debería por lo
menos informar a los estudiantes del número de errores que hay. (Y esto tam ­
bién afecta a la m ayoría de las tareas en las que los candidatos deben producir
algún tipo de lista)

COMPLETAR HUECOS
«Com pletar huecos» se refiere aquí a las pruebas en las que el candidato recibe
un pasaje corto en el que se han suprim ido algunas palabras o expresiones. Las
supresiones se han seleccionado a propósito por parte del redactor para eva­
luar aspectos lingüísticos concretos tales com o la gramática o la com prensión
de lectura.
Las tareas de rellenar huecos se basan a menudo en textos auténticos y a veces
en pasajes escritos con este propósito. En am bos casos, la m ayor dificultad es
asegurarse de que cada hueco lleva a los estudiantes a escribir la palabra o pala­
bras esperadas. Idealmente debería haber sólo una respuesta para cada hueco,
pero esto es en general m uy difícil de conseguir. La clave de respuestas tiene a
m enudo más de una respuesta para algunos huecos. Para una mayor fiabilidad
de corrección es im portante reducir el núm ero de respuestas alternativas al
m ínim o, y asegurarse de que no hay otras respuestas posibles que no estén en
la clave de respuestas.

56
Problemas con tipos de ítem s concretos

Otro problem a es que a los candidatos no se les ocurra pensar en una res­
puesta, no porque tengan pocos conocim ientos, sino porque simplemente la
palabra no les viene a la mente. De nuevo nos encontram os en una situación
que no ha previsto el redactor, y que no podía prever, ya que él sí tiene el texto
com pleto y por eso ve obvia la respuesta. Y de nuevo aconsejam os que debe
ensayarse la prueba con colegas prim ero y después con estudiantes de nivel y
características parecidas a los futuros candidatos.
Si nos encontram os con un texto en el que hay bastantes huecos que no se
pueden completar fácilmente, o si hay dificultades de corrección, la tarea con­
sistente en completar huecos en un texto utilizando las palabras provistas (ban-
ked gap filling) puede ofrecer una solución. Se trata de un tipo de tarea parecida a
la de relacionar. Cada una de las palabras o grupos de palabras que completan
el texto se incluyen en una lista que se presenta en la misma página que el texto
con huecos. La lista contiene más palabras que huecos hay en el texto, y la tarea
del candidato estriba en seleccionar la palabra correcta para cada hueco. Debe­
ría haber sólo una respuesta posible para cada hueco, pero los candidatos debe­
rían estar informados de que cualquier palabra de la lista puede ir en más de un
hueco. Las palabras deberían estar en orden alfabético.
Es siempre importante informar a los estudiantes si cada hueco se completa
con una o m ás de una palabra. Si se acepta más de una palabra, la corrección es
más difícil. Si sólo se perm ite una palabra, se deberían evitar contracciones y
palabras compuestas.
A veces una frase o una expresión es correcta con o sin la palabra suprimida.
Por ejemplo:

Sucedió que el h o m b r e _____________que yo seguía resultó estar en m uy


buena forma.
ítems com o este pueden confundir a los estudiantes y deben evitarse.

CLOZE
Llamamos doze a las pruebas en las que se suprimen algunas palabras de un texto
de forma mecánica. Cada equis número de palabras se suprime una, sea cual sea
su función en la frase. Por ejemplo, cada sexta palabra se suprime y se deja en
blanco para que los estudiantes lo rellenen.
Com o d ijim o s anteriorm ente en este capítulo, uno de los problem as de
suprim ir una de cada equis palabras es que la selección de la prim era palabra
puede afectar a la validez de la prueba, puesto que una vez que se ha supri­
m ido la prim era palabra el resto de supresiones sigue automáticamente. Los
experim entos que se han hecho com parando pruebas basadas en el m ism o
texto pero con distintos huecos, han demostrado que las pruebas varían tanto
en validez com o en fiabilidad (Alderson, 1978, 1979, y Klein Braley, 1981).
Algunas versiones de la prueba pueden, por ejem plo, contener una propor­
ción alta de huecos correspondientes a palabras gramaticales, que puede resul­
tar fácil de com pletar para estudiantes com petentes en la lengua y que

57
La redacción de ítem s y la función m oderadora

distinguirá entre estudiantes de distintos niveles, m ientras que otras versio­


nes pueden contener h uecos de vocabulario que serán difíciles de rellenar
incluso por hablantes nativos.
Otro inconveniente es que las pruebas de tipo doze son m uy difíciles de m odi­
ficar después de ensayarlas. Si una vez que se ha ensayado hay huecos im posi­
bles de rellenar, ¿cóm o puede arreglarse? Si el redactor decide volver a incluir
la palabra suprimida en su lugar de origen y suprimir otra palabra cercana rom ­
perá la regla de supresión de una de cada equis palabras, y si se reescribe la
prueba para que todos los huecos puedan ser fácilmente completados, la prueba
se vuelve m enos auténtica.
Corregir una prueba de tipo doze puede ser difícil puesto que hay muchas res­
puestas posibles para cada hueco, y a m enudo existen discrepancias sobre las
respuestas aceptables. Para producir una clave de respuestas que incluya todas
las posibilidades hará falta ensayar el examen con m ás de un grupo y mantener
largas discusiones sobre la adecuación de las distintas respuestas. Todo este p ro ­
ceso será largo. Para evitarlo, algunos responsables de pruebas sólo aceptan la
palabra exacta en el texto original. Esta decisión produce naturalmente notas
más bajas, aunque no cambia la posición relativa de los estudiantes en cuanto a
sus calificaciones. Sin embargo, como es antinatural considerar incorrecta la res­
puesta «envía un fax» si el texto decía «m anda un fax», lo más corriente es acep­
tar todas las respuestas apropiadas.
Finalmente, a no ser que el objetivo de la prueba sea evaluar la competencia
lingüística general, según defiende Oller, 1979, tales pruebas pueden dar como
resultado una pérdida de energías. Pocos de los ítems de cada pasaje evaluarán
aspectos lingüísticos que interesaban al redactor. Así pues recom endam os que,
en general, los redactores se inclinen hacia las pruebas de rellenar huecos y no
hacia las pruebas del tipo doze para poder evaluar las características lingüísticas
en las que están interesados.

PRUEBAS DE TIPO C-

Las pmebas de tipo c- también incorporan la supresión mecánica, pero en esta oca­
sión se mutila cada segunda palabra de un texto. Esta mutilación consiste en supri­
mir la mitad de la palabra para dar al candidato pistas sobre la palabra original.
Las pruebas de tipo c- tienen los m ism os inconvenientes que las de rellenar
huecos o las de tipo doze, aunque el hecho incluir las primeras letras de la pala­
bra que se debe com pletar reduce el núm ero de posibles respuestas de cada
hueco. Sin em bargo, incluso cuando se da la prim era m itad de una palabra,
puede haber dificultades para dar con la respuesta acertada.
Cada hueco en la prueba siguiente debe rellenarse con la segunda parte de una palabra. Si la pala­
bra completa tiene un número de letras par, faltarán exactamente la mitad de las letras:

en — e...; ante = an...; come = co...


Si la palabra completa tiene un número de letras impar, faltarán la mitad de las letras más una:

58
Problemas con tipos de ítem s concretos

hacia = ha...; oír = o...; comer = co...


Have you heard about a camera that can peer into the ground and “ see” a
buried city? Or another th....can he........scientists esti........ when a vol....... will
er......? Sthl ano...... that c....... show h ....... deeply a bu....... has go.......into fl....... ?

El prim er problem a con el que nos encontramos aquí es que las instruccio­
nes son dem asiado com plejas. La tarea puede parecer m enos difícil si las ins­
trucciones simplemente informan al candidato de que se facilita el número de
letras que faltan en cada hueco. Los prim eros huecos del ejem plo anterior se
presentarían de la siguiente forma:

Or another th ___can h e ____scientists e sti_______ when

El segundo problema es que la frase final no da suficientes pistas a los hablan­


tes cultos de la lengua para completar palabras como bu..... y fl....... Esto sólo se
puede descubrir cuando se somete la prueba a ensayos previos.

DICTADO
Un dictado sólo será equitativo para los estudiantes si se presenta a todos de la
m ism a forma, y esto generalmente significa el tenerlo que grabar en una cinta
para que no sólo se presente de la m isma forma a todos los candidatos, sino para
que la velocidad de lectura y la colocación de las pausas puedan probarse con
anterioridad. Si no se va a poder utilizar una grabación, las personas que lean el
dictado deberán estar m uy bien preparadas.
Los dictados pueden corregirse de forma objetiva si se exige a los candidatos
que escriban el texto tal cual se ha dictado, y si el corrector tiene un sistema para
decidir cómo debe puntuarse. Sin embargo, tales sistemas son difíciles de diseñar.
Por ejemplo, si las instrucciones para la corrección dicen «reste un punto por cada
falta de ortografía y dos puntos por cada palabra que falte o que no se corresponda
con el original», no está siempre claro si una palabra contiene una falta de orto­
grafía o si simplemente no es la palabra que corresponde. El mismo problema se
produce si se instruye al corrector para que ignore las faltas de ortografía.
El otro problem a de este m étodo de corrección del dictado es que es lento y
pesado. Esto significa no sólo que va a resultar caro sino también que los correc­
tores cometerán errores. Algunos redactores evitan este problem a escogiendo
dictados sólo parciales, en los que los candidatos deben completar un texto dado
en el que faltan palabras, expresiones o frases completas. Los candidatos deben
completar el texto mientras el examinador lo lee completo en voz alta.
Algunas pruebas de dictado no piden a los alumnos que copien las palabras
al pie de la letra, sino que sólo anoten los puntos principales, como en una tarea
de tomar notas. Por ejemplo, puede leerse el program a de un curso y pedir a
los alumnos que tomen nota de la información que van a necesitar si siguen el
curso. Tal tipo de dictado incluye una tarea de comprensión oral m ás auténtica
que los dictados tradicionales, pero provoca problemas de corrección como los
que se discutirán en el siguiente apartado.

59
La redacción de ítem s y la función m oderadora

PREGUNTAS DE RESPUESTA BREVE


Por «preguntas de respuesta breve» queremos referimos a ítems abiertos en los
que los candidatos tienen que pensar y producir su propia respuesta. Las respues­
tas pueden oscilar entre una palabra o frase y una o dos oraciones completas.
El aspecto m ás importante que hay que tener en cuenta cuando se redactan
preguntas de respuesta breve es que los candidatos deben saber qué se espera
de ellos. Así, en el ejemplo siguiente no está claro lo que se requiere:
Reescribe la frase siguiente, empezando con las palabras dadas. La nueva frase debe ser lo más simi­
lar posible a la original.
Juan fue quien m e salvó la vida.
Si n o _________________________________________________ .

Para un redactor de ítems acostumbrado a enseñar transformaciones, no hay


duda de que éste es un ítem m uy claro, pero cuando se ensayó, la mayoría de
los estudiantes no tenían ni idea de lo que se suponía que debían escribir. La
tarea hubiera estado m ás clara con la siguiente redacción:
Juan fue quien m e salvó la vida.
Si n o ___________________________________________ _ me habría ahogado.
Algunas veces, por otra parte, los estudiantes creen saber lo que se supone que
deben hacer, pero no lo saben. Por ejemplo, el ítem siguiente estaba redactado
para evaluar la capacidad de los estudiantes para utilizar el pretérito perfecto:
Escribe dos frases que contengan «desde».
Entre las respuestas que dieron los estudiantes se encontraban:
Desde entonces nunca le volvió a ver.
Desde París salim os hacia Holanda.

Las respuestas eran lógicas, pero no contenían el pretérito perfecto. Si un


redactor quiere que el estudiante utilice el pretérito perfecto, esto debe estar
m uy claro en las instrucciones. Por ejemplo:

Completa la frase siguiente, utilizando la forma correcta del verbo «ser»:


Y o _________________ aquí desde ayer.

Esto podría evaluarse de otra forma con un formato de respuesta múltiple:


Completa la frase siguiente:
Y o __________________aquí desde ayer.
A. estaba
B. estuve
C. estaré
D. he estado

60
Problemas con tipos de ítems concretos

La comprensión oral y la de lectura pueden evaluarse utilizando preguntas de


respuesta breve. Las respuestas son m uy reveladoras, puesto que a m enudo
muestran malentendidos textuales que jamás se le hubieran ocurrido al redac­
tor. Sin em bargo, la corrección de tales ítems es a m enudo m uy difícil puesto
que suele haber muchas formas de decir lo m ism o y muchas respuestas alter­
nativas aceptables, algunas de las cuales puede no haber previsto el redactor.
Una vez m ás debem os insistir en que se ensayen los ítems.

3.5.4. Pruebas de corrección subjetiva

REDACCIONES Y TRABAJOS
A primera vista, escribir los enunciados para las redacciones parece m uy fácil,
m ucho m ás fácil, por ejem plo, que escribir preguntas de respuesta múltiple.
Todo lo que se debe hacer, al parecer, es dar un tema y dejar al alum no que
redacte una respuesta. Es m uy corriente el siguiente tipo de enunciado:
«Viajar da amplitud de ideas» 0 . Smith). Coméntelo.
Esta tarea tiene varios inconvenientes. El primero es la terminología. Los can­
didatos pueden no estar familiarizados con las convenciones existentes tras el
uso técnico de la palabra «com éntelo» y no sabrán lo que se espera de ellos. Los
redactores deben asegurarse de que todos los candidatos comprenden términos
com o «com en te», o «ejem plifique».
Las instrucciones no contienen información necesaria para que los candida­
tos puedan dar lo m ejor de sí m ismos.
Los candidatos necesitan saber la longitud que debería tener el texto y tam ­
bién si se deducirán puntos si el texto es demasiado corto.
Tienen que saber a quién va dirigido su escrito, para decidir si deben redac­
tarlo en el estilo coloquial que usarían en una carta, o en estilo académico pare­
cido al utilizado en un trabajo escolar. En el ejem plo citado m ás arriba, los
candidatos sabrán que el trabajo debe redactarse utilizando un estilo formal si
están familiarizados con el término «com éntelo». Sin embargo, algunos enun­
ciados pueden ser m enos claros.
Los estudiantes tienen que saber cómo va a puntuarse su trabajo. ¿Qué se pun­
tuará, la corrección o la fluidez? ¿Se darán puntos por la organización del tra­
bajo, por la habilidad de presentar un buen razonamiento, o solamente por el
uso de la gramática y del vocabulario? Los candidatos tienen que saber todo esto
para decidir si usarán estructuras fáciles que dominan, para que no les penali­
cen por los errores, o si correrán riesgos porque se dan puntos por el uso de un
lenguaje com plejo y creativo. (La corrección de tareas escritas de este tipo se
discute en el capítulo 5.)
Los candidatos tendrían m ás claro cómo abordar la respuesta si el enunciado
se presentara de la siguiente forma:

Escribe una redacción para tu profesor en estilo formal explicando si estás de acuerdo con la frase
de J. Smith, «Viajar da amplitud de ideas».

61
r i

La redacción de ítem s y la función m oderadora

La extensión deberá ser de entre 200 y 250 palabras.


Se puntuarán:
1. La organización del trabajo, como por ejemplo el uso de párrafos (20%).
2. La adecuación del estilo (20% ).
3. La claridad de la exposición (20% ).
4. El uso variado de la gramática y del vocabulario (20% ).
5. La corrección de la gramática y del vocabulario (20% ).

Un problem a adicional de muchas tareas de escritura es que esperan que el


estudiante tenga conocim ientos generales amplios. Por ejemplo:

Describe el sistema legislativo de tu país.


Si los estudiantes no están bien inform ados sobre el sistema legislativo de su
país, y m uchos no lo estarán, no serán capaces de decir lo suficiente como para
demostrar su nivel de competencia lingüística.
Algunas tareas requieren la utilización de una cierta creatividad por parte de
los estudiantes, de la que pueden carecer. Por ejemplo:

Estás perdido en una tormenta. Describe cómo intentas encontrar el camino a casa.
Otras tareas esperan que los estudiantes escriban algo interesante sobre un
tema que puede ser irrelevante o aburrido. Por ejemplo:

Comenta las ventajas y los inconvenientes de vivir en el domicilio paterno durante tus estudios uni­
versitarios.
Para evitar algunos de estos problem as es m ejor dar a los estudiantes algo de
información antes de que empiecen a escribir para que no tengan que ser cre­
ativos. Puede dárseles un texto corto y fácil de leer que ilustre la situación, para
que el estudiante no pierda un tiempo precioso leyendo en vez de escribiendo
y para no penalizar a estudiantes que sean lectores mediocres. Algunas de estas
ayudas reducen el tiem po de lectura requerido presentando un gráfico o una
im agen o serie de imágenes. En este caso es esencial que el gráfico sea fácil de
entender y que las im ágenes estén claras.
Muchas tareas, naturalmente, no son tan form ales com o las redacciones.
Cuando se pide a un estudiante que escriba una carta inform al o una nota, es
importante que la tarea sea lo más natural posible. No es pues aconsejable pedir
a los estudiantes que escriban cartas o notas a am igos o parientes, puesto que
habitualmente escribirían a tales personas en su lengua materna. Puede ser nece­
sario inventar un escenario que obligue al candidato a escribir en la lengua
extranjera. Por ejemplo, puede pedírsele que escriba a un am igo extranjero, o
que deje una nota para su patrona.

RESÚMENES
Los resúmenes se usan a m enudo para evaluar la comprensión oral y de lectura
y la expresión escrita. En algunas pruebas recientes se han utilizado para evaluar

62
"1

Problemas con tipos de ítems concretos

de form a integrada la comprensión y la expresión escritas. Escribir resúmenes


en realidad emula muchas actividades de la vida real, pero presenta dos proble­
mas en concreto.
Si el candidato escribe un resum en m ediocre en el que no estén presentes
algunos puntos principales del texto original, puede resultar im posible saber si
esto se debe a una comprensión deficiente o a unas destrezas de escritura medio­
cres. Esto no tiene importancia si sólo se puntúa, por ejemplo, el hecho de hacer
un resum en de un inform e y si está claro que la puntuación corresponde a la
com binación de destrezas lectoras y de escritura, pero no es razonable dar al
candidato dos puntuaciones, una para la lectura y otra para la escritura.
Puntuar un resumen no es fácil. Algunos examinadores puntúan sólo por cada
argumento que el estudiante haya incluido, sin tener en cuenta la gramática ni
el estilo. Esto parece muy sencillo pero no lo es. Identificar los argumentos prin­
cipales de un texto es de por sí tan subjetivo que los examinadores pueden no
ponerse de acuerdo. El problem a aumenta si la corrección incluye criterios
como: argumentos principales, dos puntos; argumentos secundarios, un punto.
Si los criterios de evaluación quieren tener en cuenta también la corrección, la
fluidez y la adecuación, la corrección se complica mucho.
Algunos exam inadores resuelven este problem a presentando el texto origi­
nal junto a un resumen del m ism o en el que faltan palabras y expresiones clave.
Los candidatos deben completar las palabras que faltan en el resumen. Una tarea
de resum en de este tipo bien diseñada es una form a muy eficaz de evaluar la
comprensión de lectura, pero al haber a menudo m ás de una posible respuesta
alternativa para cada hueco, la corrección puede ser difícil, especialmente si la
prueba es a gran escala. Para evitar esto, algunos redactores piden a los candi­
datos que usen sólo la palabra exacta del texto original. Esto debería ser sufi­
ciente, pero por desgracia siempre hay algunos estudiantes que no siguen esta
instrucción y escriben respuestas apropiadas, aunque no exactas, en los hue­
cos. Si estos estudiantes obtienen puntuaciones bajas aunque su comprensión
del texto haya sido buena, entonces no podrem os decir que la prueba evalúa
la com prensión de lectura.
Una buena manera de evitar este problem a es dar un listado de posibles pala­
bras y expresiones, com o en el banked gap filling descrito más arriba. Tales prue-
bás son difíciles de redactar y tienen que haberse ensayado muchas veces, pero
pueden funcionar bien y son m ás fáciles de corregir.

ENTREVISTAS ORALES
A m enudo se cree que entrevistar a alguien es una forma rápida y fácil de eva­
luar la com petencia lingüística de esa persona. Mucha gente cree, por ejem ­
plo, que si se tiene una breve charla con un recién llegado a la escuela, se
podrá evaluar el nivel de com petencia de ese estudiante rápidam ente. Sin
em bargo, esto no es así. La conversación puede versar sobre temas superfi­
ciales que sólo requieren un vocabulario lim itado y no el uso de estructuras
com plejas. Este no es el lugar apropiado para tratar las entrevistas orales en

63
L a redacción de ítem s y la función m oderadora

detalle, pero debería quedar claro que la entrevista debe estar estructurada
cuidadosam ente para que los aspectos de la prueba considerados im portan­
tes se cubran con cada estudiante, y cada estudiante sea evaluado de form a
similar. No es justo para los alum nos que algunos sólo deban hacer com en­
tarios apropiados pero sim ples, m ientras que a otros en igualdad de co n di­
ciones se les ob ligu e a utilizar un len guaje co m plejo que puede poner en
evidencia sus debilidades. Los entrevistadores deben saber cóm o lograr que
los candidatos se sientan a gusto para conseguir una conversación auténtica
sin interferir o hablar dem asiado, deben dem ostrar interés en cada entrevista
y tam bién deben saber qué preguntar para conseguir que la entrevista cubra
los contenidos lingüísticos deseados. El capítulo 5 trata brevemente la form a­
ción de los entrevistadores orales.

ACTIVIDADES DE VACÍO DE INFORMACIÓN


Algunas veces se dan a completar tareas de vacío de información a uno, dos o
más estudiantes. Por ejem plo, dos estudiantes reciben fotografías ligeramente
distintas y, sin ver la del otro, se les pide que encuentren las diferencias exis­
tentes. O un estudiante puede tener que hacer preguntas a su entrevistador para
resolver algún problema. Tales tareas pueden ser entretenidas para los candida­
tos pero son difíciles de construir y tienden a provocar el uso de un lenguaje
limitado. Por ejemplo, el candidato puede salir airosamente de la situación uti­
lizando preguntas com o «¿Y ...?» Además, este tipo de tareas puede perjudicar
a un sector del alumnado. Por ejemplo, muchas de las tareas de vacío de infor­
mación requieren la utilización de planos y, como hemos dicho antes, hay can­
didatos que tienen dificultades para utilizar planos. Todas las tareas de vacío de
información deben ensayarse de forma rigurosa.

3.6. Comités de redacción


Tal com o hem os señalado repetidam ente, nadie puede elaborar una buena
prueba, ni tan sólo un buen ítem, sin recibir consejo. Por el hecho de estar m uy
vinculado al ítem, puesto que es quien lo ha escrito, el redactor «sa b e » lo que
el ítem pretende evaluar, y le resultará difícil darse cuenta de que en realidad
puede estar evaluando otra cosa bastante distinta, u otra cosa además de la pre­
vista. Saber cuál es la respuesta «correcta» significa que la idea que tiene el redac­
tor sobre la reacción de los candidatos ante el ítem es distinta a la de otra persona
que no sepa cuál es la respuesta correcta.
Resulta, p or tanto, absolutam ente crucial en el proceso de redacción del
examen, sea cual sea su objetivo y su nivel, y aunque las consecuencias de no
superarlo sean triviales, que una o m ás personas, además del redactor, anali­
cen cada ítem con detalle, respondan al m ism o de la m ism a form a en que lo
haría un estudiante, reflexionen sobre las habilidades que se requieren para
responder de form a correcta al ítem o a la tarea, y después comparen sus res­
puestas con lo que el redactor dice. Esta form a de revisión de ítem s debería

64
Com ités de redacción

tener lugar en un estadio inicial del proceso de redacción y no debería im pli­


car a un com ité o resultar dem asiado formal. Los m ejores ítem s se han som e­
tido a unas cuantas de estas revisiones informales antes de alcanzar el formato
de borrador final.
Cuando se han revisado los ítems y está listo el borrador final, deberían agru­
parse para form ar la prueba en sí y someterse a la aprobación del «com ité de
redacción». Este comité debería estar formado por redactores expertos (y nor­
malmente no los que han redactado los ítems que se van a analizar), profesores
con experiencia en la docencia de alumnos del nivel al que se dirige el examen
o en la preparación de alumnos para este examen, y posiblemente otros exper­
tos en evaluación, o incluso expertos en la docencia de la materia, si se está pre­
parando algún tipo de prueba para fines específicos.
La tarea de este comité es considerar cada ítem y la prueba como un todo a
la hora de cotejarlo con las especificaciones de la prueba, el posible nivel de difi­
cultad, posibles problemas no previstos, ambigüedades en la redacción de ítems
y de instrucciones, problem as de presentación, de correspondencia entre tex­
tos y preguntas, y equilibrio general de la prueba.
Es especialm ente im portante que los m iem bros de este «com ité de redac­
ción » no solam ente lean la prueba y sus ítem s correspondientes: deben res­
pon der a cada ítem com o si fueran estudiantes. Esto significa que, por
ejemplo, para ítems que evalúen las destrezas de expresión escrita deben inten­
tar responder por escrito, y en ítem s de com prensión oral deben escuchar la
cinta e intentar responder a las preguntas. Para las pruebas de com prensión
oral en particular es im portante que los m iem bros del comité no sólo lean la
transcripción com o si se tratara de una prueba de comprensión escrita; su res­
puesta a la prueba debe im itar la experiencia de los candidatos de la manera
más parecida posible, y por tanto deben hacerlo escuchando la cinta si así lo
requiere la prueba.
Esto, naturalmente, significa que los m iem bros del comité deberán haber
dedicado tiem po suficiente a hacer la prueba antes de que el comité se reúna,
algo a m enudo olvidado en instituciones que tienen en sus comités de redac­
ción a personas atareadas que no pueden o no les apetece pasar el tiempo nece­
sario para responder a la prueba con detalle.
La organización del «com ité de redacción» tiene mucha importancia. Debe­
ría dedicarse tiempo suficiente para discutir cada ítem de forma adecuada. Según
nuestra experiencia, demasiados comités dedican una cantidad de tiempo exce­
siva a los prim eros dos o tres ítem s, no disponen de m ucho tiem po para los
ítems restantes, y analizan rápidamente los dos últimos tercios de la prueba para
cumplir con el orden del día. Además, según nuestra experiencia, los comités
son m ás eficaces antes de una com ida que después, y m uchos m iem bros del
comité tienen que abandonar pronto la reunión para coger trenes de regreso a
casa o para ir a otras reuniones.
Un com ité de redacción eficaz tendrá un presidente firm e que se asegu ­
rará de que el com ité cuente con suficiente tiem po, que no se dedique más

65
La redacción de ítem s y la función m oderadora

del tiem po necesario a cada ítem , que se escuche y tenga en consideración


la opin ión de cada un o de los m iem b ros del com ité, y que se tom en deci­
siones claras de las que tom ará nota el secretario o representante de la in sti­
tución.
Además, es m uy im portante que haya una persona responsable de que las
recomendaciones del comité no sean sólo anotadas sino también llevadas a cabo
en la prueba revisada, que de alguna manera se someterá a algún tipo de revi­
sión final antes de ensayar el examen (véase capítulo 4).
Aunque estas precauciones pueden parecer excesivamente burocráticas, nues­
tra experiencia nos demuestra que, cuando no se toman, el examen resultante
tiene a m enudo tantos defectos como tenía antes de que interviniera el «com ité
de redacción».

3.7. Estudio sobre los tribunales de exámenes de inglés


como lengua extranjera (EFL): cuestionario
Un tribunal respondió «n o procede: evaluación oral» a todas excepto dos de
las preguntas relacionadas con la redacción de ítem s. Para evitar repeticio­
nes, no h em o s in cluido las respuestas de este tribunal en el presente capí­
tulo. D ebería, de todas form as, señalarse que la evaluación oral requiere
especial consideración (véase página 62) puesto que la naturaleza de la tarea
y los criterios de puntuación son com ponentes im portantes de la elaboración
de pruebas.

PREGUNTA 9 : ¿D an a los redactores información complementaria o directrices? («Complementa­


ria» se refiere, además de a las especificaciones y a l a s muestras de exámenes, a las que nos hemos refe­
rido anteriormente en el cuestionario.)
La m ay oría de los tribunales resp on d iero n que daban a los redactores
inform ación com plem entaria, pero dieron pocos detalles. Un tribunal dijo
que existían reuniones de redacción alrededor de una m esa, presididas por
el exam inador jefe, y que los ítem s se redactaban de acuerdo con unas direc­
trices y eran seleccion ados en la reunión. Otro dijo que los exam inadores
jefes facilitaban a los redactores el detalle del procedim iento a seguir, y uno
resp on d ió que las directrices eran « e n su m ayor parte verbales durante la
reunión y en el acta co rresp o n d ien te». Dos de las respuestas recibidas de
UCLES decían que cada redactor recibía «d ire ctrice s», y el respon sable del
Certificado de Inglés para N egocios Internacionales y Com ercio (Certifícate in
English for International Business and Trade, CEIBT) dijo: «A sisten a sesiones de un i­
ficación de criterios antes de convertirse en redactores. Trabajan en grupos
de tres —un redactor para cada prueba—con la guía de un redactor m ás expe­
rim entado. Tienen dos reuniones com o equipo para buscar m aterial y pla­
nificar tareas.»
Sólo un tribunal dio inform ación extensa, que incluía una copia de la carta
muestra dirigida a los redactores (Véase capítulo 2, página 38 para más detalles.)

66
Estudio sobre los tribunales de exámenes de inglés...

PREGUNTA 11: ¿Qué criterios utilizan a la hora de nombrar redactores de ítems o de pruebas?
Los tribunales pedían requisitos distintos. Cinco dijeron que los redactores
debían estar en posesión de la titulación correspondiente, uno especificaba titu­
lación universitaria, y uno titulación en inglés como lengua extranjera o como
segunda lengua (EFL/ESL). Seis pedían experiencia en la docencia, en la adm i­
nistración de exámenes o en la materia que se iba a evaluar, mientras que cua­
tro esperaban que los redactores fueran profesores en activo acostumbrados a
preparar a sus alumnos para el examen en cuestión. Uno pedía una fuerte vin­
culación a un enfoque comunicativo en la docencia y en la evaluación y otro
dijo que la aceptación de un redactor dependería de su comportamiento en una
reunión de redacción.

PREGUNTA 12: ¿Para cuánto tiempo se nombran los redactores?


Hubo variedad de respuestas, de cuatro tribunales que nombraban a sus redac­
tores anualmente, a uno que no nom braba redactores por un período determi­
nado y dijo que los redactores actuales habían «elaborado materiales para
exámenes durante los últimos quince años, y esta experiencia asegura la conti­
nuidad y estabilidad». Dos tribunales no nom braban a los redactores por un
número de años dado sino para un número de pruebas en concreto.

PREGUNTA 13: ¿Con cuánta antelación respecto a la fecha de examen se pide a los redactores que
empiecen a redactar sus ítems?
Cinco tribunales pedían a sus redactores que escribieran sus ítems unos dos
años antes de la administración de la prueba, y tres un año antes. Entre el resto
de respuestas, un tribunal dijo que la redacción de ítem s era una «actividad
siempre en curso»; otro dijo: «N o hay necesariamente una relación directa entre
el encargo y el exam en»; y otro dijo: «Los redactores presentan materiales sobre
la marcha, formando un banco de ítems potenciales. Se les paga por ítems uti­
lizados. No hay plazos ni presión sobre los redactores». Las respuestas de UCLES
variaban entre «tres años» y «d e doce a dieciocho m eses».

PREGUNTA 14: ¿ Cuánto tiempo se da a los redactores para que redacten sus ítems?
Ocho tribunales dieron el plazo concreto: oscilaban entre seis semanas y doce
meses. Dos tribunales tenían un enfoque flexible; uno de ellos decía: «Depende
del ítem y del redactor», y el otro decía: «M uy flexible, de común acuerdo». El
tiempo de UCLES oscilaba entre seis semanas y seis meses.

PREGUNTA 15: Cuando se ha presentado el primer borrador de un redactor, ¿qué sucede?


Casi todos los tribunales mandaban los borradores para que los analizara un exa­
minador jefe o un supervisor, y después tenía lugar la sesión del comité de redac­
ción. La única excepción fue un tribunal que archivaba ítems para incorporarlos a
posteriores borradores de examen y los guardaba hasta el momento de revisarlos.
El proceso de selección concreto varía de tribunal a otro; un ejem plo es el
procedim iento siguiente:

67
r La redacción de ítems y la función moderadora

El primer borrador de la prueba lo redacta [el responsable del examen],


quien tiene que garantizar que la prueba sea justa, tenga el nivel adecuado, y
esté de acuerdo con la filosofía de la descripción de la prueba. Los ítems
pueden haber sido ya probados [por el responsable del examen] con
candidatos seguros para comprobar los niveles de los contenidos lingüísticos
y la dificultad de la tarea. Se mandan copias del primer borrador: a) a los
responsables del tribunal de exámenes y b) al examinador jefe de este nivel; a
dos responsables expertos en corrección de una lista de doce. Estas personas
estudian el borrador, lo someten a ensayos previos, si es posible, con
candidatos seguros, hacen sugerencias de cambios si ello es necesario y
envían un informe completo [al responsable del examen],

PREGUNTA 16: ¿Se reúne algún comité en algún momento del proceso para discutir cada prueba?
Todos los tribunales excepto dos respondieron afirmativamente. Uno de los
dos tribunales que no tenía un com ité fijo tenía «com ités ad hoc para discu­
tir aspectos concretos de los exám enes, cam bios en el proceso, m odificacio­
nes de los criterios de puntuación, etc. El proceso de unificación se hace por
correo».
En caso afirmativo, ¿cómo se llama este comité?
El título más com ún era el de «C om ité/C onsejo de unificación/unificador».
Otros títulos eran «C om ité de selección», «C om isión asesora perm anente»,
«Com ité de revisión de EFL», «Com ité de edición», «Equipo de redacción de
pruebas» y «Subcom ité preparatorio».

PREGUNTA 17: ¿Qué requisitos deben reunir los miembros de este comité?
La com posición de este comité variaba. En dos casos estaba constituida por
exam inadores y supervisores y en un tercer caso tam bién incluía redactores,
correctores y profesores en activo. Un com ité también incluía directivos del
tribunal y otro incluía industriales que habían «hecho una contribución excep­
cional al trabajo del tribunal» Los com ités de UCLES los constituían, en gene­
ral, el exam inador jefe, el responsable del exam en, los redactores de ítem s y
otros expertos en EFL. Los com ités de otros tribunales estaban form ados por
profesores con experiencia especializados en la m ateria, por profesores que
estaban preparando a candidatos para los exámenes, y por supervisores o auto­
res de materiales.

PREGUNTA 18: ¿Cuánto tarda un comité en discutir y preparar un examen completo?


Aquí las respuestas eran de nuevo diversas. Un tribunal dijo que era im posi­
ble responder a esta pregunta, y otro dijo «tanto como sea necesario». Dos dije­
ron que el tiem po variaba de un día a una sem ana o varias semanas. Algunos
eran un poco m ás específicos. Uno dijo: «Al m enos un día de reunión acadé­
mica y contactos previos y posteriores por correo o teléfono», y uno dijo: «El
proceso de selección dura un m ínim o de tres sem anas, a m enudo cuatro o
cinco». Tres fueron aún más específicos: «aproximadamente tres horas para cada

68
Estudio sobre los tribunales de exámenes de inglés...

parte», «cuatro partes en un día de trabajo», y « a menudo 3 días para 15 com ­


ponentes». Un tribunal dio m ás detalles del proceso: «L os m iem bros hacen
comentarios sobre las pruebas por escrito antes de la reunión; esto dura por lo
menos un día. Los examinadores jefes responden a sus comentarios. La reunión
del subcom ité preparatorio dura un día com pleto».

PREGUNTA 19: ¿Qué pasos se dan, si se dan, para comprobar que el borrador presentado coincide
con la descripción de contenidos de la prueba (si existe)?
La m itad de los tribunales piden a sus redactores que sigan la descripción
de contenidos y confían en que así sea. La otra m itad da instrucciones inicia­
les pero tam bién hace com probaciones, que son responsabilidad de: a) tres
m iem bros del com ité de selección, b) los supervisores, c) el exam inador jefe
y varios directores o m oderadores, y d) un «rev iso r» que hace comentarios
sobre las pruebas y su correlación con la descripción de contenidos. UCLES
parece seguir lo que hacen los otros tribunales y en algunos exám enes da a
los redactores la descripción de contenidos esperando que la sigan, y en otras
se com prueba si los exámenes coinciden con la descripción por parte del res­
ponsable de la prueba o por parte del «presidente, responsable de EFL, selec-
cionador...»

PREGUNTA 2 0: ¿Qué pasa habitualmente con el borrador después de las deliberaciones del comité?
La forma m ás clara de resumir las respuestas a esta pregunta es la de listar los
ejemplos de los distintos procedimientos:
1. Se da el manuscrito a imprenta, se encargan los gráficos, dibujos o fotos,
se graban las cintas; las pruebas se hacen llegar al examinador jefe y al
supervisor, se corrigen por el corrector de pruebas; se pasa la prueba
final a imprenta con una orden de impresión.
2. Los ítems seleccionados que deben modificarse. Preparación y corrección
de la prueba una vez aprobada. Se devuelve al examinador jefe para la
revisión y aprobación final con el fin de garantizar que el examen se ha
preparado de acuerdo con la copia revisada y aprobada.
3. Una vez completada la versión pactada de la prueba se pasa al ordena­
dor y se entrega para im presión. Todos los m iem bros del comité de
revisión ven la primera prueba y tienen la oportunidad de hacer cam ­
bios de todo tipo.
4. [El responsable de la prueba] revisa el borrador a la luz de los informes
de cinco exam inadores expertos y lo prepara para la versión final.
Durante la grabación, los actores hacen comentarios sobre la claridad y
naturalidad del lenguaje utilizado. El texto final y la copia de la cinta se
m andan al director, quien organiza la im presión de los textos y el
copiaje de las cintas a partir de la grabación original.
5. El presidente del exam en y el responsable de la prueba confeccionan
dos versiones paralelas.

69
La redacción de ítems y la función moderadora

3.8. Estudio sobre los tribunales de exámenes de inglés


como lengua extranjera (EFL): documentación
Los únicos documentos que daban más información sobre las respuestas dadas al
cuestionario hacían referencia a la redacción de ítems. City and Guilds nos mandó dos
de sus publicaciones, Setting Múltiple Choice Tests (1984), y Setting and Moderating Wntten
Question Papers —Other than Múltiple Choice- sin fecha). El primero da ideas útiles para
redactar preguntas de respuesta múltiple, cita una amplia gama de ejemplos y acon­
seja a los redactores sobre algunas de las posibles trampas. El segundo aconseja sobre
las instrucciones y la presentación de preguntas que no son de respuesta múltiple,
y acompaña recomendaciones sobre cómo elaborar buenos ítems con ejemplos de
malas preguntas y de preguntas mejoradas.
Pitman nos m andó copias de sus «directrices» para cada nivel de los exám e­
nes de English for Speakers of Other Languages (ESOL). Se trata de directrices para redac­
tores, que no sólo describen el tipo y nivel de lengua que se va a evaluar, sino
que también dan instrucciones sobre tipos de texto y consejos sobre cómo redac­
tar buenos ítems.

3.9. Debate
Como puede verse en las respuestas anteriores, la mayoría de los tribunales de
exámenes tratan el proceso de redacción de ítems de forma m uy seria. Dan a los
redactores tiempo de sobra para producir futuros exámenes, y llevan a cabo con­
troles a fondo de los borradores.
Un área que no siempre recibe la atención suficiente es la correspondiente a
la cobertura de la descripción de la prueba. Aunque casi todos los tribunales
dicen a los redactores que sus pruebas deben cubrir la descripción de conteni­
dos, sólo la mitad comprueban que así sea. Puesto que algunas áreas de una des­
cripción de contenidos son siem pre m ás fáciles de evaluar que otras, los
redactores se encuentran a veces con dificultades para evaluar los aspectos más
difíciles y, por este motivo, la prueba puede no estar equilibrada. Creemos, pues,
que es esencial comprobar los borradores de examen para ver si la descripción
de los contenidos se ha cubierto de forma adecuada.

3.10. Sumario
1. Para com prender exactamente qué hace un ítem, es esencial intentar
responderlo como lo haría un candidato. Un vistazo no es suficiente.
2. Responder a un ítem propio es importante pero inadecuado. El autor
«sa b e » lo que cree que el ítem requiere. Es por tanto importante que
otras personas expertas y con dom inio de la lengua respondan en las
m ism as condiciones en que lo haría un candidato.
3. Nadie escribe buenos ítems solo. Incluso autores profesionales necesi­
tan la opinión de otras personas. Es necesario pedir a otras personas que
respondan a los ítems.

70
Sumario

4. No se ponga a la defensiva: esté preparado para cambiar e incluso para


desestimar los ítems si los demás los encuentran problemáticos. Todos
podem os escribir m alos ítems.
5. Debe preguntarse a los que han contestado a los ítems por qué han dado
la respuesta que han dado y no otra; y si es posible, cómo reaccionaron
ante el ítem.
6. De nuevo, si es posible, debe intentar conseguir que los que han con­
testado al examen, digan o escriban lo que ellos creen que el ítem eva­
lúa, independientem ente de lo que uno crea que evalúa. En otras
palabras, ¡no les diga lo que usted cree que evalúa para luego pedirles
que estén de acuerdo! Además, pregúnteles cuál creen que es el princi­
pal objetivo del ítem y para qué nivel de alumnado es adecuado.
7. Todas las pruebas deberían ser supervisadas o discutidas por personas
que no las hayan escrito. El comité de redacción debería tener a su dis­
posición las respuestas de las personas con las que se ha ensayado el exa­
m en en algún m om ento de sus deliberaciones. Lo ítem s que han
provocado respuestas inesperadas deben revisarse.
8. Si la evaluación es de una población definida, pedid a los que respon­
den a la prueba o a los supervisores que hagan una estimación aproxi­
m ada de qué proporción de candidatos responderá al ítem
correctamente.
9. Comparad lo que el redactor dice que el ítem evalúa con lo que dice la
mayoría de los que responden al ítem, y resolved discrepancias.
10. Comparad lo acordado en el punto 9 con las especificaciones o el pro­
grama.
11. Analizad el programa o las especificaciones y preguntaos si hay algo sig­
nificativo que no esté incluido en la prueba. Si éste es el caso, ¿está jus­
tificado?
12. Preguntaos si a los estudiantes les resultará familiar el método de eva­
luación. Si no, cambiad el método o aseguraos de que las instrucciones
estén claras. Preguntaos si otro m étodo podría ser más adecuado para
vuestro objetivo, o más claro, o más fácil para los candidatos.
13. Preguntaos lo que el ítem o colección de ítems os dirá sobre las habili­
dades de los estudiantes. Si los resultados de la prueba o del ítem no
coinciden con vuestra opinión de los estudiantes, ¿cuál os creeréis, los
resultados de la prueba o vuestra valoración?
14. ¿Qué posibilidades hay de que los estudiantes saquen el m ism o resul­
tado si hicieran la prueba otra vez al día siguiente?
15. Ensayad el exam en con alum nos que sean lo m ás parecidos posible a
los alumnos a quien va dirigida la prueba. Analizad sus respuestas y pre­
guntaos:
a) ¿Hay algunas respuestas imprevistas? En caso de respuesta afirma­
tiva, ¿las hay que, inesperadamente, sean correctas? Si éste es el caso,
deberán añadirse a la clave de respuestas o cambiar el ítem.

71
1

La redacción de ítems y la función moderadora

b) ¿Cuántos estudiantes encontraron un ítem fácil? ¿Es demasiado fácil


o demasiado difícil?
c) ¿Cuántos alumnos respondieron correctamente al ítem, los alumnos
destacados o los alumnos flojos? En teoría, los alumnos destacados
deberían obtener mejores resultados para cada ítem, pero en la prác­
tica puede ser que el ítem contenga una trampa o algún punto
oscuro, dos respuestas correctas, o algún otro problema.
16. Pedid a las personas o a los estudiantes que hagan la prueba que res­
pondan a los ítems de comprensión oral y de lectura sin el texto corres­
pondiente (oral o escrito). ¿Pueden responder al ítem correctamente?
Si es así, éste no está evaluando la comprensión del texto.
17. En cuanto a los ítem s de com prensión oral, aseguraos de que las per­
sonas que responden escuchen el texto (y no lean la transcripción)
cuando respondan el ítem. Leer es m ás fácil que escuchar — puede
hacerse con tiempo, haciendo pausas, releyendo, etc.
18. ¿Es más fácil la lengua utilizada en el ítem que la lengua del texto? Si no
es así se estará evaluando también la comprensión de los ítems.
19. En las preguntas de respuesta múltiple, ¿hay opciones que sean posibles
en otra variedad estándar del idiom a, según una interpretación distinta
del contexto, con un acento o entonación distintos? ¿Es obvia la res­
puesta correcta a causa de su longitud o del grado de detalle?
20. ¿Se han previsto todas las respuestas posibles/plausibles en la clave de
respuestas?
21. ¿El ítem está en un contexto? ¿Es éste suficiente para excluir otras inter­
pretaciones alternativas o posibles ambigüedades?
22. ¿Es posible que el ítem favorezca o perjudique a algunos estudiantes por
razones de sexo, cultura, conocimientos generales o intereses?
23. ¿Cuán auténtico es el ítem? ¿Se parece a lo que los estudiantes deberán
hacer con el idiom a en la vida real? Por ejemplo, en las tareas de expre­
sión escrita, ¿hay un motivo para escribir y alguien a quien escribir?
24. ¿Sería preferible presentar las instrucciones, o incluso los ítems, en la
lengua materna?
25. ¿Cóm o se juzgará la actuación del candidato? ¿Están especificados los
criterios de evaluación o las respuestas correctas o previstas? ¿Pueden
especificarse, o se debe esperar hasta tener un cierto núm ero de res­
puestas o de realizaciones para poder acabar los criterios de evaluación?

Bibliografía
Alderson, J. C. (1978). A Study of the Cloze Procedure with Native and Non-Native Speakers of
English. Tesis doctoral inédita, Universidad de Edimburgo.
Alderson, J. C. (1979). «The Cloze Procedure and Proficiency in English as a Foreign
Language.» TESOL Quarterly, 13 (2), págs. 219—227. Reimpreso en J. W. Oller
(ed.), (1983). Issues in Language Testing Research. Newbury House, Rowley, Mass.

72
Bibliografía

Alderson, J. C. y D. Wall (1993). «Does Washback Exist?» Applied Linguistics, 14, págs.
115-129.
Alian, A. (1992). «Development and Validation o f a Scale to Measure Test-Wiseness
in EFL/ESL Reading Test Takers.» Language Testing, 9, pigs. 101-123.
Buck, G. (1989). «Written Tests o f Pronunciation: Do They Work?» English Language
Teaching Journal, 41, págs. 50—56.
Heaton, J. B. (1988). Writing English Language Test. 2* edición, Longman, Londres.
Hughes, A. (1989). Testing for Language Teachers. Cambridge University Press,
Cambridge.
Klein-Braley, C. (1981). Empirical Investigation of Cloze Test. Tesis doctoral, Universidad de
Duisburg.
Lado, R. (1961). Language Testing. McGraw-Hill, Nueva York.
Oiler, J. (1979). Language Tests at School. Longman, Londres.
Peirce, B. N. (1992). «Demystifying the TOEFL Reading Test.» TESOL Quarterly, 26,
pigs. 665-689.
Valette, R. M. (1977). Modem Language Testing. 21 edición, Harcourt Brace Jovanovich,
Nueva York.
Wall, D. y J. C. Alderson (1993). «Examining Washback.» Language Testing, 10 (1),
pigs. 41-69.
Weir, C. J. (1988). Communicative Language Testing. Universidad de Exeter.

73
4 Ensayos previos y análisis

Este capítulo trata la cuestión de los ensayos previos y del análisis de los ítems.
Discutiremos las razones para realizar ensayos previos, la naturaleza de los p ro ­
cesos im plicados y las diferencias entre ensayos piloto y ensayos generales del
examen como tal. Explicaremos la estadística básica necesaria para el análisis de
ítems individuales y describiremos las formas más comunes de informar sobre
los resultados generales de la prueba.

4.1. Razones para realizar ensayos previos


Aunque un examen esté m uy bien elaborado y se hayan seleccionado y corre­
gido todas sus partes cuidadosamente, no se puede saber cómo funcionará hasta
que se haya ensayado con estudiantes. Aunque los redactores pueden pensar que
saben lo que evalúa un ítem y cuál es la respuesta adecuada, no pueden prever
las respuestas de los estudiantes de distintos niveles de competencia lingüística.
Incluso profesores de idiom as y evaluadores expertos son a m enudo incapaces
de ponerse de acuerdo sobre lo que evalúa un ítem (véase Alderson, 1993 y
Buck, 1991) o lo difícil que puede resultar para un grupo de estudiantes dado.
En un trabajo llevado a cabo por investigadores de la Universidad de Lancaster,
se pidió a veintiún expertos en la m ateria que exam inaran la dificultad que
podían ofrecer a futuros examinandos treinta preguntas de comprensión de lec­
tura. El grupo de expertos lo constituían desde evaluadores muy experimenta­
dos que estaban familiarizados con la prueba y con el nivel de competencia de
los candidatos hasta profesores que no conocían ni la prueba ni el nivel de los
candidatos. Las estimaciones de los expertos variaron de forma exagerada. Por
ejemplo, dos de ellos dijeron que el 90% de los estudiantes respondería correc­
tamente al ítem 2, mientras que otro opinó que sólo lo respondería correcta­
mente un 10%. El resto de estim aciones para el m ism o ítem oscilaba entre el
80% y el 15%. Este no fue un ejemplo aislado. Siete ítems m ás provocaron dis­
crepancias entre las estimaciones, y en el caso de uno un experto estimó que el
95% de los estudiantes lo responderían bien mientras que otro estimó que sería
sólo el 5%. Los dos ítems que provocaron el menor desacuerdo entre los exper­
tos oscilaban en sus estimaciones entre el 100% y el 50%. Hay que destacar que
los jueces m ás experim entados no acertaron m ás que los que no sabían nada
acerca de la prueba o de los estudiantes.
Naturalmente, los examinadores no sólo deben saber lo difíciles que son los
ítems. También tienen que saber si «funcionan». «Funcionar» tiene varios sig-

74
Pruebas piloto

niñeados. Puede significar, por ejemplo, que un ítem que está previsto que eva­
lúe una estructura en particular no lo haga en realidad, o puede significar que el
ítem consigue diferenciar a los alumnos de distintos niveles de forma que los
alum nos con m ayor competencia lingüística pueden responder m ejor que los
alumnos m enos competentes. Es sorprendente que a menudo los ítems, aunque
se hayan redactado con cuidado, no distingan entre alumnos de esta forma. Es
im posible prever si los ítem s funcionarán sin haberlos probado. El funciona­
miento de los ítems de respuesta múltiple puede resultar el más difícil de prever,
puesto que la presencia de una variedad de respuestas correctas e incorrectas faci­
lita el terreno a la ambigüedad y al desacuerdo, pero los ítems de respuesta abierta
y las pruebas corregidas de forma subjetiva también pueden producir sorpresas.
Por ejemplo, una pregunta de respuesta abierta puede resultar más confusa para
los candidatos destacados que para los candidatos m ás flojos, o una tarea de
expresión escrita puede provocar el uso de sólo una pequeña gama de conteni­
dos lingüísticos por parte de los candidatos. Aunque la combinación de redacto­
res experimentados y un procedimiento de selección y de corrección estrictos de
los ítems asegura que se descarten muchos malos ítems en potencia, algunos pro­
blemas no se identificarán en este estadio y sólo se descubrirán durante el perí­
odo en que se realicen los ensayos previos. Es esencial, pues, que todos las
pruebas se ensayen, tanto si se trata de ítem s discretos de corrección objetiva
como de ítems de respuesta abierta de corrección subjetiva.

4.2. Pruebas piloto


En este libro, el término ensayos previos se refiere a todas las pruebas a las que se
somete un examen antes de salir a la luz, de ser operativo o de «circular», como
dicen algunos de los tribunales. La m ayor parte de los ensayos previos tienen
lugar durante la fase general de experimentación, pero estos ensayos deberían
ir precedidos de otros m enos formales a los que llam arem os pruebas piloto. Las
pruebas piloto pueden variar de m agnitud, desde ensayar una prueba con un
pequeño grupo de profesores del m ism o departamento a un ensayo con cien
alumnos, pero en todos los casos el objetivo es limar los principales problemas
antes de los ensayos m ás im portantes. Un program a de prueba piloto podría
consistir en los siguientes pasos:
1. Probar los ítems con unos cuantos am igos o con otros profesores, de los
cuales dos, por lo m enos, son hablantes nativos de la lengua que se va a
evaluar para ver si las instrucciones están claras, el lenguaje utilizado en
los ítems es aceptable y la clave de respuestas es precisa. Estos profesores
deberían responder a todas las partes de la prueba, no sólo a las partes de
corrección objetiva. Es sorprendente el número de fallos que se detectan
en esta fase, especialmente si los redactores de la prueba no tienen la len­
gua que se va a evaluar com o lengua materna.
2. Dar a hacer la versión revisada a un grupo de estudiantes similares en carac­
terísticas y en nivel a aquellos que se examinarán. No se necesitan dem a­

75
Ensayos previos y análisis

siados estudiantes, pero si hay al menos veinte, mejor. Tales pruebas pue­
den hacerse de forma relativamente rápida y barata, y dan una inform a­
ción inestim able sobre la facilidad de adm inistración de la prueba, el
tiem po que necesitarán los alum nos para completarla, la claridad de las
preguntas, la exactitud y amplitud de la clave de respuestas, la facilidad de
uso de los esquem as de puntuación, y otros. Los resultados revelarán
m uchos fallos im previstos en la prueba y ahorrarán tiem po y esfuerzos
cuando se lleven a cabo los ensayos generales.

4.3. Fase general de ensayo


La m agnitud de la fase general de experimentación o ensayo y de los tipos de
análisis requeridos dependerá de factores tales como la importancia y el objetivo
del examen y el grado de objetividad de la corrección. Las pruebas corregidas de
forma más objetiva son aquellas, com o las de respuesta múltiple, en las que la
respuesta no la produce el candidato, sino que debe seleccionarse de una lista de
alternativas posibles, y puede puntuarse de forma precisa tanto por un adminis­
trativo o un ordenador como por un profesor o examinador entrenado. Las prue­
bas corregidas de forma más subjetiva son las entrevistas orales y las redacciones,
en las que el corrector sólo tiene unos criterios de evaluación como guia. Entre
estos dos extremos se extiende una amplia gam a de tipos de ítem que pide un
mayor o m enor grado de subjetividad en su corrección (véase capítulo 3).
Una de las principales preguntas que se hace cualquier redactor de pruebas es
el número de estudiantes con el que debería ensayarse un examen. Es imposible
dar una regla para esto puesto que el número depende de la importancia y del tipo
de examen, y también de la disponibilidad de alumnos adecuados. Puesto que la
redacción de ítems de respuesta múltiple es m uy difícil, y puesto que es tan fácil
que al redactor se le escapen ambigüedades en las opciones, podría decirse que
este tipo de prueba necesita más ensayos que cualquier otro tipo de prueba y, en
realidad, cuando lleguem os al informe sobre la práctica de ensayos previos por
parte de los centros de exámenes, veremos que los ítems de respuesta múltiple
son los que se ensayan más. Sin em bargo, puesto que otros tipos de ítem s de
corrección objetiva, como por ejemplo rellenar huecos y preguntas de respuesta
abierta, pueden comportarse de forma inesperada, todo tipo de prueba de correc­
ción objetiva debería ensayarse a fondo. Henning, 1987 recomienda 1.000 alum­
nos para los ensayos de las pruebas de respuesta múltiple, pero es tan difícil
encontrar muestras adecuadas que los responsables de la prueba deben conten­
tarse con una muestra de 2 0 0 o 3 0 0 , o incluso de 30 o 40. La única guía que se
debe seguir es «cuantos más mejor», puesto que cuantos más alumnos haya menos
influirá el azar en los resultados. Si, por ejemplo, 300 estudiantes participan en
un ensayo de una prueba, y un alumno que aquel día está enfermo, responde muy
mal, este resultado tendrá un efecto m enor sobre las estadísticas globales de la
prueba. Sin embargo, si sólo hay 10 estudiantes en el ensayo, el comportamiento
de un estudiante afectará considerablemente a los resultados globales.

76
Fase general de ensayo

Sin tener en cuenta el núm ero de alum nos que haya en el ensayo, es
im portante que la m uestra sea, en la m edida en que esto sea posible, repre­
sentativa del núm ero final de candidatos, con una gam a parecida de habili­
dades y co n ocim ien to s generales. Si los alum nos que se utilizan para los
ensayos no son sim ilares a la pob lación que se presentará al exam en, los
resultados de los ensayos pueden ser inútiles: las pruebas se com portan de
form a m uy diferente con distintas poblaciones (para una discusión de este
punto véase Crocker y Algina, 1986).
Es también importante que los estudiantes del ensayo se tomen la prueba en
serio y la respondan lo m ejor posible. Si no valoran su importancia, y la tratan
como un juego, los resultados que salgan pueden invalidar el proceso de ensayo
por completo. Describiremos una forma de paliar este problema al final de este
capítulo.
El ensayo general de un examen debería administrarse de la m ism a manera
en que se administrará el examen final, de forma que se puedan ensayar no sólo
las directrices de administración sino también los ítems, que deberán presen­
tarse en las m ism as circunstancias que en el examen real. El único aspecto que
puede tener que ser distinto hace referencia a la duración del examen. Si los exa­
minadores quieren hacer una estimación sobre la fiabilidad de la prueba (véase
más adelante), los estudiantes deberían poder tomarse todo el tiempo que nece­
siten para responder al examen. Esto puede contradecir los principios del mismo
examen, durante el cual, y por motivos teóricos o prácticos, los alumnos pue­
den tener menos tiempo del que en realidad quisieran. Si es necesario limitar el
tiempo dado a los estudiantes durante los ensayos, todavía es posible evaluar la
fiabilidad de la prueba, pero los resultados deberán tratarse con precaución
puesto que es probable que sobrestimen la fiabilidad de la prueba (véase Croc­
ker y Algina, 1986).
En la discusión estadística sobre el análisis de pruebas de corrección objetiva
que sigue, se asumirá que los ensayos de examen se refieren a una norma o rango (norm-
referenced), es decir, que tienen como objetivo establecer el orden que ocupan los
candidatos en una escala ordenada, para que puedan compararse los unos con
los otros. Si el examen se refiere a un criterio (criterion-referenced), y los alumnos no se
comparan los unos con los otros sino con un nivel de aprovechamiento o una
serie de criterios recogidos en las descripciones de corrección, las m edidas con
referencia a un rango o norma pueden no ser aplicables. En muchos sistemas de
exámenes podem os ver que las pruebas de corrección objetiva se tratan con refe­
rencia a un rango, y las de corrección subjetiva se tratan con referencia a un cri­
terio. Esto es así probablemente por cuestiones prácticas y no debido a una base
teórica concreta. Puesto que los ítems correctos de una prueba objetiva pueden
sumarse para dar una nota total, los alumnos pueden ordenarse de acuerdo con
estos totales, y la actuación en ítems concretos puede compararse con los resul­
tados totales (véase m ás adelante el apartado «Análisis clásico de íte m s»). Para
pruebas que tienen com o punto de referencia un criterio, puede no ser apro­
piado basar un análisis de ítems en la ordenación de los resultados de los alum­

77
Ensayos previos y análisis

nos de m ayor a m enor, por lo que se necesitarán m étodos de análisis m enos


corrientes. (Véase Crocker y Algina, 1986, y Hudson y Lynch, 1984, para dis­
cusiones sobre este tema.) Las pruebas corregidas de forma subjetiva, como las
redacciones y las entrevistas orales, no se prestan a un análisis según una norma
o rango, y siem pre que se habla de correctores que utilizan criterios globales
para la expresión escrita y la expresión oral, y de actuaciones de candidatos eva­
luadas de acuerdo con una serie de descripciones del tipo de contenidos lingüís­
ticos exigidos para cada nivel, se considera que se está de hablando con
referencia a un criterio.

4.4. Análisis de exámenes


4.4.7. Correlación
Antes de tratar las formas en las que puede evaluarse el comportamiento de ítems
individuales, hay un concepto que sustenta gran parte del análisis de exámenes
y que debemos introducir antes de continuar. Este concepto es la correlación, que
significa hasta qué punto dos conjuntos de resultados están de acuerdo el uno
con el otro. Para dar una idea clara de lo que es la correlación, analizaremos algu­
nos resultados hipotéticos de un pequeño número de estudiantes.
La figura 4.1 da las escalas de 8 estudiantes (estudiantes A—H) en dos prue­
bas. Puede verse que en cada caso los alumnos se ordenaron de form a idéntica
para las dos pruebas, para que A fuera el prim ero cada vez, B el segundo, y así
sucesivamente. Esto puede verse gráficamente en el diagrama de dispersión. Las
escalas de los alumnos para la prueba 1 se ven en la línea vertical del gráfico y
los de la prueba 2 en la línea horizontal. Cada punto en el gráfico representa el
comportamiento de un alumno en la prueba 1 y en la prueba 2.

Prueba 1 Prueba 2 Prueba 1


8-i •
(Escalas) (Escalas)
A 7- •
1 1
B 2 2 6- •
C 3 3 5- *
D 4 4 4- •
E 5 5 3- •
F 6 6
2- •
G 7 7
1- *
H 8 8
0-1---- 1---- 1---- 1---- i---- 1-----!-----i-----!
0 1 2 3 4 5 6 7 8
Prueba 2
Fie. 4.1. C o r relac ió n = +1,0

En este caso, el comportam iento de los alumnos, y por lo tanto el orden en


la escala, fue el m ism o para las dos pruebas. Se puede ver que los puntos for­
m an una diagonal ascendente en el gráfico, desde abajo a la izquierda hacia

78
A n á lisis de exám en es

arriba a la derecha. También se ve que si se juntaran estos puntos formarían una


línea recta. Esta línea m uestra que hay una correlación perfecta entre los dos
grupos de resultados. Este resultado se describe como una correlación perfecta,
o una correlación de + 1 ,0 .
Si vam os ahora la figura 4.2 veremos lo que ocurre cuando los dos grupos,
en lugar de ser idénticos, son diametralmente opuestos. En este caso el estu­
diante que tuvo los mejores resultados en la prueba 1 fue el ultimo en la prueba
3, el alumno que fue segundo en la prueba 1 fue penúltimo en la prueba 3, y
así sucesivamente. El diagrama de dispersión muestra también una línea diago­
nal, pero esta vez la pendiente va en la dirección opuesta; cae desde arriba a la
izquierda hacia abajo a la derecha. El resultado se describe com o una perfecta
correlación negativa, o una correlación de —1,0.

Prueba 1 Prueba 3 Prueba 1


8-, *
(Escalas) (Escalas)
1 7- •
A 8

B 2 7 6- •

C 3 6 5- •

D 4 5 4- •
E 5 4 •
3-
F 6 3
2- ■
G 7 2
1- •
H 8 1
0 1 2 3 4 5 6 7 8
Prueba 3
Fie. 4.2. C o r relac ió n - —1,0

Podría parecer que hay una relación igual de fuerte entre estos dos resultados
com o la que había entre los resultados anteriores de las pruebas 1 y 2, pero esta
vez se trata de una relación negativa. Es difícil encontrar correlaciones negati­
vas tan importantes entre los resultados de dos pruebas de idiom as, pero pue­
den encontrarse, por ejemplo, entre los resultados de una prueba de idiom as y
algún tipo de m edidas de personalidad.
Finalmente, la figura 4.3 muestra los resultados de las pruebas 1 y 4. En este
caso no hay una relación obvia entre los dos grupos de resultados. Podría
deberse a la casualidad, y no hay un patrón que se pueda distinguir en el dia­
gram a de dispersión . Los puntos aparecen dispersos en todo el gráfico. El
índice de correlación para este grupo de resultados es de + 0 ,0 5 , lo que se
acerca tanto al 0 ,0 0 que podem os decir que no hay correlación entre los dos
grupos de resultados.
No es m uy corriente que no haya correlación alguna entre los resultados de
dos pruebas de lengua. Puesto que ambos pretenden evaluar aspectos del mismo
rasgo —competencia lingüística —se espera que al menos muestren algún grado

79
Ensayos previos y análisis

de coincidencia. Una correlación más posible entre dos pruebas puede verse en
la figura 4.4. Se distingue en las escalas de los estudiantes que participaron en
la prueba que había una cierta sim ilitud entre los dos grupos de resultados.

Prueba 1 Prueba 4 Prueba 1


8- •
(Escalas) (Escalas)
A 1 6 7- •

B 2 3 6- •

C 3 5 s- •
D 4 1 4- •
E 5 7
3- •
F 6 8
2“
G 7 2
i- •
H 8 4
1 ! 1 1 i 1
> 1 2 3 4 5 6 7 8
Fie. 4.3. C orrelación = +0,5 Prueba 4

Por ejemplo, el estudiante B fue segundo en una prueba y tercero en otra, y el


estudiante C fue tercero en una prueba y cuarto en la otra. Sin embargo, no hay
una coincidencia total. El diagrama de dispersión muestra que hay alguna sim i­
litud entre las notas, puesto que los puntos tienden a progresar desde abajo a la
izquierda hacia arriba a la derecha, y puesto que no hay puntos arriba a la
izquierda ni abajo a la derecha. Sin embargo, no es posible unir todos los pun­
tos con una línea recta. La correlación esta vez es + 0 ,7 0 lo que significa que hay
una coincidencia importante entre los dos grupos de notas.

A B C D E F G H I J K L M N O P Q R S T
Prueba 1 1 2 3 4 S 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Prueba 2 7 3 4 1 10 8 2 18 11 13 5 6 12 14 15 20 17 9 16 19
Prueba 1 20-
18-
16-
14-
12 -
10 -
8-
- •
6"
4- •
2- •

0 i — i— i— i— ¡— i— i— ¡— ;— ¡— i— i— i— i— i— i— ¡— ¡— i— ;— i -
0 2 4 6 8 10 12 14 16 18 20 Prueba 2

F ig . 4 .4 . C orrelación = + 0 , 7

80
Análisis de exámenes

Hay muchas maneras de calcular coeficientes de correlación. El método usado


aquí fue el de correlaciones de acuerdo al orden de la escala (rank order correlation; véase el
apéndice 5 para la fórmula y un ejemplo desarrollado). Este índice de correla­
ción es fácil de calcular a mano, y se usa cuando sólo hay un pequeño número
de resultados a correlacionar, o cuando los resultados están escalados, como era
el caso en nuestros ejemplos.
Otro m étodo de hacer correlaciones, que puede usarse para establecer corre­
laciones entre notas de pruebas, en vez de escalas, es el coeficiente de corrdación de Pear-
son (Pearson product moment corrdation). Este es el coeficiente más común de correlación
y se calcula automáticamente con programas estadísticos. Sin embargo, su uso
no es siempre aconsejable. Primero, asume que los dos grupos de notas tienen
una escala de intervalos idéntica, es decir, que hay la misma diferencia entre cada
resultado en la escala, es decir, que hay la misma diferencia entre un 1 8/20 y un
1 9 /2 0 que entre u n 5 / 2 0 y u n 6 / 2 0 . Sería pues erróneo usar este coeficiente
para establecer la correlación entre dos grupos de resultados basados en puntua­
ciones como Muy bien, Bien, Flojo, puesto que incluso en el caso de que se pasa­
ran a notas numéricas como 3, 2 y 1 no hay ninguna garantía de que la diferencia
entre 3 y 2 sea la m isma que entre 2 y 1. Segundo, este coeficiente sólo es apro­
piado si la relación entre dos grupos de resultados es consistente a lo largo de
toda la escala de notas. Por ejem plo, si las dos pruebas se administraron a un
amplio grupo de alumnos y los resultados de los mejores alumnos coincidían en
las dos pruebas pero no era así con los alumnos menos buenos, los puntos en el
diagrama de dispersión se agruparán alrededor de una línea curva y no una línea
recta, y el coeficiente no será el adecuado. Antes de utilizar este coeficiente debe­
ría leerse sobre lo que el mismo aparece en un libro de estadística estándar como
el de Guilford y Fruchter, 1978.

4.4.2. Análisis clásico de ítems

PRUEBAS DE CORRECCIÓN OBJETIVA


Tradicionalmente se calculan dos aspectos para cada ítem de corrección objetiva
—el coeficiente de dificultad (facility valué) y el índice de discriminación (discrimination Índex). El
coeficiente de dificultad (C.D.) mide el nivel de dificultad de un ítem y el índice
de discriminación (I.D.) mide hasta qué punto los resultados de un ítem indivi­
dual se corresponden con los resultados de toda la prueba.

Coeficiente de dificultad
El coeficiente de dificultad de un ítem es el porcentaje de alumnos que lo contes­
tan correctamente. Si hay 300 estudiantes y 150 responden correctamente, el coe­
ficiente de dificultad del ítem es de 15 0 /3 0 0 , lo que es el 50% (a menudo citado
como una proporción: 0,5). Esta simple medida da inmediatamente a los redac­
tores idea de la dificultad del ítem para el muestreo de alumnos. Si sólo 6 /3 0 0
estudiantes responde correctamente a un ítem, la dificultad será de un 2%, y está
claro que se trata de un ítem muy difícil. De forma similar, si la dificultad es del

81
Ensayos previos y análisis

95% (2 8 5 /3 0 0 ) el ítem es m uy fácil. Tales ítems no son demasiado informativos


puesto que nos dicen m uy poco sobre los distintos niveles de competencia del
grupo analizado. Para tomar un caso extremo, un ítem con un C.D. del 0% no
dará ninguna información excepto que se trata de un ítem m uy difícil. Si los exa­
minadores quieren una distribución amplia de las notas en un examen, es decir,
si quieren que las notas de los alumnos oscilen de muy altas a m uy bajas, selec­
cionarán ítems que estén lo más cerca posible de una dificultad del 50% puesto
que tales ítems facilitan la mayor gama de variación entre estudiantes individua­
les. (Explicaremos esto de forma más extensa más adelante cuando hablemos del
índice de discriminación.) Sin embargo, si a los responsables de la prueba les inte­
resa más asegurarse de que una prueba tiene un nivel concreto de dificultad, pue­
den manipular los contenidos de la prueba seleccionando ítems con la facilidad
apropiada para que la población obtenga la media aritmética esperada.
(La «m ed ia» —mean—es la suma de las notas de todos los alumnos dividida por
el número de alumnos.) Por ejemplo, si los alumnos obdenen una nota media del
70% en un examen, la dificultad m edia de todos los ítems es del 70% y por lo
tanto la prueba seguramente tiene muchos ítems con un C.D. de más del 70%. Si
los responsables de la prueba quieren hacer la prueba más difícil, pueden quitar
o substituir los ítems fáciles, quizá los que tienen un C.D. superior al 80%, para
que baje la m edia del C.D. y por consiguiente la nota media de los alumnos. Esto
se discutirá más extensamente en el apartado 4.5 sobre estadística descriptiva.

índice de discriminación
Así como es importante conocer la dificultad de un ítem, también es importante
saber lo bien que discrimina, lo bien que distingue entre alumnos de distintos
niveles de com petencia. Si el ítem funciona bien, se podría esperar que haya
más alum nos con buenas calificaciones que alum nos con calificaciones bajas
que sepan la respuesta correcta. Si los alumnos buenos dan una respuesta inco­
rrecta, m ientras que los alum nos flojos dan una respuesta correcta, está claro
que hay un problem a en el ítem que debe investigarse.
Hay muchas formas de calcular el índice de discriminación, pero una de las
más fáciles supone ordenar a los alumnos de acuerdo con sus notas finales en la
prueba y comparar la proporción de respuestas correctas del tercio superior del
m uestreo con las del tercio inferior. Por ejem plo, si el m ejor grupo tiene 10
alumnos, y 7 aciertan el ítem (0 ,7 ), mientras que sólo 2 de los 10 del grupo
más flojo (0 ,2 ) aciertan, el I.D. es de 0,7 —0,2 = + 0,5. Se considera que un
ítem con un I.D. de + 0 ,5 discrim ina bien, puesto que los alumnos de buenas
notas lo han contestado m ejor que los alumnos de notas bajas. (Véase apéndice
3 para el estudio de ejemplos desarrollados.)
El m ayor índice de discriminación posible es + 1 ,0 0 , y se consigue si todos
los alumnos del grupo más alto dan la respuesta correcta y ninguno de los alum­
nos del grupo m ás bajo responde correctamente. Tales ítems son m uy raros. A
m enudo los redactores se contentan con un I.D. a partir de + 0 ,4 pero no hay
reglas en cuanto a esto, puesto que la posibilidad de obtener unos I.D. altos

82
A nálisis de exámenes

depende del tipo de prueba y de la gam a de capacidades de los examinandos. A


m enudo, sin em bargo, nos encontramos con un ítem que tiene un I.D. nega­
tivo, lo que significa que hay más alumnos que responden correctamente en el
grupo inferior que en el grupo superior. Hay obviamente algo m uy erróneo en
un ítem así y debería revisarse o descartarse. Por ejemplo, cuando se ensayó el
ítem siguiente con 207 alumnos franceses de nivel elemental e intermedio bajo,
el I.D. fue de —0 ,3 1 . Sólo el 0 ,0 7 del grupo m ás alto escogió la respuesta
correcta, mientras que el 0,38 del grupo m ás flojo acertó. Todos los estudian­
tes del grupo m ás alto, excepto el 7% escogió la alternativa A.
This shirt is too d irty _______________________ .
A. to wear it.
B. that I wear it.
C. than I wear.
D. for m e to wear.

No está claro lo que no funciona en este ítem, pero por alguna razón no fun­
ciona, y por lo tanto debería cambiarse o suprimirse de la prueba.
Con ítems de respuesta múltiple, un índice de discriminación bajo puede a
menudo explicarse por el comportamiento de una o de varias opciones. Las res­
puestas pueden distribuirse en tina tabla, como en el ejemplo siguiente, que mues­
tra los resultados de una prueba piloto de un ítem de comprensión oral. Se puso
la cinta, y los estudiantes tuvieron que seleccionar la respuesta apropiada.

«W e’re going to a film tonight. Do you want to come along?»


A. Where are you going tonight?
B. Do you want to see a film tonight?
C. Thanks. What time is it?
D. Are you going along now?

Se agruparon los resultados de los alumnos en tres grupos: el m ás alto, el del


m edio y el m ás bajo. Para cada ítem se hizo una tabla que m ostrara cuántos
alumnos de cada grupo habían escogido cada alternativa. Los resultados del ítem
citado se pueden ver en la tabla 4.1.

T a bl a . 4 . 1 . T a b ú de a n á l isis de ítem

A B C* D En blanco Total

A - - 14 7 - 21 * La respuesta
correcta es la C.
M 17 3 20
' C. D. = 71%
B 6 13 - 2 21
I.D. = + 0 ,0 5
Total 6 - 44 10 2 62

(A = Alto, M = Medio, B = Bajo)

83
Ensayos previos y análisis

Esta tabla muestra cómo funcionó el ítem con estos alumnos. 44 de 62 esco­
gieron la alternativa correcta, la C, pero esta alternativa atrajo igualmente a alum­
nos de los tres grupos. No distinguió entre alumnos de niveles diferentes, y el
I.D. es sólo de + 0 ,0 5 . Si analizamos cómo funcionaron las alternativas, veremos
lo que funcionó mal. Primero, la alternativa B fue inútil puesto que nadie la
escogió. Segundo, la alternativa D atrajo a los que se equivocaron; 7 estudian­
tes del grupo alto la escogieron, al igual que 3 del grupo m edio y ninguno del
grupo bajo. Puesto que más estudiantes destacados que flojos escogieron la alter­
nativa supuestam ente incorrecta, debe de haber algo extraño en esa opción.
Podría discutirse si «Are you going along n ow ?» tiene sentido en el contexto
dado. Esta alternativa debería pues suprimirse. La única alternativa que parece
funcionar es la A, puesto que todos los que la escogieron pertenecen al grupo
bajo. Esta alternativa fue la única que discriminó. La distribución de los alum ­
nos que dejaron el ítem en blanco tam bién contribuyó a esta discrim inación
positiva puesto que las respuestas en blanco pertenecían sólo al grupo bajo.
M encionam os m ás arriba que si querem os que los ítem s tengan I.D. altos,
deberían tener C.D. cercanos al 50%. Esto es así porque los ítem s de dificul­
tad m edia dan m ás cam po para la discrim inación. La tabla 4 .2 , a continua­
ción, lo dem uestra al m ostrar los I.D. que consiguen los ítem s con distinta
dificultad. En este ejem plo im aginario, 30 alum nos hicieron el examen, y la
tabla m uestra cuántos alum nos en cada uno de los grupos alto, m edio y bajo,
respondieron correctam ente al ítem. Había 1 0 alum nos en cada uno de los
tres grupos.

T a b l a 4 . 2 . R ela c ió n en tre c o e f ic ie n t e de d if ic u l ta d e ín d ic e de d isc r im in a c ió n

Grupo alto Grupo medio Grupo bajo C.D. I.D.


ítem 1 10 (1,0) 10 (1,0) 10 (1,0) 100% 0,0
ítem 2 10 (1,0) 10 (1,0) 8 (0,8) 93% + 0 ,2
ítem 3 10 (1,0) 10 (1,0) 4 (0,4) 80% + 0 ,6
ítem 4 10 (1,0) 10 (1,0) 1 (0 .1 ) 70% + 0 ,9
ítem 5 10 (1 ,0 ) 10 (1,0) 0 (0,0) 66% + 1,0
ítem 6 10 (1,0) 5 (0,5) 0 (0,0) 50% + 1 ,0
ítem 7 10 (1,0) 0 (0,0) 0 (0,0) 33% + 1,0
ítem 8 9 (0 ,9 ) 0 (0,0) 0 (0,0) 30% + 0 ,9
ítem 9 6 (0,6) 0 (0,0) 0 (0,0) 20% + 0 ,6
ítem 10 2 (0,2) 0 (0,0) 0 (0,0) 6% + 0 ,2
ítem 11 0 (0,0) 0 (0,0) 0 (0,0) 0% + 0 ,0
Nota: Los números entre paréntesis son las proporciones de los candidatos de un
grupo que han acertado la respuesta correcta

Obviamente, si todos los alum nos tienen un ítem bien (ítem 1), no puede
haber discriminación alguna, y de la m ism a form a si todos tienen un ítem mal
(ítem 11) tam poco. Por otra parte, si la m itad de los alumnos lo aciertan y el

84
Análisis de exámenes

C.D. es del 50% (ítem 6), es posible contar con el I.D. m áximo de 1,00, pues
todo el grupo alto ha contestado correctamente y todo el grupo bajo ha con­
testado mal. La tabla m uestra que con unos C.D. del 66% al 33% es posible
conseguir I.D. m áxim os, pero que cuando la dificultad se aparta de estos valo­
res, ya no es posible obtener I.D. altos. Por ejemplo, si el C.D. es del 80% (ítem
3), no es posible que todos los que hayan acertado el ítem estén en el grupo
alto, por lo que la discrim inación no puede ser más alta de + 0 ,6 . Esto debería
recordarse a la hora de considerar los I.D. Si un ítem tiene un C.D. del 6% y
todavía tiene un I.D. de + 0 ,2 , está discrim inando m uy bien si tenemos en
cuenta que es un ítem m uy difícil.
Si el número de sujetos es pequeño, como suele ocurrir en un ensayo previo,
el I.D. puede calcularse utilizando el m étodo descrito aquí o usando la formula
Ej 3 que produce los m ism os resultados (véase apéndice 3).
H oy en día los responsables de exámenes utilizan program as informáticos
para su análisis de ítems. Estos no calculan el I.D. con la fórmula Ej 3 (véase el
apéndice 3), pero calculan las correlaciones biseriales y las correlaciones bise-
riales puntuales. Como el E1 3 , estas dos correlaciones comparan el comporta­
m iento del ítem con el de la prueba completa, pero utilizan procedim ientos
m atem áticos más com plejos. La fórm ula E] 3 y estas dos correlaciones produ­
cen resultados similares, pero las dos correlaciones biseriales tienen la ventaja
de que tienen en cuenta todas las respuestas de todos los alumnos, y no sólo las
de los grupos alto y bajo. La correlación biserial, que tiende siempre a ser más
alta que la correlación biserial puntual, debería usarse si la muestra tiende a ser
de un nivel de competencia lingüística distinto del de la población a la que va
dirigida la prueba. En los otros casos, debería usarse siempre la correlación bise­
rial puntual. Las fórmulas para estas correlaciones se pueden encontrar en cual­
quier libro de estadística y Crocker y Algina, 1986, dan una explicación clara
de su utilización. El program a informático ITEMAN de Microcat, calcula auto­
máticamente la dificultad y las dos correlaciones biseriales de todos los ítems,
y también inform a sobre el funcionamiento de las alternativas. Paquetes esta­
dísticos com o el SPSS y el SAS llevan a cabo los m ism os procesos pero son más
complicados de utilizar. (Para nombres y direcciones completas de estos y otros
program as informáticos, véase el apéndice 8.)
Quizá deberíam os mencionar aquí un aspecto antes de continuar. Para obte­
ner el I.D. dijim os que los resultados de los alumnos se ordenaban de acuerdo
con la nota. En el ejem plo de la prueba de com prensión oral que analizamos
anteriorm ente, la calificación era la de la prueba de com prensión oral. Sin
em bargo, si esta prueba hubiera form ado parte de una serie de pruebas, los
alum nos habrían pod id o agruparse de acuerdo con las calificaciones resul­
tantes de toda la serie. El propósito de agrupar los resultados es para ordenar
a los estudiantes de acuerdo con alguna m edida de com petencia lingüística,
y a m en udo la m ejor m edida son los resultados obten idos en una serie de
pruebas com pleta. Sin em bargo, si la prueba de com prensión oral se propo­
nía evaluar destrezas m uy distintas de las del resto de componentes de la serie,

85
En sayos previos y análisis

no ofrecería una correlación alta con las otras pruebas, y los ítem s de co m ­
prensión oral no tendrían dem asiada correspondencia con los resultados del
conjunto de pruebas. Los índices de discriminación de los ítems tenderían por
lo tanto a ser bajos. Lo que los responsables de exam en hacen en estos casos
es comparar el comportam iento de los ítems con las notas totales de los alum ­
nos en aquellas pruebas de la serie que parecen evaluar destrezas sim ilares a
las evaluadas por los ítem s en consideración. Por ejem plo, si la serie de prue­
bas contiene pruebas de respuesta m últiple de gram ática y de vocabulario y
pruebas de expresión oral y expresión escrita, los responsables de la prueba
agruparán a los estudiantes de acuerdo con los resultados obten idos en las
pruebas de gramática y de vocabulario y utilizarán esta escala para analizar los
ítem s de gram ática y vocabulario.
Puesto que com parar ítems con los resultados de una prueba de la que for­
man parte, y que todavía no se ha experimentado, es lógicamente dudoso, algu­
nos responsables de examen agrupan a los alumnos de acuerdo con alguna otra
m edida de competencia lingüística, como puede ser el orden dado por el pro­
fesor de estos alumnos, y comparan el comportamiento de cada ítem con esta
medida extema. La dificultad aquí estriba en encontrar una medida extema que
sea fiable y que m ida las destrezas lingüísticas relevantes. Anastasi, 1988, dis­
cute este punto con m ás detalle.
Los ítems que requieren respuestas de una sola palabra, de un grupo de pala­
bras o de frases pueden analizarse de la m ism a m anera que los ítem s de res­
puesta m últiple, pero en este caso, naturalmente, no hay alternativas que
analizar. Aparte de calcular el C.D. y el I.D., y de estudiar el comportamiento de
los huecos, el aspecto más importante de este tipo de análisis es estudiar las res­
puestas erróneas de los estudiantes. Estas respuestas darán inform ación sobre
cómo entendieron la tarea los estudiantes y sobre si el ítem evalúa lo que inte­
resa. Tam bién revelarán inexactitudes y om isiones en la clave de respuestas, y
descubrirán am bigüedades en el sistema de puntuación. Por ejem plo, las ins­
trucciones de puntuación pueden decir «ignore faltas de ortografía», pero puede
no estar claro lo que esto significa en realidad. Si la respuesta correcta es «tuvo»,
¿qué pasa con «tu b o »? Utilizar la clave de respuestas y los criterios de evalua­
ción durante la fase de ensayos previos debería pulir cualquier problem a que
pudiera presentarse en el exam en definitivo, puesto que en este caso se preci­
saría cóm o tratar este tipo de respuestas incorrectas.
Frecuentem ente, n os encontram os con pruebas supuestam ente de correc­
ción objetiva que son difíciles de puntuar de form a coherente. Por ejem plo,
es difícil redactar pruebas de com prensión lectora o com prensión oral de res­
puesta abierta que tengan un núm ero de respuestas correctas lim itado. Ade­
m ás de d ificu ltad es tales com o el tratam iento de las faltas de ortografía
descrito antes, las respuestas abiertas pueden incluir am bigüedades gram ati­
cales que interfieren en la claridad de la respuesta. Además, cuanto m ás larga
sea la respuesta prevista, m ayor es la posibilidad de respuestas aceptables ines­
peradas. Si los correctores tienen prisa p or acabar con un núm ero elevado de

86
A nálisis de exámenes

exám enes, estarán tentados de tom ar sus propias decisiones sobre la bondad
de tales respuestas, y estas decisiones serán distintas de las tom adas por otros
correctores. Puede, pues, que sea necesario com probar la consistencia de los
correctores com parando las notas dadas p or dos o m ás correctores (véase el
apartado sobre fiab ilid ad m ás ad elan te). M ientras pueda m antenerse una
corrección coherente, el análisis de ítem s puede llevarse a cabo de la form a
habitual.

PRUEBAS DE CORRECCIÓN SUBJETIVA


Aunque el análisis de ítems no es apropiado para las pruebas de corrección sub­
jetiva, com o los resúmenes, las redacciones y las entrevistas orales, estas prue­
bas también deben ser sometidas a ensayos previos para ver si los ítems permiten
obtener la muestra lingüística prevista; si el esquem a de puntuación, que debe­
ría haberse escrito durante la fase de redacción (véase el capítulo 3 ), puede
usarse; y si los examinadores pueden corregir de forma consistente. Es a menudo
im posible experim entar tales pruebas con grandes núm eros de estudiantes a
causa del tiem po que se necesitará para corregir las redacciones o llevar a cabo
las entrevistas, pero deberían probarse con una gam a amplia de estudiantes de
distintos niveles de lengua y de conocimientos generales para garantizar que la
muestra obtenida contenga la m ayoría de las características que caracterizarán
las respuestas producidas en el examen final.
Una vez administradas las redacciones o las entrevistas, debería haber sesio­
nes de corrección para com probar que los enunciados han producido el tipo
de respuestas previsto y si las directrices de corrección y los criterios de eva­
luación funcionan satisfactoriamente. Estas sesiones de corrección durante la
fase de ensayos previos deberían seguir el patrón descrito en el capítulo 6, y
deberían provocar la rectificación de los enunciados, en las directrices y en los
criterios de evaluación.

4.4.3. Fiabilidad
Si diéram os la m ism a prueba a los m ism os estudiantes varias veces, probable­
mente constataríamos que los estudiantes no siempre obtienen las mismas notas.
Algunas de estas variaciones en los resultados pueden estar motivadas por dife­
rencias reales o sistemáticas, com o pueden ser la m ejora de los alumnos en la
destreza evaluada, y otras pudieran estar producidas por errores, esto es, cam ­
bios no sistemáticos causados, por ejemplo, por lagunas en la concentración por
parte de los estudiantes o ruidos en la sala de examen. El objetivo a la hora de
administrar un exam en es producir pruebas que m idan los cam bios sistemáti­
cos y no los no sistemáticos, y cuanta mayor sea la proporción de variación sis­
temática en la calificación de la pm eba, más fiable es. Un examen perfectamente
fiable sólo m edirá cam bios sistemáticos.
Aunque es a m enudo im posible obtener un examen perfectamente fiable, los
responsables de examen deben procurar que las pruebas sean lo más fiables posi­
ble. Pueden hacerlo reduciendo al mínimo las causas de variación no sistemática.

87
Ensayos previos y análisis

Deberían garantizar, por ejem plo, que la prueba se administre y se corrija de


forma consistente, que las instrucciones estén claras, y que no haya ítems am bi­
guos. Como hemos visto en el apartado referente a los índices de discriminación,
los ítems am biguos o defectuosos tienen índices de discriminación bajos, y una
prueba que contiene este tipo de ítem tiende a ser poco fiable.
La fiabilidad puede estimarse de distintas maneras. La forma clásica es adminis­
trar la prueba a un grupo de alumnos, y volverla a administrar al m ism o grupo
inmediatamente después. El supuesto es que los alumnos no habrán aprendido
nada durante el intervalo, y que si la prueba es perfectamente fiable obtendrán
la misma nota en la primera y en la segunda administración. Este procedimiento
se llama fiabilidad test-retest. Obviamente es muy poco práctica, y en cualquier caso
los alumnos pueden hacerlo mejor o peor la segunda vez según se hayan acos­
tumbrado al método usado o si están cansados o nerviosos. Podemos obtener la
fiabilidad test-retest dejando un intervalo más largo entre las dos administracio­
nes pero esto tiene también sus inconvenientes puesto que durante este período
los alumnos pueden haber cambiado. Por ejemplo, pueden haber aprendido más.
Otra forma de ver la fiabilidad de una prueba es utilizar el método de la fiabilidad
paralela, que propone comparar las notas de dos pruebas m uy similares (parale­
las). Sin embargo, esto también puede resultar problemático puesto que es casi
imposible redactar dos pruebas genuinamente paralelas. (La redacción de prue­
bas paralelas se discute en el apartado 4.5, m ás adelante.)
Puesto que los procedimientos descritos anteriormente son largos y poco satis­
factorios, es m ás corriente administrar la prueba sólo una vez, y m edir lo que se
llama consistencia interna (inter-item consistency). Una forma de hacer esto es simular el
método de pruebas paralelas utilizando el método de las dos mitades (split half reliability
index). Este m étodo supone dividir la prueba en dos, tratando estas dos mitades
como si fueran versiones paralelas, y estableciendo correlaciones entre las m is­
mas (véase apéndice 6 para un ejemplo). Cuanto más alta sea la correlación entre
las dos mitades, m ás alta será la fiabilidad. Una prueba perfectamente fiable ten­
dría un coeficiente de fiabilidad de + 1 ,0 . El coeficiente de fiabilidad se interpreta
de la m ism a form a que un coeficiente de correlación. Si los resultados de una
prueba se deben solamente a factores no sistemáticos, o a la suerte, el coeficiente
de fiabilidad estará cercano al 0,00.
Este método de las dos mitades no es del todo satisfactorio puesto que el valor
de la correlación dependerá de qué ítem s se escojan para cada una de las dos
mitades. A m enudo pues, se usa una forma más compleja de obtener el coefi­
ciente de fiabilidad, que hace una estimación de cuál sería el coeficiente de fia­
bilidad si se establecieran correlaciones entre todas las posibles divisiones de la
prueba original. Las dos fórm ulas m ás corrientes son la de Kuder Richardson
(KR)20 y Kuder Richardson (KR)21. El KR20 está basado en datos de ítems, y
puede usarse si se tienen los resultados de cada tmo de los ítems. (Mientras todos
los ítems sean dicotóm icos -ten gan el m ism o peso en la prueba y se puntúen
como correcto o incorrecto-, este coeficiente será idéntico al coeficiente alfa de
Cronbach, que es el coeficiente que habitualmente calculan algunos programas

88
Análisis de exámenes

inform áticos). El K R 2 1, que asume que todos los ítems son también dicotómi-
cos, se basa en notas totales de la prueba. Puesto que el KR21 utiliza menos infor­
m ación que el K R 20, es m enos exacto y siem pre produce un coeficiente de
fiabilidad más bajo. Ambas fórmulas asumen una perfecta fiabilidad de correc­
ción. (Puede consultarse un ejemplo desarrollado de KR21 en el apéndice 7 ). La
fórm ula KR20 es difícil de calcular, y no la recomendamos a quien no tenga un
ordenador. El coeficiente de fiabilidad del método de las dos mitades es el más
fácil de los tres de calcular y en general produce resultados similares a los de las
fórmulas KR20 y KR21.
La fiabilidad de una prueba depende de muchos factores, como el tipo y la lon­
gitud de la prueba, y la gama de competencia lingüística de los alumnos con los
que se ensayó la prueba. Una prueba objetiva y bien redactada de 100 ítems de
elección múltiple, que se ha ensayado con alumnos de distintas competencias,
podría tener un coeficiente de fiabilidad de + 0 ,9 5 . Sin embargo, una prueba de
comprensión oral igualmente bien redactada de 20 ítems de respuesta abierta que
se ha ensayado con alumnos avanzados puede tener sólo una fiabilidad de +0,75.
La fiabilidad también depende de la homogeneidad de los ítems. Si se supone que
todos los ítems evalúan la m isma destreza de la m ism a forma, estos ítems m os­
trarán correlaciones altas y la prueba tendrá un coeficiente de fiabilidad alto. Si la
prueba contiene apartados que evalúan distintas destrezas de forma distinta, estas
secciones no mostrarán una correlación alta con las demás, y la fiabilidad será
menor. (Esto se discute con más extensión en el capítulo 8.) Cuando interprete­
m os un coeficiente de fiabilidad es importante considerar todos estos aspectos.
Tal com o m encionam os antes, las fórm ulas de Kuder Richardson deberían
usarse sólo si los estudiantes han tenido el tiem po necesario para acabar la
prueba. En caso contrario, los alumnos m ás flojos no habrán llegado a respon­
der algunos ítems, en particular los del final, por lo cual el coeficiente de fiabi­
lidad tenderá a ser demasiado alto. (Para m ás información acerca de la fiabilidad,
véase Guilford y Fruchter, 1978; Anastasi, 1988, y Crocker y Algina, 1986).
En una prueba subjetiva, naturalmente, la corrección m isma puede que no
resulte fiable. Esto puede ser debido a factores como la variación en las distin­
tas formas en que se llevó a cabo la entrevista, la ambigüedad de los criterios de
evaluación, la aplicación de distintos m odelos por distintos correctores y la
inconsistencia por parte de algunos correctores. La fiabilidad de tales pruebas
puede evaluarse comparando las notas otorgadas por el mismo corrector en dis­
tintas ocasiones. Puesto que estas comparaciones se harán con respecto al orden
en que los correctores coloquen a los estudiantes, pero no con respecto a las
notas obtenidas, es posible que dos examinadores ordenen un grupo de estu­
diantes de la m ism a forma y muestren de esta forma una correlación perfecta
entre ellos, a pesar de que uno haya dado notas más altas que el otro o haya
usado una gam a m enos amplia de notas. Es pues también necesario comparar
las notas m edias dadas por cada corrector. Existe un coeficiente de fiabilidad
basado en el análisis de la varianza que toma en cuenta tanto el orden como el
nivel y se discutirá en el capítulo 6.

89
Ensayos previos y análisis

4.4.4. La teoría de respuesta al ítem (Item Response Theory)


Los resultados de análisis llevados a cabo utilizando los procedimientos de aná­
lisis de examen citados más arriba tienen un principal inconveniente. Las carac­
terísticas de los exam inandos y las características de la prueba no pueden
separarse, con lo cual los resultados de los análisis sólo son válidos para la m ues­
tra usada para obtenerlos. Los resultados no serán válidos para muestras de alum­
nos con distintos niveles de com petencia. No puede pues facilitar ninguna
m edida ñ ja de la dificultad de una prueba. Si los ítem s de una prueba tienen
coeficientes de dificultad bajos, la prueba puede resultar difícil o puede que se
haya ensayado con alumnos de nivel bajo. Si el coeficiente de dificultad es alto,
puede ser debido a que la prueba es fácil o que se ha ensayado con alumnos con
un nivel de competencia m uy alto. A causa de esto es difícil comparar alumnos
que han hecho distintas pruebas, o comparar ítem s que se han ensayado con
grupos de estudiantes distintos.
La m edición usando la teoría de la respuesta al ítem (TRI) está diseñada para solu­
cionar este problema. Podemos utilizarla para desarrollar una escala de dificul­
tad de un ítem que sea independiente de la muestra en la que se han ensayado
los ítems, para poder comparar la actuación de exam inandos que han contes­
tado a distintas pruebas, o puede aplicarse un grupo de resultados a grupos de
alumnos con distintos niveles de capacidad lingüística. Esto significa que para
comparar dos exámenes no hace falta, en teoría, ensayar las dos pruebas com ­
pletas con el m ism o grupo de estudiantes. M ientras haya idénticos ítem s de
anclaje en las dos versiones de la prueba, cada versión puede ensayarse con un
grupo distinto, y las dos pueden compararse utilizando estos ítems de anclaje.
La TRI se basa en la teoría de la probabilidad, y muestra la probabilidad que
tiene una persona en concreto de responder correctamente a un ítem. Los resul­
tados de los alumnos y los totales de los ítems se convierten en una escala para
que puedan relacionarse el uno con el otro. Si la capacidad lingüística de un
estudiante es la m ism a que el nivel de dificultad del ítem, este estudiante tiene
una posibilidad de 5 0 /5 0 de responder al ítem de forma correcta. La relación
entre la actuación de un candidato con este ítem y las capacidades inherentes a
la actuación del ítem se describen en una curva característica del ítem (CCI) (ítem
characteristic curve). Ésta muestra que la posibilidad de responder a un ítem correc­
tamente crece al m ism o tiem po que el nivel de competencia del candidato. La
figura 4.5 muestra un ejemplo simple de CCI. La probabilidad que tiene de res­
ponder correctamente al ítem se muestra en el lado izquierdo del gráfico y los
niveles de com petencia de los alum nos se m uestran abajo en horizontal. Los
niveles de competencia en este caso van de - 3 a + 3 . Esta escala, que se llama
escala de logit (logit scale) es bastante arbitraria. Si al usuario no le gustan las cifras
negativas, los niveles pueden transform arse para que oscilen de 100 a 0, con
una media de 50. En este ejemplo puede verse que los alumnos con un nivel de
competencia de 0 tienen un 0,3 (o 30%) de posibilidades de responder al ítem
correctamente.

90
Análisis de exámenes

Hay tres m odelos principales de TRI, y las opiniones varían acerca de qué
m odelos son los más apropiados para distintas circunstancias. Sin embargo, cual­
quiera que esté pensando en utilizar el TRI para analizar pruebas debería pedir
consejo antes de embarcarse. Todo lo que podem os hacer es describir breve­
mente las principales ventajas e inconvenientes de cada modelo.

MODELO (RASCH) DE UN PARÁMETRO


Este es el m ás simple de los tres m odelos. Es comparativamente fácil de enten­
der y requiere menos sujetos en una muestra que los otros dos modelos. Se con­
sidera suficiente un m ínim o de 100 estudiantes. Naturalmente, en muchas
situaciones, este núm ero es im posible de obtener, pero si se usa una muestra
menor, los resultados tendrán un margen de error demasiado alto.
Este modelo resulta muy manejable para análisis simples y prácticos, pero es limi­
tado en cuanto a su alcance porque sólo incluye dos aspectos: la capacidad lingüís­
tica del sujeto y la dificultad del ítem. No tiene en cuenta la discriminación del ítem.
Hay dos programas útiles para llevar a cabo análisis de Rasch, que son BIGS-
TEPS y QUEST (véase apéndice 8).

MODELO DE DOS PARÁMETROS


Este m odelo hace todo lo que hace el m odelo de un parámetro, pero también
tiene en cuenta la discriminación del ítem. Es, pues, más complejo y requiere
una muestra de al m enos 200 estudiantes.

MODELO DE TRES PARÁMETROS


El m odelo de tres parámetros no sólo hace todo lo que hacen el modelo de uno
y de dos parámetros, sino que también tiene en consideración el factor de acierto
por suposición. Es mucho más sofisticado que los otros dos modelos y sus defen­
sores dicen que puede moldearse para que se adapte al mundo real. Sin embargo,
es m uy com plicado de entender y de usar y requiere una base de datos de al
menos mil estudiantes.

91
Ensayos previos y análisis

Las matemáticas que subyacen en el TRI son demasiado complejas para poder
explicarlas aquí, pero Henning, 1987, y Crocker y Algina, 1986, contienen bre­
ves introducciones al respecto; Wright y Stone, 1979, Wright y Masters, 1982,
Lord, 1980, y Hambleton, Swaminathan y Rogers, 1991, lo explican con más
detalle.
Un program a informático que puede utilizarse para efectuar análisis de uno,
dos y tres parámetros es el BILOG (véase el apéndice 8).
El TRI es un instrum ento adicional útil para el responsable de un examen.
Puede utilizarse para identificar ítem s que no se adaptan al grupo que se va a
evaluar. Es útil para detectar la parcialidad de una prueba, y puede utilizarse para
analizar los resultados tanto de pruebas objetivas como subjetivas. También es
m uy bueno para las pruebas adaptadas al ordenador. Sin embargo, no es nece­
sario para el análisis de ítems básico de una prueba nueva.

BANCOS DE ÍTEMS
El TRI es ideal para aquellos que desean almacenar ítem s en bancos de ítems.
Los ítem s ensayados o grupos de ítem s pueden «calib rarse» de acuerdo con
características com o la competencia de una persona, la dificultad del ítem, su
poder de discrim inación, y puede ser almacenado en un banco para ser utili­
zado cuando sea necesario. Entonces, cuando los responsables de una prueba
están pensando en la elaboración de una nueva versión de un examen, pueden
seleccionar del banco los ítem s que tengan no sólo el nivel adecuado para la
población del exam en sino que también pueden com binarlos de manera que
elaboren una prueba que sea equivalente en cuanto a dificultad y discrim ina­
ción a pruebas anteriores del m ism o tipo.
El disponer de un banco de ítems depende de la disponibilidad de al menos
200 personas para cada ensayo y de la existencia de un grupo de ítems de anclaje
que estén ya calibrados y por lo tanto se sepa su nivel de dificultad. Los nuevos
ítems se colocarán en la m ism a escala de dificultad que los ítems ya existentes.

4.4.5. Estadística descriptiva


Durante la fase de ensayos previos, además de analizar el comportam iento de
ítems individuales, es útil tam bién analizar el com portam iento global de una
prueba y el comportamiento de cada una de sus partes. Aquí también deberán
tenerse en cuenta los distintos requisitos de cada prueba, pero en cualquier caso
deberían hacerse gráficos de la distribución de resultados, m ostrando el lugar
donde se agrupan los resultados y la amplitud de su dispersión. Los valores esta­
dísticos más importantes que se deben realizar son la media (mean), la moda (mode)
y la mediana (median), que m uestran cóm o se agrupan los resultados, y el rango
(range) y la desviación típica o estándar (standard deviation), que muestran la amplitud o
recorrido de los resultados (entre la nota más alta y la más baja; véase el apén­
dice 4 para ejemplos desarrollados). Los histogramas de la figura 4.6 muestran
tres distribuciones distintas de resultados que pueden describirse utilizando estas
cinco medidas estadísticas.

92
Análisis de exámenes

7 7n
« (*>)
jÉJ 6' 86
1S 5 .1 S
j¡j 4- ï +J
flj 8<U 4
lÜ 3'
£l
•P
;
2 l
0 U i---t t f
Ó i 2 3 4 S 6 7 8 9 Í0 0 12 3 4 S 6 7 8 9
N o ta N ota

Media 6 6 6
Moda 6 7 6
Mediana 6 6,5 6
N°. de rango 4 8 2

Estudiantes D.T. 1,13 2,34 0,74


(a) (b) (c)

En los tres casos, 12 alumnos han hecho una prueba de 10 ítems. Podemos ver
en los histogramas que aunque la media es 6 cada vez, los resultados globales de
la prueba son m uy distintos. En A y en B, por ejemplo, hay m ás alumnos que
obtuvieron la nota media que cualquier otra nota: 4 alumnos tuvieron un 6 en
A, y 6 alumnos tuvieron un 6 en C. Sin embargo, en B hay más alumnos con un
7 que con un 6. La nota obtenida por el m ayor grupo de alum nos se llama la
moda, que en el caso de B es 7. Es útil tener la moda además de la media, en par­
ticular si la prueba es muy fácil o m uy difícil, o cuando parece que los alumnos
que han realizado la prueba tienen dos niveles diferenciados. La figura 4.7 da un
ejem plo de los resultados de una prueba que resultó m uy fácil para los estu­
diantes. La m oda es 20, mientras que la media es 15,55. Tal distribución de notas,
en la que éstas se agrupan en el extremo alto del histograma se describe como
«asim etría negativa», porque el número de notas decrece hacia la izquierda del
gráfico. Si una prueba es m uy difícil y los resultados disminuyen hacia la dere­
cha del gráfico, se dirá que existe una «asimetría positiva».
La figura 4.8 muestra los resultados de una prueba que podrían haber reali­
zado estudiantes con dos niveles de competencia distintos. Por ejemplo, el res­
ponsable de la evaluación quizá ha adm inistrado la prueba a dos grupos
distintos, un grupo de nivel intermedio y otro de nivel avanzado. En este caso
se describirá la distribución como «bim odal», puesto que tendrá dos modas. Si
sólo hubiéram os buscado la nota media, no habríamos obtenido una idea clara
de los resultados puesto que sólo un alumno tuvo un 11. Si se dan la m edia y
las m odas la distribución de las notas se describe de forma más informativa.

93
Ensayos previos y análisis

N o ta

Media = 15,55 Moda = 20


F ig . 4 .7

N ota
Media = 1 1 Modas = 6 y 17
F ig . 4 .8

La tercera m edida de «tendencia central» (m edidas que muestran dónde se


agrupan las notas) es la mediana, que corresponde a la nota obtenida por el estu­
diante que está en el centro de las notas de todos los estudiantes. Si, por ejem ­
plo, cinco estudiantes realizaron una prueba y obtuvieron notas de 9, 7, 6, 2 y
1, la m ediana sería de 6. La m ediana es especialmente informativa cuando el
responsable de la prueba tiene la sensación de que la media no es representativa
del todo del nivel de competencia del grupo. Por ejemplo, si todo el grupo de
10 alum nos m enos uno obtiene notas entre 8 y 10, y hay un alum no que
obtiene un 1, la nota m edia se verá reducida por esta nota disidente. Para com ­
pensar cualquier representación errónea de las notas, es m ejor tener también en
cuenta la mediana además de la media. En la figura 4 . 6 se verá que las distribu-

94
Análisis de exámenes

d on es sim étricas de (a) y de (c) y la m ediana son iguales con la m edia, pero
que en la (b) la m ediana, 6,5, es distinta.
Una vez estudiadas estas medidas de tendenda central, tenemos una idea más
dara de las diferencias en las distribudones de notas de los ejemplos de la figura
4.6. Sin em bargo, ninguna de estas m edidas explica las diferencias en la dis­
persión de resultados. Por ejem plo, A y C tienen m edias, m odas y m edianas
idénticas, pero puede verse a simple vista que A tiene una distribudón de resul­
tados m ucho m ás am plia que la C. La form a m ás sim ple de analizar esta dife-
rencia es ver d rango de cada distribudón. El rango es la diferenda entre la nota
más alta y la nota m ás baja. Así pues, d rango en A es de 8—4, que es igual a 4,
y en C es 2. Cuando sabem os los rangos, se muestran algunas de las diferencias
existentes en las amplitudes de las tres distribudones. Está ahora claro que C con
un rango de 2, tiene una distribudón de notas reducida, mientras que B, con
un rango de 8, la tiene amplia.
El rango es un a m edida m uy útil de «d isp ersió n », pero tiene un inconve­
niente: no tiene en cuenta los huecos en la distribudón, es d ed r, las califica-
don es que nadie obtuvo. Así, en B, ningún alumno tuvo un 5 o un 9, por tanto
d rango es quizá una exageradón de la distribución de las notas. La m edida de
dispersión que tiene en cuenta cada una de las notas obtenidas es la desviación
típica. Ésta es una estadística m uy importante y debería obtenerse siempre que
sea posible. Cualquier libro introductorio de estadística explicará la desviadón
típica, y puesto que es m ás complicada de explicar que las otras m edidas des­
critas, la describiremos aquí m uy brevemente. La desviadón típica (D.T.) corres­
ponde, aproximadamente, a la variación m edia de la nota de cada alumno con
respecto a la media. Si un alumno tiene una nota de 4, y la nota m edia es un 6,
este estudiante se desvía —2 de la m edia. De la m ism a manera, un alumno con
un 10 se desviará un 4 de la m edia. La D.T. inform a sobre la m edia entre las
desviaciones de cada nota respecto a la m edia. Si vem os la figura 4 .6 otra vez
veremos que A tiene una D.T. de 1,13, B la tiene de 2 ,3 4 y C de 0,74. Compa­
rando estas cifras podem os ver al instante que C está m enos dispersa que A o B.
Hay otras estadísticas y gráficos que se utilizan para describir la distribución
de resultados (véase cualquier libro de introducción a la estadística), pero un
histogram a y las cinco m edidas mencionadas m ás arriba son adecuadas para la
mayoría de los objetivos. Con estas medidas es posible comparar el nivel de difi­
cultad y la dispersión de resultados de distintas partes de una prueba o de dis­
tintas pruebas entre sí.
Estas medidas de tendencia central y de dispersión mostrarán hasta qué punto
es apropiado el borrador de examen para los propósitos con los que se ha redac­
tado. Por ejem plo, será posible ver si la prueba tiene el nivel de dificultad ade­
cuado. Tam bién será posible ver si la prueba es capaz de discrim inar entre
distintos estudiantes. Si una prueba debe distinguir entre m uchos niveles de
estudiantes, una que sea m uy fácil o m uy difícil con una distribución asimétrica
no será adecuada, puesto que demasiadas personas se agruparán a la izquierda
o a la derecha de la distribución. Lo que hace falta en este caso es una disper­

95
Ensayos previos y análisis

sión amplia de notas con sólo unos pocos estudiantes que obtengan una nota
en concreto (véase la figura 4.9 a continuación). Para este tipo de prueba, los
ítems deberían tener unos I.D. altos, puesto que éstos provocarán que las notas
de los alumnos estén dispersas. Sin embargo, si la prueba tiene una nota de corte
única y los resultados son sólo de aprobado/suspenso, la prueba puede necesi­
tar una distribución bimodal, agrupando a los alumnos a un lado o a otro m ien­
tras unos pocos alumnos obtienen la nota de corte m ism a (véase la figura 4.8).
Si una prueba se redacta pensando en seleccionar sólo los alumnos que estén en
lo más alto o en lo más bajo del rango de competencia, los coeficientes de difi­
cultad de los ítems deberían reflejarlo.

6-1

S 5'
1+J
Z 3-j
2<u 2 -
£

~T f ' V I" * t - ' - i |- * t -*~l I i '~ r > T i l 1 T


0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
N o ta

Fig. 4.9

Así, por ejemplo, si una prueba está pensada para seleccionar al 20% de los
estudiantes más flojos para darles clases suplementarias, entonces los ítems debe­
rían tener coeficientes de dificultad altos. Esto llevará a una discriminación más
alta entre los alum nos m ás flojos, com o puede verse en la figura 4.7, en la que
los alumnos de nivel alto se agrupan juntos, y el 10% de los más flojos se agru­
pan en el extremo inferior de la distribución. Para m ás información sobre este
aspecto, véase Crocker y Algina, 1986 y Anastasi, 1988.

4.5. Versiones paralelas y equivalentes


Es frecuentemente necesario producir versiones paralelas o equivalentes de una
prueba. Com o hem os visto, se utilizan versiones paralelas para evaluar la fiabi­
lidad de una prueba y se necesitan versiones equivalentes siempre que una ver­
sión única no pueda resultar segura por una u otra razón.
Aunque los térm inos «p aralelo » y «equivalente» son a m enudo utilizados
indistintamente, los m antendrem os diferenciados. Pruebas paralelas son aquellas
diseñadas para que sean lo m ás similares posible. Deberían, pues, incluir las m is­
mas instrucciones, los m ism os tipos de respuesta, el m ism o número de ítems, y
deberían estar basadas en el m ism o contenido. Deberían también, si se prueban
con los m ism os candidatos, producir las m ismas m edias y desviaciones típicas.
Cada alumno debería obtener notas casi idénticas para cada prueba —las diferen­
cias existentes se deberían a la poca fiabilidad de la prueba—y si hubiera m ás de

96
Hablantes nativos

dos versiones paralelas de la prueba, todas las versiones deberían corresponderse


igualmente (véase Magnusson, 1966, y Crocker y Algina, 1986). Tales pruebas
paralelas son m uy difíciles de elaborar, y además de utilizarse en estudios de fia­
bilidad se usan de forma más corriente en estudios en los que los sujetos de expe­
rimentación realizan pruebas no idénticas sino similares.
Muchos tribunales de exámenes elaboran una o dos nuevas versiones de sus
exámenes cada año. En estos casos, no elaboran versiones paralelas sino que inten­
tan elaborar versiones equivalentes, que se basan en las m ismas especificaciones
pero que pueden variar en cuanto al número de ítems, los tipos de respuesta y
el contenido. Los tribunales tienen a menudo una serie de tipos de pruebas que
pueden utilizar en un examen y no suelen, ni lo pretenden, usarlos todos en cada
examen. Lo importante de las pruebas equivalentes es que midan las mismas destre­
zas lingüísticas y que tengan una correlación alta entre ellas.
Es de suponer, naturalmente, que las versiones equivalentes serán de un nivel
de dificultad sim ilar y tendrán una dispersión de calificaciones parecida, pero
si las m edias y las desviaciones típicas no son idénticas, las calificaciones que
se den a los estudiantes pueden ajustarse para tenerlo en cuenta (véase capítulo
7). Para calibrar las dos versiones de una prueba, las dos pruebas deberían darse
al m ism o grupo de estudiantes. Sin embargo, si es posible tener ítems de anclaje
y usar análisis TRI (véase el apartado 4 .4 .1 ), entonces esto puede no resultar
necesario. Sin em bargo, debe llevarse a cabo algún tipo de com probación en
algún m om ento. No es suficiente confiar en la opinión de los redactores y los
examinadores.

4.6. Hablantes nativos


Un aspecto de los ensayos previos que hasta ahora no hem os discutido es la
cuestión de los ensayos generales con hablantes nativos. Existe una polém ica
sobre si los exám enes de lengua extranjera deberían ensayarse con hablantes
nativos (véase Alderson, 1980; A n goff y Sharon, 1971, y Ham ilton, Lopes,
McNamara y Sheridan, 1993). Los intentos para definir a un «hablante nativo»
también han resultado problemáticos (véase Davies, 1991). Sin embargo, aun­
que som os conscientes de las complejidades del tema, nuestra opinión es que
la actuación de hablantes nativos, seleccionados adecuadamente, es un aspecto
importante de una prueba, sobre el que deberían recogerse datos.
Algunos responsables de examen dicen que puesto que a los examinandos no
se les está com parando con hablantes nativos, tales ensayos son innecesarios.
Esto puede ser razonable si las pruebas son de nivel elemental o interm edio,
aunque incluso en estos casos nosotros defenderíamos que al m enos se utiliza­
ran hablantes nativos para los ensayos informales, puesto que siempre existe el
peligro de que los redactores escriban ítem s que observan las reglas de la len­
gua pero que no reflejan el uso que de la m ism a hace un hablante nativo. Cier­
tamente, no está claro el uso que debería hacerse de los hablantes nativos durante
los ensayos de las pruebas de expresión oral y expresión escrita, puesto que los

97
Ensayos previos y análisis

hablantes nativos también varían entre sí. Sin embargo, para pruebas de correc­
ción objetiva, los ensayos con hablantes nativos son valiosísimos. Puesto que se
supone que m uchos candidatos no tendrán un nivel de lengua tan alto com o el
de hablantes nativos cultos, cualquier ítem que resulte dem asiado difícil para
estos nativos deberá suprimirse.

4.7. Estudio sobre los tribunales de exámenes de inglés


como lengua extranjera: cuestionario
Antes de compilar las respuestas de los tribunales al cuestionario, se estudiaron
los folletos inform ativos para ver si había discrepancias entre éstos y las res­
puestas. La única discrepancia que encontramos afectaba a un tribunal que decía
que no llevaba a cabo ningún tipo de ensayo previo, aunque los materiales que
publicaban demostraban que sí lo hacían. Hemos adaptado nuestro informe para
tener en cuenta este punto. Puede que otros tribunales no hayan dado una im a­
gen exacta de sí m ism os, pero sólo podem os reflejar la información que se nos
ha hecho llegar. Nuestra única divergencia con las respuestas del cuestionario
fue la de seguir la recom endación de un tribunal que nos pidió que m encioná­
ramos una tesis de doctorado com o información sobre las estadísticas utilizadas
durante la fase de ensayos previos.
Puesto que UCLES no sólo completó cuestionarios por separado para la mayor
parte de sus exámenes, sino que también completó cuestionarios para muchas
de las distintas partes de cada examen, es difícil comparar sus respuestas con las
de los otros tribunales de exámenes. En algunos casos, pues, las respuestas de
UCLES se han tratado por separado.

PREGUNTA 21: ¿Llevan a cabo ensayos previos con los ítems o preguntas? En caso afirmativo, ¿cómo
se seleccionan los estudiantes y cuántos responden a cada ítem o pregunta?
De los doce tribunales, seis dijeron que sus ítems se ensayaban y seis dijeron
que no.
De los seis que dijeron que llevaban a cabo ensayos previos, dos se referían a
ensayos informales; uno dijo que ensayaba los ítems con unos pocos alumnos
puesto que «la confidencialidad del material es esencial» y el otro dijo que los
m étodos de evaluación y los ítems difíciles se ensayaban de m anera inform al
«con redactores o exam inadores que en sus propias escuelas utilizan candida­
tos de ñar». La confidencialidad de la prueba es lo más importante». De los otros
cuatro tribunales, uno dijo que sólo ensayaba los ítems durante la fase de desa­
rrollo del examen, y otro sólo ensayaba los ítems de respuesta múltiple.
Los dos centros restantes que dijeron que llevaban a cabo ensayos previos
fueron UCLES y la AEB (Associated Examining Board). Los ensayos previos de UCLES
variaban de acuerdo con cada examen y con cada parte. Todos los componentes
de IELTS, CCSE (Certificates in Communicative Skills in English) y CEIBT se sometían
a ensayos previos. De los otros cinco exám enes, se ensayaban las pruebas

98
Estudio sobre los tribunales de exámenes de inglés...

correspondientes a la comprensión de lectura, la comprensión oral y partes del


uso del inglés, pero sólo se ensayaban dos de las pruebas de expresión escrita,
y ninguna prueba oral. N o todas las respuestas de UCLES incluían cuántos
alumnos se utilizaban para estos ensayos generales, pero la escala de los ensa­
yos parecía variar entre las distintas partes de la prueba. En un caso (CEIBT)
había dem asiados pocos alumnos para llevar a cabo análisis estadísticos, pero
en los casos de las pruebas de com prensión escrita del CAE y del CPE, se pro­
baban los ítem s con 200—400 estudiantes. El CCSE se ensayaba con unos 100
alumnos, pero curiosam ente no se llevaba a cabo ningún análisis estadístico
de los resultados.
El examen de AEB TEEP, como se subrayó anteriormente, es un examen excep­
cional no sólo porque sólo existe una versión, sino también porque actualmente
no lo administra la AEB. Sin embargo, puesto que estaba bajo la autoridad de la
AEB cuando se respondió al cuestionario, se tendrá en consideración aquí. Des­
pués de unos cuantos ensayos informales, se hacía un ensayo general con alre­
dedor de 100 hablantes nativos y 300—400 hablantes no nativos. La muestra de
no nativos intentaba ser lo m ás representativa posible de los estudiantes extran­
jeros en Gran Bretaña, con alumnos que se clasificaban de acuerdo con su len­
gua materna, nivel académico y disciplina académica (véase Weir, 1983).
De los seis tribunales que respondieron que no hacían ensayos previos, uno
dijo que se hacían ensayos iniciales para «establecer niveles» y uno dijo que «las
preguntas y las distintas partes del examen se ensayan durante la fase de desa­
rrollo de la prueba, pero no una vez administrada la prueba por primera vez».
Un centro respondió que el núm ero de estudiantes que habían tenido hasta el
m om ento había sido dem asiado pequeño para hacer ensayos y «facilitar esta­
dísticas fiab les», pero que «c o n la buena acogida que ha tenido el examen,
empezarían a poner en práctica este procedimiento a partir de ahora». El LCCI
dijo que «se proyecta crear un banco con una selección de ítems probados para
uso fu turo». Tres tribunales, haciendo referencia a sus exám enes de inglés
hablado, dijeron que no era apropiado hacer ensayos previos.
Parece desprenderse de las respuestas de los tribunales que hay planes para
llevar a cabo m ás ensayos en el futuro. Sin embargo, el hecho de que cuando se
completó el cuestionario no hubiera tribunales que ensayaran sus ítems de forma
habitual, y que sólo tres llevaran a cabo pruebas de sus ítem s a gran escala, es
motivo de grave preocupación. Hay motivos para sospechar que los estudian­
tes no se examinan con la justicia necesaria.
Parece haber dos razones para que tantos exámenes no se ensayen. Primero,
algunos tribunales creen que los ensayos generales no son necesarios por la
manera exhaustiva que tienen de preparar y seleccionar los ítems, y también a
causa de la experiencia de sus asesores. Segundo, puede resultar difícil ensayar
una prueba confidencial sin revelar información a candidatos futuros.
A partir de nuestros comentarios al comienzo de este capítulo, debe quedar
claro que no suscribim os la primera de las razones aducidas más arriba. Puesto
que hay evidencia de que incluso examinadores experimentados pueden errar

99
Ensayos previos y análisis

a la hora de juzgar el nivel y el efecto de los ítems de un examen, creemos que


es esencial que se ensayen todos los ítems. La segunda razón es m ás poderosa:
cualquiera que haya intentado ensayar un exam en sabe lo difícil que resulta
encontrar candidatos apropiados, incluso cuando no está en peligro la confi­
dencialidad. Sin em bargo, el problem a no es im posible de solucionar, puesto
que hay tribunales que sí llevan a cabo ensayos generales. Discutirem os una
manera de abordar este problem a al final de este capítulo.
Resultó sorprendente que hubiera tantas pruebas de corrección subjetiva que
no se ensayaran. Parece que m uy pocos tribunales ensayan sus pruebas de expre­
sión escrita y casi ninguno ensaya sus exámenes orales. Tres tribunales respon­
dieron que ensayar sus pruebas orales «n o era procedente». Una posible
explicación a esto es que los tribunales hayan m alinterpretado la expresión
«ensayos previos». Una de las respuestas procedentes de UCLES confirma esta
posibilidad diciendo que mientras que la parte correspondiente al uso del inglés
del CAE se ensayaba con 1 0 0 -3 0 0 personas, la prueba de expresión escrita se
ensayaba (el subrayado es suyo) a una escala menor. Puede resultar que al m enos
uno de los tribunales pensó que «ensayos previos» hacía referencia a ensayos a
gran escala de preguntas de corrección objetiva y por lo tanto dijo que no pro­
cedía el ensayar las pruebas orales. De todas maneras, es preocupante el hecho
de que no se lleven a cabo ensayos de ningún tipo, puesto que hay m uchos
aspectos que pueden salir mal en la redacción, administración y corrección sub­
jetiva de pruebas. Si los centros no ensayan sus pruebas de corrección subjetiva
con antelación, intentarán posiblemente compensar los defectos durante la fase
de corrección, pero será demasiado tarde.

PREGUNTA 22: Si realizan ensayos previos, ¿qué estadísticas calculan a partir de los resultados?
Uno de los tribunales que no realizaba ensayos previos a gran escala respon­
dió: «N o se necesitan estadísticas: si cualquiera de los m iem bros del comité de
redacción tiene serias dudas sobre la adecuación de un ítem, éste no se utiliza».
Otro tribunal dijo: «N o se calculan estadísticas oficiales», pero «se usa la infor­
mación obtenida en los ensayos informales para mejorar o rechazar preguntas».
Sólo tres tribunales llevaban a cabo anáfisis estadísticos de los resultados de
los ensayos. U no de estos, la City and Guilds, usa la siguiente inform ación para
cada ítem de respuesta m últiple: el coeficiente de dificultad, el índice de dis­
criminación biserial puntual, el porcentaje de candidatos que escogen cada una
de las opciones, la nota m edia de la prueba de los candidatos que escogen cada
opción y el porcentaje de alumnos que escogen cada alternativa en el tramo del
27% superior e inferior de la muestra (City and Guilds, 1984).
De nuevo, los procedimientos de UCLES eran m uy variados. Este tribunal no
llevaba a cabo anáfisis estadísticos de ninguna de las partes del CCSE ni tampoco
de la mayoría de las pruebas corregidas de forma subjetiva. Además, no calculaba
estadísticas para CEIBT porque no había un número suficiente de alumnos en los
ensayos. Sin embargo, calculaba los coeficientes de dificultad y las correlaciones
biseriales puntuales de todas las pruebas de respuesta múltiple restantes, y para

100
Estudio sobre los tribunales de exámenes de inglés...

los otros tipos de pruebas de corrección objetiva realizaba «estadísticas globales»,


con lo que seguramente quería referirse a m edias, desviaciones típicas y otras
medidas de distribución de resultados. Para IELTS, las estadísticas de los ítems y
de la prueba se hacían utilizando el programa de Microcat ITEMAN al que nos
hemos referido anteriormente en este capítulo. Los ítems también se calibraban
«entre versiones, utilizando ítems de anclaje». Presumiblemente se utilizaba el
análisis según la Teoría de la Respuesta al ítem. Para CEELT (Cambridge Examination
in English for Language Teachers), se calculaban el coeficiente de dificultad y las corre­
laciones biseriales puntuales para cada ítem y las medias, las desviaciones típicas,
la asimetría y la curtosis (el grado de inclinación de una curva de distribución)
para cada parte de la prueba o para la prueba completa.
La AEB calculaba los coeficientes de dificultad y las correlaciones biseriales
puntuales para cada ítem, y las m edias y las desviaciones típicas para todas las
partes del examen (véase Weir, 1983, para más detalle). Todas las estadísticas
se llevaban a cabo con hablantes nativos y no nativos.
Es sorprendente que tres de los tribunales que llevan a cabo análisis previos
no analicen los resultados. Presumiblemente, sólo se utiliza el ensayo para estu­
diar las respuestas de los estudiantes y para com probar la administración del
examen. Si esto es así, se está perdiendo información m uy útil.
La tesis doctoral de Weir (Weir, 1983) mostró que AEB había calculado índi­
ces de fiabilidad en sus exámenes de corrección objetiva, pero ningún otro tri­
bunal m encionó la evaluación de la fiabilidad de sus pruebas de corrección
objetiva durante la fase de ensayos previos. En algunas de las respuestas de
UCLES, sin embargo, puede haberse incluido bajo «estadísticas globales», puesto
que el programa de Microcat ITEMAN da automáticamente el alfa de Cronbach.
Ningún tribunal hizo referencia alguna a la comprobación de la fiabilidad de
las pruebas de corrección subjetiva durante los ensayos previos. En algunas situa­
ciones no es posible calcular la fiabilidad de ítems de corrección subjetiva hasta
que se ha administrado la prueba, pero en exámenes que se administran a gran
escala, debería ser posible hacerlo en la fase de ensayos previos para poder m odi­
ficar las tareas y los criterios de corrección antes de administrar la prueba final.
La fiabilidad de las pruebas de corrección subjetiva se discutirá más a fondo en
el capítulo 6.

PREGUNTA 23: ¿Qué ocurre si los ítems o preguntas que se ensayan no son satisfactorios?
Los seis tribunales que ensayaban sus ítems dijeron que si los ítems no eran
satisfactorios, se reformulaban o se descartaban. Tres de las respuestas de UCLES
dijeron que todos los ítem s revisados se volvían a someter a un ciclo de ensa­
yos previos.
Cada vez que se vuelve a redactar un ítem debería probarse de nuevo, puesto
que no hay ninguna garantía de que un ítem m odificado sea m ejor que su pre­
decesor. Sin embargo, en m uchos tribunales, puede resultar im posible volver a
ensayar los ítems. En estos casos debería analizarse el ítem una vez se ha admi­
nistrado la prueba final para poder suprimir los m alos ítems del cómputo final.

101
Ensayos previos y análisis

PREGUNTA 2 4 : ¿Qué pasos se dan, además de los mencionados anteriormente, para controlar la cali­
dad de los redactores de ítems o pruebas?
Dentro de las respuestas de UCLES, las correspondientes a las pruebas orales
del PET, FCE, CAE y CPE dijeron que se recogían comentarios de los examina­
dores, de los candidatos y de los distintos tribunales. Los redactores de las par­
tes de corrección objetiva se reunían en sesiones de selección y estaban
supervisados por el presidente del comité y por el responsable de la prueba. Una
respuesta m encionó un curso de formación de redactores, pero no estaba claro
si éste tenía lugar antes o después de realizarse los ensayos previos.
Del resto de tribunales de exám enes, cinco no contestaron a la pregunta o
dijeron que no era procedente en su caso. Tres dijeron que los borradores de
las pruebas se analizaban y los com entarios resultantes se hacían llegar a los
redactores antes de la prueba, y los tres tribunales restantes dijeron que los
correctores hacían com entarios después de la administración de un exam en y
que el trabajo de los redactores de analizaba entonces. Uno dijo que «el análi­
sis revelaba calidad» y que los redactores no competentes «n o continuaban».

4.8. Estudio sobre los tribunales de examen de inglés


como lengua extranjera (EFL): documentación
Los docum entos aportados por los tribunales no contenían casi ninguna infor­
m ación sobre ensayos previos, por lo que no podem os ampliar las respuestas
citadas m ás arriba. Sin em bargo, UCLES nos m andó una nota en la que seña­
laba que se acababa de crear una unidad de ensayos previos en la División de
Inglés com o Lengua Extranjera y que estaban en un proceso de ampliación de
ensayos previos y de creación de un banco de ítem s electrónico. No se aña­
día m ás detalle.

4.9. Debate
La principal preocupación que se desprende de los resultados anteriores es, sin
duda, la no realización de ensayos previos por parte de m uchos tribunales. Es
una pena que el análisis exhaustivo y el proceso de selección de las pruebas que
llevan a cabo la mayoría de los tribunales no vaya seguido de comprobaciones
empíricas.
La diñcultad de encontrar alumnos adecuados es en realidad importante y los
centros que no llevan a cabo ensayos previos deberían averiguar cómo pueden
hacerlos los demás.
Una forma de solucionar el problema de encontrar muestras representativas,
y al m ism o tiempo garantizar que se mantiene la confidencialidad de los mate­
riales, es dar los ítems piloto a los candidatos mientras realizan exámenes rea­
les. Si estos ítem s añadidos se incluyen en el exam en sin que lo sepan los
candidatos, tendremos no sólo candidatos del nivel y conocimientos generales
apropiados sino que también conseguiremos que se tomen los ítems con la serie­

102
Sumario

dad que a m enudo falta en los ensayos. Los resultados de estas partes piloto del
examen no se tendrán en cuenta en la calificación final que se entregará a los
candidatos, pero una vez se hayan analizado los ítems, se podrán almacenar los
que hayan resultado satisfactorios en un banco de ítems para exámenes futuros.
Un inconveniente de este método de ensayo previo es que la inclusión de mate­
rial piloto puede hacer el exam en dem asiado largo o exigente. Sin embargo,
parece ser la forma más sencilla de realizar un ensayo y de obtener los resulta­
dos más válidos. Si los examinadores están preocupados por dar a los candida­
tos ítems no probados que pueden resultar poco claros y por lo tanto provocar
ansiedad, siempre pueden informar a los candidatos de que algunos ítems son
de muestra y no se puntuarán. Sin embargo, esto podría causar problemas. Los
candidatos podrían prestar menos atención a los ítems que creen que son piloto,
lo que provocaría actuaciones poco representativas. Además, podría haber un
problem a de confidencialidad, puesto que si los candidatos creen haber identi­
ficado con éxito los ítems piloto, pueden memorizarlos para pasar la informa­
ción a futuros candidatos.

4.10. Sumario
ENSAYOS PREVIOS: PROCEDIMIENTOS
Pruebas piloto (con un pequeño grupo de candidatos que incluya hablantes nati­
vos del idiom a que se vaya a exam inar).
Com probar la administración de la prueba, el tiempo, las instrucciones, el
contenido, la clave de respuestas, etc.
Ensayos generales (con tantos alumnos como sea posible, incluyendo hablantes nati­
vos en exámenes de nivel avanzado).
Comprobar la administración de la prueba, las instrucciones, el contenido, la
clave de respuestas, etc.
Pruebas de corrección objetiva
Análisis de ítems: índice de discriminación y coeficiente de dificultad
Examen completo: fiabilidad, por ejemplo KR20 o KR21.
Pruebas de corrección subjetiva
Corregir una muestra de redacciones o de entrevistas para comprobar cómo
funcionan las tareas, los criterios, etc.
Fiabilidad:
Com probar la consistencia externa e intem a de los correctores
(ver capítulo 6).
Para todas las pruebas, calcular las estadísticas de distribución
H isto g ra m a
Media, m oda, mediana, rango, desviación típica.

Después de los ensayos previos, hay que cambiar los procedimientos de admi­
nistración, el tiempo, etc.; se modificarán los ítems y, si es posible, se volverán
a ensayar una vez modificados.

103
Ensayos previos y análisis

Bibliografía
Alderson, J. C. (1980). «Native and Non-native Speaker Performance on Cloze Test.»
Language Learning, 13 (1), págs. 59—76.
Alderson, J. C. (1993). «Judgements in Language Testing.» En D. Douglas, y C.
Chapelle, A New Decade of Language Testing. TESOL, Alexandria, Virginia.
Anastasi, A. (1988). Psychological Testing. Macmillan, Londres.
Angoff, W. y A. J. Sharon (1971). «A comparison o f scores earned on the Test of
English as a Foreign Language by native American college students and foreign
applicants.» TESOL Quarterly, 5, pig. 129.
Bachman, L. F. (1990). Fundamental Considerations in Language Testing. Oxford University
Press, Oxford.
Buck, G. (1991). Expert estimates of test item characteristics. Contribución presentada en el
Language Testing Research Colloquium, Princeton, NJ.
Crocker, L. y J. Algina (1986). Introduction to Classical and Modem Test Theory. Flolt Rinehart
Winston, Chicago.
Davies, A. (1991). The Native Speaker in Applied Linguistics. Edinburgh University Press,
Edimburgo.
Guilford, J. P. y B. Fruchter (1978). Fundamental Statistics in Psychology and Education.
McGraw-Hill, Tokio.
Hambleton, R. K., H. Swaminathan y H. J. Rogers (1991). Fundamentals of Item Response
Theory. Sage Publications, Newbury Park, Calif.
Hamilton, J., M. Lopes, T. McNamara y E. Sheridan (1993). «Rating Scales and
Native Speaker Performance on a Communicatively Oriented EAP Test.» Melbourne
Papers in Language Testing, 2, págs. 1—24.
Henning, G. (1987). A Guide to Language Testing. Newbury House, Cambridge, Mass.
Hudson, T. y B. Lynch. (1984). «A Criterion Referenced Measurement Approach to
ESL Achievement Testing.» Language Testing, 1, pigs. 171—202.
Lord, F. M. (1980). Applications of Item Response Theory to Practical Testing Problems. Lawrence
Erlbaum, Hillsdale, NJ.
Magnusson, D. (1966). Test Theory. Addison Wesley, Reading, Mass.
Weir, C. J. (1983). «Identifying the Language Problems of Overseas Students in
Tertiary Education in the United Kingdom.» Tesis doctoral. Universidad de Londres.
Wright, B. D. y M. H. Stone (1979). Best Test Design: Rasch Measurement. Mesa Press,
Chicago.
Wright, B. D. y G. N. Masters (1982). Rating Scale Analysis: Rasch Measurement. Mesa Press,
Chicago.

104
5 La formación de examinadores y administradores

En este capítulo se tratará el tipo de formación que necesitan los examinadores


y los administradores de las pruebas. Los examinadores deben familiarizarse con
los sistemas de puntuación (sistem as o escalas)* que se espera que utilicen, y
deben aprender cómo aplicarlos de forma consistente. También deben saber qué
hacer en circunstancias imprevistas o con respuestas para las que no han sido
preparados. Incluso los examinadores experimentados necesitan puestas al día
y formación constante y sistemática, y por este motivo describiremos con deta­
lle la naturaleza de la formación necesaria, especialmente para quienes evalúan
las actuaciones lingüísticas de los alumnos en cuanto a su expresión escrita y su
expresión oral. Este capítulo debería leerse junto con el capítulo 6 para tener
una visión completa de cóm o garantizar la fiabilidad de la puntuación.

5.1. ¿Qué es un examinador?

El término examinador indica la persona responsable de juzgar la actuación lingüís­


tica de un candidato en una prueba o examen. Utilizaremos este término para
referirnos a todos los que tienen esta responsabilidad, sin distinguir entre los
que puntúan partes del examen objetivas o subjetivas, ni entre los que han estado
im plicados en la elaboración o en la administración del examen. Distinguimos
entre exam inador e interlocutor en la evaluación de la expresión oral: el primer
térm ino se refiere a la persona que evalúa a los candidatos, mientras que el
segundo se refiere a la persona que interactúa con el candidato mientras el exa­
m inador evalúa la actuación lingüística del candidato.

5.2. La importancia de la formación de los examinadores


La formación de los examinadores es un componente crucial en cualquier pro­
gram a de evaluación, puesto que si la puntuación de una prueba no es válida

* N del T. A lo largo de este capítulo y en capítulos posteriores se hará mención de las


plantillas de corrección (marking schemes) y de las escalas de valoración (rating scales). Se ha
intentado reflejar la diferencia entre ambos en el original, pero es justo mencionar aquí
que el término que se viene utilizando tradicionalmente en español para ambos es el de
criterios de evaluación. También queremos hacer notar que en inglés los términos marking
y rating denotan los conceptos de corrección y puntuación pero que, al igual que marker y
rater, se utilizan indistintamente en este libro.

105
La formación de examinadores y administradores

y fiable, todo el trabajo llevado a cabo para obtener un instrum ento de «c ali­
d ad » habrá sido una pérdida de tiem po. Aunque las especificaciones reflejen
las finalidades de la institución o aunque se haya cuidado m ucho la elabora­
ción y los ensayos previos, todos los esfuerzos serán vanos si los usuarios de
la prueba no pueden confiar en los resultados que los exam inadores dan a los
candidatos.
La m edición, según Mathews, 1985: 90, «incluye un instrum ento de eva­
luación estándar y un operador que puede aplicarlo de form a consistente». Y
continúa con la afirmación de que hay al menos tres fuentes de inexactitud que
pueden amenazar la solvencia de cualquier prueba:
1. dudas sobre la naturaleza de los atributos de los alumnos que van a exa­
minarse y de las unidades de m edida que se les adjudicarán;

2. dudas sobre hasta qué punto las preguntas y las respuestas tienen real­
mente una relación con estos atributos, aunque en este caso se haya iden­
tificado su naturaleza;
3. inexactitudes en los sistemas de puntuación y variedad de interpretación
y aplicación de éstos por parte de los correctores.
Los dos prim eros puntos se han discutido en los capítulos 2 (Especificacio­
nes de exam en) y 3 (La redacción de ítem s y la función m oderadora). El ter­
cero aparece sólo durante la fase de form ación de los exam inadores. En las
páginas que siguen a continuación discutiremos los pasos que pueden darse para
disminuir tanto la inexactitud del sistema de puntuación com o la variedad que
puede darse entre examinadores que empiezan a interpretar y aplicar sus siste­
m as de puntuación.

5.3. ¿Qué supone la formación de examinadores?


5.3.1. Tipos de puntuación
Existen básicamente dos tipos de puntuación: objetiva y subjetiva, tal com o se ha
presentado en los capítulos 3 y 4.
Estos dos tipos se describirán en profundidad m ás adelante, lo que servirá de
contexto a la discusión sobre la form ación de los examinadores.

PUNTUACIÓN OBJETIVA
La puntuación objetiva se utiliza para los ítems de respuesta múltiple y de ver­
dadero/falso, para los ítems que requieren la identificación de un error y para
otro tipo de ítem s en los que el candidato debe producir una respuesta que
puede puntuarse como «correcta» o «incorrecta». En la puntuación objetiva, el
exam inador com para la respuesta del candidato con la respuesta o la gam a de
respuestas que el redactor ha determinado com o correctas. El conjunto de res­
puestas aceptables puede llamarse «clave» (key) o «plantilla de corrección» (mark
scheme), según la necesidad que tengan los examinadores de ejercitar su albedrío

106
¿Qué supone k formación de examinadores?

a la hora de puntuar (Mathews, 1985: 90 y 101). El térm ino «clav e» se usa


generalmente cuando hay una única respuesta correcta para cada ítem (como
se supone que ocurre en los tipos de ítem mencionados anteriormente). La pun­
tuación de pruebas que tienen clave es mecánica y puede llevarla a cabo perso­
nal adm inistrativo o una m áquina. La expresión «plantilla de corrección» se
utihza cuando hay m ás de una respuesta posible a un ítem (com o puede ocu­
rrir en una transform ación gramatical, por ejem plo, o en las pruebas de tipo
cloze) o cuando los candidatos pueden utilizar sus propias palabras para expre­
sar una idea en concreto (com o es el caso de las respuestas breves en algunas
pruebas de comprensión lectora).
Tal como dijim os en el capítulo 4, el principal problem a que se presenta en
algunos tipos de puntuación objetiva (excluyendo las pruebas de respuesta múl­
tiple) , es que los redactores no pueden prever todas las respuestas correctas que
pueden llegar a dar los candidatos. Durante la fase de los ensayos previos es útil
tomar nota de qué respuestas entre las no previstas son aceptables y qué res­
puestas no lo son; sin embargo, es posible que cuando se administre la prueba
ñnal todavía aparezcan más respuestas que nadie haya previsto. El programa de
formación para los examinadores de las secciones de puntuación objetiva debe­
ría dar a estos exam inadores tiem po para analizar todos los ítem s cuidadosa­
mente, anotar sus respuestas com o si fueran candidatos y corregir un gran
número de exámenes administrados durante la fase de ensayos previos para ver
si hay respuestas que debieran incluirse en el sistema de puntuación. La finali­
dad de la formación es completar el esquem a de puntuación de form a que los
examinadores, que a m enudo corrigen individualmente y desde sus casas, no
tengan dudas sobre las respuestas que deben considerarse correctas o incorrec­
tas. Además, los exam inadores tienen que saber qué hacer cuando se encuen­
tran con im previstos para garantizar que no actúen de form a arbitraria y que
cada uno tome diferentes decisiones.

PUNTUACIÓN SUBJETIVA
La puntuación subjetiva se utiliza habitualmente para puntuar pruebas de expre­
sión escrita o de expresión oral. Los examinadores deben emitir juicios de valor
que son m ás com plicados que las decisiones «correcto/incorrecto» a las que
nos referim os anteriormente: deben evaluar lo bien que un candidato lleva a
cabo una tarea determ inada y para esto necesitan tina «escala de valoración»
(rating scale). Esta escala puede consistir en núm eros, en letras u otras etiquetas
(por ejem plo: «Excelente» o «M uy bu en o ») que pueden ir acom pañadas de
afirmaciones sobre el tipo de actuación lingüística al que se refiere cada punto
de la escala. Estas afirmaciones se llaman «descriptores».
Hay básicam ente dos tipos de escalas. Los exam inadores pueden tener que
juzgar la actuación lingüística del candidato en su totalidad, en cuyo caso utili­
zarán una «escala holística» o global (holisticscale). Un ejemplo de una escala de
este tipo se presenta en la figura 5.1.

107
La formación de examinadores y administradores

F ig . S. 1. M uestra de una escala holística


18-20 Excelente Inglés natural con errores m ínim os y realización
completa de la tarea encomendada.
16-17 Muy bien Más que un conjunto de frases simples, con buen
vocabulario y estructuras. Algunos errores básicos.
12-15 Bien Realización sim ple aunque precisa de la tarea
encomendada, con algunos errores serios.
8-11 Suficiente Razonablemente correcta aunque torpe y no
comunicativa O tratamiento natural y justo del
tema, con algunos errores.
5 -7 Flojo Vocabulario y gramática no adecuados al tema.
0^1 Muy Flojo Incoherente. Los errores muestran la ausencia de
conocim ientos básicos de inglés.

D e: UCLES International Examinations in English as a Foreign Language General Handbook,


1987.

Cuando los examinadores utilizan este tipo de escala, se les pide que no ten­
gan m uy en cuenta ningún aspecto en concreto de la producción del candidato,
sino que emitan un juicio sobre su eficacia en general. Este tipo de escala es a
m enudo tam bién denom inada «escala de im presión general» (impression scale),
especialm ente cuando se pide a los exam inadores que em itan sus juicios de
forma rápida.
Otros exam inadores pueden tener que juzgar varios com ponentes de una
actuación lingüística por separado (por ejemplo, la caligrafía, la organización
de los párrafos, la gramática, la selección de vocabulario). Este tipo de puntua­
ción requiere una «escala analítica» (analytic scale), en la que hay descriptores
para cada com ponente (véase figura 5.2 ). En la puntuación analítica el candi­
dato puede obtener una nota más alta en un componente de la actuación lingüís­
tica que en otro; la institución debe decidir después si se combinan las distintas
puntuaciones y cómo se combinarán para obtener una calificación final. (Véase
la discusión sobre «ponderación» en el capítulo 7.)
Estas escalas (figuras 5.1 y 5.2) son sólo dos de las muchas disponibles en la
evaluación del inglés como lengua extranjera. El número de puntos de la escala y
el núm ero de com ponentes a analizar variará según el tipo y la exigencia de la
tarea escrita u oral. El reto para los examinadores es el de comprender los princi­
pios que subyacen en las escalas de puntuación con las que deben trabajar y el de
interpretar los descriptores de forma coherente. Este es el principal objetivo de los
programas de formación para los examinadores de la expresión escrita y uno de
los dos principales objetivos para los examinadores de la expresión oral. En los
próximos apartados discutiremos, primero, una serie general de pasos que han de
seguir para formar a los examinadores de la expresión escrita y después explica­

108
¿Qué supone la formación de examinadores?

remos cóm o pueden modificarse estos pasos para los examinadores de la expre­
sión oral. Se discutirá entonces una segunda dim ensión en la formación de los
examinadores de la expresión oral: la necesidad de desarrollar destrezas específi­
cas si deben interaccionar con los candidatos al m ism o tiempo que los evalúan.

Fie. 5.2. M uestra de una escala analítica

Relevancia v adecuación del contenido


0. La respuesta no tiene prácticamente ninguna relación con la tarea enco­
mendada. Respuesta totalmente inadecuada.
1. Respuesta de relevancia limitada respecto a la tarea. Existen posiblemente
lagunas importantes en el tratamiento del tema y /o repetición inútil.
2. Responde en gran parte a la tarea, aunque puede haber algunas lagunas o
información redundante.
3. Respuesta relevante y adecuada a la tarea.

Organización del texto


0. N o hay una organización clara del contenido.
1. Muy poca organización del contenido. Las estructuras subyacentes no son
lo suficientemente claras.
2. Hay indicios de algunas destrezas organizativas, pero no se controlan de
form a adecuada.
3. La forma general y la estructura interna están claras. Las destrezas organi­
zativas se controlan de forma adecuada.

Cohesión
0. La cohesión está casi totalmente ausente. El escrito es tan fragmentario que
la com prensión de la comunicación prevista es prácticamente imposible.
1. La cohesión poco satisfactoria puede causar dificultades en la com pren­
sión de la m ayor parte de la comunicación prevista.
2. Cohesión satisfactoria en su mayor parte aunque existen deficiencias oca­
sionales que pueden provocar que ciertas partes de la com unicación no
sean siem pre eficaces.
3. Uso satisfactorio de la cohesión que comporta una comunicación eficaz.

Adecuación del vocabulario con respecto al objetivo


0. El vocabulario es inadecuado, incluso en los aspectos básicos de la com u­
nicación prevista.
1. Uso inadecuado y frecuente del vocabulario respecto a la tarea. Quizá uso
inapropiado y frecuente del léxico y / o las repeticiones.
2. Algún uso inadecuado del vocabulario en relación con la tarea. Quizá uso
inapropiado del léxico y /o los circunloquios.
3. Casi no existe un uso inadecuado del vocabulario para la tarea. Puede haber
un uso poco apropiado de algunos elementos y /o circunloquios.

109
La formación de examinadores y administradores

Gramática
0. Casi todas las estructuras gramaticales son incorrectas.
1. Frecuentes incorrecciones gramaticales.
2. Algunas incorrecciones gramaticales.
3. Casi no se encuentran incorrecciones gramaticales.

Precisión mecánica I (puntuación!


0. Ignorancia de las convenciones de la puntuación.
1. Poca precisión en la puntuación.
2. Algunas incorrecciones en la puntuación.
3. Casi no se encuentran incorrecciones en la puntuación.

Precisión mecánica II (ortografía!


0. Casi toda la ortografía es incorrecta.
1. Poca corrección en la ortografía.
2. Algunas incorrecciones en la ortografía.
3. Casi no se encuentran incorrecciones en la ortografía.

Procedencia:Test of Enalish for Educational Purposes, Associated Examinins Board.


UK, 1984.

5.3.2. La formación de los examinadores de la expresión escrita


El proceso que se describe a continuación es el adecuado para una prueba que
tiene un gran núm ero de exam inadores y en la que, por razones prácticas, no
todos los exam inadores pueden tener el m ism o peso a la hora de tom ar deci­
siones respecto al sistema de puntuación. La descripción siguiente asum e que
hay un «exam inador jefe», que sólo o con un pequeño grupo de colaborado­
res, determina los criterios para la puntuación y los pasa a los exam inadores,
que pueden corregir de forma centralizada o en su propio domicilio. Si una ins­
titución sólo cuenta con un pequeño grupo de personas para puntuar todos los
escritos producidos por su población, y si estas personas corrigen en el m ism o
lugar al m ism o tiempo, pueden cambiarse ciertos pasos del proceso siguiente
para perm itir m odificaciones propuestas por parte de todos los examinadores.
Sin em bargo, el proceso descrito debería seguirse, en el m ejor de los casos, en
todos los program as de evaluación, aunque sean a pequeña escala.

LA REDACCIÓN DE LA ESCALA DE VALORACIÓN


El redactor de una tarea de expresión escrita debería tam bién ser el respon ­
sable de la redacción de la escala que se utilizará para puntuar el ejercicio
escrito (véase capítulo 3 ). R ecom endaríam os no usar nunca una escala que
contenga sólo núm eros o en que los descriptores sean sim plem ente afirm a­
ciones breves com o «E x celen te», «M u y b ie n », etc., puesto que estas afir­
m acion es pueden interpretarse de distintas m aneras por parte de distin tos

110
¿Qué supone la formación de examinadores?

exam in adores. R ecom en daríam os escalas con siete puntos com o m áxim o,
puesto que es difícil hacer distinciones m ás sutiles, y tam bién recom endarí­
am os que se acom pañaran la m ayoría de los puntos de la escala de descrip­
tores explícitos. Puede ser im portante tener diferentes escalas para distintas
tareas: una escala de nivelación es raramente apropiada para la evaluación de
todas las actuaciones lingüísticas, escritas u orales. Tanto las tareas com o las
escalas deberían probarse durante la fase de ensayos previos al desarrollo del
exam en (véase el capítulo 4 ).

LA FIJACIÓN DE LOS CRITERIOS


Una vez adm inistrada la prueba, el exam inador jefe (EJ) debería leer rápida­
m ente tantos ejercicios escritos com o sea posible para fam iliarizarse con el
tipo de ejercicio que han producido los candidatos y con los problem as que
han m ostrado a la hora de completar la tarea. Teniendo en cuenta la escala de
valoración (aunque no siguiéndola de form a rígida en este punto), el EJ debe­
ría seleccionar los ejercicios escritos que representen actuaciones «adecuadas»
e «in adecuadas», así com o ejercicios que presenten problem as con los que a
m enudo se encuentran los examinadores pero que raramente puedan preverse
en una escala de valoración: m ala caligrafía, respuestas dem asiado largas o
dem asiado cortas que indican que el candidato no entendió la tarea, etc. N os
referirem os a estos ejercicios escritos como ejercicios «consensuados» y escri­
tos «problem áticos» respectivamente. El núm ero de ejercicios que seleccione
un EJ dependerá de varios factores (tiempo, facilidades para hacer copias, etc.)
pero sería útil seleccionar al m enos 20: quizá 15 ejercicios consensuados que
representen diversos niveles de actuación lingüística (aunque en su m ayor
parte de una gam a m edia) y 5 que presenten distintos problem as com o los
m encionados antes.
El siguiente paso es probar la escala con estos ejercicios y determinar y dejar
constancia por escrito de los criterios. Aunque algunas instituciones esperan
que el EJ haga esta tarea solo, recomendamos que el EJ trabaje con un pequeño
núm ero de colaboradores, constituyendo una com isión de unificación de cri­
terios. Todos los m iem bros de esta comisión deberían tener copias de los ejer­
cicios escritos seleccionados p or el EJ, ordenados de form a aleatoria, y cada
m iem bro debería puntuar todos los ejercicios antes de que la co m isión se
reúna para determ inar los criterios. Durante la reunión, los m iem bros debe­
rían comparar sus puntuaciones y discutir cualquier diferencia de opinión que
surja. El objetivo es el de alcanzar una «puntuación de con sen so» para cada
uno de los ejercicios escritos y de esta form a definir la escala de valoración
para que sea m ás fácil de com prender y de utilizar. Cuando se haya con se­
guido un acuerdo, deberían anotarse los m otivos de cada una de estas deci­
siones. El EJ debería entonces dividir los ejercicios escritos, tanto los de
consenso com o los problem áticos, en dos grupos: el prim er grupo debería
usarse durante el estadio inicial de la form ación de los exam inadores y el
segundo durante el segundo estadio.

111
La formación de examinadores y administradores

LA SESIÓN DE UNIFICACIÓN DE CRITERIOS


El EJ debería ser el coordinador de la sesión de unificación de criterios, que
incluye a todos los exam inadores directam ente o, en el caso de pruebas con
muchos candidatos, a los jefes de equipo que después deberán formar a sus pro­
pios examinadores. Es imprescindible que el coordinador de esta reunión sea el
EJ o el jefe de equipo, que esté fam iliarizado a fondo con la escala de valora­
ción, con todos los ejercicios escritos que se usarán durante la formación y con
las razones aducidas por la com isión para otorgar sus puntuaciones.
Debe elegirse un día completo para la sesión de unificación de criterios. Aun­
que resulte caro, es la forma más segura de garantizar que haya suficiente debate
para comprender a fondo la escala y el proceso de puntuación. (En situaciones
en que existan pocos correctores, un día completo puede no ser necesario, pero
esto lo dirá la experiencia.)
La sesión de unificación de criterios debería convocarse justo antes de que
empiece el período oficial de calificación. Tanto los examinadores experimen­
tados como los nuevos deberían asistir a tal reunión, aunque no necesariamente
deba ser la misma. Nuestra experiencia demuestra que los examinadores exper­
tos que se han apoltronado en su tarea son los responsables de la ausencia de
fiabilidad de un program a de puntuación.
Antes de asistir a la reunión, los examinadores habrán recibido todos el mismo
grupo de ejercicios escritos consensuados (la m itad de los que ha analizado la
comisión) y una escala de valoración. Deberían haber probado la escala con los
ejercicios antes de la reunión y deberían explicar sus puntuaciones a sus cole­
gas. El primer estadio de la sesión de unificación de criterios se dedicará a la dis­
cusión de estos ejercicios consensuados para averiguar si todos los examinadores
están de acuerdo con las puntuaciones que han dado y para analizar los proble­
mas si no están de acuerdo. Si las desavenencias surgen de conceptos poco cla­
ros o de la redacción de la escala, ésta debería corregirse. La finalidad de este
estadio es ayudar a todos los examinadores a emular las puntuaciones de la comi­
sión original, pero no se les deberían dar los motivos de la comisión hasta que
no se haya seguido el proceso individual de puntuación y se hayan discutido
sus resultados con sus compañeros. El objetivo de este procedim iento es el de
evitar que a los examinadores les influya la opinión de la comisión antes de que
hayan podido probar la escala y juzgar por sí m ism os. Después de haber anali­
zado los ejercicios consensuados, se deberían presentar los ejercicios proble­
máticos junto con las directrices de lo que se debe hacer en estos casos.
El segundo estadio del proceso de formación ofrece m ás práctica. Los ejercicios
escritos que utilicen los examinadores a m odo de práctica serán el segundo grupo
de ejercicios puntuados por la comisión. En este grupo habrá ejercicios de consenso
y ejercicios problemáticos y se habrán fotocopiado para que cada examinador tenga
una copia de cada uno. De nuevo se trata de que se alcance un acuerdo sobre la
puntuación de cada ejercido y que este acuerdo coindda con la decisión de la comi­
sión. Este estadio debería ocupar menos tiempo que el estadio inicial, puesto que
muchos de los problemas típicos que surjan ya pueden haberse resuelto.

112
¿Qué supone la formación de examinadores?

Es importante que el EJ (o el jefe de equipo) preste atención a cómo puntúa


cada examinador durante los dos estadios de la formación. Si algún examinador
encuentra dificultades para comprender las escalas de valoración o para emitir
opiniones parecidas a las del comité, el EJ debería pedir al examinador que no
puntúe esta parte de la prueba. (Esto, naturalmente, se refiere tanto a los pro­
gramas de evaluación m odestos como a los más importantes.)
Parte de esta reunión deberá dedicarse a explicar el procedim iento de pun­
tuación y a la anotación de resultados. Esto será distinto según la puntuación se
haga de form a centralizada o no. Es especialmente importante que los exam i­
nadores conozcan el procedimiento que se seguirá para comprobar la fiabilidad
de su puntuación. Este se explica en el capítulo 6.
Inmediatamente después de esta reunión, el EJ debería modificar la escala para
incorporar los cam bios adecuados y debería mandar copias de la nueva escala a
todos los examinadores, que podrán iniciar la fase de puntuación. Hay que tener
en cuenta que no se harán m ás cambios en la escala. Es m uy importante que los
jefes de equipo comprendan que cualquier alteración a partir de este momento
podría quizá provocar que la variación en la puntuación fuera inaceptable.
Cuando empiece el período de puntuación, cada examinador habrá seguido
un program a completo de formación, tendrá una muestra de ejercicios escritos
como punto de referencia y tendrá una copia de la escala de nivelación.
Hay que recordar que los examinadores deberían seguir este proceso de for­
m ación a intervalos regulares, no sólo cuando se administren las pruebas por
primera vez. Resulta también crucial que los examinadores «experim entados»
o «form ad o s» se sometan a este tipo de formación regularmente, y no sólo los
exam inadores nuevos. Es m uy fácil que los exam inadores desarrollen formas
propias e individuales de examinar que la formación debe intentar modificar.

5.3.3. La formación de los examinadores de la expresión oral


La form ación de los examinadores de la expresión oral sigue el m ism o patrón
que la formación de los examinadores de la expresión escrita, con tres diferen­
cias principales. La primera diferencia es que en la mayoría de las instituciones,
en las que los exam inadores puntúan durante la prueba y no después, la for­
m ación debe tener lugar antes de la administración de la prueba.
La segunda diferencia es que las instituciones deben utilizar grabaciones de
las actuaciones de los estudiantes en lugar de ejercicios escritos, tanto cuando
la com isión está determinando los criterios como durante la sesión de unifica­
ción de criterios. A m enudo se utilizan grabaciones de sonido para este propó­
sito, pero es cada vez más común el uso de grabaciones de vídeo a no ser que
la prueba esté diseñada para ser administrada en un laboratorio de idiomas. El
proceso de grabación y montaje de la cinta, en cualquiera de los dos casos, es
largo y complicado. Lo deseable es grabar tantas actuaciones como sea posible
para que el exam inador jefe tenga la m ayor gam a posible para escoger m ues­
tras de actuaciones de cada nivel. Después de haber seleccionado las muestras

113
La formación de examinadores y administradores

de actuaciones, es m ejor reunirlas en una m ism a cinta para que los coordina­
dores de las sesiones de unificación de criterios puedan encontrar con rapidez
las actuaciones que necesitan. Las anotaciones de la com isión sobre la puntua­
ción acordada para cada actuación deberían ir acompañadas del número corres­
pondiente en el contador. Todas las grabaciones deberían ser de alta calidad para
que los exam inadores no tengan problem as con la visibilidad o la audición de
los candidatos. Este punto puede recomendar la grabación en un estudio en lugar
de en un aula.
Probablemente será imposible que los examinadores puedan escuchar las cin­
tas antes de la sesión de unificación de criterios, por lo que debe preverse el sufi­
ciente tiempo para escuchar cada actuación y volver a escuchar algunas partes de
la m ayoría de actuaciones. Los coordinadores deben ser realistas a la hora de
determinar la cantidad de muestras de actuaciones que pueden analizarse en una
reunión: probablemente menos de la m itad de los ejercicios escritos que anali­
zan los examinadores de la expresión escrita en el m ism o período de tiempo. El
proceso seguido en la reunión debería ser básicamente el m ism o que el seguido
en las reuniones de los exam inadores de la expresión escrita: escucha y visio-
nado, puntuación independiente, discusión de notas, m odificación de la escala
de valoración si hace falta y aceptación de puntuaciones consensuadas.
Algunas instituciones también invitan a alumnos voluntarios a «exam inarse»
durante la sesión de unificación de criterios. De esta forma, los examinadores
tienen la oportunidad de probar sus destrezas (entre las cuales se halla la capa­
cidad de interactuar con los candidatos —véase más adelante) en una situación
real. El problem a de usar actuaciones en directo es que no resulta posible vol­
verlas a ver, cosa a m enudo deseable cuando se han dado diferentes puntuacio­
nes, a no ser que, naturalmente, también se graben estas actuaciones.
La tercera diferencia entre la formación de los examinadores de la expresión
escrita y los exam inadores de la expresión oral es que en muchas pruebas los
examinadores de la expresión oral están presentes en el aula y deben interactuar
con el candidato durante la prueba. En algunas pruebas otra persona (a menudo
un profesor) puede tomar el rol de «interlocutor», ocupándose de conversar
con el candidato mientras el examinador está libre para evaluar, pero es mucho
más corriente encontrar al exam inador solo dando instrucciones, haciendo las
preguntas, respondiendo a las contribuciones del candidato e intentando eva­
luar la actuación ¡al m ism o tiempo!
En este caso, se debería tener una sesión de formación por separado para per­
mitir a los exam inadores realizar con éxito la evaluación, sesión en la que sus
compañeros actúan como candidatos o, si es posible, se trabaja con candidatos
voluntarios. Los examinadores deberían recibir instrucciones sobre dónde sen­
tarse con relación a los candidatos, qué tipo de preguntas hacer para conseguir
que el candidato dé lo m ejor de sí, cómo conseguir manejar los papeles que ten­
drán en las manos (no sólo sus propias instrucciones, la escala y la hoja de pun­
tuación, sino también todo el material que el candidato necesitará), cómo anotar
sus puntuaciones de form a discreta, cóm o acoger al candidato y cóm o dar por

114
La importancia de la formación de los administradores

finalizada la prueba, etc. En algunas pruebas esta formación puede ocupar medio
día, que debe añadirse al día reservado para la unificación de criterios. Esto es
esencial para garantizar una administración y puntuación fiables.
Los exam inadores e interlocutores deben estar familiarizados con las tareas
que administrarán, los papeles que deben desempeñar, las tarjetas de roles que
deben utilizar o las preguntas que deben hacer (véase también el apartado 5.4.1,
más adelante). Para aquellos que no sólo deben examinar sino también llevar la
conversación, esta tarea es extremadamente difícil, y se debe desarrollar un tipo
de form ación que permita a los examinadores familiarizarse con estas tareas.

5.4. La importancia de la formación de los administradores


La discusión sobre la necesidad que tienen algunos examinadores de la expresión
oral de administrar la prueba además de calificar a los candidatos nos conduce a
un aspecto de la formación que no debería ignorarse: la formación de todos los
administradores. Los administradores de una prueba son las personas que «adm i­
nistran» la prueba a los candidatos y son también los responsables de procurar
que las condiciones en las que la prueba se administra den a los candidatos la
oportunidad de mostrar las habilidades que se evalúan. Aunque la formación de
los administradores no debe ser tan compleja como la de los examinadores, es
importante que los administradores comprendan la naturaleza de la prueba que
van a administrar, la importancia de su papel y las posibles consecuencias para
los candidatos si la administración no se lleva a cabo de forma adecuada.

5 .4 .7 . Pruebas de expresión oral


El papel del administrador es particularmente importante en las pmebas de expre­
sión oral, porque es siempre necesario que haya al menos una persona que inicie
la conversación con el candidato y que reaccione a sus intervenciones de forma
que se anime la conversación. Tal como explicamos anteriormente, algunas pm e­
bas están diseñadas de form a que hay un «interlocutor» que asume este papel
mientras que el examinador observa la interacción y evalúa al candidato. En otras
pmebas el examinador debe hablar con el candidato e intentar evaluarlo al mismo
tiempo. Sea interlocutor o examinador, la persona que dialoga con el candidato
debe dominar las técnicas que ayudarán a cada candidato a sentirse cómodo, mien­
tras presta atención a la vez a detalles como el tiempo y la forma de hacer las pre­
guntas, para garantizar que todos los candidatos tengan las mismas oportunidades
de mostrar sus habilidades. La tarea del administrador se vuelve más complicada
si se examinan dos o tres candidatos al mismo tiempo: deberá asegurarse de que
todos entienden la tarea, deberá tomar nota del número y tipo de contribuciones
que hace cada candidato, y deberá pensar de qué forma puede introducir en la
discusión a los candidatos que todavía no han podido hablar.
En algunas pm ebas de expresión oral puede ser necesario utilizar otro admi­
nistrador para dar instrucciones a los candidatos y para darles los materiales que
deberán estudiar antes de entrar en el aula de examen. A menudo se llama a esta

115
La formación de examinadores y administradores

persona «acom odador». El acomodador puede también ser el responsable de las


entradas y salidas a tiem po del aula y de procurar que los candidatos que ya
hayan sido evaluados no se comuniquen con los que están esperando tum o.
El éxito de una prueba de expresión oral dependerá de que todas las perso­
nas descritas cumplan bien con su deber. Tal como ya hemos sugerido, se nece­
sitaría m edio día m ás de form ación para los exam inadores que tendrán que
interactuar con los candidatos, y m edio día como m ínim o para la formación de
los profesores que actuarán com o interlocutores mientras que otro hace la fun­
ción de examinador. Los acom odadores no necesitarán demasiado tiempo para
aprender su trabajo, pero sería útil poder discutir con ellos lo que debe hacerse
y practicar el procedim iento varias veces antes del día del examen.
Todos los administradores deberían tener instrucciones por escrito m uy cla­
ras que explicaran qué hacer y cuándo hacerlo. También sería útil para todos que
el material que debe usarse con los candidatos (hojas explicativas de la tarea, foto­
grafías, textos, etc.) pudiera estar encuadernado para evitar perder tiempo antes
o durante la prueba intentando localizar o reordenar papeles recalcitrantes.
Una tarea im portante para los administradores de las pruebas de expresión
oral es la de crear un ambiente que ayude a los candidatos a sentirse cómodos.
Deberían adecuarse salas cóm odas de espera y el aula de examen debería ser lo
suficientemente grande com o para que todos los participantes puedan estar a
gusto, aunque no tan grande com o para abrumarlos. El interlocutor (o el exa­
m inador que hace de interlocutor y evaluador) debería estar lo más cerca p o si­
ble de los candidatos para que no deban esforzarse en hacerse oír, a no ser que,
naturalmente, la tarea requiera que se proyecte la voz, como en las pruebas de
oratoria o de arte dramático.

5.4.2. Pruebas de comprensión oral


En el caso de las pruebas de comprensión oral la selección del aula es particu­
larmente im portante, al igual que la decisión sobre el núm ero de candidatos
que pueden hacer la prueba al m ism o tiem po. Algunas instituciones intentan
llenar al m áxim o las aulas, creyendo que hacen la administración m ás fácil; sin
embargo, las aulas que son lo suficientemente grandes para albergar a muchos
candidatos tienen una acústica deficiente que provoca dificultades de audición
del texto (la voz de un conferenciante en directo, un casete o una grabación en
vídeo). Resulta imprescindible que los administradores hagan un ensayo de las
pruebas de audición para comprobar si se puede ver u oír a la persona que habla
desde todas las partes del aula y para comprobar si las grabaciones pueden oírse
de la m ism a forma desde cualquier asiento.
También es importante saber cómo funciona el equipo, cuándo y cóm o debe
usarse, y qué hacer cuando hay un error de funcionamiento. Debe comprobarse
el funcionamiento de los micrófonos, los casetes y los magnetoscopios, los alta­
voces y las cintas que se usarán. Si la prueba va a administrarse en un laborato­
rio de idiomas, es importante comprobar todo el equipo de control y el equipo
de cada cabina.

116
Estudio sobre lo.' adúnales de exámenes de inglés

Al igual que en la administración de las pruebas de expresión oral, las perso­


nas responsables de la administración de las pruebas de comprensión oral nece­
sitan instrucciones claras por escrito sobre qué decir y hacer durante la prueba.
Si los candidatos van a escuchar a un conferenciante en directo, esta persona
debe tener tiempo suficiente de prepararse. La institución no debería subesti­
mar el tiem po que necesita un conferenciante para completar su preparación.
En el caso de una persona que debe hacer un dictado, por ejemplo, es ante todo
necesario que comprenda el texto que leerá para decidir sobre su entonación y
fraseo, ser capaz de pronunciar todas las palabras sin titubear, controlar el ritmo
del dictado y la longitud de las pausas, y leerlo en voz lo suficientemente alta
com o para que todos los candidatos puedan oír bien. Si los candidatos deben
escuchar grabaciones, la persona responsable de poner los aparatos en funcio­
namiento debe saber cuándo poner la grabación, cuándo parar, si debe parar,
y cuándo volver a pasar la grabación de nuevo.

5.4.3. Pruebas para todas las destrezas y aspectos de la lengua


Hemos dicho ya que muchas de las personas implicadas en la administración de
las pruebas de expresión oral y de comprensión oral pueden necesitar formación.
Hay otros administradores, sin embargo, cuyo trabajo no es especializado: los
responsables de la distribución y recogida de los exámenes, de la administración
del tiem po, los responsables de que los candidatos no se ayuden durante la
prueba. A m enudo nos referimos a estos administradores como «vigilantes». No
suele ser necesario que los vigilantes se sometan a sesiones de formación especí­
fica, pero es importante que tengan claros sus deberes y lo que deben hacer si
surgen problem as im previstos. La institución debería dar a los vigilantes ins­
trucciones claras por escrito y debería discutir estas instrucciones y otras pre­
guntas que pueden tener los vigilantes antes de la administración de la prueba.

5.5. Estudio sobre los tribunales de exámenes de inglés como


lengua extranjera: cuestionario
Pedimos a los tribunales de exámenes los criterios que usaban para seleccionar
a los correctores y cuánto tiempo duraba el nombramiento. También solicita­
m os los tipos de puntuación que se llevaban a cabo en los centros y el procedi­
m iento que seguían para coordinar a sus exam inadores. (Fíjense que las
preguntas del cuestionario se referían a «correctores» y no a «exam inadores»,
pero por razones de consistencia con la terminología utilizada en este capítulo
seguirem os utilizando el término «exam inadores».)

Pregunta 3 1 : ¿Qué criterios utilizan para nombrar correctores?


Los criterios utilizados se parecían m ucho a los que se utilizaban para los
redactores de ítems (véase capítulo 3): los que se mencionaban más a menudo
eran la experiencia docente relevante (que tam bién incluía la preparación de
alumnos para este examen en particular), la experiencia en realización de exá­

117
La formación de examinadores y administradores

menes y la titulación profesional adecuada. Los que mencionaban titulación pro­


fesional no explicaban a qué se referían, pero creemos que se refieren a un cer­
tificado o un título en didáctica de la lengua o en lingüística aplicada.
Varios tribunales m encionaron que los futuros examinadores debían realizar
bien su trabajo en las sesiones de unificación de criterios (véase pregunta 34 más
adelante), y uno mencionó que debían completar un manual de formación autó­
noma con éxito. No se daban detalles de qué se consideraba completar con éxito.
Varios tribunales también m encionaron la edad: uno dijo que los examina­
dores debían ser menores de 55 años la primera vez que se les nombraba, y tres
mencionaron que la edad de jubilación estaba entre los 65 y los 70 años.
Otros factores que se mencionaron, aunque sólo por parte de uno o dos cen­
tros tribunales: buenas referencias, competencia en la lengua, experiencia en el
área de estudios del candidato, fiabilidad, puntualidad, com prom iso con un
enfoque com unicativo en la didáctica y en la evaluación y una personalidad
apropiada para la evaluación de la expresión oral. No se daban detalles.

PREGUNTA 3 2 : ¿Cuánto tiempo dura el nombramiento de los correctores?


La duración del nom bram iento variaba de form a considerable entre los tri­
bunales: algunos nom bran exam inadores para cada examen, pero la m ayoría
tiene contratos renovables anualmente. Varios tribunales dijeron que contratan
exam inadores por un período indefinido, en tanto siguen dando un servicio
satisfactorio. N o esta claro cóm o se m ide un «servicio satisfactorio», pero la
situación general parece ser que los exam inadores ya conocidos y aceptables
continuarán como examinadores, probablemente llegando incluso a ser exami­
nadores jefes si procede.

PREGUNTA 33: ¿Hay partes del examen a) puntuadas de forma objetiva, por ejemplo por una máquina
o por administrativos; b) puntuadas de forma centralizada, por ejemplo por equipos que trabajan jun­
tos; c) puntuadas de forma individual, por ejemplo, por el administrador de la prueba o su equivalente?
Sólo dos tribunales respondieron que puntuaban de forma objetiva. Uno de
ellos puntualizó que «lo s administrativos que puntúan son personal temporal
ordinario que está preparado para aplicar los esquemas de puntuación bajo una
supervisión estricta».
Cuatro tribunales dijeron que puntuaban de forma centralizada; ocho no lo
hacían. Uno de los tribunales se refirió a un «fin de sem ana de expresión
escrita», pero no dio detalles sobre cóm o se organizaba. Los otros centros no
describieron cóm o funcionaba su puntuación centralizada.
Sólo cuatro tribunales dijeron que llevaban a cabo puntuación individual; sin
embargo, puede ser que la pregunta se interpretara de forma distinta por parte
de los tribunales, puesto que algunos de ellos, de los que sabem os que tienen
examinadores que puntúan en su dom icilio, respondieron de form a negativa.
Según nuestra experiencia la mayor parte de los tribunales tiene organizada en
realidad una «industria casera», en la que los exámenes se mandan a los dom i­
cilios de los examinadores para que los puntúen en un período concreto. Aun­

11 8
Estudio sobre los tribunales de exámenes de inglés...

que esto es lo más conveniente para los examinadores, y sin duda menos caro
que la puntuación centralizada, este procedimiento tiene consecuencias para la
supervisión de la corrección y la puesta en marcha de controles de fiabilidad.
Quizá el punto m ás importante es que haya un período de tiempo desde que el
exam inador puntúe el escrito hasta que el exam inador jefe sea capaz de com ­
probar si la puntuación es la adecuada. Se discutirá este punto en el capítulo 6.

PREGUNTA 3 4 : ¿Convocan una sesión de coordinación con los correctores? Si la respuesta es afir­
mativa, ¿cómo se llama? ¿Cuánto tiempo dura normalmente?
Once de los doce tribunales que respondieron mantienen reuniones de coor­
dinación; uno no. El tribunal que no hacía este tipo de reunión respondió que
la coordinación de los exam inadores la llevaba a cabo «el exam inador jefe de
manera inform al». El nom bre de este tipo de reunión varía, de acuerdo con el
examen. El nom bre m ás com ún es «sesión de unificación de criterios», pero
también se usan «reunión de coordinación», «reunión de evaluadores», «reu ­
nión de exam inadores» y «reunión informativa».
El tiempo previsto para la reunión varía desde medio día a un día. Un tribu­
nal dijo que la formación de sus examinadores para evaluar 10 niveles distintos
duraba sólo un día, lo que parece m uy insuficiente para asegurar una familia-
rización adecuada con las escalas de nivelación y con el procedimiento general.

PREGUNTA 3 5 : Si su tribunal de exámenes mantiene una «sesión de unificación de criterios», ¿qué


sucede normalmente durante esta reunión?
La mayoría de los tribunales mantiene sesiones de unificación de criterios pare­
cidas a la descrita en el apartado 5.3.2: los correctores puntúan muestras de ejer­
cicios escritos o de grabaciones en vídeo, discuten los criterios de evaluación con
el resto de los correctores y con el examinador jefe, y llegan a un acuerdo sobre
la puntuación final y las áreas problemáticas. Los detalles del proceso de unifica­
ción varían (quién facilita las muestras de ejercicios escritos, cuántas muestras se
utilizan, si el examinador jefe «im parte» el criterio o si permite que se «descu­
bra» a lo largo de la discusión en grupo), pero en general el patrón era parecido.
En algunos casos, sin embargo, no está claro que todos los examinadores ten­
gan acceso a los m ism os ejercicios escritos.
Tam poco está claro si los exam inadores trabajan individualmente antes de
discutir las puntuaciones con otros profesores, o si trabajan en equipo desde el
principio. Si trabajan juntos desde el principio, los examinadores con persona­
lidad fuerte o con opiniones m uy firmes (o prejuicios) tenderán a dominar la
discusión, evitando de esta forma que otros examinadores tengan la oportuni­
dad (o la necesidad) de decidir por sí solos. Es importante prestar atención al
acceso que tienen los examinadores a los ejercicios escritos (incluso pudiendo
llevárselos a casa para referencias futuras) y el tiempo de que disponen para deci­
dir las puntuaciones individualmente antes de discutirlas.
Un tribunal describió su proceso de formación de los examinadores de expre­
sión oral:

119
La formación de examinadores y administradores
Demostración en directo con candidatos, evaluadores y evaluadores que
puntúan. Corrección individualizada con hojas de puntuación por parte de los
evaluadores presentes. Se discuten los resultados verbalmente de forma
inmediata y se evalúan y supervisan los comentarios por escrito después de la
reunión.

Hay dos puntos importantes en este proceso: en el primero, el tribunal faci­


lita demostraciones en directo, y en el segundo se permite a los evaluadores que
den sus puntuaciones de forma individual antes de discutirlas con sus colegas.
Sin embargo, hay puntos a los que debemos prestar atención: ¿Tienen los eva­
luadores presentes ocasión de practicar com o parte de su form ación o sólo
observan a los que evalúan a los «candidatos»? ¿Cuál es la naturaleza de la super­
visión que tiene lugar después de la reunión? Este proceso debe ser la forma de
comprobar si los examinadores son lo suficientemente competentes para em pe­
zar a puntuar. Por desgracia, sin embargo, sabemos m uy poco sobre cómo iden­
tifica un exam inador jefe la incom petencia y cóm o se inform a a los
examinadores de que no pueden puntuar.
Un tribunal parece mantener sesiones de coordinación con los jefes de equipo,
pero no hay una reunión entre los jefes de equipo y los examinadores de a pie.
Aunque los examinadores tienen la oportunidad de discutir escritos con su jefe
de equipo de form a individual, se pierden discusiones con otros examinadores,
que son en potencia m uy valiosas.
Un centro m andaba un m anual de form ación autodidacta a los exam inado­
res, y les daba un certificado cuando demostraban que eran lo suficientemente
competentes com o para puntuar ejercicios escritos por sí solos. El centro usa
seguramente este tipo de manual porque el examen se puede «solicitar» desde
distintos países y debe puntuarse de forma individual en un período de tiempo
muy breve. Por desgracia, sin embargo, no nos dieron detalles sobre cómo está
redactado el manual o cómo se usa, ni sobre cómo puede darse un «certificado»
a los correctores que realizan una formación autodidacta.

PREGUNTA 36. ¿Qué pasos se dan al final de la sesión de unificación de criterios para establecer el
grado de acuerdo entre los correctores?
Muchos de los tribunales mencionaron que pretendían llegar a un «acuerdo»
al final de sus sesiones de unificación de criterios, pero no estaba claro cóm o
decidían si se había conseguido un grado suficiente de acuerdo. La siguiente
descripción ilustra este punto:
Los correctores habrán tenido los escritos durante una semana y habrán
corregido provisionalmente unos 10 por nivel. En la reunión se discutirán y
revisarán, si es necesario, los esquemas de puntuación y se acordará un
enfoque común.

La descripción m ás clara que recibim os fue esta:


Al final de la reunión los jefes de equipo llegan a un acuerdo con respecto a
los ítems problemáticos. Pertrechados con las actas de estas sesiones, los jefes

120
Estudio sobre los tribunales de exámenes de inglés...
de equipo dirigirán su propio proceso de unificación de criterios. Los
correctores deben puntuar los ejercicios escritos seleccionados y comparar sus
resultados con los de la reunión. No se empieza la puntuación «en serio»
hasta que se haya llegado a un acuerdo completo entre los distintos equipos.

H em os citado dos tipos de reunión: una en la que se coordinan los jefes de


equipo y otra en la que éstos se coordinan con los exam inadores. Lo que no
sabemos, sin embargo, es si este «acuerdo com pleto» es el resultado de la nego­
ciación o si se evalúa de alguna forma a los examinadores para ver su capacidad
de otorgar puntuaciones satisfactorias. Ningún tribunal mencionó la evaluación
de los examinadores para determinar si estaban preparados para puntuar, ni un
análisis de fiabilidad entre correctores para ver el grado de acuerdo existente
entre cada exam inador y el examinador jefe y sus colegas. Una pregunta toda­
vía por responder es hasta qué punto puede permitirse a un examinador des­
viarse de las puntuaciones acordadas sin que se le considere incapacitado para
puntuar. (Véanse los capítulos 4 y 6 para una discusión sobre la fiabilidad.)

5.6. Estudio sobre los tribunales de exámenes de inglés como


lengua extranjera: documentación
5.6.1. Formación de los correctores de la expresión escrita
Los documentos que nos mandaron los centros contribuyeron muy poco a nues­
tra comprensión de sus procedimientos de formación. Sólo había cuatro docu­
m entos que m encionaban la form ación; la m ayoría no incluía inform ación
alguna sobre cóm o se formaba a los correctores para llevar a cabo su cometido.
El documento de la ESB solamente decía que:
Los evaluadores se reúnen regularmente para comparar sus anotaciones y
discutir técnicas de evaluación (página 1).

No concretaban cóm o llevaban esto a cabo.


La descripción m ás completa de un program a de formación la dio la AEB en
un folleto que describe el procedim iento que se seguía con sus exámenes de
GCE (niveles O y A) antes de 1986. No sabem os si se seguía el m ism o proce­
dim iento para la prueba de TEEP, y en cualquier caso los procedim ientos del
TEEP habrán cambiado puesto que el examen ha pasado a otra institución; sin
em bargo, vale la pena reproducir la descripción del procedim iento de la AEB
puesto que es el tipo de descripción que probablemente dará a sus usuarios la
tranquilidad de que el tribunal cuida la formación de sus examinadores:
Tan pronto como ha finalizado el examen, desde el tribunal se envían a todos
los examinadores copias de las hojas de examen, esquemas de puntuación y
hojas de puntuación. La primera tarea de los examinadores es la de estudiar las
preguntas y los esquemas de puntuación y la de llevar a cabo un ensayo de
puntuación con unos cuantos ejercicios escritos. En este estadio también se
identificarán respuestas imprevistas a las que no se puede adaptar el esquema.

121
La formación de examinadores y administradores
AI cabo de dos o tres días después del examen, todos los examinadores asisten
a una sesión de unificación de criterios. En esta reunión el examinador jefe
discute cada pregunta y su esquema de puntuación correspondiente. Se toma
nota de lo que se requiere para cada puntuación; se acuerdan cuáles son las
respuestas alternativas aceptables y también se toma nota no sólo de las
respuestas aceptables sino también de las que sólo son correctas parcialmente y
de las que son totalmente incorrectas. Se tratan aspectos diversos sobre las
respuestas analizadas y se toman decisiones sobre todos ellos. Además, se
discute el sistema de puntuación para garantizar que todos los examinadores
corrigen de la misma forma. El objetivo de esta reunión es garantizar una
correcta aplicación del esquema de puntuación por parte de todos los
examinadores en todos los escritos para que, sea quien sea quien puntúe y sin
importar dónde puntúe, una respuesta en particular reciba siempre una
puntuación apropiada. En muchas materias el tribunal se asegura de que todos
los examinadores corrijan fotocopias de los mismos ejercicios escritos para
comprobar que puntúan de acuerdo con el mismo criterio y de la misma
forma antes de que abandonen la reunión (página 11).

MATERIALES PARA LA FORMACIÓN


Uno de los hallazgos m ás útiles en el estudio de los documentos fue que tanto
Oxford com o UCLES publican folletos para profesores que quieren preparar a
estudiantes para el examen. Estos folletos contienen preguntas de exámenes ante­
riores, m uestras de respuestas a las preguntas de expresión escrita, y las pun­
tuaciones del tribunal junto a comentarios para cada ejercicio escrito.
La finalidad de estas publicaciones es la de fam iliarizar a los profesores no
sólo con las tareas que deberán llevar a cabo los candidatos durante el examen
sino también con la forma en la que se les juzgará. Presumimos que las m ues­
tras de respuestas y los comentarios eran (o son) utilizados también para la for­
mación; sin em bargo, no sabem os cómo se han utilizado.

5.6.2. La formación de correctores de la expresión oral


Se encontró m uy poco sobre la formación de los correctores de la expresión oral
en la documentación estudiada.
Oxford-ARELS dice lo siguiente acerca de la coordinación de los jefes de equipo:
Alrededor de una semana después de cada examen, se convocan reuniones de
coordinación de jefes de equipo para establecer criterios con respecto a las
muy detalladas guías de corrección ya enviadas...
Las guías de corrección para todos los exámenes son extremadamente
detalladas. Están agrupadas en unos folletos conocidos como claves, y se utiliza
un folleto para cada puntuación. Como ejemplo, diremos que la clave para un
examen de nivel avanzado contiene unas 90 apreciaciones...
Los criterios requeridos varían con cada tarea; en algunas, sólo se dan puntos a una
respuesta que no contenga ningún error; en otras se reconocen 2, 3 o 4 grados de
corrección. La clave de corrección da detalles completos. En muy pocas ocasiones
se pide a los correctores que realicen una evaluación subjetiva, puesto que no hay
alternativa. En estos casos se da tanta ayuda como sea posible en la clave.

122
Debate

No se dan detalles sobre el funcionamiento de la sesión de unificación de cri­


terios, y tampoco se dice nada sobre la formación de los correctores ordinarios.
Sin em bargo, Oxford-ARELS sí da información sobre el proceso de control de
calidad, que se describe en el capítulo 6.

MATERIALES PARA LA FORMACIÓN DE LOS EXAMINADORES


Tanto las publicaciones de la LCCI como las de UCLES hacen referencia a vídeos
que producen para sus pruebas. LCCI ofrece dos tipos de vídeo a aquellos que
estén interesados: uno que está pensado para profesores y estudiantes e ilustra
los distintos niveles de actuación lingüística oral, y otro que está pensado para la
formación. Este tipo de vídeo no «pretende ilustrar los principios de la evalua­
ción de la expresión oral en general sino facilitar la crítica y la discusión entre los
examinadores del LCCI en proceso de formación.» Esto nos informa sobre el fun­
cionamiento de la formación en el LCCI: básicamente, sus examinadores no pun­
túan muestras de actuaciones en sus sesiones de formación, pero no tenemos
detalles sobre cómo forman a sus examinadores. Presumimos, pero no lo sabe­
mos, que hay comentarios que acompañan a cada tipo de vídeo para ayudar a los
profesores y a los examinadores a entender lo que ven.
UCLES menciona vídeos en su descripción del FCE y del CPE, pero sólo sabe­
m os que los vídeos m uestran niveles de actuación en los exámenes. No sabe­
mos si hay notas explicativas ni cómo se utilizan los vídeos en la formación.

5.7. Debate

Resultó reconfortante constatar que hay muchos tribunales que mantienen sesio­
nes de unificación de criterios, pero es preocupante comprobar que hay dos que
no lo hacen. Fue útil leer las descripciones ofrecidas por los tribunales sobre su
proceso de formación; sin embargo, las descripciones eran a menudo muy bre­
ves. Todavía no hemos resuelto distintas preguntas sobre diversos estadios de la
formación y especialmente sobre cuándo decide un tribunal que sus examina­
dores están preparados para empezar a puntuar «en serio». Varios tribunales
mencionaron que los examinadores deben llegar a un acuerdo sobre los ejerci­
cios escritos seleccionados o sobre las actuaciones grabadas en vídeo, pero no
sabemos si este acuerdo es el resultado de la discusión (en cuyo caso se persuade
y no se convence a los exam inadores) o si es una prueba que deben pasar los
examinadores. Si éste fuera el caso, no sería razonable esperar que cada exam i­
nador estuviera de acuerdo por completo con cada puntuación otorgada por el
exam inador jefe y los jefes de equipo, pero si se perm ite variación («desvia­
ción »), ¿cuánta se acepta?
N os sorprendió constatar que al menos uno de los tribunales forma a sus exa­
m inadores por correo o por teléfono y no de form a presencial. El tribunal se
toma la m olestia de form ar a los jefes de equipo en grupo, pero los jefes de
equipo no forman a sus examinadores en persona. No se sabe si el tribunal cree
que sería una pérdida de tiem po reunir a todos sus examinadores para la dis­

123
La formación de examinadores y administradores

cusión, pero nos encontramos ante una falsa idea de la economía. En el caso de
que el centro fuera capaz de dar razones convincentes para la form ación por
correo o por teléfono, todavía veríamos poco claro que los examinadores em pe­
zaran a m andar los prim eros escritos puntuados a los jefes de equipo después
de haber empezado la corrección en serio. Parecería más sensato pedir a los exa­
m inadores que enviaran los prim eros escritos puntuados antes de em pezar a
puntuar en serio y pedir a los examinadores que esperaran instrucciones antes
de continuar puntuando.
D escubrim os dos novedades interesantes: el «fin de sem ana de expresión
escrita» que convoca un centro para formar a los examinadores de la expresión
escrita y para supervisarlos mientras están puntuando, y los manuales de fo r­
mación autodidacta, que un centro utiliza para preparar a los examinadores que
no pueden asistir a las sesiones de form ación. El fin de sem ana de expresión
escrita parece facilitar un buen ambiente para discutir los criterios de puntua­
ción y para discutir y volver a discutir ejercicios escritos que no se adaptan con
facilidad a ninguno de los puntos de las escalas de clasificación: si los correcto­
res no tienen que viajar y no tienen que preocuparse de las presiones dom ésti­
cas, pueden concentrarse en la corrección por completo. El manual de formación
autodidacta podría ser una buena idea en países en los que viajar resulta difícil
y en donde el tribunal de exámenes sólo tiene la opción de facilitar formación
a distancia. Sin em bargo, sería im portante conocer m ejor cóm o funciona el
manual de formación y cóm o decide el centro que un exam inador está capaci­
tado antes de poder recomendar esta práctica.
Un punto final: los materiales facilitados por algunos tribunales para ayudar
a los profesores a comprender cóm o se evalúan la expresión oral y la expresión
escrita eran m uy interesantes. Sería útil que todos los centros ofrecieran cintas
de vídeo (o casetes) que ilustraran los criterios que utilizan para evaluar con
ejemplos de los distintos niveles de actuación lingüística. Es especialmente útil
que estas grabaciones vayan acompañadas de las puntuaciones que daría el exa­
m inador jefe a las actuaciones, junto con notas explicativas de las razones.
Existe siem pre el peligro de que capítulos com o este, que describen el pro­
ceso que ha de seguirse para llegar a un objetivo final, sean considerados dem a­
siado prescriptivos o poco prácticos. Está claro que cada institución tiene sus
limitaciones y que a m enudo es necesario llegar a situaciones de com prom iso.
No insistiremos en que todos los pasos del proceso descrito se sigan al pie de la
letra, pero sí insistiremos en que hay que hacer ciertas cosas para garantizar que
los exam inadores estén bien preparados. Entre éstas se cuentan las siguientes:
La institución debe tener un programa de formación de algún üpo. Las institu­
ciones no deberían suponer jamás que las plantillas de corrección y las escalas de
valoración son perfectas o que los examinadores pueden aplicarlas sin practicar.
Las instituciones deben prever un período de tiem po razonable para la for­
m ación, especialmente si los exam inadores se forman por prim era vez. N o es
posible hacer una form ación com pleta de los exam inadores de la expresión
escrita o de la expresión oral en un par de horas.

124
Sumario

Las instituciones deberían facilitar fotocopias de los escritos que se van a dis­
cutir para que los examinadores puedan hacer sus anotaciones y puedan guar­
darlas para una futura consulta.
Los exam inadores deben tener la oportunidad de tomar sus propias decisio­
nes y discutirlas con otros examinadores y con el examinador jefe o con el jefe
de equipo. Debe evitarse que el EJ o el jefe de equipo simplemente expliquen
lo que debe hacerse.
Las instituciones deberían tener una política sobre el grado de acuerdo que
esperan de sus exam inadores y debería haber algún m odelo definido que los
examinadores deban conseguir antes de que se les permita examinar en serio.

5.8. Sumario
Una plantilla de corrección o una escala de valoración debe estar diseñada de
forma apropiada para las tareas que se van a pedir a los candidatos.
Antes de la formación, el examinador jefe debe fijar los criterios aplicando el
esquem a o la escala a una muestra de exámenes o actuaciones. Si fuera necesa­
rio, debería m odificarse el esquem a o la escala a partir de este ensayo.
El EJ debería seleccionar ejercicios escritos o actuaciones adecuadas para el
program a de formación.
Deben seleccionarse examinadores experimentados y cualificados.
En la sesión de unificación de criterios, deben tenerse en cuenta los ejercicios
escritos o las actuaciones consensuadas y las problemáticas, y se debe llegar a
un acuerdo sobre la forma de aplicar las plantillas o escalas.
Los examinadores que actúan de form a poco satisfactoria durante la form a­
ción deben volverse a formar o ser rechazados.
Si es necesario, las plantillas o escalas y las directrices para su aplicación debe­
rían revisarse a partir de la sesión de unificación de criterios antes de utilizarse
«e n serio».
Para las pruebas de expresión oral, las actuaciones que se graben para ser uti­
lizadas en la form ación se compilarán en una única cinta.
En la reunión de formación para la expresión oral, se garantizará la visión y audi­
ción de las cintas. Cuando esto no sea posible, se organizarán actuaciones en directo.
Los exam inadores de la expresión oral necesitarán consejos prácticos sobre
cóm o sentarse y qué hacer con sus papeles y deberían disponer de instruccio­
nes por escrito antes del examen.
Debería organizarse una form ación específica para los interlocutores y tam ­
bién para los exam inadores si no sólo van a evaluar sino también a conversar
con el candidato. Esta form ación debería capacitar a los interlocutores y a los
exam inadores para conseguir la actuación oral apropiada.
También los que administrarán la prueba tienen que ser preparados para saber
cuáles son sus cometidos.
En las pruebas de com prensión oral, deberá com probarse que el aula o las
aulas tengan la capacidad y la acústica adecuada, la existencia y el estado de cual-

125
La form ación de exam inadores y adm inistradores

quier equipam iento especial que sea necesario y tam bién debería hacerse un
ensayo previo. Si la prueba debe administrarse en directo y no utilizando una
grabación, el conferenciante o conferenciantes necesitan formación e instruc­
ciones claras por escrito que expliquen qué hacer y cuándo hacerlo.

Bibliografía
Mathews, J. C. (1985). Examinations: A Commentary. George Alien and Unwin, Londres.

126
6 La supervisión de la fiabilidad
de los examinadores

En este capítulo se discutirá la naturaleza de la fiabilidad de los examinadores y


su importancia, y cóm o puede conseguirse una fiabilidad en la puntuación. Es
im portante que la nota de una prueba de un candidato no dependa de quién
corrige la prueba, ni de la coherencia de un corrector en particular; un exam i­
nador no fiable es quien cam bia sus criterios durante la corrección, quien no
los aplica de forma consistente, o quien no está de acuerdo con las notas de otros
examinadores. Describiremos con algún detalle el tipo de proceso que debería
seguirse en un program a de supervisión eficaz.

6.1. La importancia de la supervisión de la fiabilidad


de los examinadores
En el capítulo 5 insistim os en la importancia que tiene la preparación completa
de todos los exam inadores, en especial de aquellos que puntúan la expresión
escrita y la expresión oral. La form ación ayudará a los exam inadores a co m ­
prender las escalas de puntuación que deberán utilizar y debería prepararles para
solucionar los problemas, incluso los no previstos cuando se diseñaron las tareas
por prim era vez. La formación debería dar a los examinadores competencia y
confianza; sin embargo, no se puede garantizar que los examinadores corrijan
com o se ha previsto. Hay m uchos factores que pueden interferir en la capaci­
dad de emitir juicios sensatos y coherentes por parte de un examinador: difi­
cultades con las escalas de puntuación, la presión de tiempo, las preocupaciones
domésticas y profesionales, etc. Incluso los examinadores experimentados pue­
den verse afectados por estos problemas. Es responsabilidad de la institución el
diseñar procedim ientos de control de calidad para garantizar a los usuarios de
las pruebas que los resultados son lo m ás fiables posible.
El término «fiab le» puede aplicarse a diversos aspectos del proceso de con­
fección de un examen (véanse los capítulos 4 y 5 sobre pruebas objetivas), pero
en este capítulo nos concentraremos en la corrección de la expresión escrita y
de la expresión oral. También hay necesidad de supervisar la corrección de las
pruebas objetivas, pero en este caso sólo se trata de comprobar que los exam i­
nadores han aplicado la clave de respuestas o el esquema de puntuación de forma
adecuada y que sus cálculos son exactos. Aunque siempre habrá errores, los pro­
cesos de supervisión son claros. Los que se utilizan para las pruebas subjetivas
son más com plicados y por tanto nos concentramos en ellos en este capítulo.

127
La supervisión de la fiabilidad de los exam inadores

En nuestra discusión aparecerán a menudo dos términos: «fiabilidad interna»


y «fiabilidad entre correctores». Se dice que un exam inador tiene «fiabilidad
interna» si siem pre da al m ism o grupo de ejercicios escritos o de actuaciones
lingüísticas orales las m ismas puntuaciones en dos ocasiones distintas. El exami­
nador todavía puede considerarse fiable si algunas de las puntuaciones son dis­
tintas; sin embargo, no puede permitirse mucha variación sin que se cuestione su
validez. La fiabilidad entre correctores se mide a menudo utilizando un coeficiente
de correlación o a través de alguna form a de análisis de la varianza. La noción
de correlación se discutió en detalle en el capítulo 4. Un análisis de la varianza
compara en esencia las distribuciones (medias y desviaciones típicas —véase capí­
tulo 4) de dos o más poblaciones. Por ejemplo, las puntuaciones que han dado
cuatro examinadores distintos al m ism o grupo de ejercicios escritos puede con­
trastarse. Si los distintos examinadores han dado las m ism as puntuaciones cada
vez, las medias y las desviaciones típicas serán idénticas. El análisis de la varianza
es una forma de evaluar cuán significativas pueden ser las diferencias (para más
detalles véase cualquier libro de texto de introducción a la estadística).
La «fiabilidad entre correctores» se refiere al grado de similitud entre diferen­
tes examinadores: ¿Pueden dos o más examinadores, sin influirse entre sí, dar las
m ismas notas al m ism o grupo de escritos o actuaciones orales? No sería realista
esperar que todos los examinadores coincidieran todo el tiempo; sin embargo, es
esencial que cada examinador intente emular siempre el «m odelo». Este modelo
lo establece o bien el exam inador jefe o bien la com isión de coordinación, tal
como se discutió en el capítulo 5. Aunque siempre habrá alguna variación entre
los examinadores y el modelo, debe haber un alto grado de coherencia general si
queremos que la prueba se considere fiable. Esta fiabilidad también se mide por
un coeficiente de correlación o por alguna forma de anáfisis de varianza.
Hay varias formas en las que una institución puede supervisar la puntuación
de sus examinadores. La selección de unos u otros métodos dependerá de diver­
sos factores com o, por ejemplo, si la corrección se hace de form a centralizada
o no, o si se trata de la corrección de ejercicios escritos o de actuaciones lingüís­
ticas orales. En las siguientes secciones describiremos m étodos adecuados para
cada situación.

6.2. Corrección centralizada


La situación más sencilla imaginable es la de una corrección centralizada de prue­
bas de expresión escrita. En este caso hay al m enos tres tipos de supervisión.

6.2.1. Muestreo p o r parte del examinador jefe


o del je fe de equipo
Cuando la corrección tiene lugar de form a centralizada, los exam inadores se
dividen norm alm ente por equipos: cada equipo cuenta con un coordinador y
con un m áxim o de 1 0 o 12 exam inadores. Si se trata de una prueba a escala
pequeña (alrededor de 100 candidatos), puede que sólo haya un equipo, coor­

128
Corrección centralizada

dinado por el examinador jefe. Si hay más candidatos, puede haber varios equi­
pos, cada uno coordinado por el jefe de equipo. Todos los jefes de equipo
habrán sido coordinados por el examinador jefe y ellos habrán coordinado a los
m iem bros de sus equipos (véase capítulo 5). Cada equipo corregirá en su zona
de la sala de corrección o en una sala separada. Esto permitirá al jefe de equipo
supervisar toda la corrección de forma eficaz y facilitará a los correctores la dis­
cusión de problem as de corrección tal com o vayan surgiendo.
Los exam inadores deberían corregir según su preparación, deberían tener
especial cuidado en no escribir comentario alguno sobre el ejercicio escrito y
deberían anotar sus resultados en las hojas de puntuación diseñadas al efecto.
Algunos tribunales de exámenes piden a los examinadores que anoten sus pun­
tuaciones delante o detrás del pliego de examen, pero no recom endam os esta
práctica en absoluto, puesto que incita a los otros examinadores, jefes de equipo
o «segund os correctores» (véase sección 2.3 más adelante) a mirar la puntua­
ción escrita antes de dar la suya propia.
El procedim iento de m uestreo debería comenzar justo después de que
empiece la corrección. Los párrafos siguientes explicarán los pasos del proceso.
(Nótese que en esta explicación y en las otras de este capítulo supondremos que
el coordinador de corrección es un jefe de equipo.)
Cada examinador debe corregir un cierto número de ejercicios durante el pri­
mer día de corrección. El jefe de equipo recoge un número de ejercicios puntua­
dos por el examinador (a menudo 1 o 2 ejercicios de cada 10) y los lee otra vez
para dar una puntuación independiente. (Esto se llama «puntuación a ciegas»,
porque el jefe de equipo no debería conocer las notas del examinador mientras
está puntuando). Si las puntuaciones del jefe de equipo están de acuerdo con las
del examinador, se permite que el examinador continúe corrigiendo. Si, por el
contrario, las puntuaciones del jefe de equipo no están de acuerdo con las del exa­
m inador y las diferencias son serias (por ejemplo, una diferencia de más de un
punto en una escala de 1 al 5), el jefe de equipo discute la situación con el exa­
minador. El objetivo de la discusión es el de reducir las diferencias de opinión
entre las dos partes, por lo que debe haber una lectura exhaustiva de los ejercicios
problemáticos y de la escala de puntuación. Ocasionalmente el examinador con­
vencerá al jefe de equipo para que reconsidere su decisión, pero en instituciones
en las que se lleva a cabo un muestreo se suele asumir que el jefe de equipo tiene
razón y al final es el examinador el que debe modificar su puntuación.
El proceso de m uestreo debería continuar a lo largo de todo el periodo de
puntuación, aún cuando el jefe de equipo se sienta seguro de que los examina­
dores están corrigiendo bien. Una de las causas más comunes de ausencia de
fiabilidad en la corrección es la autocomplacencia, pero afortunadamente es tam­
bién una de las m ás fáciles de prevenir.

6.2.2. La utilización de «ejercicios de fiabilidad»


El segundo m étodo de supervisión de la puntuación es el de preguntar a cada
examinador que puntúe de forma independiente el m ism o paquete de «ejerci­

129
La supervisión de la fiabilidad de los exam inadores

d o s de fiabilidad». Estos e je r d d o s escritos habrán sido escogidos por el exa­


m inador jefe com o representantes de distintos puntos en la escala de puntua-
d ón y de distintos problemas a los que se enfrentan los examinadores (pareados
a las m uestras de ejercicios utilizados en la form ación —véase capítulo 5) y
habrán sido corregidos por el examinador jefe y la com isión de unificación de
criterios. Este ejercicio de fiabilidad debería tener lugar después de que los exa­
m inadores hayan em pezado a corregir «e n serio », pero lo suficientem ente
pronto en el periodo de puntuación como para poder hacer cambios en los ejer­
cicios que puedan haber sido corregidos de forma incorrecta por exam inado­
res no fiables. La tarde del primer día de corrección o la segunda mañana serían
el m om ento adecuado.
No es necesario hacer fotocopias de los ejercicios para cada m iem bro del
equipo: éstos pueden circular entre los m ism os. Es im portante, sin em bargo,
que los m iem bros del equipo no escriban encim a de los ejercicios que leen,
puesto que tales anotaciones o marcas influirán sin duda en los exam inadores
posteriores. Los examinadores deberían anotar sus puntuaciones en una hoja de
puntuación por separado y entregarlas al final al jefe de equipo. Este comparará
las puntuaciones que cada examinador dio con las puntuaciones que se acorda­
ron en la com isión de unificación de criterios. Si el jefe de equipo ve que las
puntuaciones de algún exam inador discrepan mucho de las puntuaciones de la
comisión, debería haber una discusión para determinar el porqué. Si el jefe de
equipo constata que el equipo entero da puntuaciones distintas, debería haber
una reunión para discutir lo que está sucediendo y para recoger sugerencias
sobre cóm o solucionar el problema. El objetivo de este ejercicio es el de refor­
zar la coordinación que tuvo lugar durante el periodo de formación (véase capí­
tulo S), y si resulta que los examinadores están aplicando la escala de puntuación
de forma distinta de la de la comisión, debe detenerse la corrección para llevar
a cabo una nueva unificación de criterios.
Hay dos form as en las que el jefe de equipo puede determinar si los exam i­
nadores están puntuando de la form a que se supone que deben puntuar. La
forma m ás rápida, conocida como « a simple vista», es la de colocar las notas de
cada exam inador junto a las de la comisión. Las diferencias obvias de opinión
se verán inmediatamente, y el jefe de equipo puede empezar a actuar, seleccio­
nando inmediatamente más muestras de algunos examinadores.
La form a a «sim p le vista», sin em bargo, sólo revelará los problem as m ás
sobresalientes. Un m étodo m ás inform ativo es hacer una correlación de las
puntuaciones de cada examinador con las puntuaciones de la comisión de uni­
ficación de criterios y comparar las m edias y las desviaciones típicas. La corre­
lación indicará si el exam inador ha ordenado los ejercicios de fiabilidad en el
m ism o orden en que el comité (una correlación razonable a la que aspirar sería
de un 0,8) y la com paración de m edias y de desviaciones típicas indicará si el
exam inador es m ás estricto o m ás benévolo que la comisión. Si la puntuación
m edia del exam inador es significativam ente m ás baja que la de la com isión,
esto significará que el exam inador es m ás estricto; si es significativamente más

130
Corrección centralizada

alta, significará que el exam inador es m ás benévolo. (Una diferencia signifi­


cativa es la que resulta lo suficientemente grande com o para que no se deba
sólo a la casualidad. La prueba m ás corriente para ver si la diferencia entre dos
m edianas es significativa es la prueba t, y se utiliza el análisis de la varianza
para com parar m ás de dos medianas. Véase Guilford y Fruchter, 1978, o cual­
quier introducción a la estadística.) El m ejor resultado para un examinador es
tener una correlación de 0,8 o más alta con las puntuaciones de la comisión de
unificación de criterios, y una nota m edia que no sea significativamente dis­
tinta de la de la com isión. Si alguna de estas condiciones está ausente, enton­
ces el jefe de equipo debería discutir el problem a con el examinador e intentar
encontrar una solución.
El jefe de equipo deberá com probar el trabajo de todos los m iem bros del
equipo de la m ism a forma. Esto requiere una cantidad de cálculos respetable,
que puede hacerse a m ano o con una calculadora. Algunas instituciones prefie­
ren hacer estos cálculos por ordenador, utilizando un programa estadístico como
el SPSS o SAS (véase el apéndice 8). Los lectores interesados en análisis más sofis­
ticados (com o la teoría de la generalizabilidad, que está basada en el análisis de
la varianza y que puede estimar la fiabilidad de un grupo entero de correctores
de una vez) deberían ir a Crocker y Algina, 1986.

6.2.3. El procedimiento de la doble corrección


La tercera form a de supervisar a los examinadores y de asegurar que sus pun­
tuaciones sean fiables requiere el procedimiento de la doble corrección de cada
parte de la prueba que necesite un juicio subjetivo. Esto significa que cada escrito
lo corrigen dos examinadores distintos, trabajando independientemente. La pun­
tuación que el candidato recibe por su ejercicio es la m edia de las puntuaciones
otorgadas por los dos examinadores.
Administrativamente, la form a más fácil es disponer que dos examinadores
de cada equipo corrijan cada ejercicio escrito, pero no es necesario que las dos
personas trabajen juntas todo el tiempo. Al igual que en los dos m étodos ante­
riores, los examinadores deberían abstenerse de escribir sobre el ejercicio, para
no influirse mutuamente. Cada uno debe anotar su puntuación en una hoja de
puntuación por separado. Es responsabilidad del jefe de equipo fijarse en si las
dos puntuaciones son parecidas o no. Si son parecidas (es decir, si están en la
m isma área general de la escala de puntuación), la nota final del candidato será
la m edia de las dos puntuaciones; si, sin em bargo, las puntuaciones son muy
distintas (dos puntos o más en una escala de cinco puntos), los examinadores
deberán volver a leer el ejercicio y estudiar la escala de nivel cuidadosamente.
Si los exam inadores no pueden aproxim arse en sus puntuaciones, se dará el
escrito a otro examinador, que puede ser otro miembro del equipo o incluso el
jefe de equipo. Quedará a criterio de la institución la decisión del punto de vista
que debe primar en caso de desacuerdo, o si las dos puntuaciones más cercanas
o todas las puntuaciones deberían hacer media.

131
La supervisión de la fiabilidad de los exam inadores

6.3. Alternativas cuando la corrección se lleva a cabo


fuera del centro de exámenes
Todos los m étodos citados más arriba son válidos para la corrección centralizada,
cuando los m iem bros de un equipo de corrección trabajan juntos en el m ism o
lugar al m ism o tiempo. Si la corrección tiene lugar fuera del centro de exám e­
nes, los procedim ientos descritos anteriormente deberán modificarse. Analiza­
remos primero el caso en que los examinadores corrigen en su domicilio.

6.3.1. Corrección en el domicilio de los examinadores


El procedim iento por el que el jefe de equipo analiza una muestra de los ejer­
cicios corregidos por los examinadores debe modificarse. Si los examinadores
están corrigiendo en casa pueden no estar en posición de garantizar la correc­
ción de un núm ero determinado de ejercicios por día; no es por lo tanto prác­
tico esperar que puedan m andar una muestra de las correcciones de cada día.
Sería práctico, sin em bargo, pedirles que envíen una muestra de cada paquete
de las correcciones que deben hacer o, preferiblemente, mandar el paquete ter­
minado al jefe de equipo para que éste realice un muestreo al azar. Esto permite
al jefe de equipo acceder a los ejercicios que los exam inadores han corregido
en horas distintas durante el día y en distintas condiciones; si los examinadores
escogen su propia muestra, pueden enviar ejercicios que han corregido cuando
estaban más frescos, o ejercicios que han tardado m ás tiempo en corregir o que
han analizado m ás cuidadosamente. Si el jefe de equipo escoge la muestra, será
más representativa de la corrección habitual de los examinadores.
El m ayor problem a de este método es el tiempo: se puede retrasar el proceso
de puntuación si los exam inadores deben esperar para tener noticias del exa­
minador jefe antes de empezar un nuevo paquete de correcciones. Sin embargo,
esto es m ejor para todas las partes implicadas que si el examinador se apresura
a hacer todas sus correcciones y después quizá tiene que volver a corregir (o si
el exam inador jefe debe buscar otro exam inador para corregir porque el exa­
minador original no era capaz de corregir bien ). Es responsabilidad del jefe de
equipo el com unicarse con los exam inadores lo antes posible, inform arles si
pueden continuar o aconsejarles sobre los problem as detectados. En el último
caso el jefe de equipo debería enviar los ejercicios problemáticos al examinador
para que éste pueda estudiar los cambios que ha hecho el jefe de equipo e inten­
tar internalizarlos. Las correcciones posteriores de esta persona deberán super­
visarse cuidadosamente.
El segundo procedimiento de supervisión, que implica que todos los examina­
dores corrijan el m ism o paquete de ejercicios de fiabilidad, también puede lle­
varse a cabo con exam inadores que corrigen en su dom icilio. La principal
modificación es que se deben enviar fotocopias de todos los ejercicios a cada exa­
minador, pero esto no es necesariamente demasiado caro ni ocupa demasiado
tiempo, especialmente si se compara a los costes que supone volver a corregir
todos los ejercicios de un examinador si la corrección no se ajusta a los criterios

132
Alternativas cuando la corrección se lleva a cabo fuera del centro de exámenes

de la institución. Siempre existe la posibilidad de que los correctores corrijan los


«ejercicios de fiabilidad» de una forma más cuidadosa que el resto de ejercicios,
y de que el jefe de equipo no obtenga una idea fidedigna de la capacidad del
corrector para adaptarse a la escala de nivel bajo condiciones normales; sin
embargo, el procedimiento será útil para descubrir a aquellos correctores que tie­
nen problemas incluso cuando saben que deben corregir de forma cuidadosa.
El tercer método de corrección, el procedimiento de la doble corrección, tam­
bién es posible con examinadores que corrigen desde su domicilio. La principal
dificultad es que probablemente no será fácil para los examinadores que trabajan
por separado poder discutir diferencias de opinión en los casos en que éstas lla­
man la atención por su importancia. Sin embargo, podría pedirse al jefe de equipo
que lea los ejercicios en los que hay estas diferencias y que tome una decisión final.

6.3.2. La corrección en los centros de administración de pruebas


El segundo tipo de corrección no centralizada tiene lugar en los centros de admi­
nistración de pruebas, especialmente durante las pruebas orales. Este tipo de
corrección es notoriamente difícil: los examinadores sólo disponen de un breve
periodo de tiempo durante el que pueden tomar decisiones y a menudo no pue­
den volver a revisar la actuación lingüística del candidato para confirmar o cam­
biar su decisión sobre el nivel de actuación. Curiosamente, sin embargo, existen
irnos cuantos procedimientos de supervisión para las pruebas de expresión oral.
El procedim iento m ás com ún es el del m uestreo. Lo lleva a cabo el jefe de
equipo, quien visita el centro y asiste a las pruebas orales administradas por el
examinador. El jefe de equipo observa la administración de la prueba y puntúa
al candidato de form a independiente. Cuando la prueba ha terminado, el jefe
de equipo y el exam inador comparan sus puntuaciones y discuten los puntos
en los que tienen diferencias de opinión serias. Aunque este procedimiento es
sin duda útil para los examinadores observados, la posibilidad de poder obser­
var a varios examinadores a lo largo de un año es limitada, especialmente cuando
hay instituciones que examinan en varios centros.
Es raro encontrar algo equivalente a los «ejercicios de fiabilidad» para las prue­
bas orales, o al procedimiento de doble corrección. Las instituciones afirman que
no es práctico introducir estos procedimientos; cuando hay muchos examinado­
res sería caro copiar «casetes de fiabilidad», y sería difícil desde un punto de vista
administrativo, además de caro, tener a dos examinadores en cada centro de admi­
nistración de exámenes. Sin embargo, las instituciones que administran pruebas
para su uso propio (promoción intema, final de curso) podrían considerar estas
opciones; si los examinadores son también miembros del equipo de profesores,
podrían ver o escuchar juntos una única copia del casete de fiabilidad y llevar a
cabo el procedimiento de doble corrección sin que sea necesario viaje alguno. Una
posibilidad interesante para las instituciones que examinan a candidatos en dis­
tintos centros de administración de exámenes sería la de grabar las actuaciones de
los candidatos para que el jefe de equipo pueda tomar una muestra o incluso hacer
una doble corrección. Este es un procedimiento que se utiliza en la evaluación de

133
La supervisión de la fiabilidad de los exam inadores

lenguas extranjeras en el Reino Unido y que también utiliza Oxford-ARELS en sus


exámenes de inglés como lengua extranjera.
La sugerencia puede no ser adecuada para todas las instituciones, pero podría
ponerse en práctica por muchas.

6.4. Fiabilidad interna


Todos los procedim ientos detallados m ás arriba son intentos de m ejorar la fia­
bilidad extem a: el acuerdo entre exam inadores. Sin em bargo, a m enudo ocu­
rre, especialmente en la evaluación de idiom as, que las diferencias de opinión
entre exam inadores sobre la calidad de la actuación de un candidato pueden
ser legítim as. Por eso recom endam os el procedim iento de doble corrección
en la m ayoría de circunstancias: este sistem a perm ite a los exam inadores dis­
crepar (hasta cierto p u n to ), y sim plem ente hace m edia de los resultados para
llegar a una nota final.
En todos los casos es crucial que cada redactor sea coherente internamente:
es decir, cada exam inador debería estar de acuerdo consigo m ism o a la hora de
evaluar la m ism a actuación en una ocasión diferente. Esta fiabilidad interna
puede suponerse que se ha supervisado normalmente cuando se comprueba la
fiabilidad entre correctores. Cualquier acuerdó» entre examinadores estará siem ­
pre limitado por la consistencia interna de cada uno de los examinadores. Sin
em bargo, puede ser importante asegurar la fiabilidad intem a al final de la for­
m ación de los. exam inadores o, de forma rutinaria, durante la corrección.
La única form a de garantizar la fiabilidad intem a es pidiendo a los exam ina­
dores que vuelvan a corregir ejercicios que ya han corregido. Esto sólo tendrá
sentido si las primeras puntuaciones no se han anotado en los ejercicios (por lo
cual abogam os firm em ente para que los exam inadores nunca escriban en sus
ejercicios). El jefe de equipo debería ser el responsable de seleccionar una m ues­
tra de ejercicios corregidos con anterioridad por cada exam inador y organizar
la m anera de incluirlos en los paquetes de ejercicios que m ás adelante deberá
corregir este examinador. Podrá entonces com probarse la correlación entre la
primera y la segunda puntuación, y las m edias y desviaciones típicas respecti­
vas, y podrá decidirse qué pasos dar si la fiabilidad interna resulta ser baja.
Pueden idearse procedim ientos sim ilares para la pm ebas de expresión oral
cuando las actuaciones hayan sido grabadas. En este caso, las cintas de sonido
pueden ser preferibles a las cintas de vídeo para evitar la posibilidad de que el
examinador reconozca al candidato, aunque hem os de tener en cuenta que las
puntuaciones basadas en actuaciones grabadas pueden resultar ligeramente dis­
tintas a las puntuaciones basadas en actuaciones en directo.

6.5. Estudio sobre los tribunales de exámenes de inglés


como lengua extranjera: cuestionario
En el cuestionario preguntam os a los tribunales de exám enes de inglés com o
lengua extranjera si practicaban el procedim iento de doble corrección, cóm o

134
Estudio sobre los tribunales de exámenes de inglés...

resolvían los conflictos entre exam inadores y qué tipos de estadísticas utiliza­
ban para investigar la fiabilidad de la corrección de sus exámenes.

PREGUNTA 3 7 : Una vez empezada la corrección, ¿se lleva a cabo la doble corrección de algunos ejer­
cicios? En el caso de respuesta afirmativa, ¿qué proporción de ejercicios?
Cuando redactamos esta pregunta presum imos que los tribunales de exáme­
nes intentarían mejorar la fiabilidad de las correcciones subjetivas utilizando dos
examinadores para corregir cada ejercicio y quizá cada actuación oral. Descubri­
m os, sin embargo, que sólo tres tribunales utilizaban este sistema: un tribunal
dijo que llevaba a cabo una doble corrección de todas las pruebas de expresión
escrita en su único examen de inglés como lengua extranjera, otro respondió que
utilizaba la doble corrección en m uchos de sus exámenes, y otro que llevaba a
cabo la doble corrección de las actuaciones orales en el nivel más avanzado.
Otros seis tribunales parecieron interpretar «doble corrección» en la fo rm a
que nosotros utilizamos «corrección de m uestreo» anteriormente: informaron
que en algún punto durante el proceso de corrección el exam inador jefe, o el
jefe de equipo analizaba un porcentaje de los ejercicios corregidos por un exa­
m inador cualquiera. Algunos tribunales no dijeron cuántos ejercicios se anali­
zaban de esta m anera; otros dijeron que analizaban un 10 o un 15 por ciento
de los exámenes correspondientes a cada examinador. Un tribunal dijo que sólo
llevaba a cabo la doble corrección «a petición»: presumiblemente si un candi­
dato o un centro de administración no estaba satisfecho con el resultado final y
pedía revisión de examen.
No quedó del todo daro cuándo tenía lugar d muestreo. Un centro respondió que:
Una muestra inicial de 10 a 15 ejercicios para cada parte (aproximadamente
un 10%) es supervisada por d examinador jefe y d examinador adjunto. Si
hay motivo de preocupadón, se tienen en cuenta más ejerddos. Si es
necesario, se vuelve a corregir desde cero.

Esto indica que los ejerdcios escritos son com probados por un examinador
veterano sólo al comienzo d d proceso de correcdón, cuando los examinadores
están frescos y se comportan según la norma. Sólo aquellos examinadores que
no actúan de form a satisfactoria en este estadio se vuelven a supervisar. Parece
arriesgado perm itir a los examinadores corregir durante tanto tiempo ( d resto
del periodo de corrección) sin algún tipo de evaluación de su trabajo, puesto
que hay muchas presiones que pueden rebajar su nivel de atendón y hacerles
corregir peor de lo que debieran. Sin em bargo, al m enos un tribunal continúa
analizando muestras a lo largo de todo el periodo de corrección:
Se analizan muestras de los ejerddos escritos de todos los examinadores al
prindpio, en la mitad y al final d d proceso de corrección. Al final los
examinadores se someten a corrdaciones estadísticas y empíricas. Esto puede
originar una nueva correcdón de los ejerd dos que han sido corregidos por
malos examinadores (que no se volverán a contratar) o un escalonamiento de
los examinadores demasiado exigentes o demasiado benévolos.

135
La supervisión de la fiabilidad de los exam inadores

(Para una breve explicación del término «escalonam iento» véase la pregunta
41 m ás adelante.)
Es importante hacer notar en este punto que la mayoría de los tribunales que
respondieron a la pregunta sobre la doble corrección hacían referencia a sus exá­
menes escritos, quizá porque nuestra pregunta mencionaba «ejercicios escritos».
Sólo cuatro mencionaron pruebas orales. Un tribunal mencionó que grababan
todas las actuaciones orales del nivel superior y que éstas eran corregidas por dos
examinadores, y por m ás en casos de desacuerdo. Una respuesta de otro centro
mencionaba que a menudo usaban interlocutores y examinadores en algunas de
sus pruebas, y que los interlocutores podían contribuir a la evaluación (aunque
en caso de diferencias de opinión entre el interlocutor y el examinador, el punto
de vista del examinador prevalecía sobre el del interlocutor). Otros dos tribuna­
les que administran pruebas orales respondieron que la doble corrección «no pro­
cedía», aunque am bos se refirieron al «m uestreo» o a la «supervisión» en sus
respuestas a la pregunta 41. Sabemos pues m uy poco sobre los procedimientos
que se utilizan en la mayor parte de los tribunales para garantizar que sus exam i­
nadores de expresión oral mantengan sus criterios de forma consistente.

PREGUNTA 38: ¿Qué ocurre en caso de discrepancia entre el primero y el segundo corrector? Mar­
que los apropiados:
1. Se llama a un tercer corrector, y se utilizan las dos puntuaciones más cercanas.
2. Se hace media entre las dos puntuaciones.
3. Se respeta la puntuación de1 segundo corrector.
4. Los dos correctores discuten y llegan a un acuerdo.
5. Otros.
Los tribunales que afirmaron utilizar la «doble corrección» en el sentido que
nosotros lo entendíamos —es decir, utilizando dos examinadores independien­
tes para corregir cada ejercicio o actuación—tenían diferentes formas de llegar
a una puntuación final cuando los dos examinadores no estaban de acuerdo. La
práctica de pedir a los dos examinadores que discutieran y llegaran a un acuerdo
la llevaba a cabo un tribunal, pero dos dijeron que en algunos de sus exámenes
esta decisión se dejaba al jefe de equipo o al examinador jefe. El cuarto tribunal
dijo que el proceso no acababa aquí necesariamente. Si la decisión del exam i­
nador jefe no era satisfactoria, se podía llamar a los examinadores de otros equi­
pos para que diera su opinión: «y algunos candidatos han tenido el privilegio
de tener hasta nueve correcciones antes de tomar una decisión».
Los tribunales que usaban el m étodo del m uestreo dijeron que se respetaba
la opinión del segundo corrector. Este corrector era un exam inador veterano
(examinador jefe o jefe de equipo) en todos los casos.

PREGUNTA 3 9 : ¿Se calculan habitualmente las correlaciones entre correctores?


Cinco tribunales declararon que se calculaban habitualmente las correlaciones entre
correctores, y tres dijeron que calculaban las correlaciones sólo ocasionalmente.

136
Estudio sobre los tribunales de exámenes de in g lés...

Uno respondió que no calculaba las correlaciones de forma habitual, pero no


dijo si las calculaba o no. Tres tribunales respondieron que la pregunta «n o pro­
cedía»: dos porque no hadan doble correcdón y uno «porque el examinador
jefe corrige todos los ejerdcios».
Resultó curioso que al m enos ocho tribunales dijeran que calculaban corre­
laciones algunas veces, puesto que sólo cuatro dijeron hacer doble corrección.
No sabemos con quién hacen las correladones estos tribunales. Sería interesante
saberlo, y ver los resultados de los cálculos. Por lo que sabem os, no se hacen
públicas.

PREGUNTA 4 0 : ¿Se calculan habitualmente las medias y las desviaciones típicas de los correctores?
Ocho tribunales dijeron que calculaban las m edias y las desviaciones típicas
habitualmente; dos dijeron que sólo lo hacían en ocasiones. Otros dos dijeron
que esto no procedía con su examen o bien porque «el examinador jefe corrige
todos los ejercicios escritos» o bien porque el examen era de«evaluación oral».
De nuevo encontram os curioso el núm ero de tribunales que dicen llevar a
cabo estos cálculos porque no sabemos qué medias se comparan y no tenemos
evidencia de los resultados de estos cálculos.

PREGUNTA 4 1 : ¿Se sigue habitualmente otro proceso para calcular o comprobar la fiabilidad de los
correctores?
Varios tribunales se refirieron a su proceso de formación y muestreo, que ya
hemos comentado en el capítulo 5; otros mencionaron nuevos procedimientos.
Dos tribunales se refirieron al procedimiento llamado «escalonamiento»; un tri­
bunal de exámenes «subirá» (ajustará la puntuación dada a) los ejercicios escri­
tos que han sido corregidos por alguien que resulta ser demasiado estricto, y
«b ajará» los ejercicios corregidos por examinadores demasiado benevolentes.
Suponem os que los tribunales deciden sobre la dirección y el grado de escalo­
namiento analizando las m edias y las desviaciones típicas de sus examinadores,
pero no está claro con quién comparan a cada examinador ni cómo se hace el
«escalonam iento».
El problema del escalonamiento es que puede haber una tendencia a creer que
la fiabilidad de la corrección se ha obtenido porque los resultados de los exa­
m inadores se han ajustado para «com pensar discrepancias». Sin em bargo, el
escalonamiento puede en realidad empeorar los problemas; a no ser que los exa­
minadores que han demostrado no tener fiabilidad extem a sean examinadores
con fiabilidad interna com probada —cosa harto difícil—la m odificación de los
resultados de los candidatos puede resultar menos, y no más, justa todavía. En
resumen, la corrección y la precisión del escalonamiento están puestas en duda
y los responsables de los exámenes deberían al menos comprobar que al menos
el escalonamiento consigue lo que se pretende. Es m ejor, creemos, asegurar la
fiabilidad de los examinadores de la forma descrita más arriba.
Otros procedim ientos utilizados incluían inform es sobre cada exam inador
recogidos por el examinador jefe (confidenciales para el centro), y la «repeti­

137
La supervisión de la fiabilidad de los exam inadores

ción de la coordinación». El tribunal que m encionó la repetición de la coordi­


nación no dio detalles sobre quién la necesitaba ni cuándo debía llevarse a cabo.
Otro tribunal dijo que en el caso de los examinadores de pruebas orales había
un proceso de «observación, exam en en grupo y nueva form ación», pero no
está claro a qué se refiere el término «exam en en grupo» ni quién debe volver
a ser formado. (Suponemos que la «repetición de la coordinación» y la «nueva
form ación» son procesos que tienen lugar además de las sesiones de unifica­
ción de criterios habituales que se convocan a lo largo del año.) El último pro­
cedim iento m encionado se describió com o «só lo inform e en pantalla de
orden ador», pero no se dieron m ás detalles. Es una pena que el tribunal no
ampliara más la información, puesto que otros podrían beneficiarse de los nue­
vos procedim ientos utilizando micro-ordenadores.

6.6. Estudio sobre los tribunales de exámenes de inglés


como lengua extranjera: documentación
Recibimos docum entos de cuatro tribunales que contenían información sobre
la supervisión de los examinadores. Analizaremos primero los procedimientos
utilizados para la supervisión de la corrección de la expresión escrita y luego
analizaremos los procedimientos utilizados para la supervisión de la corrección
de la expresión oral.

6.6.1. La supervisión de la corrección de la expresión escrita


Recibimos inform ación sobre la supervisión de la corrección de la expresión
escrita de tres tribunales: la LCCI, el AEB y el UCLES.
La LCCI, en su Handbook of Duties of Examiners and Moderators for Business Studies Examina­
tions (Manual de deberes para los examinadores y moderadores de exámenes de estudios comerciales),
dedica una página a lo que ellos llaman «procedimientos estándar de re-escruti­
nio». Estos procedimientos se describen brevemente a continuación:
1. El examinador adjunto (término usado por la LCCI para «examinador») envía
12 ejercicios escritos del paquete inicial (preferiblemente en la franja del
40-60% ) al examinador jefe.
2. El examinador jefe analiza los ejercicios escritos. «Si así lo desea, el
examinador jefe puede telefonear al examinador adjunto para dar un informe
(favorable o no favorable) sobre el re-escrutinio. En cualquier caso, los
ejercicios escritos del examinador adjunto... se le devolverán... con
instrucciones, por ejemplo:
a. El criterio de corrección es aceptable: «OK. Continúe».
b. El criterio de corrección requiere pequeños ajustes.
c. El criterio de corrección requiere ajustes considerables. En este caso, el
examinador jefe puede pedir al examinador adjunto que haga los ajustes
apropiados, pero que se abstenga de devolver ejercicios corregidos al
tribunal hasta que se haya comprobado una muestra de los escritos vueltos
a corregir.

138
Estudio sobre los tribunales de exámenes de in g lés...

3. Muestreo complementario
El examinador jefe puede pedir más muestras de los ejercicios corregidos por el
examinador adjunto «para comprobar que están de acuerdo con el criterio
establecido». Al final del periodo de corrección, el examinador jefe debería
escribir un informe sobre el comportamiento de los examinadores adjuntos cuyo
trabajo ha sido comprobado, por ejemplo:
a. Corrección satisfactoria. Reutilizar para pruebas futuras.
b. Corrección inicial ligeramente irregular, pero se hicieron los ajustes
adecuados, por lo que el examinador adjunto puede volverse a utilizar para
pruebas futuras.
c. Este examinador adjunto no pudo adaptar su corrección a los criterios
requeridos. No se volverá a utilizar.

Hay varias características positivas en esta descripción, como son que el exa­
minador jefe compruebe las correcciones una vez modificadas por el examinador
y que el tribunal guarde la información sobre qué examinadores deberían volver
a corregir en el futuro. Sin embargo, hay varios puntos que hay que aclarar:

1. ¿Por qué es el examinador quien selecciona los ejercicios escritos que van
a ser com probados, y no m anda el paquete entero al exam inador jefe
dejándole así escoger qué ejercicios corregirá? Com o dijim os anterior­
mente, pedir al examinador que escoja los ejercicios puede provocar que
la muestra enviada esté corregida más cuidadosamente que el resto.
2. ¿Por qué no se continúa solicitando m uestras a todos los correctores
durante todo el periodo de corrección? Si los examinadores no se «m an ­
tienen en alerta», la complacencia puede hacer acto de presencia.
3. ¿Cómo decide el examinador jefe que el examinador no está corrigiendo
suficientemente bien? No se mencionan los procedimientos que utiliza el
tribunal o los resultados que considerarán com o evidencia de fiabilidad
o no fiabilidad.
4. ¿Qué ocurre con los ejercicios corregidos por un examinador que no pudo
«ajustarse al criterio requerido»? Algunos tribunales afirman que vuelven
a corregir todos los ejercicios de un examinador que ha demostrado ser
poco fiable; suponem os que esto ocurre en esos tribunales pero no lo
sabem os a ciencia cierta.
El folleto del AEB How to set and mark GCE examinations (Cómo administrar y corregir los
exámenes de GCE) presenta un procedimiento que es muy similar al de la LCCI, pero
sugiere que todos los ejercicios escritos de los exam inadores se someten a un
muestreo durante el periodo de corrección y afirma de forma explícita que se
volverán a corregir todos los ejercicios escritos si ello es necesario (página 12).
El AEB también da detalles sobre lo que ocurre al final del periodo de correc­
ción com o una comprobación complementaria de la fiabilidad de la corrección.
Aunque este procedimiento no es pertinente en exámenes de inglés como len­
gua extranjera (el AEB ya no produce este tipo de exam en), suponem os que se

139
La supervisión de la fiabilidad de los exam inadores

utiliza para exámenes de lengua extranjera. Es útil reproducir esta descripción


por completo pues contiene varias buenas ideas que podrían ser adoptadas por
instituciones que tienen un gran núm ero de candidatos:
En asignaturas en las que se requiere un número mayor de quince
examinadores para corregir una prueba, éstos se dividen en equipos. Un equipo
está supervisado por el examinador jefe, mientras que el resto son supervisados
por examinadores adjuntos veteranos. Todas las dudas que surgen después de la
sesión de unificación de criterios se dirimen directamente con el examinador
jefe o a través del examinador adjunto veterano.
Tan pronto como es posible, después de la sesión de unificación de criterios,
cada examinador adjunto envía al jefe de equipo (examinador jefe o
examinador adjunto veterano) una muestra de ejercicios escritos corregidos. El
jefe de equipo comprueba que cada examinador esté corrigiendo
correctamente, volviendo a corregir estos ejercicios escritos. Si es necesario, se
pide al examinador que haga los cambios, pequeños o no, para corregir
correctamente. Si no está totalmente satisfecho, el jefe de equipo solicita
ejercicios complementarios después de haber señalado las inexactitudes y una
vez que los examinadores hayan modificado sus correcciones. (El muestreo
complementario de ejercicios corregidos, algunos seleccionados al azar,
garantiza que la corrección prosiga de forma satisfactoria y que todos los
examinadores estén corrigiendo de acuerdo con el criterio correcto. Si todavía
hubiera dificultades con algún examinador—hay algunos buenos profesores
con buenos conocimientos de su asignatura a los que les resulta muy difícil
este tipo de trabajo—, deben tomarse medidas para que todos los escritos de
este examinador se vuelvan a corregir. En algunos casos las dificultades se
limitan a la corrección de sólo una pregunta de la prueba y sólo debe volverse
a corregir esta pregunta.)
Cuando se ha completado la corrección, los examinadores jefes y sus adjuntos
veteranos se encuentran en el tribunal para revisar el trabajo de todos los
examinadores adjuntos. Vuelven a corregir más ejercicios corregidos por todos
los miembros de sus equipos y estos ejercicios de «revisión de oficio» se
seleccionan de tal forma que supongan una variedad de resultados por parte
de cada examinador, una variedad en la procedencia de los examinadores y
una variedad del periodo durante el cual se corrigieron los escritos. La muestra
de ejercicios ya corregidos puede haber señalado algunos problemas; la
información estadística de la que dispone el responsable del examen también
puede señalar posibles problemas pero el trabajo de cada examinador recibe el
mismo escrutinio exhaustivo. Se vuelven a corregir tantos ejercicios escritos
como sea necesario hasta que se pueda tomar con seguridad una decisión
sobre la calidad de su trabajo. En la mayoría de los casos, la corrección resulta
ser correcta y los resultados se aceptan. En algunos pocos casos, la evidencia de
la segunda corrección indica que un pequeño ajuste numérico corregiría la
puntuación, y se hace este pequeño ajuste. Cuando no puede tomarse ninguna
de estas decisiones, se vuelven a corregir todos los ejercicios. De esta manera,
al final de la reunión de revisión de oficio, el tribunal ha confirmado la
corrección de la mayoría de sus examinadores y ha dado los pasos apropiados
sobre el resto para garantizar que las puntuaciones otorgadas no dependen de

140
Estudio sobre los tribunales de exámenes de in g lés...

quién corrigió el trabajo o de cuándo fue corregido. La corrección de las


partes objetivas de la prueba no presentan ninguno de estos problemas. Las
hojas de respuestas que contienen las respuestas codificadas se escanean por
medio de una máquina especial y sólo es necesario asegurarse de que la
máquina haya sido programada con los códigos de respuesta correctos. Hay un
procedimiento especial para garantizar que los candidatos que no siguen las
instrucciones de utilización de las hojas de corrección reciben puntos por sus
respuestas correctas.
(How to set and mark GCE examinations, AEB, página 12)

Los aspectos en esta descripción que vale la pena señalar son que el muestreo
es continuo para cada profesor incluso una vez finalizada la corrección y que se
utiliza información estadística que sirva de ayuda en el proceso de toma de deci­
siones. Por desgracia, no sabemos qué tipo de información se utiliza. UCLES tam­
bién describe su proceso de supervisión para el FCE y el CPE en el General Handbook
(Manual General). Es importante señalar que en el proceso seguido por UCLES no
parece haber una división clara entre formación y supervisión: el examinador
recibe una muestra de ejercicios escritos para su formación al mismo tiempo que
recibe el primer paquete de «ejercicios de verdad», y debe devolverlos al mismo
tiempo. Aunque este sistema es sin duda rápido si el examinador corrige bien la
muestra de ejercicios, debe de ser difícil decidir qué hacer si estos ejercicios dan
problemas. No se dan detalles sobre lo que ocurre en estos casos.
Hay que señalar que ninguno de los tres informes menciona los procedimientos
estadísticos utilizados para tomar decisiones sobre la fiabilidad de la corrección.

6.6.2. La supervisión de la corrección de la expresión oral


Oxford-ARELS publica una breve descripción de cómo supervisa la corrección de
la expresión oral en un folleto titulado Oxford-ARELS Examinations in English as a Forágn
Language: Rationale, Regulations and Syllabuses. (Los exámenes de Oxford-ARELS en inglés como len­
gua extranjera: fundamentos, normativa y programas). La descripción es la que sigue:
Las grabaciones de los candidatos son corregidas todas en el Reino Unido por
parte de examinadores cualificados. Para los dos niveles superiores es
obligatoria la corrección independiente por parte de dos examinadores; si
discrepan en más de una pequeña diferencia el examinador veterano debe dar
un tercer y definitivo juicio. En el nivel preliminar, todas las grabaciones que
en una primera corrección están cerca del limite que separa dos notas (por
ejemplo entre aprobado y suspenso) vuelven a corregirse por dos
examinadores; si existe una discrepancia significativa, se pide una tercera
corrección. En cada examen al menos un 10% de la totalidad de las
actuaciones es revisada por los examinadores veteranos (página 7).

Resulta alentador saber que este tribunal lleva a cabo tanta doble corrección
y que también se pide una tercera opinión en caso de discrepancias. Es curioso,
sin embargo, que el examen de nivel inferior es corregido por sólo un exam i­
nador, excepto en el caso en que la nota del prim er exam inador esté cerca del
límite entre dos puntuaciones.

141
La supervisión de la fiabilidad de los exam inadores

E n c o n tr a m o s s ó lo o tr a re fe re n c ia a p r o c e d im ie n to s d e s u p e r v is ió n e n lo s d o c u ­
m e n t o s q u e r e c i b i m o s d e l o s c e n t r o s . L C C I e n s u f o lle t o Languages for Industry and Com ­
merce: Oral Examinations. Syllabus Booklet, Regulations and Teacher's Guide, 1 9 9 0 - 1 9 9 2 (Lenguas
para Ja Industria y el Comercio: exámenes orales. Folleto de descripción, normativa y libro del profesor,
1 9 9 0 —1 9 9 2 ) , d i c e l o s i g u i e n t e a c e r c a d e la s p r u e b a s d e e x p r e s i ó n o r a l:

Los coordinadores actúan como examinadores jefes para el grupo y son los
responsables de la supervisión de todos los examinadores de su grupo y les
observarán durante la administración de los exámenes para mantener la
formación y los criterios (página 41).

Desgraciadamente, esta descripción es demasiado general para que pueda ser


utilizada por instituciones que deseen diseñar nuevos sistemas de evaluación o
reformar los antiguos.

6.7. Debate
Es clara la importancia que tiene la supervisión de la corrección de una prueba
para que pueda hablarse de la fiabilidad del resultado. La form a m ás corriente
de hacer esto por parte de los tribunales de exámenes es sacando muestras de
las puntuaciones de los examinadores y pidiendo ajustes si la corrección no es
satisfactoria. En los exámenes con gran núm ero de candidatos, el m uestreo lo
llevan a cabo los jefes de equipo, cuyas decisiones no se cuestionan; en algunos
exámenes, sin em bargo, las correcciones de los jefes de equipo las supervisa a
través de un m uestreo el examinador jefe, cuya decisión es definitiva.
Sólo unos cuantos tribunales de exámenes ofrecieron detalles de sus proce­
dim ientos de m uestreo. Las descripciones que dieron fueron útiles, pero hay
algunas cuestiones que deben clarificarse:

1. ¿Por qué hay tantos tribunales que utilizan el m uestreo en lugar de la


doble corrección?
2. ¿Por qué algunos tribunales sólo efectúan un muestreo al comienzo de la
corrección y no durante todo el periodo?
3. ¿Por qué algunos tribunales piden al exam inador que escoja los escritos
que constituirán la muestra en lugar de llevar a cabo un muestreo al azar?
4. ¿Piden todos los tribunales a los examinadores que han mostrado «d ife­
rencias en la corrección» que vuelvan a mandar sus ejercicios escritos des­
pués de haberlos corregido de nuevo para volverlos a analizar?

La clarificación de todos estos puntos resultaría m uy valiosa para institucio­


nes que estén diseñando nuevos exámenes y deseen adoptar m étodos de super­
visión prácticos sin tener que sacrificar demasiada fiabilidad.
Aunque detectamos que algunos tribunales practican habitualmente la doble
corrección, creemos que debería prestarse atención a los siguientes puntos:
La doble corrección es posible tanto con un gran número de candidatos como
con un número reducido de los m ism os y debería estar más extendida.

142
Sum ario

Es igualmente importante hacer doble corrección tanto cuando los examina­


dores trabajan en su domicilio como cuando corrigen de forma centralizada.
La corrección debería llevarse a cabo de form a que el primer examinador no
influya en la opinión del segundo examinador.
Creemos tam bién que necesitam os saber m ás acerca de los procedim ientos
utilizados por los tribunales para la supervisión de la corrección de la expresión
oral. Som os conscientes que los examinadores jefes y los jefes de equipo obser­
van a menudo a los examinadores mientras éstos están corrigiendo, pero duda­
m os que este m étodo perm ita la supervisión de m ás de unos pocos
exam inadores cada año. Una posibilidad que hem os sugerido es organizar un
sistem a de supervisión m ediante grabaciones en cinta, para que los jefes de
equipo o los examinadores jefes puedan no sólo oír la actuación del candidato
sino también controlar cómo el examinador administra la prueba, y puedan de
esta form a com probar que la puntuación otorgada ha sido la razonable. Cree­
m os que todos los tribunales que administran pruebas orales deberían hacer esto
de forma habitual.

6.8 Sumario
Presentamos a continuación una serie de cuestiones que deberían plantearse las
instituciones cuando organizan la supervisión de la fiabilidad de sus examina­
dores:
¿Se han dividido los exam inadores por equipos y está claro quién es el jefe
de cada equipo?
¿Se ha entregado a los examinadores la última versión de la plantilla de correc­
ción o de las escalas de valoración que incorporan clarificaciones y otras mejo­
ras acordadas durante la formación?
¿Se ha recordado a los examinadores que no deben escribir en los ejercicios
escritos de los candidatos?
¿Se ha acordado un sistema de supervisión de correctores? ¿Se hará un mues-
treo, se utilizarán ejercicios escritos de fiabilidad o se llevará a cabo la doble
corrección?
Si la supervisión se va a hacer mediante muestreo, ¿se ha informado a todos
sobre los detalles del sistema?
¿Qué porcentaje de los ejercicios corregidos por cada examinador analizará
el jefe de equipo?
¿Qué opinión prevalecerá si la evaluación de un ejercicio por parte del jefe
de equipo difiere de la del examinador?
¿Se llevará a cabo el m uestreo al comienzo del proceso de corrección o con­
tinuará a lo largo de todo el proceso?
¿Volverá a analizar el jefe de equipo los ejercicios que haya tenido que vol­
ver a corregir un examinador?
Si la supervisión se va a efectuar mediante «ejercicios escritos de fiabilidad»,
¿se ha inform ado a todos sobre los detalles del sistema?

143
La supervisión de la fiabilidad de los exam inadores

¿Se han dado a los ejercicios escritos que se utilizarán para estudiar la fiabili­
dad una «pu n tuación de con sen so» por parte del exam inador jefe y de la
com isión de unificación de criterios?
¿Se han hecho las suficientes fotocopias de los ejercicios escritos para que
todos los equipos puedan realizar el procedim iento de fiabilidad al m ism o
tiempo?
¿Se ha tom ado una decisión sobre qué nivel de correlación indica una fiabi­
lidad aceptable entre correctores?
¿Saben los jefes de equipo cóm o calcular las correlaciones para poder infor­
m ar a sus examinadores tan pronto como termine el estudio de la fiabilidad?
Si la supervisión se va a realizar mediante la doble corrección, ¿se ha infor­
mado a todos sobre los detalles del sistema?
¿Se ha tom ado una decisión sobre la amplitud de las discrepancias que debe
existir entre dos examinadores antes de discutir sus puntuaciones respectivas?
¿Se ha tom ado una decisión sobre lo que debe hacerse si ninguno de los dos
examinadores está dispuesto a cambiar sus puntuaciones?
¿Se ha creado un sistema para supervisar los exámenes orales? ¿Se grabará cada
actuación, o al m enos una muestra de las actuaciones?
Si hacia el final del proceso se descubre que un examinador no ha sido cohe­
rente en sus correcciones, o ha sido demasiado generoso o estricto, ¿existe un
sistema para corregir las puntuaciones erróneas? ¿Si se utiliza el «escalona-
m iento», existe un sistema para decidir cuándo y cómo ponerlo en práctica?
¿Se guardarán informes completos para que los examinadores que no hayan
corregido bien no vuelvan a puntuar en el futuro?
¿Se pubhcará de alguna manera la inform ación obtenida durante el proceso
de supervisión? Si no, ¿cóm o sabrán los usuarios del examen que la correc­
ción ha sido fiable?

Bibliografia
Crocker, L. y J. A lgina (1 9 8 6 ). Introduction to Classical and Modem Test Theory. H olt R inehart
W in ston , C hicago.
G uilford, J. P. y B. F ru ch ter (1 9 7 8 ). Fundamental Statistics in Psychology and Education.
M cG raw -H ill, Tokio.

144
7 Informe de resultados y determinación
de la puntuación de aprobado

En este capítulo se tratan las cuestiones que se han de considerar una vez se ha
corregido el exam en. Se deberán tom ar decisiones sobre si sim plem ente se
suman los diferentes resultados para llegar a una puntuación total para la prueba,
o si se da a unos ítem s m ás im portancia que a otros. Los responsables de la
prueba deben decidir de qué manera informarán de los resultados, y a menudo
también deben decidir qué candidatos se han comportado de forma adecuada,
desde el punto de vista lingüístico, y por lo tanto han superado la prueba, y cuá­
les han suspendido.

7.1. Resultados
Una vez se han corregido las pruebas, será posible calcular algún tipo de resul­
tado para cada candidato. Si la prueba tiene secciones de corrección objetiva
(por ejem plo, ejercicios de respuesta de opción múltiple o de reconocimiento
del error), se habrá adjudicado un punto si la respuesta ha sido correcta y un 0
si la respuesta ha sido incorrecta. Estas puntuaciones pueden sumarse para lle­
gar a un total para cada sección de la prueba o a un total global para toda la
prueba, o pueden hacerse ambas cosas. Si la prueba se corrige de forma subje­
tiva, se pueden dar puntuaciones globales o analíticas (véase capítulos 5 y 6) a
las actuaciones lingüísticas de toda la prueba o de algunas tareas en particular.
En este último caso, las puntuaciones pueden sumarse para llegar a la puntua­
ción global del examen.
A veces, los resultados de las pruebas objetivas se m odifican para paliar los
efectos de un acierto por azar. En tales casos, el resultado obtenido por el estu­
diante se ajusta deduciendo un porcentaje calculado a partir de las posibilida­
des de acertar el ítem por azar. En una prueba de verdadero/falso, en la que las
posibilidades de acertar la respuesta correcta es del 50%, se puede esperar que
los estudiantes respondan correctamente a una pregunta por cada pregunta que
respondan incorrectamente, por lo que la modificación consistirá en la deduc­
ción del núm ero de respuestas erróneas del núm ero de respuestas correctas. La
fórmula general es:

Respuestas erróneas
Resultado m odificado = Respuestas correctas — --------------------------------
Número de alternativas —1

145
Inform e de resultados y determ inación de la puntuación de aprobado

Sin em bargo, la utilización de tales correcciones es controvertida y sólo se


recomienda cuando se sabe que existe la posibilidad de acertar a ciegas y si hay
un gran número de ítems omitidos por algunos o todos los estudiantes. En cual­
quier otro caso, la corrección tiene efectos m ínim os y no se recomienda (Ebel
y Frisbie, 1991: 2 1 3 ).

7.2. Ponderación
7 .2 .7 . Ponderación de los ítems
Los redactores de pruebas creen a m enudo que algunos ítems son m ás im por­
tantes que otros y que tales ítem s deberían por lo tanto tener m ás peso en el
total de la prueba. Dar valor extra a algunos ítems se conoce com o «pondera­
ción» (weighting). Sin em bargo, la ponderación diferenciada de ítems raramente
m ejora la fiabilidad o la validez.
Se da m ás peso a algunos ítems porque se cree que el completarlos requiere
m ayor com petencia o m ás conocim ientos, o porque requiere m ás tiem po, o
porque se cree que son m ás im portantes en el currículo o en el concepto de
dominio. Ebel, sin embargo, condena de forma taxativa la ponderación de ítems:
Si una prueba de aprovechamiento cubre dos áreas, una de las cuales se
considera el doble de importante que la otra, deberían redactarse el doble de
ítems sobre esta área más importante. Esto redundará en medidas más fiables y
válidas que si se presenta el mismo número de ítems para las dos áreas y los
que pertenecen a la parte más importante valen el doble.
Los ítems complejos o que necesitan de más tiempo para ser contestados
deberían, si es posible, producir más de una respuesta que pueda puntuarse de
forma independiente como correcta o incorrecta.
(Ebel, 1979: 199.)

La form a m ás sim ple de ponderación es la ponderación por igual: dar la m ism a


nota a cada ítem. Es importante señalar, sin em bargo, que si las diferentes sec­
ciones de una prueba son de distinta longitud, y que si cada ítem recibe la
m ism a puntuación, entonces las distintas partes tendrán un peso distinto a no
ser que los resultados se m odifiquen de alguna manera.

7.2.2. La ponderación de las secciones de una prueba


Los elaboradores de una prueba pueden también considerar que las distintas par­
tes de una prueba (no ítems) deberían tener un valor distinto. Pueden creer que
algunos aspectos de la competencia son más importantes que otros en un con­
texto dado, esto es, según el objetivo de la prueba. Si la prueba selecciona solici­
tudes para estudios académ icos, entonces la corrección de la expresión escrita
puede ser más importante que una pronunciación correcta. Si la prueba selecciona
controladores de tráfico aéreo internacional, la capacidad de identificar números
e instrucciones en el discurso oral puede ser mucho más importante que la capa­
cidad de escribir redacciones coherentes y gramaticalmente correctas.

146
Transform ación

Otra razón para la ponderación puede ser pedagógica: para enfatizar ante los
alumnos la importancia de algunas partes del currículo. Por ejemplo, puede ser
difícil producir ítems o tareas con un componente oral, pero los profesores pue­
den considerar las destrezas orales como cruciales y por lo tanto dar m ás peso
a este componente aunque no esté en proporción al número de ítems.
Otra razón para el distinto peso de distintos componentes puede ser el de ase­
gurarse de que los candidatos utilicen su tiempo de forma adecuada cuando res­
ponden a la prueba.
La relación entre las distintas secciones de una prueba según las correlaciones
existentes entre las mismas puede ser una consideración a tener en cuenta a la hora
de ponderarlas. Si distintas secciones de la prueba tienen una correlación alta entre
ellas, entonces el hecho de ponderarlas o no deja de ser un problema: la ponde­
ración natural «n o ponderada» dará unos resultados tan válidos com o los que
resultarían de procedimientos estadísticos más complejos (Ebel, 1979: 252).
Si los componentes de una prueba no van a tener el mismo peso, normalmente
la prueba más fiable debería tener más peso. Si los componentes tienen la misma
fiabilidad, entonces se pueden usar de forma legítima juicios sobre la importan­
cia relativa: debería insistirse, sin embargo, en que estos son subjetivos.
Una correlación baja de una sección de una prueba con respecto a otras sec­
ciones significa a m enudo que está midiendo algo distinto que las demás. Puede
darse más peso a esta parte para aumentar su contribución a la puntuación total.
Si las partes de distinta longitud tienen la misma ponderación, deberían pon­
derarse los resultados técnicamente para que sus desviaciones típicas fueran igua­
les (para una explicación y discusión detalladas, véase Ebel, 1979: 252—5). En
general, sin embargo, el m ejor consejo es no ponderar las secciones de acuerdo
con un ajuste de puntuaciones según una fórm ula, sino ponderarlas en el
m om ento de la elaboración de la prueba, incluyendo más o menos ítems en las
distintas partes.

7.3. Transformación
Si, a pesar de las diferencias de longitud, cada parte de la prueba se considera
igualmente importante, entonces será necesario transformar las puntuaciones
antes de sumarlas o compararlas. La forma más común de transformación es la
de convertir las puntuaciones de cada parte en porcentajes: dividiendo la pun­
tuación por el núm ero de ítems y multiplicando por 100.
Hay form as m ás com plejas de transform ación de resultados (puntuaciones
según criterios, puntuaciones z y otras): se tratan en la mayoría de los libros de
texto sobre la evaluación en la educación y no se describirán aquí. Baste decir
que el efecto final de tales transformaciones es el de hacer comparables las pun­
tuaciones de distintas secciones y, a m enudo, si se suman, conseguir que estén
ponderadas equitativamente.
Las decisiones sobre la transformación pueden suponer la comparación de la
actuación de un candidato dado en una sección de la prueba con su actuación

147
Informe de resultados y determinación de la puntuación de aprobado

en otra sección. Puede decidirse ajustar las puntuaciones de una parte a la luz
de las puntuaciones de otra. Por ejemplo, la puntuación de un candidato en la
prueba de expresión oral, corregida de form a subjetiva, puede ajustarse para
acercarla a la puntuación de esta m ism a persona en una prueba de comprensión
oral corregida de form a objetiva: esto podría justificarse si una prueba se con­
sidera o se sabe que es m ás válida o fiable que otra. La justificación para trans­
formar puntuaciones es a m enudo subjetiva y está influida por consideraciones
pedagógicas, psicométricas y de lingüística aplicada.
Puede ser importante saber si las partes de una prueba se han transformado
y cóm o ha ocurrido, puesto que afecta directamente a la puntuación final y por
lo tanto lo que ésta significa. Si, por ejemplo, la puntuación de una prueba de
expresión escrita con un valor m áxim o de 20 puntos se sum a a la puntuación
de una prueba de comprensión lectora con un valor m áxim o de 50 puntos para
llegar a una puntuación final m áxim a de 70, esta puntuación final contará cla­
ramente con m ás puntos de lectura que de expresión escrita: en otras palabras,
la capacidad lectora de una persona tendrá más peso en la nota final que la capa­
cidad de redactar, si las dos pruebas tienen una dificultad, fiabilidad y variabi­
lidad equivalentes.

7.4. Suma final


En el caso en que el resultado sea una letra o un número, esta puntuación estará
form ada por distintos com ponentes: la sum a de las puntuaciones de las dife­
rentes partes del examen. Esta sum a se hace a m enudo de form a complicada.
Para ilustrarlo, tom arem os el caso del UCLES First Certifícate in English, no porque
el examen sea ejemplar, sino porque resulta conocido para m uchos lectores.
El exam en del FCE consiste en 5 «p a rte s» o pruebas. Cada parte tiene un
número variable de puntos posibles:
La parte 1 (com prensión de lectura) tiene un valor de 55 puntos (a partir de
25 ítems de un punto cada uno y de 15 ítems de 2 puntos cada uno). La pun­
tuación del candidato en esta sección se transforma m ás adelante en una pun­
tuación sobre un m áxim o de 40 puntos.
La parte 2 (expresión escrita) tiene cinco preguntas que se corrigen de forma
subjetiva y que se puntúan de 0 a 20. Las puntuaciones del candidato se con­
vierten en una puntuación sobre un m áxim o de 40 puntos.
La parte 3 (uso de la lengua) se corrige sobre una puntuación total que se
decide durante la reunión de los examinadores (UCLES General Handbook, 1987: 48)
a m enudo entre los 70—80 puntos. La puntuación final del candidato se trans­
forma en una puntuación sobre un m áxim o de 40 puntos.
La parte 4 (com prensión oral) tiene una nota total de 20. «Este total final de
20 puede suponer el ajuste de las puntuaciones iniciales en un número de ítems
individuales; esto se hace para dar la ponderación deseada a algunas respuestas
por cuestiones de discriminación y para paliar, por ejemplo, el factor del acierto
por azar de los ítems de verdadero/falso» (UCLES General Handbook, 1987: 57).

148
Las distintas puntuaciones

La parte 5 (expresión oral) tiene un m áxim o de 30 puntos y la puntuación


del candidato se transform a en una puntuación sobre un m áxim o de 40 pun­
tos. Sin em bargo, esta puntuación sobre 40 se ajusta « s i no concuerda con la
actuación del candidato en las otras partes» (UCLES General Handbook, 1 9 8 7 : 4).
El resultado de este proceso son cinco puntuaciones que se sum an basta un
posible m áxim o de 180. En otras palabras, los candidatos tienen resultados para
cada sección (comprensión de lectura, expresión escrita, uso de la lengua, com­
prensión auditiva y expresión oral) que tienen aproximadamente el mismo peso.
Debe decirse que este proceso es complejo y que en principio resulta a menudo
m ejor evitar el uso de tales complejidades ajustando el equilibrio de los ítems
en la prueba y asegurando la fiabilidad de los correctores con una form ación
adecuada.

7.5. Las distintas puntuaciones


A la hora de comprender los resultados de un examen, la puntuación final tiene la
mayor importancia: la puntuación que se da a los candidatos o a las empresas o
a las escuelas. En principio, una vez ponderadas y transformadas las puntuacio­
nes parciales, es posible informar sobre cada puntuación parcial por separado o
combinarlas de algún m odo con el objetivo de tomar decisiones o de informar.
El enfoque m ás simple es el de combinar las puntuaciones sumándolas y deci­
dir una puntuación de corte para «aprobar» respecto al examen com o un todo.
Esto, en realidad, es un procedimiento m uy com ún en los exámenes escolares
y a m enudo se utiliza también en exámenes de ámbito nacional. En este enfo­
que, la actuación de un candidato en una sección puede compensar una actua­
ción pobre en otra sección. Sin embargo, esta compensación no será explícita y
se verá obviam ente afectada por el distinto peso de cada sección del examen.
Una forma de afinar este enfoque de aprobado/suspenso es tener distintas pun­
tuaciones de corte: una puntuación es el límite entre el aprobado y el suspenso,
una segunda puntuación, y m ás alta, es el límite entre el aprobado y el notable,
una tercera puntuación es el límite entre el notable y el sobresaliente. Esta es,
por ejemplo, la costumbre en los exámenes de nivel O del GCE en muchos paí­
ses. En el caso de los exámenes de FCE y de CPE de UCLES, los candidatos aprue­
ban con una puntuación A, B o C, y suspenden con una D o una E. Una forma
de afinar m ás todavía es tener notas de corte para cada sección de la prueba y
no permitir a los candidatos que aprueben el examen si no consiguen una pun­
tuación m ínim a en cada parte (véase apartado 7.7, m ás adelante).
En m uchos exámenes del Reino Unido, la puntuación final es una letra o un
núm ero. Sin em bargo, no es necesario dar una puntuación global: es posible
dar las puntuaciones de las partes m ás importantes de la prueba por separado.
Por ejemplo, un tribunal de exámenes puede dar una puntuación de perfil, de
la A a la D, para las cinco partes distintas: expresión escrita, corrección, com ­
prensión de lectura, comprensión auditiva y expresión oral (el examen de JMB'S
UETESOL). Algunos exámenes hacen las dos cosas: el IELTS, por ejemplo, da las

149
Inform e de resultados y determ inación de la puntuación de aprobado

puntuaciones de O a 9 para las cuatro partes de expresión oral, com prensión


auditiva, comprensión de lectura y expresión escrita, pero también da una pun­
tuación global, que es la sum a y la m edia de las cuatro puntuaciones parciales.

7.6. ¿Combinar o no combinar?


A m enudo se discute que el enfoque sim ple de dar una letra com o resultado
final, aunque fácil, puede ser injusto para algunos candidatos, puesto que no se
reconocen sus distintas capacidades en las partes que com ponen el examen. La
alternativa mencionada con anterioridad trata cada componente de forma sepa­
rada y da puntuaciones según un perfil, de acuerdo con el cual un candidato
podría «a p ro b a r» dos partes y «su sp en d er» tres: no se calcula ni se inform a
sobre un «aprobado» o «suspen so» global. El problema que presenta este enfo­
que es que ignora las necesidades del mundo real: las personas que toman deci­
siones necesitan a m enudo sólo una inform ación, no un núm ero de
informaciones que requerirá una consideración m ás compleja. A la hora de deci­
dir sobre un puesto de trabajo o sobre la adm isión a estudios superiores, los
jefes de personal y los tutores necesitan saber si un candidato es o no adecuado
en térm inos am plios y pueden no llegar a com prender que tal decisión sea a
m enudo un asunto complejo.
Un enfoque ligeramente distinto consiste en informar de los resultados, pero
no estipular una puntuación de corte para «aprobar». En tales casos la respon­
sabilidad de decidir si una puntuación es adecuada o inadecuada pesa sobre el
usuario de la puntuación. Este es el enfoque que toma el ETS, que no decide una
puntuación de «aprob ad o» para los resultados del TOEFL, aunque instituciones
particulares fijan sus propias puntuaciones de corte para las adm isiones. El
mismo enfoque es el adoptado para el examen de IELTS, aunque se facilitan des­
criptores para cada puntuación, que guíen a los usuarios de las puntuaciones
sobre la interpretación del significado de las mismas.
Resulta interesante examinar la práctica actual de la utilización de las puntua­
ciones de perfil del IELTS. La intención a la hora de dar las cuatro puntuaciones
de perfil sin indicación alguna de aprobado o suspenso es la de permitir a las dis­
tintas instituciones decidir cual es el perfil apropiado para el candidato. Por ejem­
plo, puede resultar que los estudiantes de Ingeniería Eléctrica no necesiten una
puntuación alta en expresión oral, pero necesiten una buena puntuación en com ­
prensión de lectura, mientras que los estudiantes de Derecho necesiten ser bue­
nos en expresión oral y en com prensión de lectura. Así pues la decisión de
admitir o no admitir variará de acuerdo con la disciplina de la institución y el
candidato. Sin embargo, en la práctica, la mayoría de los tutores responsables de
admisiones probablemente ignoran las puntuaciones de perfil y sólo tienen en
cuenta la puntuación final; la media de las cuatro puntuaciones. Incluso aquí, es
posible discutir qué un futuro estudiante de Lingüística necesite una puntuación
global m ás alta que un estudiante de Agricultura, por ejemplo, puesto que las
demandas lingüísticas de una disciplina pueden ser más altas, en general, que las

IS O
La determ inación de las puntuaciones para aprobar

de la otra. De todas formas, m uchos tutores simplemente consideran que una


puntuación de 6'5 es «adecuada» y cualquier puntuación por debajo es «inade­
cuada», sin tener en cuenta la disciplina solicitada. En otras palabras, los que
toman las decisiones ignoran —algunos dirían que infrautilizan—el valor de las
puntuaciones de perfil en las decisiones sobre selección.

7.7. La utilización de las puntuaciones parciales


para tomar decisiones
Supongam os, pues, que es importante, tanto por razones teóricas como prácti­
cas, tomar una decisión global sobre un candidato a partir de las puntuaciones
parciales. Podría decidirse que un candidato debe «aprobar» todas las pruebas
para aprobar el examen en su totalidad. O también, podría permitirse suspen­
der una prueba de las cinco; por ejemplo, un candidato podría todavía aprobar
el exam en a pesar de no haber sacado un buen resultado en una prueba. O
podría decidirse también que si un candidato suspende una prueba, deberá obte­
ner una puntuación alta en otra de las de pruebas para compensar (esto se llama
«co m p en sació n »). O podría estipularse que un candidato sólo puede aprobar
el examen si ha llegado a una nota m ínim a estipulada en una parte en particu­
lar (esto se llama «b arrera»).
Está claro que la noción de «aprobar» un examen como un todo presenta pro­
blemas conceptuales en potencia y puede provocar gran número de arbitrarie­
dades. Los candidatos pueden llegar a la m isma puntuación global de diferentes
formas y obtener un aprobado, aunque tengan perfiles distintos. Esta es una de
las principales razones por las que muchos consideran que es mucho mejor dar
puntuaciones de perfil que dar puntuaciones globales, sea una nota de apro­
b ad o / suspenso o sea una nota a interpretar por los futuros usuarios de los resul­
tados de la prueba.
Otro problem a que se ha detectado en la noción de etiquetar la actuación en
una prueba com o «ap rob ad o» o «suspen so» es que una actuación, o una pun­
tuación, puede tener distintos valores según el objetivo para el que se utiliza: lo
que se considera adecuado para un objetivo o para una población de candida­
tos puede ser inadecuado o m uy adecuado para otro objetivo u otra población.
Esta es la razón por la que muchos resultados de examen se dan con referencia
a una escala y no como una decisión de aprobado o suspenso, por ejemplo como
aprobado, notable o sobresaliente, tal com o mencionam os antes. Puede resul­
tar incluso, com o ocurre en los exámenes de niveles A en el Reino Unido, que
se facilite m ás de una puntuación de suspenso.

7.8. La determinación de las puntuaciones para aprobar


A pesar de las consideraciones de los apartados anteriores, en muchos casos y
por distintos m otivos, los evaluadores se ven forzados a determinar si la actua­
ción lingüística de un candidato es adecuada (un aprobado) o inadecuada (un

1S1
Inform e de resultados y determ inación de la puntuación de aprobado

suspenso). En el Reino U nido, por ejemplo, es práctica com ún en los tribuna­


les de exámenes el fijar puntuaciones de corte. Como hemos visto, esta decisión
puede tomarse para cada prueba o para todo el examen. En las pruebas corre­
gidas de form a subjetiva, especialmente en pruebas referidas a un criterio, esta
decisión puede tomarse para cada tarea y el examinador decide si el candidato
ha completado la tarea de forma adecuada o no. Sin embargo, en muchas prue­
bas, la puntuación final será una com binación de ítem s corregidos de form a
objetiva y de form a subjetiva. ¿Cóm o pueden determinarse los lím ites entre
aprobado y suspenso para un examen en su totalidad?
Vale la pena señalar en este punto que en muchos contextos la determinación
de una nota para aprobar no se considera un problema y se juzga apropiado un
porcentaje fijo. Puede ser el 50% o el 75% u otro número m ágico. Esto es sim ­
plemente una cuestión de tradición histórica y no hay razón para que una cifra
en particular sea la frontera entre aprobado y suspenso.
Un aspecto del problem a de cómo determinar las puntuaciones para aprobar
es la diferencia entre las pruebas referidas a una norm a y las pruebas referidas
a un criterio, m uy discutida en la bibliografía sobre evaluación (véase, por ejem­
plo, Ingram, 1977). Ya hem os tratado este tema en el capítulo 4, pero resulta
aquí m uy apropiado un breve recordatorio sobre la distinción.
En las pruebas referidas a una norm a, lo que ocurre en esencia es que cada
candidato se com para con otros candidatos, tanto con los que han hecho la
prueba antes para establecer las norm as de la prueba, como los que han reali­
zado a la prueba en su versión final. El caso más simple es cuando los candida­
tos se ordenan de acuerdo con sus puntuaciones y se decide arbitrariamente qué
núm ero de estudiantes han «ap ro b ad o ». Este núm ero arbitrario puede venir
dado por la disponibilidad de plazas en una institución o por la m edidas del
aula. Por ejemplo, una institución puede ser capaz de ofrecer clases de repaso
de com prensión de lectura y de escritura a sólo 40 alumnos. Puede utilizarse
una prueba de nivel para identificar a los 40 candidatos más flojos en estas des­
trezas. Los estudiantes que saquen puntuaciones m ás altas que el candidato
número 40 a partir del último pueden considerarse que han «aprobado»: no se
les aceptará en las clases, a causa de la falta de espacio.
La mayoría de las decisiones son m ás complejas que ésta y no las dicta tanto
la disponibilidad de recursos como las opiniones de los profesores, de los admi­
nistradores o incluso de los políticos a partir de su experiencia en la docencia o
de sus nociones sobre los criterios académicos apropiados para una población
dada. Un sistema educativo puede creer que los criterios de aprovechamiento
en la enseñanza secundaria corresponden a un 40 % de la población que no llega
al criterio. Esto se traduce en la determinación de una puntuación para aprobar
que permita pasar a un 60% de la población, presente o futura.
Una alternativa, sólo un poco m ás sofisticada, es la de «pun tuar sobre la
curva». Esto se refiere a la distribución normal o campana de Gauss (véase cual­
quier libro de introducción a la estadística), y supone que las distribuciones nor­
males existen y que son las m ás apropiadas para la competencia lingüística y el

152
La determ inación de las puntuaciones para aprobar

aprendizaje. (No discutiremos aquí si esta presunción está justificada.) Básica­


mente, la idea es la de agrupar a los candidatos en categorías de acuerdo con su
puntuación expresada en términos de desviaciones típicas. Los que están por
encima de dos desviaciones típicas sobre la m edia se consideran «sobresalien­
tes» o «excepcionales» y reciben la nota más alta; los que están entre una y dos
desviaciones típicas sobre la media se consideran «buen os» y se clasifican como
tal; y así sucesivam ente hasta los «excepcionalm ente flojos», para los que su
puntuación está más de tres desviaciones típicas por encima o por debajo de la
media. Por desgracia, una puntuación cualquiera no es necesariamente «excep­
cionalmente buena» o «m ala» simplemente porque esté más de tres desviacio­
nes típicas por debajo de la m edia: se trata de una nota extrema, y su calidad
debe interpretarse de acuerdo con el contenido y el objetivo de la prueba así
como en relación a la población que ha realizado la prueba.
Se adopta un enfoque similar cuando se analiza la curva de distribución para
ver si hay huecos en la distribución: las curvas bimodales (véase la figura 7.1)
son útiles para la misma, puesto que la caída en la curva de frecuencia facilita un
punto de corte natural (aunque éste debería interpretarse en términos del signi­
ficado de la puntuación y de la dificultad de la prueba así como de su objetivo).

Nota

Fie. 7.1. Distribución bimodal

La evaluación referida a un criterio es distinta, al menos en principio. Se define


un criterio o modelo a priori —antes de administrar la prueba—y se considera apro­
bado a todo candidato que ha igualado o superado tal criterio. No hace falta decir
que la realidad no es nunca tan sencilla: el problema aparece a la hora de decidir
cuál debe ser el criterio para una prueba dada. En las pruebas de expresión oral
y de expresión escrita es posible discutir que el proceso de puntuación pueda lle­
varse a cabo con referencia a un criterio, puesto que la mayoría de los descrip­
tores de los criterios de puntuación contienen, en esencia, definiciones de
Inform e de resoltados y determ inación de la puntuación de aprobado

adecuación, y los correctores deben juzgar si el candidato cumple el modelo para


cada criterio. Aunque esto es de por sí poco claro, es mucho m as com plicado
aplicar este principio a las pruebas de ítems discretos de gramática o de vocabu­
lario, o incluso en las pruebas de tipo cloze que pretenden medir la comprensión
de lectura. ¿Qué consdtuye un resultado adecuado en esta prueba de gramática?
¿Qué podem os considerar un aprobado en la prueba de tipo doze?
Una manera de responder a esta pregunta de forma no arbitraria es identifi­
cando «m o d e lo s» o personas que se sabe que poseen la habilidad que se está
m idiendo y ver cóm o responden a la prueba. Por ejemplo, podría seleccionarse
a personas que se sabe que son buenas lectoras, y ver cóm o responden a una
prueba de com prensión de lectura. Esta actuación se compararía entonces con
las personas que no pueden considerarse «m o d e lo s» en cuanto a actuación
lingüística y se tom aría una decisión sobre dónde se marca la puntuación de
corte entre los dos tipos de actuación. En las pruebas de dom inio, una buena
fuente de «m od elos» la constituyen los hablantes nativos con estudios que pue­
den utilizar de forma competente la lengua sobre la que se evaluará a los can­
didatos. Sin embargo, para la mayoría de las pruebas de aprovechamiento (véase
el capítulo 2 para la discusión de las diferencias entre pruebas de dom inio y de
aprovechamiento), es mucho más problemático identificar m odelos adecuados,
y puede que la única form a de conseguirlos sea utilizando alumnos que ya han
superado con éxito el program a que se evalúa.
Un enfoque altemaüvo, conocido como «determinación de criterios» es pedir
a expertos en la materia —profesionales formados que tengan la experiencia rele­
vante- que analicen el contenido de la prueba y decidan cual será con toda pro­
babilidad la actuación de aquellos candidatos que tienen aproxim adam ente el
nivel de la prueba. Una form a de llevar esto a cabo es pedir a los expertos que
estimen las probabilidades que un candidato tiene, para cada ítem, de dar una
respuesta correcta. Estas probabilidades pueden a continuación sumarse junto a
las del resto de la prueba, de la m ism a form a que se suman los resultados rea­
les, para llegar a un porcentaje probable de aprobado para un candidato. Por
ejemplo, los expertos podrían estar de acuerdo en que la probabilidad de que
un candidato que tiene aproximadamente el nivel de la prueba acierte el ítem 1
es del 75%, mientras que para el ítem 2 es del 50% y para el ítem 3 es del 25%.
La sum a sería 75 + 50 + 25 dividido por 3 = 50%. La puntuación para apro­
bar esta prueba con tres ítems sería pues de 1,5.
Debe decirse que este procedim iento es largo y tedioso: un atajo más prác­
tico es el de pedir a los expertos que analicen las partes de cada prueba y esti­
m en qué resultado consideran que un candidato con el nivel adecuado debe
obtener en cada parte.
Un procedim iento alternativo, detallado en Ebel y Frisbie, 1991, utiliza la
escala que se va a utilizar para informar de los resultados. Primero, se establece
la puntuación que se asignará a una actuación m ínim am ente suficiente (por
ejemplo una D). Se redacta una descripción sobre el conocimiento y habilidad
que tiene un alum no que pasa la prueba con la puntuación m uy justa, y des-

154
Estudio sobre los tribunales de exámenes de in g lés...

pues se hace lo m ism o para el resto de las puntuaciones (en este caso, C, B y A).
A continuación, un experto lee el prim er ítem de la prueba y decide si un
alumno flojo puede responderlo de forma adecuada. Si es así, se etiqueta el ítem
con una D. Si no, el experto decide si un alumno de nivel C puede responderlo
correctamente y etiqueta el ítem con una C. Se sigue este procedim iento para
todos los ítems de la prueba. Se cuenta el número de ítems que tienen una D y
el núm ero resultante representa la puntuación de corte para un alumno D. El
total de ítem s que tienen una C se sum a a la puntuación de corte para D y se
convierte en la puntuación de corte para C. Se siguen procedimientos similares
para obtener el resto de puntuaciones de corte, que deberán ajustarse a la baja
para compensar posibles errores de medición. Otros procedimientos para la fija­
ción de criterios se describen en la bibhografia sobre la evaluación referida a un
criterio (véase por ejemplo Popham, 1990).
No hace falta decir que en estos procedimientos, y para aspirar a una validez
m ínim a, resulta im prescindible tener razones de peso para entender que los
expertos son tales, y estas razones deben ser explícitas. En la práctica, aunque
estos procedim ientos podrían llevarlos a cabo tribunales de exámenes im por­
tantes, la decisión sobre las puntuaciones para aprobar se tom a a m enudo de
form a m ás arbitraria y se refiere - d e form a in apropiada- al porcentaje global
que se ha usado históricamente.
En resum en, el proceso de ponderación y de com binación de las notas por
ítem y por nivel para llegar a resultados adecuados puede ser complejo. Los pro­
cedimientos que se utilicen dependerán en gran parte del objetivo de la prueba
y deberían reflejar lo que uno cree o, m ejor, lo que uno sabe sobre la natura­
leza de la competencia lingüística y del aprendizaje de idiom as. Tomar decisio­
nes sobre lo que se puede considerar aprobado o suspenso es igualm ente un
tema com plejo, y por este m otivo los elaboradores de pruebas tienden a evi­
tarlo, dejando la decisión en m anos de instituciones y de usuarios para que
actúen de acuerdo con sus intereses. Sin embargo, cuando se espera que un exa­
men facilite las decisiones de aprobado y suspenso, existen —aunque haya difi­
cultades- form as de obtener puntuaciones de corte empírica y racionalmente,
o al m enos defendibles, y no de forma arbitraria o al azar.
A continuación veremos cómo toman tales decisiones los tribunales de exá­
menes de inglés com o lengua extranjera en el Reino Unido.

7.9. Estudio sobre los tribunales de exámenes de inglés


como lengua extranjera: cuestionario
Tratamos estos puntos en el cuestionario de las preguntas 42 y 43. La pregunta
42 consultaba sobre las reuniones que se convocaban cuando se había com ple­
tado la corrección del examen. Esperábam os que hubiera una reunión para
tomar decisiones sobre la ponderación de los resultados, en la que se tomarían
decisiones sobre transform ación y com binación y en la que se discutirían las
puntuaciones para aprobar.

155
Inform e de resultados y determ inación de la puntuación de aprobado

PREGUNTA 4 2 : ¿Se convocan reuniones (reuniones para decidir las notas, reuniones de examinado­
res) antes de entregar los resultados? En caso de respuesta afirmativa, ¿cómo son estas reuniones?
La mitad de los centros que respondieron dijeron que existen esas reuniones,
llamadas «sesiones de resultados». En esta reunión, para citar a un tribunal,«se
determinan los límites entre puntuaciones, se revisan los casos límite y se ana­
lizan los ejercicios escritos en los que algunos examinadores expertos tuvieron
dificultades o dudas».
Citando a otro tribunal: «Los examinadores tienen a su disposición durante
la reunión las estadísticas del año en curso y de años anteriores, los exámenes
del año en curso y los casos límite de años anteriores. Utilizando esta inform a­
ción se determina el límite entre aprobado y suspenso, se revisan los casos límite
y se redacta un informe sobre la puntuación final». Tres tribunales se refirieron
al proceso de análisis de los «casos lím ite» como una «reconsideración del tra­
bajo de todos los candidatos que están justo por encima o por debajo de cada
límite de puntuación». Debería mencionarse, sin embargo, que sólo cuatro tri­
bunales describieron tal tipo de proceso.
Entre los tribunales que respondieron que no mantenían tal tipo de reunión,
uno respondió: «Se solían convocar, pero ahora se da una nota para cada des­
treza», y otro respon dió: «L os exám enes pueden revisarse si se solicita. Los
correctores tienen instrucciones de corregir de nuevo los resultados que se hallan
en el límite y en caso de duda, someterlos a la consideración del tribunal para
que lo hagan llegar, si es necesario, al supervisor.»
El único examen de UCLES que no mantenía este tipo de reunión era el IELTS,
que no facilita puntuaciones de aprobado y suspenso (véase la discusión en los
apartados 7.4 y 7.6 más arriba). El resto de los exámenes de UCLES seguía pro­
cedimientos parecidos a los m encionados anteriormente.
La pregunta 43 consultaba de forma explícita sobre los procedim ientos para
determinar el límite entre aprobado y suspenso, presuponiendo que el proceso
no necesariamente debía desarrollarse durante una reunión, sino que podían
hacerlo los responsables del examen posiblemente con un ordenador.

PREGUNTA 4 3 : ¿Se sigue algún procedimiento especial para decidir sobre los límites entre aprobado
y suspenso?
Tres cuartas partes de los tribunales que respondieron explicaron los proce­
dimientos especiales que seguían para decidir las puntuaciones para aprobar. A
m enudo se parecían a los descritos, pero un tribunal añadió la siguiente infor­
mación: «El informe sobre la puntuación final que se elabora después de la reu­
nión incluye las discrepancias que pueda haber entre las puntuaciones para
aprobar del año en curso y las de años anteriores (teniendo en cuenta nuestra
rápida expansión y por lo tanto el cam bio en núm ero y en naturaleza de nues­
tra población de can didatos).» Sólo tres tribunales hicieron referencia a esta­
dísticas sobre la actuación de los candidatos en el examen del año en curso o de
años anteriores. El examinador jefe parece ser importante en este proceso para
al menos un tribunal.

156
Estudio sobre los tribunales de exámenes de in g lés...

Entre los tribunales que respon dieron negativam ente a la pregunta, uno
señaló que «se determinan los lím ites entre las distintas puntuaciones antes
del exam en ». D esconocem os cóm o pueden com pensar la dificultad inespe­
rada de un examen.
La m ayoría de los exámenes de UCLES parecen seguir procedimientos espe­
ciales a la hora de decidir los límites entre puntuaciones, pero sólo dos respon­
sables detallaron sus respuestas:
Informes del examinador, datos sobre el nivel de los ítems, comparación con
actuaciones anteriores (FCE, CAE, CPE, Paper 4).
En cada prueba un candidato sólo puede suspender una tarea. Para aprobar el
examen, los candidatos deben aprobar todas las pruebas (CEIBT).

Esta última respuesta era el único caso en que las respuestas al cuestionario
hicieron referencia a las decisiones de aprobar o suspender a un nivel de sec­
ciones de una prueba. Sin embargo, pudim os recoger información sobre estos
aspectos al analizar los docum entos que recibim os (véase apartado 7.10 más
adelante).
Las respuestas a estas dos preguntas fueron diversas y detalladas. Parece que es
habitual que los examinadores y los responsables de examen tengan reuniones
para discutir las puntuaciones para aprobar. Debido a que en el Reino Unido los
resultados de los exámenes de GCSE y de los niveles A reciben mucha publici­
dad, en especial en lo que se refiere a los cambios de puntuación para aprobar
año tras año, y puesto que se comparan estos cambios entre los diferentes tribu­
nales de exámenes —una de las pocas áreas que puede ser analizada por el gran
público- se presta mucha atención al mantenimiento de los criterios año tras año.
Otro tema es si los criterios son apropiados, que puede tratarse o no en las reu­
niones m encionadas. Sin em bargo, es tranquilizador saber que parece que se
siguen los m ism os procedim ientos para los exám enes de inglés com o lengua
extranjera o inglés com o segunda lengua (que no forman parte del sistema de
los niveles A o del GCSE.) Los procedim ientos parecen combinar la evaluación
referida a una norm a y la evaluación referida a un criterio. Lo que no sabemos
con detalle es cómo se deciden exactamente las puntuaciones para aprobar: pode­
m os sólo suponer que las personas implicadas en ello toman decisiones a partir
de la información que recogen con respecto a lo que constituye una actuación
adecuada. El tener muestras de actuaciones de las distintas puntuaciones facilita
obviamente el proceso y nos da m ás confianza en su validez. Para pruebas que
incluyen componentes orales esto es naturalmente más problemático.
La reunión de puntuación, cuando tiene a su disposición información sobre
la actuación en el año en curso, las estadísticas de años anteriores, las pruebas
de los candidatos y las pruebas límite de años anteriores, está en condiciones de
mantener los criterios constantes a través de los años, si podem os suponer que
la población que se presenta al exam en es constante en lo que se refiere a sus
capacidades y a su actuación. Sin embargo, esto no ocurre cuando la población
crece o disminuye o cuando se han introducido innovaciones en el formato de

157
Inform e de resultados y determ inación de la puntuación de aprobado

la prueba, en sus contenidos o en los criterios de puntuación. Además, no está


nada clara la confianza que se puede tener en la consistencia de los resultados
de tribunales que tienen un número pequeño de candidatos o en los resultados
de aquellos tribunales que no siguen los procedimientos mencionados de adju­
dicación de puntuaciones.

7.10. Estudio sobre los tribunales de examen de inglés


como lengua extranjera: documentación
La documentación que recibim os de los tribunales contenía bastante inform a­
ción sobre cómo se informa de los resultados, pero mucha m enos sobre cómo
se determinaban las puntuaciones para aprobar y cuáles eran los porcentajes de
aprobados.

7.10.1. Ponderación
La mayoría de los centros de exámenes no dan demasiada información sobre la
ponderación de sus exámenes. La excepción son la Oxford Delegacy, el ARELS
Examinations Trust y UCLES.
Por ejemplo, Rationale, Regulations and Syllabuses incluye comentarios sobre la pon­
deración de las distintas secciones de las pruebas de Oxford:
Excepto para la sección 1, el número preciso de puntos adjudicados varía de
examen a examen, para poder llevar a cabo los ajustes necesarios según el
trabajo que se requiere para cada sección. La proporción es en general:
Sección 1 33 a 35%
Sección 2 40 a 54%
Sección 3 11 a 15%
Sección 4 5 a 6%
Sección 5 5 a 6%
Las secciones 1 y 2 tienen el mayor número de puntos, pero los candidatos
cometen a menudo el error de no prestar la suficiente atención a las últimas
secciones, en las que todavía pueden ganar puntos.
(Rationale, Regulations and Syllabuses, sin fecha: 4)
El UCLES General Handbook (1 9 8 7 ) hace referencia a un «program a de investi­
gación intensivo en el que se estableció la deseable ponderación relativa de los
elementos objetivos y subjetivos en la evaluación de la lengua hablada y escrita»
(1987: 3), pero no se dan m ás detalles sobre esta investigación. Sin em bargo,
se da información sobre cómo se calculan y combinan los resultados de las dife­
rentes secciones de cada prueba. Se dice que los puntos fuertes y las lim itacio­
nes de diversos form atos ampliamente aceptados se com pensan los unos con
los otros... Los resultados en las secciones de corrección objetiva, sección 1 y
sección 4, se correlacionan con los resultados obtenidos de form a m ás tradi­
cional, por ejemplo, los obtenidos por la actuación en diversas tareas com uni­
cativas» (1 9 8 7 : 3).

158
Estudio sobre los tribunales de exámenes de in g lés...

En efecto, tal com o hem os visto en el apartado 7.4 más arriba, lo que sucede
es que los resultados de las pruebas subjetivas se ajustan a la luz de las pruebas
objetivas «teniendo en cuenta cualquier variación entre exam inadores» o, en el
caso de la sección 5 (expresión oral), «cuando su contribución a la puntuación
total no coincide con la prevista a partir de la actuación del candidato en otras
partes» (1987: 4). En otras palabras, si un candidato obtiene muy buenos resul­
tados en la prueba de expresión oral en comparación con su actuación en el resto
del examen, su resultado se ajustará probablemente a la baja.
El General Handbook da la siguiente información sobre lo que sucede después del
proceso de puntuación:
... las puntuaciones iniciales se convierten en «puntuaciones normalizadas»
calculando la media y la desviación típica de todas las puntuaciones otorgadas
por un examinador en concreto, ajustándolas para que se acerquen a la media
y a la desviación típica de las puntuaciones obtenidas por los candidatos en la
sección 1 [...] de modo que se minimice la subjetividad de la corrección [...]
La utilización de puntuaciones normalizadas tiene el efecto de reducir el
«agrupamiento» de resultados que se halla a menudo en la corrección de
redacciones y el de asegurar que muchos candidatos obtengan el máximo de
40 puntos (1987: 17).

El problem a de este enfoque es, naturalmente, que no perm ite que haya
demasiada diferencia entre las distintas capacidades de un candidato: si la actua­
ción no «está en línea», se ajusta para que se acerque a la actuación en otras sec­
ciones. N os gustaría haber encontrado m ás fundam entos, especialm ente del
programa de investigación citado, para esta práctica dudosa. Los ajustes pueden
hacerse para compensar la baja fiabilidad de la entrevista si se compara con las
otras partes de la prueba, pero esto tenderá a afectar a la validez. Sería más ade­
cuado tratar el problem a de una baja fiabilidad con una m ejor form ación y
supervisión de los correctores.
En A Brief Guide. EFL Examinations and TEFL Schemes, se describe el PET como una
prueba con 100 puntos en la que se adjudica un 25% a cada componente (com­
prensión de lectura, expresión escrita, comprensión oral y expresión oral). No se
dan razones para el uso de una ponderación de igualdad en este examen en vez
de la ponderación más complicada que se utiliza en el resto de exámenes de UCLES
descritos más arriba. No hay información disponible sobre actuaciones flojas en
un componente y cómo pueden compensarse por una buena actuación en otro.

7.10.2. El informe de resultados y la determinación


de las puntuaciones para aprobar
Varios tribunales simplemente publican las puntuaciones finales y parecen tener
notas fijas para aprobar. Por ejemplo, CENTRA publica un folleto que describe
sus Tests in English Language Skills 1992. En este folleto afirma que:
Los resultados se adjudicarán de la siguiente manera:
aprobado, 40%; notable, 55%; sobresaliente, 70%.

159
Inform e de resultados y determ inación de la puntuación de aprobado

No se fundamentan estos resultados.


Otro ejem plo es el Trinity College de Londres, que administra una serie de
pruebas de expresión oral, cuya descripción incluye la siguiente inform ación
sobre resultados:
Se otorgarán certificados a los candidatos que obtengan las notas mínimas
necesarias: aprobado: 65%; notable: 75%; sobresaliente: 85%.
(Syllabus of Grade Examinations in Spoken English for Speakers of Other Languages, 1990:7)

No hay m ás inform ación sobre cóm o se llega a estos resultados o cóm o se


determinan o analizan las fronteras entre los m ism os.
Tampoco Pitmans o ESB ofrecen fundamentos sobre las puntuaciones finales
que publican, ni hay discusión sobre cómo se consideran, a la hora de decidir
las puntuaciones para aprobar, las variaciones en cuanto a la dificultad del exa­
men de año en año o a las variaciones en el grupo de candidatos.
Algunos tribunales, sin embargo, lo hacen m ejor. El LCCI publica una serie
de documentos que ayudan a definir los resultados y a describir las puntuacio­
nes para aprobar. Para cada examen hay puntuaciones de aprobado, notable y
sobresaliente, que están descritas en términos de comportamiento. Una nota de
un 50% es el aprobado, y un 75% corresponde a un sobresaliente. Un notable
equivale al 60%. Al contrario de otros centros, el LCCI da m ás detalles:
Las puntuaciones límite para un aprobado son un 48 y un 49%, y se volverán
a corregir los ejercicios escritos para ver si se puede dar un aprobado. Límites
parecidos para un notable y un sobresaliente son un 58/59% y un 73/74%
respectivamente.

Además (en dos exám enes), «las notas que caen entre los m árgenes 45—49
después de este nuevo proceso de escrutinio darán al candidato la posibilidad
de un aprobado en un nivel inferior al que se ha presentado» (1987: 9).
Los siguientes comentarios adicionales provienen del Handbook of Duties for Exa­
minen:
Se recomienda a los examinadores que no otorguen un aprobado, notable o
sobresaliente como resultado de la suma «mecánica» de notas. Cada prueba
debería juzgarse en última instancia como un todo: la plantilla de corrección
debe ayudar a juzgar, no a distorsionar el proceso. El criterio primordial de los
exámenes del tribunal es el criterio práctico de su utilidad. Nuestros exámenes
evalúan con referencia a un criterio, por lo tanto no con referencia a una
norma: aprobamos a los que merecen aprobar (y suspendemos a los que
merecen suspender), independientemente de los resultados estadísticos.

Este grado de explicitación es de agradecer: el problema estriba en cómo saben


los exam inadores quién debería aprobar y qué fiabilidad tienen estos juicios
(véase capítulo 6 para m ás discusión sobre este aspecto). El docum ento con­
tiene detalles considerables, pero no se presentan pruebas de la validez del cri­
terio de utilidad, ni tam poco se discuten los aspectos relacionados con la
variación de la dificultad de un examen de un año a otro.

160
Debate

7.10.3. Porcentaje de aprobados


La m ayoría de los centros no facilitaron inform ación sobre el porcentaje de
alumnos que aprobaban y suspendían sus exámenes. La excepción a esto fue el
JMB. En los informes de los examinadores de los exámenes de 1990, se da infor­
mación sobre los márgenes de puntuación de cada prueba, se presenta una tabla
que muestra los puntos correspondientes a cada nota junto con el porcentaje de
candidatos por cada nota en cada sección. Esta cantidad de información es poco
corriente en nuestra experiencia y es de agradecer. Además, el informe señala:
Debe apreciarse que las puntuaciones reflejan la naturaleza de una parte en
concreto de la prueba y la forma en que se ha puntuado, y no representa un
estándar absoluto: las notas, no los puntos, son las que dan cuenta de las
decisiones del examinador sobre niveles de actuación (1990:1).

El comentario siguiente se encuentra en la Guide to English Commerce del LCCI:


Los porcentajes de aprobado y suspenso no se determinan de forma
proporcional al número de alumnos matriculados, sino que varían de acuerdo
con la calidad de los exámenes producidos en cada convocatoria. Puesto que los
mismos examinadores administran, corrigen, supervisan y revisan las pruebas
cada año, los criterios se mantienen razonablemente constantes por lo que las
fluctuaciones en el número de aprobados puede atribuirse a la actuación de los
candidatos, que de por sí puede variar según el día. No pueden pues sacarse
conclusiones reveladoras a partir del número de aprobados [...] Citamos a
continuación, con todas las reservas, los resultados mundiales del periodo
1980—1985, que variaron de acuerdo con los siguientes porcentajes:
Elemental: 64-72%
Intermedio: 35-48%
Avanzado: 29—49%
Estas cifras son meramente un aspecto de la actuación de los candidatos que se
presentaron al examen durante este periodo y no son de ninguna manera
proporciones ideales de la población que habitualmente se presenta a los
exámenes, que en cualquier caso era cuatro veces mayor en el nivel
intermedio que en cualquiera de los otros dos niveles. Esto afecta por su parte
a la importancia que puede darse a las cifras, que deberían utilizarse con gran
cautela (1986: ii).

Este candor es admirable: sin embargo, no explica cómo el LCCI puede con­
fiar en que sus notas para aprobar sean las apropiadas, a pesar de sus afirm a­
ciones, sin información sobre la fiabilidad y validez de los juicios emitidos por
sus examinadores.

7.11. Debate
La práctica en lo que se refiere a las explicaciones facilitadas y a la publicación
de resultados y obtención de notas varía obviamente según los diferentes tri­
bunales. Algunos dan bastantes detalles sobre cómo combinan, ponderan y trans-

/
161
Inform e de resultados y determ inación de la puntuación de aprobado

form an los resultados y llegan a las notas finales o a decisiones sobre quién
aprueba o suspende. Otros dan información que es poco adecuada.
Puesto que algunos tribunales se ven en condiciones de facilitar informes y
descripciones, no puede suponerse que el resto no lo haga por cuestiones de
seguridad.
El problema de decidir cuándo un candidato reúne las condiciones para apro­
bar una prueba en particular es obviamente compleja y difícil. Depende en gran
parte del objetivo de la prueba, de la naturaleza de los candidatos, de la com ­
posición de la prueba, de su fiabilidad y de las consecuencias que se despren­
derán para los candidatos: cuanto más importante sea la prueba, más importante
resulta garantizar que se tom an decisiones válidas y fiables. Enmascarar con
secretismo o misterio el proceso de toma de decisiones no es una respuesta ade­
cuada al problema. Los elaborado res de las pruebas tienen el deber de informar
a los candidatos y a otros interesados sobre los procedimientos que han seguido
para garantizar que se mantengan los criterios y se tomen decisiones razonables,
y también para dar a la gente confianza sobre los propios criterios y su signifi­
cado con respecto al propósito con el que se utilizarán.
Obviamente, la naturaleza de la información facilitada variará según la natu­
raleza de las pruebas a las que se refieran, pero no debería ser difícil, largo ni
costoso para los elaboradores de pruebas el facilitar información estándar sobre
los procedim ientos que siguen y los resultados estadísticos de sus exámenes.
Tal inform ación debería incluir inform es apropiados y fáciles de entender
sobre los resultados, con una descripción clara y precisa sobre la actuación en
la prueba. Debería también explicar el significado y las limitaciones de los resul­
tados ofrecidos. También debería facilitarse información sobre cómo se llega a
la decisión de aprobar o suspender.
Una información adecuada podría incluir lo siguiente:

1. Qué procedim ientos se siguen cuando se ha corregido la prueba y antes


de publicar los resultados.
2. Cuál es, o es probable que sea, la ponderación de cada una de las partes
de la prueba.
3. Qué resultados se publicarán y de qué forma.
4. Cómo se relacionan los resultados publicados con los puntos de la prueba
en su totalidad, y con la puntuación de cada parte de la prueba.
5. Cómo se llevará a cabo, si es que se realiza, la revisión de los casos límite
y cual es el margen de puntos aceptable para cada sección.
6. Qué significa el resultado final con relación al objetivo de la prueba y el
uso de la lengua en el m undo real.

A la hora de decidir qué información debería facilitarse, es instructivo ver qué


criterios se han establecido en otras partes.
Nevo y Shohamy, 1986 incluyen las siguientes categorías de criterios de eva­
luación para los instrum entos de evaluación relevantes de este capítulo (para
más detalle, véase el capitulo 11):

162
Sum ario

Alcance de la información: La información recogida en la prueba debería tener


la amplitud suficiente como para responder a preguntas pertinentes sobre los
conocimientos adquiridos por el alumno y a las necesidades e intereses del
público específico.
Criterios justificados: Los criterios utilizados para determinar los resultados y
la puntuación de la prueba están descritos y justificados con claridad.
Claridad del informe: Los resultados de la prueba se presentan de forma
fácilmente comprensible para el público.
Informe equilibrado: Los resultados de la prueba representan de forma justa y
completa los puntos fuertes y débiles del individuo evaluado.

El Code of Fair Testing Practice in Education (véase capítulo 11), dice que los elabo-
radores de las pruebas deberían:
Facilitar informes de resultados adecuados y fácilmente comprensibles, que
describan la actuación en la prueba de forma clara y precisa. También explicar
el significado y las limitaciones de los resultados publicados (Punto 9,
Elaboradores de pruebas).
Facilitar información que ayude a los usuarios a seguir los procedimientos
razonables para la fijación de la nota para aprobar... (Punto 12, Elaboradores
de pruebas).

Además, los usuarios de la prueba deberían:


Explicar cómo se determinaron los resultados para aprobar y recoger
información sobre la adecuación de los resultados (Punto 12, Usuarios de la
prueba).

7.12. Sumario
Una vez se ha puntuado la prueba, los responsables de la m isma deben tener en
cuenta una serie de aspectos. Algunas de estas decisiones se habrán tomado en el
momento de la redacción de las especificaciones de la prueba o en el momento
de la redacción de la prueba misma. Pueden, sin embargo, revisarse y m odifi­
carse después de la corrección, antes de la publicación de los resultados.
¿Se dará la m isma puntuación a cada ítem, o se darán más puntos a unos ítems
que a otros? ¿Superan los inconvenientes de hacer esto último a las ventajas prác­
ticas de utilizar una puntuación uniforme?
¿Cómo se sumarán las notas de cada ítem? ¿Se requieren notas para cada can­
didato en cada prueba, o en las secciones de cada prueba?
¿Se ajustarán los resultados de algunas secciones según la actuación en otras
secciones? ¿Se ponderarán las distintas secciones de forma diferente? ¿Cómo?
¿Cómo se publicarán los resultados? ¿Se transformarán en una letra como cali­
ficación final o se darán en forma de porcentaje? ¿Se facilitará un perfil de los
resultados, en letras, bandas o números? ¿Se dará una nota total final?
¿Se facilitará sólo urna nota de aprobado o suspenso? ¿Se puede aprobar o sus­
pender cada parte o sólo se tendrá en cuenta todo el examen?

163
Inform e de resultados y determ inación de la puntuación de aprobado

En el caso en que sean necesarias puntuaciones como tales, ¿están determ i­


nadas de forma permanente por tradición o por creencias, o pueden variarse?
¿Cómo se determinarán las puntuaciones para aprobar: contando a partir de
cero o bajando a partir de la nota m áxim a hasta llegar al núm ero preciso; con
referencia a una norma, utilizando las estadísticas de años anteriores y la del año
en curso; con referencia a un criterio, utilizando muestras de actuaciones o de
candidatos «m o d e lo »; solicitando la opinión de expertos sobre la prueba; uti­
lizando una combinación de los m étodos anteriores?
¿Habrá una puntuación límite para revisar los exámenes de los candidatos que
se acerquen a la puntuación para aprobar? ¿Cómo se llevará esto a cabo?
¿Se calcularán los porcentajes de aprobados y se informará sobre ellos?
¿Qué inform ación se dará a conocer sobre los criterios, la ponderación, las
puntuaciones para aprobar y el porcentaje de aprobados, para quién y de qué
forma?
¿Qué significan los resultados que se dan a conocer, y para quién se infor­
mará y de qué?

Bibliografía
Ebel, R. L. (1979). Essentials of Educational Measurement. 3* edición, Prentice-Hall,
Englewood Cliffs, NJ.
Ebel, R. L. y D. A. Frisbie (1991). Essentials of Educational Measurement. 5* edición,
Prentice-Hall, Englewood Cliffs, NJ.
Ingram, E. (1977). «Basic Concepts in Testing.» En J. P. B. Allen y A. Davies (eds.),
Testing and Experimental Methods. Oxford University Press, Oxford.
Joint Committee on Testing Practices (1988). Code of Fair Testing Practices in Education.
American Psychological Association, Washington, DC.
Nevo, D. y E. Shohamy (1986). «Evaluation Standards for the Assessment o f
Alternative Testing Methods: an Application.» Studies in Educational Evaluation, 12,
págs. 149-158.
Popharn, W. J. (1990). Modem Educational Measurement: A Practitioner's Perspective. 21 edición,
Allyn and Bacon, Boston, Mass.

164
8 La validación

Este capítulo trata la cuestión más importante de todas en la evaluación de idio­


mas: ¿Evalúa la prueba lo que se supone que debe evaluar? Este aspecto debería
ser la preocupación primordial de todos los evaluadores, puesto que si una prueba
no es válida para el objetivo para el que se ha preparado, los resultados no signi­
fican lo que se cree que significan. En este capítulo se describirán distintas formas
de evaluar la validez y se discutirá la relación entre validez y fiabilidad. Se buscará
también la respuesta a la pregunta ¿Cómo puedo saber si mi examen es válido?

8.1. La importancia de la validez


Henning, 1987, define la validez como sigue:
La validez se refiere en general a la adecuación de una prueba dada o de
cualquiera de sus secciones como medida de lo que se supone que mide. Una
prueba es válida en tanto que evalúa lo que se supone que evalúa. De aquí se
desprende que el término válida, cuando se utiliza para describir una prueba,
debería ir acompañado de la preposición para. Cualquier prueba puede ser
válida para unos objetivos y no para otros (página 89).

No se puede subestim ar la esencia del propósito para el que se elabora o se


utiliza una prueba. Uno de los problem as m ás com unes de las pruebas es su
mala utilización: utilizar una prueba con un propósito para el que no se diseñó
y para el cual, por lo tanto, se desconoce su validez. Esto no significa que una
prueba no pueda ser válida para más de un propósito. Sin embargo, si se va a
usar para un objetivo, debe establecerse y demostrarse la validez de uso para tal
objetivo. No es suficiente decir: «Esta prueba es válida», a no ser que se pueda
responder a las preguntas siguientes: «C óm o lo sabes? ¿Para qué es válida?
También debe señalarse que la definición de Henning permite distintos gra­
dos de validez: las pruebas son más o menos válidas según sus objetivos: la vali­
dez no es un término absoluto. Esto significa que los usuarios deben utilizar su
criterio o el de otra persona a la hora de decidir, a partir de la evidencia de que
disponen, sobre la validez relativa de una prueba.

8.2. Tipos de validez


La validez puede establecerse de distintas maneras, lo que lleva a la mayoría de
los autores que tratan del tema a hablar de distintos tipos de validez. Seguire­
m os esta costumbre, puesto que facilita la explicación, pero querem os señalar

165
La validación

que estos « tip o s» son en realidad distintos «m é to d o s» de evaluar la validez


(véase Bachman, 1990). Lo m ejor, hay que destacar también, es llevar a cabo
la validación de una prueba en el m ayor núm ero de form as posible. En otras
palabras, cuantos más «tip o s» de validez puedan establecerse, m ejor, y cuanta
más evidencia pueda recogerse para cada «tip o » de validez, mejor.
En los últimos años, el creciente interés en los distintos aspectos de la validez
ha llevado a una confusión de nombres y definiciones, pero la mayor parte de los
evaluadores, aunque usen distintos términos, han identificado tres tipos básicos
de validez: racional, empírica y de constructo (véase Thomdike y Hagen, 1986). La vali­
dez racional (o de «contenido») depende del análisis lógico del contenido de la
prueba para ver si ésta contiene una muestra representativa de las destrezas lingüis­
ticas importantes. La validez empírica depende de la evidencia empírica y esta­
dística sobre si los resultados de los alumnos en la prueba son similares a sus
resultados en otras medidas apropiadas de sus capacidades lingüísticas, como pue­
den ser sus resultados en otras pruebas, sus autoevaluaciones o las valoraciones de
sus profesores. La validez de constructo hace referencia a lo que en realidad sig­
nifican los resultados de la prueba. ¿Qué nos dicen sobre los candidatos? Si se
supone que una prueba evalúa la capacidad de un alumno para usar elementos de
cohesión y de referencia en la expresión escrita, ¿es esto cierto? Para comprobarlo
el evaluador debe formular teorías y predicciones sobre el examen y probarlas.
Sin embargo, tal como ha avanzado la investigación sobre la validez de las prue­
bas, no es útil hacer la distinción entre la validez racional y la empírica, puesto que
ambos métodos de validación incluyen datos empíricos. Los análisis de contenido
de las pruebas incluyen a menudo estudios sistemáticos del contenido y la opinión
de expertos a los que se les pide, por ejemplo, que evalúen la prueba de distintas
formas, algunas de las cuales pueden analizarse estadísticamente (esto se discute
con más detalle en el apartado 8.3.2). Utilizaremos pues los términos de validez
interna y externa, siendo la diferencia principal que la validez intema hace referencia
a los estudios realizados sobre el contenido de la pm eba y su efecto, mientras que
la validez extema hace referencia a los estudios de comparación realizados entre los
resultados de los alumnos y las m edidas de su capacidad obtenidas fuera de la
pmeba. La validez externa también se llama «validez de criterio» (véase la American
Psychological Association, 1985), puesto que los resultados de los alumnos se compa­
ran con otros criterios para medir sus capacidades, pero evitaremos utilizar el tér­
mino «criterio», porque ya lo hemos utilizado con otro significado.
La validez de constructo es la m ás difícil de com prender de las tres. Tiene
m uchos atributos de la validez interna y de la externa, por lo que m uchos la
consideran un término genérico para ambas. Discutiremos esto con m ás deta­
lle en su momento.

8.3. La validez interna


Como la validez interna tiende a ser más conocida conceptualmente por el lec­
tor, em pezarem os por este término. Hay muchas formas de evaluar la validez

166
La validez interna

interna de una prueba, pero las tres más comunes son: la «validación aparente»,
que se obtiene recogiendo comentarios sobre el valor de una prueba entre per­
sonas que no han colaborado directamente en su elaboración, como pueden ser
los alumnos y los administradores de la misma; la «validación de contenido»,
en la que los redactores o expertos en la materia juzgan la prueba, y la «valida­
ción de respuesta» (Henning, 1987: 9 6 ), en la que se utilizan una serie de téc­
nicas de apreciación cualitativa, tales como la introspección y la observación de
sí m ism os por parte de los candidatos para comprender cómo responden a los
ítems y por qué.

8.3.1. La validez aparente


La validez aparente se refiere a la «credibilidad aparente o a la aceptación
pública» (Ingram, 1977: 18) de una prueba, y a m enudo es considerada por
los expertos en evaluación como poco científica y nada importante (véase Ste-
venson, 1985). En esencia, la validez aparente im plica una opinión intuitiva
sobre el contenido de la prueba m antenida por aquellos cuya opinión no es
necesariam ente «exp erta». Tales personas pueden carecer de conocim ientos
sobre «evaluación»: los administradores de la prueba, los usuarios de los resul­
tados de la m ism a y los alumnos. La opinión es, en general, global y se refiere
a la prueba com o un conjunto, aunque también puede prestarse m ás atención
unos ítems en concreto, instrucciones poco claras, periodos de tiempo poco rea­
listas, como una form a de justificar la opinión global sobre una prueba. Se dice
a m enudo que la validez aparente provoca siempre el m ism o comentario: «Esta
prueba no parece válida».
Sin embargo, se está dando una mayor importancia a la validez aparente desde
la aparición de la evaluación de la lengua como comunicación (CLT), y muchos
de los defensores de este enfoque (véase por ejemplo, Morrow, 1979 y 1986,
y Carroll, 1980 y 1985) propugnan que un examen comunicativo de idiom as
debería parecerse a lo que se hace «en el mundo real» con la lengua. Como esto
no está definido de forma rigurosa o sistemática (por ejemplo, el concepto de
«autenticidad» se cita frecuentemente para justificar la validez de una prueba,
aunque pocas veces se explica), es probablemente apropiado relacionar tales lla­
madas a la «vida real» con la validez aparente. Sin embargo, intentos más siste­
m áticos de definir la vida real, com o los esquem as conceptuales de Bachman
relativos a la habilidad lingüística comunicativa y a distintos aspectos del método
utilizado (véase capítulo 2), pertenecen de forma clara al ámbito de la validez
de contenido.
Quisiéramos advertir al lector que compruebe siempre si el término «validez
aparente» se utiliza de forma peyorativa (en cuyo caso significa probablemente
«sin v alid ez»), o si se usa de form a positiva, en cuyo caso significa «aceptable
para los usuarios». Nuestra propia posición sobre el tema es que la validez apa­
rente es im portante en evaluación. Por una parte, las pruebas que no parecen
válidas a los usuarios no se tomarán en serio para su propósito. Por otra, si los
candidatos consideran que una prueba tiene un aspecto válido, creerán que pue­

167
La validación

den hacerlo m ejor y responder a los ítem s de form a apropiada. En otras pala­
bras, creemos que la validez aparente influye en la validez de respuesta de una
prueba.
Pueden recogerse datos sobre la validez aparente entrevistando a alumnos o
pidiéndoles que com pleten un cuestionario sobre sus actitudes, reacciones e
im presiones con respecto a una prueba que acaban de terminar o de analizar.
Los resultados pueden sumarse estadísticamente, si se quiere, para poder deter­
minar la aceptabilidad de los ítems y de las distintas partes de la prueba.

8.3.2. La validez de contenido


«La validez de contenido concierne a la representatividad o a la adecuación del conte­
nido —la substancia, el m eollo, los temas—de un instrumento de m edida» (Ker-
linger, 1973: 4 5 8 ). La validez de contenido requiere la recogida de opiniones
de «expertos»: gente en cuya opinión estamos dispuestos a confiar, aunque no
coincida con la nuestra. Ésta es quizá para nosotros la distinción más importante
entre la validez aparente y la validez de contenido: en la validez aparente no
aceptamos la opinión de los demás, aunque la respetamos, porque sabem os que
para las personas que han opinado este aspecto de la prueba es importante y por
lo tanto influirá en su comportamiento. En la validación del contenido recoge­
m os la opinión de personas en las que estam os dispuestos a confiar.
Tradicionalmente, la validez de contenido im plica que los «expertos» em i­
tan juicios de form a m ás sistemática. Una form a de hacer esto es analizando el
contenido de una prueba y comparándolo con una definición de lo que debiera
ser el contenido. Tal definición puede estar en las especificaciones de la prueba
(véase capítulo 2), puede ser el program a o el currículo, o puede ser una espe­
cificación de ámbito. Henning (1 9 8 7 : 4) dice: «Es precisamente en el área de
la validez de contenido de las mediciones de aprovechamiento donde las prue­
bas referidas a un criterio o ámbito tienen ventajas considerables sobre las prue­
bas referidas a una norma, más tradicionales.»
Un comité de redacción tal com o los descritos en el capítulo 3 puede cum ­
plir los requisitos necesarios para la validación del contenido, pero sólo en el
caso de que los m iem bros del comité puedan considerarse expertos y si se lleva
a cabo la comparación del borrador de la prueba con sus especificaciones o con
las definiciones del contenido de forma sistemática. En nuestra experiencia esto
raramente ocurre. Por el contrario, los m iem bros del comité opinan sobre el
contenido de los ítems sin mucha preparación, no hay un intento de recogida
de opiniones independiente y sistemática, lo que significa que la dinámica de
grupo del comité influye directamente en el resultado.
Una m ejor forma de validar el contenido supondría la creación de un instru­
mento para la recogida de datos. Los expertos recibirían instrucciones sobre
cómo opinar y cóm o tom ar nota de sus opiniones. Por ejem plo, podría esta­
blecerse una escala sobre la que los expertos puntuarían la prueba de acuerdo
con el grado de cumplimiento de los criterios. Bachman, Kunnan, Vanniariajan
y Lynch, 1988, utilizaron dos escalas de valoración: la escala de competencia

168
La validez interna

lingüística comunicativa (CLA) y la escala de las características del método uti­


lizado (TM C), para hallar una forma de cuantiñcar las comparaciones del con­
tenido de dos series de pruebas. Las facetas de la CLA se puntuaron en una escala
de cinco puntos y se relacionaron con el nivel de habilidad requerida a los can­
didatos en las áreas de competencia gramatical, textual, ilocutiva, sociolingüís-
tica y estratégica. La facetas del TMC hacían referencia a los ítems y a los textos
de la prueba y tenían en cuenta el entorno de la prueba, las instrucciones de la
prueba, el tipo de ítem s y la naturaleza del contenido de la prueba. Entre las
facetas del contenido de la prueba estaban: la complejidad de la lengua, la orga­
nización retórica, el grado de contextualización, el tema de la prueba, los pre­
juicios culturales y las características pragmáticas. Para cada faceta los evaluadores
puntuaban un ítem o texto de acuerdo con una escala que tenía en general tres
puntos. Por ejemplo:

Muy Muy
ORGANIZACIÓN simPle compleja
RETÓRICA 0 1 2

Algunas facetas se puntuaban de acuerdo con el número de apariciones de un


rasgo, por ejemplo:

Sin Una Dos o más


REFERENCIAS aparición aparición apariciones
CULTURALES 0 1 2

Clapham, 1992, utilizó una adaptación de la escala TMC de Bachman para


evaluar el contenido de tres pruebas de comprensión de lectura. Pidió a tres pro­
fesores de inglés para fines académicos que puntuaran aspectos del contenido
de la prueba, incluyendo el contenido preposicional y las características orga­
nizativas y sociolingüísticas de los ítems y de los textos.
Una alternativa utilizada por Alderson y Lukmani, 1989, es la de facilitar a
los expertos una lista de destrezas que se supone que se evalúan en un conjunto
de ítems y pedir que marquen junto a cada ítem la destreza o destrezas que creen
que evalúa. Estas opiniones se agrupan luego para tener una idea clara del grado
de consenso que existe entre expertos. Los ítems sobre los que hay poco con­
senso se consideran com o ítems con una validez de contenido baja.
Otra alternativa es la m encionada en el capítulo 2.3, en donde se describe
cóm o, durante el desarrollo de una prueba internacional de inglés para fines
específicos, se pidió a profesores de entre un amplio espectro de especialidades
académicas que dieran su opinión sobre los textos utilizados para las pruebas
de com prensión de lectura y el tipo de tarea que suponían que se pedía a los
alumnos (Alderson, 1988b). Esta investigación se llevó a cabo durante la redac­
ción de las especificaciones y los ensayos previos de los ejemplos y muestra lo
pronto que debe comenzar el proceso de validación del contenido en la elabo­
ración de una prueba.

169
La validación

Lo que estos distintos enfoques tienen en com ún es, prim ero, que utilizan
como informadores a expertos en el cam po que se analiza y, segundo, que los
expertos reciben una lista o instrucciones precisas sobre los aspectos de la prueba
que se van a considerar.
Finalmente, una advertencia sobre la utilización de expertos. Durante mucho
tiempo se ha supuesto, con respecto a la evaluación de idiom as, que las op i­
niones de los expertos son decisivas: lo único que hay que hacer es seleccionar
a las personas adecuadas y éstas producirán opiniones válidas. Desgraciadamente,
esto no siempre es así. Recientes investigaciones sobre la evaluación de idiomas
han em pezado a exam inar la naturaleza de los juicios em itidos por expertos
(véase Alderson, 1993). Reflexionando, no sorprende que a m enudo los exper­
tos no coincidan en sus opiniones. Algunas veces sólo uno o dos tienen o p i­
niones ampliamente divergentes, pero otras es m uy difícil entrever un consenso
entre ellos. Es interesante para los investigadores del m undo de la evaluación
constatar esta variedad en la em isión de juicios: sugiere que los aspectos que
hay que juzgar son mucho m enos claros, más controvertidos, quizá m ás com ­
plejos de lo que se pensó en un principio. Si se analiza tal com plejidad a fondo
surgen todo tipo de nuevos matices. Sin embargo, el responsable de una prueba
se encuentra ante un dilem a en tales circunstancias. Si los «e x p erto s» no se
ponen de acuerdo sobre lo que evalúa una prueba, ¿qué es en realidad lo que
ésta evalúa? Al contrario de un investigador, que puede perm itirse el lujo de
investigar este tema durante un tiempo, los responsables de una prueba necesi­
tan información sobre la validez de sus instrumentos tan pronto como sea posi­
ble. Si no se ha llegado a un acuerdo, ¿debería desecharse la prueba?
La respuesta a este dilema, creemos, se encuentra en el hecho de que la vali­
dez de una prueba es más relativa que absoluta. Si los procedim ientos de vali­
dación del contenido revelan problemas relacionados con la validez de contenido
de la prueba, se deben recoger otros tipos de evidencia de validez: validez
externa, validez aparente, validez de respuesta, y así sucesivam ente. A largo
plazo, podrían pedir que se investigara sobre el problema que se ha descubierto,
pero de momento no deben desesperarse. Más bien deben aceptar que en la eva­
luación de idiom as, com o en otros m uchos aspectos, hay todavía m ucho que
desconocem os y hay que continuar a la búsqueda de la validez o m odificar su
prueba o las especificaciones de la m ism a a la luz de los desacuerdos.
Una form a de solucionar este dilem a, a la que m uchos se resistirían, sería
agrupar expertos que se sabe que coinciden habitualmente u organizado todo,
mediante un proceso de formación o de alguna otra manera, para que se m ini­
mice el desacuerdo. A lo largo de este libro hem os señalado el valor que tiene
la form ación de exam inadores, de redactores de pruebas, de administradores.
Sin embargo, la formación de jueces expertos para fomentar o para asegurar un
acuerdo tiene sus riesgos: el riesgo de la clonación. Cuando se utiliza a exper­
tos, es im portante utilizar a aquellos cuya opinión se respetará. Intentar cam ­
biar esta opinión por m edio de la formación, porque discrepe del resto, es sólo
cubrir el expediente y poner la fiabilidad por delante de la validez.

170
La validez interna

8.3.3. La validez de respuesta


Com o se ha indicado anteriormente, un aspecto que es cada vez más corriente
en el proceso de validación de una prueba es la recogida de información sobre
cóm o responden a los ítems de una prueba distintos individuos. Los procesos
que siguen, el razonamiento que hacen al responder, son indicaciones im por­
tantes de lo que evalúa la prueba, al menos para estos individuos. De aquí que
haya m ucho interés actualmente en recoger relatos de estudiantes/candidatos
sobre su comportamiento y sus pensamientos durante el proceso de realización
de un examen.
La recogida de datos introspectivos durante un examen no es algo sencillo,
porque la recogida de datos puede interferir en el proceso que se pretende inves­
tigar. Sin embargo, la investigación ha revelado aspectos muy interesantes refe­
rentes a la actuación en una prueba a través de estos relatos centrados en los
estudiantes (véase Cohén, 1984; Faerchy Kasper, 1987, y Grotjhan, 1986). Por
ejemplo, la introspección durante una tarea de tipo doze mostrará si el alumno
responde al ítem utilizando las destrezas de lectura que pretende el redactor de
la prueba o si lo que pone en práctica es algún conocim iento de la estructura
gramatical de la frase en la que aparece el ítem. De forma parecida, la instros-
pección durante una tarea de comprensión de lectura puede identificar debili­
dades de los ítems y puede producir casos en los que los alumnos responden a
un ítem de forma incorrecta aunque comprendan el texto, o de forma correcta
aunque no lo entiendan (véase Alderson, 1990).
¿Cómo deben recogerse los datos introspectivos? La manera más sencilla es
hacerlo retrospectivamente. Una vez que los candidatos han contestado la prueba,
o una de sus partes, pueden ser entrevistados sobre las razones por las que die­
ron las respuestas que dieron. Una forma de refrescar su m emoria para las res­
puestas son los propios textos en el caso de la comprensión lectora y la expresión
escrita y quizá también para las pruebas de comprensión oral. Sin embargo, en
el caso de las pruebas de expresión oral, los datos más útiles se recogen grabando
al candidato en vídeo o audio durante su actuación. El entrevistador deberá ser
lo m ás neutro posible, haciendo preguntas generales como: «¿Por qué diste esta
respuesta? ¿Por qué respondiste de esta forma?», y debería preguntar sólo cuando
las respuestas no estén claras o no estén lo suficientemente detalladas.
El inconveniente de tales retrospecciones es que los candidatos no se acuer­
dan de por qué respondieron de una forma en concreto. Una alternativa es obte­
ner introspecciones concurrentes, en las que el candidato «piensa en voz alta»
mientras responde a unas preguntas formuladas durante los periodos de silen­
cio por un observador que está callado durante el resto del tiempo. El problema
m ás obvio aquí es que si la prueba tiene consecuencias im portantes, es muy
poco razonable someter a los candidatos a tal investigación. Así pues, los infor­
m adores para este tipo de validación serán inevitablemente personas que no
estén realizando la prueba «en serio», y la realización de una prueba en serio es
algo m uy distinto a realizarla sólo con m otivo de una investigación. Además,
algunos tipos de comportamiento pueden no ser accesibles a la introspección,

171
La validación

especialm ente los procesos m ás autom áticos relacionados con los procesos
lingüísticos de abajo a arriba (bottom-up), con ítems de gramática o de léxico o
con las pruebas de pronunciación o entonación. Sin em bargo, especialmente
para el tipo de pruebas en la que los candidatos deben ser conscientes de lo que
están haciendo —como en el caso de los exámenes de expresión escrita, por ejem­
p lo - tales m étodos de recogida cualitativa de datos pueden facilitar información
m uy útil sobre lo que las pruebas evalúan en realidad.

8.4. La validez externa

Los tipos m ás com unes de validez externa son la validez concurrente y la validez
predictiva; la estadística utilizada con m ás frecuencia es el coeficiente de correla­
ción (véase el capítulo 4 para una explicación del término «co rrelació n »). El
concepto de validez externa es quizá más fácil de comprender a través de la dis­
cusión sobre validez concurrente.

8.4.1. La validez concurrente


En esencia, la validez concurrente supone la comparación de los resultados de
la prueba con cualquier otra m edida de los m ism os candidatos durante aproxi­
m adam ente el m ism o periodo de la prueba. Esta otra m edida pueden consti­
tuirla los resultados de una versión paralela de la misma prueba o de otra prueba,
las autoevaluaciones de los candidatos sobre sus propias capacidades lingüísti­
cas o las notas del profesor, de un experto en la materia o de otros inform ado­
res sobre el candidato en distintos aspectos relevantes. Lo importante es que esta
medida pueda expresarse numéricamente (com o sucede, por ejemplo, con las
escalas de valoración) y que no esté relacionada con la prueba. El resultado de
la com paración se expresa norm alm ente com o un coeficiente de correlación,
que oscila entre los valores —1,0 y + 1,0. La mayoría de los coeficientes de vali­
dez concurrente oscila entre + 0 ,5 y + 0 ,7 ; los coeficientes m ás altos se obtie­
nen si las pruebas son m uy parecidas y fiables, pero raram ente si se
correlacionan m edidas como la autoevaluación o las valoraciones del profesor.
Es im portante que haya m otivos para creer en los resultados de la m edida
extema. Hay pocos motivos para comparar las notas de los alumnos con su actua­
ción en un tipo de medida que se sabe que es poco fiable o no válida. Aunque esto
pueda parecer lógico y obvio, en la práctica es m uy difícil recoger datos extemos
creíbles. Tom em os por ejemplo el caso de recogida de datos sobre una prueba:
un proyecto clásico de validación concurrente supondría la comparación de los
resultados de la prueba en cuestión con los resultados de otra prueba reconocida
como válida y fiable. Sin embargo, si esta otra prueba existe, ¿por qué vam os a
preocupamos de producir una nueva prueba para contrastarla? ¿Por qué no usa­
mos la pmeba original? Hay dos respuestas a esto. La primera es que la otra prueba
puede no estar fácilmente disponible. Puede resultar demasiado cara, demasiado
larga para fines prácticos, o puede ser una pm eba que sólo esté disponible para
llevar a cabo validaciones y no para el uso regular de la institución. En este caso,

172
La validez extem a

se necesita una prueba alternativa: la que se está validando. La segunda respuesta


es que una vez se ha validado la nueva prueba, el tribunal de exámenes necesita
producir nuevas versiones de forma regular. (La construcción de tales versiones
equivalentes se discute con brevedad en el capítulo 4.) Si los alumnos responden
a la nueva versión y a la validada previamente, y si el índice de correlación resul­
tante entre los dos grupos de resultados es alto, es decir por encima de 0,90, pode­
m os afirmar que la nueva prueba tiene validez concurrente.
Sin em bargo, a m enudo no existe una prueba reconocida com o válida y fia­
ble para realizar la validación concurrente, aunque deseem os saber si la prueba
experimental puede compararse con otras pruebas conocidas y utilizadas en el
m ism o contexto, aunque no se conozca su validez y fiabilidad. En tales casos se
está obligado a tratar los resultados de la correlación con mucha cautela. En rea­
lidad, no se espera que las dos pruebas no tengan ninguna correlación, puesto
que en un principio las dos evalúan contenidos lingüísticos. De todas, formas
tampoco se espera tona correlación alta entre las dos, en parte porque presum i­
blemente están evaluando distintos aspectos de la capacidad lingüística y en parte
a causa de la posible poca fiabilidad e incierta validez de la otra prueba. En tales
circunstancias, se necesita una interpretación m uy cuidadosa.
Además de com parar los resultados de una prueba con las puntuaciones de
otras pruebas, a m enudo es m uy útil compararla con otras medidas de las capa­
cidades de los alumnos. Una m edida útil es la opinión del profesor sobre sus
propios alumnos. Si los profesores han dado clase a los m ismos grupos de alum­
nos durante un periodo de tiempo considerable, deberían tener una idea clara
sobre sus niveles de com petencia y poder establecer un orden jerárquico de
acuerdo con algún aspecto de su habilidad lingüística. Si la destreza que se eva­
lúa es relativamente fácil de puntuar, p or ejem plo la «fluidez oral», el orden
facilitado por el profesor puede dar una idea clara de los niveles de capacidad
de todos los alumnos de la clase, pero hay áreas lingüísticas, tales como las des­
trezas receptivas de la lectura o de la audición, que son prácticamente im posi­
bles de puntuar. Puesto que los profesores son también poco consistentes y no
están Ubres de juicios parciales, las puntuaciones serán más válidas si se utilizan
dos profesores para cada grupo de alumnos.
Otro m étodo de llevar a cabo estudios de validación es correlacionando las
puntuaciones de los alum nos con las apreciaciones de los profesores sobre su
actuación. Por ejem plo, podría pedirse a los profesores que com pletaran el
siguiente cuestionario:

¿Cómo evaluaría a cada alumno sobre una escala del 1 al 5 para cada una de las siguientes destrezas:
gramática, expresión escrita, expresión oral, competencia lingüistica en general?

Alumno Gramática Expresión escrita Expresión oral Dominio de la lengua


01
02
03

Etc.

173
La validación

La escala del 1 al S puede ser tan sencilla como la siguiente:


1. Flojo
2. Medianamente bueno
3. Bueno
4. Muy bueno
5. Como un hablante nativo
O puede ser m ás compleja, con definiciones individuales para cada nivel de
las distintas destrezas. (Para m ás información sobre definiciones y descriptores
véase el capítulo 5.)
El cuestionario anterior puede también utilizarse para la autoevaluación, aun­
que debe tenerse en cuenta que los alumnos pueden no estar tan acostum bra­
dos a evaluar su habilidad lingüística com o lo están los profesores. A
continuación hay dos ejemplos de un cuestionario de autoevaluación.
Ejemplo 1
Las siguientes áreas plantean posibles problemas lingüísticos que pueden surgir si usted estudia francés en
Francia. Indique por favor si cree que tendría dificultades serias <anuy a menudo», «a menudo», «a veces»,
«raras veces» o «nunca»; o si cree que «no procede», porque no utilizaría la lengua francesa para este
propósito en Francia. Dibuje un círculo alrededor del número de la columna que corresponde a su respuesta:
Espero tener muy a a a raras nunca no
serios problemas: menudo menudo veces veces procede
Escuchar y
comprender
conferencias.
Escuchar y
comprender
los medios de
comunicación
(TV, radio).
Comprender a la
gente en las tiendas,
en espacios públicos,
etc.

Ejemplo 2:
¿Cómo evalúa su capacidad de usar la lengua francesa en las áreas siguientes? Por favor, dibuje un
círculo alrededor del número que mejor describe su capacidad.
LECTURA
No lo Justo Muy bien Casi
suficientemente para como un
bien para sobrevivir sobrevivir nativo
2 3 4 5 6 7

174
La validez extem a

8.4.2. La validez predictiva


Com o sugiere el nom bre, este tipo de validez se distingue de la validez concu­
rrente en que en lugar de recoger las medidas externas al m ism o tiempo que se
adm inistra la prueba experim ental, las m edidas externas sólo se recogen un
tiem po después de que la prueba se haya administrado.
La validez predictiva es más corriente en las pruebas de dominio: las pruebas
que intentan predecir lo bien que alguien actuará en el futuro. La form a más
sim ple de estudiar la validez predictiva es dar a los alumnos la prueba y al cabo
de un tiem po volverles a administrar otra prueba sobre la habilidad que pre­
tendía predecir la prim era prueba. Un uso com ún de las pruebas de dom inio
com o el IELTS o el TOEFL es identificar a los alum nos que pueden tener pro­
blemas cuando estudien en un m edio inglés a causa de sus dificultades con esta
lengua. La validación predictiva supondría adm inistrar la prueba IELTS a los
alumnos antes de dejar su país de origen para estudiar en el extranjero, y des­
pués, una vez instalados en el país donde van a estudiar y pasado un tiempo de
adaptación, volverles a adm inistrar una prueba sobre su uso del inglés en el
m edio en que están. U na alta correlación entre las dos notas indicará un alto
grado de validez predictiva en la prueba de IELTS.
Por desgracia, la vida no es nunca tan sim ple. Primero, es im probable que
todos los alumnos que hagan la prueba de IELTS puedan viajar para estudiar en
el extranjero: algunos serán excluidos por m alos resultados. Esto se conoce
como «m uestra truncada del problem a»: sólo se puede usar parte de la pobla­
ción original en la validación —en este caso, los que pueden utilizarse serán los
m ejores alum nos. El efecto de utilizar m uestras truncadas no está suficiente­
mente estudiado en tales exámenes, pero probablemente reducirá la amplitud
de los resultados de los alumnos y rebajará el coeficiente de validez predictiva.
Si todos los alum nos hubieran podido acceder a la educación en el extranjero
y no sólo los m ejores, la correlación entre las dos pruebas hubiera sido m ás
alta. Segundo, es probable que en nuestro ejem plo hipotético la competencia
lingüística de nuestros alum nos pueda haber m ejorado entre la prim era y la
segunda ocasión, especialmente después de llegar al país extranjero. Esto tam ­
bién tendrá com o resultado la reducción del coeficiente de validez predictiva.
Tercero, com o ocurre con la validez concurrente, es poco probable que esté
dispon ible una m edida externa adecuada de la capacidad de utilización del
inglés por parte de los alumnos en un ámbito de estudio, a no ser que sea otra
versión de la prueba original.
En realidad, este últim o problem a intoxica m uchos estudios de validez pre­
dictiva: ¿qué puede considerarse una buena medida de la destreza que uno está
intentando predecir? Algunos estudios de validación de las pruebas de dom i­
nio utilizan la puntuación final o la m edia de las puntuaciones (grade point ave-
rage) que los alum nos obtienen al final de sus estudios. Sin em bargo, estos
estudios no sólo utilizan obviamente muestras truncadas, sino que los resulta­
dos de cualquier correlación están oscurecidos por el hecho de que el tipo de

175
La validación

nota ñnal refleja no sólo la capacidad lingüística sino también habilidades aca­
démicas, conocimiento de las distintas materias, perseverancia, técnicas de estu­
dio, capacidad de adaptación a la cultura y al contexto del país extranjero y
muchas otras variables.
Es posible utilizar otras medidas en vez de la puntuación final o la media de
las puntuaciones. Se podría intentar, por ejemplo, recoger las opiniones de los
que están en contacto habitual con los alumnos. El responsable de la validación
de la prueba puede pedir a los distintos profesores que evalúen a los alumnos
que han hecho la prueba sobre sus habilidades lingüísticas: su habilidad en expre­
sión escrita, sus habilidades de comunicación oral... Sin embargo, aquí de nuevo
podem os encontramos con una muestra truncada. También nos encontraremos
con el problem a de que muchos profesores no son capaces de dar una opinión
útil sobre las habilidades lingüísticas de sus alumnos hasta el final del primer tri­
mestre, cuando los alumnos ya han tenido oportunidades de sobra para mejorar
su capacidad lingüística (véase Criper y Davies, 1988, y Wall, Clapham y Alder-
son, 1994). Las correlaciones resultantes son m uy difíciles de interpretar.
Otro ejemplo de un estudio de validación predictiva puede ser la validación
de una prueba de competencia lingüística para alumnos que quieren ser profe­
sores de la lengua en cuestión. En este ejem plo, tales alum nos deben pasar la
prueba antes de poder empezar las asignaturas de m etodología de su curso, en
las que necesitaran un alto nivel de competencia en la lengua extranjera. La vali­
dez predictiva de la prueba supone realizar un seguimiento de los alumnos que
pasan la prueba y pedir a sus alumnos, sus com pañeros docentes y sus obser­
vadores que los evalúen de acuerdo con su habilidad lingüística en clase. La vali­
dez predictiva de la prueba sería la correlación entre los resultados de la prueba
y las evaluaciones de su habilidad lingüística en el aula.
En todas estas circunstancias no esperaríamos correlaciones altas entre la prueba
y la medida extema. En realidad, en los estudios de validez predictiva, es corriente
que los redactores de pruebas y los investigadores estén satisfechos con un coe­
ficiente tan bajo com o + 0 ,3 . Sin embargo, la dificultad de llevar a cabo estudios
de validación predictiva no absuelve a los responsables de la prueba de la res­
ponsabilidad de recoger datos para demostrar que sus pm ebas poseen un grado
de validez para el propósito para el cual están previstas y se utilizan.
A veces, la frontera entre la validez concurrente y la validez predictiva es muy
tenue. Por ejemplo, después de dar a los alumnos una prueba de nivel, los eva­
luadores deberán intentar confirmar la validez de la prueba preguntando a los
profesores que tienen a estos alumnos en sus clases si se han colocado en la clase
adecuada. Los profesores deberán responder a esta pregunta durante la primera
semana de clase, antes de que los alumnos hayan tenido tiempo de mejorar, para
que la validación se considere concurrente y predictiva.
En muchas de las circunstancias en que se desarrollan las pmebas, es poco prác­
tico, si no im posible, recoger datos externos sobre los candidatos a la prueba.
Puede resultar que la institución responsable de la pmeba no tenga control alguno
o acceso a los alumnos una vez se ha administrado la pm eba; puede ser que no

176
La validez de constructo

se puedan establecer criterios relevantes dada la diversidad de motivos por los


que los alumnos hacen la prueba; o puede tratarse de que no haya recursos dis­
ponibles para realizar estudios de validación especiales. En tales casos puede ser
útil llevar a cabo un estudio del examen com o tal, para ver cómo se relacionan
entre sí las distintas partes y por consiguiente averiguar qué evalúa el examen.
Esto se discutirá a continuación bajo el título de validez de constructo.

8.5. La validez de constructo


Se ha dejado la discusión sobre la validez de constructo para el final, en parte
porque es el concepto m ás difícil de explicar y en parte porque algunos evalua­
dores creen que es una forma superior de validez a la que contribuyen tanto la
validez intem a como la externa. Ebel y Frisbie, 1991, dan la siguiente explica­
ción de la validez de constructo:
El término constructo se refiere a un constructo psicológico, una
conceptualización teórica sobre un aspecto del comportamiento humano
que no puede medirse u observarse directamente. Ejemplos de constructos
son la inteligencia, la motivación para un fin, la ansiedad, el
aprovechamiento, la actitud, el dominio y la comprensión de lectura. La
validación del constructo es un proceso de recogida de datos para
demostrar que una prueba dada mide en realidad el constructo psicológico
que sus elaboradores intentan medir. El objetivo es determinar el
significado de los resultados de la prueba, para asegurar que significan lo
que se cree que significan (página 108).

Una explicación más breve es la dada por Gronlund, 1985, para quien la vali­
dación de constructo m ide «e n qué grado la actuación en una prueba puede
interpretarse como una medida significativa de alguna característica o cualidad»
(página 58).

8.5.1. La comparación con la teoría


Para algunos teóricos de la evaluación, la validez de constructo es una forma de
validación que im plica en esencia la valoración de hasta qué punto la prueba
está basada de forma clara en la teoría que la subyace. Nótese que en este enfo­
que la teoría en sí no se cuestiona: se da por sentado. El tema es si la pm eba es
una buena puesta en práctica de la teoría. En efecto, esta form a de validación
del constmcto funciona de forma similar a la validación del contenido: se selec­
cionan expertos, se les da una definición de la teoría que subyace la prueba y se
les pide que emitan juicios de opinión cuando hayan analizado la prueba desde
el punto de vista de la validez de constructo.

8.5.2. Correlaciones internas


Como m encionam os anteriormente, una forma de evaluar la validez de cons­
tructo de una prueba es haciendo correlaciones entre las distintas partes de la
prueba. Puesto que la razón para tener diferentes componentes en una prueba

177
La validación

es que todos ellos m idan algo distinto y por lo tanto contribuyan a la visión de
conjunto que se intenta obtener sobre la habilidad lingüística m ediante la
prueba, deberíam os suponer que las correlaciones serán bajas, posiblem ente
entre + 0 ,3 y + 0 ,5 . Si dos partes tienen una correlación m uy alta, digam os de
+ 0 ,9 , podrem os suponer que las dos partes de la prueba son en esencia lo
m ism o. Si este es el caso, podem os decidir desechar una de las dos. Las corre­
laciones entre cada parte de la prueba y toda la prueba, por otra parte, se puede
suponer que serán más altas, al menos de acuerdo con la teoría clásica de la eva­
luación, posiblemente alrededor de + 0 ,7 o más, puesto que la puntuación glo­
bal se considera una m edida más general de la habilidad lingüística que la
obtenida en cada parte de la prueba. Obviamente, si la puntuación de este com ­
ponente se incluye en la puntuación global, la correlación será en parte la resul­
tante entre este componente consigo m ism o, lo que aumentará la correlación
de forma artificial. Por este m otivo es habitual que en estudios de correlación
intema se correlacionen los componentes de una prueba con la puntuación glo­
bal menos el componente en cuestión.

T a bla 9 . 1 . Matriz de correlación entre partes de una prueba


Lectura Competencia Expresión Expresión Total Total
lingüística escrita oral menos
componente
Lectura - 0,53 0,27 0,44 0,73 0,50
Competencia
0,53 - 0,43 0,66 0,84 0,72
lingüística
Expresión
0,27 0,43 - 0,45 0,66 0,46
escrita
Expresión
0,44 0,66 0,45 - 0,86 0,66
oral
Total 0,73 0,84 0,66 0,86 - -

n = 2,443
Datos sacados de Alderson, Wall y Clapham, 1986.

En la matriz de correlación citada la correlación m ás alta es la existente entre


los componentes de competencia, que consisten en una serie de pruebas de tipo
cloze y c-tests, y la pm eba de expresión oral (0,66). La correlación está por encima
de lo que podría esperarse si las pruebas en realidad evalúan distintas destrezas,
pero la coincidencia no es lo suficientemente grande com o para sugerir a los
redactores la supresión de una de las dos partes. Todas las partes excepto la de
expresión escrita tienen correlaciones con la pm eba global por encima de un
0,7. El hecho de que la correlación entre la expresión escrita sea más bien baja
(+ 0 ,6 6 ) puede deberse al hecho de que este prueba resultó ser poco fiable, y
las correlaciones entre las pruebas no fiables muestran coeficientes bajos puesto
que los resultados se deben al factor suerte. Las correlaciones de las partes de
competencia lingüística y de expresión oral con la nota global están por encima

178
La validez de constructo

de + 0 ,8 . Esto muestra que ambos componentes influyen de forma importante


en la puntuación global final. Cuando cada una de esta pruebas se correlaciona
con la puntuación global menos ella misma, las correlaciones se reducen a + 0 ,7 2
y a + 0 ,6 6 . De todas formas, estas correlacions son todavía las más altas entre las
partes de la prueba y el total y muestran lo importantes que son estas dos sec­
ciones dentro de la serie.
Una versión algo m ás refinada de este proceso de validación del constructo
es la de hacer predicciones teóricas sobre las relaciones que hay entre los com ­
ponentes de la prueba a la luz de las necesidades de la teoría subyacente, y des­
pués compararlas con los coeficientes de correlación.

8.5.3. Comparaciones con los datos personales de los alumnos


y sus características psicológicas
Otra forma de validación del constructo que se lleva a cabo es la de comparar la
actuación en la prueba con los datos personales y otros datos recogidos de los alum­
nos en el momento de realizar la prueba. La intención es la de detectar parcialidad
en la prueba hacia grupos de alumnos según sus características personales: sexo,
edad, lengua materna, número de años estudiando la lengua... La hipótesis sería
que una prueba válida es más difícil para alumnos que han estudiado la lengua
durante un periodo de tiempo más corto, o para aquellos cuya lengua materna es
menos cercana a la lengua de la prueba que la de otros alumnos, etc.
Una alternativa sería la de comparar la actuación en la prueba con medidas
psicológicas que se consideren teóricamente relevantes. Se podría querer vali­
dar una prueba de aptitud, por ejemplo, comparando la actuación en una parte
que evalúa la sensibilidad hacia la gramática con otra m edida de la habilidad
para el aprendizaje inductivo de la lengua con la que en teoría se supone que va
relacionada.
Nótese que estos procedimientos de validación son parecidos a los de validez
intema y externa discutidos con anterioridad. La diferencia es que la razón para
seleccionar los aspectos relevantes del historial de los alumnos y de sus caracte­
rísticas psicológicas se derivan de la teoría.

8.5.4. Análisis multirrasgo y validación convergente y divergente


Otros procedim ientos m ás com plejos de validación del constructo, que supo­
nen la utilización m ás o m enos sofisticada de la estadística, van m ás allá del
ámbito de este libro. Se remite al lector interesado a Kerlinger, 1973, y a Wood,
1991, para obtener explicaciones más detalladas. Es, sin embargo, útil en este
punto esbozar dos de estos enfoques.
Lo que Bachman, 1990 llama el «enfoque clásico hacia el diseño de estudios
de correlación para la validación del constructo» es la matriz multirrasgo-multimé-
todo (multitrait-multimethod matrix) descrita por Campbell y Fiske, 1959. Consiste en
una combinación de procedimientos de validación intem a y extema. La teoría
es que se verá que las pruebas relacionadas entre sí mostrarán correlaciones más
altas (validez convergente) que las pruebas que no tienen ninguna relación (vali­

179
La validación

dez d ivergente): los alum nos responden a la prueba experim ental al m ism o
tiempo que a las otras pruebas cuyas propiedades ya se conocen (com o se hace
en la validación concurrente). W ood, 1991, da una explicación m uy clara sobre
el análisis m ultirrasgo-m ultim étodo, y variaciones sobre este procedim iento
pueden verse en estudios realizados por Bachman y Palmer, 1981,1982.

8.5.5. Análisis factorial


Otro enfoque es el del análisis factorial. Lo que hace el análisis factorial es coger
una matriz de coeficientes de correlación, que habitualmente es demasiado com ­
pleja de comprender en un estudio superficial, y reducir su com plejidad a pro­
porciones m ás m anejables m ediante m edios estadísticos. El resultado de tal
reducción es habitualmente un pequeño núm ero de factores. Las distintas prue­
bas comparadas en la matriz de correlación original se relacionarán de distintas
formas con los distintos factores (el término usado técnicamente es «cargarán»).
Existen dos variedades principales: una es el análisis factorial exploratorio y el
otro es el análisis factorial confirmatorio. En el primero, solamente se exploran
los datos para ver los factores que emergen: esto se hace mirando con qué fac­
tores se relacionan de form a m ás cercana qué pruebas y etiquetando los factores
de acuerdo con esto. En la segunda, el investigador formula una hipótesis sobre
las pruebas o las partes de una prueba que previsiblemente mostrarán relación y
cómo y a continuación lleva a cabo pruebas de «confirm ación» de las hipótesis
con los datos. La razón para que estos enfoques de análisis factorial pertenezcan
a los procedimientos de validación del constructo es que los factores que emer­
gen se explican o se prevén en función de una teoría - e n este caso, la teoría de
lingüística aplicada que uno tiene sobre qué debería relacionarse con qué.

8.6. Fiabilidad y validez


La relación entre la fiabilidad (véanse los capítulos 1, 4 y 6) y la validez es en
principio simple, pero en la práctica compleja y no siempre bien entendida.
En principio, una prueba no puede ser válida si no es fiable. Si una prueba no
m ide algo de form a consistente, es de suponer que no siempre lo puede m edir
de form a precisa. Por otra parte, es posible que una prueba sea fiable pero no
válida. Una prueba puede, por ejem plo, dar los m ism os resultados de form a
repetida, aunque no m ida lo que se supone que mide. Por lo tanto, aunque se
necesita fiabilidad para obtener validez, la fiabilidad por sí sola no es suficiente.
El problem a para la m ayoría de las personas responsables de exámenes es que
para maximizar la fiabilidad a m enudo es necesario reducir la validez. Las prue­
bas de respuesta m últiple pueden ser m uy fiables, especialmente si contienen
suficientes ítem s, pero m uchos dirían que la actuación en una prueba de res­
puesta múltiple no es una medida válida de la habilidad de un alumno para uti­
lizar la lengua en el m undo real. Para tom ar un ejem plo extrem o, es posible
redactar una prueba escrita de respuesta múltiple de pronunciación que sea alta­
mente fiable pero que no pueda identificar a los alumnos cuya pronunciación

180
Fiabilidad y validez

es en realidad buena o mala (véase Buck, 1989). Por otra parte, es posible admi­
nistrar una prueba oral de pronunciación que sea válida, pero puede resultar
m uy difícil de corregir de forma fiable. Algunas personas argumentarán que la
fiabilidad debe sacrificarse en aras de la validez. Pero no podem os tener validez
sin fiabilidad. En la práctica, ni la validez ni la fiabilidad son valores absolutos:
hay grados de ambas y es habitual hablar de un com prom iso entre las dos: se
m axim iza una en detrimento de la otra. Lo que se decide m aximizar depende
del objetivo de la prueba y de las consecuencias para los candidatos que obten­
gan un resultado inadecuado.
El análisis de las correlaciones entre partes de la prueba nos da un buen ejem­
plo de los intereses divergentes de la fiabilidad y de la validez. D ijim os m ás
arriba que era en general m ejor obtener correlaciones bajas entre las distintas
partes de la prueba puesto que cada parte estaba allí para evaluar una destreza o
rasgo distinto. Sin embargo, lo que no mencionam os fue que cuanto más bajas
son las correlaciones, m enos hom ogéneos son los ítems de la prueba, y por lo
tanto más bajas son las correlaciones entre los ítems, y m ás bajo es el índice de
fiabilidad de la consistencia interna de toda la prueba. Por lo tanto una validez
de constructo alta puede comportar una baja consistencia interna.
Sin em bargo, si una prueba contiene ítem s que no son hom ogéneos, ¿sig­
nifica esto que la prueba no es fiable? Puede tener un índice bajo de consis­
tencia interna porque m ide distintos rasgos con la m ism a prueba, pero puede
estar m idiendo estos rasgos de form a consistente. Si este es el caso, el índice
de consistencia interna no parece que sea una form a de evaluar la fiabilidad.
Sin em bargo, puesto que indica si se están m idiendo uno o m ás rasgos, puede
constituir, aunque de form a un poco perversa, una m edida de validez. Tene­
m os pues un ejem plo de un índice de fiabilidad que puede utilizarse com o un
índice de validez. Esto plantea dos problemas. El prim ero es que los conceptos
de fiabilidad y validez no están siem pre tan bien delim itados com o podría
suponerse. El segun do es que cuando calculam os un índice de fiabilidad en
particular necesitam os saber qué nos dice este índice para saber si es el apro­
piado para nuestros propósitos.
En el caso de pruebas que tienen a propósito una gam a de ítem s heterogé­
neos, por lo que se puede esperar un índice de consistencia interna bajo, podrí­
am os decir que el índice sólo debería calcularse para las distintas partes de la
prueba y que para toda la prueba es m ejor utilizar el m étodo de comprobación
de la fiabilidad con el uso de pruebas paralelas descrito en el capítulo 4.3 y 4.5.
Con este m étodo no im porta cuántos rasgos se estén evaluando, mientras cada
prueba evalúe lo m ism o. Si las dos pruebas m uestran una correlación alta, la
prueba será fiable.
Sin embargo, tenemos aquí un problema a la hora de distinguir entre validez
y fiabilidad. Para saber si la segunda prueba es realmente paralela a la primera,
debem os hacer correlaciones entre los resultados de las dos pruebas para esta­
blecer la validez concurrente de la segunda prueba. ¿Cuál es pues la diferencia
entre esta correlación, que se supone que comprueba la validez concurrente, y

181
La validación

la correlación con pruebas paralelas, que se supone que comprueba la fiabilidad?


La respuesta es que no hay diferencia: en este caso es im posible distinguir entre
validez y fiabilidad. (Para más discusión, véase Alderson, 1991,ySw ain , 1993.)
La confusión que hem os visto entre validez y fiabilidad puede llevar al eva­
luador a considerar si vale la pena después de todo com probar la fiabilidad.
Hemos de decir rápidamente que sí vale la pena. Si un proceso en particular dis­
cierne entre validez o fiabilidad no importa: lo que importa es que seamos cons­
cientes de los problem as que tenemos. Puesto que una prueba no puede ser
válida sin ser fiable, es esencial que las pruebas se analicen todo lo que se pueda
para garantizar su fiabilidad, y si algunas de las formas de análisis resulta que
com prueban la validez y no la fiabilidad, al m enos nos dan m ás inform ación
sobre la prueba. Lo que importa en realidad es si la prueba da un resultado que
puede considerarse com o un reflejo justo y preciso de la habilidad lingüística
del candidato.

8.7. Informe sobre los tribunales de exámenes de inglés


como lengua extranjera: cuestionario
Al comienzo de este capítulo hem os introducido la validez diciendo que era la
cuestión más importante en la evaluación de idiomas. No sólo debem os com ­
probar que el material que se incluye en una prueba es el apropiado para el obje­
tivo con el que se elabora, sino que debem os com probar si los resultados son
precisos. ¿La prueba aprueba y suspende a los alumnos que deben aprobar y sus­
pender? En su libro Assessment and Testing, W ood duda sobre los procedim ientos
de validación de los tribunales de exámenes del Reino Unido, y dice:
Si se p re gu n tara a u n tribunal de exám en es so b re la validez de su oferta, o m ás
in clu so , so b re q u é p a so s da p ara validar los resu ltad o s q u e otorg a, ¿q u é diría?
(W o od , 1 9 9 1 : 14 7 )

Estamos ahora en situación de poder responder a la pregunta.

PREGUNTA 2 5 : Además de los procedimientos seguidos para la validación aparente y de contenido


(véase capítulo 3, preguntas 16—19), los siguientes tipos de validez, a) ¿son pertinentes? b) ¿se esti­
man o calculan?
Cinco tribunales no respondieron a esta pregunta o simplemente respondie­
ron con brevedad. Los que respondieron dieron las siguientes respuestas:
Pertinente Estimada
1) validez concurrente Sí 6 Sí 6
2) validez predictiva Sí 4 Sí 2
3) validez de constructo Sí 4 Sí 4
Un tribunal no facilitó respuestas pero añadió el siguiente comentario: «N ece­
sitaríamos m ás inform ación sobre el significado de estas preguntas y la inten­
ción al preguntarlas». Otro tribunal, sin em bargo, aunque tam poco dio
respuestas detalladas, dijo:

182
Estudio sobre los tribunales de exámenes de inglés...

L os exam in ad o res expertos p u e d e n hacer sus prevision es so b re la actuación de


lo s can d id atos en alg u n as pregu n tas o en las partes d e la p ru e b a de la q u e son
resp o n sab le s o en to d o el exam en . Tales su p o sicio n e s se contrastan con las
estadísticas de la p ru e b a antes de tom ar decision es so b re la ad ju d icación de
p u n tu acion es. El p ro c e so de ad ju d icación tam b ién tiene en cuenta los casos
in divid u ales en los q u e hay m ayor variación en la actuación de los distin tos
c o m p o n en tes de la prueba.

Otro tribunal respondió que esta pregunta no era pertinente, puesto que la
suya era una prueba oral. Esta respuesta, naturalmente, no tiene ningún sentido.
No se pidieron detalles, ni nos los dieron, sobre cóm o se estimaban o calcu­
laban estos tipos de validez, pero el LCCI respondió que se estimaban de forma
«im presionista y anecdótica, no de forma matemática, todavía».
Un tribunal dio breves detalles. Sobre la validez concurrente dijo: «A medida
que vam os obteniendo datos, llevamos a cabo estudios comparativos con los
exámenes de TOEFL y de UCLES, y la comparación con nuestra propia prueba
(otra prueba para alumnos extranjeros) es una de las características clásicas de
nuestro proceso de adjudicación de resultados en los niveles superiores». Con
respecto a la validez de constructo, el tribunal respondió: «Las pruebas se estruc­
turan en seis niveles, cada uno de los cuales evalúa destrezas específicas», e hizo
hincapié en que los estudios de validez predictiva «estaban planificados, pero
de momento no había suficientes candidatos como para dar estadísticas fiables».
Otro tribunal respondió que se estimaban algunos tipos de validez pero no en
todas las pruebas; sin embargo, «las compañías y las universidades que utilizan
las pruebas parecen contentas». Esto haría referencia a la validez aparente.
Un tribunal facilitó una respuesta detallada:
1) Validez concurrente. Este tipo de validez es pertinente. En realidad se h an llevado
a cab o distintas in vestigacion es com paran do [los exám en es] con entrevistas
«c a ra a cara». M ás recientem ente se está elab oran do u n a tesis doctoral [se
cita el n o m b re del alu m n o] q u e com para las actuaciones de distintos
can didatos en u n o de n uestros exám en es con los resultados ob ten idos en
entrevistas orales.

2) Validez predictiva. Existen organ izacion es q u e los utilizan [los exám en es] para
prever la capacidad d e actuación de ciertos in dividu os en el lugar de trabajo.
Por e jem p lo [la com pañ ía X ], requiere q u e su personal pase el exam en antes
de perm itirles participar en in tercam bios internacionales. D e fo rm a sim ilar,
la p ro m o c ió n a niveles adm inistrativos «in tern acion ales» en [com pañ ía Y]
req u iere un ap ro b ad o en el exam en , y tod os lo s p ro feso res en [p aís Z]
deb en dem ostrar tam bién el m ism o nivel de com petencia oral en la prueba.
N u n ca h em o s estim ado estadísticam ente la validez predictiva del exam en,
p e ro asu m im o s, p u esto q u e tales organ izacion es parecen estar satisfechas
con los resultados ob ten idos a lo largo de los añ os (1 2 en el caso de la
com pañ ía y ) , que el exam en deb e de tener la validez predictiva esperada.

Cinco de los examinadores jefes de UCLES no respondieron a esta pregunta


por lo que fue difícil hacerse una idea de lo que pasaba con los exámenes de

183
La validación

UCLES. Sin embargo, analizando las respuestas parece que hay una gran varia­
ción de un examen a otro, y de una parte a otra. Las pruebas de expresión escrita
en tres de los exámenes y en una de uso del inglés, se analizaban para com pro­
bar su validez concurrente y su validez de constructo, pero no hay estudios de
validación en las pruebas de lectura, comprensión oral y expresión oral. Cuatro
de los otros exámenes no se validaban de forma sistemática, pero uno de ellos,
el IELTS se sometía a estudios específicos de validación.
A partir de las respuestas obtenidas parece que hay tribunales poco familiari­
zados con los m étodos para evaluar la validación descritos en este capítulo, y
hay al m enos un tribunal que no está familiarizado con nuestra utilización del
término «validez». Esto no significa, naturalmente, que la validez no se evalúe
bajo otro nom bre, pero demuestra una falta de conocim iento de los términos
y procedimientos establecidos en la evaluación educativa.

PREGUNTA 2 6 : ¿Llevan a cabo estudios específicos de validación de sus exámenes? En caso de res­
puesta afirmativa, facilite detalles.
Cinco tribunales dijeron que llevaban a cabo tales estudios, aunque es dudoso
en el caso de un tribunal puesto que la respuesta explicaba: «Se llevan a cabo
sesiones de unificación de criterios a lo largo del año, a las que asisten los ase­
sores».
Otro tribunal respondió que los estudios de validez tenían lugar « a partir de
la revisión del esquem a general», pero no dio m ás detalles.
El AEB se refirió a Weir, 1983.
Un tribunal dijo que no llevaban a cabo estudios específicos pero sin embargo
añadió: «Algunas tesis de doctorado han utilizado [los exámenes] como base».
También dijo que «la English Speaking Union ha validado los exám enes». Debería­
m os insistir aquí en que la aprobación de la ESU no implica la validación de la
prueba en el sentido en que se ha utilizado el término en este capítulo.
La respuesta de un centro fue «H ay proyectos en curso».
El único tribunal que nos facilitó inform ación sobre estudios de validez fue
el LCCI; aunque dijo que los estudios «eran confidenciales», añadió que «algu ­
nos resultados pueden publicarse» y adjuntó un artículo como ejemplo.

PREGUNTA 27: En el caso de que se administren distintas versiones de su examen, ¿se toman medi­
das para garantizar que sean equivalentes?
Las respuestas de los tribunales fueron: sí, 9; no, 1; no procede, 2.
A la pregunta sobre la descripción de las m edidas que se toman, hubo dis­
tintas respuestas.
Dos de los tribunales utilizaban análisis estadístico de los resultados (uno men­
cionó el análisis de Rasch) y el resto dependía de las opiniones de los comités
de redacción. Cinco de los tribunales señalaron el hecho de que utilizaban los
m ismos redactores y supervisores para todas las versiones, o que todas las prue­
bas de un m ism o año se analizaban en una m ism a sesión.
Un tribunal dio una respuesta m ás detallada:

184
Debate

La estructura de la p ru e b a es parecid a en to d o s lo s exám en es del m ism o nivel.


L os d istin to s n iveles so n p u n to s fijos. A parte d e las co m p ro b acio n es internas
q u e se llevan a cab o d e sp u é s de la ad m in istración d e la pru eba, n uestros
exam in ad o re s expertos n otarían si u n a parte de u n a p ru e b a es m á s fácil o m ás
d ifícil q u e las an teriores.

PREGUNTA 28: ¿Se administra más de un tipo de prueba distinto durante el mismo periodo de exa­
men? En caso afirmativo, ¿qué medidas se toman para garantizar que cada tipo de prueba sea equi­
valente en dificultad?
Las respuestas de los tribunales fueron: sí, 5; no, 5.
Los pasos que se dieron para asegurar la equivalencia en dificultad entre dis­
tintas pruebas son los m ismos que los detallados en la respuesta a la pregunta 27.
Las tres excepciones fueron:
1. M edian te la u n ificació n d e criterios y la evaluación.
2. A través del p ro ceso de análisis de la prueba. Si aparecen discrepancias en las
actuaciones de los candidatos, se solucion an a la h ora de decidir los lím ites
entre pun tuacion es en la reun ión para la determ inación de las calificaciones.
3. El tribu nal fu n cio n a con u n sistem a « a p e tic ió n », con lo q u e lo s distin tos
cen tros e sc o g e n el día y la h ora d e la realización del exam en . El com ité de
red acció n garan tiza la co m p arab ilid ad y la ad ecu ación de los ítem s. El nivel
de dificu ltad está d eterm in ado p o r el fo rm ato de lo s exám enes.

Puede deducirse de las respuestas a las preguntas 27 y 28 que la mayoría de


los tribunales no llevan a cabo comprobaciones estadísticas sobre la equivalen­
cia de sus exámenes. En general confian en sus comités de redacción o supervi­
sión para la administración de exámenes equivalentes y para identificar aquellas
partes que puedan resultar demasiado fáciles o demasiado difíciles.

8.8. Estudio sobre los tribunales de exámenes de inglés


como lengua extranjera: documentación
Los únicos docum entos que recibim os relacionados con la validez fueron un
inform e confidencial de UCLES, que discutía distintas formas de llevar a cabo
estudios de validación, y un documento de LCCI producido en marzo de 1989,
titulado Policy and Practice for Assessment: A Guide for Examinen and Assessors. Este folleto
da detalles de la política y de la práctica que debería guiar las actividades de eva­
luación del Instituto. Describe lo que el Instituto hace y por qué lo hace. Un
apartado del documento está dedicado a los asuntos de fiabilidad y validez.

8.9. Debate
Vimos en el capítulo 3 que la mayoría de los tribunales emplean gran cantidad de
tiempo y energía en la redacción de sus ítems, concentrándose en los problemas
relacionados con la validez aparente y de contenido. Sin embargo, salvo una o dos
excepciones, parece, por los resultados de nuestro informe, que no analizan si sus

185
La validación

exámenes son válidos en la práctica. De la misma forma que muchos tribunales con­
fían en que hay ítems que funcionan bien sin ningún ensayo previo, también parece
que confían en que sus exámenes son válidos sin confirmación empírica alguna.
Vale la pena citar los comentarios de W ood sobre los procedimientos de vali­
dación de los tribunales de exámenes del Reino Unido. Nótese que estos comen­
tarios hacen referencia a los tribunales de exámenes del Reino Unido en general
y no sólo a los de inglés com o lengua extranjera.
Los tribu n ales d e exám en es h an ten ido suerte en n o en zarzarse en u n a
d iscu sió n so b re la validez. Al con trario de la fiab ilid ad , la validez n o se p resta
a in fo rm e s sen sacion alistas. Sin em b arg o , el nivel de o lvido de la validez p o r
parte de lo s cen tros es o b v io u n a vez se centra la aten ción sob re el tem a.
Siem pre q u e lo s cen tros argu m en tan q u e están m id ie n d o la cap acid ad de
em itir ju icio s claros y razon ad os, o la cap acid ad d e llegar a con clu sio n es
(a m b o s e jem p lo s del exam en d e ec o n o m ía d e IGCSE), tien en la
re sp o n sa b ilid a d d e al m e n o s intentar u n a valid ació n d e las m e d id a s [...] L os
tribunales sab en tan p o c o so b re lo q u e están evalu an d o q u e si, p o r e jem p lo , se
les dijera q u e lo s p ro feso re s están evalu an d o h ab ilid ad es (in teligen cia) y n o
ap rovech am ien to , lo s tribu nales n o estarían e n p o sic ió n d e p o d e rse defender.
(W o o d , 1 9 9 1 : 1 5 1 )

De nuestro debate sobre el tema de la validez debe desprenderse que la vali­


dación de pruebas, y en particular la realización de m étodos externos de vali­
dación, es largo y difícil. Sin em bargo, no podem os tom ar la validez por
descontado. Debemos esforzamos en comprobar que una prueba realmente eva­
lúa lo que se supone que evalúa y lo hace de form a precisa.

8.10. Sumario
Tipos de validez Procedimientos de evaluación
Validez interna

Validez aparente Cuestionarios y entrevistas a candidatos, adm inis­


tradores y otros usuarios.
Validez de contenido a) Comparar el contenido de la prueba con las espe­
cificaciones y el programa.
b) Cuestionarios y entrevistas a «ex p erto s», com o
profesores, especialistas en la materia, especialis­
tas en lingüística aplicada.
c) Los expertos valoran los ítem s y los textos de la
pm eba de acuerdo con una lista detallada de cri­
terios.
Validez de respuesta Los alumnos hacen introspección sobre su proceso de
respuesta a la pm eba, ya sea al m ism o tiempo que la
hacen, ya sea de forma retrospectiva.

186
Bibliografia

Validez externa
Validez concurrente a) Estudiar las correlaciones entre los resultados de
los alumnos y los resultados en otras pruebas.
b) Estudiar las correlaciones entre los resultados de
los alumnos y las valoraciones de los profesores.
c) Estudiar las correlaciones entre los resultados de
los alumnos y otras medidas de sus capacidades,
com o las valoraciones de los estudiantes o de los
profesores.

Validez predictiva a) Estudiar las correlaciones entre los resultados de


los alumnos con los resultados de pruebas reali­
zadas poco después.
b) Estudiar las correlaciones entre los resultados de
los alumnos y el éxito en los exámenes finales.
c) Estudiar las correlaciones entre los resultados de
los alum nos y otras m edidas de sus capacidades
obtenidas un poco después, tales com o las valo­
raciones del profesor experto en la materia o del
profesor de idiom as.
d) Estudiar las correlaciones entre los resultados de
los alumnos y el éxito de la nivelación realizada.

Validez de constructo
a) Estudiar la correlación de cada parte de la prueba
con las otras partes.
b) Estudiar la correlación de cada parte de la prueba
con la prueba en su totalidad.
c) Estudiar la correlación de cada parte de la prueba
con la prueba en su totalidad menos la parte ana­
lizada.
d) Comparar los resultados de los alumnos con sus
datos personales y características psicológicas.
e) Estudios multimétodo-multirrasgo.
f) Análisis factorial.

Bibliografia
A lderson, J. C. (1 9 8 8 b ). « N e w Procedures fo r V alidating Proficiency Tests o f ESP?
T h eory an d P ractice.» Language Testing, S (2 ), p ig s . 2 2 0 - 2 3 2 .
A lderson , J. C. ( 1 9 9 0 ). «T e stin g R eadin g C om p reh en sion Skills (Part T w o ): G etting
Studen ts to Talk ab ou t T aking a R eadin g Test (A Pilot S tu d y ).» Reading in a Foreign
Language, 7 (1 ), p ig s . 4 6 5 - 5 0 2 .
A lderson , J. C. ( 1 9 9 1 ). «D is-sp o rtin g L ife .» En A lderson J. C. y B. N orth, (e d s.),
Language Testing in the 1990s. M acm illan , L ondres.

187
La validación

A lderson, J. C. ( 1 9 9 3 ). «Ju d g e m e n ts in L an gu age T e stin g .» En D. D ou glas, y C.


Chapelle, A New Decade of Language Testing. TESOL, A lexandria, V irginia.
A lderson, J. C. y Y. L ukm an i ( 1 9 8 9 ). «C o g n itio n an d Levels o f C o m p reh en sio n as
E m b o d ied in Test Q u e stio n s.» Reading in a Foreign Language, 5 (2 ), p ig s . 2 5 3 —2 7 0 .
A lderson, J. C. y B. N orth (e d s.), ( 1 9 9 1 ). Language Testing in the 1990s. M acm illan,
Londres.
A lderson, J. C , D. W all y C. M. C lapham ( 1 9 8 6 ). An Evaluation of the National Certificate in
English. Centre for R esearch in L an gu age E ducation, U n iversid ad de Lancaster.
A m erican Education R esearch A ssociation , A m erican Psych ological A ssociation , y
N ation al C oun cil on M easurem en t in Education ( 1 9 8 5 ). Standard for Educational and
Psychological Testing. A m erican P sy ch ological A ssociation , Inc., W ash in gton , DC.
B achm an, L. F. ( 1 9 9 0 ). Fundamental Considerations in Language Testing. O x fo rd U niversity
Press, O xford.
Bachm an, L. F., A. K unnan, S. V an niariajan y B. Lynch ( 1 9 8 8 ) . «T ask an d A bility
A nalysis as a B asis fo r E xam in in g C ontent and C onstruct C om p arab ility in T w o EFL
Proficiency Test B atteries.» Language Testing, 5, p ágs. 128—160.
Bachm an, L. F. y A. S. Palm er ( 1 9 8 1 ). «A M ultitrait-M ultim ethod In vestigation in to
the C on struct V alidity o f Six Tests o f L isten in g and R e a d in g .» En A. S. Palm er, P. J.
M. G root y G. A. T rosp er (e d s.), The Construct Validation of Tests of Communicative
Competence. TESOL, W ash in gton , DC.
Bachm an, L. F. y A. S. Palm er (1 9 8 2 ). «T h e Construct V alidation o f Som e C om pon ents
o f C om m u nicative Proficien cy.» TESOL Quarterly, 16 (4 ), p ig s . 449^4-65.
Buck, G. ( 1 9 8 9 ). «W ritten Tests o f Pron un ciation: D o Th ey W o rk ?» English Language
Teaching Journal, 4 1 , p ig s . 5 0 - 5 6 .
C am pbell, D. T. y D. W . Fiske ( 1 9 5 9 ). «C o n v ergen t and D iscrim in ant V alidation b y
the M u ltitrait-M ultim ethod M a trix .» Psychological Bulletin, 5 6 , p ig s . 8 1 - 1 0 5 .
Carroll, B. J. ( 1 9 8 0 ). Testing Communicative Performance. P ergam on , Londres.
Carroll, B. J. ( 1 9 8 5 ). «S e c o n d L an gu age P erform ance T estin g o f U n iversity and
Profession al C o n te x ts.» En P. C. H auptm an , R. LeBlanc y M. B. W esch e (e d s .) ,
Second Language Performance Testing. U n iversity o f O ttaw a Press, Ottawa.
C lapham , C. M. ( 1 9 9 2 ) . The Effect of Academic Discipline on Reading Test Performance.
C on trib u ció n presen tad a en el L an gu age T estin g R esearch C o llo q u iu m , Princeton,
NJ.
Cohen, A. D. ( 1 9 8 4 ). « O n T akin g Tests: W hat the Students R e p o rt.» Language Testing, 1
(1 ) . p ig s . 7 0 - 8 1 .
Criper, C. y A. D avies ( 1 9 8 8 ). ELTS Validation Project Report, ELTS R esearch R eport 1 (I).
The B ritish C oun cil y U n iversity o f C am b rid ge Local E xam in ation Syndicate,
L on dres y C am b rid ge.
Ebel, R. L. y D. A. Frisb ie ( 1 9 9 1 ) . Essentials of Educational Measurement. 5* edició n ,
Prentice-H all, E n g le w o o d Cliffs, NJ.
Faerch, C. y G. K asper ( 1 9 8 7 ). Introspection in Second Language Research. M ultilin gual
M atters, C levedon.
G ron lun d, N . E. ( 1 9 8 5 ) . Measurement and Evaluation in Teaching. M acm illan, N ueva York.
G rotjahn, R. ( 1 9 8 6 ). «T e st validation and cogn itiv e p sy ch o lo gy : so m e
m e th o d o lo g ic al c o n sid e ratio n s.» Language Testing, 3 (2 ), p ig s . 159—185.
H en n in g, G. ( 1 9 8 7 ). A Guide to Language Testing. N ew b u ry H o u se, C am b rid ge, M ass.
In gram , E. ( 1 9 7 7 ) . «B a sic C on cepts in T e stin g .» En J. P. B. Allen y A. D avies (e d s.),
Testing and Experimental Methods. O x ford U n iversity Press, O xford.

188
Bibliografía

K erlinger, F. N . ( 1 9 7 3 ). Foundations of Behavioral Research. H olt, Rinehart an d W inston,


N u eva York.
M o rro w , K. (1 9 7 9 ). «C o m m u n icativ e L an gu age T esting: R evolution or E volu tion ?»
En C. J. B rum fit y K. Jo h n so n (e d s.), The Communicative Approach to Language Teaching.
O x fo rd U n iversity Press, O xford.
M o rro w , K. ( 1 9 8 6 ). «T h e Evaluation o f Tests o f C om m u n icative P erfo rm an ce.» En
M. Portal (e d .), Innovations in Language Testing. N FER-N elson, W in dsor, Berks.
Stevenson, D. K. ( 1 9 8 5 ). «A uth en ticity, V alidity and a T ea Party.» Language Testing, 2
(1 ), p a g s. 4 1 —47.
Sw ain, M. ( 1 9 9 3 ). «S e c o n d L an gu age T estin g an d Second L an gu age A cquisition : Is
T h ere a C on flict w ith T radition al P sy ch om etrics?» Language Testing, 10 (2 ), pags.
1 93-207.
T h orn dike, R. L. y E. P. H agen ( 1 9 8 6 ). Measurement and Evaluation in Psychology and
Education. M acm illan, N ueva York.
W all, D ., C. M. C lap h am y J. C. A lderson ( 1 9 9 4 ). «E valu atin g a Placem ent T e st.»
Language Testing, 11 (3 ), p a g s. 3 2 1 —3 4 3 .
W eir, C. J. ( 1 9 8 3 ). «Id e n tify in g the L an gu age Problem s o f O verseas Students in
Tertiary E ducation in the U n ited K in g d o m .» Tesis doctoral. U n iversid ad de
Lon dres.
W o o d , R. ( 1 9 9 1 ). Assessment and Testing: A survey of Research. C am b rid ge U niversity Press,
C am b rid ge.

189
9 Los informes posteriores a la prueba

En este capítulo se discute por qué es importante escribir inform es una vez ter­
m inada y administrada la prueba. Los inform es podrán ir dirigidos a distinto
tipo de público y las características de cada informe, según el público a quien
va dirigido, se describen con detalle.

9.1. La importancia de los informes posteriores a la prueba


Las pruebas tienen importantes consecuencias para los candidatos y para los que
utilizan sus resultados. Es pues responsabilidad de los que elaboran las pruebas
el facilitar toda la información que puedan sobre la validez, la fiabilidad y el sig­
nificado de las pruebas y de sus resultados. Aspectos com o el de la responsabi­
lidad ante el público empiezan a discutirse en los círculos de evaluación, aunque
todavía no se han establecido o acordado criterios específicos para las pruebas
de idiom as por parte de los responsables de la investigación y elaboración de
las mismas. Sin em bargo, está claro que las presiones para conseguir tales crite­
rios y para obtener inform ación sobre los instrum entos de los redactores de
pruebas aumentarán (véase capítulo 11).
Además, se dedica m ucho tiem po y energía a la preparación de pruebas de
idiom as, y puede aprenderse m ucho de todos los estadios del proceso de eva­
luación. Es p or tanto im portante que las instituciones tengan archivos de sus
decisiones, sus procedim ientos, los anáfisis que llevan a cabo sobre los resulta­
dos de las pruebas y los comentarios que reciben, y que pasen la inform ación
al público que consideren apropiado.
El público m ás obvio lo constituyen las personas que trabajan en la m ism a
institución: los que tienen el encargo de elaborar las futuras versiones de las
pruebas y de coordinar las actividades relacionadas con la elaboración de prue­
bas (ensayos previos, administración, corrección, etc.) Estas personas necesita­
rán información detallada que les ayude a tomar las decisiones adecuadas sobre
la práctica de la institución en el futuro.
Otro público obvio son los profesores que han preparado a los candidatos del
año en curso y que prepararán a otros alumnos en un futuro. Estas personas no
necesitan tanto información técnica com o resúmenes de cómo lo han hecho sus
alumnos y consejos sobre cóm o preparar al próxim o grupo de forma más eficaz.
Hay también otras personas que pueden necesitar información sobre las prue­
bas: entre estas se hallan los administradores de otras instituciones que quieren
saber si pueden utilizar la prueba, o si pueden aceptar sus resultados, y los pro­

190
Los inform es posteriores a la prueba para la propia institución

fesionales del m undo de la evaluación y otros cam pos relacionados, que están
interesados en saber cómo asumen los retos clásicos planteados por la validez,
la fiabilidad y las cuestiones prácticas los distintos tribunales de exámenes.
Cada institución debe decidir por sí m ism a el público al cual quiere dirigirse
y considerar a continuación la clase de información que puede resultar más útil
para este público. Sin embargo, uno de los asuntos más importantes es la res­
ponsabilidad ante el público, por eso debería publicarse una inform ación
mínima para todas las partes interesadas.
En el apartado que sigue discutiremos la clase de información que interesa a
cada tipo de público y revisarem os los inform es posteriores a la prueba que
hemos recibido de distintos tribunales de exámenes, para ver si lo hacen y cómo
lo hacen.

9.2. Los informes posteriores a la prueba


para la propia institución
Un informe posterior a la prueba elaborado para la propia institución cumple
dos funciones:

1. Sirve como informe histórico de la prueba, mostrando cómo funcionaron


en la práctica los diferentes aspectos de la prueba.
2. Sirve com o guía para la elaboración de futuras pruebas, con recomenda­
ciones para m ejorar los aspectos de la prueba actual que no funcionaron
bien.

Hay varios tipos de información que la institución necesita recoger y anali­


zar para decidir si la prueba resultó satisfactoria. El tribunal de exámenes debe­
ría inform ar sobre las estadísticas relevantes y sobre su interpretación de las
cifras. También debería resumir lo que se ha aprendido a partir del análisis de
las notas tomadas durante puntos clave en el proceso, examinando los comen­
tarios recogidos de los participantes im portantes a lo largo del proceso y del
estudio de la actuación de los candidatos.

9.2.1. Información estadística


Puede que no sea posible para una institución recoger toda la información que
quisiera de todos sus candidatos, sobre todo si hay un gran núm ero de ellos,
pero debería hacerse un esfuerzo para recoger datos de al menos una muestra
de la población. Es siempre aconsejable consultar a un especialista en estadística
para la educación con el fin de determinar la m edida de una muestra adecuada
para una población en concreto, al igual que para discutir el m ejor método de
escoger la muestra.
Los datos m ás im portantes para recoger son los resultados de cada ítem de
corrección objetiva y los puntos otorgados por cada parte de corrección subje­
tiva. Con estos datos podrán reconstruirse de forma precisa los resultados tota­
les de las secciones y del total de la prueba.

191
Los informes posteriores a la prueba

Es también im portante recopilar las puntuaciones otorgadas por todos los


correctores que participen en un estudio de fiabilidad entre correctores del tipo
descrito en el capítulo 6.
Los análisis sobre los que se debería informar son los siguientes:

1. Estadísticas descriptivas para toda la prueba y para cada una de sus partes:
histograma, m edia, m oda, m ediana, rango y desviación típica.
2. Análisis de ítems para cada ítem de corrección objetiva: coeficiente de difi­
cultad e índice de discriminación.
3. Correlaciones entre las distintas partes de la prueba y entre cada parte y el
total de la prueba m enos ésta.
4. Fiabilidad de cada sección de corrección objetiva.
5. Fiabilidad de la corrección de cada sección de corrección subjetiva.

Los detalles de cómo llevar a cabo los primeros cuatro análisis se encuentran en
el capítulo 4, y los detalles sobre el quinto están en el capítulo 6. Los resultados
deberían indicar si las diferentes partes de la prueba se comportan como debieran
y si no, dónde parecen encontrarse los problemas. Esta información estadística
puede combinarse con la clase de información descrita m ás adelante para deter­
minar si las partes de la prueba que plantean problemas tenían defectos intrínse­
cos o si los problemas se debieron a una preparación inadecuada de los candidatos
o a una prueba mal administrada que produjo resultados inesperados.
Deberían darse explicaciones sobre cualquier problem a detectado, junto con
las recomendaciones sobre cóm o evitar tales problem as en el futuro.

9.2.2. Resultados de las observaciones


Debería haber observadores presentes durante la administración de la prueba,
el programa de formación para los exam inadores y las sesiones de corrección.
Los observadores deberían tener una lista de los aspectos específicos que han de
tener en cuenta durante la observación de cada procedim iento, aspectos que
deberían estar claramente im presos en un docum ento de observación. Las
siguientes tres preguntas podrían form ar parte de un docum ento de observa­
ción durante la administración de una prueba:
1. El administrador comprueba
la identidad de los candidatos. SÍ NO
Problemas: _____________________________________

2. El administrador lee las instrucciones dos veces. SÍ NO

Problemas: _____________________________________

3. Todos los candidatos pueden oír al administrador SÍ NO

Problemas: _____________________________________

Debería redactarse un inform e indicando si la administración, la formación,


la corrección, etc. se desarrollaron sin incidentes y describiendo los problem as

192
Los inform es posteriores a la prueba para la propia institución

que pudieron haber influido en los resultados de los candidatos tanto favorable
como negativamente. Ejemplos de los problemas que pueden afectar a los resul­
tados son:
El administrador no evita que los candidatos hablen durante la prueba. (Los
candidatos pueden intercambiar información y / o im pedir la concentración
de los que se encuentran a su alrededor.)
El profesor que está dictando un texto a los candidatos pronuncia m al varias
palabras. (Los candidatos no entienden el sentido del texto y por tanto no
comprenden otras palabras que han sido bien pronunciadas.)
Después de la sesión de formación, el examinador jefe no envía a los exami­
nadores una versión revisada de las escalas de puntuación para la expresión
escrita. (Los examinadores terminan usando la escala original, que contiene
conceptos «desdibujados», una redacción poco clara, etc., resultando así difí­
cil una corrección consistente.)
Durante la corrección de la expresión escrita se permite a los examinadores
que escriban sus comentarios encima de los ejercicios escritos de los candi­
datos. (Los exam inadores que deben hacer una segunda corrección se sien­
ten influidos por los comentarios de los primeros correctores.)

9.2.3. Resultados de los comentarios posteriores


Deberían recogerse los comentarios de los administradores, los candidatos y los
examinadores de forma regular, utilizando cuestionarios sobre aspectos especí­
ficos de la prueba. Por ejemplo:
1. ¿Comprendió las instrucciones de la tarea 1
de expresión escrita? SI NO
2. ¿Se requería el número de palabras adecuado? SÍ NO

Deberían incluirse resúmenes de esta inform ación en el inform e junto con


recomendaciones sobre cómo mejorar el proceso en el futuro. Ejemplos del tipo
de ayuda que puede obtenerse con esta información son los siguientes:

Las instrucciones dadas a los administradores decían que la prueba debía durar
30 m inutos y las instrucciones dadas a los candidatos decían que duraría 35
m inutos. (Hubo confusión durante los últim os cinco m inutos de la prueba
puesto que tanto los administradores com o los candidatos intentaron decidir
qué instrucciones eran las correctas.)
El redactor de la prueba pretendía cubrir todo el libro de texto, pero la mayo­
ría de las clases que se presentaron a la prueba no pasaron de la penúltima
lección. (Esto no invalidaría la prueba, pero explicaría la mala actuación de
los candidatos en alguno de los ítem s.)
A los exam inadores no les gustó la regla que decía que los candidatos que
escribieran al menos seis palabras obtendrían un 1 en la escala de puntuación
de 5 pinitos. (Esto podría explicar por qué había m ás puntuaciones de 0 de
lo esperado.)

193
T
Los inform es posteriores a la prueba

9.2.4. Análisis de los ejercicios escritos de los candidatos


Esto pueden llevarlo a cabo com o una operación independiente los jefes de
equipo o el examinador jefe, o puede formar parte de la recogida de comenta­
rios por parte de los examinadores. El objetivo del análisis es encontrar el tipo
de problem as que los candidatos tuvieron con ciertos ítem s o tareas. Si, por
ejemplo, un análisis de ítems (véase el capítulo 4) revela que un ítem de lectura
con respuesta abierta en particular funciona mal, vale la pena repasar los exá­
menes de los candidatos para ver si hay algún esquema o patrón en las respuestas
incorrectas que dé inform ación sobre la fuente del problem a. No es raro que
durante el análisis de los ejercicios escritos de los candidatos se descubran pro­
blemas en un ítem o en una tarea que hayan escapado a la atención de redacto­
res y supervisores. Ejemplos de problem as de este tipo son:

La tarea de expresión escrita pide a los candidatos que escriban un conjunto


de norm as. Los que escriben buenas norm as utilizan, com o es natural, una
sintaxis sim ple, por ejem plo: «Seca lo m ojad o». Por desgracia, la escala de
puntuación no perm ite que se otorgue una puntuación alta a no ser que se
hayan utilizado frases complejas. La consecuencia es que incluso los m ejores
candidatos obtienen puntuaciones bajas. Muchos candidatos responden de
forma incorrecta a un ítem que sólo requiere un cálculo aritmético. El hecho
de que m uchos den la m ism a respuesta incorrecta lleva al analista a darse
cuenta de que el texto original contiene una frase ambigua, que puede inter­
pretarse legítimamente de forma no prevista por el redactor de la prueba.

Un análisis de los ejercicios escritos tam bién revelará los problem as de los
candidatos que simplemente no tienen la competencia requerida para una buena
actuación. En estos casos puede que la culpa no sea de la prueba.

9.2.5. Análisis de las características del candidato


y detección de parcialidad
A la institución le puede interesar en recoger datos sobre los candidatos para
poder com parar las actuaciones de distintos grupos de personas. Este tipo de
comparación, que puede hacerse por sexo, región, lengua materna, edad, etc.,
a veces revela parcialidad en algunos ítem s o tareas. Por ejem plo, el análisis
puede revelar que los candidatos jóvenes tienen m ás problem as que otros en
secciones de la prueba que presuponen conocimientos de cultura general más
allá de su nivel de experiencia. De form a similar, se puede descubrir que los
candidatos de una lengua en especial tienden a tener más problem as con cier­
tos tipos de ítems que otros candidatos de otras lenguas. Si la organización de
la prueba hace descubrimientos de este tipo, deberá decidir si usar los m ism os
tipos de prueba o cambiarlos para adaptarse a los candidatos.
Estas decisiones dependerán de m uchos factores. Por ejem plo, si un centro
dice que una prueba es apropiada para todas las edades, puede que tenga que
reconsiderar la utilización de los ítem s que sólo pueden responder satisfacto­

194
Inform es posteriores a la prueba para profesores...

riamente las personas mayores. Sin em bargo, si se ha prom ocionado siempre


una prueba como apropiada para personas mayores, el hecho de que los candi­
datos m ás jóvenes la realicen peor no debería plantear un problema. En el caso
de un cierto tipo de ítem que demuestra ser más difícil para los candidatos de
una lengua en particular que para el resto, la organización debería considerar si
el tipo de ítem en concreto es la única forma de evaluar un cierto tipo de cono­
cimiento y si este conocimiento es una característica indispensable de la prueba.
Si esto es así, los redactores y el grupo que ha tenido problemas deberá aceptar
que la prueba es «ju sta » y que este grupo tiene, necesariamente, m ás proble­
mas. Sin embargo, también podría darse el caso de que se encontrara otra forma
de evaluar el m ism o tipo de conocimiento sin perjudicar a un grupo con res­
pecto a los demás.

9.2.6. Comparación con estadísticas de versiones previas


de la prueba
Es importante para la institución saber cómo se relaciona una prueba con las ver­
siones anteriores. ¿Resultó ser de una dificultad parecida? ¿Era fiable en los años
anteriores? ¿Se aplicaron las mismas notas para aprobar? ¿La distribución de notas
fue parecida? Aunque los evaluadores intenten producir pruebas que son de difi­
cultad equivalente, y puedan organizar los ensayos previos, el análisis y la edi­
ción de pruebas de form a que esto se garantice, cualquiera de los factores
mencionados en los apartados anteriores, u otros que son ajenos a la pmeba (pro­
blemas políticos, por ejemplo) pueden producir resultados imprevistos.

9.3. Informes posteriores a la prueba para profesores


que preparan a sus alumnos para la misma
El segundo tipo de público que más claramente se beneficia de los informes pos­
teriores a la prueba lo constituyen los profesores que han preparado alumnos
para la prueba que se ha administrado y que prepararán nuevos alumnos para
futuras versiones. Tal com o se dijo en el apartado 1, estos profesores no nece­
sitan tanto información técnica como resúmenes de las clases de problemas que
los candidatos tuvieron en las distintas partes de la prueba y recomendaciones
sobre cóm o preparar a los candidatos de forma m ás eficaz en el futuro. Véase
que aunque nos referim os a profesores en este apartado, no hay motivo para
que esta inform ación no esté también a disposición de los alumnos, de forma
directa o a través de sus profesores.
Los profesores que también son responsables de la administración de la pmeba
querrán saber qué problem as relativos a dicha adm inistración afectaron a la
actuación de los candidatos, y si ellos (y sus compañeros) necesitan prestar más
atención a ciertos aspectos relativos a la administración.
La clase de información que desearán poseer los profesores o que necesitarán
comprender se describe en los apartados siguientes.

195
Los informes posteriores a la prueba

9 . 3 . 1. Información estadística referente a la población


de la prueba y a su actuación en la misma
y en cada una de sus secciones
Este tipo de inform ación no es vital para los profesores o los alum nos que se
preparan para la prueba, pero es útil porque dará a los alumnos una m ejor idea
de cómo se desenvuelve el resto de los candidatos y de cómo puede compararse
su actuación con la de los demás.
La inform ación que puede resultar interesante para cada prueba sería la
siguiente:

¿Cuántos candidatos se presentaron a la prueba o a cada nivel de la m ism a?


¿Qué características tenían—sexo, nacionalidad, lengua materna, edad, etc.?
¿Cómo resultó la distribución de las puntuaciones —cuántos aprobados, nota­
bles y sobresalientes se dieron para cada prueba o para cada nivel?
¿Cuáles fueron las notas m edias y las desviaciones típicas en cada sección de
la prueba?
¿Cómo se diferencian estas cifras de las del año pasado?

La forma m ás simple de dar este tipo de información es mediante tablas, con


breves comentarios que ayuden a los lectores a interpretar lo que están leyendo.
Estos comentarios deberían responder a preguntas como éstas: ¿Por qué la nota
para aprobar esta versión es más alta o más baja que para la versión anterior? ¿Por
qué no ha variado la proporción de candidatos que han obtenido una nota en con­
creto aunque la prueba parece que ha sido más difícil que la versión anterior?

9.3.2. Clave de respuestas para los ítems de corrección objetiva y


escalas de valoración para las secciones de corrección subjetiva
No siempre resulta obvio para los profesores cómo deben responderse las pre­
guntas de un examen ni tampoco cómo se puntúan destrezas como la expresión
oral o la expresión escrita. Puesto que una forma m uy corriente de preparar a
los alum nos para una prueba es utilizando exámenes antiguos, es importante
que los profesores sepan cuáles de las respuestas propuestas por sus alumnos
hubieran sido consideradas «aceptables» por el tribunal de exámenes.
Resulta también útil para los tribunales de exámenes reproducir muestras de
expresión escrita que representen distintos puntos en la escala de valoración,
para que los alumnos, al igual que los profesores, puedan discutir lo que hace
que un ejercicio escrito sea m ejor que otro.

9.3.3. Debate de cada sección de la prueba por parte de


los evaluadores: lo que se evaluaba, problemas típicos
y recomendaciones para prepararse de forma
más eficaz en el futuro
Este debate debería ponerse por escrito una vez analizados los aspectos mencio­
nados con anterioridad en los apartados del 9.2.1 al 9.2.6. Es de vital importan­

196
Inform es posteriores a la prueba para profesores...

cia para profesores y para alumnos, y debería constituir el cuerpo del informe.
Los evaluadores deberían, prim ero, reflejar con claridad lo que se evaluaba
en cada sección de la prueba.
A continuación, deberían indicar cóm o respondieron los candidatos a cada
sección y mencionar el tipo de problema que resultó más difícil para la pobla­
ción en general o para ciertos segmentos de la población. Es importante entrar
en detalle en este punto, pero también es importante que emerjan puntos gene­
rales de entre los detalles. Si los evaluadores pueden ver que los problemas que
tuvieron los candidatos con un ítem en especial están relacionados con los pro­
blemas que tuvieron con otros ítems, deberían decirlo claramente, en parte por­
que los profesores tal vez no vean las conexiones (si no tienen acceso a las
especificaciones para cada ítem, puede que no sean conscientes de lo que se está
evaluan do), pero tam bién porque de esta form a pueden concentrarse en los
aspectos específicos que provocaron las dificultades en esta ocasión y no en las
categorías lingüísticas más generales que pueden aparecer otra vez en versiones
futuras de la prueba.
Finalmente, los evaluadores deberían hacer recomendaciones sobre el tipo de
contenidos lingüísticos y las destrezas en las que deberían hacer hincapié los
candidatos en el futuro, o sobre técnicas que pueden resultar útiles para los can­
didatos con el fin de mejorar su actuación.

9.3.4. Reconocimiento de problemas en la prueba


Es importante que las instituciones que han descubierto problemas en sus prue­
bas lo reconozcan. Esto ocurre a menudo tras el análisis de ítems, y los tipos de
problema que pueden surgir incluyen instrucciones ambiguas, inclusión de con­
tenidos o destrezas que no están en el programa, etc. El hecho de que un orga­
nism o responsable de evaluación haya com etido un error no dará mala
im presión a los profesores o a los alumnos si los evaluadores dejan claro que al
final se trató a los candidatos de manera justa.

9.3.5. Recomendaciones a los profesores sobre


la administración de la prueba
El término «adm inistración» cubre una amplia gam a de actividades, desde la
matriculación de los candidatos hasta la entrega de los resultados finales, pero
las actividades en las que más fácilmente se implicará al profesorado son las que
tienen lugar mientras los candidatos están realizando la prueba. Algunos p ro ­
blemas que suceden habitualmente durante las pruebas de com prensión oral
son: una m ala colocación del equipo de sonido, una acústica deficiente en la
sala de examen o interferencias causadas por ruido en los pasillos o en salas cer­
canas. También pueden ocurrir problemas durante las pruebas de expresión oral,
en especial (aunque no exclusivamente) si las pruebas im plican a m ás de un
candidato al m ism o tiempo. Algunos problemas surgen porque los profesores
no se han preparado bien: puede que no hayan informado suficientemente a los
candidatos de los pasos a seguir, puede que no los hayan puesto en grupos o

197
Los informes posteriores a la prueba

parejas com patibles. Sin em bargo, pueden surgir otros problem as porque los
profesores pierdan el control del tiempo, den a los candidatos ayuda excesiva,
no observen las reglas de seguridad, etc. A veces, por desgracia, los profesores
no son conscientes de los procedim ientos correctos, sobre todo si no han reci­
bido formación en esta área.
El inform e posterior a la prueba puede ser una manera efectiva de recordar
a los p rofesores estos p rob lem as y lo que deben hacer para evitarlos en el
futuro.

9.3.6. Información sobre futuros cambios en la prueba o en los


procedimientos que deben seguirse
Los organism os responsables de evaluación pueden tener buenas razones para
cambiar la forma general de sus pruebas, ajustar la ponderación o m odificar el
contenido lingüístico o de destrezas. El informe posterior a la prueba es el lugar
lógico para notificar a los profesores los cam bios que tendrán lugar puesto que
es el espacio natural en el que los profesores buscarán información cuando pre­
paren a nuevos alumnos para futuras versiones de la prueba.

9.4. Informes posteriores a la prueba para el resto del público


Existen al m enos dos tipos de público para los informes posteriores a la prueba:
los responsables de seleccionar una prueba o decidir si aceptar sus resultados, y
otros profesionales que quieren comprender cóm o aplican en la práctica cier­
tas instituciones los principios de la evaluación.
Los adm inistradores a los que nos referim os pueden trabajar en distintos
lugares: escuelas, centros de estudios superiores, de n egocios o industriales.
Pueden tener a su cargo la selección de pruebas con las que se prepararán sus
alum nos o em pleados, o pueden tener que aceptar o rechazar a un alum no
según sus calificaciones en la prueba. En ambos casos, les interesarán los m is­
m os tipos de preguntas:
¿Esta prueba cubre los contenidos lingüísticos y de destrezas que nos interesan?
¿Es adecuada para el tipo de alumno o empleado que tenemos?
¿Cuáles fueron los resultados de la prueba?
¿Qué relación existe entre los resultados de nuestros alumnos y los del resto
de la población?
¿Es una prueba válida?
¿Es fiable?
Los otros profesionales a los que nos referimos pueden ser profesores, eva­
luadores o investigadores que trabajan en educación o en campos relacionados.
Tendrán distintos m otivos para querer explorar m ás allá de la superficie de la
prueba que les interesa, pero una razón relativamente frecuente es que buscan
m odelos para organizar su propio sistema de evaluación. Los tipos de pregunta
que querrán hacer son a m enudo detalladas y a veces técnicas:

198
Inform e sobre los tribunales de exámenes de in g lés...

¿Qué m étodos se han utilizado para validar las pruebas?


¿Cuáles fueron los resultados de los estudios de validación?
¿Qué m étodos se han utilizado para determinar la fiabilidad de la prueba?
¿Cuáles fueron los resultados de los estudios de fiabilidad?
¿Qué investigación se ha llevado a cabo sobre esta prueba?

En algunos países, las instituciones que producen pruebas para su uso extemo
deben facilitar un m anual que contiene inform ación sobre el objetivo de la
prueba, la población a la que va dirigida, su elaboración y desarrollo, los estu­
dios de validez y de fiabilidad, y la investigación en curso. Aquellos que están
interesados en averiguar si una prueba es apropiada para sus propósitos o en
saber lo que significan los resultados, consultan primero el manual. El sistema
de evaluación del Reino Unido no utiliza manuales de forma tan extensa como
otros sistemas (en reabdad los manuales son prácticamente inexistentes), por lo
que aquellos que necesitan información sobre la validez y la fiabilidad de una
prueba deben acudir a otra parte. Un posible lugar puede ser un informe pos­
terior a la prueba. Este informe no debería ser tan detallado com o los informes
elaborados para uso intem o, y tampoco debería analizar y evaluar las actuacio­
nes de los candidatos de la m ism a manera que lo hacen los informes para pro­
fesores. No debería ser excesivamente largo, puesto que su principal objetivo
es el de inform ar a los lectores sobre hechos, no servir de prueba para tomar
decisiones o com o material de formación de profesores o alumnos.

9.5. Estudio sobre los tribunales de exámenes de inglés


como lengua extranjera: cuestionario
PREGUNTA 4 4 : ¿Los examinadores jefes redactan informes? Si es así, ¿están a disposición de: a) los
profesores, b) los alumnos, c) sólo unos pocos?
En esta pregunta hemos mencionado a los examinadores jefes porque asumimos
que ellos eran las personas que deberían recoger toda la información a la que nos
hemos referido en este capítulo como «informes posteriores a la prueba».
De los doce tribunales que respondieron, tres dijeron que sólo redactaban
informes para uso intem o.
Un tribunal respondió que empezaría a producir un informe del examinador
jefe el año siguiente, y que pretendía distribuirlo a los centros examinadores.
Estos informes estarían a disposición de los alumnos de los centros educativos.
Los ocho tribunales restantes respondieron que ya producían inform es del
examinador jefe que distribuían de forma habitual o a veces enviaban a los pro­
fesores; sin em bargo, uno de estos tribunales pareció referirse a los inform es
que producen para los exámenes de enseñanza secundaria de otras asignaturas,
no los exámenes de inglés com o lengua extranjera.
Este tribunal nos m andó una copia de sus inform es del exam en de nivel A
para inglés y artes aplicadas; aunque la inform ación que contenía era m uy
extensa y probablemente m uy útil para el público a que iba dirigida, no era de
interés para nuestro informe.

199
Los inform es posteriores a ¡a prueba

9.6. Estudio sobre los tribunales de exámenes de inglés


como lengua extranjera: documentación
9.6.1. Informes posteriores a la prueba para el uso
del propio centro
Por desgracia no recibimos informes intemos de ningún tribunal de inglés como
lengua extranjera, por lo que no podem os comentar las funciones que cumplen
tales informes ni la forma que tienen. No sabemos si los tribunales tienen archi­
vos de las propiedades estadísticas de sus pruebas, del seguimiento de sus dis­
tintos procedim ientos, de los com entarios que reciben, de los análisis de los
ejercicios escritos de los candidatos, de los análisis para detectar distintas actua­
ciones según los distintos grupos de candidatos o de la parcialidad de la prueba.
Sabemos que alguno de estos tribunales guarda la información sobre la actua­
ción de los candidatos en años anteriores porqué hemos visto esta información
en los informes para profesores; sin embargo, sabem os poco más de los datos
que los tribunales analizan para su uso intemo o de cómo reaccionan a los resul­
tados de sus análisis.

9.6.2. Informes posteriores a la prueba para profesores


que preparan a alumnos
Tres tribunales nos enviaron informes posteriores a los exámenes que adminis­
traron en 1989 o 1990:
El JMB nos envió una copia de sus Examiners' Reports 1990, que cubría las ver­
siones del UETESON de marzo y noviembre de 1990.
La Delegación de Oxford nos m andó su Armual Rcport, que cubría las versiones
de noviembre de 1989 y de marzo y mayo 1990 de la Oxford Examination in English
as a Foreign Language.
El Instituto de Exámenes de Pitman nos mandó su Examinations Report 1989, que
incluía sus exámenes de English for Speakers of Other Languages para aquel año.
Los informes de JMB y de la Delegación de Oxford se parecían en que cada
tribunal facilitaba comentarios detallados sobre los exámenes en cuestión. Hemos
seleccionado varios ejem plos de cada uno de estos tribunales para ilustrar los
puntos que querem os señalar (ver más adelante).
El informe de Pitman sobre su examen de ESOL no es m uy detallado, proba­
blemente porque es sólo uno de las dos docenas de exám enes sobre los que
informa en el m ism o libro.
No recibim os copias de los informes de ningún otro tribunal, por lo que no
podem os comentar sobre su naturaleza o eficacia.
El propósito de los siguientes apartados es el de revisar la clase de inform a­
ción que puede resultar útil para profesores que preparan a sus alum nos para
las pruebas y presentar fragmentos de los informes posteriores a la prueba que
hemos recibido para ver cóm o intentan los distintos tribunales dar respuesta a
las necesidades de los profesores.

200
Inform e sobre los tribunales de exámenes de in g lés...

INFORMACIÓN ESTADÍSTICA
En el apartado 9.2 afirmamos que a los profesores les interesarían cuatro tipos
de información estadística. Listamos a continuación las preguntas que hicimos
junto con la información que recibim os de JMB o de la Delegación de Oxford.

1. ¿Cuántos candidatos se presentaron para la prueba o para cada nivel de la


prueba? ¿Cuáles eran sus características: sexo, nacionalidad, lengua
materna, edad, etc.?
La Delegación de Oxford da esta información de la forma siguiente:

T abla 9 .1 .C andidatura para los exámenes de oxford por año t país ( página 3 )

Los Exámenes de Oxford de inglés como lengua extranjera

Superior Preliminar
1988 2630 1988 6538
1989 3073 1989 6988

Candidatura por países


Superior Preliminar
1989 1988 1989 1988
Argelia 38 26 105 106
Argentina 25 57 277 268
Bélgica 0 2 1 0
Brasil 579 435 219 138
Chile 2 36 95 0
Etc.

Aquí podem os ver que hay m ás candidatos para el nivel preliminar que para
el superior, y que las cifras para cada prueba aumentaron unos 400 candidatos
a lo largo del año analizado. También podem os ver en qué partes del m undo
son m ás populares estos exámenes y si los candidatos aumentan o disminuyen.
Estas cifras darán a los profesores y a sus alum nos una idea de si la prueba es
conocida o im portante en su propia parte del m undo, lo que puede ayudar a
decidir si quieren adoptarla o no.
Los tribunales no facilitaron m ás detalles sobre sus candidatos.

2. ¿Cuál fue la distribución de resultados? ¿Cuántos aprobados, notables y


sobresalientes hubo en cada examen o en cada nivel del examen?

Ninguno de los informes facilitó el núm ero de candidatos que se presenta­


ron a cada nivel; sin em bargo, el informe de JMV presentaba el porcentaje de
candidatos que obtuvo una puntuación en concreto para cada una de las des­
trezas evaluadas (página 2).
3. ¿Cuáles fueron las puntuaciones m edias y las desviaciones típicas resul­
tantes de cada sección de la prueba?

201
Los informes posteriores a la prueba

Esta inform ación puede encontrarse en el inform e de JMB, justo antes de la


discusión de cada sección de la prueba. Está ilustrado en el siguiente fragmento:
Apartado 3. Lectura
(Nota máxima: 30; media: 16,03; desviación típica: 5,52.)
Los dos textos produjeron una buena dispersión de resultados. Los alumnos
flojos y medianos tendieron a sacar buenos resultados en las preguntas basadas
en hechos pero respondieron mal a las preguntas que requerían una
comprensión más amplia del texto. Los dos párrafos de resumen sólo los
hicieron bien los mejores candidatos...
(Fragmento de un análisis del apartado 3 del examen del UETESOL,
marzo de 1990, página 5)

La idea de presentar la inform ación estadística al principio del debate sobre


la sección de la prueba correspondiente es m uy buena, puesto que ayuda a
los lectores a ver la relación que existe entre las cifras y la inform ación que
sigue.

4. ¿Cómo se distinguen estas cifras de las del año anterior?

El inform e de la Delegación de O xford presenta tablas con el porcentaje de


aprobados de las cuatro versiones distintas de dos exám enes (página 2). Lo
que revela la tabla es que la versión correspondiente a marzo de 1990 de los
dos exám enes tuvo un porcentaje de aprobados m ucho m ás bajo que nin­
guna de las otras tres versiones. Estas cifras podrían significar que los exá­
m enes de m arzo de 1990 fueron m ás « d ifíc ile s» que otras versiones. Una
revelación de este tipo p odría resultar inquietante para los p rofesores que
presentaron sus candidatos a la versión de m arzo de 1990: sin em bargo, el
centro, en su introducción al inform e, afirm a que el bajo porcentaje de apro­
bados puede deberse al tipo de población que se presentó a la prueba y no a
la prueba en sí. Creem os que facilitar este tipo de inform ación a los p ro fe ­
sores es positivo; sin em bargo, es tam bién im portante saber qué análisis rea­
lizó el tribunal para determ inar si fue la población y no las preguntas lo que
hizo la prueba difícil.

LAS PLANTILLAS DE CORRECCIÓN PARA LOS ÍTEMS DE


CORRECCIÓN OBJETIVA Y LAS E S C A L A S DE VALORACIÓN
PARA LAS SECCIONES DE CORRECCIÓN SUBJETIVA
La segunda función de estos informes es la de facilitar la respuesta correcta y las
escalas de valoración para la expresión escrita y la expresión oral. El informe de
JMB fue el único que recibim os que facilitaba las plantillas de corrección utili­
zadas por los examinadores, junto con las modificaciones que se habían incluido
durante las sesiones de unificación de criterios.
Ninguno de los informes que recibim os facilitó la escala de valoración para
la expresión escrita. Sabemos que al m enos un tribunal, la Delegación de Oxford,
presenta una escala de valoración estándar (utilizada para todo tipo de ejerci­
cios de expresión escrita en cada convocatoria de exam en), una muestra de ejer-

202
Inform e sobre los tribunales de exámenes de in g lés...

cicios escritos y comentarios del examinador aparecidos en otra publicación. Sin


embargo, sería útil dar la escala de valoración en el informe posterior a la prueba
para que toda la inform ación esté disponible cuando los profesores lean los
comentarios sobre los principales problem as de los candidatos.

EL DEBATE DE LOS EVALUADORES DE CADA SECCIÓN DE LA


PRUEBA: QUÉ SE ESTABA EVALUANDO, PROBLEMAS MÁS
CORRIENTES Y RECOMENDACIONES PARA PREPARAR
A LOS CANDIDATOS DE FORMA MÁS EFICAZ EN EL FUTURO
La tercera función de un inform e es ayudar a los profesores y a los alumnos a
comprender lo que se está evaluando en cada sección de la prueba. El informe
de JMB da varias explicaciones de este tipo: por ejemplo, esta es la descripción
de lo que se pide en la parte de expresión escrita:
En la primera pregunta de esta parte, los examinadores buscan
primordialmente un dominio preciso de las estructuras sintácticas simples.
Para obtener un aprobado los candidatos deben mostrar un dominio funcional
de las formas verbales, las expresiones con preposición, etc., que requiere el
enunciado. En la segunda pregunta, el énfasis está en elementos más generales
como, por ejemplo, la organización, la coherencia, el desarrollo de las ideas,
del argumento, etc., aunque la lengua constituye también un factor
importante... (página 3).

Resulta especialmente útil que el tribunal explique el propósito de los nue­


vos tipos de ítem. JMB facilita la explicación de una tarea de corrección que no
había sido utilizada anteriormente:
Este tipo de pregunta se ha introducido para fomentar una mayor corrección
de las versiones finales de los trabajos escritos. Cuando un ejercicio escrito ya
ha sido revisado para garantizar que las ideas y el sentido se han presentado de
forma clara, todavía pueden encontrarse errores de concordancia, de tiempo
verbal, del uso de preposiciones, de ortografía, etc. Son los errores de esta
naturaleza los que se han cometido o se han introducido en breves fragmentos
de expresión escrita en este tipo de pregunta. En el mundo real los autores que
corrigen su propio trabajo no conocen el número o posición de tales ítems.
Sin embargo, para el propósito del examen, siempre habrá alguna indicación
para los candidatos cuando se incluya este tipo de pregunta (página 5),

Una vez explicado el propósito de cada sección, el tribunal debería indicar


los tipos de problemas que los candidatos tuvieron en algunas preguntas en par­
ticular. Este ejemplo proviene del informe de la Delegación de Oxford:
En las preguntas 3 a la 6 de la sección 1, los candidatos a menudo se
equivocaron en la distinción entre escribir notas y escribir de forma
telegráfica. Deberían saber la diferencia: una «nota» debe ser breve y puntual,
pero tiene que estar escrita con frases completas; en la «form a telegráfica» se
omiten los artículos, algunos verbos, etc. y sólo debería utilizarse cuando se ha
pedido específicamente, aunque esto rara vez ocurre en el examen del nivel
preliminar (página S).

203
r Los inform es posteriores a la prueba

Aquí el tribunal no sólo describe el problema que tuvieron los candidatos sino
que también intenta clarificar el concepto para los profesores. Aunque no todo
el m undo estaría de acuerdo con la distinción dada por el tribunal, está claro
que esto es lo que esperan los examinadores en el futuro.
El JMB también facilita una crítica clara del comportamiento de los candida­
tos, aunque reconoce que en los últimos años ha habido una m ejoría en algu­
nos aspectos de su actuación:
En esta pregunta se vio claramente que se había tomado nota de los
comentarios relativos a la importancia de las respuestas bien organizadas y
presentadas. En contraste con años anteriores fue reconfortante ver que la gran
mayoría de candidatos había incluido una introducción, organizado sus
respuestas en párrafos, y había incorporado algún tipo de conclusión.
Por desgracia, el resto de la composición fue a menudo decepcionante. La
mayoría de los candidatos todavía no saben cómo dar explicaciones o hacer
comentarios sobre datos cuando la pregunta lo requiere. Cuando el informe
debe acompañar a los datos, el lector no espera la repetición de los mismos.
Espera que el informe los haya interpretado y los comente. Esto supone tomar
nota de las tendencias o patrones, si los hay, detectar las anomalías y
seleccionar puntos de interés concretos... (página 4).

Las consecuencias de una crítica explícita son a m enudo obvias, pero resulta
útil si los tribunales explican claramente el tipo de docencia que deberían im par­
tir los profesores o los tipos de repaso que deberían hacer los alumnos.
El inform e de JMB facilita varios ejem plos interesantes sobre cóm o puede
hacerse esto. En el caso de los candidatos que no «saben cóm o dar explicacio­
nes o hacer comentarios sobre datos» (véase más arriba), recomiendan:
El lenguaje necesario para comentar datos numéricos o gráficos debe enseñarse
de forma más explicita... (página 4).

En una sección posterior del m ism o inform e el tribunal lista una serie de
libros de texto útiles que el profesor puede utilizar para ayudar a sus candida­
tos a solventar estos problemas. Esta información es especialmente valiosa para
profesores que todavía no tienen demasiada experiencia en la preparación de
candidatos para esta prueba.

RECONOCIMIENTO DE PROBLEMAS EN LA PRUEBA MISMA


La cuarta función que pueden cumplir los informes posteriores a la prueba es
la de hacer saber a los profesores y a los alumnos si ha habido problem as en la
prueba m isma y cómo los ha solucionado el tribunal. Un ejemplo de buen hacer
puede verse en el informe de la Delegación de Oxford, en el que el tribunal pre­
senta la evaluación de un ítem en particular:
La única dificultad en mayo surgió con la opción B. La palabra «appointment»
se malinterpretó en muchos casos. Como se trata de una palabra difícil para el
nivel preliminar, no se penalizó a los candidatos que la interpretaron mal
(página 4).

204
Inform e sobre los tribunales de exámenes de in g lés...

En el m ism o informe el tribunal discute el nivel de dificultad de una sección


completa de la prueba, que resultó más difícil que en años anteriores:
Los candidatos encontraron dificultades en la sección 2 de la prueba de
noviembre, por lo que se tuvo en cuenta durante el proceso de puntuación
(página 7).

El JMB también reconoce sus propios problemas: en este ejemplo admite que
ama parte en particular no resultó tan equilibrada como hubiera sido de esperar:
Esta parte resultó más difícil de lo esperado, por lo que se ajustaron los resultados
como corresponde [...] Esta parte en concreto mostró una marcada parcialidad
hacia los ítems de gramática en detrimento de los ítems de léxico y esto puede
haber contribuido al nivel de dificultad. Los exámenes en el futuro tenderán a
estar más equilibrados y se considerará importante el desarrollo del vocabulario a
través de textos, trabajo de diccionario y actividades diversas (página 12).

Reconocimientos de este tipo pueden ahorrar tiempo y problemas a profeso­


res y alumnos. En los ejemplos presentados más arriba, los problemas no eran
serios, pero los profesores podían haberse equivocado al utilizar los exámenes
anteriores como material de repaso, pues habían resultado más difíciles de lo que
les hacía suponer la descripción de los contenidos. En otros casos, sin embargo,
es aún más importante que las instituciones indiquen cuándo han tenido proble­
mas, por ejemplo, cuando no han revisado las instrucciones de manera apropiada
o cuando no han detectado que hay ciertos ítems que no pueden responderse a
partir de los textos que se dan a los alumnos. Este tipo de error puede causar
mucha frustración. Creemos que la admisión del error puede ayudar mucho a pro­
fesores y alumnos y aumentar la reputación de un tribunal si éste deja claro que
no ha penalizado a los candidatos por errores que no son culpa suya.

RECOMENDACIONES A LOS CENTROS SOBRE LA


ADMINISTRACIÓN DE LA PRUEBA
La quinta función del informe posterior a la prueba es la de aconsejar sobre cues­
tiones relativas a la administración de los exámenes, especialmente en lo que
hace referencia a las pruebas de comprensión oral y de expresión oral.
El único ejemplo que encontramos de esta función en los informes que reci­
bimos fue este párrafo del informe de JMB, que insistía en la necesidad de com o­
didad en las pruebas de expresión oral:
El mejor entorno para la prueba es una habitación relativamente íntima en la
que el candidato no se sienta amenazado por el espacio y la distancia y donde
las voces no resuenen, lo que se traduce en una mala reproducción acústica. Si
hay un aula cercana disponible para los candidatos que esperan, es mucho más
agradable que estar sentado en un pasillo donde hay mucho movimiento de
alumnos... (página 16).

Sin embargo, hem os encontrado buenos ejemplos de este tipo de recomen­


dación en informes posteriores a la prueba de otras materias, especialmente en

20S
Los inform es posteriores a la prueba

lenguas extranjeras. La siguiente recomendación proviene de un informe sobre


una prueba oral de español e ilustra la clase de consejo que los tribunales podrían
facilitar sobre la administración de la prueba:
Aunque en general el nivel de la grabación era bueno, todavía existen
problemas que afectan al desarrollo de las pruebas.
a) Los momentos de excesivo ruido de fondo continúan siendo causa de
preocupación. Es importante señalar que el examinador sólo puede puntuar
lo que puede oír. Las clases que se reúnen fuera del aula de examen, la
gente que interrumpe la prueba y la mala colocación de los micrófonos son
factores que influyen en la audibilidad de los candidatos.
b) Hubo ocasiones en la que los profesores se apartaron de las respuestas de
los diálogos en el nivel básico, lo que produjo confusión en los candidatos.
c) La preparación por parte de algunos profesores de su actuación en el
diálogo 4 fue insuficiente y demuestra que hay profesores que no
comprenden que los candidatos tengan que completar frases. Se debe tener
en cuenta que solucionar los problemas de los candidatos, no presentarles
los problemas existentes, introducir tareas adicionales o ayudarles en exceso
no ayuda a los candidatos.
(Northern Examining Association, Spanish: Report on the 1990 Examination, páginas 5—6)
Este tribunal continuaba con tres fórmulas más con las que los profesores podrían
mejorar su administración de los diálogos. Aunque algún tipo de recomendación
puede parecer obvia para una persona poco familiarizada con el tema, es también
obvio que los profesores no comprendieron o no prestaron la suficiente atención
a las reglas que se suponía que debían seguir. El centro ha intentado recordar a los
profesores cómo hacer su trabajo bien para ayudar a sus propios alumnos.

INFORMACIÓN SOBRE CAMBIOS EN LA PRUEBA


O EN LOS PROCEDIMIENTOS
Encontramos varios ejemplos de esto en el informe de JMB. El examen de UETE-
SOL había sufrido una revisión importante durante el año correspondiente al
informe, pero estaba claro que tendrían lugar más cambios en las versiones futu­
ras de la prueba. El tribunal anunció estos posibles cambios a profesores y alum­
nos para darles tiem po de adaptarse a las nuevas exigencias. Este fragmento del
informe se refiere a la sección de comprensión oral de la prueba:
Se espera que los profesores continúen preparando a sus candidatos para
escuchar varios tipos de información auditiva, en variedad de contextos, de
modo que estén preparados para las conferencias, los seminarios, las tutorías
individuales con que se encontrarán en la enseñanza superior, cuyo contexto y
estilo se reflejan cada vez más en la prueba de comprensión oral (página 7).

9.6.3. Informes posteriores a la prueba para otros públicos


Los tribunales de exámenes de inglés como lengua extranjera no elaboran infor­
mes del tipo descrito en el apartado 9.4. Suponíamos que en alguna parte de los

206
Debate

documentos que recibimos de los tribunales encontraríamos la información que


interesa a los administradores u otros profesionales, pero la única información que
encontramos fueron descripciones sobre el tipo de público a quien iban dirigidas
las pruebas (en material publicitario y en los program as), el dpo de lengua y des­
trezas que se evaluaban, y las distribuciones de los resultados de los candidatos.
No había información sobre la validez o la fiabilidad de ninguna prueba en
la información que recibimos. Nos desilusionó que no existiera o no estuviera
a nuestra disposición inform ación técnica de este tipo, y que no pudiéram os
señalar a ninguno de los tribunales de exámenes de inglés como lengua extran­
jera com o m odelo de distribución de información de este tipo.

9.7. Debate
Los informes posteriores a la prueba son importantes por las razones que hemos
discutido al principio de este capítulo. Sin embargo, la evidencia recogida es que
hay pocos y escasos informes adecuados sobre la actuación en las pruebas de idio­
mas, al menos en el campo del inglés como lengua extranjera. Hemos extraído bas­
tantes pasajes de los informes que recibimos porque son buenos ejemplos de la dase
de información que debería estar a disposidón de los distintos tipos de público y
de como podría presentarse. Sin embargo, tales informes son difíciles de encontrar,
y esto es una pena. Puede ser que hasta el momento no haya habido la suficiente
presión sobre los que elaboran pruebas para que presenten evidencia de la validez
y fiabilidad de sus instrumentos, pero tal como dijimos al principio de este capí­
tulo, puede que esto cambie, y sólo puede cambiar a mejor. Puede también deberse
a que los profesores no piden información sobre la actuación de sus candidatos,
pues la mayor parte de éstos son extranjeros y no están en la posición de presionar
a los tribunales de exámenes. Esto contrasta con los profesores de enseñanza secun­
daria del Reino Unido, que sí pueden presionar a los tribunales para que faciliten
la información adecuada para ayudar a los que preparan los exámenes. Puesto que
los tribunales de exámenes del Reino Unido presumen de la relación entre la docen­
cia y la evaluación, todavía sabe peor que tan pocos faciliten una información ade­
cuada a los profesores y alumnos de inglés como lengua extranjera.
El incremento general de publicaciones com o el Code of Fair Testing Practices in
Education y los APA/AERA/NCME Standards (véase capítulo 11) asegura que los usua­
rios de las pruebas y otras partes interesadas reciben la información más com ­
pleta posible sobre la prueba que utilizan. La m ejor m anera de facilitar tal
información es mediante los manuales y los informes que hemos defendido.
El docum ento APA/AERA/NCME Standards dedica un apartado com pleto (el
número 5) a la descripción de lo que deberían contener los manuales técnicos
y las guías del usuario. El apartado de los once m odelos sobre este tema va pre­
cedido por la siguiente frase: «Los editores deberían facilitar la suficiente infor­
mación para que un usuario o revisor cualificado de una prueba pueda evaluar
si es apropiada y técnicamente adecuada» (página 35). Los tribunales de exá­
menes del Reino Unido deberían hacer lo m ismo.

207
Los informes posteriores a la prueba

9.8. Sumario
Las instituciones deberían primero determinar las obligaciones existentes —tanto
legales com o morales—para publicar informes sobre la actuación en sus prue­
bas. Esto variará según el contexto.
Se debería tener en cuenta las necesidades del público al que se dirigen los infor­
m es: ¿Qué necesitan saber? ¿Qué podría resultarles de ayuda?
Debería facilitarse información estadística relacionada con los asuntos que inte­
resan al público.
¿Deben incluirse los resultados de la supervisión del examen?
¿Existen com entarios recibidos de los alum nos, de los exam inadores o de los
administradores ?
¿Se han analizado los ejercicios escritos de los alum nos para ver qué pueden
revelar sobre los puntos fuertes y débiles del examen y de los candidatos?
¿Existe evidencia de parcialidad en la prueba?
¿Cómo se relaciona esta prueba con las versiones anteriores?
¿Cómo pueden preparar los profesores m ejor a sus alumnos, o cóm o pueden
los alumnos prepararse a sí m ism os?
¿Qué consideran los examinadores com o buenas actuaciones y actuaciones flo­
jas, y por qué? ¿Qué criterios se utilizan para evaluar la actuación?
¿Qué problem as se detectaron en la prueba?
¿Qué cam bios se prevén en un futuro próxim o?
¿Qué contenidos o destrezas cubre la prueba, y para qué sirven los resultados
de un candidato?
¿Es la prueba válida?
¿Es la prueba fiable?

208
10 Desarrollo y mejora de los exámenes

En este capítulo se discute cómo pueden modificarse y mejorarse las pruebas a


la luz de su com portam iento, de la investigación y de los comentarios poste­
riores. Se tratan las cuestiones de por qué y cóm o pueden mantenerse al día las
pruebas y se insiste en la necesidad de una constante supervisión de la prueba
durante su periodo de vigencia.

10.1. La supervisión de una prueba


10.1.1. Análisis constantes: contenido de la prueba,
administración, formación del profesorado y corrección
Habrá quedado claro desde el capítulo 8 que establecer la validez de una prueba
no es un asunto rápido ni fácil. Esto quiere decir que a m enudo se ponen en
funcionamiento pruebas —y se utilizan de forma rutinaria para el propósito para
el cual se han diseñado—sin que su validez se haya visto confirmada. Los res­
ponsables de la elaboración de la prueba habrán dado todos los pasos necesa­
rios para garantizar que su instrumento sea lo más fiable y válido posible, dado
el tiem po y los recursos disponibles. Sin em bargo, puede que los problem as
relacionados con una prueba o con los procedim ientos que ésta im plica sólo
emerjan cuando la prueba haya funcionado durante un tiempo. Esto es así tanto
para los exám enes que sólo se adm inistran una vez, pero cuya estructura se
repite año tras año, com o para las pruebas «segu ras» que se administran más
de una vez.
En algunas circunstancias, es simplemente imposible continuar revisando una
prueba hasta que cada ítem, escala o parte funcione a la perfección; lo que ocu­
rre habitualmente es que el borrador de examen se somete a ensayos previos y
se m odifica, pero no se vuelve a someter a ningún ensayo antes de ponerlo en
funcionamiento. Así los responsables de una prueba no llegan a saber cómo fun­
cionan los ítems, las tareas o las instrucciones modificadas hasta que se adm i­
nistra la prueba.
En tales casos, puede ser posible analizar los resultados de la prueba y retirar
los m alos ítems antes de calcular los resultados. Sin embargo, es más probable
que se lleven a cabo los análisis después de la administración, cuando ya se hayan
entregado los resultados. En este caso, aunque ya no se pueden ajustar las notas,
los resultados de los anáfisis deben tenerse en cuenta antes de empezar a elabo­
rar una nueva versión de la prueba. Esto permitirá hacer ajustes en las especifi­
caciones, la formación o los procedim ientos de administración.

209
Desarrollo y mejora de los exámenes

En realidad, nosotros recom endam os que las pruebas se supervisen de forma


regular y rutinaria. Los análisis de los ítems y de cada parte deberían llevarse a
cabo después de cada administración, deberían calcularse estadísticas descripti­
vas (incluyendo los coeficientes de fiabilidad habituales), y los correctores debe­
rían ser supervisados para observar la fiabilidad de sus puntuaciones (véanse
capítulos 4, 5 y 6 para detalles de cóm o deberían llevarse a cabo tales análisis).
Hemos sugerido en el capítulo 8 que los informes posteriores a la prueba debe­
rían contener información que permita m odificarla en un futuro, si es necesa­
rio. En esencia, tales procedimientos son parecidos a los que se deberían seguir
durante la fase de ensayos previos de los ítems y de la prueba.
Sin embargo, durante una administración rutinaria pueden surgir otros pro­
blemas que no se identifiquen de form a fácil en los análisis establecidos. Para
ilustrarlo, discutiremos un ejemplo en el que estuvimos implicados; una nueva
prueba para evaluar la h abilidad de escuchar conferencias. La prueba tenía
lugar con la utilización de una cinta de vídeo: los alumnos debían ver el vídeo
de una conferencia m ientras escuchaban el texto y luego tenían que anotar
sus respuestas en una h oja de respuestas. La prueba fue ensayada de form a
habitual, pareció aceptable, y se puso en funcionam iento. Sin em bargo, la
observación de la administración de la prueba reveló que m uchos alum nos no
estaban en realidad m irando los m onitores: de hecho, leían sus hojas de res­
puesta mientras escuchaban el texto y respondían de acuerdo con lo que oían,
no con lo que veían. Los análisis de ítem s no habían revelado nin gún p ro ­
blema en la prueba, pero la observación nos indicó que la im agen podía resul­
tar en realidad redundante. A partir de este hecho se diseñaron dos pequeños
estud ios: el p rim ero com paraba la actuación en la prueba de vídeo con la
actuación en la m ism a prueba sólo escuchando el texto. N o había n inguna
diferencia en los resultados. El segundo estudio preguntó a los estudiantes qué
versión de la prueba preferían. Votaron unánim em ente p o r la versión que
tenía sólo el sonido; dijeron que la prueba con vídeo era dem asiado com pli­
cada, puesto que no sólo debían leer las preguntas, escuchar la cinta y re s­
ponder a las preguntas sino que tam bién debían estar m irando el m onitor al
tiem po que leían la hoja de respuestas. Ignorar la im agen reducía la com ple­
jidad de la tarea sin afectar la m edida de su capacidad auditiva. Por lo tanto
quitam os el com ponente vídeo.
El prim er punto que ilustra este ejemplo es que si no hubiéram os observado
la prueba de forma rutinaria, no habríamos tropezado con el problema. Así pues,
aconsejam os la observación rutinaria de la adm inistración de la prueba com o
una form a complementaria de supervisión. El segundo punto es que necesitá­
bam os diseñar un estudio especial en pequeña escala para investigar el problema
que se había observado: los procedimientos rutinarios no fueron suficientes por
sí m ism os para ayudam os a com prender el problema. Las organizaciones res­
ponsables de exám enes deben estar preparadas para diseñar (posiblem ente a
pequeña escala) estudios especiales cuando la experiencia o los comentarios pos­
teriores sugieran que pueden ser necesarios.

210
La supervisión de una prueba

Puede ocurrir que los procedimientos recomendados por los que han elabo­
rado la prueba no se lleven a la práctica por parte de los responsables de la misma
o se abandonen una vez comenzada la prueba. Las comprobaciones rutinarias de
los procedimientos pueden identificar tales situaciones. Para ilustrar este punto
podem os citar el ejemplo de una nueva prueba de idiomas, cuyo proyecto de ela­
boración incluía también el desarrollo de procedimientos de formación, certifi­
cación y supervisión de los examinadores de las pruebas de expresión oral y de
expresión escrita. Se consideró la importancia de que las puntuaciones se lleva­
ran a cabo de form a fiable porque la prueba se administraba en varios países y
podía darse el caso de que sólo hubiera un corrector por prueba. Los elaborado-
res prepararon un manual de formación para los examinadores, que incluía actua­
ciones grabadas en vídeo, una muestra de ejercicios escritos y directrices sobre
cóm o puntuar, junto con instrucciones sobre cóm o dirigir sesiones de forma­
ción en las que utibzar los materiales. Tam bién elaboraron un procedim iento
para calcular la fiabilidad de las puntuaciones otorgadas por los profesores al final
del taller, lo que perm itiría a las autoridades poder certificar que un profesor
cum plía los criterios requeridos. Además, se acordaron y diseñaron procedi­
mientos para la recogida rutinaria de muestras grabadas de actuaciones de can­
didatos en la prueba oral, junto con m uestras de la expresión escrita de los
candidatos, que debían mandarse a un punto centralizado para volver a puntuar.
Esta supervisión debía llevarse a cabo de manera regular, y los correctores que se
«apartaran del cam ino» (puntuando demasiado alto o demasiado bajo) serían
avisados y despedidos o tendrían que volver a seguir un programa de formación.
Después de los ensayos, se pusieron en funcionamiento la prueba y los pro­
cedimientos recom endados, pero éstos se abandonaron pronto porque fueron
considerados «in n ecesarios». Los talleres de form ación se substituyeron por
«form ación autodidacta». Los exam inadores debían leer el m anual y ver los
vídeos, y se suponía que, como consecuencia de ello, podrían puntuar de forma
fiable. No se llevaron a cabo com probaciones rutinarias sobre la fiabilidad de
las puntuaciones. Las propuestas de los responsables de la elaboración de la
prueba se frustraron por una ejecución imperfecta de los procedim ientos. En
tales casos, hay probablemente necesidad de supervisión extema de la puesta en
práctica. La disponibilidad de informes posteriores a la prueba, como se ha des­
crito en el capítulo 9, daría la oportunidad de realizar esta supervisión.
Un problem a aparece cuando se utilizan las pruebas sin cam bio alguno
durante un núm ero de años. Los examinadores empiezan a relajarse en la utili­
zación de las escalas de puntuación y la formación dada a los examinadores, que
es en un com ienzo adecuada, puede volverse laxa y mecánica, al tiem po que
éstos creen que ya tienen la suficiente experiencia en la administración de la
prueba. Sin embargo, experiencia no siempre equivale a fiabilidad, y las com ­
probaciones rutinarias sobre el consenso entre exam inadores, especialmente
cuando tiene lugar una doble corrección auténtica, son esenciales para garanti­
zar que se mantengan los estándares y que la formación y la unificación de cri­
terios de los examinadores continúen siendo satisfactorias.

211
'■ ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Desarrollo y mejora de los exámenes

10.1.2. Comentarios de los usuarios de la prueba


Otro aspecto importante de la supervisión de la prueba que no debería pasarse
por alto es la recogida de información entre los usuarios de la misma. Los can­
didatos pueden facilitar información muy valiosa a los responsables de la prueba:
lo que piensan de los ítems, de los m étodos de la prueba, de la claridad de las
instrucciones, del tiempo disponible para las distintas partes, la importancia del
contenido a la luz de su experiencia com o estudiantes o sobre sus propósitos
para aprender la lengua, la relación entre cómo perciben sus habilidades lingüís­
ticas y su actuación en la prueba en cuestión, etc. Tal información puede reco­
gerse de form a rutinaria con cuestionarios adm inistrados inm ediatam ente
después de la prueba, o en estudios preparados especialmente. La ventaja de
recoger inform ación de form a regular m ás que de form a especial es que se
puede identificar la información importante m ás rápidamente.
Igualmente, deberían recogerse de forma sistemática los comentarios de los pro­
fesores, como se sugirió en el capítulo 9, para introducirlos en los informes de los
examinadores. Entre otras cosas, esto propiciaría el control de los cambios en los
niveles de dificultad o incluso de los cambios en la habilidad de los candidatos.
También habría que recabar comentarios de los profesores de idiomas, sobre
todo en las pruebas relacionadas con los currículos. Si es posible, resulta útil reco­
ger información no sólo sobre la relación entre el contenido y el m étodo de la
prueba con el currículo, sino también sobre si la prueba está afectando a la forma
de enseñar de los profesores. ¿Hay formas de preparar a los alumnos para la pmeba,
usadas habitualmente por los profesores, que podrían no ser recomendables si se
hicieran cambios en la prueba o si se dieran directrices sobre actividades de pre­
paración adecuadas? (Véase Wall y Alderson, 1993, para una discusión sobre este
punto, pero nótese también que los profesores pueden no ser la fuente más fiable
de información sobre las actividades de preparación para la prueba. La observación
directa de las aulas puede revelar prácticas no sospechadas ni admitidas.)
Es igualmente importante recabar información de otros usuarios de los resul­
tados de las pmebas: los responsables de admisión en centros de enseñanza supe­
rior, empresas, autoridades educativas y otros parecidos. La pregunta clave es
hasta qué punto tales informadores creen que la prueba cumple el objetivo para
el cual se pensó. Tal información es en cualquier caso (especialmente, aunque
no sólo, para los exámenes de dominio) necesaria para la validación de la prueba
(capítulo 8), en particular cuando es relevante la validez de predicción y hace
falta saber si se están seleccionando los candidatos adecuados teniendo en cuenta
la información recogida por la prueba. Tal como se discutió antes, normalmente
resulta m uy difícil investigar a los candidatos rechazados, pero es posible hacer
un seguimiento de la naturaleza de la población que sí aprobó -entró en la uni­
versidad, encontró empleo, entró en el m undo profesional, etc —y ver si ocu­
rren cam bios en tal población a lo largo del tiem po. Las opiniones de los
usuarios de la prueba serán fuentes de información importante aquí pero puede
resultar necesario suplementarias con m edidas de la población más objetivas.

212
La influencia de nuevos hallazgos en la necesidad...
10.1.3. Características de la población de la prueba
Un aspecto relacionado con la supervisión que resulta útil es la determinación de
las características de la población de la prueba (no sólo de los que aprueban). Es
posible que con el tiempo la población cambie: el origen geográfico, el bagaje
lingüístico, el sexo, el nivel educativo, el nivel de aprovechamiento y el nivel de
habilidad, etc. Por este motivo, la administración rutinaria de un cuestionario que
recoja información biográfica sobre los candidatos es de un valor considerable. Ade­
más, pueden organizarse estudios específicos para analizar las características de la
población con más profundidad, por ejemplo su modvadón, las razones para pre­
sentarse a la prueba, su historial como estudiantes de la lengua, sus estrategias comu­
nicativas, y otros aspectos. Los resultados de un estudio de este tipo pueden damos
información sobre la pmeba y sobre los posibles cambios necesarios. Los estudios
sobre la parcialidad de las pruebas son cada vez más comunes y potencialmente
importantes para los exámenes de idiomas. ¿Es la pmeba parcial con referencia al
sexo o a una etnia? ¿Lo hacen mejor que el resto los candidatos de ciertas regiones
o grupos socioeconómicos? Puede, sin embargo, haber dificultades a la hora de
interpretar los resultados o de decidir qué hacer. En un estudio, Lynch, Davidson y
Henning, 1988, descubrieron que partes del examen de nivel de inglés como
segunda lengua de la UCLA (Universidad de California en Los Ángeles) favorecían
a los estudiantes de habla española y perjudicaban a los estudiantes de habla core­
ana. Sin embargo, una vez analizado el problema, parece claro que esto sucede por­
que el inglés es de por sí parcial: a causa de la afinidad lingüística, a los alumnos
de habla española les resulta más fácil aprender inglés que a los de habla coreana.
Tal parcialidad sugeriría que la pmeba es válida en lugar de señalar su no validez.
Finalmente, es im portante supervisar los niveles de aprovechamiento y de
habilidad de la población que se presenta a la pm eba. Si, a lo largo del tiempo,
parece que los niveles estén cambiando, puede ser necesario investigar las cau­
sas y ajustar la prueba. Podría suceder que, debido a la creciente familiaridad
con la prueba y a una m ejor preparación, la pm eba estuviera volviéndose más
fácil, o podría ser que con una m ejor enseñanza del idiom a la habilidad de la
población estuviera aumentando. En cualquier caso, podría resultar necesario
ajustar la pmeba. Como alternativa, puede decidirse que tales cambios en la difi­
cultad o en la habilidad requerida queden reflejados en un mayor porcentaje de
éxito en la prueba. Mucho dependerá, com o siempre, de los objetivos que se
buscaban con la administración de la pmeba, pero si no se hace un seguimiento
de la actuación de los candidatos se perderá una información importante.

10.2. La influencia de nuevos hallazgos en la necesidad


y la oportunidad de revisar una prueba

10.2.1. Nuevas técnicas de análisis


La necesidad de m ejoras en una prueba o en los procedim ientos relacionados
con la m ism a puede en ocasiones descubrirse sólo con la introducción de nue­

213
Desarrollo y mejora de los exámenes

vos m étodos de análisis. Por ejem plo, el desarrollo de m etodologías que ana­
lizan distintos rasgos y distintos m étodos (multi-trait, multi-method methodologies)
para la investigación de la validez convergente y divergente (véase el capítulo
8; Bachman y Palmer, 1981, y Cam pbell y Fiske, 1959) fue el detonante de
varios estudios de validez que contribuyeron a nuestra com pren sión de la
form a en que podría evaluarse m ejor la competencia lingüística. El descubri­
miento del análisis factorial confirm atorio com o un nuevo instrumento junto
con el análisis factorial exploratorio llevó a descubrim ientos similares. Este es
el caso del desarrollo de los program as de ordenador que perm iten realizar
nuevos análisis estadísticos. Un m uy buen ejem plo reciente de esto es el desa­
rrollo y la disponibilidad de FACETS (Linacre y Wright, 1992). Este program a
permite el análisis de la actuación de distintos examinadores en distintas tareas,
bajo distintas condiciones operativas y con distintos tipos de candidatos. Es
posible explorar hasta qué punto algunos exam inadores en concreto funcio­
nan de form a poco consistente o idiosincrática, o si hay que ajustar las esca­
las de puntuación o se deben m odificar las tareas para obtener puntuaciones
más consistentes o válidas. Antes de la aparición de estos program as, podían
hacerse com probacion es sobre la variabilidad entre exam inadores, pero de
forma m uy rudimentaria. Ahora es posible explorar el proceso de puntuación
y los factores que influyen en los resultados con m ás profundidad y conoci­
m iento. En tales circunstancias es p o sib le que pruebas que pod ían parecer
satisfactorias tengan que ser revisadas porque m uestren aspectos problem áti­
cos después de ser analizadas con m ejores instrum entos.
Una situación parecida ha ocurrido recientem ente cuando los investiga­
dores de la evaluación de idiom as se han interesado y fam iliarizado con téc­
nicas de investigación «cu alitativ as», que pueden utilizarse para investigar
la validez de la prueba. U n ejem plo de tales técnicas es el u so de inform es
introspectivos de candidatos y exam inadores, llam ados inform es de «pen sar
en voz alta», y relatos retrospectivos sobre los procesos de realización de una
prueba (véase capítulo 8 ). Tales datos cualitativos pueden revelar in form a­
ción sorprendente sobre lo que los alum nos y los exam inadores están pen ­
sando en lo relativo a las tareas de una prueba, que puede estar en conflicto
con lo que lo s resp o n sab les de la elabo ración de la pru eb a creen que los
alum nos o los exam inadores «d eb erían h acer». En tanto que los datos dan
evidencia de la validez (o no validez) del contenido, los responsables de la
prueba deberían hacer todos los esfuerzos que estén en su m ano para reco­
ger in form ación sobre el funcionam iento de los instrum entos existentes y
hacer las m odificaciones necesarias en los ítems, instrucciones, m étodo, esca­
las de puntuación y otras facetas de la elaboración de la prueba que se con­
sideren apropiadas.
El m ensaje claro es que los administradores y los redactores de una prueba,
al igual que los investigadores, deben estar familiarizados con los nuevos des­
cubrimientos de m étodos de análisis, para poder aplicarlos a las pruebas exis­
tentes y a las pruebas que puedan desarrollarse en el futuro.

214
La influencia de nuevos hallazgos en la necesidad...

10.2.2. Cambios en la tecnología


Tales novedades pueden parecer crípticas y rem otas para los redactores y los
usuarios norm ales de pruebas, aunque su ritmo de desarrollo es tal que, cree­
m os, ya no lo son. Sin embargo, novedades m ás sencillas pueden ofrecer opor­
tunidades para cam biar pruebas que no eran posibles hace irnos años, y que
reconocerá el m ás cínico de los redactores de pruebas. Un ejemplo obvio de esto
es la posibilidad de tener casetes baratos y de buena calidad. La disponibilidad
de tal tecnología hace posible unificar la administración, por ejemplo, de prue­
bas de dictado y grabar la actuación de los candidatos en las pruebas orales para
que luego puedan ser puntuadas por correctores preparados. Posibilita, incluso,
com o sucede con la prueba AET y el Test of Spoken English (TSE), la administración
de pruebas orales en grupo y en laboratorios de idiomas. Esto hace que la admi­
nistración de pruebas orales resulte m ás factible. Tal tecnología también signi­
fica que a los estudiantes se les puede evaluar su capacidad de comprensión de
una gam a de textos orales, lo que antes no podría haberse realizado con facili­
dad: discusiones de radio, com entarios sobre hechos públicos, contestadores
telefónicos, avisos en aeropuertos y en estaciones de tren, etc.
En realidad, podría pensarse que la posibilidad de utilizar grabaciones de
sonido ha aum entado la disponibilidad de pruebas de com prensión oral y ha
acentuado la enseñanza de la comprensión oral. Podría incluso decirse que los
casetes, junto con otros m edios de reproducción de textos escritos (com o por
ejemplo, las fotocopiadoras) han impulsado, e incluso iniciado, el debate sobre
la conveniencia del uso de lenguaje auténtico en la mayoría de las pruebas.
De igual forma, la llegada de la tecnología de vídeo hace posible el uso de un
tipo de textos y de formatos de prueba que eran impensables antes (aunque el
ejemplo anterior del desarrollo de una prueba de comprensión oral utilizando
una grabación en vídeo ilustra que tales posibilidades pueden no representar
una m ejora real en la validez de la prueba). También m ejora la form ación de
los examinadores de las pruebas de expresión oral. Actualmente, la tecnología
de vídeo interactivo ofrece fascinantes posibilidades para la innovación en el
campo de la evaluación.
La disponibilidad de ordenadores personales ya ha llevado a un gran número
de avances interesantes (y menos interesantes) en el terreno de la evaluación de
idiom as por ordenador (véase Alderson, 1986, 1988a, y Alderson y Windeatt,
1991, que tratan con extensión el impacto potencial de tales avances). Los exá­
menes adaptables, en los que el ordenador decide qué nuevo ítem presentar según
la actuación del candidato en los ítems anteriores, provocará cambios radicales
en la forma en que se administran las pruebas y se calculan los resultados.
Incluso cambios tan simples como la disponibilidad de electricidad en las escue­
las donde antes no había, va a producir grandes oportunidades de innovación y
avance en las pruebas de idiomas a nivel de escuela o incluso a nivel de aula.
El mensaje está claro: los responsables de la elaboración de las pruebas deben
estar abiertos a los avances generales que ofrecen oportunidades de cambio en
cuanto a contenido y método de la prueba.

215
Desarrollo y mejora de los exámenes

10.3. Nuevas tendencias


Una cosa parece obvia en estos últim os treinta años de enseñanza, de evalua­
ción de idiom as y de lingüística aplicada, y es que las ideas sobre la naturaleza
de la lengua, sobre la competencia lingüística, sobre el aprendizaje y la docen­
cia de la lengua y sobre las mejores maneras de evaluar el aprendizaje y la com ­
petencia lingüística están cambiando constantemente.
La lingüística se ha apartado de un enfoque basado en la lengua com o un sis­
tema formal y se ha vuelto más consciente de otras dimensiones: la naturaleza
del significado, la relación entre las frases y su contexto, la variación lingüística
según el usuario y según el uso, etc. La lingüística se ha abierto para incluir
aspectos sociolingüísticos de la comunicación, se ha redefinido la competencia
lingüística en térm inos de com petencia com unicativa (Hym es, 1 9 7 2 ), y los
m odelos de competencia lingüística han pasado de estar basados en la com pe­
tencia gramatical a incluir la competencia textual, la competencia ilocutiva y la
competencia sociolingüística (véase Bachman, 1990).
De forma parecida, en la docencia de la lengua el objetivo de instrucción y apren­
dizaje se ha ampliado para incorporar no sólo las estructuras lingüísticas y el léxico
sino también funciones y nociones, estrategias de aprendizaje y de comunicación,
el comportamiento culturalmente apropiado y otros aspectos. A su vez, la revolu­
ción comunicativa se ha transformado en ortodoxia y debe resistir los envites de
los que abogan por la importancia que tiene el hecho de que los estudiantes adquie­
ran conciencia sobre la lengua -conocimientos sobre la lengua—, que propugnan
una semi-reinstauración de la importancia de la gramática, entendida de forma
amplia, en cualquier definición de los propósitos y objetivos de la formación.
La evaluación de idiom as no está aislada de tales avances, y los años ochenta
vieron cambios importantes en el contenido y, hasta cierto punto, en los m éto­
dos de los exámenes para reflejar estas nuevas preocupaciones e ideas. La eva­
luación de unidades discretas dio paso, al m enos en ciertos ámbitos, a pruebas
basadas en tareas, a técnicas m ás integradas y a un m ayor énfasis en la evalua­
ción de la actuación. Las pruebas de respuesta múltiple se complementaron con
otras com o las de tipo doze, las pruebas c-test, las preguntas con respuesta breve
y otros procedim ientos de respuesta m ás abierta, y la evaluación objetiva cedió
terreno a form as de corrección m ás subjetivas aunque posiblem ente m ás váli­
das para evaluar la competencia lingüística.
Es im probable que hayam os visto el fin de los cam bios en la form a de des­
cribir la lengua y la competencia lingüística, y de decidir qué contenidos lingüís­
ticos enseñar y cóm o. Mientras la evaluación de idiom as deba incorporar una
noción del lenguaje, y una visión de la docencia y del aprendizaje de la lengua,
los exámenes deberán continuar reflejando los cambios teóricos y prácticos que
se produzcan en los otros campos. Así pues, los responsables de la elaboración
de pruebas deberán estar siem pre abiertos a nuevas ideas sobre lo que resulta
importante y relevante a la hora de evaluar, y cóm o deben m edirse estas habi­
lidades y este contenido.

216
Nuevas tendencias

Por tanto, mientras sigan cambiando los currículos y los libros de texto, cam­
biarán también las pruebas basadas en éstos para mantener su validez curricu­
lar (de contenido). Al desarrollarse nuevas form as de enseñanza de las
habilidades de com prensión oral, por ejemplo, o de la enseñanza de la gram á­
tica de form a significativa y comunicativa, las pruebas deberán cambiarse para
incorporar tales novedades. Esto no quiere decir que la evaluación de idiom as
dependa de la docencia y deba responder a cada capricho de la m oda pedagó­
gica; de hecho, hay pruebas que tendrán que mantenerse independientes de los
currículos para poder cumplir su propósito. Los responsables de la elaboración
de pruebas trabajan bajo determ inados im perativos que no se aplican de la
m ism a form a a los autores de libros de texto y a los autores de un currículo (los
exámenes son sólo muestras, deben administrarse en un periodo de tiempo rela­
tivamente corto, no pueden ayudar a los alum nos flojos, etc.) y tienen que
capear cualquier deseo o presión de seguir la m oda con consideraciones que
tengan en cuenta los aspectos prácticos, la validez y la fiabilidad. Sin embargo,
es difícil concebir una situación de evaluación en la que los responsables de la
prueba puedan mantenerse inmunes a la influencia de los avances externos y al
m ism o tiem po conservar la aceptación de sus pruebas por parte de la comuni­
dad profesional de profesores, especialistas en lingüística aplicada y otros eva­
luadores. Así pues, hay una necesidad constante de encontrar formas que pongan
al día y m odifiquen las pruebas para incorporar los avances externos.
U na form a habitual de cam biar las pruebas es som eterlas a una revisión
importante cada cierto núm ero de años, como se ilustra en la siguiente cita de
Alderson, 1986:
D esp u és de con siderar, al m e n o s, las p au tas de d esarrollo del in glés c o m o
le n g u a extranjera, diría q u e un a p ru e b a tien e u n c id o vital e sta b le a d o d e 12 a
1S añ os. U n a vez ha n acido, u n a p ru e b a necesita tiem p o y cu idad os
e sm erad o s p a ra desarrollarse, p ara atraer m á s y m á s aten ción y can didatos,
p a ra establecer su cred ib ilidad c o m o in stru m en to p a ra u n o b jetivo en
particular, p a ra q u e sea reco n o cid a c o m o válida y fiable, alg o q u e n o so tro s en
el R ein o U n id o m e d im o s m ás p o r la o p in ió n del p ú b lic o y el p re stig io q u e
p o r datos e m píricos. Este p e rio d o suele ocu par entre tres y cin co años.
U n a vez establecida, la p ru e b a se con sidera c o m o aceptable durante un
p e rio d o de tie m p o razon able. D urante este p e rio d o p u e d e resultar aceptada
p o r varied ad d e in stitucion es, citada en la b ib lio g rafía so b re evalu ación y
d e sp u és en la b ib lio g rafía so b re docen cia. Puede tener gran n ú m e ro de
can didatos, a m e n u d o con stituyen do el o b jetivo d e su fo rm ació n y sus
asp iracion es. Este p e rio d o p u e d e durar entre cin co y o ch o años.
H acia el fin al de este p e rio d o , sin em b argo , aparecen sig n o s d e sen ilid ad en
fo rm a d e au m en to de críticas so b re la in fluen cia d e la p ru e b a en la docen cia y
en las am b icio n es y vida de lo s alu m n os. La q u e ja habitual es q u e la pru eb a
ejerce u n a in fluen cia restrictiva en la docen cia, y q u e n o p erm ite a lo s
p ro feso re s en señ ar de fo rm a deseab le o sig u ie n d o la m od a.
La p re sió n p u e d e en ton ces crecer den tro d e la o rgan ización m ism a (en el caso
de G ran Bretaña, den tro del p ro p io tribu nal d e e xám en es) p ara q u e cam b ien

217
*

Desarrollo y mejora de los exámenes

las esp ecificacion es, el con ten id o o el fo rm a to de la pru eba. Estas presion es
p ara el cam b io , c o m o verem o s, n o están tan relacion adas con la re c o g id a de
datos q u e d em u estren la in cap acid ad d e la p ru e b a p ara satisfacer el p ro p ó sito
esp ecificad o c o m o con la sen sació n q u e tienen las partes in teresadas d e que
existe u n d e sfase de la p ru e b a con resp ecto a lo s avances de la teoría didáctica
y d e la lin gü ística aplicada. En un sen tido m á s general, p u e d e tratarse d e q u e
la p ru e b a ya n o cu m p la con su fu n c ió n original.
Puede q u e el c am b io lo p ro d u zcan p ro feso re s un iversitarios d e lin güística
ap licada a través de la in vestigación , a m e n u d o im p u lsa d a p o r com ités o
c o m isio n es de trabajo, o p o r el m ism o tribu nal de exám en es a través d e la ya
existen te o recién creada re d de p ro feso re s—evalu adores [...] o p u e d e ser
p ro v o cad a p o r u n a im p licació n directa, n o siem pre solicitada, de los
p ro feso re s m e d ian te m o v im ie n to s c o m o el de las p ru eb as escalon ad as (g rad e ó
test movement) en el caso del R eino U n id o. Sea cual sea el agen te del cam b io, un
n uevo alu m b ram ie n to es in evitable, a m e n u d o d e sp u é s de un p e rio d o de
ge stació n de d o s o tres añ os. Y volverem os a contar con otra in n ovación : el
n acim ien to de u n a n ueva pru eba. Esta p u e d e p arecerse m u c h o a la an terior o
ser m u y distin ta d e ella.
D e tod as fo rm as, es lícito p regu n tarse: ¿Existía la n ecesidad real de u n a nueva
pru eb a? ¿D on d e re sid ía la dem ostración , y n o só lo la op in ió n , d e q u e la
p ru e b a an tigu a n o era eficaz, de q u e estaba periclitada, a pu n to d e p asar a otra
vida? ¿Q u é n ecesid ad sen tían o q u é sab ían de la n ecesid ad de u n a n ueva
p ru e b a su s u su a rio s: lo s alu m n os, lo s p atrocin ad ores, las in stitucion es?
(p ágin as 9 6 —9 7 ).

Otra forma de cambiar las pruebas, sin embargo, es organizando m odos de


innovar el contenido y el form ato de la m ism a constantemente. Esto im plica
cam bios continuos en cuanto a form atos, m ás que revisiones relativamente
ambiciosas e irregulares como las sugeridas anteriormente. Puesto que cualquier
tipo de prueba, incluso una de aprovechamiento basada en un currículo espe­
cífico, es inevitablemente sólo una muestra de lo que podía haberse evaluado,
la m odificación continua del diseño de la prueba está justificada en el deseo de
m ejorar la cobertura del currículo por parte de la prueba. Si el form ato de la
prueba permanece estable durante un periodo de tiempo, puede tener el efecto
de reducir el currículo: no sólo restringirá la prueba a los elementos que se cree
que son evaluables o convenientes sino que posiblemente la enseñanza durante
la preparación para la prueba se limitará a los tipos de actividades y habilidades
que se van a evaluar. Para evitar tal limitación, al igual que para m ejorar la vali­
dez del contenido, hay organizaciones que adoptan de form a deliberada una
política de innovación constante cada año. Para cada convocatoria se cambia una
parte de la prueba: puede tratarse de la introducción de un m étodo de examen
nuevo, de un distinto equilibrio entre sus com ponentes, de la evaluación de
nuevas destrezas o competencias; o pueden introducirse cam bios en los enun­
ciados, en los tipos de prueba o en los procedimientos de respuesta. El propó­
sito de tal innovación es precisamente el evitar cualquier tipo de fosilización de
la prueba, con las poco deseables y previsibles consecuencias.

218
Informe sobre los tribunales de exámenes de inglés...

10.4. El mundo real


Hay, naturalmente, otras consideraciones que llevan a los responsables de una
prueba a cambiarla aparte de los avances teóricos. Los aspectos prácticos son a
m enudo de gran im portancia. El coste de la producción de una prueba es a
m enudo un factor significativo en la limitación de lo que puede conseguirse: el
grado de complejidad que implica la elaboración de una prueba, la cantidad de
formación necesaria para los examinadores, el número de distintas hojas, la can­
tidad de tiem po necesaria para la administración de la prueba, el núm ero de
examinadores necesario. Además, una presión financiera complementaria puede
llevar al centro a m odificar la naturaleza de su prueba y su administración para
reducir costes. La creciente saturación de los horarios de examen en las escue­
las puede significar que queda m enos tiem po disponible que antes para una
prueba de idiomas, y puede ser necesario llegar a una solución de compromiso
en el m om ento del diseño de la prueba.
Puede darse tam bién el caso (aunque m enos corriente) de que haya más
tiempo disponible y que desaparezca la limitación de recursos y de personal pre­
parado, por lo que las pruebas puedan volverse m ás innovadoras y reflejar el
currículo y las tendencias en la enseñanza y en la lingüística apficada. La presión
de otros tribunales de exámenes competidores, del país o internacionales, tam ­
bién pueden provocar llamadas a la innovación más que a la sim plificación o
reducción de costes.
Muchos países tienen una autoridad centralizada con la única responsabili­
dad de producir exámenes, y la experiencia muestra que tales m onopolios de
estado tienden a ser conservadores en lo que respecta a la innovación. Sin
em bargo, en otros ám bitos, com o es el caso de los exámenes de inglés como
lengua extranjera en el Reino Unido, por ejemplo, las «fuerzas del m ercado»
tienden a forzar una innovación competitiva en el desarrollo de pruebas con la
esperanza de alcanzar una cuota de m ercado más alta. De manera parecida,
donde los tribunales de exámenes compiten intemacionalmente por el m ism o
m ercado (com o es el caso, por ejem plo, con el ETS de TOEFL, y el IELTS de
UCLES), podem os suponer que el diseño de las pruebas avanza a m edida que
cada institución intenta ganar ventaja. Así pues, debemos esperar que las pros­
pecciones de mercado y las comparaciones de «productos» rivales sean im por­
tantes en algunos ámbitos y actúen como una fuerza de cambio en el desarrollo
de pruebas.

10.5. Estudio sobre los tribunales de exámenes de inglés


como lengua extranjera: cuestionario
El cuestionario contenía varias preguntas que intentaban descubrir hasta qué
punto los tribunales de exámenes del Reino Unido realizaban de forma regular
la revisión y la actualización de sus pruebas. Además, pretendíamos determinar
hasta qué punto los centros estaban satisfechos con las pruebas existentes y sus

219
Desarrollo y mejora de los exámenes

procesos de producción para poder estimar hasta qué punto tales centros podían
sentir la necesidad de cambiar sus pruebas en un futuro.

PREGUNTA 46: ¿Se recogen comentarios sobre sus exámenes?


Sólo un tribunal dijo que no recogía tal tipo de inform ación sobre sus exá­
menes. Cómo se recogía y de quién, sin embargo, variaba. Algunos tribunales
recogían inform ación de manera informal de profesores en conferencias y en
seminarios, y «p o r rum ores». Uno o dos recogían información de forma regu­
lar, utilizando los «inform es de los vigilantes de las pruebas», los «inform es de
los asesores», o cuestionarios a «escuelas, centros de administración de exám e­
nes, profesores y exam inadores» (nótese que no a estudiantes). Un tribunal res­
pondió que se recogían comentarios de manera «informal, por contacto personal
con los centros», y otro que su «intención es la de mandar cuestionarios a los
centros periódicamente, aproximadamente cada tres años». La práctica de UCLES
varía, pero al m enos una respuesta mencionaba una «H oja de información del
candidato» que debían rellenar todos los candidatos.

PREGUNTA 47: ¿Existen procedimientos rutinarios para garantizar que sus exámenes se revisen a la
luz de los comentarios?
Es interesante remarcar que tres tribunales respondieran que tales procedi­
mientos no existían. Una respuesta de UCLES decía que los grupos de trabajo
discutían el tema a intervalos de seis meses.

PREGUNTA 48: ¿Cada cuánto tiempo aproximadamente se revisan sus exámenes?


La frecuencia de la revisión de los exámenes de inglés como lengua extran­
jera varía de «e n m enores detalles, constantemente» a «cada dos años aproxi­
m adam ente»; un tribunal dijo: «Revisiones menores cada pocos años. Mayores
revisiones sólo ocasionalm ente. Actualmente se está realizando una revisión
im portante.» Dos centros hicieron referencia a revisiones en 1989 y 1990 res­
pectivamente.

PREGUNTA SO: ¿Tienen planes para realizar cambios como los descritos más arriba en los procedi­
mientos que siguen?
La mitad de los tribunales dijo que sí tenían tales planes y la otra mitad res­
pondió que no. Se hizo mención a una revisión de envergadura en curso, pero
no se facilitaron detalles.
Las últimas preguntas pretendían sondear hasta qué punto los centros estaban
satisfechos con sus pruebas y hasta qué punto creían que sus pruebas eran «supe­
riores» a otras pruebas del mercado. Aunque estas respuestas no estaban directa­
mente relacionadas con la supervisión de la prueba o con su mejora, dan idea de
si los centros creen, al menos en público, que sus pruebas tienen que mejorar.

PREGUNTA 51: Se dice que la fuerza de los exámenes británicos reside en su relación con la docen­
cia. ¿Está de acuerdo? ¿Puede describir cómo se demuestra esta relación en el caso de su examen?

220
Informe sobre los tribunales de exámenes de inglés...

N ingún tribunal discrepó de esta afirmación, aunque uno dijo que no tenía
opinión, puesto que «la fortaleza de nuestros esquem as reside en unas defini­
ciones claras de actuación. No dictamos materiales de aprendizaje».
Entre los que respondieron «A lgo », uno dijo: «H ay otros puntos fuertes, y
la docencia es una base tambaleante, porque las m odas cam bian frecuente­
m ente.» La m ayoría respondió con un rotundo Sí y tres dijeron que sus exá­
m enes tenían efectos de rebote positivos. Sin em bargo, no tenemos
conocimiento de ningún estudio sobre la materia. La suposición más común fue
que la cercanía a la docencia estaba asegurada con la implicación de los profe­
sores como examinadores y con la evaluación de las destrezas comunicativas.

PREGUNTA 52: También se dice que los criterios y procedimientos «psicométricos» o «americanos»
son irrelevantes para los exámenes británicos. ¿Está de acuerdo? Si está de acuerdo, ¿qué criterios y/o
procedimientos son irrelevantes para sus exámenes?
Una gran mayoría de los tribunales discrepó de esta afirmación, aunque varios
decían que tales «procedim ientos» sólo afectaban a las secciones de corrección
objetiva de sus exámenes. Dos tribunales, sin embargo, añadieron calificacio­
nes a su desacuerdo, que creemos vale la pena citar completas:
U n a co m b in ac ió n de re alism o lin gü ístico b ritán ico y de psicom etría am ericana
es, creo, m u y deseab le y técnicam ente p o sib le , m ien tras se su p o n g a q u e los
exam in ad o res n o sean u n os sinvergüen zas y, dentro de u n os lím ites, tien dan a
co n verger en su s o p in io n e s sob re lo s con ten idos lin gü ístico s y los can didatos
[...] el an álisis p sico m é trico n o es n un ca lo suficien tem en te com pleto co m o
p a ra d isip ar todas las sosp ech as y n o con ven cerá a lo s p ro feso res si entra en
con flicto con el sen tido com ú n , evidencia em pírica q u e p u ed en com pren der
fácilm en te a sim p le vista.

Y también:
Su ap licació n au m en taría de fo rm a sign ificativa el coste de u n pro d u cto que
d eb ería tener u n p re cio m o d erad o .

PREGUNTA 53: ¿Cuáles son, en su opinión, los puntos fuertes de sus exámenes?
Esta pregunta provocó gran variedad de respuestas, desde «flexibilidad de la
administración», «disponibilidad a petición», «tareas prácticas realistas», exá­
menes «disponibles para distintos niveles», a las m enos modestas «fiabilidad,
justicia com pleta, validez y procedim ientos de adm inistración intachables».
Gama de textos y tipos de tarea, autenticidad, relación con la docencia y la afir­
m ación de efectos de rebote fueron los puntos fuertes más mencionados.

PREGUNTA 54: ¿Cuáles son, si los tienen, los puntos débiles de sus exámenes?
¡No es de sorprender que las respuestas a esta pregunta fueran más breves!
Cuatro tribunales dijeron que no tenían ninguno, y uno afirm ó que el único
punto débil de sus exámenes es que todavía no se convocaban en Estados U ni­
dos o Canadá. Sin embargo, uno o dos dio respuestas más detalladas, haciendo

221
Desarrollo y m ejora de los exámenes

referen cia, p o r ejem p lo , a la d ificu ltad de u n ificar ju ic io s de im p re sió n . La


ausencia del com pon en te de evaluación de la p rod u cción oral fue m en cion ad o
por dos centros, y un tercero m encion ó las destrezas integradas.
N o todos los lectores se tranquilizarán al leer una de las respuestas: «S i se d es­
cubriera u n punto débil, se rectificaría in m ediatam ente».
Las respuestas de UCLES eran m ás creíbles y resultaron francas y alentadoras.
U na de ellas contenía tres puntos:

a) Necesitamos llevar a cabo mayores esfuerzos para garantizar la fiabilidad de


los examinadores mediante certificaciones y revisiones de estas certificaciones.
b) Tenemos que procurar establecer en mayor medida que las distintas
versiones sean equivalentes en términos de fiabilidad y de contenido.
c) Las tareas de expresión escrita que requieren una corrección subjetiva
deberían ser corregidas habitualmente por dos correctores.

U na segu n d a resp uesta identificó d os p u n tos débiles « la falta de form ación


del personal relacionado con la adm inistración de la prueba y la adm inistración
ted io sa», y un a tercera respuesta, refiriéndose a una prueba recién introducida,
dijo: « la falta de p roced im ien tos form ales para la validación y la equiparación
constante de la p ru eb a».

10.6. Discusión
Según estos resultados, parecerá que los tribunales están en general satisfechos
de sus pruebas, aunque estén im plicados en u n proceso de revisión habitual. Lo
que está m en os claro es hasta qué punto esta revisión es el resultado de la reco­
gid a sistem ática de d ato s, y hasta q ué pu n to refleja reaccio n es in tu itivas del
«ám b ito p ro fesio n al» y del «m e rc a d o ». N uestra posición es que la recogida de
com entarios in form al a través de «ru m o re s» es una base p oco fiable para fu n ­
dam entar la satisfacción sob re la prueba, o in cluso las revisiones de la m ism a.
Sin em bargo, algunas respuestas aseguraron que se identificaban los problem as
y que se tom aban m edid as para ponerles rem edio.
La supuesta estrecha relación con la docencia era quizá predecible, pero debe
tom arse con escepticism o, p uesto que la práctica varía de form a considerable.
Las afirm acion es sob re el efecto de rebote b en eficio so so n com u n es, p ero no
presentan pruebas y , com o han señalado Alderson y Wall, 1 993, ésta es un área
que p o d ría b en eficiarse de u n a co n sid erab le in v estig ació n . D ada la su p u esta
estrecha relación entre la d ocencia y la evaluación, p u ede darse el caso de que
las pruebas puedan m ejorarse m ediante u n estudio exhaustivo de la práctica de
la preparación de pruebas.

10.7. Sumario
¿Qué p rocedim ientos de supervisión se llevan a cabo?
análisis de ítem s y fiabilidad de la prueba
cálculo de la fiabilidad de la corrección

222
Sum ario

observación de la adm inistración de la prueba


observación del proceso de form ación y de unificación de criterios
observación de la corrección y de la supervisión
com paraciones de niveles de éxito a lo largo del tiem po
recogida de datos sob re las características de la población de la prueba:
sexo
país o región de origen
len gua m aterna
historial de aprendizaje de lenguas
m otiv os para presentarse a la prueba
nivel de habilidad
etc.
com entarios de los u suarios de la prueba:
candidatos
exam inadores
profesores
otros usuarios, com o, por ejem plo, responsables de adm isión
¿Se llevan a cabo los procedim ientos de seguim ien to de form a adecuada?
¿Se necesitan estudios especiales?
parcialidad de los ítem s y de la prueba
m otivación del candidato, razones para presentarse a la prueba, resultados
en otras m aterias
etc.
¿Hay otros m étodos de análisis disponibles —estadísticos o cualitativos- que p u e­
dan revelar m ás in form ación sobre la prueba?
¿Q ué tecnología está dispon ible que pueda conducir a m ejoras?
casetes de audio
laboratorios de lenguas
fotocopiadoras
electricidad
vídeo
vídeo interactivo
ordenadores
lectores ópticos
sistem as de reconocim iento de caligrafía
lápices correctores
etc. ^
¿Está pasada de m od a la visión de los contenidos lingüísticos que la prueba con­
tiene?
¿Refleja la prueba las corrientes y la práctica actual de la docencia de lenguas?
¿Q ué efecto tiene la prueba en la docencia? ¿Puede m ejorarse?
¿Puede la prueba ponerse al día de form a habitual y n o sólo ocasionalm ente?
¿Puede reducirse el coste de la prueba sin que se vean afectadas la validez y la
fiabilidad?

223
Desarrollo y m ejora de los exámenes

¿Puede sim plificarse la prueba sin que se vean afectadas la validez y la fiabili­
dad?
¿Cómo son las pruebas de la competencia? ¿Puede su prueba mejorar lo que ellas
hacen?
¿Revelan los estudios de m ercado la necesidad de cam bio? ¿Hay huecos en el
mercado?

Bibliografía
Alderson, J. C. (1986a). En Leach y Candlin (eds.), Computen in English Language Education
and Research. Longman, Londres.
Alderson, J. C. (1986b). «Innovations in Language Testing?» En M. Portal (ed.).
Innovations in Language Testing, págs. 93—IOS. NFER-Nelson, Windsor, Berks.
Alderson, J. C. (1988a). «Innovations in Language Testing: Can the Microcomputer
Help?» Número especial de Language Testing Update.
Alderson, J. C. y S. W. Windeatt (1991). «Computers and Innovation in Language
Testing.» En J. C. Alderson y B. North (eds.). Language Testing in the 1990s: The
Communicative Legacy. Macmillan, Nueva York.
Alderson, J. C. y D. Wall (1993). «Does Washback Exist?» Applied Linguistics, 14, págs.
115-129.
Bachman, L. F. (1990). Fundamental Considerations in Language Testing. Oxford University
Press, Oxford.
Bachman, L. F. y A. S. Palmer (1981). «A Multitrait-Multimethod Investigation into
the Construct Validity o f Six Tests o f Listening and Reading.» En A. S. Palmer, P. J.
M. Groot y G. A. Trosper (eds.), The Construct Validation of Tests of Communicative
Competence. TESOL, Washington, DC.
Campbell, D. T. y D. W. Fiske (1959). «Convergent and Discriminant Validation by
the Multitrait-Multimethod Matrix.» Psychological Bulletin, 56, pigs. 81—105.
Hymes, D. H. (1972). «O n Communicative Competence.» En J. B. Pride y J. Holmes
(eds.), Sociolinguistics, pigs. 269-293. Penguin, Harmondsworth.
Linacre, J. M. y B. D. Wright (1992). FACETS: Many-Facet Rasch Measurement. MESA Press,
Chicago.
Lynch, B., F. Davidson y G. Henning (1988). «Person dimensionality in language
test validation.» Language Testing, 5 (2), pigs. 206—219.
Wall, D. y J. C. Alderson (1993). «Examining Washback.» Language Testing, 10 (1),
pigs. 41—69.

224
11 Criterios de la evaluación de lenguas:
el estado de la cuestión

En este capítulo final se tratan los principios y los criterios que hemos pretendido
establecer e ilustrar en este libro hasta el momento. Cada capítulo ha tratado un
estadio distinto del proceso de redacción y de evaluación de las pruebas, y ha des­
crito lo que consideramos como «práctica deseable» en la evaluación de idiomas.
Al mismo tiempo hemos intentado ilustrar la práctica habitual en una zona en par­
ticular —el Reino Unido—y en un grupo de pruebas: las de inglés como segunda
lengua o lengua extranjera. Si hubiéramos descrito la práctica de otras partes del
mundo o de otros idiomas en el Reino Unido, sin duda hubiéramos hecho otro
retrato, quizá m ejor, quizá peor del que hem os pintado en estas páginas. Hay
muchos factores que influyen en el proceso de evaluación: prácticos, financieros
y políticos. Distintos responsables de distintas pruebas pueden empezar con la
m ism a idea, pero acaban con instrumentos y procedimientos m uy diferentes a
causa de las limitaciones del entorno en el que trabajan. Heaton (1988: 24) uti­
liza el término «com prom iso» para describir el tira y afloja que está siempre pre­
sente en el proceso de elaboración de una prueba. Si tales compromisos resultan
inevitables, al menos debemos garantizar que estén basados en ciertos principios.
Tener una idea clara de cuál es la mejor práctica ayudará a los responsables de la
prueba a ver qué elementos pueden permitirse sacrificar y cuáles deben mantener
a pesar del alto coste. Aquí reside el significado de «criterios» (standards).

11.1. ¿Qué son los criterios?


En evaluación, el término standards puede tener dos significados distintos, sólo
uno de los cuales se adoptará en este capítulo. El prim er significado tiene rela­
ción con los niveles de los resultados de los alumnos. Este es el m ás com ún­
m ente utilizado para referirse a los candidatos de una prueba, com o en la
expresión «L os niveles han caído...», y hem os utilizado el término con este sig­
nificado en capítulos anteriores.
El segundo significado de standards [al que corresponde el término «criterios»]
está relacionado con la noción de «principios». Pollit (1990) considera los «cri­
terios» com o una forma de m edir la adherencia de una institución a irnos deter­
m inados «principios»:
Los «principios» dividen el mundo de la evaluación de forma horizontal, en distintos
ámbitos que nos conciernen. Los «criterios» lo dividen de forma vertical, definiendo
(por ejemplo) cuánta «fiabilidad» se debe pedir, o lo bien o lo detalladamente que
debe describirse el proceso de elaboración de la prueba (página 1).

225
Criterios de la evaluación de lenguas: el estado de la cuestión

Para Pollitt es relativamente fácil llegar a un acuerdo sobre los «principios»,


mientras que los «criterios» son «escurridizos» y pueden conducir a un exceso
de prudencia o a una represión de los avances creativos.
De la m ism a m anera que vem os la lógica de esta distinción, reconocem os
que para la mayor parte del m undo de la evaluación los «criterios» y los «prin­
cipios» se refieren a la m isma idea: una base para evaluar la práctica de la eva­
luación. Esto es así a causa de los Standards for Educational and Psychological Testing, que
describimos más adelante, y documentos similares, que utilizan la palabra «cri­
terios» en sus títulos. Q uerem os contribuir a lo que consideram os un uso
extendido del térm ino, y tam bién querem os anim ar a los que están desarro­
llando un trabajo im portante en esta área. Por este m otivo utilizam os el tér­
mino «criterios» con este segundo significado, que se refiere a las directrices
acordadas que deberían consultarse y, en la m edida de lo posible, ser tenidas
en cuenta durante la elaboración y evaluación de una prueba. En el Reino
Unido y en el entorno europeo, la expresión «c ó d ig o de com portam iento»
parece preferirse al término «criterios», e incluimos un resum en de estos dos
tipos de docum entos en este capítulo.
Estos últimos años hem os asistido a una discusión considerable sobre la nece­
sidad de contar con criterios, y sobre si la evaluación de idiom as debería tener
unos criterios propios. La Asociación Internacional de Evaluación de Lenguas
(ILTA) está investigando los criterios existentes para las pruebas y otros tipos de
medidas en el ám bito de la educación, para comenzar una discusión sobre el
posible diseño de una política que defina estos criterios o la compilación de un
nuevo conjunto que sea m ás específico. En este capítulo damos nuestra opinión
sobre los criterios en general y sobre los conjuntos de criterios en particular que
pueden ser puntos de partida útiles para un trabajo futuro.
En los apartados siguientes describimos seis conjuntos de criterios distintos.
Los hem os escogido porque creem os que representan enfoques interesantes
sobre el problema que supone la definición de una buena prácdca y porque cada
grupo contribuye con algo nuevo a nuestro retrato de lo que deberían ser los
criterios. Somos, sin em bargo, conscientes de que al escoger criterios escritos
en inglés podem os estar excluyendo de la discusión directrices producidas en
otras lenguas. El inform e de ILTA dará pronto información sobre los esfuerzos
que se hacen para asegurar la calidad de pruebas y exámenes en otras lenguas.
A continuación presentamos la base, el propósito y la organización general
de cada uno de estos seis conjuntos de criterios, y un comentario sobre el valor
de su contribución al cam po de la evaluación. Incorporam os luego ideas de
todos ellos a una discusión sobre las preguntas que deberían formularse en futu­
ros debates sobre la conveniencia de otros criterios.
Nótese que la fecha que se da entre paréntesis al principio de cada descrip­
ción es la fecha de la última edición del documento que se presenta. Ninguno
de los documentos tiene m ás de diez años; esto no significa, sin em bargo, que
todos los avances hayan tenido lugar en la última década. En realidad, m uchos
de los documentos son el resultado de años de reflexión y de revisión. Es tam-

226
Standards for Educational and Psychological T estin g ...

bien im portante darse cuenta de que algunos docum entos reconocen a otros
com o fuente de inspiración. Ha habido mucho intercambio en esta área hasta
el m om ento, y es probable que continúe en el futuro.

11.2. Standards for Educational and Psychological Testing


(«Criterios de evaluación educativa y psicológica») (1985)

11.2.1. Antecedentes
Quizá los criterios m ás conocidos son los Standards for Educational and Psychological
Testing, a los que m uchos se refieren com o los «criterios APA». Estos criterios
fueron publicados en 1985 por The American Educational Research Association (AERA),
The American Psychological Association (APA) y The National Council on Measurement in Edu­
cation (NCME). APA y AERA habían pubÜcado por separado «recomendaciones
técnicas» para pruebas a m ediados de los años cincuenta y, junto con NCNE,
contribuyeron a la publicación de sus prim eros criterios conjuntos en 1966.
Estos fueron revisados en 1974 y de nuevo en 1985. La versión de 1985 incluye
la gran cantidad de cambios que tuvieron lugar en el campo de la evaluación en
los años setenta, incluyendo adelantos técnicos, nuevos usos de las pruebas para
«preocupaciones sociales crecientes sobre el papel de la evaluación en la logro
de objetivos sociales» (página 5). Suponem os que habrá otra revisión durante
la presente década.

11.2.2. Propósito
El docum ento de los criterios es suficientemente explícito en cuanto a su pro­
pósito:
El propósito al publicar este documento es el de facilitar criterios para la
evaluación de pruebas, prácticas evaluativas y los efectos producidos por esta
práctica [...] Pueden aportar un marco de referencia para garantizar que se
tratan los aspectos importantes [...] Todos los responsables de la elaboración
de pruebas, los que las costean, los editores, y los usuarios deberían hacer
esfuerzos para cumplir estos criterios y animar a otros a hacer lo mismo
(página 2).

Se da por hecho que hay pruebas que no ofrecen la calidad que el público
espera de ellas: los criterios pueden utilizarse com o una base para identificar
las pruebas que cum plen con sus objetivos y las que no. El docum ento reco­
noce que «la utilización de criterios en litigios es inevitable» (página 2 ); sin
em bargo, se han ideado com o guía para contribuir a la tom a de decisiones,
pero no de form a prescriptiva. En realidad, hay que señalar recientes debates
con AERA sobre cóm o, o sobre si los criterios deberían «im p o n erse». El
Comité de Revisión los ve claramente com o voluntarios, aunque con un grado
de obligación moral.
El prefacio al documento de los criterios da información detallada sobre cómo
cree el Comité de Revisión que éstos deberían operar:

227
Criterios de la evaluación de lenguas: el estado de la cuestión

Los criterios deberían:


1. tratar temas relativos al uso de pruebas en variedad de aplicaciones;
2. ser el modelo de los criterios técnicos para la buena práctica profesional y
no una prescripción sobre acción social;
3. hacer posible la determinación de la adecuación técnica de una prueba, la
propiedad y adecuación de aplicaciones específicas, y si las inferencias
basadas en los resultados de la prueba son razonables;
4. requerir a los responsables de la elaboración de pruebas, a los editores y a
los usuarios la recogida y disponibilidad de información suficiente para que
un inspector cualificado pueda determinar si se cumplieron los criterios
adecuados;
5. representar un fuerte imperativo ético, aunque estaba claro que el
documento en sí no debía contener mecanismos de control;
6. reconocer que no todos los criterios son aplicables de forma uniforme
según instrumento y uso;
7. presentarse a un nivel que permita utilizarlos a una gama amplia de
profesionales que elaboran o utilizan las pruebas o sus resultados.
8. no inhibir la experimentación en el desarrollo, utilización e interpretación
de pruebas;
9. reflejar los actuales niveles de consenso de los expertos reconocidos.
(Página v)

11.2.3. Objetivos
Los criterios van dirigidos a las pruebas, según se definen en el documento de
la siguiente forma:
Por pruebas se entiende instrumentos de habilidad (aptitud y
aprovechamiento) tipificados, mecanismos de diagnóstico y evaluación,
listados de intereses, listados de personalidades e instrumentos de proyección
[...] En los criterios se cubren tres categorías amplias de instrumentos de
evaluación: tareas para evaluar la actuación, cuestionarios, y en menor medida,
muestras de actuaciones (páginas 3—4).

Sin em bargo, los criterios no sólo van dirigidos a los instrum entos de eva­
luación sino también, y sobre todo en la revisión de 1985, al uso de las prue­
bas y, en particular, a sus aplicaciones y a los procedimientos administrativos.
Procuran ser completos, dirigiéndose a «u n uso mayoritario de las pruebas, a
los aspectos técnicos relativos a una amplia gam a de preocupaciones sociales y
legales, y a las distintas necesidades de los participantes en el proceso de eva­
luación» (página v iii).

7 1.2.4. Organización general


El documento de los criterios está subdividido de la siguiente manera:

228
Standards for Educational and Psychological T estin g ...

Parte I: Criterios técnicos para la redacción y evaluación de pruebas


Contiene capítulos sobre los aspectos siguientes: validez; fiabilidad; elabo­
ración y revisión de pruebas; elaboración de escalas y de normas, com pa­
ración y ecuación de resultados; y publicación de la prueba: manuales
técnicos y guías del usuario.
Parte II: Criterios profesionales para la utilización de pruebas
Contiene capítulos sobre principios generales de la utilización de pruebas;
la evaluación educativa y psicológica en escuelas; utilización de pruebas
para asesoram iento; selección de personal; licenciaturas profesionales y
ocupacionales; y evaluación de programas.
Parte III: Criterios para aplicaciones específicas
Se ocupan de evaluación de minorías lingüísticas; y de la evaluación de per­
sonas discapacitadas.
Parte IV: Criterios para los procedimientos administrativos
Cubren la administración de las pruebas, puntuación y publicación de resul­
tados; y de la protección de los derechos de los candidatos.
Hay un prólogo al principio de cada capítulo que facilita un contexto para la
interpretación de los criterios descritos en el capítulo. También hay un glosario
de térm inos técnicos utilizados en el docum ento de siete páginas y un índice
para dirigir a los usuarios a las secciones que m ás les interesen.

7 7 .2 .5 . Características distintivas
Los criterios comprenden tres tipos distintos de recomendaciones: criterios pri­
m arios, secundarios y condicionales. Los criterios primarios deberían:
cumplirlos todas las pruebas antes de su utilización y deberían cumplirse en
todas las utilizaciones posibles, a no ser que haya una razón profesional de
peso que demuestre por qué no es necesario o técnicamente posible en un
caso en particular. Los responsables de la elaboración de las pruebas y sus
usuarios, al igual que los patrocinadores de la prueba, deben poder explicar
por qué alguno de los criterios primarios no se ha cumplido (página 2).

Un ejemplo de criterio primario es el número 1.11:


Debería presentarse evidencia de validez para los principales tipos de
inferencias para cuyo uso se recomienda una prueba. Debería facilitarse una
^-explicación que respalde la evidencia presentada (página 13).

Los criterios secundarios, por otra parte, son deseables, pero pueden encon­
trarse «m ás allá de lo que puede esperarse en muchas situaciones» (página 3).
Tales criterios describen procedimientos beneficiosos pero pueden ser difíciles
de poner en práctica cuando los recursos son limitados. Un ejemplo de criterio
secundario es el número 2.10:
Los errores típicos de corrección deberían hacerse públicos si afectan a los
límites para pasar la prueba. Si se especifican las notas de corte para selección

229
C riterios de la evaluación de lenguas: el estado de la cuestión

o clasificación, estos errores deberían notificarse en los niveles cercanos a la


nota límite entre niveles o a la nota de corte (página 22).

La tercera categoría de criterios, llamada «condicional», puede ser primaria


o secundaria, según la prueba que se esté analizando. En este caso, el responsa­
ble de la prueba debe utilizar un elemento de raciocinio que equilibre las con­
sideraciones prácticas con otros factores tales com o el núm ero de candidatos
que se presentará a la prueba. Si la prueba tiene pocos candidatos y las conse­
cuencias de sus resultados no son excesivamente importantes, puede no valer la
pena el intentar cumplir un criterio condicional. Un ejemplo de este tipo de cri­
terio, es el núm ero 5.1:
Debería haber un manual técnico a disposición de futuros usuarios en
el m om ento de publicar o empezar a utilizar una prueba (página 35).

Aunque sería útil para los patrocinadores de la prueba, para los adm inistra­
dores y otros el poderse referir a tal tipo de manual, podría resultar poco razo­
nable pretender que una persona responsable de la elaboración de la prueba
elabore un manual para cada versión de la misma, especialmente si se adm inis­
tra más de una versión cada año. Esto no significa que no tenga que haber docu­
m entos que respondan a las preguntas de futuros usuarios, sino que estos
documentos pueden tener el formato de informes breves en lugar de publicarse
oficialmente en forma de folletos.
Además de distinguir entre criterios esenciales y los que pueden no tenerse
en consideración si las circunstancias lo piden, el docum ento también facilita
un comentario explicativo para ciertos criterios. Este comentario contiene una
información general, una justificación, una ejemplificación y una explicación
de la redacción del criterio: pretende contribuir a la comprensión, no constituir
otro principio que deba ser tenido en cuenta.

11.2.6. Comentario
Por lo que hem os dicho se puede deducir que los criterios son m uy totalizado­
res. Aunque a primera vista puedan abrum am os, con 16 apartados y 181 direc­
trices, una vez que el lector se haya fam iliarizado con la organización de las
definiciones y se hayan leído los prólogos y el comentario, no son difíciles de
comprender. Existen, sin embargo, dos aspectos que quisiéramos comentar.
El primero es que no está claro por qué los criterios secundarios se conside­
ran m enos «prim ordiales» que los criterios prim arios. Alrededor del diez por
ciento de todas las directrices corresponden a esta categoría «secundaria», que
significa que los evaluadores no necesitan seguirlos si creen que no son prácti­
cos, ni tienen que explicar por qué no los han seguido. Naturalmente, si los eva­
luadores se concentran en los criterios primarios, su práctica será tan correcta y
estará tan bien documentada que la falta de los criterios secundarios ni se notará;
sin em bargo, es difícil entender las razones para decidir qué criterios pueden
soslayarse.

230
Code of F air Testing Practices in E ducation...

El segundo aspecto tiene que ver con el entorno educativo en el que se utili­
zan las pruebas. En Estados Unidos existe una gran dependencia del uso de prue­
bas normalizadas; una serie de preocupaciones sobre los problemas que pueden
resultar de este tipo de evaluación es lo que llevó, en primer lugar, al desarro­
llo de los criterios. En otros entornos, las pruebas norm alizadas pueden ser
m enos corrientes y presentar, por tanto, m enos causas de preocupación sobre
posible abusos o usos erróneos.
Sin em bargo, la fam iliaridad con los criterios es útil para los evaluadores o
profesores de idiom as, para los evaluadores de programas y para los investiga­
dores de lingüística que necesiten elaborar o utilizar pruebas de idiomas, y no
pretendemos excusam os por haber tratado este conjunto de criterios en detalle.

11.3. Code of Fair Testing Practices in Education (Código para


una buena práctica en evaluación educativa) (1988)

11.3.1. Antecedentes
A principios de los años ochenta, durante el periodo en que los Criterios de eva­
luación educativa y psicológica estaban en el estadio de revisión final, la APA empezó
a preocuparse por la cantidad de críticas dirigidas hacia la práctica de la evalua­
ción en Estados Unidos y sobre el volumen de legislación y los litigios relacio­
nados con los exámenes y su uso. Aunque la edición revisada de los Criterios
iba a tener en cuenta el papel cambiante de las pruebas en la sociedad, algunos
m iem bros de la APA creyeron que sería útil centrarse en cómo mejorar la prác­
tica de la evaluación. Se celebró una conferencia en 1984, que congregó a repre­
sentantes de la APA, de la AERA, de NCME, de la Canadian Psychological Aaoaation y
a 23 editores de pruebas. Se constituyó el Joint Committee on Testing Practices (JCTP)
y se form ó un grupo de trabajo que estudiara la posibilidad de crear un código
de comportamiento para evaluadores. El resultado de su trabajo fue el Code of Fair
Testing Practices in Education (Diamond y Fremer, 1989: passim ).

11.3.2. Propósito
El propósito del Código es «establecer las principales obligaciones hacia los can­
didatos y hacia los profesionales que elaboran o que utilizan pruebas en educa­
ción» (JCTP, 1980: 1). No es intención del Código el modificar o complementar
él documento sobre criterios del año 1985, sino el subrayar ciertos aspectos tra­
tados, en particular los relativos al uso correcto de las pruebas en educación.
Como los Criterios, el Código está preocupado sobre todo por las pruebas elabora­
das de forma profesional, incluyendo las producidas por editores comerciales,
m ás que por las pruebas a pequeña escala elaboradas por profesores o escuelas.
Está redactado en un estilo que pretende ser comprensible para el público en
general; de hecho, su parte introductoria afirma que debe ser «significativo para
los candidatos y /o para sus padres o tutores» (página 2).

231
C riterios de la evaluación de lenguas: el estado de la cuestión

11.3.3. Objetivos
El Código especifica directrices para los redactores de pruebas y para sus usuarios.
Considera que los redactores son «las personas que elaboran la prueba así como
las que diseñan la política de unos program as de evaluación en particular», y
que los usuarios son «las personas que seleccionan pruebas, encargan su elabo­
ración, o toman decisiones a partir de las notas de las m ism as» (página 1). Reco­
noce que estos papeles pueden solaparse en ocasiones, como se daría en el caso
de que el M inisterio de Educación decidiera elaborar un nuevo exam en para
complem entar un nuevo program a de enseñanza a escala nacional, y utilizara
los resultados de la prueba para juzgar la eficacia del programa.

11.3.4. Organización general


El Código presenta las obligaciones de los redactores de pruebas y de sus usuarios
en cuatro grandes áreas:

A. Elaboración/Selección de pruebas apropiadas


B. Interpretación de resultados
C. Criterios de equidad
D. Información a los usuarios

En los apartados A—C estas responsabilidades se presentan en columnas para­


lelas; cada enunciado d irigid o a un redactor se em pareja con el correspon ­
diente enunciado para el usuario. Generalmente se pide al redactor que facilite
la inform ación al usuario (definiciones, descripciones, explicaciones, testi­
m onios, m uestras de pruebas, inform es claros de los resultados y recom en­
daciones) , y al usuario se le pide que considere toda esta inform ación antes
de decidir qué prueba será la m ás apropiada para la población. El redactor tam­
bién debería revisar los materiales de la prueba para evitar la parcialidad hacia
cualquier grupo de la pob lación , y el usuario debería evaluar los p ro ced i­
m ientos utilizados y los resultados obtenidos por los redactores y utilizar los
m ejores m ateriales o procedim ientos facilitados para asegurar que la prueba
es justa para todos.
El apartado A contiene ocho directrices para los redactores y usuarios. El apar­
tado B, cinco, y el apartado C, tres. A continuación se incluyen algunas direc­
trices del apartado A, para m ostrar cóm o se presentan y cóm o se corresponden
las que van dirigidas a los redactores con las que se dirigen a los usuarios.

Los redactores deberían: Los usuarios deberían:


1. definir lo que m ide cada prueba y 1. definir prim ero el propósito de la
para qué debe utilizarse. Describir la evaluación y la población que va a
población para la que la prueba es ser evaluada. A continuación,
adecuada. seleccionar una prueba para tal
propósito y esa población a partir de
un estudio completo de la
información disponible.

232
Code of F a ir Testing Practices in E ducation..,

2. representar de form a adecuada las 2. investigar fuentes de información


características, la utilidad y las potencialmente útiles, además de los
limitaciones de las pruebas para los resultados obtenidos, para
propósitos previstos. corroborar la información que
proporcionan las pruebas.
3. explicar los conceptos necesarios 3. leer los materiales facilitados por
y relevantes en evaluación con la los redactores de la prueba y evitar
claridad y el detalle adecuados al utilizar pruebas de las que se facilita
público. información incompleta o poco
clara.
4. describir el proceso de 4. familiarizarse con el cómo y el
elaboración de la prueba. Explicar cuándo se elaboró y ensayó la
cóm o se seleccionaron el contenido prueba.
y las destrezas que se evalúan.
5. facilitar evidencia de que la 5. leer evaluaciones independientes
prueba cumple con el propósito de la prueba y de otras alternativas
previsto. posibles. Buscar la información
necesaria para confirmar las
conclusiones de los redactores de la
prueba.

En el apartado D hay cinco directrices. Sin embargo, en esta sección los redac­
tores y los usuarios tienen las mismas obligaciones, que tienen que ver con faci­
litar a los que van a hacer la prueba la información que necesitan para decidir,
ante todo, si se presentan a la misma, familiarizarse con el nivel exigido, obte­
ner copias de la prueba una vez realizada, solicitar una nueva corrección, pre­
sentar una reclamación, etc.

7 7 .3.5. Comentario
El Code of Fair Testing Practices in Education pretende reforzar m uchos de los princi­
pios que ya aparecieron por prim era vez en los Criterios APA/AERA/NCME,
pero se lim ita a las pruebas de educación. Aunque sienta principios para los
responsables de la elaboración de pruebas, va dirigido en realidad a los usua­
rios de las pruebas y a los candidatos, dándoles aquella inform ación a la que
tienen derecho antes y después de la adm inistración de una prueba. El fo r­
m ato de los principios es fácil de utilizar y el lenguaje no incluye térm inos
técnicos. Com o en los Criterios, en el Código se utiliza el término «debería» en
lugar de « d e b e » , m ás obligatorio; sin em bargo, insiste en las obligaciones
m orales de los responsables de la prueba y de los usuarios, una vez que han
decidido cum plir el Código:
Las organizaciones, las instituciones y aquellas personas que suscriben el Código
se comprometen a defender los derechos de los candidatos siguiendo los
principios listados (página 2).

233
C riterios de la evaluación de lenguas: el estado de la cuestión

Al contrario del docum ento de los Criterios, el Código otorga el m ism o peso a
todas sus directrices: no se discute sobre qué criterios pueden ser deseables aun­
que no prácticos en la vida real. Esto puede ser debido a que el Código pretende
operar a un nivel general, m ientras que el docum ento de los Criterios da reco­
m endaciones m ucho m ás técnicas y detalladas.

7 1.3.6. ALTE Code o f Practice


(Código de comportamiento de ALTE)
El Código de JCTP ha influido en la evaluación de idiom as en cuanto que ha sido
la base para el ALTE Code of Practice (1 9 9 4 ). ALTE es la Association of Language Testers
in Europe, un grupo que facilita exám enes de idiom as. Las lenguas que evalúan
los m iem bros de esta asociación incluyen el catalán, el danés, el holandés, el
francés, el alemán, el italiano, el portugués y el español. La asociación pretende,
entre otras cosas:
... establecer criterios comunes en todos los estadios del proceso de evaluación
de idiomas; es decir, durante el proceso de redacción, administración,
corrección, puntuación, publicación de resultados, el análisis de los mismos y
redacción de las conclusiones (página 2).

ALTE ha adoptado este Código «para hacer explícitos los criterios que pretende
cumplir, y para reconocer públicam ente las obligaciones bajo las que opera»
(página 3).
El Código está inspirado de cerca en el de JCTP y utiliza m ucha de su termino­
logía. Se dirige a los responsables de la elaboración de exámenes, a sus usuarios
y a los candidatos, y cubre las m ism as áreas que el JCTP. Sin embargo, es inte­
resante su tono. Con referencia a los responsables de los exámenes, el Código dice,
para cada apartado: «En la práctica, esto significa que los m iem bros de ALTE
garantizarán lo siguiente: ...» (ib., passim ).
Este nuevo código para los responsables de exámenes debe ser bienvenido; será
interesante ver cómo puede llevarse a la práctica y cómo puede supervisarse.

11.4. ETS Standards for Quality and Fairness


(Criterios de calidad y de equidad de ETS) (1987)

7 1.4.1. Antecedentes
En 1981, el Educational Testing Service (ETS) de Estados Unidos adoptó los ETS Stan­
dards for Quality and Fairness. El propósito del docum ento era hacer explícitos los
principios, la política y las directrices que el ETS pretendía seguir en su deseo
de asegurar «transparencia en la evaluación, información al público, calidad y
equidad» (página iii). Los Criterios del ETS se encontraban entre los documentos
consultados por el Standards Revisión Committee de AERA/APA/NCME a prin­
cipios de los años ochenta, cuando estaban intentando actualizar sus propios
criterios y hacerlos más sensibles a los cam bios educativos en Estados Unidos.
Varios años m ás tarde, el ETS devolvió el cumplido, analizando el documento

234
ETS Standards for Q uality and F airn ess...

de los criterios revisados cuando empezó a reescribir su propio documento. Al


hacer esto, el ETS pretendía mantenerse «al frente de la evaluación y de las últi­
mas teorías en la profesión» (página iv ).

11.4.2. Propósito
Los Criterios del ETS pretenden garantizar el producto y los servicios de una orga­
nización en particular. Contienen criterios explícitos para juzgar la actuación de
los profesionales de la evaluación, en cuanto a los principios, la política y las
directrices. El ETS deja m uy claro, sin embargo, que sus Criterios se han redac­
tado teniendo presente el propio ETS; por ello, quizá no puedan aplicarse a otros
organism os o a otras personas.

11.4.3. Organización general


Los Criterios del ETS se dividen en siete secciones distintas: Responsabilidad ante
el público. —Confidencialidad de los datos. —Control de calidad en cuanto a ade­
cuación y tiempo. —Investigación y desarrollo. -Pruebas y medición. -U so de la
prueba e Información al público. Los tres primeros apartados incluyen afirma­
ciones relevantes para todas las actividades que lleva a cabo el ETS, mientras que
los cuatro restantes son relevantes para áreas específicas. Cada apartado contiene
una definición de los principios que el ETS pretende seguir y de la política que
quiere mantener. Éstos van seguidos de directrices detalladas que marcan exac­
tamente qué debe hacerse para asegurar pruebas y servicios de alta calidad.
Casi un tercio del documento está dedicado al tema de las pruebas y su medi­
ción. Este apartado contiene directrices detalladas que se refieren a la validez, a
la elaboración y a la administración de pruebas, a la fiabilidad, a la definición
de escalas, a la nivelación y a la interpretación de resultados. Reproducim os a
continuación las últimas cinco entradas del apartado «Elaboración de pruebas»,
para dar una idea del nivel de detalle:
10. Evaluar el comportamiento de cada edición de la prueba mediante:
—análisis apropiados y oportunos de pruebas y de ítems, incluyendo
análisis de fiabilidad, correlación entre secciones o partes y velocidad;
—comparación de las características de la prueba con sus especificaciones
psicométricas.
11. Revisar periódicamente la adecuación del modelo de respuesta al ítem y la
muestra utilizada para estimar los distintos parámetros, cuando se utilicen
procedimientos de la teoría de respuesta al ítem para elaborar, puntuar o
nivelar la prueba.
12. Revisar el contenido de la prueba y de las especificaciones periódicamente
para garantizar que todavía son relevantes y apropiadas para el ámbito que
se pretende evaluar.
13. Revisar periódicamente todas las ediciones de la prueba todavía en activo
pero elaboradas en años anteriores y sus descripciones en las
publicaciones para garantizar que todavía son adecuadas en cuanto a
contenido y lenguaje para los posibles candidatos y el ámbito de la
materia.

235
C riterios de k evaluación de lenguas: el estado de la cuestión

14. Analizar los cambios importantes de las especificaciones de la prueba para


garantizar que se consideren debidamente las consecuencias que puedan
tener en la comparación de resultados y para determinar si son necesarios
cambios en cuanto a terminología o si debe advertir a los usuarios sobre
las diferencias que existan con las pruebas anteriores (página 12).

1 1.4.4. Características distintivas


Hay dos características que distinguen a los criterios del ETS del resto de crite­
rios que presentamos: el hecho de que representan una «política corporativa»
y el hecho de que se incluye un mecanismo de regulación en la estructura orga­
nizativa del ETS que garantiza el cumplimiento de los criterios.
En la introducción al documento, el ETS reconoce que sus criterios «reflejan
y adoptan» los de AERA/APA/NCME. Sin em bargo, el ETS también deja claro
que sus criterios están pensados para su propio entorno profesional: «... los cri­
terios pueden no resultar útiles para las organizaciones cuya práctica, progra­
mas o servicios sean distintos de loS de ETS» (página v i).
El ETS m ism o es el prim er juez que interpreta si ha seguido la política y las
directrices de forma satisfactoria; sin embargo, la organización también se somete
a un proceso de auditoría elaborado y riguroso, por el que inspectores indepen­
dientes extemos valoran si la actuación del ETS en distintas áreas evalúa de acuerdo
con sus propios criterios. El comité auditor informa a la ETS Office of Corporate Qua-
lity Assurance, que resume el informe de la asesoría y la solución o soluciones que
el personal del ETS ha adoptado ante el informe. Este resumen se somete a perso­
nas y a comités que pertenecen a los puestos altos de la jerarquía organizativa.
El ETS también invita a un «com ité visitante» a que evalúe su comportamiento
con respecto a los criterios. Este comité está form ado por «personalidades dis­
tinguidas del ám bito educativo, expertos en el cam po de la evaluación y repre­
sentantes de organizaciones que han sido críticas con el ETS en el p asad o »
(página iii). Este comité también prepara un inform e para el ETS, que publica
la organización y que se da a conocer a los m edios de comunicación y a todos
aquellos que piden una copia.
Está claro que en el contexto del ETS, el término «criterios» supone m ás que
una connotación moral: como existe un mecanismo de regulación dentro de la
política de la organización, los criterios se parecen más a unas reglas que a unas
directrices. Sin embargo, las reglas no son mecánicas. Hay espacio para la inter­
pretación (por ejemplo, «el ETS elaborará pruebas que sean lo suficientemente
fiables para su uso o usos p revistos»), y los responsables de la prueba tienen
ocasión de exphcar cóm o se han interpretado ciertas definiciones y porqué no
han podido seguir ciertos procedimientos.

11.4.5. Comentario
Los criterios del ETS son claros y comprensibles: se han escrito para profesio­
nales de la evaluación más que para el público en general, pero su organización
y redacción los hace; fáciles de seguir. El documento incluye un glosario de siete

236
Standards for Educational Testing M ethods...

páginas que clarifica los términos clave utilizados en las directrices que se deben
seguir durante el proceso.
La cobertura de los criterios es también amplia. El ETS trata la calidad técnica
de las pruebas y sus responsabilidades hacia los usuarios y los candidatos; ade­
m ás el ETS trata temas relacionados con la accesibilidad de la información para
investigadores y para el público en general.
Sin embargo, la característica más importante de estos criterios no es su redac­
ción o su cobertura, sino el hecho de que se escribieron para ser cum phdos.
Puesto que el no cumplirlos, si no se explica de forma m uy convincente, puede
traer serias consecuencias (incluyendo la reducción del program a), los profe­
sionales del ETS deben considerar de form a m uy cuidadosa todos los pasos que
siguen a la hora de preparar un producto para su público y no pueden perm i­
tirse a sí m ism os ni a sus colegas caer en la complacencia. N o está claro si tal
control sería posible o incluso deseable para los evaluadores en general. Este es
uno de los temas que debe considerarse en futuros debates sobre criterios.

11.5. Standards for Educational Testing Methods


(Criterios para métodos de evaluación en educación) (1986)

11.5.1. Antecedentes
En 1986 Nevo y Shohamy escribieron sobre una adaptación que habían hecho
de los Standards for Evaluación of Educational Programs, Projects and Materials (1981). Estos
criterios los había desarrollado a lo largo de los años el Joint Committee on Stan­
dards for Educational Evaluation, com puesto por m iem bros de AERA, APA,
NCME y otras nueve organizaciones. Se redactaron para servir como guía a los
profesionales relacionados con la evaluación de programas educativos y se pre­
tendía que el establecimiento de un conjunto de principios comunes contribu­
yera a la m ejora de la práctica de la evaluación en el campo de la educación.
El Comité redactó una lista de 30 criterios, divididos bajo cuatro grandes titula­
res: criterios de utilidad, de viabilidad, de adecuación y de corrección. Dedicaron
un capítulo a cada uno de los criterios, con una definición formal del criterio, un
prólogo explicando por qué era importante, directrices para los investigadores para
cumplirlo, una lista de posibles dificultades, una lista de advertencias y un histo­
rial de casos problemáticos que tuvieron los investigadores en el pasado cuando no
eran conscientes del criterio o no lo siguieron. El historial va acompañado de con­
sejos para ayudar a futuros investigadores a evitar los mismos problemas.
Nevo y Shohamy intentaron extender tales criterios a los métodos de evaluación.
A partir de los 30 criterios originales del comité, elaboraron una lista de 23 que
creyeron adecuados para la evaluación. Se eliminaron algunos criterios originales,
se combinaron otros, y se añadieron uno o dos nuevos. Al igual que el comité, divi­
dieron sus criterios en cuatro apartados. Organizaron estos apartados en un orden
distinto, pero dejaron los criterios más o menos agrupados de la misma forma que
en el documento original. Todos los criterios se redactaron de nuevo para adap­
tarlos a los métodos de evaluación y no a los programas de evaluación.

237
-------- ----------------------------------------- ----------------------------------------- —

Criterios de la evaluación de lenguas: el estado de la cuestión

Nevo y Shohamy no se contentaron con una mera formulación de los criterios:


decidieron ponerlos en práctica con profesionales relevantes. Pidieron a dos gru­
pos que estudiaran los criterios y que los utilizaran para ordenar cuatro métodos
de evaluación alternativos que se estaban considerando para un nuevo examen a
escala nacional. El primer grupo consistía en miembros de la organización que iban
a tomar la decisión final sobre qué métodos se incluirían en el nuevo examen; un
segundo grupo consistía en expertos en el terreno de la evaluación que asistían a
un congreso sobre evaluación. También diseñaron un examen de muestra que con­
tenía los cuatro métodos de evaluación que estaban considerando. Este examen se
administró a 1.000 alumnos para averiguar no sólo cómo funcionaban las prue­
bas en el m undo real, sino también para facilitar una base que permitiera discri­
minar si los nuevos criterios podían utilizarse para evaluar tales métodos.

11.5.2. Organización general


Los criterios resultantes se organizaron de la forma siguiente:
1. Criterios de utilidad
Los criterios de utilidad pretenden «garantizar que un m étodo de
evaluación esté al servicio de las distintas necesidades de
inform ación práctica que tienen algunos grupos».
Los aspectos que se tratan en este apartado son identificación del
público, credibilidad del evaluador, amplitud de información,
justificación de los criterios, claridad del informe, distribución del
informe, pertinencia temporal del informe e impacto de la evaluación.
2. Criterios de precisión
Los criterios de precisión pretenden «garantizar que un m étodo de
evaluación revele y transmita información técnicamente adecuada
sobre los logros educativos de aquellos a los que se evalúa».
Los problem as analizados en este apartado son la m edición válida, la
m edición fiable, las condiciones de evaluación, el análisis de datos y
los informes objetivos.
3. Criterios de viabilidad
Los criterios de viabilidad se proponen «garantizar que un m étodo
de evaluación sea realista, prudente y económ ico».
Los problem as analizados en este apartado son los procedimientos
prácticos, la viabilidad política y el coste adecuado.
4 . Criterios de equidad
Estos criterios pretenden «garantizar que un método de evaluación se
lleve a cabo de forma legal, ética y con la debida consideración hada
el bienestar de los candidatos y de los afectados por los resultados».
Los problem as presentados aquí son los criterios aceptados, los
derechos hum anos, el derecho a conocer, los conflictos de intereses,
los valores sodales, y los informes equilibrados.
(Página 151)

238
Standards for Educational Testing M ethods...

11.5.3. Comentario
Aunque las propuestas de Nevo y de Shohamy tratan aspectos técnicos de la eva­
luación (como por ejemplo B - l, medición válida: «La evaluación se lleva a cabo
mediante instrumentos y procedim ientos que facilitan información válida para
un uso con creto»; y B-2, m edición fiable: «La evaluación se lleva a cabo
mediante instrumentos y procedimientos que facilitan información viable para
un uso co n creto »), m uestran m ayor interés en el contexto de la situación de
evaluación y la consideración que la prueba en sí merece al público; los infor­
mes; el efecto de la prueba en los candidatos, la educación y la sociedad. La via­
bilidad política de una prueba (C-2: «La evaluación se planifica y se lleva a cabo
teniendo en cuenta las distintas posiciones de los diversos grupos de interés,
para poder obtener su cooperación») es un problem a que no aparece en otros
conjuntos de criterios de evaluación. En el docum ento original del comité, el
criterio se presentaba de la siguiente forma:
La evalu ación se d eb ería plan ificar y llevar a cab o teniendo en cuenta las
distin tas p o sic io n e s de los diversos g ru p o s d e interés p ara p o d e r obten er su
co o p erac ió n y p o d e r con trolar o contrarrestar cu alq u ier p osib le intento p o r
parte d e u n o de estos g ru p o s d e acortar las operacion es evaluativas o d e aplicar
lo s re su ltad o s d e fo rm a p arcial o errón ea (p ágin a 5 6 ).

Es interesante que Nevo y Shohamy no hayan incluido la segunda parte del


criterio original, en el que se reconoce claramente que las evaluaciones educa­
tivas pueden utilizarse como armas políticas y que los evaluadores necesitan ser
conscientes de todas las formas posibles en que puede hacerse un uso erróneo
de sus evaluaciones para poder prever cualquier irregularidad.
Tanto los Criterios de AERA/APA/NCME como el Code of Fair Testing Practice tie­
nen apartados que hacen referencia al posible uso erróneo de las pruebas, pero
no está claro si se refieren al uso erróneo como resultado de la ignorancia o de
la falta de cuidado, o si reconocen que hay partes que podrían utilizar la infor­
m ación de form a errónea deliberadamente tal com o está implícito en el crite­
rio citado m ás arriba. La pregunta para el futuro es si los peligros que existen
para los evaluadores en el campo de la educación también existen para los redac­
tores y usuarios de pruebas, y si los criterios en evaluación deberían incluir
directrices para ayudar a las personas relacionadas con la evaluación a capear los
problem as de la Realpolitik.
En lo que respecta a la aplicabilidad del nuevo conjunto de criterios a los
m étodos de evaluación, Nevo y Shohamy concluyen que sus criterios podrían
adoptarse y utilizarse como un «m arco para analizar y evaluar los méritos de los
m étodos de evaluación alternativos» (página 157). Afirman que consideran su
trabajo sólo «com o un intento parcial de estudiar el alcance de los criterios», y
animan a otros investigadores a llevar a cabo investigaciones m ás sistemáticas
en esta área.

239
C riterios de la evaluación de lenguas: el estado de la cuestión

11.6. SEAC's Mandatory Code of Practice


(Código de comportamiento obligatorio de SEAC) (1993)

11.6.1. Antecedentes
The Schools Examination and Assessment Council (SEAC) fue fundado por el gobierno del
Reino Unido en los años ochenta para regular los criterios y los procedim ien­
tos de elaboración de exámenes en el contexto del National Curriculum para escue­
las de enseñanza primaria y secundaria de Inglaterra y Gales. A partir de entonces
se ha reorganizado y se ha cam biado su nom bre por el de Schools Curriculum and
Assessment Authority (SCAA).
En Inglaterra y Gales, a la edad de 16 años los alumnos de secundaria deben
presentarse a unos exámenes que, para muchos, marcan el final de sus estudios:
las pruebas para obtener el General Certifícate of Secondary Education (G CSE). Tales exá­
menes son elaborados por distintos grupos u organism os examinadores, que a
lo largo del tiempo han producido gran número de currículos, exámenes y prác­
ticas evaluativas distintas.
Con la aparición del National Curriculum, se vio la necesidad de racionalizar esta
pluralidad de programas y de sistemas, y de regular la preparación y validación
de exámenes por parte de los distintos grupos. A finales de los años ochenta, el
Secretario de Estado para Educación pidió a SEAC que preparara un código de
comportamiento para la administración de los exámenes del GCSE en Inglate­
rra y Gales. «Se requiere el cumplimiento del código para la aprobación de las
calificaciones del GCSE y de los currículos asociados, según el apartado 5 de la
Ley de Reforma Educativa de 1988» (SEAC, prólogo).

11.6.2. Propósito
El Mandatory Code pretende garantizar la «calidad y consistencia en el proceso de eva­
luación para todos los grupos que ofrecen las pruebas del CGSE. Garantizará que
los criterios de puntuación sean constantes para cada asignatura en todos los tri­
bunales de exámenes y con los distintos currículos en diferentes años» (loe. d t.).

11.6.3. Organización
El Código de comportamiento obligatorio está dividido en seis apartados, com o sigue:
1. Responsabilidades de los grupos examinadores y del personal del grupo examinador
Define los papeles del consejo rector del grupo, su jefe ejecutivo, los res­
ponsables de grupo exam inador, el presidente de los exam inadores, el
exam inador jefe, los exam inadores titulares, los revisores, los asesores,
los examinadores adjuntos y los supervisores principales y adjuntos.
2. La Administración de los exámenes y los esquemas de puntuación provisionales para los exá­
menes finales y las pruebas de fin de módulo
Este apartado trata sobre cóm o deberían garantizar los grupos exam ina­
dores que los exámenes y los esquemas de puntuación cubran los objeti­

240
SEAC's M andatory Code of P ractice...

vos de evaluación y que se mantengan los criterios en los distintos currí-


culos. Incluye detalles sobre cómo debe llevarse a cabo la redacción final
de la prueba y el proceso de revisión.
3. Unificación de criterios de puntuación: exámenes finales y pruebas de fin de módulo
Pretenden asegurar la fiabilidad de la puntuación estipulando un sistema de
grupos de corrección y de formación, el proceso de unificación de criterios
y el sistema de supervisión de la puntuación, al igual que el reajuste final
de puntuaciones a partir de los problemas surgidos con examinadores.
4. Evaluación del trabajo de clase y moderación
Cubre la supervisión externa de los criterios de evaluación del trabajo de
clase entre centros de adm inistración de pruebas o escuelas. Detalla la
necesidad de la formación del profesorado y de la supervisión de las tareas
encomendadas sobre el trabajo de clase, así como la unificación de crite­
rios en la puntuación y la moderación de resultados entre centros.
5. Fijación de los límites de calificación o nivel
Trata de los procedimientos que han de seguirse para garantizar quedos cri­
terios de calificación o nivel se mantengan con el tiempo y con los distintos
currículos. Estipula qué información debería tenerse en cuenta para deter­
minar los límites de calificación o nivel, y cómo deben fijarse y revisarse.
6. La evaluación de la ortografía, de la puntuación y de la gramática
Refleja la preocupación del Gobierno de que los niveles de ortografía,
puntuación y gramática deben mantenerse o mejorarse, y define la pro­
porción de puntos que deben darse a la actuación en estas áreas, sin tener
en cuenta la asignatura que se evalúa. Esto afecta a los exám enes, a las
pruebas de final de m ódulo y al trabajo de clase.

11.6.4. Comentario
Quizá la característica m ás destacada de este Código de comportamiento es que sea
prescriptivo, es decir, legalmente obligatorio. Todavía no se sabe cóm o funcio­
nará, cómo se aplicará y se supervisará, y qué sanciones se impondrán si hay un
grupo que no cumple con alguno de sus requisitos. Será interesante ver su evo­
lución a lo largo del tiempo.
El segundo punto que hay que considerar es que este Código se refiere a prue­
bas o exámenes orientados a medir el aprovechamiento, cuyos currículos fun­
cionan com o program as de enseñanza en las escuelas y cuyo contenido está
definido por ley a través del National Curriculum. Así pues, el Código afecta igual­
mente a la evaluación del trabajo de clase y de las pruebas de fin de m ódulo y
a los exámenes.
Dado que el inglés com o lengua extranjera no forma parte del National Curri­
culum, las pruebas de esta materia no se ven afectadas por el Código, aunque sí se
verá afectado el inglés como lengua materna, al igual que otras lenguas moder-

241
C riterios de la evaluación de lenguas: el estado de la cuestión

ñas. Está por ver si los tribunales que elaboran exámenes de inglés para extran­
jeros deciden voluntariamente adherirse a este código; a nosotros, por nuestra
parte, nos gustaría poder analizar de cerca los m otivos de cualquier centro que
decida no extender este código (que, según se dice, está basado «e n la m ejor
práctica evaluativa») a las asignaturas no reguladas, por ejemplo el inglés como
lengua extranjera.
Finalmente, es interesante señalar que el gobierno del Reino Unido ha con­
siderado adecuado legislar sobre la evaluación de parte del uso de la lengua
inglesa, mientras ignoraba otros muchos aspectos. El cinco por ciento de la pun­
tuación de cada sección escrita de los exámenes (excepto en las partes de res­
puesta m últiple y en las que deben responderse en una lengua extranjera)
corresponde a la ortografía, la puntuación y la gramática, de acuerdo con tres
criterios de actuación: umbral, interm edio y avanzado. El hecho de que unos
criterios acordados intem acionalmente se im pongan de una manera tan pres-
criptiva es un punto discutible, que trataremos en el próxim o apartado.

11.7. ¿Qué deberíamos esperar de unos criterios?


M encionamos antes que habíam os seleccionado seis conjuntos de criterios en
particular porque eran buenos ejemplos del tipo de trabajo que se ha hecho en
el pasado reciente y porque cada uno de estos conjuntos añade algo nuevo a
nuestra com prensión de lo que los criterios pueden y deben ser. El comentario
al final de cada descripción discute los que consideramos puntos fuertes y débi­
les de cada conjunto de criterios, y no los vam os a repetir aquí. Lo que vamos
a hacer, sin embargo, es facilitar una lista de preguntas que, en nuestra opinión,
debería hacerse cualquier organización a la hora de elaborar sus propios crite­
rios en el futuro.
¿Es necesario crear otro conjunto de criterios? ¿Qué hay de malo en los que ya
tenemos?
Si la respuesta es que los criterios existentes no incluyen la evaluación de idio­
mas, ¿qué es lo que falta?
Si la respuesta a esta pregunta está relacionada con una visión en particular de
la lengua o de la m etodología, ¿llegaremos a un acuerdo sobre qué contenido
y m etodología son m ejores y perdurarán más, cuando la m oda cambie y afecte
a nuestra idea de cuál es el contenido o la m etodología más apropiada?
¿Habrá un conjunto de criterios que se adapte a toda la gam a de pruebas ofer­
tadas, o los criterios adecuados para un tipo de pruebas obligarán a asum ir el
m ism o esquema para otro tipo de pruebas (por ejemplo, pruebas de ítems dis­
cretos comparadas con pruebas basadas en la actuación) ?
¿Los criterios deberían ser totalizadores? ¿Deberían limitarse a los instrumentos
de evaluación y a los procedim ientos empleados o deberían preocuparse por la
utilización de los resultados de las pruebas? ¿Deberían ir incluso m ás allá y faci­
litar directrices para tratar la realidad política y las intenciones dudosas de mucha
gente en nuestra sociedad?

242
Estado de la cuestión en la evaluación del inglés...

¿Los criterios deberían ser muy detallados? ¿Dónde se traza la línea entre el deta­
lle esencial y la trivialidad?
¿Qué tipo de lengua debería usarse: lengua comprensible por los evaluadores o
lengua que puede comprender el público en general?
¿En qué idiom as deberían redactarse, y quién hará las traducciones?
¿Los criterios deberían ser idealistas? ¿Deben describir un m ínim o de buena
práctica o el m áxim o?
¿Hasta qué punto deben ser o pueden ser prescriptivos?
¿Debe haber irnos criterios más prescindibles que otros? La distinción entre pri­
marios, secundarios y condicionales, ¿es útil o confunde?
¿Deberían ser obligatorios? Si éste es el caso, ¿quién se ocupará de hacerlos cum­
plir? Si la respuesta es negativa, ¿cóm o podem os asegurar que todas las partes
harán lo posible para que se cumplan?
¿Hay alguna manera de «com probar» los criterios para averiguar si son efectivos?

11.8. Estado de la cuestión en la evaluación del inglés


como lengua extranjera en el Reino Unido
En este libro hem os presentado los resultados de un informe sobre los tribuna­
les de exámenes de inglés com o lengua extranjera en el Reino Unido para ilus­
trar la práctica habitual de la evaluación en un área geográfica. Creemos que
nuestro informe cubre los exámenes más significativos de inglés como lengua
extranjera del Reino Unido y es representativo de la práctica habitual de la eva­
luación en este país.
Los resultados del informe muestran algunos de los procedimientos seguidos
por todos o por la mayoría de los tribunales y otros en los que hay más varia­
ción. Las áreas de coincidencia más importante son: la disponibilidad de las des­
cripciones del contenido del exam en; los criterios utilizados para nom brar
redactores de ítems o de pruebas y la naturaleza de su relación contractual con
los tribunales; el proceso de redacción final o de moderación; la producción de
distintas versiones cada año; los criterios para el nombramiento de examinado­
res; la ausencia de corrección «objetiva» o administrativa; la existencia de sesio­
nes de unificación de criterios para examinadores; el cálculo, aunque sólo de
forma ocasional, de una estimación de la fiabilidad del examinador; la produc­
ción (aunque no siempre se difunden) de los informes del examinador jefe; y
la recogida de comentarios sobre los exámenes, normalmente por parte de los
tribunales de exámenes y, a veces, de los profesores. La mayoría de los tribu­
nales cree que los criterios psicométricos son relevantes para los exámenes del
Reino Unido, aunque no quedó claro en el informe si creían que sus exámenes
cumplían tales criterios.
Las áreas m ás significativas en las que la práctica varía de forma considerable
son: los ensayos previos de los ítem s y de las preguntas; la validación de la
prueba; los procedimientos para garantizar la equivalencia de las distintas ver­
siones de los exámenes; la formación y la supervisión de los administradores;

243
C riterios de la evaluación de lenguas: el estado de la cuestión

la doble corrección de todos los escritos; la existencia de reuniones para fijar las
puntuaciones; la disponibilidad de los informes de los examinadores jefes; y el
cálculo y disponibilidad de estadísticas sobre la realización de la prueba.
Algunos análisis mostraron, sin embargo, que el acuerdo puede, en algunos
casos, ser más aparente que real. Así, por ejemplo, aunque la mayoría de los tri­
bunales calcula la fiabilidad del corrector, la frecuencia con la cual se calcula, cómo
se calcula, y qué ocurre con los resultados varía de forma considerable. De forma
parecida, aunque la doble corrección tiene lugar en la mayoría de los tribunales, lo
que éstos entienden por doble corrección varía, siendo en muchos casos poco más
que un control de algunos examinadores llevado a cabo por el examinador jefe.
Aunque la mayoría de los tribunales tienen sesiones de unificación de criterios para
correctores, lo que realmente ocurre en estas reuniones varía. Necesitaríamos lle­
var a cabo una inspección mucho más detallada de las actividades de cada tribunal
para llegar a una descripción precisa de lo que ocurre en realidad.
Así pues, aunque no nos abstenemos de emitir un juicio, es probable que una
evaluación justificada de la calidad de los procedim ientos de control de calidad
deban esperar a esta inspección detallada. Esto sería sólo posible contando con
la colaboración de los tribunales, y sólo tendría sentido llevarla a cabo si hubiera
coincidencia entre lo que debería ocurrir durante la producción de la prueba y
su administración y lo que el investigador quiere averiguar. Los distintos crite­
rios que hem os visto en este capítulo son puntos de referencia obvios.
Los resultados del informe parecen demostrar que en general hay información
disponible sobre el contenido de los exámenes pero que el tipo de información y
el grado de detalle que contiene varía de forma considerable. Las recomendacio­
nes dirigidas específicamente a los candidatos están ausentes, y pocos centros dan
ejemplos de las actuaciones de los alumnos en exámenes previos. Aunque la mayo­
ría de los centros argumentan que existe un «análisis de necesidades» que justi­
fica o guía la elaboración de sus exámenes, la naturaleza de tales análisis parece
que varía mucho. La mayoría de los centros parecen interpretar el término «aná­
fisis de resultados» de forma equivalente a «preguntar a los profesores».
Los redactores de ítems son por lo general profesores titulados y experimen­
tados en inglés com o lengua extranjera, que se consideran en contacto con las
corrientes de pensamiento existentes en la profesión y son, por tanto, capaces
de incorporar tales ideas a los exámenes. La falta de redactores profesionales a
tiempo completo puede también verse com o una forma de garantizar este con­
tacto con la profesión. Los redactores reciben una cantidad considerable de direc­
trices relativas al contenido y al m étodo de la prueba. Existen procedim ientos
de m oderación y de revisión final de la prueba, pero es difícil determ inar lo
concienzudos que son. Es posible que varíen entre tribunales, entre los distin­
tos com ités, y en particular entre los exam inadores jefes. En otras palabras,
mucho depende de la calidad de las opiniones de personas individuales. En par­
ticular, no se conoce la m inuciosidad de los procedim ientos para comparar el
contenido de la prueba con el currículo. Además, no está claro hasta qué punto
los comités de redacción están abiertos a las opiniones de «críticos extem os».

244
Estado de la cuestión en la evaluación del in g lés...

La ausencia extendida de ensayos previos es causa de considerable preocupa­


ción, puesto que los ensayos previos pueden corroborar o negar el valor de las
opiniones de los revisores, los m oderadores y los examinadores. En la actuali­
dad parece que incluso cuando se realizan ensayos previos sólo se incluyen los
ítems de respuesta objetiva, y debem os recordar que la mayoría de los tribuna­
les no los utilizan. En cualquier caso, no hay ninguna razón por la que las prue­
bas de respuestas abiertas u otros tipos de prueba no pueden someterse al rigor
de los ensayos previos.
Es preocupante la ausencia de evidencia empírica, que no sea anecdótica, que
valide los exámenes de algunos tribunales, así com o la idea de que no todos los
tribunales comprenden lo que se entiende por validación, validez y fiabilidad.
Puede darse el caso de que los exámenes sean válidos, pero la validez debería
ser el sujeto de la investigación, no la com probación. Incluso cuando se dice
que se ha llevado a cabo una validación, muchos reconocen que se ha hecho de
forma «im presionista y de manera anecdótica», por ejemplo aduciendo que las
«com pañías y las universidades parecen contentas». Algunos centros reivindi­
can la realización de estudios de validación, pero no dan detalles, con lo que
debem os ser escépticos.
La equivalencia de las distintas versiones de los exámenes parece estar garanti­
zada por el uso de los procesos de revisión y moderación, por la referencia al currí-
culo, y por el uso de los mismos redactores de ítems y comités de redacción durante
un período de tiempo determinado. Es posible que cuando éste sea el caso, los pro­
cedimientos para la adjudicación de calificaciones finales que tienen en cuenta el
comportamiento de los candidatos en exámenes de años anteriores pudiera con­
tribuir a la comparación de la dificultad de la prueba a lo largo de los años, pero
en cualquier caso, no todos los centros llevan a cabo estos procedimientos.
De forma similar, hay falta de datos sobre la fiabilidad de las pruebas y la fia­
bilidad de la corrección. Se toman medidas para formar y supervisar a los correc­
tores pero parece que se presta poca atención de forma sistemática a la hora de
ver si los procedim ientos de form ación y de supervisión han sido eficaces. De
nuevo, debería medirse la fiabilidad, no sólo afirmarla. Parece ser que alrede­
dor de la m itad de los centros que respondieron calcula estadísticas sobre la
actuación de los correctores, pero no hem os tenido acceso a las m ism as. La
corrección doble auténtica es poco habitual.
Los tribunales de exámenes afirman que sus pruebas están basadas en lo mejor
de la docencia actual y que tienen un efecto positivo sobre la enseñanza, pero
no sabem os qué es lo m ejor de la docencia actual ni hem os visto evidencia del
efecto de rebote positivo. Una vez más, se hacen afirmaciones infundadas sobre
la calidad de los exámenes que deberían analizarse de forma crítica.
Sin embargo, nuestro informe sugiere que los distintos procedimientos segui­
dos por los tribunales no son necesariamente inadecuados y que puede ocurrir
que los tribunales tengan los datos que podrían confirmar la calidad, la validez
y la fiabilidad de sus exámenes. Los resultados de nuestro informe sugieren que
los tribunales hacen m ás de lo que se podía esperar y m ás de lo que se sabe

24S
T
Criterios de la evaluación de lenguas: el estado de la cuestión
públicamente. El hecho es que la información existente no está disponible con
facilidad ni públicamente, y costó mucho tiempo y m uchos esfuerzos llegar tan
lejos com o hem os llegado. Esto debería ser innecesario. Si la evidencia que
demuestra la calidad supuesta de la prueba existe, debería estar a disposición del
público. Además, creem os que la inform ación debería estar fácilmente dispo­
nible, y no sólo después de haber hecho esfuerzos considerables para obtenerla.
En la actualidad, parece que los diferentes tribunales im pücados en la eva­
luación del inglés com o lengua extranjera hacen cosas distintas, con distintos
grados de rigor, para supervisar la calidad de sus exámenes. Los resultados de
este informe muestran que no hay coincidencia en los procedimientos a seguir
por los que elaboraran exámenes de inglés com o lengua extranjera y tampoco
existe un conjunto unitario de criterios que deban seguir.
Creemos que la situación está madura para que los tribunales de exámenes del
Reino Unido y los redactores de pruebas elaboren un conjunto de criterios para todas
las pruebas de inglés como lengua extranjera, y para discutir qué procedimientos
serían los más apropiados para garantizar el cumplimiento de tales criterios.

11.9. Conclusión
La evaluación de idiom as todavía no tiene unos criterios comunes con los que
poder evaluar, comparar o seleccionar las pruebas. La necesidad de tales crite­
rios se está discutiendo y ya se está trabajando en el tema, lo que puede con­
ducir al desarrollo de unos criterios apropiados reconocidos intemacionalmente.
Sin em bargo, creemos que este libro ha dejado claro que la teoría de la eva­
luación de idiom as ya ha ñjado un conjunto de principios que pueden inspirar
la elaboración de pruebas y la investigación en el cam po de la evaluación. Estos
principios se recogen bajo etiquetas tales com o validez, fiabilidad, practicidad
o viabilidad, e impacto o efecto de rebote. Los redactores de pruebas tienen tam­
bién un conjunto de procedimientos generalmente aceptados para el desarrollo
y adm inistración de pruebas si se pretende que tales pruebas representen lo
mejor de la prácdca profesionaL Este libro ha pretendido explicar los principios
y describir los procedim ientos. Tam bién hem os podido describir la práctica
habitual de un grupo de redactores de pruebas. La práctica varía de forma con­
siderable en cuanto a su naturaleza, su concreción y su calidad.
Existen, sin embargo, razones comprensibles de que no haya ninguna prueba
que se adapte a todos los principios y procedimientos, y esperamos que la m ayo­
ría de los redactores de pruebas sean conscientes de la necesidad de m ejorar de
forma continuada sus procedimientos y sus productos. Esperamos que este libro
haya indicado no sólo dónde pueden mejorar éstos, sino también cómo pueden
producirse esas mejoras, y esperamos llevar a cabo un nuevo informe en el futuro,
con respecto al Reino Unido o con miras internacionales, sobre el inglés u otros
idiomas. Esperamos que las cosas evolucionen, que haya mejoras y que progrese
la profesionalidad de los evaluadores, de los tribunales de exámenes y de las com ­
pañías comerciales, de los ministerios y de los colegios y universidades.

246
Bibliografía

Bibliografía
A m erican E ducation R esearch A ssociation , A m erican Psych ological A ssociation , y
N ation al C oun cil o n M easurem en t in Education ( 1 9 8 5 ). Standard for Educational and
Psychological Testing. A m erican Psych ological A ssociation , Inc., W ashin gton , DC.
A ssociation o f L an gu age Testers in E urope (1 9 9 4 ). The ALTE Code of Practice. ALTE,
C am bridge.
D iam on d , E. E. y J. Frem er ( 1 9 8 9 ). «T h e Jo in t C om m ittee on T estin g Practices and
the C o d e o f Fair T estin g Practices in E d u catio n .» Educational Measurement: Issues and
Practice. N ú m e ro de prim avera.
H eaton , J. B. ( 1 9 8 8 ). Writing English Language Test. 2 1 ed ició n , L on gm an , Londres.
Jo in t C om m ittee o n Stan dards fo r Educational Evaluation (1 9 8 1 ). Standards for
Evaluations of Educational Programs, Projects, and Materials. M cG raw -H ill, N ueva York.
Jo in t C om m ittee on T estin g Practices ( 1 9 8 8 ). Code of Fair Testing Practices in Education.
A m erican P sy ch ological A ssociation , W ash in gton , DC.
N evo, D. y E. Sh oh am y ( 1 9 8 6 ). «E valu ation Standards for the A ssessm ent o f
A lternative T estin g M eth ods: an A p p lic atio n .» Studies in Educational Evaluation, 12,
p ig s . 149—158.
Pollitt, A. ( 1 9 9 0 ). Standards. Notes prepared for a meeting to discus language testing standards.
U n iversity o f C am b rid g e Local E xam in ation s Syndicate, C am bridge.
Sch ools E xam in ation an d A ssessm en t C oun cil ( 1 9 9 3 ). Mandatory Code of Practice for the
GCSE. SEAC, Londres.

247
A p é n d ic e s

Apéndice 1 Tribunales de exámenes consultados en


la investigación y pruebas que elaboran ......249

Apéndice 2 Cuestionario y carta explicatoria


enviada a los tribunales de exámenes .......... 251

Apéndice 3 índice de discriminación


E-i.3 (D de Ebel) ..................................................... 259

Apéndice 4 Estadísticas de distribución ............................... 260

Apéndice 5 Correlación por orden de rango ..................... 263

Apéndice 6 Fiabilidad por el método


de las dos mitades ............................................... 265

Apéndice 7 Kuder Richardson 21 .......................................... 267

Apéndice 8 Paquetes estadísticos .........................................269

248
A p é n d ic e 1

Tribunales de exámenes consultados en la investigación


y pruebas que elaboran

Nombres de los tribunales de exámenes


ARELS Examination Trust (AET)
Associated Examining Board (AEB)
City and Guilds o f London Institute (C & C)
English Speaking Board (ESB)
Joint Matriculation Board (JMB)
London Chamber o f Commerce and Industry Examinations Board (LCCI)
North W est Regional Examinations Board (CENTRA)
Pitman Examinations Institute (PEI)
Trinity College London (Trinity)
University o f Cambridge Local Examinations Syndicate (UCLES)
University o f London Schools Examination Board (ULSEB)
University o f Oxford Delegacy o f Local Examinations (OUDLES)

Exámenes citados en las respuestas de los tribunales


ARELS Examination Trust (AET)
ARELS Examinations in Spoken English & Comprehension (2 niveles)

Associated Examining Board (AEB)


Test o f Enghsh for Educational Purposes (TEEP)
City and Guilds o f London Institute (C &G)
Communication in Technical Enghsh (Overseas) (CTE)
Communication Skills (CS)
English
W ordpower

English Speaking Board (ESB)


Enghsh as an Acquired Language (EAL)

Toint Matriculation Board fTMB')


University Entrance Test in Enghsh for Speakers o f Other Languages (UETESOL)

249
A péndices

London Chamber o f Commerce and Industry Examinations Board (LCCI)


English for Commerce (3 niveles) (EfC)
English for Business (3 niveles) (EfB)
Spoken English for Industry and Commerce (4 niveles) (SEflC)

North West Regional Examinations Board (CENTRA)


Test in English Language Skills (3 niveles) (TELS)

Pitman Examinations Institute (PEI)


English for Speakers o f Others Languages (5 niveles) (ESOL)

Trinity College London (Trinity)


Graded Examinations in Spoken English for Speakers o f Other Languages

University o f Cam bridge Local Examinations Syndicate (UCLES)


Preliminary English Test (PET)
First Certificate in English (FCE)
Certificate in Advanced English (CAE)
Certificate o f Proficiency in English (CPE)
Diploma o f English Studies (DES)
Certificates in Communicative Sífilis in English (4 niveles) (CCSE)
Certificate in English for International Business and Trade (CEIBT)
Cambridge Examination in English for Language Teachers (CEELT)
International English Language Testing System (IELTS)
International General Certificate o f Secondary Education (IGCSE)

University o f London Schools Examination Board (ULSEB)


Certificate o f Attainment in English: (CAE)
a) versión sin laboratorio de idiom as, niveles 1-6
b) versión con laboratorio de idiom as, niveles 3-6

University o f O xford Delegacy o f Local Examinations (OUDLES)


Oxford Preliminary Exam (OPE)
Oxford Higher Exam (OHE)

250
A p é n d ic e 2

Cuestionario y carta explicatoria enviada


a los tribunales de exámenes

JC A /A IG D

N o v ie m b re d e 1 9 9 0

Q u erid o colega:

C o m o q u iz á recordará, el Lancaster L an gu age T estin g R esearch G roup está llevan d o a


cab o u n e stu d io sob re lo s tribu nales d e exám en es de ESOL b ritán ico s p a ra intentar
determ in ar lo s criterios y p ro ce d im ie n to s q u e se sig u e n en la elab oración , valid ación y
ad m in istración de p ru e b a s d e id io m as.
Ya le h em o s p e d id o su s resp u estas en u n a carta con tres pregu n tas abiertas que
preten d ían re c o g e r las o p in io n e s de lo s tribunales so b re sus criterios y sob re el
p ro c e d im ie n to utilizad o p a ra establecer la fiab ilid ad y la validez. A dem ás h em os
re c o g id o datos d e cuatro fuen tes com plem en tarias:

a) L os m ie m b ro s del G ru p o de In v e stigació n h an p o d id o b asarse en su am p lia


e x p e rie n c ia tras h ab er trab ajad o co n d istin to s trib u n ales p erten ecien tes a ESOL
c o m o c o rre cto re s, re d acto re s de íte m s y d e p ru e b a s, m ie m b ro s de co m ité s de
re d a c c ió n , de re u n io n e s p a ra la a d ju d ic a c ió n de calificacio n es, así c o m o
tam b ié n d e fo rm a ad hoc en g ru p o s de trab ajo y co m ité s aseso res. Los tribu nales
de e x ám en e s de EFL c o n lo s q u e h e m o s trab a ja d o so n : JM B , AEB, UCLES,
In stitu te o f L in g u ists, RSA , PLAB. A d e m á s, a lg u n o s m ie m b r o s tie n e n
e x p e rie n c ia e n la p re p a ra c ió n d e a lu m n o s q u e h an esta d o e stu d ia n d o p a ra
p re se n tarse a u n o o m á s d e u n o de lo s ex ám en e s e lab o rad o s p o r tales
trib u n ale s d e e xám en e s.
b) U n a serie d e entrevistas con lo s rep resentan tes de diversos tribunales de
exám en es c o m o parte d e u n p ro y ecto d e in vestigación separado so b re lo s
exám en es d e in glés en el extran jero. Estas entrevistas d ieron p a so a in fo rm es
cuyo con ten ido se co n sen su ó con lo s tribunales de exám enes.
c) V isitas a u n n ú m e ro de tribunales d e exám en es con asistentes a cursos sob re
evalu ación de id io m as durante u n p e río d o d e tres años.
d) In form es sob re trece p ru eb as b ritán icas de in glé s c o m o le n gu a extranjera, y las
reaccion es a éstos p o r parte d e lo s rep resentan tes d e lo s tribunales, pu b licad o s
en A lderson, Krahnke y Stansfield, 1 9 8 4 , Review of English Language Proficiency Tests.

251
Apéndices

E stam os ah ora in ten tan do com p letar la in fo rm ac ió n m ed ian te un cuestionario


estructurado, q u e se b asa en parte en las fuen tes de in fo rm ació n citadas m á s arriba.
So m o s m u y con scien tes de q u e es p o sib le q u e esté m u y o cu p ad o , p o r lo q u e h em os
in ten tado red u cir la can tid ad de tiem p o re q u e rid o para com pletar el cuestion ario. Sin
em b argo , con el fin de garan tizar la re c o g id a de un con ju n to de datos lo m á s com pleto
p o sib le , estaríam os m u y ag rad e cid o s si dedicara el tie m p o n ecesario a su contestación.
Pen sam os presen tar u n a po n en cia (u n resu m en revisad o de la m ism a estará
d isp o n ib le en b reve) so b re n uestros resu ltad os en u n a con feren cia in tern acional en
m arzo de 1 9 9 1 , p o r lo q u e e sp eram o s re co g e r tanta in fo rm ació n co m o sea p osib le
hasta entonces p ara co n se g u ir q u e n uestro in fo rm e sea lo m á s rep resen tativo posible.
En esta p resen tación n o p e n sam o s m en cio n ar lo s n o m b re s de n in gú n tribunal en
con creto, a n o ser q u e así lo solicite el tribunal. Sin em b argo , si u ste d prefiere q u e la
in fo rm ació n q u e va a darn os se m an ten ga con fid en cial, p o r favor h ágan o slo saber.
A grad ecem os la co o p erac ió n de q u e h em o s disfru tad o h asta la fech a p ara este
proy ecto; especialm en te q u e re m o s m o strar n u estro agrad ecim ien to a lo s tribu nales que
se han to m ad o la m o le stia de re sp o n d er d e fo rm a extensa. E sp eram os q u e el
cu estion ario q u e in c lu im o s n o d u p liq u e la in fo rm ació n q u e m u c h o s tribunales ya nos
han enviado. C reem os, sin e m b argo , q u e p ara evitar p o sib le s m alas in terpretacion es
p o r n uestra parte de las resp u estas q u e ya h e m o s recib id o, sería d e interés, p o r
cuestion es de clarid ad y de glo b alid ad , si p u d ie ra resp o n d er a tod as las pregu n tas,
au n q ue esto sig n ifiq u e dup licid ad . C reem os q u e lo s resu ltad os de este e stu d io serán
con sid erab lem en te útiles p a ra la p ro fe sió n y q u e tam b ién ayudarán a lo s tribunales de
exám en es b ritán ico s a establecer el valor d e su s p ru e b a s en el m e rcad o internacional.
N o s in teresa q u e n uestros resu ltad os reflejen la calidad de lo s exám en es b ritán ico s, p o r
lo que e sp e ram o s q u e su s datos sean lo m á s com pletos, preciso s e im parciales p o sib le.
E sp eram os q u e p u e d a re sp o n d er a este cuestion ario. Pero si p refiere discutir estos
asp ectos con n o so tro s en lu g a r d e resp o n d er p o r escrito, p o d ría m o s fijar u n a reu n ión
con sus representan tes.
E staríam os m u y ag rad e cid o s si p u d ie ra resp o n d er antes del 21 de diciem bre. Si esto
n o es p o sib le , h ágan o s sab er p o r favor cuán d o p o d e m o s esperar su respu esta.
Le d am o s las gracias p o r su co lab o ració n p o r adelantado.

A tentam ente,

J. Charles A lderson
C oord in ad or
Lancaster Language Testing Research Group

252
Cuestionario y carta explicatoria enviada a los tribunales de exámenes

Cuestionario
El objetivo de este cuestionario es establecer y confirmar las prácticas seguidas
por los tribunales británicos de exámenes de ESOL a la hora de elaborar, validar
y administrar sus exámenes. Puede darse el caso de que alguna de la
información que puede Ud. darnos sea confidencial o de uso restringido. Por
favor indique en sus respuestas a las preguntas que siguen si este es el caso.
Puede ser que no quiera responder a una pregunta en particular o que la
pregunta sea irrelevante. Si se encuentra en una de estas dos situaciones, por
favor indíquelo al lado de la pregunta correspondiente.
Puede que le parezca, una vez completado el cuestionario, que hay aspectos
importantes de su trabajo que no hemos cubierto o señalado suficientemente. Si eso
ocurre, por favor indíquelo en una carta por separado o al final del cuestionario.
Finalmente si la práctica o los procedimientos son distintos según la prueba,
indique por favor las diferencias donde sea necesario.

1. Nom bre del tribunal de exámenes ................................................................


2. Nom bre de la persona que responde ............................................................
3. Puesto en el tribunal de exámenes ................................................................
4. ¿Cuánto tiempo ha trabajado en este puesto? ..............................................
5. ¿A qué exámenes hacen referencia sus respuestas?

DESCRIPCIÓN DE LOS CONTENIDOS


6. ¿Publica su centro una descripción
del contenido del examen (o exámenes) ? Sí No
7. En caso de respuesta afirmativa, ¿esta descripción
incluye algunos de los datos siguientes?
a) Definición del propósito del examen. Sí No
b) Descripción del tipo de estudiante
a quien va dirigido. Sí No
c) Descripción del nivel de dificultad del examen. Sí No
d) Descripción de una actuación tipo para cada
nivel o calificación. Sí No
e) Descripción de lo que se puede esperar
«en el m undo real» de un candidato
que obtiene un certificado o una nota
determinada en un nivel concreto. Sí No
f) Descripción de un curso o de unos estudios
que se supone que deben seguir los candidatos
antes de presentarse al examen. Sí No

253
.Apéndices

g) Descripción del contenido del examenen cuanto a:


estructuras Sí No
vocabulario Sí No
funciones lingüísticas Sí No
temas Sí No
longitud de los textos Sí No
tipos de preguntas Si No
ponderación de las preguntas Sí No
tiem po adjudicado para cada prueba Sí No
tiem po para cada sección de la prueba Sí No
h) Descripción de los criterios que se utilizarán
para evaluar la actuación de los estudiantes. Sí No
i) Descripción de cóm o se calculan
las calificaciones finales. Sí No
j) Ejemplos de pruebas anteriores. Sí No
k) Ejemplos de actuaciones de alumnos
en pruebas anteriores. Sí No
1) Algún añadido a lo anterior. Sí No
Por favor, dé más detalles a continuación
o en hoja aparte.
¿Se ha llevado a cabo algún tipo de «análisis de
necesidades» para ayudar al tribunal a tomar
decisiones sobre el propósito, el contenido,
el m étodo, el nivel, etc. del examen? Sí No
En caso de respuesta afirmativa, por favor incluya
esta descripción en el cuestionario.
¿Se da a los redactores de pruebas alguna
información adicional o guía suplementaria? Sí No
En caso de respuesta afirmativa, ¿qué información se
da sobre el propósito y contenido de la prueba?

ELABORACIÓN DE LA PRUEBA
11. ¿Qué criterios utilizan a la hora de nombrar
redactores de ítems o de pruebas?
12. ¿Para cuánto tiempo se nom bran los redactores?
13. ¿Con cuánta antelación respecto a la fecha de examen se
pide a los redactores que empiecen a redactar sus ítems?
14. ¿Cuánto tiem po se da a los redactores para que elaboren
el prim er borrador de un ítem?
15. Una vez que el redactor entrega el prim er borrador,
¿qué sucede?

254
Cuestionario y carta expiicatoria enviada a los tribunales de exámenes

16. ¿Se reúne algún comité en algún punto del proceso


para discutir cada prueba? Sí No
17. ¿Qué requisitos deben reunir los m iem bros de
este comité?
18. ¿Cuánto tarda un comité en discutir/preparar
un examen completo?
19. ¿Qué pasos se dan, si se dan, para comprobar que
el borrador presentado coincide con la descripción
de los contenidos del examen (si existe) ?
20. ¿Qué pasa habitualmente con el borrador después
de las deliberaciones del comité?
21. ¿Se someten los ítems o las preguntas a ensayos previos? Sí No
En caso de respuesta afirmativa, ¿cómo se seleccionan los
estudiantes, y cuántos responden a cada ítem o pregunta?
22. Si se realizan ensayos previos, ¿qué estadísticas se calculan
a partir de los resultados?
23. ¿Qué ocurre si los ítems o preguntas que se ensayan
no son satisfactorios?
24. ¿Qué pasos se dan, si se dan, además de los mencionados
anteriormente, para controlar la calidad de los redactores
de ítems o pruebas?

VALIDACIÓN
25. Además de los procedim ientos anteriores para la validación de aspecto
y de contenido, los siguientes tipos de validez:
a) ¿son pertinentes?
b) ¿se estiman o calculan?27*
pertinente estimada
i) validez concurrente Sí No Sí No
ii) validez de predicción Sí No Sí No
iii) validez del constructo Sí No Sí No
¿Llevan a cabo estudios de validación específicos
en sus exámenes? Sí No
En caso de respuesta afirmativa, facilite detalles
o una copia de los informes relevantes.
27. En caso de que se administren distintas versiones
de su examen, ¿se toman m edidas para asegurar
que son equivalentes? Sí No
En caso de respuesta afirmativa, incluya por favor una
descripción de tales medidas.

255
Apéndices

28. ¿Se administra más de un tipo de prueba distinto


durante el m ism o período de examen? Sí No
En caso afirmativo, ¿qué medidas se toman para garantizar
que cada tipo de prueba sea equivalente en dificultad?

ADMINISTRACIÓN
29. ¿Se da una formación específica a los administradores? Sí No
En caso afirmativo, ¿quién da esta formación
y cuanto tiempo dura?
30. ¿Se supervisa la administración de la prueba? Sí No
En caso afirmativo, ¿quién? ¿Qué ocurre como
resultado de la supervisión?

CORRECCIÓN
31. ¿Qué criterios se utilizan para el nombramiento
de correctores?
32. ¿Para cuánto tiempo (meses, años) se nom bran
los correctores? 35678*
33. ¿Hay algunas secciones del examen
a) que se corrigen de form a objetiva, por ejemplo,
por m edio de una m áquina o de un corrector? Sí No
b) que se corrigen de form a centralizada, por
ejemplo, por m edio de equipos de trabajo? Sí No
c) que se corrigen de form a local, por m edio
personas que trabajan solas, por ejemplo,
el administrador de la prueba o un equivalente? Sí No
¿Convocan una «sesión de unificación de criterios»
para los correctores? Sí No
En caso afirmativo, ¿cómo se llama a este tipo de reunión?
¿Cuánto tiempo dura normalmente?
35. Si su tribunal mantiene una «sesión de unificación de
criterios», ¿qué ocurre habitualmente durante esta sesión?
36. ¿Qué pasos se dan al final de la sesión de unificación
de criterios para establecer el grado de acuerdo
entre correctores?
37. ¿Una vez empezada la corrección, se lleva a cabo
la doble corrección de algunos ejercicios escritos? Sí No
En caso de respuesta afirmativa, ¿en qué proporción?
38. ¿Qué ocurre si no hay acuerdo entre el prim er y el
segundo corrector? Dibuje un círculo alrededor del
número que corresponda:

256
Cuestionario y carta explicatoria enviada a los tribunales de exámenes

1) se incorpora a un tercer corrector y se utilizan


las dos puntuaciones más cercanas.
2) se hace la media de las dos notas.
3) se mantiene la puntuación del segundo corrector.
4) los dos correctores discuten y llegan a un acuerdo.
5) otros (por favor, especifique).
39. ¿Se calculan habitualmente las correlaciones entre
correctores? Sí No
En caso de respuesta negativa, ¿se calculan en algún caso? Sí No
40. ¿Se calculan habitualmente las medias y las
desviaciones típicas de los correctores? Sí No
41. ¿Se sigue algún otro proceso para calcular o comprobar
la fiabilidad de los correctores? Sí No
En caso afirmativo, ¿puede describirlos más abajo
o por separado o puede mandarnos una copia de
los informes correspondientes?

RESULTADOS
42. ¿Se mantienen otras reuniones antes de la publicación
de resultados (reuniones de adjudicación de
puntuaciones, reuniones de examinadores)? Sí No
En caso de respuesta afirmativa, ¿qué forma toman
estas reuniones?
43. ¿Se siguen procedimientos específicos para la decisión
sobre las puntuaciones de aprobado/suspenso o los
límites entre notas? Sí No
En caso afirmativo, ¿puede describir tales procedimientos
o mandarnos o darnos referencias sobre publicaciones
o informes relevantes?45
44. Redactan informes los examinadores jefes? Sí No
Ji éste es el caso, ¿están a disposición
a) de los profesores? Sí No
b) de los estudiantes? Sí No
c) sólo de forma restringida? Sí No
Si tales informes existen, ¿podría enviamos una copia?
Si no puede m andam os una copia, ¿podría describir
más abajo o por separado lo que habitualmente
contiene un informe de este tipo?
45. ¿Se calculan estadísticas sobre los ítems o pm ebas
cuando el examen ha concluido? Sí No
En caso afirmativo, ¿cuáles?
En caso afirmativo, ¿qué ocurre con los resultados?

257
Apéndices

REVISIÓN DE EXÁMENES
46. ¿Se recogen comentarios sobre sus exámenes? Sí No
En caso afirmativo, ¿cóm o y quién la recoge?
47. ¿Existen procedim ientos rutinarios que garanticen que sus
exámenes se revisan teniendo en cuenta los comentarios? Sí No
48. ¿Cada cuánto tiempo, por término m edio,
se revisan sus exámenes?
49. ¿Hay aspectos importantes de sus procedimientos
de control de calidad que crea que no han sido
incluidos en este cuestionario? Sí No
En caso afirmativo, dé detalles m ás abajo o por separado.
50. ¿Existen planes para hacer cam bios en los procedimientos
que realizan, tal com o se han descrito antes? Sí No
En caso de respuesta afirmativa, por favor facilite detalles
junto con una estimación sobre cuándo serán operativos.
51. Se dice que la fuerza de los exámenes británicos de
inglés com o lengua extranjera reside en su relación
con la docencia. ¿Está de acuerdo? Sí No Algo
¿Puede describir cóm o puede demostrarse esta
relación con respecto a su examen?
52. También se dice que los criterios y procedimientos
«am ericanos» o «psicom étricos» no son pertinentes
para los exámenes británicos. ¿Está de acuerdo? Sí No Algo
Si está de acuerdo (parcialmente), ¿qué criterios y /o
procedim ientos no son relevantes para sus exámenes?
53. ¿Cuáles son, en su opinión, los puntos fuertes
de sus exámenes?
54. ¿Cuáles son, si los hay, los puntos débiles de sus exámenes?
Pretendemos publicar los resultados de
este estudio de form a anónima. ¿Preferiría que
nom bráramos su tribunal en nuestra presentación? Sí No

Muchas gracias por su cooperación.

O Language Testing Research Group


Lancaster University, UK.
1990

(Nótese que a causa de las limitaciones de este volumen no se ha dejado el


espacio necesario para las respuestas a las preguntas.)

258
A p é n d ic e 3

índice de discriminación E13 (D de Ebel)

1. Ordenar a los alumnos de acuerdo con su nota total.


2. Dividirlos en tres grupos, asegurándose de que los grupos más altos y los
más bajos tienen igual número de estudiantes.
3. Contar cuántos estudiantes del grupo alto y del grupo bajo responden
correctamente a un ítem.
4. Encontrar la diferencia entre el número de respuestas correctas en el grupo
alto (GA) y en el grupo bajo (GB). Dividir este resultado por el número
total de personasen el grupo alto (TA):

G A -G B
TA

Por ejemplo, para los resultados en la tabla 4.1:

hay 14 respuestas correctas en el grupo alto;


hay 13 respuestas correctas en el grupo bajo.

El núm ero total de alumnos en el grupo alto es de 21.

Así, pues, para encontrar el I.D.


1 4 - 13
yy = 0, 047619
21

Una vez establecido con dos decimales, el I.D. es de + 0 ,5 .

259
A p é n d ic e 4

Estadísticas de distribución
Imaginar que ocho estudiantes tuvieron los siguientes resultados:

12 28 19 15 15 35 14 15

La media
La m edia es la suma de todas las notas, dividida por el número de estudiantes:

M — m edia X = la puntuación

£ = «la sum a d e » N = el número de estudiantes

£X _ 12 + 28 + 1 9 + 15 + 15 + 35 + 1 4 + 1 5 _ 153 _
N 8 " 8 “ 1
La m edia es pues 19,13.

La moda
Es la nota más frecuente. En este caso hay tres 15, y sólo una de cada una de las
otras notas. La m oda es por lo tanto 15.

La mediana
La mediana es la nota del medio, o el punto medio en las notas. Primero se orde­
nan las notas de m ayor a menor:

35 28 19 15 15 15 14 12

A continuación se calcula el punto medio de las notas. Puesto que hay ocho estu­
diantes, el punto m edio está entre la cuarta y la quinta nota (hay cuatro notas
por encima de este punto, y cuatro por debajo). Puesto que la cuarta y la quinta
notas son las dos un 15, el punto m edio es un 15. La mediana es un 15.
Si las notas hubieran sido 3 5 - 2 8 - 1 9 - 1 7 - 1 5 - 1 5 - 1 4 —12, la m ediana hubiera
sido el 16.
Si hubiera habido un núm ero impar de notas, la mediana hubiera sido enton­
ces la nota del m edio. Por ejem plo, si las notas fueron 3 5 - 2 8 - 1 9 - 1 7 -1 5 , la
mediana hubiera sido 19.

260
Estadísticas de distribución

El rango
El rango es la diferencia entre la nota m ás alta y la nota más baja. El rango es:
3 5 -1 2 = 23.

La desviación típica
Es la raíz cuadrada de la desviación media al cuadrado de la media de las notas
de los alumnos.

(X —M )2
DT =
/ N - 1

DT = desviación típica X = «la sum a de»

X = puntuación M = la media de las notas

N = el número de alumnos

Primer paso. Hacer un listado de las puntuaciones (X ).

Segundo paso. Hacer un listado de las diferencias entre cada puntuación y la


m edia (19 ,1 2 5 ) en (X—M).

Notas:
a) Utilizar la m edia exacta; no corregir ningún
decimal.
b) El resultado de la sum a de los núm eros en
(X—M) debería ser 0.

Tercer paso. Elevar al cuadrado los números en la lista (X-M ) y anotarlos en


(X -M )2

Cuarto paso. Sumar la columna (X -M )2. El resultado total es X (X -M )2.

X (X -M ) (X -M )2
35 15,875 252,02
28 8,875 78,77
19 - 0,125 0,02
15 - 4 ,1 2 5 17,02
15 - 4 ,1 2 5 17,02
15 - 4 ,1 2 5 17,02
14 - 5 ,1 2 5 26,67
12 - 7 ,1 2 5 50,77

0 ” X (X -M )2 = 458,91

261
.Apéndices

Ahora puede utilizarse la fórmula.

nr - J - . /458.91 _ > 5 8 . 9 1 ,-------


D T _ V N -1 ~ V 8 -1 ~ V 7 = ^6 5 -56

(N ota: 6 5 ,5 6 es la varianza (v) utilizada por la fórm ula de Kuder


Richardson 21 en el apéndice 7.)

DT = 8,1 (Utilizar una calculadora para calcular la raíz cuadrada.)

262
A p é n d ic e 5

Correlación por orden de escala

La fórmula es: rho

rho = coeficiente de correlación

X = suma de

d = diferencia entre escalas

N = núm ero de estudiantes

Ejemplo
1. Hacer una lista de los resultados de los estudiantes en cada prueba igual
que en la tabla de la página siguiente. Asegúrese de que las dos puntua­
ciones del m ism o estudiante están en una m ism a línea. Por ejem plo, las
notas del estudiante A son 20 y 12, y las del estudiante G son 13 y 17.

2. Ordenar los alumnos de cada prueba según su resultado en la prueba. Por


ejem plo, el estudiante A fue el prim ero en la prueba 1 y el tercero en la
prueba 2. El estudiante G fue el octavo en la prueba 1 y también en octavo
en la prueba 2. (Si las notas están empatadas, deben darse a los estudiantes
las m edias de las escalas. Por ejemplo, C y D habrían sido tercero y cuarto
en la prueba 1, con lo que su escala m edia es

Los alumnos G, H e I habrían sido el séptimo, octavo y noveno, por lo que


su escala m edia es 8.)

3. Encontrar las diferencias entre las dos escalas de cada estudiante (d), dedu­
ciendo el número m enor del mayor. La diferencia entre las dos escalas del
estudiante A es 3—1 = 2 . 4

4. Elevar estas diferencias al cuadrado.

263
Apéndices

5. Sumar estas diferencias al cuadrado. Esto da Xd2.


Resultado de Resultado de Escala de Escala de
Estudiante la prueba 1 la prueba 2 la prueba 1 la prueba 2 d d2
A 20 12 1 3 2 4
B 18 11 2 4 2 4
C 17 8 3,5 7 3,5 12.25
D 17 15 3,5 1 2,5 6,25
E 16 14 5 2 3 9
F 14 6 6 9 3 9
G 13 7 8 8 0 0
H 13 10 8 5 3 9
I 13 9 8 6 2 4
J 9 4 10 10 0 0

X d2 = 5 7 ,5 0

N = 10

Xd2 = 5 7 ,5 0

Ahora puede utilizar la fórmula.

1-
i 6X57,5 \
rho - 1 1 - 0 , 3 4 8 4 = 0,6516
1^10(100— 1) J

Una vez reducidos a dos los decimales, la correlación es igual a 0,65.

264
A p é n d ic e 6

Fiabilidad por el método de las dos mitades


Para obtener este dato, debe calcularse primero la correlación por orden de escala
(véase apéndice 5) entre las m itades pares e im pares de la prueba, y a conti­
nuación debe utilizarse la fórmula correctiva de Spearman Brown.

1. Dividir la prueba en dos mitades, con los ítems impares (ítems 1, 3, 5, 7,


etc.) en una prueba, y los ítems pares (ítems 2, 4, 6, 8, etc.) en la otra.

2. Calcular las notas de cada alumno en las pruebas pares e impares.

3. Dar a cada alum no dos escalas, una para la prueba im par y una para la
prueba par.

4. Calcular la correlación por orden de escala entre los dos grupos de escalas.

rho = 1 —

5. Esta correlación entre las dos mitades de la prueba nos dice la fiabilidad de
una prueba que fuera la mitad de la prueba completa. Para averiguar la fia­
bilidad para toda la prueba, debe utilizarse la fórmula correctiva de Spear­
m an Brown:

= 2r,hh
1 + rhh

rK = fiabilidad

rhh = correlación entre las dos m itades de la pm eba

265
Apéndices
Estudiante Resultado Resultado Resultado Escala Escala
en toda en la mitad en la mitad en la mitad en la mitad
la prueba impar par impar par d d2
A 15 8 7 2,5 3 0,5 0,25
B 8 6 2 4,5 9 4,5 20,25
C 9 6 3 4,5 7,5 3 9
D 6 2 4 8 5,5 2,5 6,25
E 3 0 3 10 7,5 2,5 6,25
F 10 5 5 6 4 2 4
G 14 4 10 7 1 6 36
H 18 10 8 1 2 1 1
I 2 1 1 9 10 1 1
J 12 8 4 2,5 5,5 3 9

X d 2 = 9 3 ,0 0

N = 10 E d 2 = 93

ruu = 1 - í . . 6? '6X93 \
2 . U i - I - i - n t í . — HA A.

La correlación entre las dos mitades de la prueba es de 0 ,4 4 por lo tanto


rhh = 0 .4 4

2rhh _ 2 X 0,44
r“ “ 1 + rhh “ 1 + 0 ,4 4 “ ° ’61 Por lo tanto rtt = ° - 61

El índice de fiabilidad de las dos mitades es de 0,61.

266
A p é n d ic e 7

Kuder Richardson 21

fórmula es la siguiente:

nv —M (n —M)
r tt
(n - l)v

r« = el índice de fiabilidad

n = núm ero de ítems

V = varianza de la prueba

M = nota media

Este ejemplo utiliza los resultados del apéndice 6.

1. El núm ero de ítems de la prueba es de 20, por lo que n = 20.

97
2. La nota m edia es de ^ , por lo que M = 9,7.

3. v = 26,9 (Para calcular la varianza deben seguirse los pasos 1—6


en el ejemplo de la desviación típica del apéndice 4.)

4. nv = 2 0 X 2 6 , 9 = 538

5. n-M = 2 0 - 9 , 7 = 10,3

6. M (n-M ) = 9,7 X 10,3 = 99,91

7. n- 1 = 2 0 - 1 = 19

8 ( n - l) v = 19 X 26,9 = 511,1

Substituir los sím bolos en la fórmula por los núm eros:

_ nv —M (n —M)
rtt ( n —l ) v

538-99,91 4 3 8 ,0 9 n oc,
'« = 511,1 = 7 ÏÏT = 0’857

267
.Apéndices

El índice de fiabilidad KR21 es de 0,86.

La razón de que este índice de fiabilidad sea tan distinto del de las dos mitades
se debe probablem ente a que el núm ero de alumnos es m uy pequeño y a que,
por tanto, los resultados están m uy influidos por el factor azar. Si hubiera habido
100 estudiantes, o incluso 50, los dos índices habrían sido probablemente m uy
parecidos, aunque el índice de las dos mitades habría sido ligeramente m ás bajo.

268
A p é n d ic e 8

Paquetes estadísticos
IT E M A N Part of the M icroCA T testing system
A s se ss m e n ts S y ste m s C o rp o r a tio n ,
2 2 3 3 , U n iv e r s ity A v e n u e , S u ite 4 0 0 ,
S t. P a u l,
M in n e so ta 5 5 1 1 4 ,
U SA .

SP S S Statistical Package for the Social Sciences


S P S S I n c .,
4 4 4 N . M ic h ig a n A v e n u e ,
C h ic a g o ,
I llin o is 6 0 6 1 1 ,
U SA

SA S Statistical Package for D ata Analysis


S A S I n s t i t u t e I n c .,
S A S C ir c le ,
Box 8000,
C ary ,
N o r t h C a ro lin a 2 7 5 1 2 - 8 0 0 0 ,
U SA

FACETS Rasch Measurement Computer Program


M E SA P ress,
5 8 3 5 S. K i m b a r k A v e n u e ,
C h ic a g o ,
I llin o is 6 0 6 3 7 ,
U SA .

B IG S T E P S Rasch Measurement Computer Program


M E SA P ress,
5 8 3 5 S. K i m b a r k A v e n u e ,
C h ic a g o ,
I llin o is 6 0 6 3 7 ,
U SA
j4péndices

Q U EST The Interactive Test Analysis System


A u stra lia n C o u n c il f o r E d u c a tio n a l R e se a r c h ,
R a d fo rd H o u se ,
F r e d e r ic k S tre e t,
H a w th o r n , V ic to r ia 3 1 2 2 ,
A u stra lia

TESTA T A Supplementary Module for SYSTAT


1 8 0 0 S h e rm an A ven u e,
E v an sto n ,
I llin o is 6 0 2 0 1 - 3 7 9 3 ,
U SA

B IL O G One-, Two-, and Three-Parameter Item Response Theory Analysis


S c ie n tific S o ftw are , In c.,
M o o re sv ille ,
In d ia n a 4 6 1 5 8
U SA

270
Glosario

A nálisis d e la varian za (Analysis of variance)


El análisis de la varianza compara las distribuciones (m edias y desviaciones
típicas) de dos o m ás grupos para ver si las diferencias entre las medias son
significativas. Se utiliza la prueba t (t-test) para comparar los dos grupos y una
ratio F para más de dos grupos (capítulo 4).

A nálisis factorial (Factor analysis)


El análisis factorial aborda una matriz de coeficientes de correlación, a menudo
demasiado compleja para entenderla mediante un estudio superficial, y reduce
la com plejidad de tal matriz a proporciones más manejables. El resultado de
tal reducción se utiliza para identificar los factores que tienen en común los
distintos grupos de ítems (capítulo 8).

Análisis m ultim étodo-m ultirrasgo (Muldtrait-multimethod analysis)


Véase Validez de constructo.

A nálisis Rasch
Véase T eoría de respuesta al ítem .

A sim etría negativa (Negatively skewed)


En una distribución con asimetría negativa, las notas se agrupan en el extremo
alto del histogram a y decrecen hacia la izquierda del gráfico. Esta distribu­
ción m uestra que la prueba resultó fácil para los candidatos (capítulo 4 ).
(Véase Asim etría positiva.)

A sim etría p ositiv a (Positively skewed)


En una distribución con asimetría positiva, las notas se agrupan al final del his­
tograma, y decrecen hacia la derecha. Tal distribución muestra que la prueba
resultó difícil para los candidatos (capítulo 4). (Véase Asimetría negativa.)

Banco d e ítem s (Item bank)


Un banco de ítems es un conjunto de ítems o tareas que ha sido calibrado de
acuerdo con características tales com o la habilidad de una persona, la difi­
cultad del ítem y su capacidad de discrim inación, y ha sido almacenado en
un archivo central para su uso en el m om ento en que sea necesario. Cuando
los elaboradores de una prueba están planificando una nueva versión de una
prueba, pueden seleccionar del banco ítems que no sólo serán del nivel ade­
cuado para la población de la prueba, sino que también, cuando se agrupen,

271
*

Exámenes de idiomas. Elaboración y evaluación

se com binarán para form ar una prueba que sea equivalente en dificultad y
discriminación a las pruebas previas del m ism o tipo (capítulo 4).

B im odal (Bimodal)
Se llama bim odal a una distribución que tiene dos m odas (capítulo 4).

Clave (Key)
Una clave es el conjunto de respuestas aceptables en una prueba de correc­
ción objetiva. En una clave sólo hay una respuesta aceptable para cada ítem
(capítulo 5).

C oeficiente de co rrelación (Correlatíon coefficient)


Un coeficiente de correlación es una cifra que representa el grado en que dos
conjuntos de resultados coinciden. Hay muchas formas de calcular los coefi­
cientes de correlación. La correlación por orden de escala y la correlación de
Pearson se explican en el capítulo 4, y la fórm ula y el ejemplo desarrollado
de la correlación de rango se facilitan en el apéndice 5 (capítulo 4).

C oeficiente de d ificu ltad (Facility valué)


El coeficiente de dificultad m ide el nivel de dificultad de un ítem. Representa
el porcentaje de alumnos que lo contesta correctamente (capítulo 4).

C orrelación biserial (Biserial correlatíon)


Véase Indice de discrim inación.

C orrelación b iserial p u n tu al (Point biserial correlatíon)


Véase índice de discrim inación.

C orrelación de P earson (Pearson Product Moment Correlatíon)


Véase Coeficiente de correlación.

C orrelación p o r ord e n d e escala (Rank oíd a correlatíon)


Véase Coeficiente de correlación.

C urtosis (Kurtosis)
La curtosis se refiere a la indinación de la curva de distribución de una prueba
(capítulo 4).

Curva característica d el ítem (Item characteristíc curve)


Véase Teoría de respuesta al ítem .

D escripción d e los con tenidos (Syllabus)


La descripción de los contenidos de una prueba se deriva de las especifica­
ciones de la misma. Aunque algunos tribunales de exámenes del Reino Unido
utilizan especificaciones y descripciones de form a intercambiable, nosotros
vemos una diferencia entre ambos. Una especificación es un documento deta­
llado, a m enudo sólo de uso interno y confidencial para el centro de exám e­

272
Glosario
nes. La descripción de los contenidos es un documento público, a menudo
mucho m ás simplificado, que indica a los usuarios lo que incluirá la prueba.
Mientras que las especificaciones son para los redactores de la prueba y para
los que necesitan evaluar si una prueba cum ple con su objetivo, la descrip­
ción de los contenidos va dirigida a los profesores y a los estudiantes que
desean prepararse para la prueba, a personas que deben tomar decisiones con
respecto a las notas de la prueba y a editores que desean elaborar materiales
relacionados con la prueba (capítulo 2). (Véase Especificaciones.)

D escriptores (Descriptors)
Los descriptores son las definiciones que describen los niveles de actuación
en cada punto o prácticam ente en cada punto de una escala de valoración
(capítulo 5).

D esviación típ ica (Standard deviation)


La desviación típica es, aproximadamente, la cantidad m edia en que la pun­
tuación de cada estudiante se desvía (o difiere) de la m edia. Si un alumno
tiene una nota de 4, y la media es 6, este estudiante se desvía - 2 de la media.
De la m ism a form a, un estudiante con una nota de 10 se desviará + 4 de la
media. La desviación típica informa sobre la cantidad media en que todas las
notas difieren de la m edia (capítulo 4).

D eterm in ación de niveles (Standard setting)


En este libro la determinación de niveles hace referencia al procedimiento por
el cual jueces expertos —profesionales que tienen la experiencia adecuada-
analizan el contenido de la prueba y deciden cuál debería ser la posible actua­
ción de los candidatos mínimamente adecuados para la prueba (capítulo 7).

D iferencia significativa (Significant difference)


Una diferencia significativa es la que resulta lo suficientemente grande como
para que no se deba sólo al azar. La prueba para saber si la diferencia entre
dos m edias es significativa es la prueba t (capítulo 6).

Ensayos (Trialling)
Véase Ensayos previos.

Ensayos generales (Main trials)


Véase Ensayos previos.

Ensayos p revios (Pretesting)


' En este libro, los ensayos previos se refieren a todo tipo de ensayos a los que
se som ete una prueba antes de que salga a la luz o empiece a funcionar. La
m ayoría de los ensayos previos tienen lugar durante los «ensayos generales»
pero deberían ir precedidos de ensayos previos m enos form ales llam ados
pruebas piloto. Las pruebas piloto pueden variar en envergadura, desde pro­
bar un examen con un pequeño grupo de miembros del mismo departamento

273
Exámenes de idiomas. Elaboración y evaluación
a probarla con un centenar de estudiantes, pero, en cualquier caso, su obje­
tivo principal es limar los principales problem as antes de los ensayos genera­
les (capítulo 4).

Entrevistador (Interlocutor)
Una persona (a m enudo un profesor) que interacciona con el candidato en
una prueba de expresión oral para obtener una producción lingüística, m ien­
tras que otra persona llamada examinador evalúa la actuación del candidato
(capítulo 5). (Véase Exam inador.)

Escala an alítica (Analytic scale)


Una escala analítica es un tipo de escala de valoración en la que la actuación
de un candidato (en expresión escrita, por ejem plo) se analiza en términos
de distintos componentes (como por ejemplo, la organización, la gramática,
la ortografía) y se dan descripciones de cada componente a niveles distintos.
En la corrección analítica el candidato puede recibir una puntuación m ás alta
en un com ponente de su actuación que en otro; es decisión del usuario de
los resultados el combinar estas puntuaciones para llegar a un resultado glo­
bal (capítulo 5).

Escala de valoración (Rating scale)


La escala de valoración se utiliza normalmente para puntuar pruebas de expre­
sión escrita y de expresión oral. Este tipo de escala consiste en números, letras
y otras etiquetas (como por ejemplo «Excelente» o «M uy bu en o»), que pue­
den ir acompañadas de descriptores, definiciones del tipo de comportamiento
a que se refiere cada punto en la escala (capítulo 5).

Escala h o lística o g lo b al (Holistic scale)


Una escala holística es un tipo de escala de valoración en la que se pide a los
exam inadores que no presten dem asiada atención a un aspecto en concreto
de la actuación de un candidato, sino que juzguen su eficacia global. Se les
pide, por ejem plo, que juzguen la habilidad de escribir en general y no que
emitan juicios por separado sobre la organización, la gramática, la ortogra­
fía, etc. del escrito (capítulo 5).

Escala p o r im p resió n gen eral (Impression scale)


Esta escala es un tipo de escala holística que permite a los examinadores em i­
tir juicios rápidos sobre la actuación de un candidato (capítulo 5).

Escalonam iento (Scaling)


El escalonamiento es el procedimiento utilizado por los tribunales de exámenes
para ajustar las puntuaciones otorgadas por un examinador que, como se des­
cubre más tarde, no «está en línea» con otros examinadores. Las puntuaciones
pueden nivelarse al alta si se descubre que el examinador era demasiado estricto,
o a la baja si el examinador era demasiado benevolente (capítulo 6).

274
Glosario

Especificaciones (Specifications)
Las especificaciones de una prueba constituyen la descripción oficial de lo que
una prueba evalúa y cóm o evalúa lo que pretende evaluar. Las especificacio­
nes son la guía a seguir por los redactores de la prueba y de los ítems, y tam­
bién son esenciales para establecer la validez del constructo de la prueba
(capítulo 2). (Véase Descripción de los contenidos.)

Exam in ador (Examiner)


En este libro, el término «exam inador» indica la persona responsable de juz­
gar la actuación de un candidato en una prueba o examen. Utilizam os este
término para incluir a todos aquellos que tienen tal responsabilidad, sin tener
en cuenta si corrigen las secciones de corrección objetiva o subjetiva, y sin
tener en cuenta si han estado implicados en la redacción y administración de
la prueba. Distinguimos entre examinador y entrevistador en la evaluación de
la expresión oral: el prim ero se refiere a la persona que evalúa a los candida­
tos, mientras que el segundo se refiere a otra persona que interacciona con el
candidato mientras el examinador evalúa su actuación (capítulo 5).

Fiab ilid ad (Reliability)


La fiabilidad es la medida en que los resultados de una prueba son fiables; si
los candidatos volvieran a responder a la prueba mañana, después de haberla
hecho hoy, ¿obtendrían el m ism o resultado (asumiendo que su habilidad no
hubiera cam biado) ? (Véase el capítulo 2 y en todo el libro.) Hay muchas
maneras de medir la fiabilidad de pruebas «objetivas» (test-retest, formas para­
lelas, dos mitades, KR20, KR21 etc.), que se explican con detalle en el capí­
tulo 4. La fiabilidad de las pruebas subjetivas se m ide calculando la fiabilidad
de la corrección. Esto puede hacerse de distintas form as (fiabilidad entre
correctores, fiabilidad interna, etc.) (capítulo 6).

Fiab ilid ad de fo rm as paralelas (Parallel form reliability)


Véase Fiabilidad.

Fiabilidad de las d os m itades (Split-half reliability)


Véase Fiabilidad.

Fiab ilid ad de test retest (Test-retest reliability)


Véase Fiabilidad.

Fiab ilid ad entre correctores (Inter-rater reliability)


La fiabilidad entre correctores se refiere al grado de similitud entre distintos
examinadores. ¿Pueden dos o más examinadores, sin influirse entre sí, dar las
m ism as notas al m ism o grupo de escritos o actuaciones orales? No sería rea­
lista esperar que los exam inadores estén de acuerdo todo el tiem po; sin
embargo, es esencial que cada examinador intente acercarse al m odelo siem ­
pre. La fiabilidad entre correctores se m ide habitualmente mediante el coefi-

275
Exámenes de id io m a s. Elaboración y evaluación
cíente de correlación, o mediante algún tipo de análisis de la varianza (capí­
tulo 6). (Véase Fiabilidad intem a.)

Fiabilidad in tern a (Intra-rater reliability)


Se considera que un examinador demuestra fiabilidad intema si da las mismas
puntuaciones al m ism o grupo de escritos o expresiones orales en dos ocasio­
nes distintas. El examinador puede todavía considerarse fiable incluso si algu­
nas notas son distintas; sin embargo, no se puede permitir mucha variación si
se pretende evitar que se cuestione la fiabilidad. La fiabilidad intema se mide
a m enudo mediante un coeficiente de correlación o mediante algún tipo de
análisis de la varianza (capítulo 6). (Véase Fiabilidad entre correctores.)

Fórm u la Ej 3
Véase índice de discrim inación.

ín dice de d iscrim in ación (Discrimination index)


El índice de discriminación mide hasta qué punto los resultados de un ítem en
particular están correlacionados con los resultados de toda la prueba. Además de
saber la dificultad de un ítem, es importante saber cómo discrimina, es decir, lo
bien que distingue entre los alumnos de los distintos niveles de capacidad. Si el
ítem funciona bien deberíamos esperar más de los alumnos que sacan buenas
notas que de los que sacan notas bajas. Si los alumnos buenos no responden bien
a un ítem, mientras que los alumnos flojos lo responden correctamente, el ítem
tiene problemas que deben investigarse. Hay distintos métodos para calcular el
índice de discriminación de un ítem (fórmula E] 3, correlación biserial, corre­
lación biserial puntual), que se explican en el capítulo 4 (capítulo 4).

Inform e de resu ltad o s (Reported scores)


Un informe de resultados es el que contiene la nota que se entrega a los can­
didatos, a los empresarios o a las colegios o institutos (capítulo 7).

K uder R ich ardson 20 y 21 (también conocidos por KR20 y K R 21)


Véase Fiabilidad.

M edia (Mean)
La nota m edia de una prueba es lo que comúnmente se llama la media; esto
es, la sum a de las notas de todos los estudiantes dividida por el núm ero de
estudiantes (capítulo 4).

M ediana (Median)
La mediana es la nota obtenida por el estudiante que se encuentra en la mitad
de los resultados obtenidos por la totalidad de los estudiantes. Si, por ejem ­
plo, cinco alumnos responden a una prueba, u obtienen unas notas de 9, 7,
6, 2 y 1, la mediana sería de 6. La mediana es particularmente útil cuando el
evaluador cree que la media no es, de alguna manera, representativa del nivel
de habilidad de todo el grupo (capítulo 4).

276
Glosario

M oda (Mode)
La m oda es la nota obtenida por el mayor número de estudiantes (capítulo 4).

M odelo de d os parám etros (Two-parameter model)


Véase Teoría de respuesta al ítem.

M odelo de tres p arám etros (Three-parameter model)


Véase Teoría de respuesta al ítem.

M odelo de un p arám etro (One parameter model)


Véase Teoría de respuesta al ítem.

Plan tilla de corrección (Mark scheme)


Una plantilla de corrección es parecida a una clave, puesto que contiene un
grupo de respuestas aceptables para una prueba de corrección objetiva. Sin
em bargo, al contrario que una clave, puede haber más de una respuesta
correcta para cada ítem (capítulo 5).

Ponderación (Weighting)
Los redactores de pruebas a m enudo creen que hay ítems más importantes
que otros y que tales ítems deberían tener más peso. Dar valor añadido a algu­
nos ítems se conoce como ponderación (capítulo 7).

Prueba t (T-test)
La prueba t se lleva a cabo para averiguar si la diferencia entre dos medias es
signiñcativa (capítulo 6).

Pruebas de aprovech am iento (Achievement tests)


Las pruebas de aprovechamiento son parecidas a las pruebas de progreso, pero
se administran al final del curso. El contenido de las pruebas de aprovecha­
miento y de las de progreso se basa generalmente en el program a del curso
o en el libro de texto (capítulo 2).

Pruebas de clasificación (Placement tests)


Las pruebas de clasificación están pensadas para evaluar los niveles de habili­
dad lingüística de los estudiantes con el fin de colocarlos en el curso o clase
apropiada (capítulo 2).

Pruebas de co rrección ob jetiva (Objective testing)


Estas pruebas hacen referencia a ítem s del tipo de respuesta múltiple, ver­
dadero—falso y reconocimiento del error, entre otras, en las que el candidato
debe producir una respuesta que se ha de puntear como «correcta» o «inco­
rrecta». En la corrección objetiva, el exam inador com para la respuesta del
candidato con la respuesta o conjunto de respuestas que el redactor del ítem
ha determinado com o correctas (capítulo 5). (Véase Pruebas de corrección
subjetiva.)

277
Exámenes de idiomas. Elaboración y evaluación
Pruebas de corrección subjetiva (Subjective testing)
Estas pruebas hacen referencia a los ítems o tareas en las que los examinadores
no pueden aplicar juicios del tipo «correcto» o «incorrecto». Deben evaluar la
calidad de la respuesta de un candidato a una tarea, y para ello deben utilizar una
«escala de valoración» (capítulo 5). (Véase Pruebas de corrección objetiva.)

Pruebas d e d iagn óstico (Diagnostic tests)


Las pruebas de diagnóstico pretenden descubrir aquellas áreas en las que un
estudiante necesita ayuda suplementaria. Pueden ser relativamente generales
y mostrar, por ejemplo, si un estudiante necesita ayuda en una de las dos prin­
cipales destrezas lingüísticas, o más específicas, identificando los puntos débi­
les en el uso de la gramática por parte de un estudiante.

Pruebas de d om in io (Proficiency tests)


Las pruebas de dom inio no están basadas en un programa en particular. Están
pensadas para evaluar la habilidad lingüística de estudiantes que tienen dis­
tinto bagaje educativo. Algunas pruebas de dominio, como muchas de las ela­
boradas por los tribunales de exámenes del Reino Unido, pretenden m ostrar
si los estudiantes han alcanzado un nivel dado de habilidad lingüística gene­
ral. Otras están pensadas para mostrar si los estudiantes tienen las habilidades
suficientes com o para utilizar una lengua en un área específica, com o puede
ser la medicina, el turismo o los estudios académicos (capítulo 2).

Pruebas de p rogreso (Progress tests)


Las pruebas de progreso se administran en diversos estadios a lo largo de un
curso de lengua para ver lo que los alumnos han aprendido (capítulo 2).

Pruebas equivalen tes (Equivalent tests)


Las pruebas equivalentes están basadas en las m ism as especificaciones pero
pueden variar en cuanto a número de ítems, tipo de respuestas y contenido.
Los tribunales de exámenes a m enudo tienen una gama de tipos de pruebas
que pueden utilizarse en un examen, y a menudo no esperan ni quieren usar­
las todas cada vez. Lo importante con respecto a las pruebas equivalentes es
que cada una m ida las m ism as destrezas lingüísticas y que se correlacionen
entre sí lo m ás posible (capítulo 4). (Véase Pruebas paralelas.)

Pruebas p aralelas (Parallel tests)


Las pruebas paralelas están elaboradas para que resulten tan similares entre sí como
sea posible. Deberían, pues, incluir las mismas instrucciones, tipos de respuesta
y número de ítems, y deberían estar basadas en el mismo contenido. También
deberían, si se probaran con los mismos estudiantes, producir las mismas medias
y las mismas desviaciones típicas (capítulo 4). (Véase Pruebas equivalentes.)

Pruebas p ilo to (Pilot testing)


Véase Ensayos previos.

278
Glosario
Rango (Range)
El rango es la diferencia entre las notas más altas y las más bajas de una prueba
(capítulo 4).

R eferencia a la n o rm a (Norm-referenced)
Si una prueba se considera con referencia a la norma pretende ordenar a los
alum nos en algún tipo de escala, para poderlos com parar unos con otros
(capítulo 4 ). (Véase Referencia a un criterio.)

R eferencia a u n criterio (Criterion-referenced)


Si una prueba se dice que evalúa con referencia a un criterio, los estudiantes
no se comparan los unos con los otros, sino con un nivel de conocimientos,
o con un conjunto de criterios fijados por descriptores (capítulo 4). (Véase
Referencia a la norm a).

T eoría de la generalizabilidad(Generalisability theory)


La teoría de la generalizabilidad se basa en el análisis de la varianza y puede esti­
mar la fiabilidad de un grupo completo de correctores de una vez (capítulo 6).

T eoría de resp uesta al ítem (Item Response Theory)


La teoría de respuesta al ítem es un sistema de m edición que tiene en cuenta
tanto al candidato com o las características del ítem. Está basada en la teoría
de la probabilidad y muestra la probabilidad de que una persona acierte un
ítem en particular. Las notas de los candidatos y los totales de cada ítem se
transforman en una escala para que puedan relacionarse entre sí. La relación
entre la actuación de los candidatos en el ítem y las habilidades que subyacen
en la actuación del ítem se describen en una curva de las características del
ítem. Hay tres m odelos principales de la teoría de respuesta al ítem; el modelo
con un parámetro (Rasch) que sólo tiene en cuenta la habilidad de un candi­
dato y la dificultad del ítem; el modelo de dos parámetros, que también tiene
en cuenta la discrim inación del ítem; y el m odelo de tres parám etros, que
además tiene en cuenta la posibilidad de acertar por azar (capítulo 4).

T ran sform ación (Transformation)


La transformación tiene lugar cuando los responsables de la prueba quieren
dar el m ism o peso a las partes de una prueba que tienen distinta duración. La
forma más habitual de hacer una transformación es convirtiendo las notas de
las distintas partes en porcentajes, dividiendo cada nota de cada parte por el
número de ítems y multiplicando por 100. Hay formas de transformación de
notas m ás complejas (notas tipificadas, notas z, etc.) (capítulo 7).

V alidez (Validity)
La validez define hasta qué punto una prueba m ide lo que se supone que
mide: se refiere al uso o usos que se darán a las calificaciones de una prueba
y a las formas en las que pueden interpretarse estas calificaciones, por lo que
siempre está relacionada con el propósito de la prueba. Aunque el único capí­

279
Exámenes de idiomas. Elaboración y evaluación
tulo del libro que hace referencia a la validez en su título es el número 8, el
concepto de validez es central en todos los capítulos, desde el dedicado a las
especificaciones hasta el que trata de los criterios.

V alidez aparen te (Face validity)


La validez aparente se refiere a la «credibilidad aparente o aceptación pública»
de la prueba (Ingram, 1977:18), y es frecuentemente rechazada por los evalua­
dores como poco científica e irrelevante. En esencia, la validez aparente implica
un juicio intuitivo sobre el contenido de la prueba expresado por personas cuya
opinión no es necesariamente «experta». Normalmente, tales personas son «n o
profesionales»: administradores, usuarios no expertos y estudiantes (capítulo 8).

Validez con currente (Concurrent validity)


La validez concurrente im plica la comparación de los resultados de la prueba
con otra m edida de los m ism os candidatos recogida aproxim adam ente al
m ism o tiem po de la prueba. Esta otra m edida pueden ser los resultados de
una versión paralela de la m ism a prueba o de otra prueba, o de la autoeva-
luación de los candidatos sobre sus habilidades lingüísticas, o las puntuacio­
nes dadas por los profesores, los especialistas en la m ateria u otros
inform adores. Esta m edida debe estar expresada num éricam ente (com o
sucede, por ejemplo, con las escalas de puntuación), y no debe estar relacio­
nada con la prueba en sí (capítulo 8).

Validez d e con stru cto (Construct validity)


Un constructo es un com ponente clave en una teoría. Toda teoría contiene
un núm ero de constructos e intenta definir la relación entre los m ism os. Por
ejemplo, algunas teorías de comprensión de lectura afirman que hay muchos
constructos distintos dentro de la com prensión de lectura (lectura globahza-
dora, lectura selectiva, etc.) y que los constructos son distintos entre sí. Para
m edir la validez del constructo de una prueba un evaluador debe articular la
teoría que subyace a su prueba y comparar los resultados con esta teoría. La
validación del constructo im plica evaluar lo bien que una prueba m ide los
constructos en los que está basada (capítulo 2).

Lo que Bachman, 1990, llama el «enfoque clásico en el diseño de estudios de corre­


lación para la validación del constructo» es la matriz multimétodo-multirrasgo (mul-
titrait-multimethod matrix) descrita por Campbell y Fiske, 1959. En esencia consiste en
una combinación de procedimientos de validación internos y extemos. La teoría es
que las pmebas que están relacionadas entre sí mostrarán correlaciones entre sí más
altas (validez convergente) que las pruebas que no están relacionada (validez diver­
gente). Los estudiantes responden a la pmeba experimental al mismo tiempo que
a las otras pruebas, algunas de cuyas propiedades ya se conocen (como es el caso en
la validez concurrente). Wood, 1991, da una explicación muy clara de este método
de análisis y pueden verse variantes de este procedimiento en los estudios multi­
método-multirrasgo realizados por Bachman y Palmer, 1981 y 1982 (capítulo 8).

280
Glosario

Validez de contenido (Content validity)


La validación del contenido (o racional) depende de un análisis sistemático
del contenido de la prueba para ver si la prueba contiene una muestra repre­
sentativa de las destrezas lingüísticas relevantes. La validación del contenido
im plica la recogida de opiniones de «expertos»: personas en cuya opinión se
está dispuesto a confiar, aunque discrepe con la propia (capítulo 8).

V alidez d e resp uesta (Response validity)


La validación de la respuesta (Henning, 1987: 96) se refiere a la creciente
gama de técnicas cualitativas mediante las cuales se pide a los candidatos infor­
m ación sobre cóm o responden a los ítems de una prueba (capítulo 8).

V alidez e m p írica (Empirical validity)


La validación empírica depende de la evidencia empírica y estadística sobre si
los resultados de los estudiantes en la prueba son similares a otros resultados en
otras m edidas apropiadas de su habilidad, tales com o sus resultados en otras
pruebas, sus autoevaluaciones o las valoraciones de sus profesores sobre sus
habilidades. Hay dos tipos de validez empírica: la validez concurrente y la vali­
dez predicüva (capítulo 8). (Véase Validez concurrente y Validez predictiva).

V alidez extern a (External validity)


La validez externa hace referencia a los estudios que comparan los resultados
de los estudiantes en una prueba con la habilidad que se ha podido compro­
bar desde fuera. La validez externa a m enudo se llam a validez de criterio
(véase American Psychological Association, 1985) porque las notas de los estudian­
tes se com paran con otras m edidas de su habilidad referentes a un criterio.
Hay dos tipos de validez externa: la validez concurrente y la validez predic­
tiva (capítulo 8). (Véase Validez concurrente y Validez predictiva)

Validez in tern a (Internal validity)


La validez inteima se refiere a los estudios sobre el contenido que se ha obser­
vado en una prueba y el efecto comprobado de la misma. Hay varios tipos de
validez interna : la validez aparente, la validez de contenido, la validez de
constructo y la validez de respuesta (capítulo 8). (Véase Validez aparente,
Validez de contenido, Validez de constructo y Validez de respuesta.)

Validez pred ictiva (Predictive validity)


La validez predictiva supone la comparación de las notas de una prueba con
otra m edida sobre los m ism os candidatos, tom ada un tiempo después de la
administración de la prueba. La validación predictiva es m uy com ún en las
pruebas de dom inio: se pretende que las pruebas puedan la calidad de la
actuación de un candidato en el futuro (capítulo 8).

Validez racion al (Rational validity)


Véase Validez de contenido.

281
Abreviaturas y acronimos

ABEEB Association o f British ESOL Examining Boards


AEB Associated Examining Board
AERA American Educational Research Association
AET ARELS Examination Trust
ALTE Association o f Languages Testers in Europe
APA American Psychological Association
ARELS Association o f Recognised English Language Schools
C&C City and Guilds o f London Institute
CAE Certificate in Advanced English (UCLES)
CCSE Certificates in Communicative Skills in English (UCLES)
CEELT Cam bridge Examination in English for Language Teachers
(UCLES)
CEIBT Certificate in English for International Business and Trade (UCLES)
CENTRA North West Regional Examinations Board
CPE Certificate o f Proficiency in English (UCLES)
CS Com munication Skills (C&G)
CTE Communication in Technical English (Overseas) (C&G)
CUEFL Examination in the Communicative Use o f English as a Foreign
Language
DES Diplom a o f English Studies (UCLES)
EAL English as an Acquired Language (ESB)
EAP English for Academic Purposes
EfB English for Business (LCCI)
EfC English for Commerce (LCCI)
EFL English as a Foreign Language
ELTS English Language Testing Service (The British Council)
ESB English Speaking Board
ESL English as a Second Language
ESOL English for Speakers o f Other Languages (PEI)
ESP English for Specific Purposes
ESU English Speaking Union
ETS Educational Testing Service
FCE First Certificate in English (UCLES)
GCSE General Certificate o f Secondary Education
IELTS International English Language Testing System (UCLES)
IGCSE International General Certificate o f Secondary Education

282
Abreviaturas y acrânimos

ILTA International Language Testing Association


JCTP Joint Committee on Testing Practices
JMB Joint Matriculation Board
LCCI London Chamber o f Commerce and Industry Examination Board
NCME National Council o f Measurement in Education
OHE Oxford Higher Exam (OUDLES)
OPE Oxford Preliminary Exam (OUDLES)
Oxford University o f O xford Delegacy o f Local Examinations
PEI Pitman Examinations Institute
PET Preliminary English Test (UCLES)
RSA Royal Society o f Arts
SCAA Schools Curriculum and Assessment Authority
SEAC Schools Examination and Assessment Council
SEflC Spoken English for Industry and Commerce (LCCI)
TEEP Test o f English for Educational Purposes (AEB)
TELS Tests in English Language Skills (CENTRA)
TESOL Teaching English to Speakers o f Other Languages
TOEFL Test o f English as a Foreign Language (ETS)
Trinity Trinity College London
TSE Test o f Spoken English (ETS)
TWE Test o f Written English (ETS)
UCLES University o f Cambridge Local Examination Syndicate
UETESOL University Entrance Test in English for Speakers o f Other
Languages (JMB)
ULSEB University o f London Schools Examination Board

283
Bibliografía

A lderson, J. C. ( 1 9 7 8 ). A Study of the Cloze Procedure with Native and Non-Native Speakers of
English. Tesis doctoral in édita, U n iversid ad de E dim bu rgo .
A lderson, J. C. ( 1 9 7 9 ). «T h e C loze P rocedure an d P roficien cy in E nglish as a F o reig n
L a n g u a g e .» TESOL Quarterly, 13 (2 ), p ig s . 2 1 9 —2 2 7 . R eim p reso en J. W . Oiler
(e d .), ( 1 9 8 3 ) . Issues in Language Testing Research. N e w b u ry H o u se, R ow ley, M ass.
A lderson, J. C. ( 1 9 8 0 ). «N a tiv e an d N on -n ative Speaker P erform ance o n C loze Test »
Language Learning, 13 (1 ), p ig s . 5 9 - 7 6 .
A lderson, J. C. (1 9 8 6 a ). En Leach y C an dlin (e d s.), Computers in English Language Education
and Research. L o n gm an , L ondres.
A lderson, J. C. (1 9 8 6 b ). «In n o v atio n s in L an gu age T e stin g ?» En M. Portal (e d .),
Innovations in Language Testing, p i g s . 9 3 - 1 0 5 . N FER -N elson, W in dsor, Berks.
A lderson, J. C. (1 9 8 8 a ). «In n o v atio n s in L an gu age T estin g: Can the M icro com p u ter
H e lp ?» N ú m e ro especial d e Language Testing Update.
A lderson, J. C. (1 9 8 8 b ). « N e w P rocedures fo r V alidating Proficiency Tests o f ESP?
T h eory an d P ractice.» Language Testing, 5 (2 ), p ig s . 2 2 0 —2 3 2 .
A lderson, J . C. ( 1 9 9 0 ). «T e stin g R ead in g C o m p reh en sio n Skills (Part T w o ): G ettin g
Students to Talk ab o u t T akin g a R e ad in g T est (A Pilot S tu d y ).» Reading in a Foreign
Language, 7 (1 ), p ig s . 4 6 5 - 5 0 2 .
A lderson, J. C. (1 9 9 1 ). «D is-sp o rtin g L ife .» En A ld erson J. C. y B. N orth, (e d s.),
Language Testing in the 1990s. M acm illan, Londres.
A lderson, J. C. (1 9 9 3 ). «Ju d g e m e n ts in L an gu age T e stin g .» En D. D ou glas, y C.
Chapelle, A New Decade of Language Testing. TESOL, A lexandria, V irginia.
A lderson, J. C. y G. Buck (1 9 9 3 ). «Stan d ard s in T estin g: A Survey o f the Practice o f
U K E xam in ation B o ard s in EFL T e stin g .» Language Testing, 10 (2 ), p ig s . 1—26.
A lderson, J . C. y C. M . C lapham (1 9 9 2 a ). «A p p lie d Linguistics an d L an gu age Testin g:
a Case Study o f the ELTS T e st.» Applied Linguistics, 13, p ig s . 149—167.
A lderson, J. C. an d C. M. C lapham (1 9 9 2 b ). Examining the ESTS Test: An Account of the First
Stage of the ELTS Revision Project. IELTS Research R eport 2. T h e British Council,
U n iversity o f C am b rid ge Local E xam in ation Syndicate an d International
D evelopm en t P rogram o f A ustralian U n iversities an d C olleges, C am bridge.
A lderson, J. C , K. K fah n ke y C. Stan sfield (e d s.), (1 9 8 7 ). Reviews of English Language
Proficiency Tests. TESOL, W ash in gton , DC.
A lderson, J. C. y Y. L ukm an i ( 1 9 8 9 ). «C o g n itio n an d Levels o f C o m p reh en sio n as
E m b o d ied in Test Q u e stio n s.» Reading in a Foreign Language, 5 (2 ), p ig s . 2 5 3 —2 7 0 .
A lderson, J . C. y B. N orth (e d s.), ( 1 9 9 1 ). Language Testing in the 1990s. M acm illan,
Londres.
A lderson, J. C. y D. W all ( 1 9 9 3 ). «D o e s W ashback E x ist?» Applied Linguistics, 14, p ágs.
1 1 5 -129.
A lderson, J. C , D. W all y C. M. C lapham ( 1 9 8 6 ). An Evaluation of the National Certificate in
English. Centre for R esearch in L an gu age E ducation, U n iversid ad d e Lancaster.

284
Bibliografía

Alderson, J. C. y S. W. Windeatt (1991). «Computers and Innovation in Language


Testing.» En J. C. Alderson y B. North (eds.). Language Testing in the 1990s: The
Communicative Legacy. Macmillan, Nueva York.
Allan, A. (1992). «Development and Validation of a Scale to Measure Test-Wiseness
in EFL/ESL Reading Test Takers.» Language Testing, 9, pigs. 101-123.
American Education Research Association, American Psychological Association, y
National Council on Measurement in Education (1985). Standard for Educational and
Psychological Testing. American Psychological Association, Inc., Washington, DC.
Anastasi, A. (1988). Psychological Testing. Macmillan, Londres.
Angoff, W. y A. J. Sharon (1971). «A comparison of scores earned on the Test of
English as a Foreign Language by native American college students and foreign
applicants.» TESOL Quarterly, 5, pig. 129.
Association of Language Testers in Europe (1994). The ALTE Code of Practice. ALTE,
Cambridge.
Bachman, L. F. (1990). Fundamental Considerations in Language Testing. Oxford University
Press, Oxford.
Bachman, L. F., A. Kunnan, S. Vanniariajan y B. Lynch (1988). «Task and Ability
Analysis as a Basis for Examining Content and Construct Comparability in Two EFL
Proficiency Test Batteries.» Language Testing, 5, pigs. 128—160.
Bachman, L. F. y A. S. Palmer (1981). «A Multitrait-Multimethod Investigation into
the Construct Validity of Six Tests of Listening and Reading.» En A. S. Palmer, P. J.
M. Groot y G. A. Trosper (eds.), The Construct Volidation of Tests of Communicative
Competence. TESOL, Washington, DC.
Bachman, L. F. y A. S. Palmer (1982). «The Construct Validation of Some Components
of Communicative Proficiency.» TESOL Quarterly, 16 (4), pigs. 449—465.
Buck, G. (1989). «Written Tests of Pronunciation: Do They Work?» English Language
Teaching Journal, 41, pigs. 50—56.
Buck, G. (1991). Expert estimates of test item characteristics. Contribución presentada en el
Language Testing Research Colloquium, Princeton, NJ.
Campbell, D. T. y D. W. Fiske (1959). «Convergent and Discriminant Validation by
the Multitrait-Multimethod Matrix.» Psychological Bulletin, 56, pigs. 81-105.
Carroll, B. J. (1980). Testing Communicative Performance. Pergamon, Londres.
Carroll, B. J. (1985). «Second Language Performance Testing of University and
Professional Contexts.» En P. C. Hauptman, R. LeBlanc y M. B. Wesche (eds.),
Second Language Performance Testing. University of Ottawa Press, Ottawa.
Carroll, B. J. y R. West (1989). ESU Framework: Performance Scales for English Language
Examinations. Longman, Londres.
Clapham, C. M. (1992). The Effect of Academic Discipline on Reading Test Performance.
Contribución presentada en el Language Testing Research Colloquium,
Princeton, NJ.
Clapham, C. M. y J. C. Alderson (en prensa). Constructing and Trialling the IELTS Test. IELTS
Research Report 3. The British Council, University of Cambridge Local
Examinations Syndicate and International Development Program of Australian
Universities and Colleges, Cambridge.
Cohen, A. D. (1984). «On Taking Tests: What the Students Report.» Language Testing, 1
(1), pigs. 70—81.
Cohen, A. (1994). Assessing Language Ability in the Classroom. 21 edición, Newbury
House/Heinle and Heinle, Rowley, Mass.

285
Exámenes de idiom as. Elaboración y evaluación

Criper, C. y A. Davies (1988). ELTS Validation Project Report, ELTS Research Report 1 (I).
The British Council y University of Cambridge Local Examination Syndicate,
Londres y Cambridge.
Crocker, L. y J. Algina (1986). Introduction to Classical and Modem Test Theory. Holt Rinehart
Winston, Chicago.
Davidson, F. y B. Lynch (1993). «Criterion-Referenced Language Test Development.
A Prolegomenon.» En A. Huhta, K. Sajavaara y S. Takala (eds.), Language Testing: New
Openings. Institute for Educational Research, Universidad de Jyvaskyla, Finlandia.
Davies, A. (1991). The Native Speaker in Applied Linguistics. Edinburgh University Press,
Edimburgo.
Diamond, E. E. y J. Fremer (1989). «The Joint Committee on Testing Practices and
the Code o f Fair Testing Practices in Education.» Educational Measurement: Issues and
Practice. Número de primavera.
Douglas, D. (ed.), (1990). English Language Testing in U. S. Colleges and Universities. NAFSA,
Washington, DC.
Ebel, R. L. (1979). Essentials of Educational Measurement. 3* edición, Prentice-Hall,
Englewood Cliffs, NJ.
Ebel, R. L. y D. A. Frisbie (1991). Essentials of Educational Measurement. 51 edición,
Prentice-Hall, Englewood Cliffs, NJ.
Faerch, C. y G. Kasper (1987). Introspection in Second Language Research. Multilingual
Matters, Clevedon.
Gronlund, N. E. (1985). Measurement and Evaluation in Teaching. Macmillan, Nueva York.
Grotjahn, R. (1986). «Test validation and cognitive psychology: some
methodological considerations.» Language Testing, 3 (2), pigs. 159—185.
Guilford, J. P. y B. Fruchter (1978). Fundamental Statistics in Psychology and Education.
McGraw-Hill, Tokio.
Hambleton, R. K., H. Swaminathan y H. J. Rogers (1991). Fundamentals of Item Response
Theory. Sage Publications, Newbury Park, Calif.
Hamilton, J., M. Lopes, T. McNamara y E. Sheridan (1993). «Rating Scales and
Native Speaker Performance on a Communicatively Oriented EAP Test.» Melbourne
Papers in Language Testing, 2, pigs. 1—24.
Heaton, J. B. (1988). Writing English Language Test. 2* edición, Longman, Londres.
Henning, G. (1987). A Guide to Language Testing. Newbury House, Cambridge, Mass.
Hudson, T. y B. Lynch. (1984). «A Criterion Referenced Measurement Approach to
ESL Achievement Testing.» Language Testing, 1, pigs. 171—202.
Hughes, A. (1988). «Achievement and Proficiency: The Missing lin k .» En A. Hughes
(ed.), Testing for University Study, ELT Documents 127. Modern English Publications,
Londres.
Hughes, A. (1989). Testing for Language Teachers. Cambridge University Press,
Cambridge.
Hutchinson, T. y A. Waters (1987). English for Specific Purposes: A Learner Centred Approach.
Cambridge University Press, Cambridge.
Hymes, D. H. (1972). «O n Communicative Competence.» En J. B. Pride y J. Holmes
(eds.), Sociolinguistics, págs. 269-293. Penguin, Harmondsworth.
Ingram, E. (1977). «Basic Concepts in Testing.» En J. P. B. Allen y A. Davies (eds.),
Testing and Experimental Methods. Oxford University Press, Oxford.
Joint Committee on Standards for Educational Evaluation (1981). Standards for
Evaluations of Educational Programs, Projects, and Materials. McGraw-Hill, Nueva York.

286
Bibliografía

Joint Committee on Testing Practices (1988). Code of Fair Testing Practices in Education.
American Psychological Association, Washington, DC.
Kerlinger, F. N. (1973). Foundations of Behavioral Research. Holt, Rinehart and Winston,
Nueva York.
Klein-Braley, C. (1981). Empirical Investigation of Cloze Test. Tesis doctoral, Universidad de
Duisburg.
Lado, R. (1961). Language Testing. McGraw-Hill, Nueva York.
Linacre, J. M. y B. D. Wright (1992). FACETS: Many-Facet Rasch Measurement. MESA Press,
Chicago.
Lord, F. M. (1980). Applications of Item Response Theory to Practical Testing Problems. Lawrence
Erlbaum, Hillsdale, NJ.
Lynch, B., F. Davidson y G. Henning (1988). «Person dimensionality in language
test validation.» Language Testing, S (2), pigs. 206—219.
Magnusson, D. (1966). Test Theory. Addison Wesley, Reading, Mass.
Mathews, J. C. (1985). Examinations: A Commentary. George Allen and Unwin, Londres.
Morrow, K. (1979). «Communicative Language Testing: Revolution or Evolution?»
En C. J. Brumfit y K. Johnson (eds.), The Communicative Approach to Language Teaching.
Oxford University Press, Oxford.
Morrow, K. (1986). «The Evaluation of Tests of Communicative Performance.» En
M. Portal (ed.), Innovations in Language Testing. NEER-Nelson, Windsor, Berks.
Munby, J. (1978). Communicative Syllabus Design. Cambridge University Press, Cambridge.
Nevo, D. y E. Shohamy (1986). «Evaluation Standards for the Assessment of
Alternative Testing Methods: an Application.» Studies in Educational Evaluation, 12,
págs. 149-158.
Oiler, J. (1979). Language Tests at School. Longman, Londres.
Peirce, B. N. (1992). «Demystifying the TOEFL Reading Test.» TESOL Quarterly, 26,
pigs. 665—689.
Pollitt, A. (1990). Standards. Notes prepared for a meeting to discus language testing standards.
University o f Cambridge Local Examinations Syndicate, Cambridge.
Popham, W. J. (1990). Modem Educational Measurement: A Practitioner’s Perspective. 21 edición,
Allyn and Bacon, Boston, Mass.
Robinson, P. (1980). ESP (English for Specific Purposes). Pergamon, Oxford.
Schools Examination and Assessment Council (1993). Mandatory Code of Practice for the
GCSE. SEAC, Londres.
Stevenson, D. K. (1985). «Authenticity, Validity and a Tea Party.» Language Testing, 2
(1), pigs. 41-47.
Swain, M. (1993). «Second Language Testing and Second Language Acquisition: Is
There a Conflict with Traditional Psychometrics?» Language Testing, 10 (2), pigs.
193-207.
Swales, J. (1985). Episodes in ESP. Pergamon, Oxford.
Thorndike, R. L. y E. P. Hagen (1986). Measurement and Evaluation in Psychology and
Education. Macmillan, Nueva York.
Valette, R. M. (1977). Modern Language Testing. 21 edición, Harcourt Brace Jovanovich,
Nueva York.
Wall, D. y J. C. Alderson (1993). «Examining Washback.» Language Testing, 10 (1),
pigs. 41—69.
Wall, D., C. M. Clapham y J. C. Alderson (1994). «Evaluating a Placement Test.»
Language Testing, 11 (3), pigs. 321—343.

287
Exámenes de idiom as. Elaboración y evaluación

Weir, C. J. (1983). «Identifying the Language Problems o f Overseas Students in


Tertiary Education in the United Kingdom.» Tesis doctoral. Universidad de
Londres.
Weir, C. J. (1988). Communicative Language Testing. Universidad de Exeter.
Weir, C. J. (1990). Communicative Language Testing. Prentice-Hall Regent, Englewood
Cliffs, NJ.
Wood, R. (1991). Assessment and Testing: A survey of Research. Cambridge University Press,
Cambridge.
Wright, B. D. y G. N. Masters (1982). Rating Scale Analysis: Rasch Measurement. Mesa Press,
Chicago.
Wright, B. D. y M. H. Stone (1979). Best Test Design: Rasch Measurement. Mesa Press,
Chicago.

288
Indice

Los núm eros en c u r s iv a remiten a las definiciones dadas en el Glosario.

"a simple vista", 130 Cámara de Comercio e Industria de


ABEEB, 11 Londres, 30, 35, 36, 99, 123,
actividades de vacío de información, 64 138-139, 142, 160, 161, 183-185
administradores, formación de, Campbell, D., 179, 214
115-117 Carroll, B„ 11, 167
Alderson, J. C , 10, 11, 27, 48, 57, 74, City and Guilds o f London Institute (C &
97, 169, 170, 171, 178, 212, 245, G), 70, 100
217-218 Clapham, C„ 27, 169, 176
Algina, J„ 77, 78, 85. 89, 92, 97, 131 cloze, 47, 57—58
Alian, A., 47 coeficiente de dificultad, 81—82, 272
American Educational Research Cohén, A., 9, 171
Association (AERA), 227—231 comentarios posteriores, 193
American Psychological Association, comités de redacción, 64-66
166 completar huecos, pruebas de, 56—57
análisis de ítems, 81-87 comprensión oral, 116
coeficiente de dificultad (CD), Consejo de Europa, 32
8 1 - 82, 272 constructos, 21
índice de discriminación (ID), corrección,
8 2 - 87, 276 centralizada, 128
análisis de necesidades, 17, 26, 38 "a simple vista” , 130
análisis de varianza, 271 doble corrección, 131
análisis factorial, 180, 271 ejercicios de fiabilidad, 129—131
análisis multimétodo-multirrasgo, 179 muestreo, 128-129
Anastasi, A., 86, 89, 96 prueba t, 131, 277
Angoff, W „ 97 puntuación a ciegas, 129
"asimetría negativa” , 93, 271 segundos correctores, 131
"asimetría positiva” , 93, 271 clave, 106-107, 272
Associated Examining Board (AEB), 23, descriptores, 107, 273
38, 99, 101, 121-122, 138-141, ejercicios,
184 consensuados, 111
Association of Recognised English problemáticos, 111
Language Schools (ARELS), 32, 34 en el domicilio, 132
en los centros de administración de
Bachman, L„ 18, 21, 23, 166, 167, 169, pruebas, 133
180, 214, 216 escala analítica, 108
bancos de ítems, 92, 271 escala de valoración, 107, 274
BIGSTEPS, 91. 269 redacción, 110—111
BHOG, 92, 270 escala holística o global, 107-108,
Buck, G.. 11, 48, 74, 181 274

289
Exámenes de id io m as. E laboración y evaluación

escala por impresión general, 108, ejercicios consensuados, 111


274 ejercicios, 44
escalonamiento, 274 English for Academic Purposes, 27
objetiva, 106 English for Business Purposes, 35
plantillas de corrección, 106—107, English for Specific Purposes, 27
277 English Speaking Board, 31, 34. 35,
sesión de unificación de criterios, 112 121
subjetiva, 107 English Speaking Union, 1 1 ,3 2
supervisión, 138—142 ensayos previos, 74—104, 273-274
correlación, 78-81 análisis de las pruebas, 78—96
coeficiente de, 272 fase general de ensayo, 76
coeficiente de Pearson, 81, 272 pruebas piloto “menos formales” , 75
correlación biserial, 85 razones para, 74
correlación biserial puntual, 85 uso de versiones paralelas y
correlación por orden de escala, 85, equivalentes, 96
272 utilización de hablantes nativos, 97
correlaciones internas, 177—179 entrevistas orales, 63
Criper, C„ 27, 176 escala analítica, 108, 109, 274
criterios, 18, 225, 247 escala de logit, 90
condicional, 230 escala de valoración, 107, 110-111, 274
criterios primarios, 229 escala holística o global, 107—108, 274
criterios secundarios, 229 escala por impresión general, 108, 274
definido, 225 escalonamiento, 274
determinación de, 111, 273 especificaciones,
principios, 226 para los responsables de la
Crocker. L„ 77, 78, 85, 89, 92, 96, 131 elaboración de la prueba, 16—18
cuestionario, 253—258 para los responsables de la
curtosis, 272 validación de la prueba, 2 1 -2 4
para los usuarios de la prueba,
Davidson, F., 18, 213 24-25
Davies, A., 27. 97. 176 usuarios, 24—25
descripción de los contenidos, 14, 272 validación, 23-24
descriptores, 107, 273 especificaciones de una prueba, 14,
desviación típica, 95, 261, 273 16-28, 275
determinación de las puntuaciones para criterios, 18
aprobar, 151—155 destrezas lingüísticas, 18
Diamond, E., 231 ejercicios, 18
dictado, 59 elementos lingüísticos, 18
diferencia significativa, 273 estudiantes, 17
dispersión, 95 instrucciones. 18
doble corrección, 13 1 métodos, 18
Douglas, D., 11 para los usuarios, 24—25
propósito del examen, 16
Ebel, R., 146, 147, 154, 177 secciones o partes, 17
Educational Testing Service (ETS), 21, situación en la lengua meta, 18
219, 236 tareas, 18
efecto de rebote, 48 taxonomía, 18
efecto del método, 47 tipos de texto, 18

290
índice

estadística descriptiva, 92 Hudson, T., 78


“ asimetría negativa” , 93, 271 Hughes, A., 9, 28, 49
"asimetría positiva” , 93, 271 Hutchinson, T., 27
desviación típica (DT), 95, 273 Hymes, D„ 27, 216
diferencia significativa, 273
dispersión, 95 índice de discriminación (ID), 82-87,
media, 93, 276 259, 276
mediana, 94, 276 informes posteriores a la prueba,
moda, 93, 277 190-208
rango, 95, 279 análisis de los ejercicios de los
examinador, 105, 275 candidatos, 194
formación de. 110-115 para el resto del público, 198—199
expresión oral, 115-116 para la propia institución,
1 9 1 - 195
Faerch, C , 171 para los profesores, 195—198
fase general de ensayo, 76—78 resultado de las observaciones,
fiabilidad, 12, 88, 127, 180-182, 275 1 9 2 - 193
alfa de Cronbach, 101 resultados de los comentarios
consistencia interna, 88 posteriores, 193
de formas paralelas, 88, 275 inglés para fines académicos, 27
ejercicios, 129-131 inglés para fines específicos, 27
entre correctores, 128, 275 inglés para los negocios, 35
fiabilidad interna, 128, 134, Ingram, E., 152, 167
276 Instituto de Exámenes de Pitman. 31-32,
fiabilidad test-retest, 88, 275 200
Kuder Richardson 20 (KR20), interlocutor, 105
88-89, 103, 276 International English Language Testing
Kuder Richardson 21 (KR21), System (IELTS), 27
88-89, 103, 267-268, 276 ITEMAN (Microcat), 85. 101, 269
m étodo de las dos mitades, 88, ítems de corrección objetiva, 54, 277
275 ítems dicotómicos, 54
y validez, 180—182
Fiske, D„ 179, 214, Joint Committee on Testing Practices,
fórmula E l-3, 85, 259 231-234
Fremer, ]., 231 Joint Matriculation Board, 30, 36, 149,
Frisbie, D., 146, 154, 177 161
Fruchter, B., 81, 89, 131
Kasper, G, 171
Gronlund, N., 177 Kerlinger, F., 168, 179
Grotjahn, R., 171 Klein-Braley, C , 57
Guilford, J., 81, 89, 131 Krahnke, K., 10
Kuder Richardson 20 & 21 (KR20/21),
hablantes nativos, 97 88-89, 103, 276
Hagen. E., 166 Kunnan, A., 168
Hambleton, ]., 92
Hamilton, 97 Lado, R., 48
Heaton, B„ 9, 49, 52, 255 Lancaster Language Testing Research
Henning, G„ 76, 92, 165, 168, 213 Group, 11, 74

291
Exámenes de idiom as. Elaboración y evaluación

Linacre, J., 214 programas de ordenador


London Chamber o f Commerce and BIGSTEPS, 91. 269
Industry, 30, 35, 36, 99, 123, B1LOG, 92. 270
138-139, 142, 160, 161, ITEMAN (Microcat), 85. 101, 269
183-185 QUEST, 91, 270
Lopes, M., 97 SAS, 85, 131, 269
Lord, F„ 92 SPSS, 85, 131, 269
Lukmani, 169 pruebas
Lynch, B„ 18, 78, 168, 213 análisis de necesidades, 17, 26, 38
comentarios de los usuarios de la
Magnusson, D., 97 prueba, 212
Masters, G., 92 de comprensión oral, 116-117
Mathews, J., 106 de expresión oral, 115
McNamara, T., 97 de repaso, 213-215
media, 93, 260, 276 desarrollo y mejora, 209—224
mediana, 94, 260, 276 estado de la cuestión en EFL,
tendencia central, 94 243-246
moda, 93, 260, 277 exámenes versus ejercicios, 44
modelo de dos parámetros (Rasch), 91 redactar ítems, 43
modelo de tres parámetros (Rasch), 91 respuesta múltiple, 48, 50-53
modelo de un parámetro (Rasch), 91 supervisión, 209—213
Morrow, K., 167 textos apropiados, 46
muestreo, 131 pruebas, tipos de, 16—17
muestra truncada, 175-176 pruebas de aprovechamiento, 17,
Munby, J., 23, 26 277
pruebas de corrección, 56
National Curriculum (UK), 240 pruebas de corrección objetiva,
Nevo, D„ 162, 237-239 49 -61, 106
niveles de dificultad, 31—32 pruebas de corrección subjetiva,
61-64, 87, 107, 278
Oiler, J., 9, 24, 48, 58 pruebas de diagnóstico, 278
ordenadores, usos de los, 215 pruebas de dominio, 17, 278
Oxford, University of, Delegacy o f Local pruebas de nivel, 16, 277
Examinations (OUDLES), 37, pruebas de progreso, 17, 278
2 0 0-204 pruebas equivalentes, 96, 278
Oxford-ARELS, 32, 35. 123, 141, pruebas para fines específicos, 17
158 pruebas paralelas, 96-97
pruebas piloto, 75, 278 .
Palmer, A., 180, 214 pruebas tipo C, 47, 58
Pearson, correlación de, 81, 272 pruebas-t, 131, 277
Peirce, B., 50 puntuación/porcentaje de aprobados,
plantillas de corrección, 106, 277 151-155, 159-161
Pollitt, A., 225
ponderación de items, 146—147, 158, QUEST, 91, 270
277
Popham, W „ 155 rango, 92, 261, 279
preguntas de respuesta breve, 60 redacción de ítems, 43
Preliminary English Test (PET), 34 actividades de relacionar, 54

292
índice

actividades de vacío de Schools Examination and Assessment


información, 64 Council (SEAC), 11, 240
cloze, 57 segunda corrección, 129
completar huecos, 56 sesión de unificación de criterios,
dictado, 59 112-113
entrevistas orales, 63 Sharon, A.. 97
ítems dicotómicos, 54 Sheridan, E., 97
preguntas de respuesta breve, 60 Shohamy, E., 162, 237—239
problemas con algunos tipos (de SPSS, 85, 131, 269
pruebas), 49 Stansfield, C , 10
pruebas de corrección, 56 Stevenson, D., 167
pruebas objetivas, 106, 277 Stone, M., 92
pruebas subjetivas, 107, 278 supervisión, 138—142, 209—213
pruebas/tests tipo C, 58 Swales, J .p 27
redacciones y trabajos, 61 Swaminathan, H., 92
respuesta múltiple, 50
resúmenes, 62—63 tareas de ordenamiento, 55
tareas de ordenamiento, 55 tendencia central, 94
tipos, 47 teoría de la generalizabilidad, 131, 279
tipos de pruebas objetivas, 54 teoría de respuesta al ítem (TRI), 90—92,
tipos de pruebas subjetivas, 61 279
trabajos, 61 BIGSTEPS, 91, 269
transferencia de información, 54 BILOG, 92, 270
redacciones y trabajos, 61-62 curva característica del ítem, 90,
referencia a un criterio, 77, 153, 279 272
referencia a una norma, 77, 152, 279 escala de logit, 90
relacionar, ítems de, 54 modelo de dos parámetros, 91
respuesta múltiple, 48, 50 modelo de tres parámetros, 91
resultados, 145 modelo de un parámetro, 91
combinar, 150 QUEST, 91, 270
corrección, 145 Thorndike, R., 166
determinación para puntuaciones, transferencia de información, 54
151-155, 159-160, 161 transformación de la nota, 147-148,
informe/informar, 149, 159—160, 279
276 Trinity College, 30—34, 160
suma final, 148
transformación, 147—148, 279 University o f Cambridge Local
utilización de puntuaciones Examinations Syndicate (UCLES), 11,
parciales para tomar decisiones, 21, 28, 32, 33, 37-39, 66-68, 98,
131 100-102, 122-123, 138, 141,
resúmenes, 62—63 148—49, 156-158, 183, 184, 219,
Robinson, P., 27 222
Rogers, H., 92
Royal Society o f Arts (RSA), 23 validación convergente-divergente,
179-180
SAS, 85, 131, 269 validez, 12, 165, 180-182, 279
Schools Curriculum and Assessment análisis multimétodo-multirrasgo,
Authority (SCAA), 240 179

293
Exámenes de idiom as. Elaboración y evaluación

comparación con la teoría, 177


comparación con los datos de los
alumnos, 179
correlaciones internas, 177—179
criterio, 166
y fiabilidad, 1 2 ,1 8 0 —182
validez, tipos de, 165—166
validez aparente, 167, 280
validez concurrente, 172—174, 280
validez de constructo, 21,
177-179, 280
validez de contenido, 168—170,
281
validez de criterio, 166
validez de respuesta, 171, 281
validez empírica, 166, 281
validez externa, 166, 172—177,
2 81
validez interna, 166—172, 281

294
validez predictiva, 172, 175—177,
281
validez racional, 166, 281
Vallette, R., 49
Vanniariajan, S., 168
varianza, 262
video,
para la formación de los
examinadores, 123
usados en las pruebas, 215

Wall, D „ 48, 176, 212


Waters, A., 27
Waystage, nivel (de dificultad), 31
Weir, C , 9, 38, 49, 99, 101, 184
West, R., 11
Windeatt, S., 215
Wood, R., 179, 182, 186
Wright, B., 92, 214
>
Cl .
X

- i
3
Exámenes de idiomas Q
&

j. C harles A ld e rso n /C a ro lin e C la p h a m /D ia n n e W all

à
T radu cción de. N e u s F i g u e r a s or
D ire cto r d e ¡a ..e le c c ió n : A lv a r o G a rc ía S a n t a C e c ilia

Esta obra describe de forma clara y concisa los principios básicos de la


elaboración y evaluación de exámenes y pruebas de idiomas. Cada capítulo trata
un aspecto del proceso de desarrollo de los exámenes y aporta definiciones
sencillas de los conceptos clave en evaluación, así como las indicaciones
pertinentes para la aplicación de las técnicas y los procedimientos de análisis
que son básicos en este campo.

Aspectos como la redacción de los ítems, los criterios de evaluación, la valide? E


y fiabilidad de las pruebas, las escalas de valoración y los informes de n
resultados, entre otros, se presentan al lector convenientemente ilustrados con 3
te
ejemplos y referencias tomadas de la práctica profesional. Cada capítulo incluye i*
una bibliografía específica del asunto que trata, una serie de pautas para el te
a.
debate de los aspectos más importantes y un breve sumario de las ideas clave.
o
Cada capítulo presenta también un análisis comparado de la práctica de 3
O)
distintos tribunales y centros examinadores, lo que permite contrastar u
los principios con la práctica de la elaboración y evaluación de exámenes
de idiomas.

El glosario de términos incluido al final del libro facilita la consulta de los


conceptos principales que se desarrollan en los distintos capítulos.

Colección Cambridge de didáctica de lenguas


Con la presente colección, Cambridge University Press pretende poner al alcaffce
del lector en lengua española algunos de sus títulos más importantes en el campo
de la didáctica de lenguas.

Ilustración de Albert Rocarols

C a m b r id g e
U N IV I K S m l ’ Kf- -s
IS B N 84-8323-030-5

ft\ ___
**

Anda mungkin juga menyukai