Examenes de Idiomas 67 IMPER PDF

C am bridge
Exámenes de Idiomas
Elaboración y evaluación
J. Charles Alderson
Caroline Clapham
Dianne Wall
Exámenes de idiomas
Elaboración y evaluación
J.Charles Alderson
Caroline Clapham
Dianne Wall
Traducción de Neus Figueras
CAMBRIDGE
U N IV E R S IT Y P R E SS
PUBLICADO POR THE PRESS SYNDICATE OF THE UNIVERSITY OF CAMBRIDGE
The Pitt Building, Trumpington Street, Cambridge, United Kingdom
CAMBRIDGE UNIVERSITY PRESS

The Edinburgh Building, Cambridge CB2 2RU, UK http://w w w .cup.cam.ac-11^
40 West 20th Street, New York, NY 10011-4211, USA http://w w w .cup.org
10 Stamford Road, Oakleigh, Melbourne 3166, Australia
Ruiz de Alarcon, 13, 28014 Madrid, España
Título original: Language Test Construction

and Evaluation (ISBN 0 521 47829 4)
publicado por Cambridge University Press, 1995
© Cambridge University Press, 1995
Edición española como Exámenes de idiomas,

elaboración y evaluación
Primera edición 1998
© Cambridge University Press, Madrid, 1998
© Traducción española, Neus Figueras, 1998
ISBN 84 8323 0305 rústica
Quedan rigurosamente prohibidas, sin la autorización escrita de los titulares del copyright, bajo las
sanciones establecidas en las leyes, la reproducción total o parcial de esta obra por cualquier medio o
procedimiento, comprendidos la reprografia y el tratamiento informático, y la distribución de ejemplares
de ella mediante alquiler o préstamo público.
Impreso en España por C +I, S.L.

Maquetado en QuarkXPress™ por Yeltes Soluciones Gráficas, S.L.
Depósito legal: M -41566-1998
Sumario
Capítulo 1 Génesis y prólogo ...................................................... 7
Capítulo 2 Especificaciones de examen ..................................14
Capítulo 3 La redacción de ítems

y la función moderadora ....................................... 43
Capítulo 4 Ensayos previos y análisis .....................................74
Capítulo 5 La formación de examinadores

y administradores ..................................................105
Capítulo 6 La supervisión de la fiabilidad

de los examinadores ............................................ 127
Capítulo 7 Informe de resultados y determinación

de la puntuación de aprobado .......................... 145
Capítulo 8 La validación ...........................................................165
Capítulo 9 Los informes posteriores a laprueba ................ 190
Capituló lo Desarrollo y mejora de los exámenes ............. 209
Capítulo 11 Criterios de la evaluación de lenguas:

el estado de la cuestión ......................................225
Apéndices ........................................................................................248
Glosario ....... 271
Abreviaturas y acrónimos .......................................................... 282
Bibliografía .....................................................................................284
índice ............................................................................................... 289
5
1 Génesis y prólogo
Este libro va dirigido a profesores de idiom as que tengan la responsabilidad

de elaborar pruebas de competencia lingüística y a profesionales que quizá no
estén directamente im plicados en la docencia pero que tengan que elaborar o
evaluar pruebas o exám enes de idiom as, o interpretar la inform ación resul
tante de tales pruebas. (Com o la distinción entre «p ru eb a» -test- y «exam en »
-examination—es tan vaga, en este libro utilizarem os am bos términos indistin
tamente.) Aunque nuestros ejemplos provengan en su m ayor parte del campo
del inglés com o lengua extranjera, los principios y la práctica que describi
m os pueden aplicarse a la evaluación de cualquier otro idiom a, y este libro es
sin duda relevante para profesores y evaluadores de cualquier lengua, ya sea
considerada com o segunda lengua o lengua extranjera, ya lo sea com o p ri
m era lengua.
Los profesores en activo deben elaborar a m enudo pruebas de nivel para los
alumnos nuevos, pruebas de final de trimestre o pruebas parciales de aprove
chamiento para los diferentes cursos de una institución, o quizá sean los res
ponsables de la elaboración de series de pruebas de aprovechamiento al final de
un período de estudio relativamente largo.
Entre los no docentes que deben saber cóm o preparar pruebas se cuentan las
personas que trabajan para tribunales de exámenes e instituciones oficiales, que
necesitan m edidas válidas y fiables para evaluar el aprovechamiento.
Entre otras personas que pueden tener que elaborar exámenes se incluyen
estudiantes graduados, investigadores y académicos de lingüística aplicada, que
necesitan exámenes com o parte de sus investigaciones. Los exámenes pueden
ser una forma de obtener los datos lingüísticos que son objeto de estudio o el
m edio para obtener información sobre la competencia lingüística con el fin de
poder comparar ésta con otra variable lingüística.
Pero adem ás de aquellos que necesitan elaborar pruebas, se encuentran los
que quieren entender cóm o funcionan éstas y cómo deberían elaborarse para
poder entender m ejor el proceso de evaluación, o para poder seleccionar entre
una colección de pruebas a su disposición el instrumento m ás adecuado a su
situación particular. Estas personas tienen a m enudo dificultades a la hora de
valorar las cualidades que las distintas fuentes de producción de exámenes atri
buyen a sus propios instrum entos. Al entender lo que constituye una buena
práctica en el terreno de la evaluación y conociendo las prácticas m ás corrien
tes, estos lectores tendrán suficiente información para decidir y escoger aque
llo que m ejor se adapte a sus objetivos.
7
Génesis y prólogo
En este libro describim os el proceso de elaboración de pruebas, desde el

borrador de las especificaciones iniciales hasta la publicación de resultados y la
elaboración de nuevas pruebas, incorporando novedades y comentarios sobre
los resultados de la convocatoria anterior. Este libro pretende describir e ilus
trar la buena práctica en el desarrollo de exámenes y los principios de diseño,
elaboración y administración que deben fundamentar esta buena práctica.
El libro se divide en once capítulos, cada uno de los cuales trata un estadio en
el proceso de elaboración de las pruebas. En el capítulo 2 se trata el conjunto de
especificaciones en las que se basará el examen. En el capítulo 3 se describe el
proceso de redacción de cada uno de los ítems que pasará a formar parte de la
prueba y el análisis, discusión y selección a que debe someterse toda prueba. En
el capítulo 4 se discute sobre la importancia de los ensayos previos a la primera
versión de la prueba y se describe cóm o deben analizarse las pruebas en esta
fase. En el capítulo 5 se trata la formación de los correctores y administradores
de la prueba, mientras que en el capítulo 6 se muestra cóm o supervisar la fia
bilidad de los examinadores. En el capítulo 7 se tratan aspectos relacionados con
la fijación de criterios de comportamiento y la publicación de resultados, mien
tras que en el capítulo 8 se describen aspectos del proceso de validación de las
pruebas. En el capítulo 9 se describe cóm o deben redactarse y presentarse los
informes sobre el funcionamiento de la prueba com o tal y en el capítulo 10 se
discute cóm o se pueden desarrollar y mejorar los exámenes a partir de la expe
riencia y de la investigación. En el capítulo final se discute la cuestión de los cri
terios en la evaluación de idiom as y se describe el estado actual de la cuestión.
Sin duda esta breve descripción de los contenidos del libro puede parecer
abrumadora: el proceso de elaboración de pruebas es bastante com plejo y exi
gente. Sin embargo, hem os intentado exponer nuestro trabajo de forma que sea
fácil de utilizar de diferentes maneras. Cada capítulo empieza con un breve enun
ciado de las cuestiones que se tratarán y concluye con un sumario de los aspec
tos principales que se han tratado, que pueden consultar profesores atareados,
m iembros de tribunales de exámenes, investigadores y evaluadores de pruebas.
Nuestras descripciones de los principios y procedimientos que constituyen la
evaluación de idiom as no presuponen ningún conocimiento previo sobre eva
luación o estadística. En realidad, nuestro objetivo es dar a los lectores los cono
cim ientos técnicos m ínim os necesarios para elaborar y analizar sus propias
pruebas o para evaluar pruebas elaboradas por otros. Sin em bargo, este no es
un libro de texto de psicom etría: existen libros de texto sobre este tema y se
anima al lector interesado en este aspecto de la evaluación a consultar los volú
menes citados al final de este capítulo. No obstante, debe tenerse en cuenta que
muchos libros de m edición en el campo de la educación no se limitan a la eva
luación de idiom as sino que con frecuencia presuponen un cierto grado de
conocimiento de matemáticas y una familiaridad con conceptos estadísticos que
sabemos, por experiencia, que la mayoría de las personas implicadas en la eva
luación de idiom as no posee. Esperamos, sin embargo, que una vez leído este
volumen, estas personas estén preparadas para leer m ás sobre el tema.
8
Génesis y prólogo
tJna de las cosas que no pretendemos en este libro es la descripción detallada

de técnicas de evaluación. Esto es así en parte porque ese tema está tratado
am pliam ente en otros libros, por ejem plo en Oller, 1979; Heaton, 1988;
Idugues, 1990; Weir, 1990; Cohén, 1994. Además, y todavía más importante,
creem os que no es posible tratar este tema con profundidad en las páginas de
este libro. Para seleccionar técnicas de evaluación y para redactar buenos ítems
un redactor de pruebas necesita conocimientos de lingüística aplicada, de didác
tica y de adquisición de la lengua que no pueden transmitirse de form a ade
cuada en un libro de recetas, y m ucho m enos en el m ism o libro en el que se
discuten principios y procedim ientos de evaluación. Así pues dirigim os a los
lectores que necesiten una breve ejemplificación de técnicas de evaluación a los
libros de'evaluación citados m ás arriba.
A lo largo del libro complementamos nuestra discusión de los principios de
elaboración de exámenes con ejemplos de cómo ponen en práctica estos prin
cipios los tribunales de exámenes de inglés como lengua extranjera en el Reino
Unido. En la segunda parte de cada capítulo se ilustra la puesta en práctica de lo
descrito tal com o se lleva a cabo en el Reino Unido.
Nuestro objetivo no es el de proponer que todos los exámenes se elaboren de
la m isma forma en que se hace en los tribunales de exámenes del Reino Unido;
ni m ucho menos. Lo que querem os es facilitar ejemplos concretos que ayuden
a nuestros lectores a comprender m ejor la teoría. Esperamos que esta informa
ción sea interesante para todos nuestros lectores y no solamente para las miem
bros de los tribunales de exám enes, aunque creem os que estas personas
considerarán instructivos los procedimientos y las prácticas de otros tribunales.
Aunque los ejemplos que aparecen en este libro están claramente localizados en
un entorno concreto —el Reino U n id o - sabem os por experiencia que en otros
países se siguen prácticas similares y creem os firmemente que la práctica lle
vada a cabo en un tribunal de exámenes concreto resultará relevante para otros
evaluadores de diferentes partes del m undo con respecto a su propia situación.
Los principios son universales, aunque la práctica varíe.
Hem os descubierto, dirigiendo talleres para evaluadores en ciernes alrededor
del mundo, que las personas interesadas en aprender las técnicas de elaboración
de exámenes, sean de nivel, de aprovechamiento o de competencia, pueden apren
der de la experiencia de los demás. Presentamos los datos de la práctica habitual
en el Reino Unido de forma crítica: discutimos los puntos a favor y los inconve
nientes, y hacemos sugerencias para modificar esa práctica con el fin de mejorarla.
El lector verá que incluso los tribunales de exámenes no hacen las cosas a la per
fección; todos podem os aprender al relacionar los principios con la práctica.
Esta inform ación fue recogida de distintas formas, tal y com o describim os
más adelante, pero prim ero querem os explicar por qué escribimos este libro.
Los tres autores habíam os experim entado una frustración considerable al no
haber obtenido ningún docum ento que diera cuenta de cóm o elaboran sus
pruebas los tribunales de exámenes. Los tres hem os dado clases sobre evalua
ción de idiom as en cursos de Máster, en cursos de reciclaje para profesores y en
9
Génesis y prólogo
talleres para distintos alumnados alrededor del mundo. Tenemos una experien
cia considerable con tribunales de exámenes del Reino Unido com o redactores
de ítems, como m iem bros de comités de redacción, com o examinadores, como
responsables de validación y com o investigadores. Estamos todos familiarizados
con la teoría de la evaluación de idiom as y los principios de diseño de exám e
nes. Sin em bargo, no hem os encontrado una descripción adecuada para la ela
boración de exámenes que deban poner en práctica estos principios.
Nuestro primer intento de recoger información de forma sistemática sobre los
tribunales de exámenes del Reino Unido empezó en 1986, cuando fuimos invita
dos a llevar a cabo un proyecto de investigación que debía ofrecer recomendacio
nes para el control de calidad de los nuevos exámenes de lengua inglesa en Sri
Lanka. Tuvimos una serie de entrevistas con representantes de diversos tribunales
de exámenes de inglés como lengua extranjera para averiguar cómo llevaban a cabo
las pruebas de inglés escrito y hablado. Estas entrevistas dieron como resultado un
número de informes cuyo contenido se consensuó con los interlocutores. Los infor
mes circularon internamente en Lancaster y estuvieron a la disposición de visitan
tes y alumnos, pero nunca se publicaron y en ningún caso cubrieron todos los
responsables de la elaboración y administración de exámenes del Reino Unido.
Uno de los autores de este libro fue invitado por Karl Krahnke y Charles Stans-
field para contribuir como redactor en la publicación por parte de TESOL de los
Reviews of English Language Proficimcy Tests (Informes de los exámenes de aptitud en lengua inglesa).
Parte del trabajo incorporaba el encargo de elaborar informes sobre doce exá
m enes de inglés com o lengua extranjera realizados en el Reino U nido. Estos
inform es, una vez elaborados, se enviaron a los tribunales de exámenes corres
pondientes por si sus miembros querían hacer comentarios. Se modificaron si éste
era el caso y se publicaron en Alderson et al., 1987. Varios redactores de los infor
mes coincidían en sus comentarios sobre los puntos fuertes y los puntos débiles
de los exámenes del Reino Unido, y algunos fueron contestados por los tribuna
les. De los doce exámenes estudiados, nueve fueron criticados por no aportar sufi
cientes pruebas sobre su fiabilidad y validez, y sólo en dos casos los autores del
estudio se m ostraron satisfechos por los datos que se les facilitaron. Alderson
incluyó en dicha publicación para TESOL el trabajo Ai OverView of ESL/EFL Testing in
Britain (Una descripción de la evaluación del inglés como lengua extranjera o como segunda lengua en
Gran Bretaña), que explicaba la tradición británica a lectores de otros países. En su
anáfisis afirmaba:
«Debido a la necesidad constante de elaborar nuevos exámenes y a la falta de
interés por parte de los tribunales de exámenes sobre la necesidad de una
validación empírica y no meramente subjetiva, estos exámenes nunca (o casi
nunca) se ensayan con estudiantes, ni se someten a los análisis estadísticos
típicos. Los tribunales de exámenes no ven la necesidad de experimentar y
validar sus instrumentos ni tampoco la de llevar a cabo análisis a posteriori de
los resultados de las pruebas. Aunque las preguntas de corrección objetiva de
pruebas se experimentan a menudo, raramente se publican las estadísticas.»
(Alderson et al., 1987.)
10
-
Génesis y prólogo
Este análisis se actualizó para la publicación de un capítulo en Douglas, 1990, sobre

los exámenes de inglés como lengua extranjera del Reino Unido. Para recoger infor
mación actualizada, Alderson mandó una copia del informe original a los tribunales
de exámenes del Reino Unido y preguntó si todavía eran válidos los comentarios allí
recogidos o si eran necesarias algunas modificaciones. Pocos centros respondieron,
y aquellos que lo hicieron dijeron que la situación no había cambiado.
El grupo The Lancaster Language Testing Research Group decidió a continuación realizar
un estudio sobre los tribunales. Para este propósito tomamos como punto de refe
rencia el Apéndice en Carroll and West, 1989, y el informe sobre el Proyecto
Marco de la English Speaking Union (ESU). Además, decidim os incluir en nuestro
informe el Schools Examination and Assessment Council (SEAC, antiguamente SEC, el Secon
dary Examinations Council), un organismo fundado por el gobierno con la responsa
bilidad de establecer criterios para evaluar exámenes en el campo de la educación
y para determinar la validez de dichos exámenes.
Nuestro informe tenía tres partes. Primero, en diciembre de 1989 escribimos
cartas a cada uno de los tribunales m encionados y al SEAC. Estas cartas conte
nían las siguientes tres preguntas abiertas, que intentaban recabar los puntos de
vista de los tribunales sobre sus criterios y sobre los procedimientos que utili
zaban para establecer la fiabilidad y la validez:
1. ¿Tiene criterios concretos a los que se ciñe?

2. ¿Qué procedimientos se siguen para estimar la fiabilidad de sus exámenes?
3. ¿Qué procedim ientos se siguen para asegurar la validez de sus exámenes?
Presentamos los resultados de esta primera fase de nuestra investigación en

una reunión de la Association of British ESOL Examining Boards (ABEEB, Asociación de
tribunales británicos de exámenes de inglés para hablantes de otras lenguas) en
noviembre de 1990.
A continuación, pasam os un cuestionario a los m ism os tribunales en diciem
bre de 1990. Parte de la segunda mitad de cada capítulo de este libro es un resu
men de las respuestas a este cuestionario. En mayo de 1991 se mandó una copia
de los resultados del cuestionario a los tribunales im plicados por si tenían
comentarios al respecto y se discutieron aspectos relativos al estudio. Cada tri
bunal tuvo también la oportunidad de actualizar su respuesta en el caso de que
hubiese habido cam bios en los m eses comprendidos entre diciembre y mayo,
y recibimos respuestas m uy detalladas, en particular del University of Cambridge Local
Examinations Syndicate (UCLES).
En tercer lugar, recibimos gran cantidad de material impreso relacionado con
los distintos exám enes y los distintos tribunales, y lo analizamos con detalle:
presentam os los resúm enes y ejem plos de este análisis en cada capítulo. Sin
em bargo, puede ser de interés para el lector saber qué documentos recibimos.
Se han listado, junto con los nombres de los centros y de los exámenes que ela
boran, en el apéndice 1.
Un resumen de algunos de los resultados principales de la fase 2 de la inves
tigación ya apareció en Alderson y Buck, 1993, pero este libro es más detallado
11
Génesis y prólogo
que esa publicación y presenta información más actual. Es posible, naturalmente,
que haya habido cambios en los procedimientos que siguen los tribunales desde
que completamos nuestra investigación. Esperamos no haber malinterpretado a
ningún tribunal de exámenes, pero agradecerem os cualquier corrección, aña
dido o m odificación que sea necesaria. Puesto que la mayoría de los tribunales
de exámenes prefirieron el anonimato cuando se publicaron los resultados del
estudio, sólo m encionam os los nom bres de aquellos que nos dieron perm iso
para hacerlo o cuando citamos bibliografía ya publicada.
Este libro se ha beneficiado de la experiencia y de los conocimientos obteni
dos del resultado del estudio. Esperam os que nuestros lectores se beneficien
igualmente de la lectura de este informe sobre la práctica actual junto a la des
cripción de los principios de la evaluación de idiom as y los procedimientos que
creemos apropiados para la elaboración de exámenes.
Más importante que los detalles de la práctica de los tribunales de exámenes
en sí son los principios que deberían inform ar la práctica de la evaluación de
idiom as y p or esta razón cada capítulo contiene un tratamiento detallado de
estos principios. Tam bién por este motivo cada capítulo termina con una sec
ción en la que se detalla una lista de las preguntas que un evaluador podría hacer
sobre cualquier examen, o un sumario de lo que deben tener en cuenta los res
ponsables de la elaboración de pruebas o los evaluadores.
Los principios generales que deberían gobernar el diseño de pruebas son la
validez y la fiabilidad y hacem os referencia constante a am bos conceptos a lo largo
del libro. La validez estudia hasta qué punto un examen mide lo que se pretende
medir: está relacionada con el uso que se hace de las calificaciones y con la forma
en que se éstas se interpretan y está por tanto relacionada con el propósito de la
prueba. Aunque sólo un capítulo, el número 8, hace referencia a este concepto
en su título, la validez es un punto central en todos los capítulos de este libro.
La fiabilidad estudia hasta qué punto los resultados de la prueba son consisten
tes: si los candidatos hicieran el examen mañana después de haberlo hecho hoy,
¿obtendrían las m ism as notas (presuponiendo que su capacidad no haya cam
biad o)? La fiabilidad es una propiedad de la prueba com o instrum ento de
medida, pero también está relacionada con los candidatos que realicen la prueba:
una prueba puede ser fiable con una población pero no con otra. Al igual que
la validez, y aunque sólo se mencione en el título del capítulo 6, la fiabilidad es
un concepto recurrente a lo largo del libro.
Intentamos definir la terminología especializada en evaluación la primera vez
que la utilizam os y por este m otivo no entram os ahora en definiciones. Sin
embargo, facilitamos un glosario de términos importantes relativos a la evalua
ción para consulta del lector. Som os también conscientes de que la mayoría de
los lectores no estarán familiarizados con las abreviaturas y los acrónim os que
se utilizan habitualmente en la evaluación del inglés como lengua extranjera, y
en particular con los que se usan para referirse a los tribunales de exámenes del
Reino Unido. Hem os facilitado también una lista exhaustiva de estos términos
al final del libro.
12
Bibliografía
La investigación a la que se hace referencia en este libro es el resultado de

m uchos m eses de colaboración entre m iem bros de The Lancaster Language Testing
Research Group y de investigadores visitantes. Estamos m uy agradecidos a las
siguientes personas por su ayuda, su aliento y sus criticas: Joan Allwright, Gary
Buck, Nicki McLeod, Frank Bonkowski, Rosalie Banko, Marian Tyacke, Matilde
Scaramucci y Pal Heltai. También querem os dar las gracias a los diversos tribu
nales de exámenes, al British Council y al Educational Testing Service, de New Jersey,
por su ayuda.
Bibliografía
Alderson, J. C. y G. Buck (1993). «Standards in Testing: A Survey of the Practice of
UK Examination Boards in EFL Testing.» Language Testing, 10 (2), págs. 1—26.
Alderson, J. C., K. Krahnke y C. Stansfield (eds.), (1987). Reviews of English Language
Proficiency Tests. TESOL, Washington, DC.
Anastasi, A. (1988). Psychological Testing. Macmillan, Londres.
Carroll, B. J. y R. West (1989). ESU Framework: Performance Scales for English Language
Examinations. Longman, Londres.
Cohen, A. (1994). Assessing Language Ability in the Classroom. 21 edición, Newbury
House/Heinle and Heinle, Rowley, Mass.
Crocker, L. y J. Algina (1986). Introduction to Classical and Modem Test Theory. Holt Rinehart
Winston, Chicago.
Douglas, D. (ed.), (1990). English Language Testing in U. S. Colleges and Universities. NAFSA,
Washington, DC.
Ebel, R. L. (1979). Essentials of Educational Measurement. 3* edición, Prentice-Hall,
Englewood Cliffs, NJ.
Ebel, R. L. y D. A. Frisbie (1991). Essentials of Educational Measurement. 5* edición,
Prentice-Hall, Englewood Cliffs, NJ.
Guilford, J. P. y B. Fruchter (1978). Fundamental Statistics in Psychology and Education.
McGraw-Hill, Tokio.
Hambleton, R. K., H. Swaminathan y H. J. Rogers (1991). Fundamentals of Item Response
Theory. Sage Publications, Newbury Park, Calif.
Heaton, J. B. (1988). Writing English Language Test. 2* edición, Longman, Londres.
Henning, G. (1987). A Guide to Language Testing. Newbury House, Cambridge, Mass.
Hughes, A. (1989). Testing for Language Teachers. Cambridge University Press,
Cambridge.
Ingram, E. (1977). «Basic Concepts in Testing.» En J. P. B. Allen y A. Davies (eds.),
Testing and Experimental Methods. Oxford University Press, Oxford.
Lord, F. M. (1980). Applications of Item Response Theory to Practical Testing Problems. Lawrence
Erlbaum, Hillsdale, NJ.
Oiler, J. (1979). Language Tests at School. Longman, Londres.
Popham, W. J. (1990). Modem Educational Measurement: A Practitioner’s Perspective. 21 edición,
Allyn and Bacon, Boston, Mass.
Weir, C. J. (1990). Communicative Language Testing. Prentice-Hall Regent, Englewood Cliffs,
NJ.
13
2 Especificaciones de examen
Las preguntas a las que se pretende responder con detalle en este capítulo son:
¿Qué son las especificaciones de examen? ¿Quién necesita las especificaciones
de examen? ¿Cómo deben ser las especificaciones de examen? ¿Cómo podem os
elaborar las especificaciones de examen? ¿Qué utilizan actualmente los exám e
nes de inglés com o lengua extranjera com o especificaciones de examen?
2.1. ¿Qué son las especificaciones de examen?

Las especificaciones de un examen facilitan información oficial sobre lo que un
exam en evalúa y cóm o lo evalúa. Las especificaciones son el plan que deben
seguir los redactores del examen y de los ítems y son esenciales para establecer
la validez del constructo de la prueba.
La descripción de contenidos del examen deriva de las especificaciones del
m ism o. Aunque algunos tribunales de exámenes del Reino Unido utilizan espe
cificaciones (specifications) y descripción de contenidos (syllabus) indistintamente, vem os
una diferencia entre los dos. Una especificación de examen es un docum ento
detallado, y a m enudo es sólo de uso interno. Es a veces de uso confidencial,
sólo para la organización. La descripción de contenidos es un docum ento
público, a m enudo m uy sim plificado, que indica a los usuarios del examen el
contenido del m ismo. Mientras que la especificación de examen es para los que
van a desarrollar y redactar la prueba y para los que necesitan evaluar si una
prueba ha cumplido sus objetivos, la descripción de contenidos va dirigida más
a profesores y a alumnos que quieren prepararse para la prueba, a las personas
que deben tomar decisiones a partir de los resultados de la prueba y a los edi
tores que quieran producir materiales relacionados con la prueba.
El desarrollo y la publicación de especificaciones y de descripciones de exa
m en es, pues, una parte crucial en el proceso de elaboración y evaluación de
un examen. Este capítulo pretende describir el tipo de cosas que deben incluir
las especificaciones y las descripciones y considerará los docum entos actual
m ente dispon ibles de los exám enes de in glés com o lengua extranjera en el
Reino Unido.
2.2. ¿Quién necesita especificaciones de examen?

Tal com o ya h em os sugerido, una am plia variedad de personas necesita las
especificaciones de exam en. En prim er lugar, y principalm ente, son necesa-
14
¿Quién necesita especificaciones de examen?
rías para los que elaboran la prueba. Las personas que van a elaborar la prueba
deben tener m uy claro a quién va dirigida, cuál es su objetivo, el contenido
que cubre, los m étodos que se utilizarán, las partes o secciones en que con
sistirá, su duración, etc. Además, las especificaciones deberán estar a disposi
ción de las person as respon sables de analizar y supervisar el trabajo de los
redactores de ítems, sea a título individual o com o equipo. Estos responsables
pueden operar com o com isión o pueden ser exam inadores jefes o m iem bros
del tribunal de exám enes (véase el capítulo 3 para una discusión m ás a fondo
del proceso de análisis, supervisión y edición). En instituciones m ás pequ e
ñas, puede tratarse de profesores que tengan la responsabilidad de supervisar
una prueba antes de usarla. Las especificaciones deberían consultarse cuando
se revisan las preguntas y las pruebas, por lo que han de estar redactadas de
form a m uy clara para poder consultarlas con facilidad durante el debate. Para
los que elaboran exám enes, las especificaciones deberán ser lo m ás detalladas
posible, y pueden incluso ser confidenciales, especialmente si se trata de un
exam en de selección m uy com petido.
Las especificaciones tam bién son necesarias para los responsables o intere
sados en establecer la validez de una prueba (es decir, si la prueba evalúa lo
que se pretende evaluar). Estas personas pueden no ser elaboradores de prue
bas sino individuos independientes cuyas necesidades pueden ser distintas de
las de los elaboradores de pruebas o de los supervisores de su edición. Puede
ser que a los encargados de la validación les resulte m enos im portante tener
inform ación «práctica» de, por ejem plo, la duración y las partes del examen,
y m ás im portante saber la justificación teórica del contenido, las teorías sobre
la lengua y el dom inio de la m isma subyacentes en la prueba y por qué la prueba
es así y no de otra forma.
Los usuarios también necesitan la descripción del contenido de una prueba,
y distintos tipos de usuarios pueden necesitar distintas descripciones. Por ejem
plo, los profesores que van a ser los responsables de los estudiantes asignados a
su clase mediante una prueba necesitan saber qué significan los resultados de la
prueba: qué saben en particular los alumnos, qué pueden hacer, qué necesitan
aprender. Aunque la interpretación de los resultados supone saber cómo se cal
culan y publican los m ism os (véase capítulo 7), comprender realmente lo que
significan también tiene que ver con lo que una prueba evalúa, y por tanto con
una form a de especificación.
Los profesores que desean presentar a sus alumnos a un examen oficial nece
sitan saber qué exam en será el m ás apropiado para ellos con relación al pro
grama de estudio que hayan seguido. Necesitarán información que les ayude a
decidir qué prueba escoger de las muchas a su disposición. Aquí también ayu
dará algún tipo de especificación, probablem ente una versión sim plificada,
conocida com o la descripción de contenidos (syllabus).
Las personas responsables de la admisión en distintos tribunales, que tienen
que tomar decisiones a partir de los resultados de la prueba, también necesita
rán algún tipo de descripción de la prueba que les ayude a decidir si la prueba
15
Especificaciones de examen
es válida para las decisiones que van a tomar: si se trata de la admisión en una
universidad, una prueba que no m ida destrezas lingüísticas académicas tenderá
a ser m enos válida que una que sí lo haga.
Finalmente, las especificaciones de examen son una fuente de inform ación
valiosa para los editores que quieran producir libros de texto relacionados con
la prueba: los autores de libros de texto querrán asegurarse de que las pruebas
prácticas que elaboran, por ejemplo, sean del nivel de dificultad apropiado, con
contenido, temas, tareas, etc. apropiados.
2.3. ¿Qué aspecto deben tener las especificaciones de examen?

Puesto que las especificacion es van a variar según el público al cual vayan
dirigid as, este apartado está d ividido de acuerdo con los distin tos gru pos
de p erso n as que van a n ecesitar e sp ecificacio n es. Sin em b arg o , co m o el
usu ario p rin cip al va a ser el redactor o su p erv isor, el prim er apartado es
m ás extenso e incluye gran parte de lo que puede ser im portante para otros
usuarios.
2.3.1. Especificaciones para los responsables

de la elaboración de la prueba
Las personas que redactan exámenes necesitan una guía práctica que les ayude
en el proceso de elaboración. Necesitan respuestas a tona amplia gam a de pre
guntas. Las respuestas a estas preguntas pueden también utilizarse para tipificar
una pregunta, un texto, o un banco de pruebas de manera que, una vez que las
preguntas estén escritas y validadas, puedan clasificarse de acuerdo con uno de
los aspectos siguientes y archivarse hasta que sean necesarias.
1. ¿Cuál es el propósito del examen? Los exámenes tienden a encuadrarse en una

de las siguientes categorías: nivel (placement), progreso (progress), aprovecha
miento (achievement), dom inio (proficiency) y diagnóstico (diagnostic).
Las pruebas de nivel están pensadas para evaluar el nivel lingüístico de los
alum nos con el objeto de poderlos asignar a un curso o clase apropiada.
Estas pruebas pueden basarse en aspectos del program a que se enseña en
la institución o en m ateriales no relacionados con éste. En algunas aca
dem ias de idiom as los alum nos se agrupan de acuerdo con los resulta
dos obtenidos de forma que, por ejemplo, los ocho alumnos con mejores
resultados van a la clase de nivel m ás alto. En otros centros puede hacer
falta identificar la habilidad de los alum nos en distintas destrezas com o
pueden ser la lectura y la escritura. En un centro de este tipo un alumno
podría asignarse a la clase de lectura del nivel m ás alto y en la clase de
nivel m ás bajo de escritura, o cualquier otra combinación. En otros cen
tros la prueba de nivel puede tener com o objetivo saber si los alum nos
necesitan m ás clases o no. Por ejem plo, m uchas universidades adm inis
tran pruebas a los alum nos de otros países al comienzo del curso acadé-
16
¿Qué aspecto deben tener las especificaciones de examen?
m ico para ver si necesitan clases de lengua o de alguna destreza usada

en la universidad.
Las pruebas de progreso se administran en diferentes m om entos a lo largo de
un curso para ver lo que los alumnos han aprendido.
Las pruebas de aprovechamiento son parecidas a las anteriores, pero tienden a
administrarse al final del curso. El contenido de las pruebas de progreso y
de las de aprovechamiento está normalmente basado en el programa del
curso o en el libro de texto.
Las pruebas de dominio, por el contrario, no están basadas en un programa en
concreto. Están diseñadas para evaluar la competencia de los alumnos en
diferentes cam pos del aprendizaje de idiomas. Algunas pruebas de dom i
nio, como muchas de las elaboradas por tribunales de exámenes del Reino
Unido, pretenden determinar si los alumnos han adquirido un cierto nivel
de com petencia lingüística. Otras están pensadas para determinar si los
alumnos tienen la suficiente competencia lingüística para poder utilizar la
lengua en un área específica como puede ser la medicina, el turismo o los
estudios académicos. Tales pruebas se denominan a menudo «pruebas para
fines específicos» —Specific Purposes (SP) tests-, y su contenido está norm al
mente basado en un análisis de necesidades relativo al tipo de contenidos lingüís
ticos que se requiere para un determinado fin. Por ejemplo, una prueba
de dom inio para los controladores del tráfico aéreo se basaría en las des
trezas lingüísticas necesarias en la torre de control.
Las pruebas de diagnóstico pretenden identificar las áreas en las que un alumno
necesita ayuda complementaria. Estas pruebas pueden ser bastante gene
rales y determinar, por ejemplo, si un alumno necesita refuerzo en una de
las cuatro destrezas; o pueden ser m ás específicas, si intentan identificar
los puntos débiles en el uso de la gramática de un alumno en particular.
Estas pruebas de diagnóstico m ás específicas no son fáciles de preparar
puesto que es difícil diagnosticar precisam ente los puntos fuertes y los
puntos débiles entre las complejidades de la competencia lingüística. Por
esta razón en realidad existen muy pocas pruebas de diagnóstico puras. Sin
embargo, se usan con frecuencia pruebas de aprovechamiento y de dom i
nio, aunque de forma no sistemática, con el propósito de una prueba de
diagnóstico.
2. ¿Qué tipo de estudiante se presentará a la prueba: edad, sexo, nivel de com
petencia o estadio de aprendizaje, primera lengua, bagaje cultural, país de
origen, nivel y tipo de educación, motivo para presentarse a la prueba, inte
reses personales y profesionales, nivel aproxim ado de conocim iento del
mundo?
3. ¿Cuántas secciones o partes debería tener el examen, qué duración deberían tener
y cómo deberían diferenciarse: un examen de tres horas, cinco partes sepa
radas de dos horas cada una, tres secciones de 45 minutos, comprensión de
lectura separada de la gramática, comprensión oral y expresión escrita inte
gradas en una única prueba, etc.?
17
4. ¿Qué situación en la lengua meta se ha previsto para la prueba? ¿Se simulará de

alguna form a en el contenido y el m étodo de la prueba?
5. ¿Qué tipos de texto deberían seleccionarse, escritos u orales? ¿Cuáles deberían
ser sus fuentes, el público al cual van dirigidos, los temas, el grado de auten
ticidad? ¿Cuál debería ser su dificultad o longitud? ¿Qué funciones com u
nicativas deberían recoger: persuasión, definición, resum en, etc.? ¿Cual
debería ser el grado de com plejidad de la lengua?
6. ¿Qué destrezas lingüísticas deberían evaluarse? ¿Se especifican microdestrezas?
¿Se deberían diseñar las preguntas para evaluar éstas individualmente o de
forma integrada? ¿Se distinguirá entre las preguntas que evalúen la idea prin
cipal, los detalles específicos, la inferencia?
7. ¿Qué elementos lingüísticos deberían evaluarse? ¿Existe una lista de estructuras
o aspectos gramaticales? ¿Está el léxico especificado de alguna manera: lis
tas de frecuencia etc.? ¿Se especifican nociones y funciones, actos de habla
o características pragmáticas?
8. ¿Qué tipo de tareas se requieren: ítems discretos, integrados, «pseudo-autén-
ticos», evaluables de form a objetiva?
9. ¿Cuántos ejercicios se necesitan para cada sección? ¿Cuál es el valor de cada
uno? ¿Se puntúan todos igual o se puntúan m ás los m ás difíciles?
10. ¿Qué métodos de evaluación van a utilizarse: elegir entre diversas o p c io
nes, com pletar, relacionar, tran sform acion es, respuestas breves, des
crip ción de fotos, sim u lación con tarjetas de roles, redacción,
com posición guiada?
11. ¿Qué tipo de instrucciones se utilizarán para explicar a los candidatos qué deben
hacer? ¿Harán falta ejem plos para ayudar a com plem entar un ejercicio?
¿Deben incluirse los criterios de corrección?
12. ¿Qué criterios utilizarán los correctores? ¿Cuál es la importancia de la correc
ción, de la adecuación, de la ortografía, de la lon gitud de la respuesta,
etc.?
Inevitablemente, algunas de las preguntas descritas cubren espacios pareci

dos: por ejemplo «tip o de texto», «clase de texto» y «com plejidad de texto» se
solapan. Sin embargo, es útil enfocarlos desde distintos ángulos. La taxonomía
completa de unas especificaciones va m ás allá del objetivo de este capítulo, y en
cualquier caso es im posible que sea exhaustiva dada la naturaleza de la lengua
y la variedad de exámenes que pueden diseñarse. Una taxonomía m uy útil que
los lectores podrían consultar es la desarrollada por Lyle Bachman en Fundamen
tal Considerations in Language Testing (1 9 9 0 ). Esta taxonom ía está descrita con m ás
detalle en el próxim o apartado, pero para dar al lector una idea de lo que pue
den contener unas especificaciones para los responsables de la elaboración de
los exámenes, incluim os a continuación un ejem plo ficticio de las especifica
ciones para una prueba de com prensión de lectura. (Véase Davidson y Lynch,
1993, para un ejem plo de especificaciones m ás detalladas de una prueba de
comprensión de lectura con fines académicos.)
18
EXAMEN DE FRANCÉS PARA ESTUDIOS DE POSTGRADO

Especificaciones para la prueba de comprensión de lectura
Propósito general de la prueba

El Examen de francés para estudios de postgrado es una serie de pruebas
elaborada para evaluar la competencia lingüística en francés de estu
diantes que no hablan francés como primera lengua y que quieren empe
zar estudios de postgrado en universidades u otras instituciones en donde
el francés es la lengua de enseñanza.
El objetivo de la serie es la selección de estudiantes que tengan un nivel
suficiente de francés para aprovechar un curso académico y la identifi
cación de aquellas áreas lingüísticas en las que pueden necesitar ayuda.
Las pruebas se centran en el francés para fines académicos.
Detalle de la serie de pruebas

La serie consiste en cuatro pruebas:
- Comprensión de lectura, 60 minutos.

- Expresión escrita, 60 minutos.
- Comprensión oral, 30 minutos.
- Expresión oral, 15 minutos.
Se facilitan los resultados de cada prueba por separado. Hay un listado

de especificaciones distinto para cada una de las cuatro pruebas.
Prueba de comprensión de lectura

Tiempo permitido: una hora.
Nivel de la prueba. El nivel de comprensión de lectura exigido debería

estar entre los niveles 5 y 7 de la escala de haremos de la English Spea-
king Union (ESU).
Los candidatos deben demostrar capacidad para leer libros de texto, artí
culos especializados y otras fuentes de información relevantes del mundo
académico. Se espera que los candidatos puedan mostrar capacidad para
usar las siguientes destrezas de comprensión de lectura:
a) lectura general o globalizadora (skimming);

b) lectura selectiva (scanning);
c) obtención del sentido general (getting the gisf);
d) distinción entre ideas principales y secundarias;
e) distinción entre hechos y opiniones;
f) distinción entre afirmaciones y ejemplos;
g) deducción de ideas implícitas y de información;
h) deducción por contexto del uso de palabras no conocidas;
19
i) comprensión de la estructura interna de la frase;
j) comprensión de las relaciones entre frases y entre párrafos;
k) comprensión de la función comunicativa de frases y párrafos.
Procedencia de los textos: libros de referencia, trabajos, reseñas, artí

culos sobre temas académicos. Los textos no deberían ser demasiado
específicos, ni discriminar a alumnos que no estén familiarizados con
el tema. Todos los pasajes deberían ser comprensibles para lectores
competentes. Si fuese necesario debería facilitarse un glosario con los
términos técnicos.
Debería haber cuatro textos, basados en distintas disciplinas académicas.
Dos de los textos deberían tratar sobre ciencias naturales y físicas y dos
sobre ciencias sociales. En la medida en que esto fuera posible los textos
deberían ejemplificar géneros distintos. Por ejemplo, un texto podría ser
la introducción a un trabajo académico, y los tres restantes podrían ser
una reseña, una descripción de resultados y una discusión.
Los textos deberían ser interesantes pero no provocar inquietud. Debe
rían evitarse desastres recientes y tragedias.
Los pasajes deberían estar basados en textos auténticos, pero pueden
modificarse sensiblemente para acortarlos o para corregir errores gra
maticales.
La longitud total de los pasajes debería ser de entre 2.500 y 3.000 pala
bras.
Tipo de tarea. Cada pregunta debería evaluar una o más de las destrezas
de comprensión de lectura listadas con anterioridad. Los redactores de la
prueba deberían intentar encontrar el equilibrio entre las distintas destre
zas y evitar que una o dos estén más representadas a expensas de las
demás.
Tipos de ítem. La prueba de comprensión de lectura debería constar de
40 o 50 ítems, doce para cada pasaje aproximadamente. Cada pasaje y
sus ítems correspondientes formará una sub-prueba. Cada ítem tendrá el
valor de un punto. Los ítems pueden ser de respuesta abierta, pero deben
poder puntuarse de forma objetiva.
Los responsables de la elaboración de la prueba deberían usar tipos de
ítem variados, pueden incluirse:
identificar los titulares apropiados,

relacionar,
etiquetar o completar diagramas, cuadros, esquemas, etc.,
copiar palabras del texto,
transferir información,
preguntas con respuesta breve,
rellenar huecos,
ordenar acciones o procesos.
20
Los responsables de la elaboración pueden utilizar otros tipos de ítems,

pero deberían garantizar que puedan puntuarse de forma objetiva.
Instrucciones. Hay una introducción estándar a la prueba de compren

sión de lectura al principio de las hojas del examen. Sin embargo, los
redactores deberían proponer sus propias instrucciones y un ejemplo para
cada grupo de preguntas. La lengua utilizada en las instrucciones debe
ría ser de un nivel no superior al nivel 4 de la escala de baremación de
la ESU.
2.3.2. Especificaciones para los responsables

de la validación de la prueba
Cada prueba tiene una teoría tras ella: una creencia abstracta sobre qué es la
lengua, en qué consiste la aptitud lingüística, qué im plica el aprendizaje de
una lengua y qué hacen los hablantes nativos con la lengua. Esta teoría puede
ser m ás o m enos explícita. La m ayoría de los responsables de la prueba se
sorprenderían al oír que tienen una teoría, pero esto no im plica que no esté
ahí, sólo que lo está de form a im plícita y no articulada en form a de m eta-
lenguaje.
Cada prueba es la puesta en práctica de algunas creencias sobre la lengua,
tanto si el responsable se refiere a un m odelo explícito com o si se basa en la
«in tuición».
T oda teoría contiene constructos (o conceptos p sico ló g ic o s), que son sus
principales com ponentes y la relación entre estos com ponentes. Por ejem
plo , algunas teorías sobre la com prensión de lectura afirman que ésta incluye
distintos constructos (lectura globalizadora o skimming, lectura selectiva o scan
ning, etc.) y que los constructos son distintos entre sí. La validación del cons-
tructo su p on e exam in ar hasta qué punto una prueba evalúa los distintos
constructos.
Para poder llevar a cabo la validación, las especificaciones de una prueba
deben hacer explícitos sus fundamentos teóricos, además de la relación entre la
teoría y el objetivo con el cual se ha elaborado la prueba.
El m od elo de Bachm an m encionado anteriorm ente es un m arco de refe
rencia teórico que se desarrolló para poder analizar pruebas. Fue usado por
Bachman y otros, 1988, por ejem plo, para com parar pruebas elaboradas por
el University of Cambridge Local Examinations Syndicate (UCLES) y el Educational Testing
Service (ETS), pero podría igualm ente usarse com o parte del proceso de ela
boración o validación de las pruebas. La taxonom ía se divide en dos grandes
apartados: habilidad lingüística com unicativa y facetas del m étodo utilizado
en la prueba.
El m odelo que sigue a continuación m uestra los componentes que incluye
cada apartado.
21
Esquemas conceptuales relativos a la habilidad

lingüística comunicativa y a distintos aspectos del
método utilizado, según Bachman
A. HABILIDAD LINGÜÍSTICA COMUNICATIVA
1. COM PETENCIA ORGANIZATIVA

Competencia gramatical
Vocabulario, morfología, sintaxis, fonología/grafología.
Competencia textual
Cohesión, organización retórica.
2. COM PETENCIA PRAGMÁTICA
Competencia ilocutiva
Funciones ideativas, manipulativas, heurísticas, imaginativas.
Competencia sociolingüística
Sensibilidad hacia diferencias de dialecto o variedad, sensibilidad
hacia las diferencias de registro, sensibilidad a la naturalidad, habili
dad para interpretar referencias culturales y lenguaje figurado.
(Bachman, 1990: capítulo 4.)
B. ASPECTOS DEL MÉTODO UTILIZADO EN LA PRUEBA
1. ASPECTOS DEL ENTORNO DE LA PRUEBA

Familiaridad con el lugar y el material
Personal
Hora de administración de la prueba
Condiciones físicas
2. ASPECTOS DE LAS INSTRUCCIONES GENERALES

Organización de la prueba
Prominencia o peso de las distintas partes, secuencia e importancia
relativa de cada una de ellas.
Tiempo disponible
Instrucciones
Lengua utilizada (materna, objeto de estudio), canal (auditivo, visual),
especificación de procedimientos y tareas, explicitación de criterios
de corrección lingüística
3. ASPECTOS DEL CO N TEN IDO DE LA PRUEBA UNPUT)

Formato
Canal de presentación, modo de presentación (receptivo), forma de
presentación (lingüística, no-lingüística, ambas), vehículo de presen-
22
tación (en directo, pre-grabado, ambos), lengua de presentación

(materna, objeto de estudio, ambas), identificación del problema (espe
cífico, general), velocidad.
Características de la lengua utilizada
Longitud, contenido proposicional (frecuencia y especialización del
vocabulario, grado de contextualización, distribución de la informa
ción nueva, tipo de información, tema, género), características orga
nizativas (gramática, cohesión, organización retórica), características
pragmáticas (fuerza ilocutiva, características sociolingüísticas).
4. ASPECTOS DE LA RESPUESTA PREVISTA

Formato
Canal, modo, tipo de respuesta, forma de respuesta, lengua de res
puesta.
Características de la lengua utilizada
Longitud, contenido proposicional (vocabulario, grado de contextua-
lización, distribución de la información nueva, tipo de información,
tema, género), características organizativas (gramática, cohesión, orga
nización retórica), características pragmáticas (fuerza ilocutiva, carac
terísticas sociolingüísticas).
Deficiencias en la respuesta
Canal, formato, características organizativas, características preposi
cionales e ilocutivas. Duración o longitud de la respuesta.
5. RELACIÓN ENTRE CO NTENIDO DE LA PRUEBA
(INPUT) Y RESPUESTA
Recíproca
No-recíproca
De adaptación
(Bachman, 1990: 119)
Otros m odelos en los que se han basado las especificaciones de examen recien
temente son: The Coundl of Europe Threshold Skills, y Communication Needs Processor (1978)
de Munby, que informaron la elaboración y la validación del Test of English for Edu-
cational Purposes (TEEP) a cargo del Associated Examining Board (AEB) y del examen de
la UCLES/British Counril English Language Testing Service (ELTS). Otros modelos de com
petencia comunicativa articulados de form a m enos explícita están detrás de la
elaboración, si no de la validación, de pruebas tales como el antiguo Examination
in the Coramunicative Use of English as a Foreign Language (CUEFL) de la Royal Society of Arts
(RSA).
El contenido de las especificaciones de examen para los responsables de la
validación de la prueba dependerá obviamente del marco de referencia teórico
utilizado y no será tratado aquí de forma extensa. Sin embargo, el lector debe
ría tener en cuenta que gran parte del contenido listado en el apartado anterior
se incluiría en las especificaciones para la validación. Debería ofrecerse, en par
23
ticular, inform ación sobre qué habilidades se evalúan, sobre las interrelaciones
entre estas habilidades, sobre qué m étodos de evaluación se usarán y cómo pue
den influir (o no) estos m étodos en la medición de las habilidades, y sobre qué
criterios se utilizarán para la evaluación.
De m enor im portancia para este tipo de especificaciones son quizá cuestio
nes como la extensión de la prueba, la duración de cada parte, los ejemplos pro
vistos para cada tipo de ítem, la longitud de los textos e incluso su dificultad;
en resumen, aquellas cuestiones que guían a los redactores de la prueba en la
producción de los ítems pero que se sabe que no tienen un efecto significativo
en la m edición de la habilidad. Debería señalarse, sin embargo, que los inves
tigadores de exám enes de idiom as no pueden todavía concretar qué variables
afectan a la validez del constructo y cuáles no, y el consejo más útil, aunque no
el m ás práctico, es que las especificaciones para la validación deberían ser lo más
completas posible.
Discutir el valor de un m odelo o teoría en particular va m ás allá del pro
pósito de este libro, y es en realidad del d om in io de libros de idiom as, de
enseñanza de la lengua y del uso de la lengua. Sin em bargo, cualquier trata
m iento adecuado de la elaboración de pruebas debe incluir referencias a las
teorías relevantes. Por ejemplo, Fundamental Considerations in Language Testing (Bach-
man, 1990) es esencialm ente una discusión sobre un m odelo de lenguaje, y
Language Tests at School (1 9 7 9 ), de John Oller, trata de form a extensa su teoría
sobre la gram ática de expectativa pragm ática (grammar of pragmatic expectancy),
de la que se desprende la base para los tipos de pruebas que Oller defiende.
Por desgracia, hay pocos libros de texto para los responsables de la elabora
ción de pruebas de idiom as que contengan un debate sobre los constructos
que es de suponer van a evaluar las pruebas y sobre los tipos de prueba y los
tipos de ítem que se discuten. Pero no se puede diseñar una prueba de com
prensión de lectura sin algún tipo de definición previa de lo que es la com
prensión de lectura y de las habilidades que deben m edirse con una prueba
adecuada. Tal definición, pues, debería tam bién form ar parte de las especi
ficaciones del examen.
2.3.3. Especificaciones para usuarios de la prueba

Las especificaciones que van dirigidas a los usuarios de la prueba (que llamare
m os en esta discusión especificaciones para usuarios, y que incluye la noción de des
cripción de contenidos -syllabus- presentada en el apartado 2.1) pretenden dar
a los usuarios una idea clara de lo que mide el examen y para qué debería usarse
el m ism o. Estas especificaciones deberían evitar usos concretos indebidos, ya
conocidos o probables.
Un ejemplo típico de uso indebido es el intento de medir el progreso lingüís
tico de los estudiantes dándoles la m isma prueba de aptitud al principio y al final
del curso. Estas pruebas son medidas tan toscas que si el intervalo de aplicación es
de tres m eses o inferior, puede no haber m ejora en los resultados de los estu
diantes, y los resultados de algunos pueden incluso ser más bajos que en un prin-
24
¿Cómo pueden elaborarse las especificaciones de examen?
apio. Para evitar tales usos indebidos, las especificaciones deberían representar de
la forma ibas exacta posible las características, la utilidad y las limitaciones de la
prueba y describir la población para la cual es apropiada la prueba.
Tales especificaciones para usuarios deberían facilitar ejemplos representati
vos de tipos de ítem o, m ejor, pruebas com pletas, incluyendo todas las in s
trucciones. Deberían facilitar una descripción de una actuación tipo para cada
nota o para cada nivel de la prueba y, siempre que fuera posible y relevante, una
descripción de lo que se supone que puede hacer «en el m undo real» un can
didato que aprueba el exam en u obtiene una nota determinada. Además de
ejemplos de ítem s o pruebas, es especialmente útil para los profesores y tam
bién para los estudiantes el tener ejemplos de actuación lingüística de candida
tos en pruebas anteriores o en pruebas m odelo, y una descripción de cóm o se
usaron los criterios de evaluación para valorar estas actuaciones.
En m uchos exámenes puede también resultar útil facilitar a los usuarios una
descripción del tipo de curso o de preparación que puede ser apropiada antes
de presentarse a la prueba.
Es m uy importante que los candidatos reciban la información adecuada que
les permita saber exactamente cóm o será la prueba: su duración, su dificultad,
qué m étodos de evaluación incluirá, y cualquier otro tipo de información que
los familiarice con la prueba antes de realizarla. La intención de tales especifi
caciones para candidatos es la de garantizar, en la m edida que sea posible y
mientras no interfiera con la seguridad de la prueba, que los candidatos puedan
dar lo m ejor de sí m ism os durante la prueba.
2.4. ¿Cómo pueden elaborarse las especificaciones de examen?

El propósito para el que se utilizará la prueba es el punto de partida habitual a
la hora de diseñar las especificaciones de un examen. Este objetivo debería defi
nirse de la manera m ás completa posible. Por ejemplo:
La prueba A se usa al final del segundo año de una diplomatura de Ciencias de
la Educación de tres años de duración para futuros profesores de inglés como
lengua extranjera. Esta prueba mide si los estudiantes tienen suficiente
competencia en inglés para empezar su período de prácticas durante el tercer
año de estudios. Los estudiantes que suspenden la prueba tienen la
oportunidad de volverse a presentar a una versión paralela dos meses más
tarde. Si vuelven a suspender, deberán repetir el segundo curso de inglés.
Aunque el examen tiene como punto de referencia el inglés que se ha
enseñado durante los dos primeros años, se trata de una prueba de dominio,
no una medida de aprovechamiento, y como tal no pretende reflejar el
programa de la asignatura.
O bien:
La prueba B es una prueba de nivel, diseñada para distribuir a los estudiantes
que han solicitado plaza en los cursos de idiomas de la Alliance Française en clases
apropiadas a su nivel lingüístico.
25
O bien:
La prueba C está pensada para diagnosticar los puntos fuertes y los puntos
débiles de los estudiantes de cuarto curso de secundaria en gramática alemana.
A partir de los ejem plos citados, debería quedar claro que el objetivo de un
exam en va a influir sobre su contenido. La prueba A deberá incluir con toda
probabilidad la evaluación de habilidades que son relevantes para el uso del
inglés en clase por parte de los futuros profesores durante la fase de prácticas.
La prueba B intentará extraer un muestreo de la descripción de contenidos (sylla
bus) o de pruebas de aprovechamiento de cada nivel ya realizadas por la m isma
Alliance Franfaise. La prueba C deberá tener com o punto de referencia un m odelo
de gramática del alemán, una lista de las estructuras que los estudiantes deben
conocer en este nivel y probablemente los problemas típicos que tienen los estu
diantes y los errores que cometen habituahnente.
Una vez determinados el propósito y la población tipo, los elaboradores nece
sitarán identificar un marco de referencia teórico en el que se pueda basar el exa
men. Puede tratarse de una teoría lingüística -u n a visión de la lengua en el caso
de los exámenes de dominio (profidmcy tests), o una definición de los componentes
de la aptitud en el caso de los exámenes de aptitud (aptitude tests) - o bien puede
considerarse necesario hacer prim ero un análisis de las situaciones y del uso de
la lengua meta, así com o de las actuaciones lingüísticas que el propio examen
prevé. En este caso, los responsables de la prueba pueden decidir llevar a cabo
un análisis del tipo de trabajo o de las tareas que previsiblemente deberán lle
var a cabo los estudiantes en el futuro, y puede que tengan que realizar un aná
lisis de sus necesidades lingüísticas.
Los análisis de necesidades implican habituahnente la recogida de inform a
ción sobre los contenidos lingüísticos que van a necesitar los candidatos para
realizar la prueba. Este análisis puede implicar la observación directa de perso
nas en situaciones habituales en la lengua meta para determinar el tipo de varia
bles relevantes en el uso de la lengua. Puede suponer la realización de
cuestionarios o entrevistas a hablantes de la lengua, la consulta de bibliografía
o el contacto con expertos en el tipo de com unicación analizada. Un ejem plo
del tipo de variables que pueden considerarse es el descrito por Munby en su
Communication Needs Processor (1 9 7 8 ):
Participante; edad, sexo, nacionalidad, domicilio.
Propósito: tipo de inglés para fines específicos (ESP) necesario, y
objetivos para los que va a usarse.
Entorno: por ejemplo: lugar de trabajo, entorno tranquilo o
ruidoso, ambiente conocido o no conocido.
Interacción: papel del participante; por ejemplo: situación en el
trabajo, personas con las que se relacionará, relaciones
de rol y relaciones sociales.
Instrumento: medio, modo y canal de comunicación, por ejemplo:
comunicación oral o escrita, monólogo o diálogo, libro
de texto o retransmisión radiofónica
26
¿Cómo pueden elaborarse las especificaciones de examen?
Variedad: por ejemplo: inglés británico o americano,

Nivel: nivel de inglés exigido.
Situación comunicativa: por ejemplo, a un nivel general: atender a dientes en
un restaurante, asistir a conferencias en la universidad; y
a un nivel concreto: tomar nota de un pedido,
introducir un punto de vista distinto
Objetivo comunicativo: «el tono, manera y espíritu con el que se lleva a cabo
un acto» (Hymes, 1972).
La bibliografía sobre el inglés para fines específicos (ESP) —véase, por ejem
plo, Hutchinson y Waters, 1987; Robinson, 1980, Swales, 1 9 8 5 - es útil para
los responsables de la elaboración de pruebas que necesitan llevar a cabo algún
üpo de análisis de necesidades antes de empezar a elaborar sus especificaciones.
Nótese que tanto el Test of English for Educational Purposes (TEEP) com o el English Lan-
guage Testing Service (ELTS) se desarrollaron inicialmente usando alguna forma de
análisis de necesidades al estilo de la de Munby.
Los análisis de necesidades desembocan a m enudo en una gran taxonomía de
variables que influyen en el tipo de lengua que se necesitará en la situación pre
vista. A partir de esta taxonomía, los responsables de la elaboración deberán pro
bar tareas, textos, escenarios, etc. hasta llegar a un tipo de prueba manejable. Sin
embargo, el proyecto de revisión del ELTS, que fue el responsable del desarrollo
del International English Language Testing System (IELTS), sucesor del ELTS original, se
desarrolló de forma distinta. Una vez identificados los principales problemas en
el ELTS (véase Criper y Davies, 1988), el proyecto de revisión llevó a cabo un
extenso ejercicio de recogida de datos y se pidió a los responsables universitarios
cómo creían que debía revisarse el examen de ELTS. Al mismo tiempo se revisó
la bibliografía sobre los exámenes de dom inio relacionados con el inglés para
fines académicos, English for Academic Purposes (EAP) y se pidió la opinión de emi
nentes especialistas en lingüística aplicada sobre la naturaleza de la competencia
lingüística y cómo ésta debería evaluarse en el IELTS. Se pidió entonces a equipos
de redactores que tuvieran en consideración los datos recogidos y produjeran un
borrador de especificaciones e ítem s para diferentes partes del examen. Estos
borradores se mostraron a evaluadores y a profesores, así como a profesores de
universidad en diversas disciplinas académicas. Se preguntó a los profesores de
universidad si consideraban adecuados para los estudiantes de sus disciplinas aca
dém icas los borradores de las especificaciones y de los ítem s y si deberían
incluirse otros tipos de textos y tareas. Los redactores revisaron entonces la bate
ría de pruebas y sus especificaciones para poder tener en cuenta todos los comen
tarios. Procediendo de esta m anera, los m iem bros del proyecto de revisión
pudieron utilizar la investigación sobre análisis de necesidades ya existente y lle
var a cabo una validación del contenido del borrador de la prueba (véase Alder-
son y Clapham, 1992a y 1992b, y Clapham y Alderson, en impresión). Para una
discusión sobre cóm o desarrollar especificaciones para una prueba de ESP, y la
relación entre análisis de necesidades, especificaciones de una prueba e infor
madores, véase Alderson, 1988b.
27
El desarrollo de una prueba de aprovechamiento es, en teoría, tarea más fácil,

puesto que la lengua que ha de evaluarse ha sido definida, al menos en un prin
cipio, por la descripción de contenidos sobre la que va a basarse la prueba. El
problema para los responsables de la elaboración de pruebas de aprovechamiento
es garantizar que sean una muestra adecuada de la descripción de contenidos o,
en su defecto, del libro de texto en cuanto a contenidos y método.
H ughes (1 9 8 8 ) argum enta que, aunque está de acuerdo con la distinción
general entre pruebas de dom inio y pruebas de aprovechamiento de final de
curso, no está de acuerdo con que deban seguirse distintos procedim ientos a la
hora de decidir su contenido. Hughes propone que las pruebas de aprovecha
miento deberían basarse en los objetivos del curso y no en los contenidos del curso
y deberían por tanto ser similares o incluso idénticas a las pruebas de dom inio
basadas en estos m ism os objetivos.
Al final de este capítulo hay una lista que contiene los posibles puntos que
habrían de tratarse en unas especificaciones. Esta lista se presenta de forma lineal,
pero a m enudo el diseño de una prueba y sus especificaciones es cíclico, con
borradores previos y ejemplos bajo constante revisión para tener en cuenta los
comentarios procedentes de pruebas y consejeros.
2.5. Estudio sobre los tribunales de exámenes de inglés

como lengua extranjera: cuestionarios y documentación
En este apartado describiremos la forma de abordar las especificaciones de exa
men por parte de los tribunales de exámenes de inglés com o lengua extranjera:
cóm o las diseñan y lo que éstas contienen. Informaremos sobre las respuestas
al cuestionario y, siem pre que nos sea posible, harem os referencia a la docu
mentación remitida por los tribunales. (Véase el capítulo 1 para detalles de cómo
se llevó a cabo este estudio.) Esto no es siempre fácil, porque los tribunales uti
lizan m étodos distintos y distinta terminología. Por ejemplo, pocos utilizan la
expresión especificaciones; algunos hablan de descripción de contenidos, otros de norma
tiva, y otros de manuales, y el significado de cada uno de estos térm inos es d is
tinto de un centro a otro. Además, algunos de los procedim ientos de los
tribunales son confidenciales o bien no se difunden. Tam poco dicen a quién
van dirigidas sus publicaciones, por lo cual no podem os tener en cuenta el
público al que se destinan sus documentos.
Nuestro informe sobre las respuestas de los tribunales a este apartado del cues
tionario es m ás extenso que en el resto de capítulos. Esto refleja el detalle de las
respuestas: los tribunales consultados no sólo respondieron ampliamente sobre
las especificaciones de examen sino que también enviaron documentación que
contenía gran variedad de inform ación sobre sus exámenes en aspectos relati
vos a objetivos y descripción de contenidos.
Puesto que UCEES completó cuestionarios por separado para cada uno de sus
exámenes de EFE, resulta difícil combinar sus resultados con los de otros tribu
nales, cuyas respuestas se referían a veces a un solo examen o a veces a m ás de
28
Estudio sobre los tribunales de exámenes de inglés...
uno. Además, los responsables de examen (subject officers) de cuatro de los exá
menes de UCLES completaron también cuestionarios sobre las distintas seccio
nes de cada examen. Por este motivo, las respuestas de UCLES se han combinado.
En el cuadro 2.1, que detalla las respuestas de todos los tribunales a las preguntas
6 a 10, las cifras de UCLES representan la mayoría de las respuestas. Si, por ejem
plo, de cada cinco partes de un examen, tres responsables de examen respon
dían afirm ativam ente a una pregunta y dos respondían negativamente, la
respuesta contabilizada es la afirmativa. (Para detalles sobre el redactado de cada
sub-pregunta, véase más adelante, y para una copia del cuestionario completo,
véase el apéndice 2.)
PREGUNTAS 6 A 7(d): ¿Publica su tribunal una descripción dd contenido dd examen (o exámenes)?

¿Se induye una definición de su propósito y una descripción dd tipo de estudiante a quien va dirigido?
CUADRO 2.1. RESPUESTAS DE LOS TRIBUNALES DE EXÁMENES

11 tribunales 8 exámenes
de exámenes de UCLES
Preguntas Sí No N/R Sí No
6. Publican la descripción 11 0 0 8 0
7. Incluye:
a) propósito 11 0 0 8 0
b) tipo de estudiante 11 0 0 8 0
c) nivel de dificultad 11 0 0 8 0
d) actuación tipo 10 1 0 5 3
e) habilidad en el «mundo real» 9 1 1 4 4
f) tipo de estudios o cursos 2 7 1 1 7
g) contenido del examen:
estructuras 6 3 0 2 6
vocabulario 5 4 0 2 6
funciones lingüísticas 6 3 0 2 6
temas 6 3 0 3 S
longitud de los textos 6 2 1 5 2
tipo de preguntas 9 0 0 8 0
ponderación de las preguntas 8 1 0 3 S
tiempo de la prueba 9 0 0 8 0
tiempo por sección 6 3 0 1 7
h) criterios de evaluación 9 1 0 2 6
i) baremo para las calificaciones finales 4 6 0 2 5
j) exámenes anteriores 8 0 2 6 0
k) actuación de antiguos candidatos 2 S 2 7 1
8. Análisis de necesidades 7 1 0 4 3
9. Directrices para redactores 7 1 2 8 0
Como puede verse en el cuadro 2.1, todos los tribunales respondieron afirma
tivamente a las preguntas 6 y 7 a) b) y c). Todos los tribunales publicaban des
cripciones de sus exám enes y éstas incluían la definición de objetivos del
29
examen, una descripción del tipo de estudiante a quien iba dirigido y una des
cripción del nivel de dificultad de la prueba. U n estudio de los docum entos
publicados m ostró, sin embargo, que el nivel de detalle variaba de un tribunal
a otro. Véanse los siguientes ejemplos:
DEFINICIÓN DE OBJETIVOS
En la descripción de contenidos del Joint Matriculation Board (JMB) se da ima de las
descripciones m ás completas sobre el propósito de un examen:
El objetivo del examen es evaluar las destrezas identificadas [...] en un
contexto lo más similar posible al que probablemente se encontrarán en un
curso para graduados. La prueba se considera particularmente adecuada para
candidatos que quieren seguir estudios en las áreas de ciencias, ingeniería,
estudios empresariales y ciencias sociales. El nivel de inglés de la prueba no es
el suficiente ni el apropiado para estudiantes que quieren seguir estudios de
literatura. La preparación para tales estudios debe incluir un estudio más
completo de la lengua inglesa del que se requiere en este examen.
(Descripción de UETESOL, JMB, 1991)
Los exámenes de la Cámara de Comercio e Industria de Londres (LCCI) tie

nen también una definición de objetivos m uy clara:
El objetivo del examen es evaluar un nivel alto de comprensión y de expresión
escrita así como la habilidad de procesar tanto la lengua inglesa en general
como las variedades específicas usadas en el mundo de los negocios y la
habilidad de usar formatos apropiados. Un candidato que apruebe habrá
demostrado la capacidad de escribir en un inglés fluido, preciso e idiomàtico
en nombre de un empresario, seleccionando los términos legales, el tono, la
forma y el contenido apropiados a una situación en particular.
(English for Business, Third Level, Regulations, syllabuses and timetables of
examinations, London Chamber of Commerce and Industry Examinations
Board, 1 99 1)
Los tribunales que administran exámenes que no tienen una orientación aca
démica (EAP) ni de fines específicos (ESP) tienden a describir el objetivo de sus
pruebas a partir de las destrezas lingüísticas que se requerirán. Por ejemplo:
Objetivo
El objetivo del examen es evaluar la capacidad de los candidatos para
comprender y producir el lenguaje de tipo objetivo e impersonal que es el
medio de instrucción a lo largo de sus estudios y de las transacciones
cotidianas, junto con el uso de las destrezas de tipo cognitivo que esto implica.
(Test in English Language Skilis, CENTRA, 1992)
Y también:
El objetivo principal es averiguar hasta qué punto el estudiante comprende y
habla el inglés oral «culto», dentro de los límites de cada nivel.
(Syllabus, Grade Examinations in Spoken English for
Speakers of Other Languages, T rinity C ollege, L ondres, 1990)
30
ESTUDIANTES TIPO
Naturalmente, el objetivo del examen y los estudiantes a los que va dirigido se

solapan a menudo. El fragmento de la JMB citado con anterioridad lo demues
tra, al igual que los fragmentos siguientes:
Este certificado está elaborado para candidatos adultos y con experiencia que
durante sus actividades laborales o sociales deben informar o dar clase
utilizando la lengua inglesa. Los candidatos deberían tener competencia
bilingüe en su campo de acción y deberían poder comunicarse con autoridad,
manteniendo la atención de sus interlocutores, demostrando su capacidad para
liderar y controlar la discusión, así como para facilitar información sobre su
actividad profesional, mostrando sensibilidad hacia las dificultades de su
interlocutor en cuanto al contenido de la conversación.
(The Certificóte in English as an Acquired Language, English Speaking Board
-E SB -, 1990)
Y también:
Candidatos
Los candidatos que se presentan a este examen son adultos y jóvenes adultos que
están siguiendo un curso de inglés en el Reino Unido o en el extranjero. Los
candidatos pueden estar estudiando inglés como parte de su programa escolar o
universitario o también para su uso fuera del aula. Los exámenes van dirigidos a
estudiantes que necesitan una certificación externa sobre sus progresos en la
lengua inglesa y son especialmente adecuados para aquellos estudiantes que llevan
tiempo estudiando y necesitan un tipo de prueba que certifique sus progresos en
el camino hacia el dominio de la lengua, a guisa de peldaños en una escalera.
(A Guide for Teachers, Examinations in English for Speakers of Other Languages. Pitm an
Examinations Institute, 1988)
El Trinity College describe a los estudiantes para los que la prueba no es ade
cuada y no a los estudiantes a los que va dirigida:
No se admite la entrada a las pruebas de inglés hablado a aquellos que hablan
la lengua inglesa como primera lengua, ni tampoco a candidatos de edad
inferior a los siete años. Se recomienda a los adultos que no se presenten a un
nivel inferior al nivel tres y a los candidatos menores de trece años que no se
presenten a los niveles once y doce; aparte de éstas, no hay otras restricciones.
Algunos tribunales no llegan a describir a los estudiantes tipo, suponiendo

presum iblem ente que la descripción del contenido y del nivel del exam en lo
aclararán.
NIVEL DE DIFICULTAD
Varios tribunales definen los niveles lingüísticos de sus exámenes haciendo refe
rencia a los estadios del Consejo de Europa. Por ejemplo:
Ambos exámenes están basados en el nivel Waystage descrito por el Consejo de
Europa. De manera menos académica, esto puede describirse como nivel de
31
Especificaciones de exam en
supervivencia: uno de los objetivos esenciales de la prueba es determinar si un

candidato puede sobrevivir en un entorno de habla inglesa. Los exámenes son
adecuados para alumnos de nivel intermedio bajo que han estudiado unas
300—400 horas de inglés.
(New Editian of Rationale, Reguiations and Syllabuses, the Oxford-ARELS
Examinations)
Los niveles del Trinity College pueden com pararse con los del Consejo de
Europa y los nueve niveles de la English Speaking Union. La UCLES describe los nive
les de sus exám enes com parándolos con la escala de nueve puntos de la ESU,
pero usa sus propias descripciones. Así, el First Certifícate in English (FCE), por
ejemplo, se considera equiparable al nivel 5, que se describe como el del «usua
rio independiente» y el Certifícate in Proficiency in English (CPE) corresponde al nivel
7, «b u en usu ario ». Dos de los niveles se com paran tam bién a los niveles del
Consejo de Europa; el nivel 3 describe al «u su ario en el nivel Waystage» y el
nivel 4 corresponde al «usuario en el nivel um bral (Threshold)» en A Brief Guide
to EFL Examinations and TEFL Schemes, UCLES. Pitman no compara los niveles de sus
exámenes con ningún criterio extem o, sino que usa sus propias descripciones.
Por ejemplo:
Niveles
Básico: el candidato puede operar en inglés sólo para comunicar necesidades
básicas con mensajes cortos y a menudo poco articulados e inapropiados. El
candidato puede comprender etiquetas, señales sencillas, nombres de calles,
precios, etc., pero no tiene en realidad el suficiente dominio de la lengua para
manejarse normalmente en la comunicación real del día a día.
(A Guide for Teachers ESOL, Pitman Examinations Institute, 1988)
Algunos de los tribunales no describen los niveles de sus pruebas de form a

explícita, suponiendo presumiblemente que las descripciones de los contenidos
lo aclararán.
PREGUNTA (7d): Descripción de una actuación tipo para cada nivel o calificación
Las Oxford-ARELS Reguiations describen lo que deberían poder hacer los candidatos
que aprueben. Por ejemplo, cuando obtiene un aprobado (pass) en el Prdiminary
Stage of the Oxford Exam, un candidato, entre otras cosas:
tiene las destrezas básicas de supervivencia en la expresión escrita y la
comprensión de lectura en inglés;
tiene la capacidad de comunicarse de forma clara por escrito (aunque puede
cometer un número de errores, y el dominio de las estructuras y el
vocabulario puede ser lim itado);
puede comprender y extraer la información relevante de textos auténticos no
literarios (por ejemplo instrucciones, reglamentos, formularios) y responder
de forma apropiada.
(Rationale, Reguiations and Syllabuses, New Edition, The Oxford-ARELS Examinations in English
as a Eoreign Language)
32
Estudio sobre los tribunales de exámenes de in g lés...
El Trinity College describe lo que un candidato puede hacer en cada uno de

los 12 niveles. Siguen a continuación, com o ejemplo, los niveles 1 y 12:
Nivel 1
El candidato utiliza un número reducido de palabras y expresiones tales como
saludos habituales y el nombre de objetos de uso común y de acciones
habituales. Puede haber un cierto grado de comunicación con ayuda.
Nivel 12
El candidato utiliza un amplio abanico de lenguaje con un dominio similar al
de la lengua materna. Puede manejarse en situaciones que requieren un
lenguaje complejo y exigente. Muestra pequeños fallos ocasionales en
corrección, fluidez, adecuación y organización que no afectan a la
comunicación. Hay sólo escasas dudas a la hora de comprender o hacer llegar
el contenido del mensaje.
(Syllabus of Grade Examinations in Spoken English for Speakers of Other Languages, T rinity
College, Londres, 1990)
El examen de UCEES IELTS otorga resultados para nueve niveles, cada uno de
los cuales tiene una descripción de actuación. Por ejemplo, un candidato que haya
obtenido las calificaciones globales correspondientes al nivel 7 se describe como:
Buen usuario. Tiene un dominio operativo de la lengua, aunque con
inexactitudes e inadecuaciones ocasionales y no sistemáticas. Pueden ocurrir
malentendidos en situaciones no habituales. Maneja bien la argumentación
compleja y detallada.
(¿in Introduction to IELTS, The British Council, UCLES, International Development
Program of Australian Universities Colleges)
Tal com o ocurre con el nivel de dificultad citado más arriba, los niveles de
los alum nos tipo parecen considerarse implícitos en las descripciones genera
les. En la m ayoría de las publicaciones de los tribunales no están descritos de
forma específica y deben deducirse de las descripciones de examen.
PREGUNTA 7(e): Descripción de lo que se puede esperar que haga «en el mundo real» un candidato
que obtiene un certificado o una calificación determinada en un nivel concreto.
Dada la tendencia hacia la utilización de tareas y situaciones auténticas en las
pmebas de idiomas, muchos tribunales argumentan que su examen imita la actua
ción «en el mundo real». En realidad las descripciones presentadas más arriba se
refieren más al mundo real que al entorno de examen. Ningún tribunal distingue
entre las actuaciones lingüísticas previstas en el examen y el mundo real.
PREGUNTA 7 (f): Descripción de los estudios que se supone que deben seguir los candidatos antes de
presentarse al examen.
En general, los tribunales de exámenes no presuponen que sus candidatos hayan
seguido ningún curso en particular. Un tribunal dijo en su respuesta al cuestio
nario: «N osotros diseñamos esquemas, es decir, muestras de contenidos, no cur
sos». Y otro dijo que el hecho de que no describieran cursos era intencionado.
Sin embargo, el reglamento de Oxford-ARELS recomienda dos libros de texto.
33
PREGUNTA 7(g): Descripción del contenido del examen en cuanto a: (I) estructuras, vocabulario,
funciones lingüísticas
El mayor o menor detalle sobre las destrezas macrolingüísticas y microlingüís-
ticas depende en gran parte del nivel de la prueba. Sólo el Preliminary English Test
(PET), entre los exámenes de la UCLES, facilita listas de vocabulario, sintaxis y
funciones del lenguaje.
La descripción de contenidos para el nivel 1 de las pruebas del Trinity College
incluye una lista de consignas y órdenes tipificadas:
Toca
Señala
Sujeta
Muestra
Dame
Ponlo(los) aquí (allí)
y una lista de preguntas tipificadas, así como los nom bres de los adjetivos de
color y de tamaño. El nivel 2 incluye:
el presente continuo, como en What am I (are you/we/they, is he/she/it) doing?, el
presente habitual, etc.
Y dice:
Vocabulario: los candidatos deberían estar familiarizados con unas cien
palabras aparte de las mencionadas con anterioridad. NO se exige un
vocabulario extenso.
(Syllabus of Grade Examinations in Spoken English for Speakers of Other Languages,
Trinity College, Londres, 1990)
Las pruebas orales en inglés hablado del ESB (The ESB Oral Assessments in Spoken
English as an Acquired Language) son mucho m enos específicas. Para los tres niveles
base los candidatos:
deberán reconocer y producir los nombres de objetos de uso común (por ejemplo,
ropa, mobiliario), y deberían demostrar desde el principio que son conscientes de
los patrones básicos del orden de las palabras en inglés (por ejemplo, grupos
nominales, grupos preposicionales, sujeto —verbo - complemento).
(Oral Assessments in English as an Acquired Language, ESB, 1990)
Un tribunal dice que tiene listas «p ara los exam inadores pero que no las
publica a propósito». Otro dice que dan algunas directrices pero que una «d e s
cripción detallada no se considera apropiada para exámenes com unicativos».
Nos fue difícil encontrar la lógica tras esta afirmación.
PREGUNTA 7(g): Descripción dd contenido dd examen en cuanto a: (II) tema y longitud de los textos
ARELS y Oxford no incluyen una lista de temas establecidos para sus exámenes,
pero tienen una lista de los temas que han tratado en exámenes anteriores. Por
ejemplo, la descripción de contenidos del Oxford Preliminary Levd lista los siguien
tes temas, que se han usado para la pregunta «Escribe acerca de»:
34
Motivos para cambiar de casa

El mejor día de tu vida
Un día de trabajo típico
Una experiencia aterradora
El final de una amistad.
En los exámenes orales del ESB los candidatos escogen sus propios temas para
aproximadamente la mitad del examen. Por ejemplo, preparan charlas por ade
lantado y escogen pasajes de lectura para leer en voz alta. En el Certifícate in English
as an Acquired Language hay también una parte de Comprensión en la que se supone
que los candidatos deben responder a preguntas y opiniones sobre un pasaje de
actualidad general leído por el examinador.
Los pasajes se seleccionarán por su actualidad e interés general y, cuando se
considere apropiado, serán relevantes con respecto a la procedencia nacional y
cultural del candidato.
(The Certifícate in English as an Acquired Language, ESB, 1990)
Los dos exámenes del LCCI que evalúan el inglés para fines profesionales (English
for Business Purposes) no dan la lista de ningún tema, pero pueden deducirse hasta cierto
punto de la descripción de las tareas y de la procedencia de los materiales utiliza
dos. Por ejemplo, una de las cuatro tareas en el nivel tercero es:
Una tarea de comprensión en la que los candidatos deberán mostrar la
comprensión de un pasaje con un objetivo definido. Podría tratarse de un
artículo de prensa, un texto de una publicación de negocios, un informe
comercial, una circular, un documento legal, o cualquier otro tipo de material
comercial escrito con el que los candidatos estén familiarizados en este nivel.
(Rcgulations, syllabuses and timetables of examinations, LCCI, 1991)
Aunque seis de los tribunales y cinco de los responsables de exam en de la
UCLES afirmaron que facilitaban la longitud de los textos, éstos no estaban des
critos en la m ayoría de las publicaciones que recibim os. Sin em bargo, la ESB
especificaba el tiempo m áxim o permitido para los pasajes que debían leerse en
voz alta, y CENTRA citaba el número de palabras de cada texto.
PREGUNTA 7(g): Descripción del contenido del examen en cuanto a: (III) tipos de pregunta, pon
deración de las preguntas, tiempo para cada prueba, tiempo para cada parte de la prueba
Como puede verse en el cuadro 2.1, todos los centros que respondieron a las
preguntas dijeron que describían los tipos de pregunta que incluían en sus exá
menes y especificaban la duración de cada examen, pero había más variación en
el tipo de información sobre la ponderación y la duración de cada prueba. Algu
nos, como ARELS, publican el porcentaje de puntos adjudicado a cada prueba:
Nivel preliminar
Prueba 1: uso social del inglés (20% de los puntos).
Prueba 2: comprensión oral (50% de los puntos).
Prueba 3: expresión oral (30% de los puntos).
(New Edition of Rationale, Regulations and Syllabuses, the Oxford-ARELS
Examinations in English as a Foreign Language)
35
PREGUNTA 7 (h): Descripción de los criterios que se usarán para evaluar la actuación de las estudiantes
Aunque la m ayoría de las tribunales de exámenes dijeron que publicaban los
criterios con los que se evaluaban las actuaciones de los estudiantes, sólo pudi
m os encontrar esta inform ación en algunos de los docum entos que nos hicie
ron llegar. La JMB describía sus criterios para la evaluación de dos tareas de
expresión escrita:
Criterios de evaluación
La nota más alta para la parte B refleja una mayor exigencia en cuanto a
organización e interpretación. Se exigirán respuestas de alrededor de 300
palabras. Puesto que se pide a los candidatos el desarrollo lógico de una
muestra escrita que interprete la información facilitada, deberá evitarse la
descripción extensa de toda la información facilitada. Los candidatos deberían
ser capaces de comparar y contrastar, mostrar relaciones de causa y efecto,
sacar conclusiones, formular hipótesis y producir otros patrones de discurso.
Deberían ser capaces de organizar su escrito en párrafos y de usar variedad de
medios para crear coherencia entre frases y dentro de un mismo párrafo.
Deberían producir frases de la complejidad requerida en el registro formal. Se
espera que los candidatos escriban prosa gramatical prestando atención al
orden de la frase, a la concordancia sujeto/verbo y mostrando un uso
adecuado de la voz y de los tiempos verbales.
(Syllabus for UETESOL, JMB, 1991)
Como puede verse, se han listado los criterios, pero no se explica cóm o van
a transform arse estas ideas en puntos o calificaciones. Tam poco lo hace el
siguiente pasaje de LCCI:
2. Se otorgarán puntos de forma diferenciada por contenido, tono, estilo,
presentación, corrección e impacto comunicativo, según la naturaleza de cada
una de las tareas.
4. No puede quedar duda alguna de que para cualquier tipo de propósito
comercial, el candidato puede percibir y transmitir significado en su expresión
escrita, con rapidez y corrección. El inglés de los candidatos debería ser lo
suficientemente correcto, especializado e idiomàtico como para permitirle
detectar sutilezas de detalle y significado y poderlas expresar cuando escriben.
Los candidatos deberán utilizar su sentido común en cuestiones de adecuación
y conveniencia. Deberían poder hacerse una idea general de la situación a
partir de los fragmentos que se les han presentado y responder de forma
lingüística de manera que beneficie a su situación.
(Regulations, syllabuses and timetables of examinations,
English for Business, 3rd Level, LCCI, 1991)
Las respuestas a esta pregunta coinciden claramente en algunos aspectos con
las respuestas a la pregunta 7 (d ), que preguntaba si los tribunales daban des
cripciones de la ejecución de una prueba m odelo para cada nivel. Uno de los
ejemplos citados bajo la pregunta 7(d) procedía del Trinity College, que intro
duce cada uno de sus doce exámenes orales con un breve párrafo que describe
el nivel del candidato que puede aprobar en el nivel correspondiente.
36
Lo que no está claro es si los examinadores usan alguno de los ejemplos ante
riores como criterios de evaluación o si sólo se utilizan para propósitos de infor
mación. El IELTS ha fijado bandas generales para cada nivel que se presentan a
los estudiantes y que son distintas de las que se usan en los criterios de evalua
ción de la producción escrita y oral de los candidatos. No está claro por qué
algunos tribunales dan un trato confidencial a sus criterios, pues los usuarios de
los exámenes podrían beneficiarse de conocer exactamente cuáles son.
Un tribunal que sí da a conocer sus criterios de evaluación es la Oxford Dele-
gacy, que publica un documento titulado Criterios de puntuación y muestras. Este docu
mento presenta los criterios de puntuación para cada una de las preguntas de
expresión escrita, por ejemplo:
Evaluación de la pregunta 1
Categoría 1 Estilo apropiado y bien planteado. Adecuado a la
tarea, (de 26 a 30 puntos) Gama de vocabulario buena y apropiada y
buen control de las estructuras. Si hay errores
no interfieren con la comprensión. Una
actuación realmente competente.
Categoría 2 Pocos errores, buen control. Adecuado a la tarea.
(de 20 a 25 puntos) Gama de vocabulario buena y apropiada.
Conocimiento del estilo adecuado aunque no lo
domine por completo necesariamente.
O bien, extremadamente correcto, pero con una
gama, complejidad o estilo deficiente.
(Marking Criterio and Samples, Higher Level Paper 1, The Oxford Examination
in English as a Foreign Language)
El documento explica el sistema de evaluación de cada una de las preguntas de
expresión escrita y hace algunos comentarios sobre la actuación de los estudian
tes en cada pregunta. También incluye muestras de tareas de expresión escrita y
facsím iles de una gam a de respuestas de los estudiantes a las preguntas. Cada
muestra está puntuada y cada puntuación va acompañada de una explicación.
Este docum ento es m uy útil, tanto para los estudiantes com o para los profe
sores. Al m enos en lo que se refiere a esta prueba, los estudiantes pueden pre
pararse bien antes de entrar a la sala de examen.
UCLES también facilita manuscritos y puntuáciones para algunos de sus exá
menes. En un volumen llamado English as a Foreign Language: General Handbook (UCLES,
1987), se describen algunos de los exámenes de inglés como lengua extranjera.
Se incluyen pruebas de muestra y, para las pruebas de expresión escrita del FCE
y del CPE, criterios de evaluación, facsímiles de respuestas de alumnos y pun
tuaciones con explicación.
PREGUNTA 7(i): Descripción de cómo se calculan las puntuaciones o notas finales.

Este tema se ha discutido de forma parcial en la pregunta 7 (g) y se discutirá
con m ás detalle en el capítulo 7.
37
PREGUNTA 8: ¿Se ha llevado a cabo algún tipo de «análisis de necesidades» para ayudar al tribunal
a tomar decisiones sobre el propósito, el contenido, el método, el nivel, etc. del examen?
La interpretación que los tribunales hacen del análisis de necesidades varía
ampliamente. La AEB se refirió a la tesis doctoral de Weir (1983), que contiene
un análisis detallado de las necesidades de los estudiantes en ambientes acadé
m icos; un tribunal incluyó algunos informes; y uno mencionó un inform e de
investigación que se utilizó com o base para una revisión de la prueba. Tres tri
bunales se refirieron m uy claramente de form a implícita a la investigación de
m ercados, y dos dijeron que profesores y otras personas facilitaban comenta
rios que aconsejaban las revisiones de las descripciones de contenidos y de exá
m enes. Un centro dijo que sus descripciones de contenidos se revisaban
anualmente pero no indicó cóm o se decidía lo que debía modificarse cada año.
PREGUNTA 9; ¿Se da a los redactores de pruebas alguna información o guía suplementaria?

Casi todos los tribunales dijeron que daban información suplementaria a los
redactores de pruebas. Sin embargo, uno dijo que no lo hacía, y dos dijeron que
la pregunta no era pertinente. De estos dos, uno hacía referencia a la prueba de
la AEB TEEP, de la que ya no se elaboran más versiones, y el otro era un tribunal
que sólo lleva a cabo pruebas orales. El tribunal que respondió negativamente a
la pregunta presuponía que los redactores no necesitaban inform ación suple
mentaria porque se trataba de una prueba de expresión oral. No está claro por
qué los dos últimos tribunales creían que no era relevante para sus pruebas sum i
nistrar información suplementaria a sus redactores, a no ser que quisieran seña
lar que las preguntas que había de formularse dependían más de los examinadores
que de los redactores de la prueba. Si éste es realmente el caso, es de suponer que
los examinadores reciben asesoramiento sobre cómo seleccionar las preguntas o
tareas siguientes. Este tema no fue tratado por ningún tribunal.
La m ayoría de los tribunales no dio detalles de las directrices que dan a los
redactores de pruebas, pero dos facilitaron manuales para los redactores, y uno
o dos más facilitaron breves explicaciones:
Reuniones de puesta en común sobre la elaboración de la prueba con el
examinador jefe.
Redacción de los ítems de acuerdo con unas directrices y revisión de los
mismos en la reunión.
Los examinadores jefes facihtan a los redactores instrucciones detalladas sobre
la elaboración de la prueba.
Asisten a reuniones de redacción antes de convertirse en redactores. Trabajan
en equipos de tres —un redactor para cada parte- con el asesoramiento de un
redactor más experimentado. Tienen dos reuniones como equipo para
consultar el material existente y planificar tareas (UCLES).
Sólo un tribunal dio inform ación extensa, incluyendo una copia de la carta
muestra enviada a los redactores de ítems. Aunque la publicación de la carta vio
laría la condición de anonim ato estipulada por el centro, podem os dar la
siguiente información:
38
Estudio sobre los tribunales de exám enes de in g lé s.. .
A lo largo de los años, los redactores de ítems y de pruebas han recibido

asesoramiento de distintas maneras:
a través de cursos y conferencias de fin de semana para correctores y
redactores de ítems, en los que se discutía y analizaba el contenido del
examen y se trataban nuevos enfoques y tipos de examen;
a través de reuniones con redactores motivados en las que se
intercambiaban los ítems en borrador, se discutían y se modificaban para
su inclusión en futuros exámenes;
a través de una carta detallada enviada a cualquier redactor de pruebas en
potencia que mostrara interés en contribuir a los exámenes;
a través de comentarios y notas específicas sobre los materiales enviados
por los redactores al responsable del examen.
PREGUNTA 10: Cuando los estudiantes se matriculan para su examen, ¿qué información reciben
sobre su objetivo y contenido?
Nueve tribunales no pertenecientes a UCLES dijeron que los centros de exa
men daban a los estudiantes detalles sobre las pruebas. Entre las respuestas más
corrientes de los tribunales, se hallan las siguientes:
La información está a disposición de los estudiantes en los centros en que se
matriculan; además, cualquier estudiante puede recibir la misma información
solicitándola directamente al tribunal de exámenes.
Y también:
Es responsabilidad de los centros que matriculan a los alumnos y que
administrarán la prueba el facilitar información completa sobre el objetivo y el
contenido del examen.
Sin em bargo, un tribunal dijo que facilitaba a cada estudiante la descripción

de contenidos y las directrices relevantes.
De las respuestas de UCLES, dos hacían referencia a los centros responsables
de la matrícula y de la administración de la prueba, dos decían que podían con
seguirse el reglamento y las especificaciones, así como exámenes para practicar
y exámenes anteriores; y uno mencionó un folleto.
Muchas de las respuestas al cuestionario dan la im presión de que los tribu
nales de exámenes dan libertad al centro que administrará la prueba para deci
dir cuántos de entre los num erosos docum entos publicados por el tribunal se
dan a los candidatos. Es posible, naturalmente, que los centros den a los estu
diantes todo lo que esté disponible; pero si no lo hacen, es causa de preocupa
ción, pues si unos estudiantes reciben las publicaciones y otros no, los
estudiantes estarán en distintos estados de preparación cuando se presenten al
examen y, por tanto, los resultados serán poco fiables. Los tribunales deberían
garantizar que los estudiantes reciben tanta inform ación sobre sus exámenes
como sea posible, y que todos los centros de administración de exámenes den
a todos los estudiantes la m ism a información.
39
2.6. Debate
Tal como dijim os en la introducción a este apartado, hay una gran variedad en
el enfoque por parte de los tribunales con respecto a la elaboración de especi
ficaciones y a la transparencia con la que facilitan los fundamentos, los conte
nidos y los criterios de evaluación que sirven de base a sus exám enes. Esta
variedad en la transparencia de la información debe tratarse más a fondo.
Es cierto que hay una serie de aspectos de los contenidos de la prueba que deben
ser confidenciales, especialmente si sólo hay una versión segura; sin embargo, en
muchos casos no se trata de una cuestión de confidencialidad. Cuanto más sepan
<los estudiantes sobre los contenidos y los objetivos de una prueba, m ejor podrán
comportarse de acuerdo con sus propias capacidades en el momento del examen.
Además, cuanto más sepan los profesores sobre la prueba, más fácil les será deci
dir si la prueba es la apropiada para sus estudiantes y también prepararles para la
misma. Saber cuáles son, por ejemplo, las especificaciones para los redactores de
la prueba y tener un conocimiento claro y detallado de los criterios de evaluación,
además de estar familiarizados con los criterios que tienen los examinadores sobre
las muestras de respuestas de otros estudiantes, sería inestimable para todos los
usuarios de la prueba y aumentaría la fiabilidad de los exámenes.
Debería tenerse en cuenta que la información disponible por parte de los tri
bunales no suele identificar claramente su público, y menos de acuerdo con las
directrices propuestas en nuestro apartado 2.3. Los tribunales deberían consi
derar quién debe recibir qué información antes de revisarla, con el fin de adap
tarla al público previsto.
Para finalizar, los Standards for Educational and Psychological Testing (véase el capítulo
11) contienen considerables detalles sobre cóm o deberían elaborarse las prue
bas. Por ejemplo, el criterio 3.2 dice:
Las especificaciones utilizadas para la elaboración de ítems [...] y para el
diseño del instrumento de evaluación como tal deberían definirse claramente.
Debería describirse la definición del universo o ámbito que se utiliza para la
elaboración o para la selección de ítems (página 25).
Y el criterio 3.3 dice:

Las definiciones del ámbito y las especificaciones de la prueba deberían ser lo
suficientemente claras como para que los expertos sobre el tema puedan juzgar
la relación de los ítems con los ámbitos que representan (página 26).
El Code of Fair Testing Practices in Education (véase capítulo 11) dice que los res
ponsables de un examen deberían:
definir lo que cada examen evalúa y para qué debería usarse;
describir la población para la que el examen resulta apropiado... (afirmación 1);
describir el proceso de elaboración de un examen. Explicar cómo se
seleccionaron el contenido y las destrezas que se van a evaluar (afirmación 4).
Parece que la práctica habitual en los tribunales de exámenes del Reino Unido
no siempre se ajusta a estos criterios.
40
Bibliografía
2.7. Sumario
Puesto que las especificaciones variarán de acuerdo con el uso a que estén des
tinadas, no todos los puntos de la lista siguiente estarán presentes en todas las
especificaciones. Por encima de todo, los redactores de especificaciones deben
decidir, para empezar, quién es su público y facilitar la información apropiada.
Las especificaciones de exam en deberían incluir todos o la m ayoría de los
siguientes puntos:
El propósito del examen
Descripción del candidato
Nivel de la prueba
Constructo (marco de referencia teórico para el examen)
Descripción de un curso o libro de texto adecuado
Número de secciones/pruebas
Ponderación de cada sección/prueba
Situaciones contempladas en la lengua meta
Tipos de texto
Longitud de los textos
Destrezas lingüísticas que se van a evaluar
Elementos lingüísticos que se van a evaluar
Tipos de tareas
Procedimientos
Instrucciones
Criterios de evaluación
Descripción de realizaciones lingüísticas típicas para cada nivel
Descripción de lo que los candidatos para cada nivel pueden hacer en el
m undo real
Muestras de exámenes
Muestras de las actuaciones de los estudiantes en cuanto a las tareas.
Biliografía
Alderson, J. C. (1988b). «New Procedures for Validating Proficiency Tests of ESP?
Theory and Practice.» Language Testing, 5 (2), págs. 220-232.
Alderson, J. C. y C. M. Clapham (1992a). «Applied Linguistics and Language Testing:
a Case Study o f the ELTS Test.» Applied Linguistics, 13, págs.149—167.
Alderson, J. C. and C. M. Clapham (1992b). Examining the ESTS Test: An Account of the First
Stage of the ELTS Revision Project. IELTS Research Report 2. The British Council,
University o f Cambridge Local Examination Syndicate and International
Development Program o f Australian Universities and Colleges, Cambridge.
Bachman, L. F. (1990). Fundamental Considerations in Language Testing. Oxford University
Press, Oxford.
Bachman, L. F., A. Kunnan, S. Vanniariajan y B. Lynch (1988). «Task and Ability
Analysis as a Basis for Examining Content and Construct Comparability in Two EFL
Proficiency Test Batteries.» Language Testing, 5, pigs. 128—160.
41
Clapham, C. M. y J. C. Alderson (en prensa). Constructing and Trialling the IELTS Test. IELTS
Research Report 3. The British Council, University o f Cambridge Local
Examinations Syndicate and International Development Program o f Australian
Universities and Colleges, Cambridge.
Criper, C. y A. Davies (1988). ELTS Validation Project Report, ELTS Research Report 1 (I).
The British Council y University o f Cambridge Local Examination Syndicate,
Londres y Cambridge.
Davidson, F. y B. Lynch (1993). «Criterion-Referenced Language Test Development.
A Prolegomenon.» En A. Huhta, K. Sajavaara y S. Takala (eds.), Language Testing: New
Openings. Institute for Educational Research, Universidad de Jyvaskyla, Finlandia.
Hughes, A. (1988). «Achievement and Proficiency: The Missing Link.» En A.
Hughes (ed.), Testing for University Study, ELT Documents 127. Modern English
Publications, Londres.
Hutchinson, T. y A. Waters (1987). English for Specific Purposes: A Learner Centred Approach.
Cambridge University Press, Cambridge.
Hymes, D. H. (1972). «O n Communicative Competence.» En J. B. Pride y J. Holmes
(eds.), Sociolinguistics, pags. 269—293. Penguin, Harmondsworth.
Munby, }. (1978). Communicative Syllabus Design. Cambridge University Press,
Cambridge.
Robinson, P. (1980). ESP (English for Specific Purposes). Pergamon, Oxford.
Swales, J. (1985). Episodes in ESP. Pergamon, Oxford.
Weir, C. J. (1983). «Identifying the Language Problems of Overseas Students in
Tertiary Education in the United Kingdom.» Tesis doctoral. Universidad de Londres.
42
3 La redacción de ítems y la función moderadora
En este capítulo trataremos lo que se requiere para redactar buenos ítems de

examen. Describirem os algunos de los peligros que se deben evitar y los pro
cedim ientos que se deben seguir para subsanar m uchos errores obvios antes
de llevar a cabo los ensayos previos a la administración del examen. Intenta
rem os responder a las siguientes preguntas: ¿Qué hace a un buen redactor de
ítem s? ¿Nace o se hace? ¿Por dónde em pieza la redacción de un ítem? ¿Qué
m étodos son los m ás adecuados para evaluar unas habilidades en particular?
Cuando no hay acuerdo sobre la calidad de un ítem, ¿cóm o podem os resol
ver el desacuerdo? ¿Qué principios y directrices deberíam os seguir cuando
redactam os ítem s? ¿Cuál es la función del comité de redacción y cóm o fun
ciona este tipo de comités?
3.1. Requisitos para redactar ítems

El objetivo y el contenido del exam en determinará hasta cierto punto quién
puede ser el m ejor redactor de ítems. Siempre resulta útil que los que redac
tan los ítem s tengan experiencia reciente en la docencia de estudiantes sem e
jantes a los que se presentarán al exam en, puesto que su experiencia com o
profesores les perm itirá hacerse una idea sobre lo que estos estudiantes con
sideran fácil o difícil, lo que les interesa, su bagaje cultural, etc. Por ejem
plo, si el exam en es de expresión escrita para fines académ icos, alguien con
experiencia en este cam po y en su docencia y con práctica en la corrección
de los escritos que presentan sus estudiantes estará m ás preparado para redac
tar m ejores pruebas que alguien sin esta experiencia. Para exámenes de apro
vechamiento es im portante que aquellos que redacten la prueba sepan lo que
es razonable esperar de alum nos que han finalizado un estadio concreto en
su aprendizaje y tam bién hasta qué punto los estudiantes han progresado en
el program a. Es pues probable que los profesores que tengan experiencia con
alum nos de tales características, o con asignaturas relacionadas, y que cum
plan los requisitos profesionales necesarios para la realización de su trabajo
en la situación en la que se desarrolla la prueba, sean buenos redactores de
ítems.
Sin em bargo, estas personas no serán necesariamente buenas redactoras de
ítems. Tener la experiencia necesaria no garantiza que se tengan las ideas claras
sobre lo que significa redactar buenas tareas ni la creatividad e imaginación nece
sarias para escribir buenos ítems. Creatividad, sensibilidad, ideas claras e im a
ginación: todas éstas son las cualidades que debe tener un redactor, difíciles de
43
La redacción de ítem s y la función moderadora
definir y difíciles de identificar en los futuros redactores de ítems, pero obvia

mente ausentes en los m alos redactores.
Algunos exámenes son elaborados por redactores profesionales que trabajan
con dedicación plena para una institución que elabora exámenes, o que traba
jan de form a independiente com o redactores para varias instituciones. Tales
redactores com binan de form a ideal la experiencia y los requisitos de un pro
fesor relacionado con la materia y las cualidades de un redactor de ítems pers
picaz. Tales individuos existen y producen ítems excepcionalmente buenos, pero
debe decirse que no abundan.
Una de las ventajas de emplear a un redactor de ítems profesional es que esta
persona será capaz de reproducir ítem s de un examen para otro: es notoria la
dificultad de escribir pruebas paralelas, y la sabiduría que desarrollan los redac
tores profesionales sobre cóm o funcionan los ítem s de exam en es un ingre
diente m uy importante en la producción de pruebas consistentes. Sin embargo,
tales redactores de ítems profesionales tienden a ser m enos sensibles al público
que evalúan, a los cam bios en el currículo o en su aplicación, a las variaciones
en los niveles escolares o en los destinatarios de las pruebas y a otras caracte
rísticas del entorno del examen. Sin duda, la m ejor solución es tener equipos
de redacción de ítem s que incluyan a redactores profesionales y a profesores
con la experiencia adecuada.
3.2. Exámenes versus ejercicios

Cuando nos preguntam os «¿Q ué caracteriza a un buen redactor de pruebas?»,
también podríam os preguntarnos «¿Q ué caracteriza a un buen autor de libros
de texto? » La elaboración de un ítem es muy similar a la elaboración de un ejer
cicio escolar en el que se presenta a los estudiantes una tarea que tienen que lle
var a cabo o unos datos que tienen que interpretar y, mediante las respuestas
del profesor y de los compañeros, junto con la introspección y la observación
de sí m ism os, desarrollar la capacidad de m odificar su com portam iento y su
pensamiento. De manera parecida, los ítems de una prueba pretenden que los
estudiantes lleven a cabo tareas e interpreten datos, pero en este caso el objetivo
es el de provocar actuaciones o enunciados que se considerarán com o dem os
tración de una habilidad. Un ítem de examen constituye un m étodo para pro
vocar una actuación o un enunciado, junto con un sistem a por el que tal
actuación o enunciado pueda ser juzgado.
Creemos, pues, que no hay diferencias importantes entre la redacción de un
ítem para una prueba y la redacción de ama tarea de aprendizaje o un ejercicio.
Así, cualesquiera que sean las cualidades requeridas para el redactor de un ejer
cicio lo son también para los redactores de pruebas. Incluso pueden usarse las
fuentes de inspiración de los ejercicios en la redacción de pruebas: los redacto
res de pruebas, en otras palabras, pueden y deben ser lo m ás imaginativos posi
ble cuando piensen en sus tipos de ítem, y una fuente de ideas m uy útil son los
libros de texto y otros materiales de aprendizaje.
44
■
¿Por dónde empezar?

Resulta interesante que, según nuestra experiencia, los profesores sean tan
reacios a la hora de enseñar a extraños las pruebas que han escrito, mientras que
no tienen ningún inconveniente en mostrar los ejercicios que han escrito para
utilizar en el aula. Eso puede ser así por el aura que rodea a la redacción de prue
bas, cosa que no sucede con la redacción de ejercicios: existe la creencia de que
los exámenes son de por sí difíciles de redactar. En realidad, nuestra experien
cia es que los extraños tienden a ser mucho más críticos con los ítems de exa
m en que con los ejercicios de aprendizaje, y esto puede tener un efecto
inhibidor en los redactores de pruebas.
Esta reticencia a la hora de m ostrar los propios ítems a los demás no sólo se
debe a la creencia de que redactar pruebas es difícil. Puede también deberse a
una diferencia im portante entre las pruebas y los ejercicios de clase que hace
que la redacción de pruebas resulte más difícil. El hecho es que cuando los estu
diantes responden a una prueba lo hacen de forma individual: no reciben nin
guna ayuda de sus com pañeros ni de su profesor. ¡Tal ayuda se llamaría
«cop iar»! Sin em bargo, cuando hacen ejercicios, los estudiantes esperan reci
bir ayuda de com pañeros y profesores, o al m enos esperan poder pedir ayuda
si la necesitan. Así, la principal diferencia entre una prueba y un ejercicio es
que con los ejercicios los estudiantes reciben ayuda; con los exámenes, no. El
efecto de esta diferencia es que los ítem s de un examen deben ser más claros
que los ejercicios de clase. Las instrucciones deben ser lo más simples y preci
sas posible, y las tareas deben resultar fam iliares para que se pueda evaluar a
todos los candidatos de acuerdo con sus habilidades y no de acuerdo con sus
conocim ientos de la tipología de la tarea. Los ítems de examen, pues, deben
ser autoexplicativos hasta un punto a m enudo innecesario en un ejercicio de
clase. Los profesores pueden compensar un ejercicio poco claro parafraseando,
dando ejem plos, demostrando qué debe hacerse, o incluso saltándose aquellos
ejercicios que los estudiantes no entienden o no les interesan. El estudiante no
tiene esta posibilidad durante un exam en y por tanto el redactor de pruebas
tiene la obligación de garantizar que no haya am bigüedades en ningún ítem.
Es interesante señalar que hablam os de la validez de un ítem de examen m ien
tras que no es habitual hablar de la validez de un ejercicio de clase. De todas
maneras, el concepto tiene vigencia en un debate sobre las tareas de aprendi
zaje: las tareas que no permiten a los estudiantes aprender o practicar lo que se
supone que deben aprender o practicar no son válidas. Los exámenes difieren
de los ejercicios de clase en que los prim eros deben ser válidos (y fiables),
mientras que los ejercicios generalmente no lo son.
3.3. ¿Por dónde empezar?

Los redactores de ítem s deben em pezar su tarea por las especificaciones de
la prueba (véase capítulo 2). Esto puede parecer dem asiado obvio, pero es
sorprendente cuántos redactores intentan empezar a redactar pruebas mirando
los exám enes de años anteriores y no las especificaciones. El recurso a los
45
La redacción de ítems y la función moderadora
exámenes de años anteriores se debe probablem ente al hecho de que m uchos

exám enes no tienen especificaciones. Hay dos problem as a la hora de inten
tar repetir o u tilizar lo s exám enes an tiguos. Prim ero, hay que deducir los
objetivos y los p ropósitos, que a m enudo no son fácilm ente deducibles: los
objetivos y los contenidos están im plícitos en un exam en antiguo, y sólo se
suelen explicitar en las especificaciones. Segundo, las especificaciones abar
can m ucho m ás que un exam en previo. Cualquier prueba es necesariam ente
sólo una m uestra de lo que podría haber incluido. Redactar una prueba a par
tir de pruebas previas es pues una form a de lim itar al redactor de las p ru e
bas a lo que ya se ha evaluado. Es práctica habitual variar el contenido, y a
m enudo el m étodo, de cada nueva prueba que se prepara, a n o ser que se
tenga que elaborar una prueba estrictam ente paralela, y éste no debiera ser
el caso de los exámenes de aprovechamiento ni lo es normalmente de los exá
m enes de dom inio. Así pues, es prim ordial ir a las especificaciones del exa
m en para asegurar una m uestra lo m ás am plia posible del contenido y de los
m étodos de exam en.
Lo que debe hacerse después de haber consultado las especificaciones de la
prueba dependerá del tipo de prueba que se vaya a elaborar. Si la pm eba es sobre
elementos lingüísticos discretos, tales como léxico o gramática, el siguiente paso
será probablem ente consultar exámenes previos o algún inventario del conte
nido de exámenes anteriores para evitar el peligro de repetir excesivamente el
contenido de otras pruebas. Aunque m irar el contenido de exám enes previos
puede ser útil, es m ejor clasificar de forma sistemática el contenido de todas las
pruebas administradas. Los responsables del examen deberían llevar un archivo
del contenido de todas sus pruebas.
Consultar este inventario será un segundo paso m uy útil para los redactores
que están redactando pruebas basadas en textos, por ejemplo, de comprensión
oral o de com prensión de lectura, y quizá también de expresión oral y expre
sión escrita. El inventario debería mostrar los tipos de textos que ya se han usado,
y las especificaciones indicarán los géneros, procedencia, dificultad, etc. (véase
capítulo 2) apropiados para la prueba en cuestión.
La siguiente tarea del redactor de pruebas en m uchos exámenes es encontrar
textos apropiados. En este caso «ap rop iad os» significa no sólo textos que coin
cidan con las especificaciones, sino también textos que faciliten ítem s adecua
dos. No todos los textos se prestan a la redacción de ítem s, y una buena
recomendación para los redactores de ítem s es dedicar tiempo a buscar textos
que prometan. Encontrar textos adecuados puede llegar a ser tan problem a y a
m enudo los redactores guardan su propio «b an co » de textos que pueden utili
zar en exám enes futuros y que incrementarán constantemente a partir de sus
lecturas diarias. Es a m enudo una buena idea, sobre la que insisten algunos
redactores, conseguir la aprobación de los textos por parte del comité de redac
ción antes de proceder a la redacción de ítem s o tareas. Es sim plem ente una
forma de ahorrar tiempo, puesto que redactar ítems sobre un texto que se recha
zará es poco eficaz y resulta deprimente.
46
Tipos de ítems
3.4. Tipos de ítems

Es importante darse cuenta de que el m étodo usado para evaluar una habilidad
lingüística puede p or sí m ism o afectar a la calificación obtenida por el estu
diante. Los especiahstas llaman a este hecho efecto del método, y su influencia debe
ría reducirse al m áxim o. N o nos interesa saber si a un candidato se le dan bien
las pruebas de elección múltiple o es m ejor a la hora de completar textos con
huecos (doze tests) que los demás candidatos, o si le resultan bastante difíciles las
descripciones verbales de una serie de fotos. N os interesa averiguar los conoci
m ientos gramaticales de un candidato, su habihdad lectora o sus destrezas ver
bales. Todavía no sabemos demasiado sobre el efecto de los métodos de examen,
pero cuanta m ás investigación se dedique a observar cóm o responden los estu
diantes a los distintos m étodos de evaluación, empezaremos a entender el efecto
o, m ejor, los efectos, de forma más completa.
Sin embargo, se ha llevado a cabo una considerable investigación sobre algu
nos m étodos: la técnica de doze, y los c-tests, por ejemplo (véanse páginas 57 y
58). Se ha realizado mucha investigación utilizando los exámenes de tipo doze
com o variables, pero se ha hecho mucho m enos para ver lo que estos exám e
nes m iden exactamente. Lo que está claro, sin embargo, es que diferentes exá
menes de tipo doze m iden cosas distintas, es decir, un examen producido con la
aplicación de la técnica del doze sobre un texto puede o no medir lo m ism o que
otro examen distinto producido con la m isma técnica sobre el mismo texto. Esta
variación es imprevisible y suele depender de qué palabras se han suprimido.
Resum iendo, no se puede saber por adelantado lo que evaluará una determi
nada prueba tipo doze sin haber validado la prueba de la forma habitual (véase
el capítulo 8). Esto significa que el efecto del método de la técnica doze será pro
bablemente muy complejo. Sin embargo, se ha demostrado que cuando los estu
diantes responden a exámenes de tipo doze, leen de forma distinta a la habitual;
leen una pequeña cantidad de texto justo antes del hueco, pero no leen el texto
que viene justo detrás del hueco. N os parece que esto se debe a la propia téc
nica de la prueba; la existencia de huecos a intervalos regulares tiende a indu
cir a una lectura de «texto corto», y muchos de los que responden a exámenes
de tipo cloze m uestran una falta de atención al significado del contexto más
amplio, cosa que no hacen cuando leen normalmente, cuando son realmente
sensibles al contexto.
De form a parecida, se ha demostrado que m uchos alumnos pueden apren
der estrategias para responder a exámenes de respuesta múltiple que inflan sus
notas artificialmente: técnicas para acertar la respuesta correcta, para eliminar
opciones poco probables, para evitar dos opciones con significado parecido,
para seleccionar una opción notablemente más larga que las otras, etc. (véase
Alian, 1992, y su interesante descripción de una prueba de habilidad para res
ponder a exám enes elaborada para identificar a estudiantes que han desarro
llado tales estrategias). Existen tam bién anécdotas de estudiantes que han
realizando pruebas de respuesta m últiple cuyo m étodo les ha llevado a optar
47
La redacción de ítem s y la función m oderadora
por alternativas que no habrían elegido en otras circunstancias (véase el debate

sobre preguntas de respuesta múltiple en Oller, 1979): el m étodo de exam en
engaña a los incautos, que hacen interpretaciones erróneas que no hubieran
hecho en otras circunstancias.
Además, es probable que algunos m étodos de examen en particular se pres
ten a evaluar unas habilidades concretas y no sean tan buenos para evaluar otras.
Un ejemplo extremo es el de los exámenes de respuesta múltiple, que no son
adecuados para evaluar la habilidad de pronunciar una lengua correctamente.
A pesar de las sugerencias de Lado (1 9 6 1 ) y de las creencias en Japón sobre lo
contrario, Buck (1 9 8 9 ) demostró claramente que los resultados de las pruebas
de respuesta múltiple de pronunciación no muestran correlación con la h abi
lidad de los candidatos a la hora de pronunciar correctam ente los fonem as
ingleses. Un ejem plo m enos extremo podría ser la técnica de respuesta m últi
ple para evaluar la com prensión de lectura: puede resultar m ás fácil controlar
los procesos cognitivos de los lectores con técnicas de respuesta múltiple que
con preguntas de respuesta breve (puesto que el redactor de la prueba puede
idear opciones para que los candidatos razonen de ciertas maneras), y este con
trol puede ser deseable para evaluar la capacidad de inferencia en una lengua
extranjera.
Por desgracia, nuestros conocimientos sobre los efectos del m étodo de exa
men son todavía tan rudimentarios que no es posible recomendar m étodos con
cretos para evaluar habilidades lingüísticas en particular. Éste es quizá el talón
de Aquiles de la evaluación de idiom as.
En ausencia de tales recomendaciones el mejor consejo que puede darse a un
redactor de ítems es asegurarse de que se utilice más de un método para evaluar
cualquier habilidad. Una disciplina muy útil es la de idear un ítem de examen que
cubra una habilidad u objetivo, y después idear otro ítem que evalúe la m ism a
habilidad usando un m étodo o un tipo de ítem distinto. Esto puede conducir a
una mayor comprensión sobre lo que distintos tipos de ítems evalúan, y debería
conducir a un mayor conocimiento de las distintas posibilidades de los ítems.
En general, cuanto m ás m étodos diferentes emplee una prueba, más seguri
dad tendremos de que la prueba no se inclina hacia un m étodo o h ada un tipo
de estudiante en concreto. Además, si una serie de pruebas va a elaborarse a lo
largo de los años (por ejemplo, las pruebas de final de curso de una institución)
recomendamos que los redactores varíen deliberadamente los m étodos usados
para que ninguno predom ine y la prueba no se vuelva prededble (véase tam
bién el capítulo 10). Aunque sabem os sorprendentem ente poco sobre cóm o
influyen los exámenes en la d ocen d a (véase Alderson y Wall, 1993, y Wall y
Alderson, 1993, para una discusión sobre el efecto de rebote -washback-), es
probable que el hecho de «m antener a los estudiantes en vilo », variando los
métodos de evaluación año tras año, reduzca la previsibilidad del formato de la
prueba y posiblemente el aprendizaje de estrategias para responder a exámenes
de un tipo de prueba en concreto.
48
Problemas con tipos de ítem s concretos
3.5. Problemas con tipos de ítems concretos

Mientras no se sepan los efectos de los diferentes m étodos de evaluación, los
redactores de pruebas necesitan saber las pegas ya conocidas de algunos m éto
dos de evaluación en concreto y aprender cómo evitar los errores más comunes
a la hora de redactar ciertos tipos de ítems. Heaton, 1988 aconseja sobre la
redacción de distintos tipos de ítem y cómo evitar redactar m alos ítems, y exis
ten diversas publicaciones que dan ejemplos de distintos tipos de ítems (véase,
por ejemplo, Valette, 1977; Hughes, 1989, y Weir, 1988). No entraremos pues
en un análisis detallado de ítems, pero describiremos algunos de los problemas
más comunes asociados a ellos, empezando con pruebas de corrección objetiva
y pasando m ás adelante a pruebas más subjetivas.
3.5.1. Problemas generales

Hay algunos problemas que afectan a todos los tipos de pruebas, y quizá lo más
fundamental es la pregunta «¿Q ué evalúa el ítem en realidad?» Es m uy fácil en
m uchos tipos de ítem que se evalúe algo distinto de lo previsto. El ítem
siguiente, por ejemplo, está redactado para evaluar la ortografía:
Reorganiza las letras siguientes para formar palabras inglesas:

RUFTI RSOEH MSAPT
TOLSO RIEWT PAHYP
Puede ser que el ítem evalúe ortografía, pero también evalúa la inteligencia,
la habilidad para resolver anagramas y, quizá, vocabulario. Para realizar esta tarea
con éxito puede ser m ás importante el saber hacer la operación mental reque
rida que saber ortografía.
Es m uy común, por desgracia, especialmente en exámenes de dominio de un
nivel avanzado, evaluar la inteligencia al m ism o tiempo o en lugar de la lengua.
De forma similar, también se evalúan conocimientos generales en vez de la com
prensión oral o de lectura. Dos ejemplos de este tipo de ítem se discutirán en el
apartado 3.5.2.
Otro punto fundam ental es que se dé un punto por cada ítem, y que cada
ítem sea independiente del resto. El éxito en responder a un ítem no debería
depender del éxito en otro ítem. Por ejem plo, si sólo es posible responder al
segundo ítem en una prueba de comprensión de lectura después de haber con
testado correctamente al prim ero, el candidato que suspenda el ítem número
1 suspenderá automáticamente el ítem número 2 y perderá por tanto dos pun
tos en vez de uno. Algunos redactores integran los ítems de tal forma que res
ponder correctam ente a unos ítem s depende de haber contestado bien a los
que les precedían, y esto puede acarrear problem as. Discutirem os este punto
en el apartado 3.5.4.
El punto final de este apartado general es que las instrucciones para todos los
ítems deben estar m uy claras. A m enudo los estudiantes suspenden un examen
o un ítem no porque tengan un nivel bajo de conocimientos lingüísticos sino
49
La redacción de ítem s y la función moderadora
porque no comprenden qué deben hacer. Si es posible, el tipo de redacción uti

lizado debería ser m ás fácil que el de los ítems en sí, y en algunos casos las ins
trucciones deberían escribirse en la lengua materna de los candidatos. Cada
nuevo grupo de ítem s debería ir precedido de un ejem plo con su respuesta
correspondiente marcada.
3.5.2. Respuesta múltiple

El requisito m ás importante de un ítem de respuesta múltiple es que la respuesta
«correcta» debe ser verdaderamente correcta. (Véase Peirce, 1992, para comen
tarios interesantes sobre este punto y sobre otros problem as que surgen en la
elaboración de pruebas de lectura con respuesta múltiple.) Aunque esto parece
obvio, es m uy posible, especialmente en tareas de comprensión oral o de lec
tura, dar como correctas respuestas con las que muchos colegas no estarían de
acuerdo. Tal tipo de respuestas dudosas es particularmente común en pregun
tas de inferencia. Cada respuesta «correcta», pues, debe cotejarse con otros pro
fesores para evitar problem as como el siguiente:
¿Qué respuesta no corresponde?
A. rabbit (conejo)
B. haré (liebre)
C. bunny (conejito)
D. deer (ciervo)
El redactor ha previsto que la respuesta correcta sea la D, pero algún buen

estudiante puede escoger la respuesta C, porque bunny es una palabra del len
guaje familiar utilizada por los niños.
El otro requisito es que los redactores de ítems deben asegurarse de que sólo
haya qna respuesta correcta cuando la clave de respuestas sólo ofrezca una res
puesta. Todos hem os hallado ítem s con más de una alternativa correcta. Fre
cuentemente los redactores de ítem s se centran en una sola respuesta y no
pueden ver que otra u otras alternativas también son posibles y aceptables. Esto
sólo puede descubrirse mostrando los ítems a otras personas.
El siguiente ítem se escribió siguiendo escrupulosamente las reglas dadas en
un libro de texto para principiantes. Sin em bargo, cuando se preguntó cuál es
la respuesta correcta a hablantes nativos de la lengua no se ponían de acuerdo.
-W hy hasn’t your mother come?
-W ell, she said she __________ leave the baby.
A. can’t
B. w on ’t
C. couldn’t
D. m ayn’t
De acuerdo con el libro de texto, la respuesta correcta es la C, según las reglas

del discurso referido. Sin embargo, muchos de los hablantes nativos con los que
se probó este ítem dijeron que tanto A como B eran perfectamente aceptables,
50
especialmente en la lengua hablada. Nuestra experiencia nos demuestra que pre

tender seguir de forma demasiado rigurosa lo que dice el libro de texto puede
llevar a ítems con m ás de una respuesta aceptable.
Cada alternativa errónea debería atraer al m enos a algunos de los alumnos.
Si nadie opta por alguna de las alternativas ofrecidas, es señal de que esta alter
nativa es inútil y debería suprim irse. En general es una buena idea tener al
m enos cuatro respuestas alternativas, para que sólo haya un 25% de posibili
dades de que los estudiantes acierten la pregunta al azar, pero si es im posible
encontrar una tercera respuesta errónea, lo más sensato es ofrecer sólo tres alter
nativas en algunas preguntas.
Si es necesario, los ítem s de respuesta múltiple deberían presentarse en un
contexto. A m enudo el redactor, cuando redacta un ítem, tiene un contexto en
mente que no es necesariamente obvio para los demás, y esto puede afectar a la
respuesta de los estudiantes, que pueden equivocarse aunque tengan el nivel de
conocimientos requerido.
La presentación de contexto reduce a m enudo las posibilidades de am bigüe
dad, por ejemplo:
Elige la opción más cercana en cuanto a significado a la palabra subrayada:
Vuelve pronto. . . ,
A. dentro de poco tiempo
B. más tarde
C. hoy
D. mañana
La ausencia de contexto hace dudar si la opción B es realmente errónea. Sería
más claro de la forma siguiente:
Rellena el espacio en blanco con la opción más adecuada:
Visitante: Muchas gracias por esta maravillosa reunión.
Anfitriona: Estamos encantados de que pudiera venir. V uelva________ .
A. pronto
B. más tarde
C. hoy
D. mañana
Esta nueva versión tam bién corrige otros problem as. En la versión o rigi
nal la respuesta correcta, la A, no se adapta fácilmente al verbo que inicia la
frase, puesto que en m uchos contextos no es corriente decir «Vuelva dentro
de poco tiem p o ». Este hecho p odría preocu par a algun os de los m ejores
alum nos, que p odrían escoger una respuesta incorrecta. Com o no hay un
sin ón im o exacto para « p r o n to » , y com o no es necesario en este nivel de
aprendizaje de lengua m ostrar la capacidad de producir sinónim os, la nueva
versión es m ás apropiada.
La alternativa correcta no debería ser m uy distinta a sim ple vista del resto
de las opciones, para que no resulte obvia. No debería ser ni mucho m ás larga
51
ni m ucho m ás corta, ni tam poco debería estar escrita en un estilo distinto.

Heaton (1 9 8 8 : 32) da el ejem plo siguiente cuando describe m alos ítem s de
respuesta m últiple:
Elige la opción más cercana en cuanto a significado a la palabra subrayada:
Se atragantó mientras com ía pescado.
A. empezó a m orir
B. puso a toser y a vomitar
C. le hizo imposible respirar al tener algo en la tráquea
D. enfadó mucho
Hay varios problemas con este ítem. El más obvio es que la respuesta correcta,
la C, es inmediatamente identificable porque es mucho más larga que las otras
alternativas. Parece una definición de diccionario, y cualquier candidato que
dude a la hora de responder la escogerá.
En segundo lugar, la opción B está relacionada con «atragantarse» desde un
punto de vista semántico y podría, por tanto, ser aceptable para m uchos estu
diantes. Después de todo, ¿qué quiere decir la opción m ás cercana? Para ase
gurarse de que la opción B es m enos «cercan a en cuanto a sig n ificad o », el
redactor se ha visto forzado a dar una «definición de diccionario» para que la
respuesta C sea realmente la m ás «cercana en cuanto a significado» a la pala
bra «atragantó».
En tercer lugar, sin m ás contexto que el que se da, no puede saberse si el
sujeto en cuestión se asfixiaba a causa de la comida o si es que estaba m uy enfa
dado. El hecho de que la frase sea «Se atragantó mientras com ía pescado», en
vez de «Se atragantó con una espina» implica que quizá lo que en realidad pasó
es que se enfadó m ucho. Y si no, ¿por qué se acaba la frase con un «m ientras
com ía pescado»? Es com o una pregunta trampa para confundir a los m ejores
alum nos. Si la frase tuviera un contexto m ás am plio, las alternativas serían
m enos am biguas.
Otro requisito de las preguntas de respuesta múltiple es que cada opción debe
poder encajar perfectamente en el contexto. Heaton (1988: 29) cita el siguiente
ítem, en el que la respuesta correcta, la C, no encaja, porque en inglés el articulo
indefinido « a » no puede usarse delante de un nom bre que empieza por vocal:
Someone who designs houses is a __________ .

A. designer
B. builder
C. architect
D. plumber
Tal com o dijim os en el apartado 3.5.1, algunos ítems no evalúan lo que se

pretende que evalúen. Esto ocurre con m ayor frecuencia en pruebas de com
prensión en las que los ítem s suelen acabar evaluando conocim ientos genera
les. Es por desgracia m uy fácil escribir ítems a los que se puede responder sin
necesidad de leer o escuchar el texto. Por ejemplo:
52
(A continuación de un texto sobre la memoria.)

Memorizar es m ás fácil cuando el contenido que hay que aprender ...
A. está en una lengua extranjera.
B. ya es en parte conocido.
C. no es conocido pero es fácil.
D. no tiene demasiado interés.
Aunque no leam os el texto, está claro que éste es un mal ítem. El sentido
común y la experiencia nos dicen que la opción A no es verdadera, que la D es
m uy poco probable, y que la B es probablemente la respuesta correcta. La única
alternativa que parece depender del texto para su interpretación es la C, puesto
que «n o conocido» y «fácil» son palabras relativamente ambiguas.
Tales ejemplos son corrientes, incluso cuando los ítems han pasado por dis
tintos filtros. Aquí hay otro ejemplo sacado de un examen de ámbito nacional,
en el que cinco ítems se podían contestar sin leer el texto:
(A continuación de un texto sobre árboles.)
¿Quién obtiene comida de los árboles?
A. Sólo el hombre.
B. Sólo los animales.
C. El hom bre y los animales.
Diga lo que diga el texto, es sin duda del dominio general que tanto los huma
nos com o los animales obtienen comida de los árboles.
Este problem a de ítems independientes del texto que se lee o se escucha no
se limita a ítems de respuesta múltiple. Puede encontrarse también en otro tipo
de preguntas con respuestas de corrección objetiva, y también en preguntas de
respuesta breve. Para asegurarse de que no se puede responder a preguntas de
com prensión sin hacer referencia al texto, los supervisores de ítems deberían
intentar responder a las preguntas antes de ver o escuchar el texto sobre el que
están redactadas.
Para finalizar, otra dificultad con la que pueden encontrarse los redactores de
ítems se halla en las tareas en las que los estudiantes deben corregir algún texto.
En el caso de que deban identificar un error en una frase, por ejemplo,
A B C
A pesar de la lluvia / el profesor de los niños / no permitió /
D E
quedarse dentro / durante el recreo.
En este caso tanto la opción C como la D pueden ser las respuestas correctas,
dependiendo del tipo de error que se esté buscando. Cualquiera de las frases
siguientes es correcta:
... el profesor de los niños no les permitió quedarse dentro...

... el profesor de los niños no permitió que se quedaran dentro...
Es probablemente sensato evitar frases que tengan un error sea de omisión.
53
f La redacción de ítem s y la función m oderadora
3.5.3. Otros ítems de corrección objetiva
ÍTEMS DICOTÓMICOS
Los ítems a los que debe responderse con un Verdadero/Falso o S í/N o son en
general insatisfactorios puesto que hay un S 0% de posibilidades de acertar la res
puesta al azar. Si queremos saber algo sobre la capacidad de un estudiante es nece
sario tener un gran número de estos ítems para poder reducir los efectos del azar.
Algunos redactores de ítems reducen la posibilidad de acertar la respuesta correcta
al azar incluyendo una tercera categoría com o «n o se dice» o «n o consta». Esto
puede ser útil en una prueba de comprensión de lectura, pero no en una prueba
de comprensión oral, especialmente si el texto sólo se pasa una vez, puesto que
puede ser demasiado exigente y puede llevar a confusión.
RELACIONAR (MATCHING)
Con «relacionar» nos referimos a los ítems en los que se da a los estudiantes una
lista de posibles respuestas que tienen que emparejar con otra Üsta de palabras,
expresiones, frases, párrafos o estímulos visuales. En el siguiente ejemplo, los estu
diantes deben emparejar las cuatro palabras de la izquierda con las de la derecha
para formar otras palabras inglesas. Por ejemplo: car y pet forman caipet.
1. car A. room
2. cup B. pet
3. bed C. dress
4. night D. board
El inconveniente de este ítem es que, una vez que se han emparejado correc
tamente tres de los cuatro ítems, el cuarto será correcto por defecto. Es aconse
jable, pues, dar m ás alternativas de las que la tarea en sí requiere. El ejem plo
anterior podría m ejorarse si los estudiantes tuvieran que escoger entre seis o
siete palabras en la columna de la derecha.
TRANSFERENCIA DE INFORMACIÓN
Este tipo de tarea se usa en la m ayor parte de los casos en las tareas de com
prensión oral y de lectura. Los candidatos deben transferir información del texto
a un cuadro, tabla, cuestionario o m apa. Estas tareas se asem ejan a m enudo a
actividades que se realizan en el m undo real y son por tanto m uy utilizadas en
las series de pruebas que intentan incluir tareas auténticas. Algunas veces las res
puestas consisten sólo en nom bres y núm eros, y pueden corregirse de forma
objetiva. A veces toman la forma de expresiones o de frases cortas y deben corre
girse de forma m ás subjetiva. El problema de estos últimos ítems es similar a los
que hem os descrito en un apartado m ás adelante bajo el nom bre de preguntas
con respuestas cortas.
Lino de los principales problem as de las preguntas de transferencia de infor
m ación es que la tarea puede ser m uy complicada. A veces los candidatos tar
54
dan tanto en descubrir lo que debe escribirse en la tabla que no consiguen resol
ver lo que lingüísticamente es un problem a sencillo.
Otro problem a es que la tarea puede ser discriminatoria desde un punto de
vista cultural o cognitivo. Por ejemplo, el candidato puede tener que escuchar
la descripción del itinerario de alguien a través de una ciudad y marcar la ruta
en el m apa. Los estudiantes que no estén familiarizados con planos o que ten
gan dificultades a la hora de leer m apas estarán en desventaja con tareas de
este tipo.
TAREAS DE ORDENAMIENTO
En una tarea de ordenamiento se pide a los candidatos que ordenen un grupo
de palabras, expresiones, frases o párrafos. Tales tareas son habitualmente uti
lizadas para evaluar la gramática, simple o compleja, la referencia y la cohesión,
o la comprensión de lectura. Casi todas estas tareas son difíciles de redactar por
que no es fácil encontrar palabras o expresiones que sólo tengan sentido orde
nadas de una form a concreta. Por ejem plo, la siguiente pregunta puede
responderse com o m ínim o de dos formas:
Ordena ias palabras siguientes de forma que se complete la frase:

Ella d i o __________________________________________.
libro su ayer madre el a
Es todavía m ás difícil redactar ítem s en los que las frases o párrafos deban
reordenarse. Por ejemplo:
Las frases y expresiones siguientes proceden de un pánafo de una historia de aventuras. Ponías en
el orden correcto. Escribe la letra correspondiente en el espacio de la derecha.

La frase D es la primera, y por tanto se ha escrito junto al número 1.
A. se llamaba «El último vals» 1 D
B. la calle estaba en total oscuridad 2_
C. porque era una que él y Bichard habían aprendido en la escuela 3_
D. Peter m iró fuera 4__
E. reconoció la m elodía 5__
F. y parecía desierta 6__
G. creyó oír a alguien silbar 7__
Hay al menos dos formas de ordenar este párrafo. La clave de respuestas faci
litada es 1-D, 2-G, 3-E, 4-C, 5-A, 6-B, 7-F, pero también es aceptable 1-D, 2-
B, 3-F, 4-G, S-E, 6-C, 7-A. En este caso es posible m ejorar el ítem añadiendo
«p e ro » a la frase G, para que diga «pero creyó oír a alguien silbar». Esto hará
que sólo la segunda de las dos respuestas sea aceptable. Sin embargo, aunque
sea posible redactar un ítem en el que los componentes sólo se puedan orde
nar de una form a, no está siem pre claro lo que se está evaluando, y siempre
existe el problem a de la corrección. Imaginemos que un estudiante comete dos
errores en la ordenación al principio de la secuencia, pero ordena el resto de
55
la secuencia de forma correcta. ¿Deberíamos dar a este estudiante la m isma cali

ficación que al que ha ordenado toda la secuencia mal? Parece injusto pu n
tuarlos de la m ism a forma, pero una vez que empecemos a dar puntos distintos
para distintos errores, la corrección se complica de forma m uy poco práctica.
Tales ítem s se corrigen pues dando un punto si están correctos por completo
y no dándolo si no lo están, pero en este caso el esfuerzo realizado por parte
del redactor a la hora de redactar la prueba y por parte del estudiante a la hora
de responderla no compensa.
CORRECCIÓN
Las pruebas de corrección consisten a m enudo en frases o pasajes en los que
se han introducido errores que el candidato debe identificar. Pueden tomar la
form a de preguntas de respuesta múltiple, com o en el apartado 3.5.2, o pue
den ser m ás abiertas. Un m étodo com ún es preguntar a los estudiantes que
identifiquen un error en cada línea de un texto, bien m arcándolo en el texto,
bien escribiendo la form a correcta junto a cada línea apropiada. La principal
dificultad con este tipo de ítem es asegurarse de que sólo hay un error en cada
línea.
Algunos redactores de pruebas han intentado hacer la tarea más real pidiendo
a los estudiantes que hagan una lista de los errores sin decir cuántos hay. Esto
significa que los estudiantes pueden llegar a perder mucho tiempo barriendo el
texto para buscar errores, puesto que nunca creen que los han encontrado todos.
También significa que la corrección es difícil puesto que a los estudiantes se les
puede escapar un error al principio, o marcar un error no existente, por lo que
su lista no podrá cotejarse con la clave de respuestas oficial. Se debería por lo
menos informar a los estudiantes del número de errores que hay. (Y esto tam
bién afecta a la m ayoría de las tareas en las que los candidatos deben producir
algún tipo de lista)
COMPLETAR HUECOS
«Com pletar huecos» se refiere aquí a las pruebas en las que el candidato recibe
un pasaje corto en el que se han suprim ido algunas palabras o expresiones. Las
supresiones se han seleccionado a propósito por parte del redactor para eva
luar aspectos lingüísticos concretos tales com o la gramática o la com prensión
de lectura.
Las tareas de rellenar huecos se basan a menudo en textos auténticos y a veces
en pasajes escritos con este propósito. En am bos casos, la m ayor dificultad es
asegurarse de que cada hueco lleva a los estudiantes a escribir la palabra o pala
bras esperadas. Idealmente debería haber sólo una respuesta para cada hueco,
pero esto es en general m uy difícil de conseguir. La clave de respuestas tiene a
m enudo más de una respuesta para algunos huecos. Para una mayor fiabilidad
de corrección es im portante reducir el núm ero de respuestas alternativas al
m ínim o, y asegurarse de que no hay otras respuestas posibles que no estén en
la clave de respuestas.
56
Otro problem a es que a los candidatos no se les ocurra pensar en una res
puesta, no porque tengan pocos conocim ientos, sino porque simplemente la
palabra no les viene a la mente. De nuevo nos encontram os en una situación
que no ha previsto el redactor, y que no podía prever, ya que él sí tiene el texto
com pleto y por eso ve obvia la respuesta. Y de nuevo aconsejam os que debe
ensayarse la prueba con colegas prim ero y después con estudiantes de nivel y
características parecidas a los futuros candidatos.
Si nos encontram os con un texto en el que hay bastantes huecos que no se
pueden completar fácilmente, o si hay dificultades de corrección, la tarea con
sistente en completar huecos en un texto utilizando las palabras provistas (ban-
ked gap filling) puede ofrecer una solución. Se trata de un tipo de tarea parecida a
la de relacionar. Cada una de las palabras o grupos de palabras que completan
el texto se incluyen en una lista que se presenta en la misma página que el texto
con huecos. La lista contiene más palabras que huecos hay en el texto, y la tarea
del candidato estriba en seleccionar la palabra correcta para cada hueco. Debe
ría haber sólo una respuesta posible para cada hueco, pero los candidatos debe
rían estar informados de que cualquier palabra de la lista puede ir en más de un
hueco. Las palabras deberían estar en orden alfabético.
Es siempre importante informar a los estudiantes si cada hueco se completa
con una o m ás de una palabra. Si se acepta más de una palabra, la corrección es
más difícil. Si sólo se perm ite una palabra, se deberían evitar contracciones y
palabras compuestas.
A veces una frase o una expresión es correcta con o sin la palabra suprimida.
Por ejemplo:
Sucedió que el h o m b r e _____________que yo seguía resultó estar en m uy

buena forma.
ítems com o este pueden confundir a los estudiantes y deben evitarse.
CLOZE
Llamamos doze a las pruebas en las que se suprimen algunas palabras de un texto
de forma mecánica. Cada equis número de palabras se suprime una, sea cual sea
su función en la frase. Por ejemplo, cada sexta palabra se suprime y se deja en
blanco para que los estudiantes lo rellenen.
Com o d ijim o s anteriorm ente en este capítulo, uno de los problem as de
suprim ir una de cada equis palabras es que la selección de la prim era palabra
puede afectar a la validez de la prueba, puesto que una vez que se ha supri
m ido la prim era palabra el resto de supresiones sigue automáticamente. Los
experim entos que se han hecho com parando pruebas basadas en el m ism o
texto pero con distintos huecos, han demostrado que las pruebas varían tanto
en validez com o en fiabilidad (Alderson, 1978, 1979, y Klein Braley, 1981).
Algunas versiones de la prueba pueden, por ejem plo, contener una propor
ción alta de huecos correspondientes a palabras gramaticales, que puede resul
tar fácil de com pletar para estudiantes com petentes en la lengua y que
57
distinguirá entre estudiantes de distintos niveles, m ientras que otras versio

nes pueden contener h uecos de vocabulario que serán difíciles de rellenar
incluso por hablantes nativos.
Otro inconveniente es que las pruebas de tipo doze son m uy difíciles de m odi
ficar después de ensayarlas. Si una vez que se ha ensayado hay huecos im posi
bles de rellenar, ¿cóm o puede arreglarse? Si el redactor decide volver a incluir
la palabra suprimida en su lugar de origen y suprimir otra palabra cercana rom
perá la regla de supresión de una de cada equis palabras, y si se reescribe la
prueba para que todos los huecos puedan ser fácilmente completados, la prueba
se vuelve m enos auténtica.
Corregir una prueba de tipo doze puede ser difícil puesto que hay muchas res
puestas posibles para cada hueco, y a m enudo existen discrepancias sobre las
respuestas aceptables. Para producir una clave de respuestas que incluya todas
las posibilidades hará falta ensayar el examen con m ás de un grupo y mantener
largas discusiones sobre la adecuación de las distintas respuestas. Todo este p ro
ceso será largo. Para evitarlo, algunos responsables de pruebas sólo aceptan la
palabra exacta en el texto original. Esta decisión produce naturalmente notas
más bajas, aunque no cambia la posición relativa de los estudiantes en cuanto a
sus calificaciones. Sin embargo, como es antinatural considerar incorrecta la res
puesta «envía un fax» si el texto decía «m anda un fax», lo más corriente es acep
tar todas las respuestas apropiadas.
Finalmente, a no ser que el objetivo de la prueba sea evaluar la competencia
lingüística general, según defiende Oller, 1979, tales pruebas pueden dar como
resultado una pérdida de energías. Pocos de los ítems de cada pasaje evaluarán
aspectos lingüísticos que interesaban al redactor. Así pues recom endam os que,
en general, los redactores se inclinen hacia las pruebas de rellenar huecos y no
hacia las pruebas del tipo doze para poder evaluar las características lingüísticas
en las que están interesados.
PRUEBAS DE TIPO C-
Las pmebas de tipo c- también incorporan la supresión mecánica, pero en esta oca
sión se mutila cada segunda palabra de un texto. Esta mutilación consiste en supri
mir la mitad de la palabra para dar al candidato pistas sobre la palabra original.
Las pruebas de tipo c- tienen los m ism os inconvenientes que las de rellenar
huecos o las de tipo doze, aunque el hecho incluir las primeras letras de la pala
bra que se debe com pletar reduce el núm ero de posibles respuestas de cada
hueco. Sin em bargo, incluso cuando se da la prim era m itad de una palabra,
puede haber dificultades para dar con la respuesta acertada.
Cada hueco en la prueba siguiente debe rellenarse con la segunda parte de una palabra. Si la pala
bra completa tiene un número de letras par, faltarán exactamente la mitad de las letras:
en — e...; ante = an...; come = co...

Si la palabra completa tiene un número de letras impar, faltarán la mitad de las letras más una:
58
hacia = ha...; oír = o...; comer = co...

Have you heard about a camera that can peer into the ground and “ see” a
buried city? Or another th....can he........scientists esti........ when a vol....... will
er......? Sthl ano...... that c....... show h ....... deeply a bu....... has go.......into fl....... ?
El prim er problem a con el que nos encontramos aquí es que las instruccio
nes son dem asiado com plejas. La tarea puede parecer m enos difícil si las ins
trucciones simplemente informan al candidato de que se facilita el número de
letras que faltan en cada hueco. Los prim eros huecos del ejem plo anterior se
presentarían de la siguiente forma:
Or another th ___can h e ____scientists e sti_______ when
El segundo problema es que la frase final no da suficientes pistas a los hablan

tes cultos de la lengua para completar palabras como bu..... y fl....... Esto sólo se
puede descubrir cuando se somete la prueba a ensayos previos.
DICTADO
Un dictado sólo será equitativo para los estudiantes si se presenta a todos de la
m ism a forma, y esto generalmente significa el tenerlo que grabar en una cinta
para que no sólo se presente de la m isma forma a todos los candidatos, sino para
que la velocidad de lectura y la colocación de las pausas puedan probarse con
anterioridad. Si no se va a poder utilizar una grabación, las personas que lean el
dictado deberán estar m uy bien preparadas.
Los dictados pueden corregirse de forma objetiva si se exige a los candidatos
que escriban el texto tal cual se ha dictado, y si el corrector tiene un sistema para
decidir cómo debe puntuarse. Sin embargo, tales sistemas son difíciles de diseñar.
Por ejemplo, si las instrucciones para la corrección dicen «reste un punto por cada
falta de ortografía y dos puntos por cada palabra que falte o que no se corresponda
con el original», no está siempre claro si una palabra contiene una falta de orto
grafía o si simplemente no es la palabra que corresponde. El mismo problema se
produce si se instruye al corrector para que ignore las faltas de ortografía.
El otro problem a de este m étodo de corrección del dictado es que es lento y
pesado. Esto significa no sólo que va a resultar caro sino también que los correc
tores cometerán errores. Algunos redactores evitan este problem a escogiendo
dictados sólo parciales, en los que los candidatos deben completar un texto dado
en el que faltan palabras, expresiones o frases completas. Los candidatos deben
completar el texto mientras el examinador lo lee completo en voz alta.
Algunas pruebas de dictado no piden a los alumnos que copien las palabras
al pie de la letra, sino que sólo anoten los puntos principales, como en una tarea
de tomar notas. Por ejemplo, puede leerse el program a de un curso y pedir a
los alumnos que tomen nota de la información que van a necesitar si siguen el
curso. Tal tipo de dictado incluye una tarea de comprensión oral m ás auténtica
que los dictados tradicionales, pero provoca problemas de corrección como los
que se discutirán en el siguiente apartado.
59
PREGUNTAS DE RESPUESTA BREVE

Por «preguntas de respuesta breve» queremos referimos a ítems abiertos en los
que los candidatos tienen que pensar y producir su propia respuesta. Las respues
tas pueden oscilar entre una palabra o frase y una o dos oraciones completas.
El aspecto m ás importante que hay que tener en cuenta cuando se redactan
preguntas de respuesta breve es que los candidatos deben saber qué se espera
de ellos. Así, en el ejemplo siguiente no está claro lo que se requiere:
Reescribe la frase siguiente, empezando con las palabras dadas. La nueva frase debe ser lo más simi
lar posible a la original.
Juan fue quien m e salvó la vida.
Si n o _________________________________________________ .
Para un redactor de ítems acostumbrado a enseñar transformaciones, no hay

duda de que éste es un ítem m uy claro, pero cuando se ensayó, la mayoría de
los estudiantes no tenían ni idea de lo que se suponía que debían escribir. La
tarea hubiera estado m ás clara con la siguiente redacción:
Juan fue quien m e salvó la vida.
Si n o ___________________________________________ _ me habría ahogado.
Algunas veces, por otra parte, los estudiantes creen saber lo que se supone que
deben hacer, pero no lo saben. Por ejemplo, el ítem siguiente estaba redactado
para evaluar la capacidad de los estudiantes para utilizar el pretérito perfecto:
Escribe dos frases que contengan «desde».
Entre las respuestas que dieron los estudiantes se encontraban:
Desde entonces nunca le volvió a ver.
Desde París salim os hacia Holanda.
Las respuestas eran lógicas, pero no contenían el pretérito perfecto. Si un

redactor quiere que el estudiante utilice el pretérito perfecto, esto debe estar
m uy claro en las instrucciones. Por ejemplo:
Completa la frase siguiente, utilizando la forma correcta del verbo «ser»:

Y o _________________ aquí desde ayer.
Esto podría evaluarse de otra forma con un formato de respuesta múltiple:

Completa la frase siguiente:
Y o __________________aquí desde ayer.
A. estaba
B. estuve
C. estaré
D. he estado
60
Problemas con tipos de ítems concretos
La comprensión oral y la de lectura pueden evaluarse utilizando preguntas de

respuesta breve. Las respuestas son m uy reveladoras, puesto que a m enudo
muestran malentendidos textuales que jamás se le hubieran ocurrido al redac
tor. Sin em bargo, la corrección de tales ítems es a m enudo m uy difícil puesto
que suele haber muchas formas de decir lo m ism o y muchas respuestas alter
nativas aceptables, algunas de las cuales puede no haber previsto el redactor.
Una vez m ás debem os insistir en que se ensayen los ítems.
3.5.4. Pruebas de corrección subjetiva
REDACCIONES Y TRABAJOS
A primera vista, escribir los enunciados para las redacciones parece m uy fácil,
m ucho m ás fácil, por ejem plo, que escribir preguntas de respuesta múltiple.
Todo lo que se debe hacer, al parecer, es dar un tema y dejar al alum no que
redacte una respuesta. Es m uy corriente el siguiente tipo de enunciado:
«Viajar da amplitud de ideas» 0 . Smith). Coméntelo.
Esta tarea tiene varios inconvenientes. El primero es la terminología. Los can
didatos pueden no estar familiarizados con las convenciones existentes tras el
uso técnico de la palabra «com éntelo» y no sabrán lo que se espera de ellos. Los
redactores deben asegurarse de que todos los candidatos comprenden términos
com o «com en te», o «ejem plifique».
Las instrucciones no contienen información necesaria para que los candida
tos puedan dar lo m ejor de sí m ismos.
Los candidatos necesitan saber la longitud que debería tener el texto y tam
bién si se deducirán puntos si el texto es demasiado corto.
Tienen que saber a quién va dirigido su escrito, para decidir si deben redac
tarlo en el estilo coloquial que usarían en una carta, o en estilo académico pare
cido al utilizado en un trabajo escolar. En el ejem plo citado m ás arriba, los
candidatos sabrán que el trabajo debe redactarse utilizando un estilo formal si
están familiarizados con el término «com éntelo». Sin embargo, algunos enun
ciados pueden ser m enos claros.
Los estudiantes tienen que saber cómo va a puntuarse su trabajo. ¿Qué se pun
tuará, la corrección o la fluidez? ¿Se darán puntos por la organización del tra
bajo, por la habilidad de presentar un buen razonamiento, o solamente por el
uso de la gramática y del vocabulario? Los candidatos tienen que saber todo esto
para decidir si usarán estructuras fáciles que dominan, para que no les penali
cen por los errores, o si correrán riesgos porque se dan puntos por el uso de un
lenguaje com plejo y creativo. (La corrección de tareas escritas de este tipo se
discute en el capítulo 5.)
Los candidatos tendrían m ás claro cómo abordar la respuesta si el enunciado
se presentara de la siguiente forma:
Escribe una redacción para tu profesor en estilo formal explicando si estás de acuerdo con la frase
de J. Smith, «Viajar da amplitud de ideas».
61
r i
La extensión deberá ser de entre 200 y 250 palabras.

Se puntuarán:
1. La organización del trabajo, como por ejemplo el uso de párrafos (20%).
2. La adecuación del estilo (20% ).
3. La claridad de la exposición (20% ).
4. El uso variado de la gramática y del vocabulario (20% ).
5. La corrección de la gramática y del vocabulario (20% ).
Un problem a adicional de muchas tareas de escritura es que esperan que el

estudiante tenga conocim ientos generales amplios. Por ejemplo:
Describe el sistema legislativo de tu país.

Si los estudiantes no están bien inform ados sobre el sistema legislativo de su
país, y m uchos no lo estarán, no serán capaces de decir lo suficiente como para
demostrar su nivel de competencia lingüística.
Algunas tareas requieren la utilización de una cierta creatividad por parte de
los estudiantes, de la que pueden carecer. Por ejemplo:
Estás perdido en una tormenta. Describe cómo intentas encontrar el camino a casa.
Otras tareas esperan que los estudiantes escriban algo interesante sobre un
tema que puede ser irrelevante o aburrido. Por ejemplo:
Comenta las ventajas y los inconvenientes de vivir en el domicilio paterno durante tus estudios uni
versitarios.
Para evitar algunos de estos problem as es m ejor dar a los estudiantes algo de
información antes de que empiecen a escribir para que no tengan que ser cre
ativos. Puede dárseles un texto corto y fácil de leer que ilustre la situación, para
que el estudiante no pierda un tiempo precioso leyendo en vez de escribiendo
y para no penalizar a estudiantes que sean lectores mediocres. Algunas de estas
ayudas reducen el tiem po de lectura requerido presentando un gráfico o una
im agen o serie de imágenes. En este caso es esencial que el gráfico sea fácil de
entender y que las im ágenes estén claras.
Muchas tareas, naturalmente, no son tan form ales com o las redacciones.
Cuando se pide a un estudiante que escriba una carta inform al o una nota, es
importante que la tarea sea lo más natural posible. No es pues aconsejable pedir
a los estudiantes que escriban cartas o notas a am igos o parientes, puesto que
habitualmente escribirían a tales personas en su lengua materna. Puede ser nece
sario inventar un escenario que obligue al candidato a escribir en la lengua
extranjera. Por ejemplo, puede pedírsele que escriba a un am igo extranjero, o
que deje una nota para su patrona.
RESÚMENES
Los resúmenes se usan a m enudo para evaluar la comprensión oral y de lectura
y la expresión escrita. En algunas pruebas recientes se han utilizado para evaluar
62
"1
Problemas con tipos de ítems concretos
de form a integrada la comprensión y la expresión escritas. Escribir resúmenes

en realidad emula muchas actividades de la vida real, pero presenta dos proble
mas en concreto.
Si el candidato escribe un resum en m ediocre en el que no estén presentes
algunos puntos principales del texto original, puede resultar im posible saber si
esto se debe a una comprensión deficiente o a unas destrezas de escritura medio
cres. Esto no tiene importancia si sólo se puntúa, por ejemplo, el hecho de hacer
un resum en de un inform e y si está claro que la puntuación corresponde a la
com binación de destrezas lectoras y de escritura, pero no es razonable dar al
candidato dos puntuaciones, una para la lectura y otra para la escritura.
Puntuar un resumen no es fácil. Algunos examinadores puntúan sólo por cada
argumento que el estudiante haya incluido, sin tener en cuenta la gramática ni
el estilo. Esto parece muy sencillo pero no lo es. Identificar los argumentos prin
cipales de un texto es de por sí tan subjetivo que los examinadores pueden no
ponerse de acuerdo. El problem a aumenta si la corrección incluye criterios
como: argumentos principales, dos puntos; argumentos secundarios, un punto.
Si los criterios de evaluación quieren tener en cuenta también la corrección, la
fluidez y la adecuación, la corrección se complica mucho.
Algunos exam inadores resuelven este problem a presentando el texto origi
nal junto a un resumen del m ism o en el que faltan palabras y expresiones clave.
Los candidatos deben completar las palabras que faltan en el resumen. Una tarea
de resum en de este tipo bien diseñada es una form a muy eficaz de evaluar la
comprensión de lectura, pero al haber a menudo m ás de una posible respuesta
alternativa para cada hueco, la corrección puede ser difícil, especialmente si la
prueba es a gran escala. Para evitar esto, algunos redactores piden a los candi
datos que usen sólo la palabra exacta del texto original. Esto debería ser sufi
ciente, pero por desgracia siempre hay algunos estudiantes que no siguen esta
instrucción y escriben respuestas apropiadas, aunque no exactas, en los hue
cos. Si estos estudiantes obtienen puntuaciones bajas aunque su comprensión
del texto haya sido buena, entonces no podrem os decir que la prueba evalúa
la com prensión de lectura.
Una buena manera de evitar este problem a es dar un listado de posibles pala
bras y expresiones, com o en el banked gap filling descrito más arriba. Tales prue-
bás son difíciles de redactar y tienen que haberse ensayado muchas veces, pero
pueden funcionar bien y son m ás fáciles de corregir.
ENTREVISTAS ORALES
A m enudo se cree que entrevistar a alguien es una forma rápida y fácil de eva
luar la com petencia lingüística de esa persona. Mucha gente cree, por ejem
plo, que si se tiene una breve charla con un recién llegado a la escuela, se
podrá evaluar el nivel de com petencia de ese estudiante rápidam ente. Sin
em bargo, esto no es así. La conversación puede versar sobre temas superfi
ciales que sólo requieren un vocabulario lim itado y no el uso de estructuras
com plejas. Este no es el lugar apropiado para tratar las entrevistas orales en
63
L a redacción de ítem s y la función m oderadora
detalle, pero debería quedar claro que la entrevista debe estar estructurada
cuidadosam ente para que los aspectos de la prueba considerados im portan
tes se cubran con cada estudiante, y cada estudiante sea evaluado de form a
similar. No es justo para los alum nos que algunos sólo deban hacer com en
tarios apropiados pero sim ples, m ientras que a otros en igualdad de co n di
ciones se les ob ligu e a utilizar un len guaje co m plejo que puede poner en
evidencia sus debilidades. Los entrevistadores deben saber cóm o lograr que
los candidatos se sientan a gusto para conseguir una conversación auténtica
sin interferir o hablar dem asiado, deben dem ostrar interés en cada entrevista
y tam bién deben saber qué preguntar para conseguir que la entrevista cubra
los contenidos lingüísticos deseados. El capítulo 5 trata brevemente la form a
ción de los entrevistadores orales.
ACTIVIDADES DE VACÍO DE INFORMACIÓN

Algunas veces se dan a completar tareas de vacío de información a uno, dos o
más estudiantes. Por ejem plo, dos estudiantes reciben fotografías ligeramente
distintas y, sin ver la del otro, se les pide que encuentren las diferencias exis
tentes. O un estudiante puede tener que hacer preguntas a su entrevistador para
resolver algún problema. Tales tareas pueden ser entretenidas para los candida
tos pero son difíciles de construir y tienden a provocar el uso de un lenguaje
limitado. Por ejemplo, el candidato puede salir airosamente de la situación uti
lizando preguntas com o «¿Y ...?» Además, este tipo de tareas puede perjudicar
a un sector del alumnado. Por ejemplo, muchas de las tareas de vacío de infor
mación requieren la utilización de planos y, como hemos dicho antes, hay can
didatos que tienen dificultades para utilizar planos. Todas las tareas de vacío de
información deben ensayarse de forma rigurosa.
3.6. Comités de redacción

Tal com o hem os señalado repetidam ente, nadie puede elaborar una buena
prueba, ni tan sólo un buen ítem, sin recibir consejo. Por el hecho de estar m uy
vinculado al ítem, puesto que es quien lo ha escrito, el redactor «sa b e » lo que
el ítem pretende evaluar, y le resultará difícil darse cuenta de que en realidad
puede estar evaluando otra cosa bastante distinta, u otra cosa además de la pre
vista. Saber cuál es la respuesta «correcta» significa que la idea que tiene el redac
tor sobre la reacción de los candidatos ante el ítem es distinta a la de otra persona
que no sepa cuál es la respuesta correcta.
Resulta, p or tanto, absolutam ente crucial en el proceso de redacción del
examen, sea cual sea su objetivo y su nivel, y aunque las consecuencias de no
superarlo sean triviales, que una o m ás personas, además del redactor, anali
cen cada ítem con detalle, respondan al m ism o de la m ism a form a en que lo
haría un estudiante, reflexionen sobre las habilidades que se requieren para
responder de form a correcta al ítem o a la tarea, y después comparen sus res
puestas con lo que el redactor dice. Esta form a de revisión de ítem s debería
64
Com ités de redacción
tener lugar en un estadio inicial del proceso de redacción y no debería im pli

car a un com ité o resultar dem asiado formal. Los m ejores ítem s se han som e
tido a unas cuantas de estas revisiones informales antes de alcanzar el formato
de borrador final.
Cuando se han revisado los ítems y está listo el borrador final, deberían agru
parse para form ar la prueba en sí y someterse a la aprobación del «com ité de
redacción». Este comité debería estar formado por redactores expertos (y nor
malmente no los que han redactado los ítems que se van a analizar), profesores
con experiencia en la docencia de alumnos del nivel al que se dirige el examen
o en la preparación de alumnos para este examen, y posiblemente otros exper
tos en evaluación, o incluso expertos en la docencia de la materia, si se está pre
parando algún tipo de prueba para fines específicos.
La tarea de este comité es considerar cada ítem y la prueba como un todo a
la hora de cotejarlo con las especificaciones de la prueba, el posible nivel de difi
cultad, posibles problemas no previstos, ambigüedades en la redacción de ítems
y de instrucciones, problem as de presentación, de correspondencia entre tex
tos y preguntas, y equilibrio general de la prueba.
Es especialm ente im portante que los m iem bros de este «com ité de redac
ción » no solam ente lean la prueba y sus ítem s correspondientes: deben res
pon der a cada ítem com o si fueran estudiantes. Esto significa que, por
ejemplo, para ítems que evalúen las destrezas de expresión escrita deben inten
tar responder por escrito, y en ítem s de com prensión oral deben escuchar la
cinta e intentar responder a las preguntas. Para las pruebas de com prensión
oral en particular es im portante que los m iem bros del comité no sólo lean la
transcripción com o si se tratara de una prueba de comprensión escrita; su res
puesta a la prueba debe im itar la experiencia de los candidatos de la manera
más parecida posible, y por tanto deben hacerlo escuchando la cinta si así lo
requiere la prueba.
Esto, naturalmente, significa que los m iem bros del comité deberán haber
dedicado tiem po suficiente a hacer la prueba antes de que el comité se reúna,
algo a m enudo olvidado en instituciones que tienen en sus comités de redac
ción a personas atareadas que no pueden o no les apetece pasar el tiempo nece
sario para responder a la prueba con detalle.
La organización del «com ité de redacción» tiene mucha importancia. Debe
ría dedicarse tiempo suficiente para discutir cada ítem de forma adecuada. Según
nuestra experiencia, demasiados comités dedican una cantidad de tiempo exce
siva a los prim eros dos o tres ítem s, no disponen de m ucho tiem po para los
ítems restantes, y analizan rápidamente los dos últimos tercios de la prueba para
cumplir con el orden del día. Además, según nuestra experiencia, los comités
son m ás eficaces antes de una com ida que después, y m uchos m iem bros del
comité tienen que abandonar pronto la reunión para coger trenes de regreso a
casa o para ir a otras reuniones.
Un com ité de redacción eficaz tendrá un presidente firm e que se asegu
rará de que el com ité cuente con suficiente tiem po, que no se dedique más
65
del tiem po necesario a cada ítem , que se escuche y tenga en consideración

la opin ión de cada un o de los m iem b ros del com ité, y que se tom en deci
siones claras de las que tom ará nota el secretario o representante de la in sti
tución.
Además, es m uy im portante que haya una persona responsable de que las
recomendaciones del comité no sean sólo anotadas sino también llevadas a cabo
en la prueba revisada, que de alguna manera se someterá a algún tipo de revi
sión final antes de ensayar el examen (véase capítulo 4).
Aunque estas precauciones pueden parecer excesivamente burocráticas, nues
tra experiencia nos demuestra que, cuando no se toman, el examen resultante
tiene a m enudo tantos defectos como tenía antes de que interviniera el «com ité
de redacción».

como lengua extranjera (EFL): cuestionario
Un tribunal respondió «n o procede: evaluación oral» a todas excepto dos de
las preguntas relacionadas con la redacción de ítem s. Para evitar repeticio
nes, no h em o s in cluido las respuestas de este tribunal en el presente capí
tulo. D ebería, de todas form as, señalarse que la evaluación oral requiere
especial consideración (véase página 62) puesto que la naturaleza de la tarea
y los criterios de puntuación son com ponentes im portantes de la elaboración
de pruebas.
PREGUNTA 9 : ¿D an a los redactores información complementaria o directrices? («Complementa

ria» se refiere, además de a las especificaciones y a l a s muestras de exámenes, a las que nos hemos refe
rido anteriormente en el cuestionario.)
La m ay oría de los tribunales resp on d iero n que daban a los redactores
inform ación com plem entaria, pero dieron pocos detalles. Un tribunal dijo
que existían reuniones de redacción alrededor de una m esa, presididas por
el exam inador jefe, y que los ítem s se redactaban de acuerdo con unas direc
trices y eran seleccion ados en la reunión. Otro dijo que los exam inadores
jefes facilitaban a los redactores el detalle del procedim iento a seguir, y uno
resp on d ió que las directrices eran « e n su m ayor parte verbales durante la
reunión y en el acta co rresp o n d ien te». Dos de las respuestas recibidas de
UCLES decían que cada redactor recibía «d ire ctrice s», y el respon sable del
Certificado de Inglés para N egocios Internacionales y Com ercio (Certifícate in
English for International Business and Trade, CEIBT) dijo: «A sisten a sesiones de un i
ficación de criterios antes de convertirse en redactores. Trabajan en grupos
de tres —un redactor para cada prueba—con la guía de un redactor m ás expe
rim entado. Tienen dos reuniones com o equipo para buscar m aterial y pla
nificar tareas.»
Sólo un tribunal dio inform ación extensa, que incluía una copia de la carta
muestra dirigida a los redactores (Véase capítulo 2, página 38 para más detalles.)
66
PREGUNTA 11: ¿Qué criterios utilizan a la hora de nombrar redactores de ítems o de pruebas?
Los tribunales pedían requisitos distintos. Cinco dijeron que los redactores
debían estar en posesión de la titulación correspondiente, uno especificaba titu
lación universitaria, y uno titulación en inglés como lengua extranjera o como
segunda lengua (EFL/ESL). Seis pedían experiencia en la docencia, en la adm i
nistración de exámenes o en la materia que se iba a evaluar, mientras que cua
tro esperaban que los redactores fueran profesores en activo acostumbrados a
preparar a sus alumnos para el examen en cuestión. Uno pedía una fuerte vin
culación a un enfoque comunicativo en la docencia y en la evaluación y otro
dijo que la aceptación de un redactor dependería de su comportamiento en una
reunión de redacción.
PREGUNTA 12: ¿Para cuánto tiempo se nombran los redactores?

Hubo variedad de respuestas, de cuatro tribunales que nombraban a sus redac
tores anualmente, a uno que no nom braba redactores por un período determi
nado y dijo que los redactores actuales habían «elaborado materiales para
exámenes durante los últimos quince años, y esta experiencia asegura la conti
nuidad y estabilidad». Dos tribunales no nom braban a los redactores por un
número de años dado sino para un número de pruebas en concreto.
PREGUNTA 13: ¿Con cuánta antelación respecto a la fecha de examen se pide a los redactores que
empiecen a redactar sus ítems?
Cinco tribunales pedían a sus redactores que escribieran sus ítems unos dos
años antes de la administración de la prueba, y tres un año antes. Entre el resto
de respuestas, un tribunal dijo que la redacción de ítem s era una «actividad
siempre en curso»; otro dijo: «N o hay necesariamente una relación directa entre
el encargo y el exam en»; y otro dijo: «Los redactores presentan materiales sobre
la marcha, formando un banco de ítems potenciales. Se les paga por ítems uti
lizados. No hay plazos ni presión sobre los redactores». Las respuestas de UCLES
variaban entre «tres años» y «d e doce a dieciocho m eses».
PREGUNTA 14: ¿ Cuánto tiempo se da a los redactores para que redacten sus ítems?
Ocho tribunales dieron el plazo concreto: oscilaban entre seis semanas y doce
meses. Dos tribunales tenían un enfoque flexible; uno de ellos decía: «Depende
del ítem y del redactor», y el otro decía: «M uy flexible, de común acuerdo». El
tiempo de UCLES oscilaba entre seis semanas y seis meses.
PREGUNTA 15: Cuando se ha presentado el primer borrador de un redactor, ¿qué sucede?

Casi todos los tribunales mandaban los borradores para que los analizara un exa
minador jefe o un supervisor, y después tenía lugar la sesión del comité de redac
ción. La única excepción fue un tribunal que archivaba ítems para incorporarlos a
posteriores borradores de examen y los guardaba hasta el momento de revisarlos.
El proceso de selección concreto varía de tribunal a otro; un ejem plo es el
procedim iento siguiente:
67
r La redacción de ítems y la función moderadora
El primer borrador de la prueba lo redacta [el responsable del examen],

quien tiene que garantizar que la prueba sea justa, tenga el nivel adecuado, y
esté de acuerdo con la filosofía de la descripción de la prueba. Los ítems
pueden haber sido ya probados [por el responsable del examen] con
candidatos seguros para comprobar los niveles de los contenidos lingüísticos
y la dificultad de la tarea. Se mandan copias del primer borrador: a) a los
responsables del tribunal de exámenes y b) al examinador jefe de este nivel; a
dos responsables expertos en corrección de una lista de doce. Estas personas
estudian el borrador, lo someten a ensayos previos, si es posible, con
candidatos seguros, hacen sugerencias de cambios si ello es necesario y
envían un informe completo [al responsable del examen],
PREGUNTA 16: ¿Se reúne algún comité en algún momento del proceso para discutir cada prueba?
Todos los tribunales excepto dos respondieron afirmativamente. Uno de los
dos tribunales que no tenía un com ité fijo tenía «com ités ad hoc para discu
tir aspectos concretos de los exám enes, cam bios en el proceso, m odificacio
nes de los criterios de puntuación, etc. El proceso de unificación se hace por
correo».
En caso afirmativo, ¿cómo se llama este comité?
El título más com ún era el de «C om ité/C onsejo de unificación/unificador».
Otros títulos eran «C om ité de selección», «C om isión asesora perm anente»,
«Com ité de revisión de EFL», «Com ité de edición», «Equipo de redacción de
pruebas» y «Subcom ité preparatorio».
PREGUNTA 17: ¿Qué requisitos deben reunir los miembros de este comité?
La com posición de este comité variaba. En dos casos estaba constituida por
exam inadores y supervisores y en un tercer caso tam bién incluía redactores,
correctores y profesores en activo. Un com ité también incluía directivos del
tribunal y otro incluía industriales que habían «hecho una contribución excep
cional al trabajo del tribunal» Los com ités de UCLES los constituían, en gene
ral, el exam inador jefe, el responsable del exam en, los redactores de ítem s y
otros expertos en EFL. Los com ités de otros tribunales estaban form ados por
profesores con experiencia especializados en la m ateria, por profesores que
estaban preparando a candidatos para los exámenes, y por supervisores o auto
res de materiales.
PREGUNTA 18: ¿Cuánto tarda un comité en discutir y preparar un examen completo?

Aquí las respuestas eran de nuevo diversas. Un tribunal dijo que era im posi
ble responder a esta pregunta, y otro dijo «tanto como sea necesario». Dos dije
ron que el tiem po variaba de un día a una sem ana o varias semanas. Algunos
eran un poco m ás específicos. Uno dijo: «Al m enos un día de reunión acadé
mica y contactos previos y posteriores por correo o teléfono», y uno dijo: «El
proceso de selección dura un m ínim o de tres sem anas, a m enudo cuatro o
cinco». Tres fueron aún más específicos: «aproximadamente tres horas para cada
68
parte», «cuatro partes en un día de trabajo», y « a menudo 3 días para 15 com

ponentes». Un tribunal dio m ás detalles del proceso: «L os m iem bros hacen
comentarios sobre las pruebas por escrito antes de la reunión; esto dura por lo
menos un día. Los examinadores jefes responden a sus comentarios. La reunión
del subcom ité preparatorio dura un día com pleto».
PREGUNTA 19: ¿Qué pasos se dan, si se dan, para comprobar que el borrador presentado coincide
con la descripción de contenidos de la prueba (si existe)?
La m itad de los tribunales piden a sus redactores que sigan la descripción
de contenidos y confían en que así sea. La otra m itad da instrucciones inicia
les pero tam bién hace com probaciones, que son responsabilidad de: a) tres
m iem bros del com ité de selección, b) los supervisores, c) el exam inador jefe
y varios directores o m oderadores, y d) un «rev iso r» que hace comentarios
sobre las pruebas y su correlación con la descripción de contenidos. UCLES
parece seguir lo que hacen los otros tribunales y en algunos exám enes da a
los redactores la descripción de contenidos esperando que la sigan, y en otras
se com prueba si los exámenes coinciden con la descripción por parte del res
ponsable de la prueba o por parte del «presidente, responsable de EFL, selec-
cionador...»
PREGUNTA 2 0: ¿Qué pasa habitualmente con el borrador después de las deliberaciones del comité?
La forma m ás clara de resumir las respuestas a esta pregunta es la de listar los
ejemplos de los distintos procedimientos:
1. Se da el manuscrito a imprenta, se encargan los gráficos, dibujos o fotos,
se graban las cintas; las pruebas se hacen llegar al examinador jefe y al
supervisor, se corrigen por el corrector de pruebas; se pasa la prueba
final a imprenta con una orden de impresión.
2. Los ítems seleccionados que deben modificarse. Preparación y corrección
de la prueba una vez aprobada. Se devuelve al examinador jefe para la
revisión y aprobación final con el fin de garantizar que el examen se ha
preparado de acuerdo con la copia revisada y aprobada.
3. Una vez completada la versión pactada de la prueba se pasa al ordena
dor y se entrega para im presión. Todos los m iem bros del comité de
revisión ven la primera prueba y tienen la oportunidad de hacer cam
bios de todo tipo.
4. [El responsable de la prueba] revisa el borrador a la luz de los informes
de cinco exam inadores expertos y lo prepara para la versión final.
Durante la grabación, los actores hacen comentarios sobre la claridad y
naturalidad del lenguaje utilizado. El texto final y la copia de la cinta se
m andan al director, quien organiza la im presión de los textos y el
copiaje de las cintas a partir de la grabación original.
5. El presidente del exam en y el responsable de la prueba confeccionan
dos versiones paralelas.
69

como lengua extranjera (EFL): documentación
Los únicos documentos que daban más información sobre las respuestas dadas al
cuestionario hacían referencia a la redacción de ítems. City and Guilds nos mandó dos
de sus publicaciones, Setting Múltiple Choice Tests (1984), y Setting and Moderating Wntten
Question Papers —Other than Múltiple Choice- sin fecha). El primero da ideas útiles para
redactar preguntas de respuesta múltiple, cita una amplia gama de ejemplos y acon
seja a los redactores sobre algunas de las posibles trampas. El segundo aconseja sobre
las instrucciones y la presentación de preguntas que no son de respuesta múltiple,
y acompaña recomendaciones sobre cómo elaborar buenos ítems con ejemplos de
malas preguntas y de preguntas mejoradas.
Pitman nos m andó copias de sus «directrices» para cada nivel de los exám e
nes de English for Speakers of Other Languages (ESOL). Se trata de directrices para redac
tores, que no sólo describen el tipo y nivel de lengua que se va a evaluar, sino
que también dan instrucciones sobre tipos de texto y consejos sobre cómo redac
tar buenos ítems.
3.9. Debate
Como puede verse en las respuestas anteriores, la mayoría de los tribunales de
exámenes tratan el proceso de redacción de ítems de forma m uy seria. Dan a los
redactores tiempo de sobra para producir futuros exámenes, y llevan a cabo con
troles a fondo de los borradores.
Un área que no siempre recibe la atención suficiente es la correspondiente a
la cobertura de la descripción de la prueba. Aunque casi todos los tribunales
dicen a los redactores que sus pruebas deben cubrir la descripción de conteni
dos, sólo la mitad comprueban que así sea. Puesto que algunas áreas de una des
cripción de contenidos son siem pre m ás fáciles de evaluar que otras, los
redactores se encuentran a veces con dificultades para evaluar los aspectos más
difíciles y, por este motivo, la prueba puede no estar equilibrada. Creemos, pues,
que es esencial comprobar los borradores de examen para ver si la descripción
de los contenidos se ha cubierto de forma adecuada.
3.10. Sumario
1. Para com prender exactamente qué hace un ítem, es esencial intentar
responderlo como lo haría un candidato. Un vistazo no es suficiente.
2. Responder a un ítem propio es importante pero inadecuado. El autor
«sa b e » lo que cree que el ítem requiere. Es por tanto importante que
otras personas expertas y con dom inio de la lengua respondan en las
m ism as condiciones en que lo haría un candidato.
3. Nadie escribe buenos ítems solo. Incluso autores profesionales necesi
tan la opinión de otras personas. Es necesario pedir a otras personas que
respondan a los ítems.
70
Sumario
4. No se ponga a la defensiva: esté preparado para cambiar e incluso para

desestimar los ítems si los demás los encuentran problemáticos. Todos
podem os escribir m alos ítems.
5. Debe preguntarse a los que han contestado a los ítems por qué han dado
la respuesta que han dado y no otra; y si es posible, cómo reaccionaron
ante el ítem.
6. De nuevo, si es posible, debe intentar conseguir que los que han con
testado al examen, digan o escriban lo que ellos creen que el ítem eva
lúa, independientem ente de lo que uno crea que evalúa. En otras
palabras, ¡no les diga lo que usted cree que evalúa para luego pedirles
que estén de acuerdo! Además, pregúnteles cuál creen que es el princi
pal objetivo del ítem y para qué nivel de alumnado es adecuado.
7. Todas las pruebas deberían ser supervisadas o discutidas por personas
que no las hayan escrito. El comité de redacción debería tener a su dis
posición las respuestas de las personas con las que se ha ensayado el exa
m en en algún m om ento de sus deliberaciones. Lo ítem s que han
provocado respuestas inesperadas deben revisarse.
8. Si la evaluación es de una población definida, pedid a los que respon
den a la prueba o a los supervisores que hagan una estimación aproxi
m ada de qué proporción de candidatos responderá al ítem
correctamente.
9. Comparad lo que el redactor dice que el ítem evalúa con lo que dice la
mayoría de los que responden al ítem, y resolved discrepancias.
10. Comparad lo acordado en el punto 9 con las especificaciones o el pro
grama.
11. Analizad el programa o las especificaciones y preguntaos si hay algo sig
nificativo que no esté incluido en la prueba. Si éste es el caso, ¿está jus
tificado?
12. Preguntaos si a los estudiantes les resultará familiar el método de eva
luación. Si no, cambiad el método o aseguraos de que las instrucciones
estén claras. Preguntaos si otro m étodo podría ser más adecuado para
vuestro objetivo, o más claro, o más fácil para los candidatos.
13. Preguntaos lo que el ítem o colección de ítems os dirá sobre las habili
dades de los estudiantes. Si los resultados de la prueba o del ítem no
coinciden con vuestra opinión de los estudiantes, ¿cuál os creeréis, los
resultados de la prueba o vuestra valoración?
14. ¿Qué posibilidades hay de que los estudiantes saquen el m ism o resul
tado si hicieran la prueba otra vez al día siguiente?
15. Ensayad el exam en con alum nos que sean lo m ás parecidos posible a
los alumnos a quien va dirigida la prueba. Analizad sus respuestas y pre
guntaos:
a) ¿Hay algunas respuestas imprevistas? En caso de respuesta afirma
tiva, ¿las hay que, inesperadamente, sean correctas? Si éste es el caso,
deberán añadirse a la clave de respuestas o cambiar el ítem.
71
1
b) ¿Cuántos estudiantes encontraron un ítem fácil? ¿Es demasiado fácil

o demasiado difícil?
c) ¿Cuántos alumnos respondieron correctamente al ítem, los alumnos
destacados o los alumnos flojos? En teoría, los alumnos destacados
deberían obtener mejores resultados para cada ítem, pero en la prác
tica puede ser que el ítem contenga una trampa o algún punto
oscuro, dos respuestas correctas, o algún otro problema.
16. Pedid a las personas o a los estudiantes que hagan la prueba que res
pondan a los ítems de comprensión oral y de lectura sin el texto corres
pondiente (oral o escrito). ¿Pueden responder al ítem correctamente?
Si es así, éste no está evaluando la comprensión del texto.
17. En cuanto a los ítem s de com prensión oral, aseguraos de que las per
sonas que responden escuchen el texto (y no lean la transcripción)
cuando respondan el ítem. Leer es m ás fácil que escuchar — puede
hacerse con tiempo, haciendo pausas, releyendo, etc.
18. ¿Es más fácil la lengua utilizada en el ítem que la lengua del texto? Si no
es así se estará evaluando también la comprensión de los ítems.
19. En las preguntas de respuesta múltiple, ¿hay opciones que sean posibles
en otra variedad estándar del idiom a, según una interpretación distinta
del contexto, con un acento o entonación distintos? ¿Es obvia la res
puesta correcta a causa de su longitud o del grado de detalle?
20. ¿Se han previsto todas las respuestas posibles/plausibles en la clave de
respuestas?
21. ¿El ítem está en un contexto? ¿Es éste suficiente para excluir otras inter
pretaciones alternativas o posibles ambigüedades?
22. ¿Es posible que el ítem favorezca o perjudique a algunos estudiantes por
razones de sexo, cultura, conocimientos generales o intereses?
23. ¿Cuán auténtico es el ítem? ¿Se parece a lo que los estudiantes deberán
hacer con el idiom a en la vida real? Por ejemplo, en las tareas de expre
sión escrita, ¿hay un motivo para escribir y alguien a quien escribir?
24. ¿Sería preferible presentar las instrucciones, o incluso los ítems, en la
lengua materna?
25. ¿Cóm o se juzgará la actuación del candidato? ¿Están especificados los
criterios de evaluación o las respuestas correctas o previstas? ¿Pueden
especificarse, o se debe esperar hasta tener un cierto núm ero de res
puestas o de realizaciones para poder acabar los criterios de evaluación?
Bibliografía
Alderson, J. C. (1978). A Study of the Cloze Procedure with Native and Non-Native Speakers of
English. Tesis doctoral inédita, Universidad de Edimburgo.
Alderson, J. C. (1979). «The Cloze Procedure and Proficiency in English as a Foreign
Language.» TESOL Quarterly, 13 (2), págs. 219—227. Reimpreso en J. W. Oller
(ed.), (1983). Issues in Language Testing Research. Newbury House, Rowley, Mass.
72
Bibliografía
Alderson, J. C. y D. Wall (1993). «Does Washback Exist?» Applied Linguistics, 14, págs.
115-129.
Alian, A. (1992). «Development and Validation o f a Scale to Measure Test-Wiseness
in EFL/ESL Reading Test Takers.» Language Testing, 9, pigs. 101-123.
Buck, G. (1989). «Written Tests o f Pronunciation: Do They Work?» English Language
Teaching Journal, 41, págs. 50—56.
Cambridge.
Klein-Braley, C. (1981). Empirical Investigation of Cloze Test. Tesis doctoral, Universidad de
Duisburg.
Lado, R. (1961). Language Testing. McGraw-Hill, Nueva York.
Peirce, B. N. (1992). «Demystifying the TOEFL Reading Test.» TESOL Quarterly, 26,
pigs. 665-689.
Valette, R. M. (1977). Modem Language Testing. 21 edición, Harcourt Brace Jovanovich,
Nueva York.
Wall, D. y J. C. Alderson (1993). «Examining Washback.» Language Testing, 10 (1),
pigs. 41-69.
Weir, C. J. (1988). Communicative Language Testing. Universidad de Exeter.
73
4 Ensayos previos y análisis
Este capítulo trata la cuestión de los ensayos previos y del análisis de los ítems.
Discutiremos las razones para realizar ensayos previos, la naturaleza de los p ro
cesos im plicados y las diferencias entre ensayos piloto y ensayos generales del
examen como tal. Explicaremos la estadística básica necesaria para el análisis de
ítems individuales y describiremos las formas más comunes de informar sobre
los resultados generales de la prueba.
4.1. Razones para realizar ensayos previos

Aunque un examen esté m uy bien elaborado y se hayan seleccionado y corre
gido todas sus partes cuidadosamente, no se puede saber cómo funcionará hasta
que se haya ensayado con estudiantes. Aunque los redactores pueden pensar que
saben lo que evalúa un ítem y cuál es la respuesta adecuada, no pueden prever
las respuestas de los estudiantes de distintos niveles de competencia lingüística.
Incluso profesores de idiom as y evaluadores expertos son a m enudo incapaces
de ponerse de acuerdo sobre lo que evalúa un ítem (véase Alderson, 1993 y
Buck, 1991) o lo difícil que puede resultar para un grupo de estudiantes dado.
En un trabajo llevado a cabo por investigadores de la Universidad de Lancaster,
se pidió a veintiún expertos en la m ateria que exam inaran la dificultad que
podían ofrecer a futuros examinandos treinta preguntas de comprensión de lec
tura. El grupo de expertos lo constituían desde evaluadores muy experimenta
dos que estaban familiarizados con la prueba y con el nivel de competencia de
los candidatos hasta profesores que no conocían ni la prueba ni el nivel de los
candidatos. Las estimaciones de los expertos variaron de forma exagerada. Por
ejemplo, dos de ellos dijeron que el 90% de los estudiantes respondería correc
tamente al ítem 2, mientras que otro opinó que sólo lo respondería correcta
mente un 10%. El resto de estim aciones para el m ism o ítem oscilaba entre el
80% y el 15%. Este no fue un ejemplo aislado. Siete ítems m ás provocaron dis
crepancias entre las estimaciones, y en el caso de uno un experto estimó que el
95% de los estudiantes lo responderían bien mientras que otro estimó que sería
sólo el 5%. Los dos ítems que provocaron el menor desacuerdo entre los exper
tos oscilaban en sus estimaciones entre el 100% y el 50%. Hay que destacar que
los jueces m ás experim entados no acertaron m ás que los que no sabían nada
acerca de la prueba o de los estudiantes.
Naturalmente, los examinadores no sólo deben saber lo difíciles que son los
ítems. También tienen que saber si «funcionan». «Funcionar» tiene varios sig-
74
Pruebas piloto
niñeados. Puede significar, por ejemplo, que un ítem que está previsto que eva
lúe una estructura en particular no lo haga en realidad, o puede significar que el
ítem consigue diferenciar a los alumnos de distintos niveles de forma que los
alum nos con m ayor competencia lingüística pueden responder m ejor que los
alumnos m enos competentes. Es sorprendente que a menudo los ítems, aunque
se hayan redactado con cuidado, no distingan entre alumnos de esta forma. Es
im posible prever si los ítem s funcionarán sin haberlos probado. El funciona
miento de los ítems de respuesta múltiple puede resultar el más difícil de prever,
puesto que la presencia de una variedad de respuestas correctas e incorrectas faci
lita el terreno a la ambigüedad y al desacuerdo, pero los ítems de respuesta abierta
y las pruebas corregidas de forma subjetiva también pueden producir sorpresas.
Por ejemplo, una pregunta de respuesta abierta puede resultar más confusa para
los candidatos destacados que para los candidatos m ás flojos, o una tarea de
expresión escrita puede provocar el uso de sólo una pequeña gama de conteni
dos lingüísticos por parte de los candidatos. Aunque la combinación de redacto
res experimentados y un procedimiento de selección y de corrección estrictos de
los ítems asegura que se descarten muchos malos ítems en potencia, algunos pro
blemas no se identificarán en este estadio y sólo se descubrirán durante el perí
odo en que se realicen los ensayos previos. Es esencial, pues, que todos las
pruebas se ensayen, tanto si se trata de ítem s discretos de corrección objetiva
como de ítems de respuesta abierta de corrección subjetiva.
4.2. Pruebas piloto

En este libro, el término ensayos previos se refiere a todas las pruebas a las que se
somete un examen antes de salir a la luz, de ser operativo o de «circular», como
dicen algunos de los tribunales. La m ayor parte de los ensayos previos tienen
lugar durante la fase general de experimentación, pero estos ensayos deberían
ir precedidos de otros m enos formales a los que llam arem os pruebas piloto. Las
pruebas piloto pueden variar de m agnitud, desde ensayar una prueba con un
pequeño grupo de profesores del m ism o departamento a un ensayo con cien
alumnos, pero en todos los casos el objetivo es limar los principales problemas
antes de los ensayos m ás im portantes. Un program a de prueba piloto podría
consistir en los siguientes pasos:
1. Probar los ítems con unos cuantos am igos o con otros profesores, de los
cuales dos, por lo m enos, son hablantes nativos de la lengua que se va a
evaluar para ver si las instrucciones están claras, el lenguaje utilizado en
los ítems es aceptable y la clave de respuestas es precisa. Estos profesores
deberían responder a todas las partes de la prueba, no sólo a las partes de
corrección objetiva. Es sorprendente el número de fallos que se detectan
en esta fase, especialmente si los redactores de la prueba no tienen la len
gua que se va a evaluar com o lengua materna.
2. Dar a hacer la versión revisada a un grupo de estudiantes similares en carac
terísticas y en nivel a aquellos que se examinarán. No se necesitan dem a
75
Ensayos previos y análisis
siados estudiantes, pero si hay al menos veinte, mejor. Tales pruebas pue
den hacerse de forma relativamente rápida y barata, y dan una inform a
ción inestim able sobre la facilidad de adm inistración de la prueba, el
tiem po que necesitarán los alum nos para completarla, la claridad de las
preguntas, la exactitud y amplitud de la clave de respuestas, la facilidad de
uso de los esquem as de puntuación, y otros. Los resultados revelarán
m uchos fallos im previstos en la prueba y ahorrarán tiem po y esfuerzos
cuando se lleven a cabo los ensayos generales.
4.3. Fase general de ensayo

La m agnitud de la fase general de experimentación o ensayo y de los tipos de
análisis requeridos dependerá de factores tales como la importancia y el objetivo
del examen y el grado de objetividad de la corrección. Las pruebas corregidas de
forma más objetiva son aquellas, com o las de respuesta múltiple, en las que la
respuesta no la produce el candidato, sino que debe seleccionarse de una lista de
alternativas posibles, y puede puntuarse de forma precisa tanto por un adminis
trativo o un ordenador como por un profesor o examinador entrenado. Las prue
bas corregidas de forma más subjetiva son las entrevistas orales y las redacciones,
en las que el corrector sólo tiene unos criterios de evaluación como guia. Entre
estos dos extremos se extiende una amplia gam a de tipos de ítem que pide un
mayor o m enor grado de subjetividad en su corrección (véase capítulo 3).
Una de las principales preguntas que se hace cualquier redactor de pruebas es
el número de estudiantes con el que debería ensayarse un examen. Es imposible
dar una regla para esto puesto que el número depende de la importancia y del tipo
de examen, y también de la disponibilidad de alumnos adecuados. Puesto que la
redacción de ítems de respuesta múltiple es m uy difícil, y puesto que es tan fácil
que al redactor se le escapen ambigüedades en las opciones, podría decirse que
este tipo de prueba necesita más ensayos que cualquier otro tipo de prueba y, en
realidad, cuando lleguem os al informe sobre la práctica de ensayos previos por
parte de los centros de exámenes, veremos que los ítems de respuesta múltiple
son los que se ensayan más. Sin em bargo, puesto que otros tipos de ítem s de
corrección objetiva, como por ejemplo rellenar huecos y preguntas de respuesta
abierta, pueden comportarse de forma inesperada, todo tipo de prueba de correc
ción objetiva debería ensayarse a fondo. Henning, 1987 recomienda 1.000 alum
nos para los ensayos de las pruebas de respuesta múltiple, pero es tan difícil
encontrar muestras adecuadas que los responsables de la prueba deben conten
tarse con una muestra de 2 0 0 o 3 0 0 , o incluso de 30 o 40. La única guía que se
debe seguir es «cuantos más mejor», puesto que cuantos más alumnos haya menos
influirá el azar en los resultados. Si, por ejemplo, 300 estudiantes participan en
un ensayo de una prueba, y un alumno que aquel día está enfermo, responde muy
mal, este resultado tendrá un efecto m enor sobre las estadísticas globales de la
prueba. Sin embargo, si sólo hay 10 estudiantes en el ensayo, el comportamiento
de un estudiante afectará considerablemente a los resultados globales.
76
Fase general de ensayo
Sin tener en cuenta el núm ero de alum nos que haya en el ensayo, es
im portante que la m uestra sea, en la m edida en que esto sea posible, repre
sentativa del núm ero final de candidatos, con una gam a parecida de habili
dades y co n ocim ien to s generales. Si los alum nos que se utilizan para los
ensayos no son sim ilares a la pob lación que se presentará al exam en, los
resultados de los ensayos pueden ser inútiles: las pruebas se com portan de
form a m uy diferente con distintas poblaciones (para una discusión de este
punto véase Crocker y Algina, 1986).
Es también importante que los estudiantes del ensayo se tomen la prueba en
serio y la respondan lo m ejor posible. Si no valoran su importancia, y la tratan
como un juego, los resultados que salgan pueden invalidar el proceso de ensayo
por completo. Describiremos una forma de paliar este problema al final de este
capítulo.
El ensayo general de un examen debería administrarse de la m ism a manera
en que se administrará el examen final, de forma que se puedan ensayar no sólo
las directrices de administración sino también los ítems, que deberán presen
tarse en las m ism as circunstancias que en el examen real. El único aspecto que
puede tener que ser distinto hace referencia a la duración del examen. Si los exa
minadores quieren hacer una estimación sobre la fiabilidad de la prueba (véase
más adelante), los estudiantes deberían poder tomarse todo el tiempo que nece
siten para responder al examen. Esto puede contradecir los principios del mismo
examen, durante el cual, y por motivos teóricos o prácticos, los alumnos pue
den tener menos tiempo del que en realidad quisieran. Si es necesario limitar el
tiempo dado a los estudiantes durante los ensayos, todavía es posible evaluar la
fiabilidad de la prueba, pero los resultados deberán tratarse con precaución
puesto que es probable que sobrestimen la fiabilidad de la prueba (véase Croc
ker y Algina, 1986).
En la discusión estadística sobre el análisis de pruebas de corrección objetiva
que sigue, se asumirá que los ensayos de examen se refieren a una norma o rango (norm-
referenced), es decir, que tienen como objetivo establecer el orden que ocupan los
candidatos en una escala ordenada, para que puedan compararse los unos con
los otros. Si el examen se refiere a un criterio (criterion-referenced), y los alumnos no se
comparan los unos con los otros sino con un nivel de aprovechamiento o una
serie de criterios recogidos en las descripciones de corrección, las m edidas con
referencia a un rango o norma pueden no ser aplicables. En muchos sistemas de
exámenes podem os ver que las pruebas de corrección objetiva se tratan con refe
rencia a un rango, y las de corrección subjetiva se tratan con referencia a un cri
terio. Esto es así probablemente por cuestiones prácticas y no debido a una base
teórica concreta. Puesto que los ítems correctos de una prueba objetiva pueden
sumarse para dar una nota total, los alumnos pueden ordenarse de acuerdo con
estos totales, y la actuación en ítems concretos puede compararse con los resul
tados totales (véase m ás adelante el apartado «Análisis clásico de íte m s»). Para
pruebas que tienen com o punto de referencia un criterio, puede no ser apro
piado basar un análisis de ítems en la ordenación de los resultados de los alum
77
nos de m ayor a m enor, por lo que se necesitarán m étodos de análisis m enos

corrientes. (Véase Crocker y Algina, 1986, y Hudson y Lynch, 1984, para dis
cusiones sobre este tema.) Las pruebas corregidas de forma subjetiva, como las
redacciones y las entrevistas orales, no se prestan a un análisis según una norma
o rango, y siem pre que se habla de correctores que utilizan criterios globales
para la expresión escrita y la expresión oral, y de actuaciones de candidatos eva
luadas de acuerdo con una serie de descripciones del tipo de contenidos lingüís
ticos exigidos para cada nivel, se considera que se está de hablando con
referencia a un criterio.
4.4. Análisis de exámenes

4.4.7. Correlación
Antes de tratar las formas en las que puede evaluarse el comportamiento de ítems
individuales, hay un concepto que sustenta gran parte del análisis de exámenes
y que debemos introducir antes de continuar. Este concepto es la correlación, que
significa hasta qué punto dos conjuntos de resultados están de acuerdo el uno
con el otro. Para dar una idea clara de lo que es la correlación, analizaremos algu
nos resultados hipotéticos de un pequeño número de estudiantes.
La figura 4.1 da las escalas de 8 estudiantes (estudiantes A—H) en dos prue
bas. Puede verse que en cada caso los alumnos se ordenaron de form a idéntica
para las dos pruebas, para que A fuera el prim ero cada vez, B el segundo, y así
sucesivamente. Esto puede verse gráficamente en el diagrama de dispersión. Las
escalas de los alumnos para la prueba 1 se ven en la línea vertical del gráfico y
los de la prueba 2 en la línea horizontal. Cada punto en el gráfico representa el
comportamiento de un alumno en la prueba 1 y en la prueba 2.
Prueba 1 Prueba 2 Prueba 1

8-i •
(Escalas) (Escalas)
A 7- •
1 1
B 2 2 6- •
C 3 3 5- *
D 4 4 4- •
E 5 5 3- •
F 6 6
2- •
G 7 7
1- *
H 8 8
0-1---- 1---- 1---- 1---- i---- 1-----!-----i-----!
0 1 2 3 4 5 6 7 8
Prueba 2
Fie. 4.1. C o r relac ió n = +1,0
En este caso, el comportam iento de los alumnos, y por lo tanto el orden en

la escala, fue el m ism o para las dos pruebas. Se puede ver que los puntos for
m an una diagonal ascendente en el gráfico, desde abajo a la izquierda hacia
78
A n á lisis de exám en es
arriba a la derecha. También se ve que si se juntaran estos puntos formarían una

línea recta. Esta línea m uestra que hay una correlación perfecta entre los dos
grupos de resultados. Este resultado se describe como una correlación perfecta,
o una correlación de + 1 ,0 .
Si vam os ahora la figura 4.2 veremos lo que ocurre cuando los dos grupos,
en lugar de ser idénticos, son diametralmente opuestos. En este caso el estu
diante que tuvo los mejores resultados en la prueba 1 fue el ultimo en la prueba
3, el alumno que fue segundo en la prueba 1 fue penúltimo en la prueba 3, y
así sucesivamente. El diagrama de dispersión muestra también una línea diago
nal, pero esta vez la pendiente va en la dirección opuesta; cae desde arriba a la
izquierda hacia abajo a la derecha. El resultado se describe com o una perfecta
correlación negativa, o una correlación de —1,0.

8-, *
(Escalas) (Escalas)
1 7- •
A 8
B 2 7 6- •
C 3 6 5- •
D 4 5 4- •
E 5 4 •
3-
F 6 3
2- ■
G 7 2
1- •
H 8 1
0 1 2 3 4 5 6 7 8
Prueba 3
Fie. 4.2. C o r relac ió n - —1,0
Podría parecer que hay una relación igual de fuerte entre estos dos resultados
com o la que había entre los resultados anteriores de las pruebas 1 y 2, pero esta
vez se trata de una relación negativa. Es difícil encontrar correlaciones negati
vas tan importantes entre los resultados de dos pruebas de idiom as, pero pue
den encontrarse, por ejemplo, entre los resultados de una prueba de idiom as y
algún tipo de m edidas de personalidad.
Finalmente, la figura 4.3 muestra los resultados de las pruebas 1 y 4. En este
caso no hay una relación obvia entre los dos grupos de resultados. Podría
deberse a la casualidad, y no hay un patrón que se pueda distinguir en el dia
gram a de dispersión . Los puntos aparecen dispersos en todo el gráfico. El
índice de correlación para este grupo de resultados es de + 0 ,0 5 , lo que se
acerca tanto al 0 ,0 0 que podem os decir que no hay correlación entre los dos
grupos de resultados.
No es m uy corriente que no haya correlación alguna entre los resultados de
dos pruebas de lengua. Puesto que ambos pretenden evaluar aspectos del mismo
rasgo —competencia lingüística —se espera que al menos muestren algún grado
79
de coincidencia. Una correlación más posible entre dos pruebas puede verse en
la figura 4.4. Se distingue en las escalas de los estudiantes que participaron en
la prueba que había una cierta sim ilitud entre los dos grupos de resultados.

8- •
(Escalas) (Escalas)
A 1 6 7- •
B 2 3 6- •
C 3 5 s- •
D 4 1 4- •
E 5 7
3- •
F 6 8
2“
G 7 2
i- •
H 8 4
1 ! 1 1 i 1
> 1 2 3 4 5 6 7 8
Fie. 4.3. C orrelación = +0,5 Prueba 4
Por ejemplo, el estudiante B fue segundo en una prueba y tercero en otra, y el

estudiante C fue tercero en una prueba y cuarto en la otra. Sin embargo, no hay
una coincidencia total. El diagrama de dispersión muestra que hay alguna sim i
litud entre las notas, puesto que los puntos tienden a progresar desde abajo a la
izquierda hacia arriba a la derecha, y puesto que no hay puntos arriba a la
izquierda ni abajo a la derecha. Sin embargo, no es posible unir todos los pun
tos con una línea recta. La correlación esta vez es + 0 ,7 0 lo que significa que hay
una coincidencia importante entre los dos grupos de notas.
A B C D E F G H I J K L M N O P Q R S T
Prueba 1 1 2 3 4 S 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Prueba 2 7 3 4 1 10 8 2 18 11 13 5 6 12 14 15 20 17 9 16 19
Prueba 1 20-
18-
16-
14-
12 -
10 -
8-
- •
6"
4- •
2- •
0 i — i— i— i— ¡— i— i— ¡— ;— ¡— i— i— i— i— i— i— ¡— ¡— i— ;— i -
0 2 4 6 8 10 12 14 16 18 20 Prueba 2
F ig . 4 .4 . C orrelación = + 0 , 7
80
Análisis de exámenes
Hay muchas maneras de calcular coeficientes de correlación. El método usado

aquí fue el de correlaciones de acuerdo al orden de la escala (rank order correlation; véase el
apéndice 5 para la fórmula y un ejemplo desarrollado). Este índice de correla
ción es fácil de calcular a mano, y se usa cuando sólo hay un pequeño número
de resultados a correlacionar, o cuando los resultados están escalados, como era
el caso en nuestros ejemplos.
Otro m étodo de hacer correlaciones, que puede usarse para establecer corre
laciones entre notas de pruebas, en vez de escalas, es el coeficiente de corrdación de Pear-
son (Pearson product moment corrdation). Este es el coeficiente más común de correlación
y se calcula automáticamente con programas estadísticos. Sin embargo, su uso
no es siempre aconsejable. Primero, asume que los dos grupos de notas tienen
una escala de intervalos idéntica, es decir, que hay la misma diferencia entre cada
resultado en la escala, es decir, que hay la misma diferencia entre un 1 8/20 y un
1 9 /2 0 que entre u n 5 / 2 0 y u n 6 / 2 0 . Sería pues erróneo usar este coeficiente
para establecer la correlación entre dos grupos de resultados basados en puntua
ciones como Muy bien, Bien, Flojo, puesto que incluso en el caso de que se pasa
ran a notas numéricas como 3, 2 y 1 no hay ninguna garantía de que la diferencia
entre 3 y 2 sea la m isma que entre 2 y 1. Segundo, este coeficiente sólo es apro
piado si la relación entre dos grupos de resultados es consistente a lo largo de
toda la escala de notas. Por ejem plo, si las dos pruebas se administraron a un
amplio grupo de alumnos y los resultados de los mejores alumnos coincidían en
las dos pruebas pero no era así con los alumnos menos buenos, los puntos en el
diagrama de dispersión se agruparán alrededor de una línea curva y no una línea
recta, y el coeficiente no será el adecuado. Antes de utilizar este coeficiente debe
ría leerse sobre lo que el mismo aparece en un libro de estadística estándar como
el de Guilford y Fruchter, 1978.
4.4.2. Análisis clásico de ítems
PRUEBAS DE CORRECCIÓN OBJETIVA

Tradicionalmente se calculan dos aspectos para cada ítem de corrección objetiva
—el coeficiente de dificultad (facility valué) y el índice de discriminación (discrimination Índex). El
coeficiente de dificultad (C.D.) mide el nivel de dificultad de un ítem y el índice
de discriminación (I.D.) mide hasta qué punto los resultados de un ítem indivi
dual se corresponden con los resultados de toda la prueba.
Coeficiente de dificultad
El coeficiente de dificultad de un ítem es el porcentaje de alumnos que lo contes
tan correctamente. Si hay 300 estudiantes y 150 responden correctamente, el coe
ficiente de dificultad del ítem es de 15 0 /3 0 0 , lo que es el 50% (a menudo citado
como una proporción: 0,5). Esta simple medida da inmediatamente a los redac
tores idea de la dificultad del ítem para el muestreo de alumnos. Si sólo 6 /3 0 0
estudiantes responde correctamente a un ítem, la dificultad será de un 2%, y está
claro que se trata de un ítem muy difícil. De forma similar, si la dificultad es del
81
95% (2 8 5 /3 0 0 ) el ítem es m uy fácil. Tales ítems no son demasiado informativos

puesto que nos dicen m uy poco sobre los distintos niveles de competencia del
grupo analizado. Para tomar un caso extremo, un ítem con un C.D. del 0% no
dará ninguna información excepto que se trata de un ítem m uy difícil. Si los exa
minadores quieren una distribución amplia de las notas en un examen, es decir,
si quieren que las notas de los alumnos oscilen de muy altas a m uy bajas, selec
cionarán ítems que estén lo más cerca posible de una dificultad del 50% puesto
que tales ítems facilitan la mayor gama de variación entre estudiantes individua
les. (Explicaremos esto de forma más extensa más adelante cuando hablemos del
índice de discriminación.) Sin embargo, si a los responsables de la prueba les inte
resa más asegurarse de que una prueba tiene un nivel concreto de dificultad, pue
den manipular los contenidos de la prueba seleccionando ítems con la facilidad
apropiada para que la población obtenga la media aritmética esperada.
(La «m ed ia» —mean—es la suma de las notas de todos los alumnos dividida por
el número de alumnos.) Por ejemplo, si los alumnos obdenen una nota media del
70% en un examen, la dificultad m edia de todos los ítems es del 70% y por lo
tanto la prueba seguramente tiene muchos ítems con un C.D. de más del 70%. Si
los responsables de la prueba quieren hacer la prueba más difícil, pueden quitar
o substituir los ítems fáciles, quizá los que tienen un C.D. superior al 80%, para
que baje la m edia del C.D. y por consiguiente la nota media de los alumnos. Esto
se discutirá más extensamente en el apartado 4.5 sobre estadística descriptiva.
índice de discriminación
Así como es importante conocer la dificultad de un ítem, también es importante
saber lo bien que discrimina, lo bien que distingue entre alumnos de distintos
niveles de com petencia. Si el ítem funciona bien, se podría esperar que haya
más alum nos con buenas calificaciones que alum nos con calificaciones bajas
que sepan la respuesta correcta. Si los alumnos buenos dan una respuesta inco
rrecta, m ientras que los alum nos flojos dan una respuesta correcta, está claro
que hay un problem a en el ítem que debe investigarse.
Hay muchas formas de calcular el índice de discriminación, pero una de las
más fáciles supone ordenar a los alumnos de acuerdo con sus notas finales en la
prueba y comparar la proporción de respuestas correctas del tercio superior del
m uestreo con las del tercio inferior. Por ejem plo, si el m ejor grupo tiene 10
alumnos, y 7 aciertan el ítem (0 ,7 ), mientras que sólo 2 de los 10 del grupo
más flojo (0 ,2 ) aciertan, el I.D. es de 0,7 —0,2 = + 0,5. Se considera que un
ítem con un I.D. de + 0 ,5 discrim ina bien, puesto que los alumnos de buenas
notas lo han contestado m ejor que los alumnos de notas bajas. (Véase apéndice
3 para el estudio de ejemplos desarrollados.)
El m ayor índice de discriminación posible es + 1 ,0 0 , y se consigue si todos
los alumnos del grupo más alto dan la respuesta correcta y ninguno de los alum
nos del grupo m ás bajo responde correctamente. Tales ítems son m uy raros. A
m enudo los redactores se contentan con un I.D. a partir de + 0 ,4 pero no hay
reglas en cuanto a esto, puesto que la posibilidad de obtener unos I.D. altos
82
A nálisis de exámenes
depende del tipo de prueba y de la gam a de capacidades de los examinandos. A

m enudo, sin em bargo, nos encontramos con un ítem que tiene un I.D. nega
tivo, lo que significa que hay más alumnos que responden correctamente en el
grupo inferior que en el grupo superior. Hay obviamente algo m uy erróneo en
un ítem así y debería revisarse o descartarse. Por ejemplo, cuando se ensayó el
ítem siguiente con 207 alumnos franceses de nivel elemental e intermedio bajo,
el I.D. fue de —0 ,3 1 . Sólo el 0 ,0 7 del grupo m ás alto escogió la respuesta
correcta, mientras que el 0,38 del grupo m ás flojo acertó. Todos los estudian
tes del grupo m ás alto, excepto el 7% escogió la alternativa A.
This shirt is too d irty _______________________ .
A. to wear it.
B. that I wear it.
C. than I wear.
D. for m e to wear.
No está claro lo que no funciona en este ítem, pero por alguna razón no fun
ciona, y por lo tanto debería cambiarse o suprimirse de la prueba.
Con ítems de respuesta múltiple, un índice de discriminación bajo puede a
menudo explicarse por el comportamiento de una o de varias opciones. Las res
puestas pueden distribuirse en tina tabla, como en el ejemplo siguiente, que mues
tra los resultados de una prueba piloto de un ítem de comprensión oral. Se puso
la cinta, y los estudiantes tuvieron que seleccionar la respuesta apropiada.
«W e’re going to a film tonight. Do you want to come along?»

A. Where are you going tonight?
B. Do you want to see a film tonight?
C. Thanks. What time is it?
D. Are you going along now?
Se agruparon los resultados de los alumnos en tres grupos: el m ás alto, el del

m edio y el m ás bajo. Para cada ítem se hizo una tabla que m ostrara cuántos
alumnos de cada grupo habían escogido cada alternativa. Los resultados del ítem
citado se pueden ver en la tabla 4.1.
T a bl a . 4 . 1 . T a b ú de a n á l isis de ítem
A B C* D En blanco Total
A - - 14 7 - 21 * La respuesta
correcta es la C.
M 17 3 20
' C. D. = 71%
B 6 13 - 2 21
I.D. = + 0 ,0 5
Total 6 - 44 10 2 62
(A = Alto, M = Medio, B = Bajo)
83
Esta tabla muestra cómo funcionó el ítem con estos alumnos. 44 de 62 esco
gieron la alternativa correcta, la C, pero esta alternativa atrajo igualmente a alum
nos de los tres grupos. No distinguió entre alumnos de niveles diferentes, y el
I.D. es sólo de + 0 ,0 5 . Si analizamos cómo funcionaron las alternativas, veremos
lo que funcionó mal. Primero, la alternativa B fue inútil puesto que nadie la
escogió. Segundo, la alternativa D atrajo a los que se equivocaron; 7 estudian
tes del grupo alto la escogieron, al igual que 3 del grupo m edio y ninguno del
grupo bajo. Puesto que más estudiantes destacados que flojos escogieron la alter
nativa supuestam ente incorrecta, debe de haber algo extraño en esa opción.
Podría discutirse si «Are you going along n ow ?» tiene sentido en el contexto
dado. Esta alternativa debería pues suprimirse. La única alternativa que parece
funcionar es la A, puesto que todos los que la escogieron pertenecen al grupo
bajo. Esta alternativa fue la única que discriminó. La distribución de los alum
nos que dejaron el ítem en blanco tam bién contribuyó a esta discrim inación
positiva puesto que las respuestas en blanco pertenecían sólo al grupo bajo.
M encionam os m ás arriba que si querem os que los ítem s tengan I.D. altos,
deberían tener C.D. cercanos al 50%. Esto es así porque los ítem s de dificul
tad m edia dan m ás cam po para la discrim inación. La tabla 4 .2 , a continua
ción, lo dem uestra al m ostrar los I.D. que consiguen los ítem s con distinta
dificultad. En este ejem plo im aginario, 30 alum nos hicieron el examen, y la
tabla m uestra cuántos alum nos en cada uno de los grupos alto, m edio y bajo,
respondieron correctam ente al ítem. Había 1 0 alum nos en cada uno de los
tres grupos.
T a b l a 4 . 2 . R ela c ió n en tre c o e f ic ie n t e de d if ic u l ta d e ín d ic e de d isc r im in a c ió n
Grupo alto Grupo medio Grupo bajo C.D. I.D.

ítem 1 10 (1,0) 10 (1,0) 10 (1,0) 100% 0,0
ítem 2 10 (1,0) 10 (1,0) 8 (0,8) 93% + 0 ,2
ítem 3 10 (1,0) 10 (1,0) 4 (0,4) 80% + 0 ,6
ítem 4 10 (1,0) 10 (1,0) 1 (0 .1 ) 70% + 0 ,9
ítem 5 10 (1 ,0 ) 10 (1,0) 0 (0,0) 66% + 1,0
ítem 6 10 (1,0) 5 (0,5) 0 (0,0) 50% + 1 ,0
ítem 7 10 (1,0) 0 (0,0) 0 (0,0) 33% + 1,0
ítem 8 9 (0 ,9 ) 0 (0,0) 0 (0,0) 30% + 0 ,9
ítem 9 6 (0,6) 0 (0,0) 0 (0,0) 20% + 0 ,6
ítem 10 2 (0,2) 0 (0,0) 0 (0,0) 6% + 0 ,2
ítem 11 0 (0,0) 0 (0,0) 0 (0,0) 0% + 0 ,0
Nota: Los números entre paréntesis son las proporciones de los candidatos de un
grupo que han acertado la respuesta correcta
Obviamente, si todos los alum nos tienen un ítem bien (ítem 1), no puede
haber discriminación alguna, y de la m ism a form a si todos tienen un ítem mal
(ítem 11) tam poco. Por otra parte, si la m itad de los alumnos lo aciertan y el
84
C.D. es del 50% (ítem 6), es posible contar con el I.D. m áximo de 1,00, pues
todo el grupo alto ha contestado correctamente y todo el grupo bajo ha con
testado mal. La tabla m uestra que con unos C.D. del 66% al 33% es posible
conseguir I.D. m áxim os, pero que cuando la dificultad se aparta de estos valo
res, ya no es posible obtener I.D. altos. Por ejemplo, si el C.D. es del 80% (ítem
3), no es posible que todos los que hayan acertado el ítem estén en el grupo
alto, por lo que la discrim inación no puede ser más alta de + 0 ,6 . Esto debería
recordarse a la hora de considerar los I.D. Si un ítem tiene un C.D. del 6% y
todavía tiene un I.D. de + 0 ,2 , está discrim inando m uy bien si tenemos en
cuenta que es un ítem m uy difícil.
Si el número de sujetos es pequeño, como suele ocurrir en un ensayo previo,
el I.D. puede calcularse utilizando el m étodo descrito aquí o usando la formula
Ej 3 que produce los m ism os resultados (véase apéndice 3).
H oy en día los responsables de exámenes utilizan program as informáticos
para su análisis de ítems. Estos no calculan el I.D. con la fórmula Ej 3 (véase el
apéndice 3), pero calculan las correlaciones biseriales y las correlaciones bise-
riales puntuales. Como el E1 3 , estas dos correlaciones comparan el comporta
m iento del ítem con el de la prueba completa, pero utilizan procedim ientos
m atem áticos más com plejos. La fórm ula E] 3 y estas dos correlaciones produ
cen resultados similares, pero las dos correlaciones biseriales tienen la ventaja
de que tienen en cuenta todas las respuestas de todos los alumnos, y no sólo las
de los grupos alto y bajo. La correlación biserial, que tiende siempre a ser más
alta que la correlación biserial puntual, debería usarse si la muestra tiende a ser
de un nivel de competencia lingüística distinto del de la población a la que va
dirigida la prueba. En los otros casos, debería usarse siempre la correlación bise
rial puntual. Las fórmulas para estas correlaciones se pueden encontrar en cual
quier libro de estadística y Crocker y Algina, 1986, dan una explicación clara
de su utilización. El program a informático ITEMAN de Microcat, calcula auto
máticamente la dificultad y las dos correlaciones biseriales de todos los ítems,
y también inform a sobre el funcionamiento de las alternativas. Paquetes esta
dísticos com o el SPSS y el SAS llevan a cabo los m ism os procesos pero son más
complicados de utilizar. (Para nombres y direcciones completas de estos y otros
program as informáticos, véase el apéndice 8.)
Quizá deberíam os mencionar aquí un aspecto antes de continuar. Para obte
ner el I.D. dijim os que los resultados de los alumnos se ordenaban de acuerdo
con la nota. En el ejem plo de la prueba de com prensión oral que analizamos
anteriorm ente, la calificación era la de la prueba de com prensión oral. Sin
em bargo, si esta prueba hubiera form ado parte de una serie de pruebas, los
alum nos habrían pod id o agruparse de acuerdo con las calificaciones resul
tantes de toda la serie. El propósito de agrupar los resultados es para ordenar
a los estudiantes de acuerdo con alguna m edida de com petencia lingüística,
y a m en udo la m ejor m edida son los resultados obten idos en una serie de
pruebas com pleta. Sin em bargo, si la prueba de com prensión oral se propo
nía evaluar destrezas m uy distintas de las del resto de componentes de la serie,
85
En sayos previos y análisis
no ofrecería una correlación alta con las otras pruebas, y los ítem s de co m
prensión oral no tendrían dem asiada correspondencia con los resultados del
conjunto de pruebas. Los índices de discriminación de los ítems tenderían por
lo tanto a ser bajos. Lo que los responsables de exam en hacen en estos casos
es comparar el comportam iento de los ítems con las notas totales de los alum
nos en aquellas pruebas de la serie que parecen evaluar destrezas sim ilares a
las evaluadas por los ítem s en consideración. Por ejem plo, si la serie de prue
bas contiene pruebas de respuesta m últiple de gram ática y de vocabulario y
pruebas de expresión oral y expresión escrita, los responsables de la prueba
agruparán a los estudiantes de acuerdo con los resultados obten idos en las
pruebas de gramática y de vocabulario y utilizarán esta escala para analizar los
ítem s de gram ática y vocabulario.
Puesto que com parar ítems con los resultados de una prueba de la que for
man parte, y que todavía no se ha experimentado, es lógicamente dudoso, algu
nos responsables de examen agrupan a los alumnos de acuerdo con alguna otra
m edida de competencia lingüística, como puede ser el orden dado por el pro
fesor de estos alumnos, y comparan el comportamiento de cada ítem con esta
medida extema. La dificultad aquí estriba en encontrar una medida extema que
sea fiable y que m ida las destrezas lingüísticas relevantes. Anastasi, 1988, dis
cute este punto con m ás detalle.
Los ítems que requieren respuestas de una sola palabra, de un grupo de pala
bras o de frases pueden analizarse de la m ism a m anera que los ítem s de res
puesta m últiple, pero en este caso, naturalmente, no hay alternativas que
analizar. Aparte de calcular el C.D. y el I.D., y de estudiar el comportamiento de
los huecos, el aspecto más importante de este tipo de análisis es estudiar las res
puestas erróneas de los estudiantes. Estas respuestas darán inform ación sobre
cómo entendieron la tarea los estudiantes y sobre si el ítem evalúa lo que inte
resa. Tam bién revelarán inexactitudes y om isiones en la clave de respuestas, y
descubrirán am bigüedades en el sistema de puntuación. Por ejem plo, las ins
trucciones de puntuación pueden decir «ignore faltas de ortografía», pero puede
no estar claro lo que esto significa en realidad. Si la respuesta correcta es «tuvo»,
¿qué pasa con «tu b o »? Utilizar la clave de respuestas y los criterios de evalua
ción durante la fase de ensayos previos debería pulir cualquier problem a que
pudiera presentarse en el exam en definitivo, puesto que en este caso se preci
saría cóm o tratar este tipo de respuestas incorrectas.
Frecuentem ente, n os encontram os con pruebas supuestam ente de correc
ción objetiva que son difíciles de puntuar de form a coherente. Por ejem plo,
es difícil redactar pruebas de com prensión lectora o com prensión oral de res
puesta abierta que tengan un núm ero de respuestas correctas lim itado. Ade
m ás de d ificu ltad es tales com o el tratam iento de las faltas de ortografía
descrito antes, las respuestas abiertas pueden incluir am bigüedades gram ati
cales que interfieren en la claridad de la respuesta. Además, cuanto m ás larga
sea la respuesta prevista, m ayor es la posibilidad de respuestas aceptables ines
peradas. Si los correctores tienen prisa p or acabar con un núm ero elevado de
86
A nálisis de exámenes
exám enes, estarán tentados de tom ar sus propias decisiones sobre la bondad
de tales respuestas, y estas decisiones serán distintas de las tom adas por otros
correctores. Puede, pues, que sea necesario com probar la consistencia de los
correctores com parando las notas dadas p or dos o m ás correctores (véase el
apartado sobre fiab ilid ad m ás ad elan te). M ientras pueda m antenerse una
corrección coherente, el análisis de ítem s puede llevarse a cabo de la form a
habitual.
PRUEBAS DE CORRECCIÓN SUBJETIVA

Aunque el análisis de ítems no es apropiado para las pruebas de corrección sub
jetiva, com o los resúmenes, las redacciones y las entrevistas orales, estas prue
bas también deben ser sometidas a ensayos previos para ver si los ítems permiten
obtener la muestra lingüística prevista; si el esquem a de puntuación, que debe
ría haberse escrito durante la fase de redacción (véase el capítulo 3 ), puede
usarse; y si los examinadores pueden corregir de forma consistente. Es a menudo
im posible experim entar tales pruebas con grandes núm eros de estudiantes a
causa del tiem po que se necesitará para corregir las redacciones o llevar a cabo
las entrevistas, pero deberían probarse con una gam a amplia de estudiantes de
distintos niveles de lengua y de conocimientos generales para garantizar que la
muestra obtenida contenga la m ayoría de las características que caracterizarán
las respuestas producidas en el examen final.
Una vez administradas las redacciones o las entrevistas, debería haber sesio
nes de corrección para com probar que los enunciados han producido el tipo
de respuestas previsto y si las directrices de corrección y los criterios de eva
luación funcionan satisfactoriamente. Estas sesiones de corrección durante la
fase de ensayos previos deberían seguir el patrón descrito en el capítulo 6, y
deberían provocar la rectificación de los enunciados, en las directrices y en los
criterios de evaluación.
4.4.3. Fiabilidad
Si diéram os la m ism a prueba a los m ism os estudiantes varias veces, probable
mente constataríamos que los estudiantes no siempre obtienen las mismas notas.
Algunas de estas variaciones en los resultados pueden estar motivadas por dife
rencias reales o sistemáticas, com o pueden ser la m ejora de los alumnos en la
destreza evaluada, y otras pudieran estar producidas por errores, esto es, cam
bios no sistemáticos causados, por ejemplo, por lagunas en la concentración por
parte de los estudiantes o ruidos en la sala de examen. El objetivo a la hora de
administrar un exam en es producir pruebas que m idan los cam bios sistemáti
cos y no los no sistemáticos, y cuanta mayor sea la proporción de variación sis
temática en la calificación de la pm eba, más fiable es. Un examen perfectamente
fiable sólo m edirá cam bios sistemáticos.
Aunque es a m enudo im posible obtener un examen perfectamente fiable, los
responsables de examen deben procurar que las pruebas sean lo más fiables posi
ble. Pueden hacerlo reduciendo al mínimo las causas de variación no sistemática.
87
Deberían garantizar, por ejem plo, que la prueba se administre y se corrija de

forma consistente, que las instrucciones estén claras, y que no haya ítems am bi
guos. Como hemos visto en el apartado referente a los índices de discriminación,
los ítems am biguos o defectuosos tienen índices de discriminación bajos, y una
prueba que contiene este tipo de ítem tiende a ser poco fiable.
La fiabilidad puede estimarse de distintas maneras. La forma clásica es adminis
trar la prueba a un grupo de alumnos, y volverla a administrar al m ism o grupo
inmediatamente después. El supuesto es que los alumnos no habrán aprendido
nada durante el intervalo, y que si la prueba es perfectamente fiable obtendrán
la misma nota en la primera y en la segunda administración. Este procedimiento
se llama fiabilidad test-retest. Obviamente es muy poco práctica, y en cualquier caso
los alumnos pueden hacerlo mejor o peor la segunda vez según se hayan acos
tumbrado al método usado o si están cansados o nerviosos. Podemos obtener la
fiabilidad test-retest dejando un intervalo más largo entre las dos administracio
nes pero esto tiene también sus inconvenientes puesto que durante este período
los alumnos pueden haber cambiado. Por ejemplo, pueden haber aprendido más.
Otra forma de ver la fiabilidad de una prueba es utilizar el método de la fiabilidad
paralela, que propone comparar las notas de dos pruebas m uy similares (parale
las). Sin embargo, esto también puede resultar problemático puesto que es casi
imposible redactar dos pruebas genuinamente paralelas. (La redacción de prue
bas paralelas se discute en el apartado 4.5, m ás adelante.)
Puesto que los procedimientos descritos anteriormente son largos y poco satis
factorios, es m ás corriente administrar la prueba sólo una vez, y m edir lo que se
llama consistencia interna (inter-item consistency). Una forma de hacer esto es simular el
método de pruebas paralelas utilizando el método de las dos mitades (split half reliability
index). Este m étodo supone dividir la prueba en dos, tratando estas dos mitades
como si fueran versiones paralelas, y estableciendo correlaciones entre las m is
mas (véase apéndice 6 para un ejemplo). Cuanto más alta sea la correlación entre
las dos mitades, m ás alta será la fiabilidad. Una prueba perfectamente fiable ten
dría un coeficiente de fiabilidad de + 1 ,0 . El coeficiente de fiabilidad se interpreta
de la m ism a form a que un coeficiente de correlación. Si los resultados de una
prueba se deben solamente a factores no sistemáticos, o a la suerte, el coeficiente
de fiabilidad estará cercano al 0,00.
Este método de las dos mitades no es del todo satisfactorio puesto que el valor
de la correlación dependerá de qué ítem s se escojan para cada una de las dos
mitades. A m enudo pues, se usa una forma más compleja de obtener el coefi
ciente de fiabilidad, que hace una estimación de cuál sería el coeficiente de fia
bilidad si se establecieran correlaciones entre todas las posibles divisiones de la
prueba original. Las dos fórm ulas m ás corrientes son la de Kuder Richardson
(KR)20 y Kuder Richardson (KR)21. El KR20 está basado en datos de ítems, y
puede usarse si se tienen los resultados de cada tmo de los ítems. (Mientras todos
los ítems sean dicotóm icos -ten gan el m ism o peso en la prueba y se puntúen
como correcto o incorrecto-, este coeficiente será idéntico al coeficiente alfa de
Cronbach, que es el coeficiente que habitualmente calculan algunos programas
88
inform áticos). El K R 2 1, que asume que todos los ítems son también dicotómi-
cos, se basa en notas totales de la prueba. Puesto que el KR21 utiliza menos infor
m ación que el K R 20, es m enos exacto y siem pre produce un coeficiente de
fiabilidad más bajo. Ambas fórmulas asumen una perfecta fiabilidad de correc
ción. (Puede consultarse un ejemplo desarrollado de KR21 en el apéndice 7 ). La
fórm ula KR20 es difícil de calcular, y no la recomendamos a quien no tenga un
ordenador. El coeficiente de fiabilidad del método de las dos mitades es el más
fácil de los tres de calcular y en general produce resultados similares a los de las
fórmulas KR20 y KR21.
La fiabilidad de una prueba depende de muchos factores, como el tipo y la lon
gitud de la prueba, y la gama de competencia lingüística de los alumnos con los
que se ensayó la prueba. Una prueba objetiva y bien redactada de 100 ítems de
elección múltiple, que se ha ensayado con alumnos de distintas competencias,
podría tener un coeficiente de fiabilidad de + 0 ,9 5 . Sin embargo, una prueba de
comprensión oral igualmente bien redactada de 20 ítems de respuesta abierta que
se ha ensayado con alumnos avanzados puede tener sólo una fiabilidad de +0,75.
La fiabilidad también depende de la homogeneidad de los ítems. Si se supone que
todos los ítems evalúan la m isma destreza de la m ism a forma, estos ítems m os
trarán correlaciones altas y la prueba tendrá un coeficiente de fiabilidad alto. Si la
prueba contiene apartados que evalúan distintas destrezas de forma distinta, estas
secciones no mostrarán una correlación alta con las demás, y la fiabilidad será
menor. (Esto se discute con más extensión en el capítulo 8.) Cuando interprete
m os un coeficiente de fiabilidad es importante considerar todos estos aspectos.
Tal com o m encionam os antes, las fórm ulas de Kuder Richardson deberían
usarse sólo si los estudiantes han tenido el tiem po necesario para acabar la
prueba. En caso contrario, los alumnos m ás flojos no habrán llegado a respon
der algunos ítems, en particular los del final, por lo cual el coeficiente de fiabi
lidad tenderá a ser demasiado alto. (Para m ás información acerca de la fiabilidad,
véase Guilford y Fruchter, 1978; Anastasi, 1988, y Crocker y Algina, 1986).
En una prueba subjetiva, naturalmente, la corrección m isma puede que no
resulte fiable. Esto puede ser debido a factores como la variación en las distin
tas formas en que se llevó a cabo la entrevista, la ambigüedad de los criterios de
evaluación, la aplicación de distintos m odelos por distintos correctores y la
inconsistencia por parte de algunos correctores. La fiabilidad de tales pruebas
puede evaluarse comparando las notas otorgadas por el mismo corrector en dis
tintas ocasiones. Puesto que estas comparaciones se harán con respecto al orden
en que los correctores coloquen a los estudiantes, pero no con respecto a las
notas obtenidas, es posible que dos examinadores ordenen un grupo de estu
diantes de la m ism a forma y muestren de esta forma una correlación perfecta
entre ellos, a pesar de que uno haya dado notas más altas que el otro o haya
usado una gam a m enos amplia de notas. Es pues también necesario comparar
las notas m edias dadas por cada corrector. Existe un coeficiente de fiabilidad
basado en el análisis de la varianza que toma en cuenta tanto el orden como el
nivel y se discutirá en el capítulo 6.
89
4.4.4. La teoría de respuesta al ítem (Item Response Theory)

Los resultados de análisis llevados a cabo utilizando los procedimientos de aná
lisis de examen citados más arriba tienen un principal inconveniente. Las carac
terísticas de los exam inandos y las características de la prueba no pueden
separarse, con lo cual los resultados de los análisis sólo son válidos para la m ues
tra usada para obtenerlos. Los resultados no serán válidos para muestras de alum
nos con distintos niveles de com petencia. No puede pues facilitar ninguna
m edida ñ ja de la dificultad de una prueba. Si los ítem s de una prueba tienen
coeficientes de dificultad bajos, la prueba puede resultar difícil o puede que se
haya ensayado con alumnos de nivel bajo. Si el coeficiente de dificultad es alto,
puede ser debido a que la prueba es fácil o que se ha ensayado con alumnos con
un nivel de competencia m uy alto. A causa de esto es difícil comparar alumnos
que han hecho distintas pruebas, o comparar ítem s que se han ensayado con
grupos de estudiantes distintos.
La m edición usando la teoría de la respuesta al ítem (TRI) está diseñada para solu
cionar este problema. Podemos utilizarla para desarrollar una escala de dificul
tad de un ítem que sea independiente de la muestra en la que se han ensayado
los ítems, para poder comparar la actuación de exam inandos que han contes
tado a distintas pruebas, o puede aplicarse un grupo de resultados a grupos de
alumnos con distintos niveles de capacidad lingüística. Esto significa que para
comparar dos exámenes no hace falta, en teoría, ensayar las dos pruebas com
pletas con el m ism o grupo de estudiantes. M ientras haya idénticos ítem s de
anclaje en las dos versiones de la prueba, cada versión puede ensayarse con un
grupo distinto, y las dos pueden compararse utilizando estos ítems de anclaje.
La TRI se basa en la teoría de la probabilidad, y muestra la probabilidad que
tiene una persona en concreto de responder correctamente a un ítem. Los resul
tados de los alumnos y los totales de los ítems se convierten en una escala para
que puedan relacionarse el uno con el otro. Si la capacidad lingüística de un
estudiante es la m ism a que el nivel de dificultad del ítem, este estudiante tiene
una posibilidad de 5 0 /5 0 de responder al ítem de forma correcta. La relación
entre la actuación de un candidato con este ítem y las capacidades inherentes a
la actuación del ítem se describen en una curva característica del ítem (CCI) (ítem
characteristic curve). Ésta muestra que la posibilidad de responder a un ítem correc
tamente crece al m ism o tiem po que el nivel de competencia del candidato. La
figura 4.5 muestra un ejemplo simple de CCI. La probabilidad que tiene de res
ponder correctamente al ítem se muestra en el lado izquierdo del gráfico y los
niveles de com petencia de los alum nos se m uestran abajo en horizontal. Los
niveles de competencia en este caso van de - 3 a + 3 . Esta escala, que se llama
escala de logit (logit scale) es bastante arbitraria. Si al usuario no le gustan las cifras
negativas, los niveles pueden transform arse para que oscilen de 100 a 0, con
una media de 50. En este ejemplo puede verse que los alumnos con un nivel de
competencia de 0 tienen un 0,3 (o 30%) de posibilidades de responder al ítem
correctamente.
90
Hay tres m odelos principales de TRI, y las opiniones varían acerca de qué
m odelos son los más apropiados para distintas circunstancias. Sin embargo, cual
quiera que esté pensando en utilizar el TRI para analizar pruebas debería pedir
consejo antes de embarcarse. Todo lo que podem os hacer es describir breve
mente las principales ventajas e inconvenientes de cada modelo.
MODELO (RASCH) DE UN PARÁMETRO

Este es el m ás simple de los tres m odelos. Es comparativamente fácil de enten
der y requiere menos sujetos en una muestra que los otros dos modelos. Se con
sidera suficiente un m ínim o de 100 estudiantes. Naturalmente, en muchas
situaciones, este núm ero es im posible de obtener, pero si se usa una muestra
menor, los resultados tendrán un margen de error demasiado alto.
Este modelo resulta muy manejable para análisis simples y prácticos, pero es limi
tado en cuanto a su alcance porque sólo incluye dos aspectos: la capacidad lingüís
tica del sujeto y la dificultad del ítem. No tiene en cuenta la discriminación del ítem.
Hay dos programas útiles para llevar a cabo análisis de Rasch, que son BIGS-
TEPS y QUEST (véase apéndice 8).
MODELO DE DOS PARÁMETROS

Este m odelo hace todo lo que hace el m odelo de un parámetro, pero también
tiene en cuenta la discriminación del ítem. Es, pues, más complejo y requiere
una muestra de al m enos 200 estudiantes.
MODELO DE TRES PARÁMETROS

El m odelo de tres parámetros no sólo hace todo lo que hacen el modelo de uno
y de dos parámetros, sino que también tiene en consideración el factor de acierto
por suposición. Es mucho más sofisticado que los otros dos modelos y sus defen
sores dicen que puede moldearse para que se adapte al mundo real. Sin embargo,
es m uy com plicado de entender y de usar y requiere una base de datos de al
menos mil estudiantes.
91
Las matemáticas que subyacen en el TRI son demasiado complejas para poder
explicarlas aquí, pero Henning, 1987, y Crocker y Algina, 1986, contienen bre
ves introducciones al respecto; Wright y Stone, 1979, Wright y Masters, 1982,
Lord, 1980, y Hambleton, Swaminathan y Rogers, 1991, lo explican con más
detalle.
Un program a informático que puede utilizarse para efectuar análisis de uno,
dos y tres parámetros es el BILOG (véase el apéndice 8).
El TRI es un instrum ento adicional útil para el responsable de un examen.
Puede utilizarse para identificar ítem s que no se adaptan al grupo que se va a
evaluar. Es útil para detectar la parcialidad de una prueba, y puede utilizarse para
analizar los resultados tanto de pruebas objetivas como subjetivas. También es
m uy bueno para las pruebas adaptadas al ordenador. Sin embargo, no es nece
sario para el análisis de ítems básico de una prueba nueva.
BANCOS DE ÍTEMS
El TRI es ideal para aquellos que desean almacenar ítem s en bancos de ítems.
Los ítem s ensayados o grupos de ítem s pueden «calib rarse» de acuerdo con
características com o la competencia de una persona, la dificultad del ítem, su
poder de discrim inación, y puede ser almacenado en un banco para ser utili
zado cuando sea necesario. Entonces, cuando los responsables de una prueba
están pensando en la elaboración de una nueva versión de un examen, pueden
seleccionar del banco los ítem s que tengan no sólo el nivel adecuado para la
población del exam en sino que también pueden com binarlos de manera que
elaboren una prueba que sea equivalente en cuanto a dificultad y discrim ina
ción a pruebas anteriores del m ism o tipo.
El disponer de un banco de ítems depende de la disponibilidad de al menos
200 personas para cada ensayo y de la existencia de un grupo de ítems de anclaje
que estén ya calibrados y por lo tanto se sepa su nivel de dificultad. Los nuevos
ítems se colocarán en la m ism a escala de dificultad que los ítems ya existentes.
4.4.5. Estadística descriptiva

Durante la fase de ensayos previos, además de analizar el comportam iento de
ítems individuales, es útil tam bién analizar el com portam iento global de una
prueba y el comportamiento de cada una de sus partes. Aquí también deberán
tenerse en cuenta los distintos requisitos de cada prueba, pero en cualquier caso
deberían hacerse gráficos de la distribución de resultados, m ostrando el lugar
donde se agrupan los resultados y la amplitud de su dispersión. Los valores esta
dísticos más importantes que se deben realizar son la media (mean), la moda (mode)
y la mediana (median), que m uestran cóm o se agrupan los resultados, y el rango
(range) y la desviación típica o estándar (standard deviation), que muestran la amplitud o
recorrido de los resultados (entre la nota más alta y la más baja; véase el apén
dice 4 para ejemplos desarrollados). Los histogramas de la figura 4.6 muestran
tres distribuciones distintas de resultados que pueden describirse utilizando estas
cinco medidas estadísticas.
92
7 7n
« (*>)
jÉJ 6' 86
1S 5 .1 S
j¡j 4- ï +J
flj 8<U 4
lÜ 3'
£l
•P
;
2 l
0 U i---t t f
Ó i 2 3 4 S 6 7 8 9 Í0 0 12 3 4 S 6 7 8 9
N o ta N ota
Media 6 6 6
Moda 6 7 6
Mediana 6 6,5 6
N°. de rango 4 8 2
Estudiantes D.T. 1,13 2,34 0,74

(a) (b) (c)
En los tres casos, 12 alumnos han hecho una prueba de 10 ítems. Podemos ver
en los histogramas que aunque la media es 6 cada vez, los resultados globales de
la prueba son m uy distintos. En A y en B, por ejemplo, hay m ás alumnos que
obtuvieron la nota media que cualquier otra nota: 4 alumnos tuvieron un 6 en
A, y 6 alumnos tuvieron un 6 en C. Sin embargo, en B hay más alumnos con un
7 que con un 6. La nota obtenida por el m ayor grupo de alum nos se llama la
moda, que en el caso de B es 7. Es útil tener la moda además de la media, en par
ticular si la prueba es muy fácil o m uy difícil, o cuando parece que los alumnos
que han realizado la prueba tienen dos niveles diferenciados. La figura 4.7 da un
ejem plo de los resultados de una prueba que resultó m uy fácil para los estu
diantes. La m oda es 20, mientras que la media es 15,55. Tal distribución de notas,
en la que éstas se agrupan en el extremo alto del histograma se describe como
«asim etría negativa», porque el número de notas decrece hacia la izquierda del
gráfico. Si una prueba es m uy difícil y los resultados disminuyen hacia la dere
cha del gráfico, se dirá que existe una «asimetría positiva».
La figura 4.8 muestra los resultados de una prueba que podrían haber reali
zado estudiantes con dos niveles de competencia distintos. Por ejemplo, el res
ponsable de la evaluación quizá ha adm inistrado la prueba a dos grupos
distintos, un grupo de nivel intermedio y otro de nivel avanzado. En este caso
se describirá la distribución como «bim odal», puesto que tendrá dos modas. Si
sólo hubiéram os buscado la nota media, no habríamos obtenido una idea clara
de los resultados puesto que sólo un alumno tuvo un 11. Si se dan la m edia y
las m odas la distribución de las notas se describe de forma más informativa.
93
N o ta
Media = 15,55 Moda = 20

F ig . 4 .7
N ota
Media = 1 1 Modas = 6 y 17
F ig . 4 .8
La tercera m edida de «tendencia central» (m edidas que muestran dónde se

agrupan las notas) es la mediana, que corresponde a la nota obtenida por el estu
diante que está en el centro de las notas de todos los estudiantes. Si, por ejem
plo, cinco estudiantes realizaron una prueba y obtuvieron notas de 9, 7, 6, 2 y
1, la m ediana sería de 6. La m ediana es especialmente informativa cuando el
responsable de la prueba tiene la sensación de que la media no es representativa
del todo del nivel de competencia del grupo. Por ejemplo, si todo el grupo de
10 alum nos m enos uno obtiene notas entre 8 y 10, y hay un alum no que
obtiene un 1, la nota m edia se verá reducida por esta nota disidente. Para com
pensar cualquier representación errónea de las notas, es m ejor tener también en
cuenta la mediana además de la media. En la figura 4 . 6 se verá que las distribu-
94
d on es sim étricas de (a) y de (c) y la m ediana son iguales con la m edia, pero
que en la (b) la m ediana, 6,5, es distinta.
Una vez estudiadas estas medidas de tendenda central, tenemos una idea más
dara de las diferencias en las distribudones de notas de los ejemplos de la figura
4.6. Sin em bargo, ninguna de estas m edidas explica las diferencias en la dis
persión de resultados. Por ejem plo, A y C tienen m edias, m odas y m edianas
idénticas, pero puede verse a simple vista que A tiene una distribudón de resul
tados m ucho m ás am plia que la C. La form a m ás sim ple de analizar esta dife-
rencia es ver d rango de cada distribudón. El rango es la diferenda entre la nota
más alta y la nota m ás baja. Así pues, d rango en A es de 8—4, que es igual a 4,
y en C es 2. Cuando sabem os los rangos, se muestran algunas de las diferencias
existentes en las amplitudes de las tres distribudones. Está ahora claro que C con
un rango de 2, tiene una distribudón de notas reducida, mientras que B, con
un rango de 8, la tiene amplia.
El rango es un a m edida m uy útil de «d isp ersió n », pero tiene un inconve
niente: no tiene en cuenta los huecos en la distribudón, es d ed r, las califica-
don es que nadie obtuvo. Así, en B, ningún alumno tuvo un 5 o un 9, por tanto
d rango es quizá una exageradón de la distribución de las notas. La m edida de
dispersión que tiene en cuenta cada una de las notas obtenidas es la desviación
típica. Ésta es una estadística m uy importante y debería obtenerse siempre que
sea posible. Cualquier libro introductorio de estadística explicará la desviadón
típica, y puesto que es m ás complicada de explicar que las otras m edidas des
critas, la describiremos aquí m uy brevemente. La desviadón típica (D.T.) corres
ponde, aproximadamente, a la variación m edia de la nota de cada alumno con
respecto a la media. Si un alumno tiene una nota de 4, y la nota m edia es un 6,
este estudiante se desvía —2 de la m edia. De la m ism a manera, un alumno con
un 10 se desviará un 4 de la m edia. La D.T. inform a sobre la m edia entre las
desviaciones de cada nota respecto a la m edia. Si vem os la figura 4 .6 otra vez
veremos que A tiene una D.T. de 1,13, B la tiene de 2 ,3 4 y C de 0,74. Compa
rando estas cifras podem os ver al instante que C está m enos dispersa que A o B.
Hay otras estadísticas y gráficos que se utilizan para describir la distribución
de resultados (véase cualquier libro de introducción a la estadística), pero un
histogram a y las cinco m edidas mencionadas m ás arriba son adecuadas para la
mayoría de los objetivos. Con estas medidas es posible comparar el nivel de difi
cultad y la dispersión de resultados de distintas partes de una prueba o de dis
tintas pruebas entre sí.
Estas medidas de tendencia central y de dispersión mostrarán hasta qué punto
es apropiado el borrador de examen para los propósitos con los que se ha redac
tado. Por ejem plo, será posible ver si la prueba tiene el nivel de dificultad ade
cuado. Tam bién será posible ver si la prueba es capaz de discrim inar entre
distintos estudiantes. Si una prueba debe distinguir entre m uchos niveles de
estudiantes, una que sea m uy fácil o m uy difícil con una distribución asimétrica
no será adecuada, puesto que demasiadas personas se agruparán a la izquierda
o a la derecha de la distribución. Lo que hace falta en este caso es una disper
95
sión amplia de notas con sólo unos pocos estudiantes que obtengan una nota
en concreto (véase la figura 4.9 a continuación). Para este tipo de prueba, los
ítems deberían tener unos I.D. altos, puesto que éstos provocarán que las notas
de los alumnos estén dispersas. Sin embargo, si la prueba tiene una nota de corte
única y los resultados son sólo de aprobado/suspenso, la prueba puede necesi
tar una distribución bimodal, agrupando a los alumnos a un lado o a otro m ien
tras unos pocos alumnos obtienen la nota de corte m ism a (véase la figura 4.8).
Si una prueba se redacta pensando en seleccionar sólo los alumnos que estén en
lo más alto o en lo más bajo del rango de competencia, los coeficientes de difi
cultad de los ítems deberían reflejarlo.
6-1
S 5'
1+J
Z 3-j
2<u 2 -
£
~T f ' V I" * t - ' - i |- * t -*~l I i '~ r > T i l 1 T

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
N o ta
Fig. 4.9
Así, por ejemplo, si una prueba está pensada para seleccionar al 20% de los
estudiantes más flojos para darles clases suplementarias, entonces los ítems debe
rían tener coeficientes de dificultad altos. Esto llevará a una discriminación más
alta entre los alum nos m ás flojos, com o puede verse en la figura 4.7, en la que
los alumnos de nivel alto se agrupan juntos, y el 10% de los más flojos se agru
pan en el extremo inferior de la distribución. Para m ás información sobre este
aspecto, véase Crocker y Algina, 1986 y Anastasi, 1988.
4.5. Versiones paralelas y equivalentes

Es frecuentemente necesario producir versiones paralelas o equivalentes de una
prueba. Com o hem os visto, se utilizan versiones paralelas para evaluar la fiabi
lidad de una prueba y se necesitan versiones equivalentes siempre que una ver
sión única no pueda resultar segura por una u otra razón.
Aunque los térm inos «p aralelo » y «equivalente» son a m enudo utilizados
indistintamente, los m antendrem os diferenciados. Pruebas paralelas son aquellas
diseñadas para que sean lo m ás similares posible. Deberían, pues, incluir las m is
mas instrucciones, los m ism os tipos de respuesta, el m ism o número de ítems, y
deberían estar basadas en el m ism o contenido. Deberían también, si se prueban
con los m ism os candidatos, producir las m ismas m edias y desviaciones típicas.
Cada alumno debería obtener notas casi idénticas para cada prueba —las diferen
cias existentes se deberían a la poca fiabilidad de la prueba—y si hubiera m ás de
96
Hablantes nativos
dos versiones paralelas de la prueba, todas las versiones deberían corresponderse

igualmente (véase Magnusson, 1966, y Crocker y Algina, 1986). Tales pruebas
paralelas son m uy difíciles de elaborar, y además de utilizarse en estudios de fia
bilidad se usan de forma más corriente en estudios en los que los sujetos de expe
rimentación realizan pruebas no idénticas sino similares.
Muchos tribunales de exámenes elaboran una o dos nuevas versiones de sus
exámenes cada año. En estos casos, no elaboran versiones paralelas sino que inten
tan elaborar versiones equivalentes, que se basan en las m ismas especificaciones
pero que pueden variar en cuanto al número de ítems, los tipos de respuesta y
el contenido. Los tribunales tienen a menudo una serie de tipos de pruebas que
pueden utilizar en un examen y no suelen, ni lo pretenden, usarlos todos en cada
examen. Lo importante de las pruebas equivalentes es que midan las mismas destre
zas lingüísticas y que tengan una correlación alta entre ellas.
Es de suponer, naturalmente, que las versiones equivalentes serán de un nivel
de dificultad sim ilar y tendrán una dispersión de calificaciones parecida, pero
si las m edias y las desviaciones típicas no son idénticas, las calificaciones que
se den a los estudiantes pueden ajustarse para tenerlo en cuenta (véase capítulo
7). Para calibrar las dos versiones de una prueba, las dos pruebas deberían darse
al m ism o grupo de estudiantes. Sin embargo, si es posible tener ítems de anclaje
y usar análisis TRI (véase el apartado 4 .4 .1 ), entonces esto puede no resultar
necesario. Sin em bargo, debe llevarse a cabo algún tipo de com probación en
algún m om ento. No es suficiente confiar en la opinión de los redactores y los
examinadores.
4.6. Hablantes nativos

Un aspecto de los ensayos previos que hasta ahora no hem os discutido es la
cuestión de los ensayos generales con hablantes nativos. Existe una polém ica
sobre si los exám enes de lengua extranjera deberían ensayarse con hablantes
nativos (véase Alderson, 1980; A n goff y Sharon, 1971, y Ham ilton, Lopes,
McNamara y Sheridan, 1993). Los intentos para definir a un «hablante nativo»
también han resultado problemáticos (véase Davies, 1991). Sin embargo, aun
que som os conscientes de las complejidades del tema, nuestra opinión es que
la actuación de hablantes nativos, seleccionados adecuadamente, es un aspecto
importante de una prueba, sobre el que deberían recogerse datos.
Algunos responsables de examen dicen que puesto que a los examinandos no
se les está com parando con hablantes nativos, tales ensayos son innecesarios.
Esto puede ser razonable si las pruebas son de nivel elemental o interm edio,
aunque incluso en estos casos nosotros defenderíamos que al m enos se utiliza
ran hablantes nativos para los ensayos informales, puesto que siempre existe el
peligro de que los redactores escriban ítem s que observan las reglas de la len
gua pero que no reflejan el uso que de la m ism a hace un hablante nativo. Cier
tamente, no está claro el uso que debería hacerse de los hablantes nativos durante
los ensayos de las pruebas de expresión oral y expresión escrita, puesto que los
97
hablantes nativos también varían entre sí. Sin embargo, para pruebas de correc
ción objetiva, los ensayos con hablantes nativos son valiosísimos. Puesto que se
supone que m uchos candidatos no tendrán un nivel de lengua tan alto com o el
de hablantes nativos cultos, cualquier ítem que resulte dem asiado difícil para
estos nativos deberá suprimirse.

como lengua extranjera: cuestionario
Antes de compilar las respuestas de los tribunales al cuestionario, se estudiaron
los folletos inform ativos para ver si había discrepancias entre éstos y las res
puestas. La única discrepancia que encontramos afectaba a un tribunal que decía
que no llevaba a cabo ningún tipo de ensayo previo, aunque los materiales que
publicaban demostraban que sí lo hacían. Hemos adaptado nuestro informe para
tener en cuenta este punto. Puede que otros tribunales no hayan dado una im a
gen exacta de sí m ism os, pero sólo podem os reflejar la información que se nos
ha hecho llegar. Nuestra única divergencia con las respuestas del cuestionario
fue la de seguir la recom endación de un tribunal que nos pidió que m encioná
ramos una tesis de doctorado com o información sobre las estadísticas utilizadas
durante la fase de ensayos previos.
Puesto que UCLES no sólo completó cuestionarios por separado para la mayor
parte de sus exámenes, sino que también completó cuestionarios para muchas
de las distintas partes de cada examen, es difícil comparar sus respuestas con las
de los otros tribunales de exámenes. En algunos casos, pues, las respuestas de
UCLES se han tratado por separado.
PREGUNTA 21: ¿Llevan a cabo ensayos previos con los ítems o preguntas? En caso afirmativo, ¿cómo
se seleccionan los estudiantes y cuántos responden a cada ítem o pregunta?
De los doce tribunales, seis dijeron que sus ítems se ensayaban y seis dijeron
que no.
De los seis que dijeron que llevaban a cabo ensayos previos, dos se referían a
ensayos informales; uno dijo que ensayaba los ítems con unos pocos alumnos
puesto que «la confidencialidad del material es esencial» y el otro dijo que los
m étodos de evaluación y los ítems difíciles se ensayaban de m anera inform al
«con redactores o exam inadores que en sus propias escuelas utilizan candida
tos de ñar». La confidencialidad de la prueba es lo más importante». De los otros
cuatro tribunales, uno dijo que sólo ensayaba los ítems durante la fase de desa
rrollo del examen, y otro sólo ensayaba los ítems de respuesta múltiple.
Los dos centros restantes que dijeron que llevaban a cabo ensayos previos
fueron UCLES y la AEB (Associated Examining Board). Los ensayos previos de UCLES
variaban de acuerdo con cada examen y con cada parte. Todos los componentes
de IELTS, CCSE (Certificates in Communicative Skills in English) y CEIBT se sometían
a ensayos previos. De los otros cinco exám enes, se ensayaban las pruebas
98
correspondientes a la comprensión de lectura, la comprensión oral y partes del

uso del inglés, pero sólo se ensayaban dos de las pruebas de expresión escrita,
y ninguna prueba oral. N o todas las respuestas de UCLES incluían cuántos
alumnos se utilizaban para estos ensayos generales, pero la escala de los ensa
yos parecía variar entre las distintas partes de la prueba. En un caso (CEIBT)
había dem asiados pocos alumnos para llevar a cabo análisis estadísticos, pero
en los casos de las pruebas de com prensión escrita del CAE y del CPE, se pro
baban los ítem s con 200—400 estudiantes. El CCSE se ensayaba con unos 100
alumnos, pero curiosam ente no se llevaba a cabo ningún análisis estadístico
de los resultados.
El examen de AEB TEEP, como se subrayó anteriormente, es un examen excep
cional no sólo porque sólo existe una versión, sino también porque actualmente
no lo administra la AEB. Sin embargo, puesto que estaba bajo la autoridad de la
AEB cuando se respondió al cuestionario, se tendrá en consideración aquí. Des
pués de unos cuantos ensayos informales, se hacía un ensayo general con alre
dedor de 100 hablantes nativos y 300—400 hablantes no nativos. La muestra de
no nativos intentaba ser lo m ás representativa posible de los estudiantes extran
jeros en Gran Bretaña, con alumnos que se clasificaban de acuerdo con su len
gua materna, nivel académico y disciplina académica (véase Weir, 1983).
De los seis tribunales que respondieron que no hacían ensayos previos, uno
dijo que se hacían ensayos iniciales para «establecer niveles» y uno dijo que «las
preguntas y las distintas partes del examen se ensayan durante la fase de desa
rrollo de la prueba, pero no una vez administrada la prueba por primera vez».
Un centro respondió que el núm ero de estudiantes que habían tenido hasta el
m om ento había sido dem asiado pequeño para hacer ensayos y «facilitar esta
dísticas fiab les», pero que «c o n la buena acogida que ha tenido el examen,
empezarían a poner en práctica este procedimiento a partir de ahora». El LCCI
dijo que «se proyecta crear un banco con una selección de ítems probados para
uso fu turo». Tres tribunales, haciendo referencia a sus exám enes de inglés
hablado, dijeron que no era apropiado hacer ensayos previos.
Parece desprenderse de las respuestas de los tribunales que hay planes para
llevar a cabo m ás ensayos en el futuro. Sin embargo, el hecho de que cuando se
completó el cuestionario no hubiera tribunales que ensayaran sus ítems de forma
habitual, y que sólo tres llevaran a cabo pruebas de sus ítem s a gran escala, es
motivo de grave preocupación. Hay motivos para sospechar que los estudian
tes no se examinan con la justicia necesaria.
Parece haber dos razones para que tantos exámenes no se ensayen. Primero,
algunos tribunales creen que los ensayos generales no son necesarios por la
manera exhaustiva que tienen de preparar y seleccionar los ítems, y también a
causa de la experiencia de sus asesores. Segundo, puede resultar difícil ensayar
una prueba confidencial sin revelar información a candidatos futuros.
A partir de nuestros comentarios al comienzo de este capítulo, debe quedar
claro que no suscribim os la primera de las razones aducidas más arriba. Puesto
que hay evidencia de que incluso examinadores experimentados pueden errar
99
a la hora de juzgar el nivel y el efecto de los ítems de un examen, creemos que

es esencial que se ensayen todos los ítems. La segunda razón es m ás poderosa:
cualquiera que haya intentado ensayar un exam en sabe lo difícil que resulta
encontrar candidatos apropiados, incluso cuando no está en peligro la confi
dencialidad. Sin em bargo, el problem a no es im posible de solucionar, puesto
que hay tribunales que sí llevan a cabo ensayos generales. Discutirem os una
manera de abordar este problem a al final de este capítulo.
Resultó sorprendente que hubiera tantas pruebas de corrección subjetiva que
no se ensayaran. Parece que m uy pocos tribunales ensayan sus pruebas de expre
sión escrita y casi ninguno ensaya sus exámenes orales. Tres tribunales respon
dieron que ensayar sus pruebas orales «n o era procedente». Una posible
explicación a esto es que los tribunales hayan m alinterpretado la expresión
«ensayos previos». Una de las respuestas procedentes de UCLES confirma esta
posibilidad diciendo que mientras que la parte correspondiente al uso del inglés
del CAE se ensayaba con 1 0 0 -3 0 0 personas, la prueba de expresión escrita se
ensayaba (el subrayado es suyo) a una escala menor. Puede resultar que al m enos
uno de los tribunales pensó que «ensayos previos» hacía referencia a ensayos a
gran escala de preguntas de corrección objetiva y por lo tanto dijo que no pro
cedía el ensayar las pruebas orales. De todas maneras, es preocupante el hecho
de que no se lleven a cabo ensayos de ningún tipo, puesto que hay m uchos
aspectos que pueden salir mal en la redacción, administración y corrección sub
jetiva de pruebas. Si los centros no ensayan sus pruebas de corrección subjetiva
con antelación, intentarán posiblemente compensar los defectos durante la fase
de corrección, pero será demasiado tarde.
PREGUNTA 22: Si realizan ensayos previos, ¿qué estadísticas calculan a partir de los resultados?
Uno de los tribunales que no realizaba ensayos previos a gran escala respon
dió: «N o se necesitan estadísticas: si cualquiera de los m iem bros del comité de
redacción tiene serias dudas sobre la adecuación de un ítem, éste no se utiliza».
Otro tribunal dijo: «N o se calculan estadísticas oficiales», pero «se usa la infor
mación obtenida en los ensayos informales para mejorar o rechazar preguntas».
Sólo tres tribunales llevaban a cabo anáfisis estadísticos de los resultados de
los ensayos. U no de estos, la City and Guilds, usa la siguiente inform ación para
cada ítem de respuesta m últiple: el coeficiente de dificultad, el índice de dis
criminación biserial puntual, el porcentaje de candidatos que escogen cada una
de las opciones, la nota m edia de la prueba de los candidatos que escogen cada
opción y el porcentaje de alumnos que escogen cada alternativa en el tramo del
27% superior e inferior de la muestra (City and Guilds, 1984).
De nuevo, los procedimientos de UCLES eran m uy variados. Este tribunal no
llevaba a cabo anáfisis estadísticos de ninguna de las partes del CCSE ni tampoco
de la mayoría de las pruebas corregidas de forma subjetiva. Además, no calculaba
estadísticas para CEIBT porque no había un número suficiente de alumnos en los
ensayos. Sin embargo, calculaba los coeficientes de dificultad y las correlaciones
biseriales puntuales de todas las pruebas de respuesta múltiple restantes, y para
100
los otros tipos de pruebas de corrección objetiva realizaba «estadísticas globales»,

con lo que seguramente quería referirse a m edias, desviaciones típicas y otras
medidas de distribución de resultados. Para IELTS, las estadísticas de los ítems y
de la prueba se hacían utilizando el programa de Microcat ITEMAN al que nos
hemos referido anteriormente en este capítulo. Los ítems también se calibraban
«entre versiones, utilizando ítems de anclaje». Presumiblemente se utilizaba el
análisis según la Teoría de la Respuesta al ítem. Para CEELT (Cambridge Examination
in English for Language Teachers), se calculaban el coeficiente de dificultad y las corre
laciones biseriales puntuales para cada ítem y las medias, las desviaciones típicas,
la asimetría y la curtosis (el grado de inclinación de una curva de distribución)
para cada parte de la prueba o para la prueba completa.
La AEB calculaba los coeficientes de dificultad y las correlaciones biseriales
puntuales para cada ítem, y las m edias y las desviaciones típicas para todas las
partes del examen (véase Weir, 1983, para más detalle). Todas las estadísticas
se llevaban a cabo con hablantes nativos y no nativos.
Es sorprendente que tres de los tribunales que llevan a cabo análisis previos
no analicen los resultados. Presumiblemente, sólo se utiliza el ensayo para estu
diar las respuestas de los estudiantes y para com probar la administración del
examen. Si esto es así, se está perdiendo información m uy útil.
La tesis doctoral de Weir (Weir, 1983) mostró que AEB había calculado índi
ces de fiabilidad en sus exámenes de corrección objetiva, pero ningún otro tri
bunal m encionó la evaluación de la fiabilidad de sus pruebas de corrección
objetiva durante la fase de ensayos previos. En algunas de las respuestas de
UCLES, sin embargo, puede haberse incluido bajo «estadísticas globales», puesto
que el programa de Microcat ITEMAN da automáticamente el alfa de Cronbach.
Ningún tribunal hizo referencia alguna a la comprobación de la fiabilidad de
las pruebas de corrección subjetiva durante los ensayos previos. En algunas situa
ciones no es posible calcular la fiabilidad de ítems de corrección subjetiva hasta
que se ha administrado la prueba, pero en exámenes que se administran a gran
escala, debería ser posible hacerlo en la fase de ensayos previos para poder m odi
ficar las tareas y los criterios de corrección antes de administrar la prueba final.
La fiabilidad de las pruebas de corrección subjetiva se discutirá más a fondo en
el capítulo 6.
PREGUNTA 23: ¿Qué ocurre si los ítems o preguntas que se ensayan no son satisfactorios?
Los seis tribunales que ensayaban sus ítems dijeron que si los ítems no eran
satisfactorios, se reformulaban o se descartaban. Tres de las respuestas de UCLES
dijeron que todos los ítem s revisados se volvían a someter a un ciclo de ensa
yos previos.
Cada vez que se vuelve a redactar un ítem debería probarse de nuevo, puesto
que no hay ninguna garantía de que un ítem m odificado sea m ejor que su pre
decesor. Sin embargo, en m uchos tribunales, puede resultar im posible volver a
ensayar los ítems. En estos casos debería analizarse el ítem una vez se ha admi
nistrado la prueba final para poder suprimir los m alos ítems del cómputo final.
101
PREGUNTA 2 4 : ¿Qué pasos se dan, además de los mencionados anteriormente, para controlar la cali
dad de los redactores de ítems o pruebas?
Dentro de las respuestas de UCLES, las correspondientes a las pruebas orales
del PET, FCE, CAE y CPE dijeron que se recogían comentarios de los examina
dores, de los candidatos y de los distintos tribunales. Los redactores de las par
tes de corrección objetiva se reunían en sesiones de selección y estaban
supervisados por el presidente del comité y por el responsable de la prueba. Una
respuesta m encionó un curso de formación de redactores, pero no estaba claro
si éste tenía lugar antes o después de realizarse los ensayos previos.
Del resto de tribunales de exám enes, cinco no contestaron a la pregunta o
dijeron que no era procedente en su caso. Tres dijeron que los borradores de
las pruebas se analizaban y los com entarios resultantes se hacían llegar a los
redactores antes de la prueba, y los tres tribunales restantes dijeron que los
correctores hacían com entarios después de la administración de un exam en y
que el trabajo de los redactores de analizaba entonces. Uno dijo que «el análi
sis revelaba calidad» y que los redactores no competentes «n o continuaban».
4.8. Estudio sobre los tribunales de examen de inglés

como lengua extranjera (EFL): documentación
Los docum entos aportados por los tribunales no contenían casi ninguna infor
m ación sobre ensayos previos, por lo que no podem os ampliar las respuestas
citadas m ás arriba. Sin em bargo, UCLES nos m andó una nota en la que seña
laba que se acababa de crear una unidad de ensayos previos en la División de
Inglés com o Lengua Extranjera y que estaban en un proceso de ampliación de
ensayos previos y de creación de un banco de ítem s electrónico. No se aña
día m ás detalle.
4.9. Debate
La principal preocupación que se desprende de los resultados anteriores es, sin
duda, la no realización de ensayos previos por parte de m uchos tribunales. Es
una pena que el análisis exhaustivo y el proceso de selección de las pruebas que
llevan a cabo la mayoría de los tribunales no vaya seguido de comprobaciones
empíricas.
La diñcultad de encontrar alumnos adecuados es en realidad importante y los
centros que no llevan a cabo ensayos previos deberían averiguar cómo pueden
hacerlos los demás.
Una forma de solucionar el problema de encontrar muestras representativas,
y al m ism o tiempo garantizar que se mantiene la confidencialidad de los mate
riales, es dar los ítems piloto a los candidatos mientras realizan exámenes rea
les. Si estos ítem s añadidos se incluyen en el exam en sin que lo sepan los
candidatos, tendremos no sólo candidatos del nivel y conocimientos generales
apropiados sino que también conseguiremos que se tomen los ítems con la serie
102
Sumario
dad que a m enudo falta en los ensayos. Los resultados de estas partes piloto del
examen no se tendrán en cuenta en la calificación final que se entregará a los
candidatos, pero una vez se hayan analizado los ítems, se podrán almacenar los
que hayan resultado satisfactorios en un banco de ítems para exámenes futuros.
Un inconveniente de este método de ensayo previo es que la inclusión de mate
rial piloto puede hacer el exam en dem asiado largo o exigente. Sin embargo,
parece ser la forma más sencilla de realizar un ensayo y de obtener los resulta
dos más válidos. Si los examinadores están preocupados por dar a los candida
tos ítems no probados que pueden resultar poco claros y por lo tanto provocar
ansiedad, siempre pueden informar a los candidatos de que algunos ítems son
de muestra y no se puntuarán. Sin embargo, esto podría causar problemas. Los
candidatos podrían prestar menos atención a los ítems que creen que son piloto,
lo que provocaría actuaciones poco representativas. Además, podría haber un
problem a de confidencialidad, puesto que si los candidatos creen haber identi
ficado con éxito los ítems piloto, pueden memorizarlos para pasar la informa
ción a futuros candidatos.
4.10. Sumario
ENSAYOS PREVIOS: PROCEDIMIENTOS
Pruebas piloto (con un pequeño grupo de candidatos que incluya hablantes nati
vos del idiom a que se vaya a exam inar).
Com probar la administración de la prueba, el tiempo, las instrucciones, el
contenido, la clave de respuestas, etc.
Ensayos generales (con tantos alumnos como sea posible, incluyendo hablantes nati
vos en exámenes de nivel avanzado).
Comprobar la administración de la prueba, las instrucciones, el contenido, la
clave de respuestas, etc.
Pruebas de corrección objetiva
Análisis de ítems: índice de discriminación y coeficiente de dificultad
Examen completo: fiabilidad, por ejemplo KR20 o KR21.
Pruebas de corrección subjetiva
Corregir una muestra de redacciones o de entrevistas para comprobar cómo
funcionan las tareas, los criterios, etc.
Fiabilidad:
Com probar la consistencia externa e intem a de los correctores
(ver capítulo 6).
Para todas las pruebas, calcular las estadísticas de distribución
H isto g ra m a
Media, m oda, mediana, rango, desviación típica.
Después de los ensayos previos, hay que cambiar los procedimientos de admi
nistración, el tiempo, etc.; se modificarán los ítems y, si es posible, se volverán
a ensayar una vez modificados.
103
Bibliografía
Alderson, J. C. (1980). «Native and Non-native Speaker Performance on Cloze Test.»
Language Learning, 13 (1), págs. 59—76.
Alderson, J. C. (1993). «Judgements in Language Testing.» En D. Douglas, y C.
Chapelle, A New Decade of Language Testing. TESOL, Alexandria, Virginia.
Angoff, W. y A. J. Sharon (1971). «A comparison o f scores earned on the Test of
English as a Foreign Language by native American college students and foreign
applicants.» TESOL Quarterly, 5, pig. 129.
Press, Oxford.
Buck, G. (1991). Expert estimates of test item characteristics. Contribución presentada en el
Language Testing Research Colloquium, Princeton, NJ.
Crocker, L. y J. Algina (1986). Introduction to Classical and Modem Test Theory. Flolt Rinehart
Winston, Chicago.
Davies, A. (1991). The Native Speaker in Applied Linguistics. Edinburgh University Press,
Edimburgo.
McGraw-Hill, Tokio.
Hamilton, J., M. Lopes, T. McNamara y E. Sheridan (1993). «Rating Scales and
Native Speaker Performance on a Communicatively Oriented EAP Test.» Melbourne
Papers in Language Testing, 2, págs. 1—24.
Hudson, T. y B. Lynch. (1984). «A Criterion Referenced Measurement Approach to
ESL Achievement Testing.» Language Testing, 1, pigs. 171—202.
Magnusson, D. (1966). Test Theory. Addison Wesley, Reading, Mass.
Weir, C. J. (1983). «Identifying the Language Problems of Overseas Students in
Tertiary Education in the United Kingdom.» Tesis doctoral. Universidad de Londres.
Wright, B. D. y M. H. Stone (1979). Best Test Design: Rasch Measurement. Mesa Press,
Chicago.
Wright, B. D. y G. N. Masters (1982). Rating Scale Analysis: Rasch Measurement. Mesa Press,
Chicago.
104
5 La formación de examinadores y administradores
En este capítulo se tratará el tipo de formación que necesitan los examinadores

y los administradores de las pruebas. Los examinadores deben familiarizarse con
los sistemas de puntuación (sistem as o escalas)* que se espera que utilicen, y
deben aprender cómo aplicarlos de forma consistente. También deben saber qué
hacer en circunstancias imprevistas o con respuestas para las que no han sido
preparados. Incluso los examinadores experimentados necesitan puestas al día
y formación constante y sistemática, y por este motivo describiremos con deta
lle la naturaleza de la formación necesaria, especialmente para quienes evalúan
las actuaciones lingüísticas de los alumnos en cuanto a su expresión escrita y su
expresión oral. Este capítulo debería leerse junto con el capítulo 6 para tener
una visión completa de cóm o garantizar la fiabilidad de la puntuación.
5.1. ¿Qué es un examinador?
El término examinador indica la persona responsable de juzgar la actuación lingüís

tica de un candidato en una prueba o examen. Utilizaremos este término para
referirnos a todos los que tienen esta responsabilidad, sin distinguir entre los
que puntúan partes del examen objetivas o subjetivas, ni entre los que han estado
im plicados en la elaboración o en la administración del examen. Distinguimos
entre exam inador e interlocutor en la evaluación de la expresión oral: el primer
térm ino se refiere a la persona que evalúa a los candidatos, mientras que el
segundo se refiere a la persona que interactúa con el candidato mientras el exa
m inador evalúa la actuación lingüística del candidato.
5.2. La importancia de la formación de los examinadores

La formación de los examinadores es un componente crucial en cualquier pro
gram a de evaluación, puesto que si la puntuación de una prueba no es válida
* N del T. A lo largo de este capítulo y en capítulos posteriores se hará mención de las

plantillas de corrección (marking schemes) y de las escalas de valoración (rating scales). Se ha
intentado reflejar la diferencia entre ambos en el original, pero es justo mencionar aquí
que el término que se viene utilizando tradicionalmente en español para ambos es el de
criterios de evaluación. También queremos hacer notar que en inglés los términos marking
y rating denotan los conceptos de corrección y puntuación pero que, al igual que marker y
rater, se utilizan indistintamente en este libro.
105
La formación de examinadores y administradores
y fiable, todo el trabajo llevado a cabo para obtener un instrum ento de «c ali
d ad » habrá sido una pérdida de tiem po. Aunque las especificaciones reflejen
las finalidades de la institución o aunque se haya cuidado m ucho la elabora
ción y los ensayos previos, todos los esfuerzos serán vanos si los usuarios de
la prueba no pueden confiar en los resultados que los exam inadores dan a los
candidatos.
La m edición, según Mathews, 1985: 90, «incluye un instrum ento de eva
luación estándar y un operador que puede aplicarlo de form a consistente». Y
continúa con la afirmación de que hay al menos tres fuentes de inexactitud que
pueden amenazar la solvencia de cualquier prueba:
1. dudas sobre la naturaleza de los atributos de los alumnos que van a exa
minarse y de las unidades de m edida que se les adjudicarán;
2. dudas sobre hasta qué punto las preguntas y las respuestas tienen real
mente una relación con estos atributos, aunque en este caso se haya iden
tificado su naturaleza;
3. inexactitudes en los sistemas de puntuación y variedad de interpretación
y aplicación de éstos por parte de los correctores.
Los dos prim eros puntos se han discutido en los capítulos 2 (Especificacio
nes de exam en) y 3 (La redacción de ítem s y la función m oderadora). El ter
cero aparece sólo durante la fase de form ación de los exam inadores. En las
páginas que siguen a continuación discutiremos los pasos que pueden darse para
disminuir tanto la inexactitud del sistema de puntuación com o la variedad que
puede darse entre examinadores que empiezan a interpretar y aplicar sus siste
m as de puntuación.
5.3. ¿Qué supone la formación de examinadores?

5.3.1. Tipos de puntuación
Existen básicamente dos tipos de puntuación: objetiva y subjetiva, tal com o se ha
presentado en los capítulos 3 y 4.
Estos dos tipos se describirán en profundidad m ás adelante, lo que servirá de
contexto a la discusión sobre la form ación de los examinadores.
PUNTUACIÓN OBJETIVA
La puntuación objetiva se utiliza para los ítems de respuesta múltiple y de ver
dadero/falso, para los ítems que requieren la identificación de un error y para
otro tipo de ítem s en los que el candidato debe producir una respuesta que
puede puntuarse como «correcta» o «incorrecta». En la puntuación objetiva, el
exam inador com para la respuesta del candidato con la respuesta o la gam a de
respuestas que el redactor ha determinado com o correctas. El conjunto de res
puestas aceptables puede llamarse «clave» (key) o «plantilla de corrección» (mark
scheme), según la necesidad que tengan los examinadores de ejercitar su albedrío
106
¿Qué supone k formación de examinadores?
a la hora de puntuar (Mathews, 1985: 90 y 101). El térm ino «clav e» se usa

generalmente cuando hay una única respuesta correcta para cada ítem (como
se supone que ocurre en los tipos de ítem mencionados anteriormente). La pun
tuación de pruebas que tienen clave es mecánica y puede llevarla a cabo perso
nal adm inistrativo o una m áquina. La expresión «plantilla de corrección» se
utihza cuando hay m ás de una respuesta posible a un ítem (com o puede ocu
rrir en una transform ación gramatical, por ejem plo, o en las pruebas de tipo
cloze) o cuando los candidatos pueden utilizar sus propias palabras para expre
sar una idea en concreto (com o es el caso de las respuestas breves en algunas
pruebas de comprensión lectora).
Tal como dijim os en el capítulo 4, el principal problem a que se presenta en
algunos tipos de puntuación objetiva (excluyendo las pruebas de respuesta múl
tiple) , es que los redactores no pueden prever todas las respuestas correctas que
pueden llegar a dar los candidatos. Durante la fase de los ensayos previos es útil
tomar nota de qué respuestas entre las no previstas son aceptables y qué res
puestas no lo son; sin embargo, es posible que cuando se administre la prueba
ñnal todavía aparezcan más respuestas que nadie haya previsto. El programa de
formación para los examinadores de las secciones de puntuación objetiva debe
ría dar a estos exam inadores tiem po para analizar todos los ítem s cuidadosa
mente, anotar sus respuestas com o si fueran candidatos y corregir un gran
número de exámenes administrados durante la fase de ensayos previos para ver
si hay respuestas que debieran incluirse en el sistema de puntuación. La finali
dad de la formación es completar el esquem a de puntuación de form a que los
examinadores, que a m enudo corrigen individualmente y desde sus casas, no
tengan dudas sobre las respuestas que deben considerarse correctas o incorrec
tas. Además, los exam inadores tienen que saber qué hacer cuando se encuen
tran con im previstos para garantizar que no actúen de form a arbitraria y que
cada uno tome diferentes decisiones.
PUNTUACIÓN SUBJETIVA
La puntuación subjetiva se utiliza habitualmente para puntuar pruebas de expre
sión escrita o de expresión oral. Los examinadores deben emitir juicios de valor
que son m ás com plicados que las decisiones «correcto/incorrecto» a las que
nos referim os anteriormente: deben evaluar lo bien que un candidato lleva a
cabo una tarea determ inada y para esto necesitan tina «escala de valoración»
(rating scale). Esta escala puede consistir en núm eros, en letras u otras etiquetas
(por ejem plo: «Excelente» o «M uy bu en o ») que pueden ir acom pañadas de
afirmaciones sobre el tipo de actuación lingüística al que se refiere cada punto
de la escala. Estas afirmaciones se llaman «descriptores».
Hay básicam ente dos tipos de escalas. Los exam inadores pueden tener que
juzgar la actuación lingüística del candidato en su totalidad, en cuyo caso utili
zarán una «escala holística» o global (holisticscale). Un ejemplo de una escala de
este tipo se presenta en la figura 5.1.
107
F ig . S. 1. M uestra de una escala holística

18-20 Excelente Inglés natural con errores m ínim os y realización
completa de la tarea encomendada.
16-17 Muy bien Más que un conjunto de frases simples, con buen
vocabulario y estructuras. Algunos errores básicos.
12-15 Bien Realización sim ple aunque precisa de la tarea
encomendada, con algunos errores serios.
8-11 Suficiente Razonablemente correcta aunque torpe y no
comunicativa O tratamiento natural y justo del
tema, con algunos errores.
5 -7 Flojo Vocabulario y gramática no adecuados al tema.
0^1 Muy Flojo Incoherente. Los errores muestran la ausencia de
conocim ientos básicos de inglés.
D e: UCLES International Examinations in English as a Foreign Language General Handbook,

1987.
Cuando los examinadores utilizan este tipo de escala, se les pide que no ten
gan m uy en cuenta ningún aspecto en concreto de la producción del candidato,
sino que emitan un juicio sobre su eficacia en general. Este tipo de escala es a
m enudo tam bién denom inada «escala de im presión general» (impression scale),
especialm ente cuando se pide a los exam inadores que em itan sus juicios de
forma rápida.
Otros exam inadores pueden tener que juzgar varios com ponentes de una
actuación lingüística por separado (por ejemplo, la caligrafía, la organización
de los párrafos, la gramática, la selección de vocabulario). Este tipo de puntua
ción requiere una «escala analítica» (analytic scale), en la que hay descriptores
para cada com ponente (véase figura 5.2 ). En la puntuación analítica el candi
dato puede obtener una nota más alta en un componente de la actuación lingüís
tica que en otro; la institución debe decidir después si se combinan las distintas
puntuaciones y cómo se combinarán para obtener una calificación final. (Véase
la discusión sobre «ponderación» en el capítulo 7.)
Estas escalas (figuras 5.1 y 5.2) son sólo dos de las muchas disponibles en la
evaluación del inglés como lengua extranjera. El número de puntos de la escala y
el núm ero de com ponentes a analizar variará según el tipo y la exigencia de la
tarea escrita u oral. El reto para los examinadores es el de comprender los princi
pios que subyacen en las escalas de puntuación con las que deben trabajar y el de
interpretar los descriptores de forma coherente. Este es el principal objetivo de los
programas de formación para los examinadores de la expresión escrita y uno de
los dos principales objetivos para los examinadores de la expresión oral. En los
próximos apartados discutiremos, primero, una serie general de pasos que han de
seguir para formar a los examinadores de la expresión escrita y después explica
108
¿Qué supone la formación de examinadores?
remos cóm o pueden modificarse estos pasos para los examinadores de la expre
sión oral. Se discutirá entonces una segunda dim ensión en la formación de los
examinadores de la expresión oral: la necesidad de desarrollar destrezas específi
cas si deben interaccionar con los candidatos al m ism o tiempo que los evalúan.
Fie. 5.2. M uestra de una escala analítica
Relevancia v adecuación del contenido

0. La respuesta no tiene prácticamente ninguna relación con la tarea enco
mendada. Respuesta totalmente inadecuada.
1. Respuesta de relevancia limitada respecto a la tarea. Existen posiblemente
lagunas importantes en el tratamiento del tema y /o repetición inútil.
2. Responde en gran parte a la tarea, aunque puede haber algunas lagunas o
información redundante.
3. Respuesta relevante y adecuada a la tarea.
Organización del texto

0. N o hay una organización clara del contenido.
1. Muy poca organización del contenido. Las estructuras subyacentes no son
lo suficientemente claras.
2. Hay indicios de algunas destrezas organizativas, pero no se controlan de
form a adecuada.
3. La forma general y la estructura interna están claras. Las destrezas organi
zativas se controlan de forma adecuada.
Cohesión
0. La cohesión está casi totalmente ausente. El escrito es tan fragmentario que
la com prensión de la comunicación prevista es prácticamente imposible.
1. La cohesión poco satisfactoria puede causar dificultades en la com pren
sión de la m ayor parte de la comunicación prevista.
2. Cohesión satisfactoria en su mayor parte aunque existen deficiencias oca
sionales que pueden provocar que ciertas partes de la com unicación no
sean siem pre eficaces.
3. Uso satisfactorio de la cohesión que comporta una comunicación eficaz.
Adecuación del vocabulario con respecto al objetivo

0. El vocabulario es inadecuado, incluso en los aspectos básicos de la com u
nicación prevista.
1. Uso inadecuado y frecuente del vocabulario respecto a la tarea. Quizá uso
inapropiado y frecuente del léxico y / o las repeticiones.
2. Algún uso inadecuado del vocabulario en relación con la tarea. Quizá uso
inapropiado del léxico y /o los circunloquios.
3. Casi no existe un uso inadecuado del vocabulario para la tarea. Puede haber
un uso poco apropiado de algunos elementos y /o circunloquios.
109
Gramática
0. Casi todas las estructuras gramaticales son incorrectas.
1. Frecuentes incorrecciones gramaticales.
2. Algunas incorrecciones gramaticales.
3. Casi no se encuentran incorrecciones gramaticales.
Precisión mecánica I (puntuación!

0. Ignorancia de las convenciones de la puntuación.
1. Poca precisión en la puntuación.
2. Algunas incorrecciones en la puntuación.
3. Casi no se encuentran incorrecciones en la puntuación.
Precisión mecánica II (ortografía!

0. Casi toda la ortografía es incorrecta.
1. Poca corrección en la ortografía.
2. Algunas incorrecciones en la ortografía.
3. Casi no se encuentran incorrecciones en la ortografía.
Procedencia:Test of Enalish for Educational Purposes, Associated Examinins Board.

UK, 1984.
5.3.2. La formación de los examinadores de la expresión escrita

El proceso que se describe a continuación es el adecuado para una prueba que
tiene un gran núm ero de exam inadores y en la que, por razones prácticas, no
todos los exam inadores pueden tener el m ism o peso a la hora de tom ar deci
siones respecto al sistema de puntuación. La descripción siguiente asum e que
hay un «exam inador jefe», que sólo o con un pequeño grupo de colaborado
res, determina los criterios para la puntuación y los pasa a los exam inadores,
que pueden corregir de forma centralizada o en su propio domicilio. Si una ins
titución sólo cuenta con un pequeño grupo de personas para puntuar todos los
escritos producidos por su población, y si estas personas corrigen en el m ism o
lugar al m ism o tiempo, pueden cambiarse ciertos pasos del proceso siguiente
para perm itir m odificaciones propuestas por parte de todos los examinadores.
Sin em bargo, el proceso descrito debería seguirse, en el m ejor de los casos, en
todos los program as de evaluación, aunque sean a pequeña escala.
LA REDACCIÓN DE LA ESCALA DE VALORACIÓN

El redactor de una tarea de expresión escrita debería tam bién ser el respon
sable de la redacción de la escala que se utilizará para puntuar el ejercicio
escrito (véase capítulo 3 ). R ecom endaríam os no usar nunca una escala que
contenga sólo núm eros o en que los descriptores sean sim plem ente afirm a
ciones breves com o «E x celen te», «M u y b ie n », etc., puesto que estas afir
m acion es pueden interpretarse de distintas m aneras por parte de distin tos
110
exam in adores. R ecom en daríam os escalas con siete puntos com o m áxim o,
puesto que es difícil hacer distinciones m ás sutiles, y tam bién recom endarí
am os que se acom pañaran la m ayoría de los puntos de la escala de descrip
tores explícitos. Puede ser im portante tener diferentes escalas para distintas
tareas: una escala de nivelación es raramente apropiada para la evaluación de
todas las actuaciones lingüísticas, escritas u orales. Tanto las tareas com o las
escalas deberían probarse durante la fase de ensayos previos al desarrollo del
exam en (véase el capítulo 4 ).
LA FIJACIÓN DE LOS CRITERIOS

Una vez adm inistrada la prueba, el exam inador jefe (EJ) debería leer rápida
m ente tantos ejercicios escritos com o sea posible para fam iliarizarse con el
tipo de ejercicio que han producido los candidatos y con los problem as que
han m ostrado a la hora de completar la tarea. Teniendo en cuenta la escala de
valoración (aunque no siguiéndola de form a rígida en este punto), el EJ debe
ría seleccionar los ejercicios escritos que representen actuaciones «adecuadas»
e «in adecuadas», así com o ejercicios que presenten problem as con los que a
m enudo se encuentran los examinadores pero que raramente puedan preverse
en una escala de valoración: m ala caligrafía, respuestas dem asiado largas o
dem asiado cortas que indican que el candidato no entendió la tarea, etc. N os
referirem os a estos ejercicios escritos como ejercicios «consensuados» y escri
tos «problem áticos» respectivamente. El núm ero de ejercicios que seleccione
un EJ dependerá de varios factores (tiempo, facilidades para hacer copias, etc.)
pero sería útil seleccionar al m enos 20: quizá 15 ejercicios consensuados que
representen diversos niveles de actuación lingüística (aunque en su m ayor
parte de una gam a m edia) y 5 que presenten distintos problem as com o los
m encionados antes.
El siguiente paso es probar la escala con estos ejercicios y determinar y dejar
constancia por escrito de los criterios. Aunque algunas instituciones esperan
que el EJ haga esta tarea solo, recomendamos que el EJ trabaje con un pequeño
núm ero de colaboradores, constituyendo una com isión de unificación de cri
terios. Todos los m iem bros de esta comisión deberían tener copias de los ejer
cicios escritos seleccionados p or el EJ, ordenados de form a aleatoria, y cada
m iem bro debería puntuar todos los ejercicios antes de que la co m isión se
reúna para determ inar los criterios. Durante la reunión, los m iem bros debe
rían comparar sus puntuaciones y discutir cualquier diferencia de opinión que
surja. El objetivo es el de alcanzar una «puntuación de con sen so» para cada
uno de los ejercicios escritos y de esta form a definir la escala de valoración
para que sea m ás fácil de com prender y de utilizar. Cuando se haya con se
guido un acuerdo, deberían anotarse los m otivos de cada una de estas deci
siones. El EJ debería entonces dividir los ejercicios escritos, tanto los de
consenso com o los problem áticos, en dos grupos: el prim er grupo debería
usarse durante el estadio inicial de la form ación de los exam inadores y el
segundo durante el segundo estadio.
111
LA SESIÓN DE UNIFICACIÓN DE CRITERIOS

El EJ debería ser el coordinador de la sesión de unificación de criterios, que
incluye a todos los exam inadores directam ente o, en el caso de pruebas con
muchos candidatos, a los jefes de equipo que después deberán formar a sus pro
pios examinadores. Es imprescindible que el coordinador de esta reunión sea el
EJ o el jefe de equipo, que esté fam iliarizado a fondo con la escala de valora
ción, con todos los ejercicios escritos que se usarán durante la formación y con
las razones aducidas por la com isión para otorgar sus puntuaciones.
Debe elegirse un día completo para la sesión de unificación de criterios. Aun
que resulte caro, es la forma más segura de garantizar que haya suficiente debate
para comprender a fondo la escala y el proceso de puntuación. (En situaciones
en que existan pocos correctores, un día completo puede no ser necesario, pero
esto lo dirá la experiencia.)
La sesión de unificación de criterios debería convocarse justo antes de que
empiece el período oficial de calificación. Tanto los examinadores experimen
tados como los nuevos deberían asistir a tal reunión, aunque no necesariamente
deba ser la misma. Nuestra experiencia demuestra que los examinadores exper
tos que se han apoltronado en su tarea son los responsables de la ausencia de
fiabilidad de un program a de puntuación.
Antes de asistir a la reunión, los examinadores habrán recibido todos el mismo
grupo de ejercicios escritos consensuados (la m itad de los que ha analizado la
comisión) y una escala de valoración. Deberían haber probado la escala con los
ejercicios antes de la reunión y deberían explicar sus puntuaciones a sus cole
gas. El primer estadio de la sesión de unificación de criterios se dedicará a la dis
cusión de estos ejercicios consensuados para averiguar si todos los examinadores
están de acuerdo con las puntuaciones que han dado y para analizar los proble
mas si no están de acuerdo. Si las desavenencias surgen de conceptos poco cla
ros o de la redacción de la escala, ésta debería corregirse. La finalidad de este
estadio es ayudar a todos los examinadores a emular las puntuaciones de la comi
sión original, pero no se les deberían dar los motivos de la comisión hasta que
no se haya seguido el proceso individual de puntuación y se hayan discutido
sus resultados con sus compañeros. El objetivo de este procedim iento es el de
evitar que a los examinadores les influya la opinión de la comisión antes de que
hayan podido probar la escala y juzgar por sí m ism os. Después de haber anali
zado los ejercicios consensuados, se deberían presentar los ejercicios proble
máticos junto con las directrices de lo que se debe hacer en estos casos.
El segundo estadio del proceso de formación ofrece m ás práctica. Los ejercicios
escritos que utilicen los examinadores a m odo de práctica serán el segundo grupo
de ejercicios puntuados por la comisión. En este grupo habrá ejercicios de consenso
y ejercicios problemáticos y se habrán fotocopiado para que cada examinador tenga
una copia de cada uno. De nuevo se trata de que se alcance un acuerdo sobre la
puntuación de cada ejercido y que este acuerdo coindda con la decisión de la comi
sión. Este estadio debería ocupar menos tiempo que el estadio inicial, puesto que
muchos de los problemas típicos que surjan ya pueden haberse resuelto.
112
Es importante que el EJ (o el jefe de equipo) preste atención a cómo puntúa

cada examinador durante los dos estadios de la formación. Si algún examinador
encuentra dificultades para comprender las escalas de valoración o para emitir
opiniones parecidas a las del comité, el EJ debería pedir al examinador que no
puntúe esta parte de la prueba. (Esto, naturalmente, se refiere tanto a los pro
gramas de evaluación m odestos como a los más importantes.)
Parte de esta reunión deberá dedicarse a explicar el procedim iento de pun
tuación y a la anotación de resultados. Esto será distinto según la puntuación se
haga de form a centralizada o no. Es especialmente importante que los exam i
nadores conozcan el procedimiento que se seguirá para comprobar la fiabilidad
de su puntuación. Este se explica en el capítulo 6.
Inmediatamente después de esta reunión, el EJ debería modificar la escala para
incorporar los cam bios adecuados y debería mandar copias de la nueva escala a
todos los examinadores, que podrán iniciar la fase de puntuación. Hay que tener
en cuenta que no se harán m ás cambios en la escala. Es m uy importante que los
jefes de equipo comprendan que cualquier alteración a partir de este momento
podría quizá provocar que la variación en la puntuación fuera inaceptable.
Cuando empiece el período de puntuación, cada examinador habrá seguido
un program a completo de formación, tendrá una muestra de ejercicios escritos
como punto de referencia y tendrá una copia de la escala de nivelación.
Hay que recordar que los examinadores deberían seguir este proceso de for
m ación a intervalos regulares, no sólo cuando se administren las pruebas por
primera vez. Resulta también crucial que los examinadores «experim entados»
o «form ad o s» se sometan a este tipo de formación regularmente, y no sólo los
exam inadores nuevos. Es m uy fácil que los exam inadores desarrollen formas
propias e individuales de examinar que la formación debe intentar modificar.
5.3.3. La formación de los examinadores de la expresión oral

La form ación de los examinadores de la expresión oral sigue el m ism o patrón
que la formación de los examinadores de la expresión escrita, con tres diferen
cias principales. La primera diferencia es que en la mayoría de las instituciones,
en las que los exam inadores puntúan durante la prueba y no después, la for
m ación debe tener lugar antes de la administración de la prueba.
La segunda diferencia es que las instituciones deben utilizar grabaciones de
las actuaciones de los estudiantes en lugar de ejercicios escritos, tanto cuando
la com isión está determinando los criterios como durante la sesión de unifica
ción de criterios. A m enudo se utilizan grabaciones de sonido para este propó
sito, pero es cada vez más común el uso de grabaciones de vídeo a no ser que
la prueba esté diseñada para ser administrada en un laboratorio de idiomas. El
proceso de grabación y montaje de la cinta, en cualquiera de los dos casos, es
largo y complicado. Lo deseable es grabar tantas actuaciones como sea posible
para que el exam inador jefe tenga la m ayor gam a posible para escoger m ues
tras de actuaciones de cada nivel. Después de haber seleccionado las muestras
113
de actuaciones, es m ejor reunirlas en una m ism a cinta para que los coordina
dores de las sesiones de unificación de criterios puedan encontrar con rapidez
las actuaciones que necesitan. Las anotaciones de la com isión sobre la puntua
ción acordada para cada actuación deberían ir acompañadas del número corres
pondiente en el contador. Todas las grabaciones deberían ser de alta calidad para
que los exam inadores no tengan problem as con la visibilidad o la audición de
los candidatos. Este punto puede recomendar la grabación en un estudio en lugar
de en un aula.
Probablemente será imposible que los examinadores puedan escuchar las cin
tas antes de la sesión de unificación de criterios, por lo que debe preverse el sufi
ciente tiempo para escuchar cada actuación y volver a escuchar algunas partes de
la m ayoría de actuaciones. Los coordinadores deben ser realistas a la hora de
determinar la cantidad de muestras de actuaciones que pueden analizarse en una
reunión: probablemente menos de la m itad de los ejercicios escritos que anali
zan los examinadores de la expresión escrita en el m ism o período de tiempo. El
proceso seguido en la reunión debería ser básicamente el m ism o que el seguido
en las reuniones de los exam inadores de la expresión escrita: escucha y visio-
nado, puntuación independiente, discusión de notas, m odificación de la escala
de valoración si hace falta y aceptación de puntuaciones consensuadas.
Algunas instituciones también invitan a alumnos voluntarios a «exam inarse»
durante la sesión de unificación de criterios. De esta forma, los examinadores
tienen la oportunidad de probar sus destrezas (entre las cuales se halla la capa
cidad de interactuar con los candidatos —véase más adelante) en una situación
real. El problem a de usar actuaciones en directo es que no resulta posible vol
verlas a ver, cosa a m enudo deseable cuando se han dado diferentes puntuacio
nes, a no ser que, naturalmente, también se graben estas actuaciones.
La tercera diferencia entre la formación de los examinadores de la expresión
escrita y los exam inadores de la expresión oral es que en muchas pruebas los
examinadores de la expresión oral están presentes en el aula y deben interactuar
con el candidato durante la prueba. En algunas pruebas otra persona (a menudo
un profesor) puede tomar el rol de «interlocutor», ocupándose de conversar
con el candidato mientras el examinador está libre para evaluar, pero es mucho
más corriente encontrar al exam inador solo dando instrucciones, haciendo las
preguntas, respondiendo a las contribuciones del candidato e intentando eva
luar la actuación ¡al m ism o tiempo!
En este caso, se debería tener una sesión de formación por separado para per
mitir a los exam inadores realizar con éxito la evaluación, sesión en la que sus
compañeros actúan como candidatos o, si es posible, se trabaja con candidatos
voluntarios. Los examinadores deberían recibir instrucciones sobre dónde sen
tarse con relación a los candidatos, qué tipo de preguntas hacer para conseguir
que el candidato dé lo m ejor de sí, cómo conseguir manejar los papeles que ten
drán en las manos (no sólo sus propias instrucciones, la escala y la hoja de pun
tuación, sino también todo el material que el candidato necesitará), cómo anotar
sus puntuaciones de form a discreta, cóm o acoger al candidato y cóm o dar por
114
La importancia de la formación de los administradores
finalizada la prueba, etc. En algunas pruebas esta formación puede ocupar medio
día, que debe añadirse al día reservado para la unificación de criterios. Esto es
esencial para garantizar una administración y puntuación fiables.
Los exam inadores e interlocutores deben estar familiarizados con las tareas
que administrarán, los papeles que deben desempeñar, las tarjetas de roles que
deben utilizar o las preguntas que deben hacer (véase también el apartado 5.4.1,
más adelante). Para aquellos que no sólo deben examinar sino también llevar la
conversación, esta tarea es extremadamente difícil, y se debe desarrollar un tipo
de form ación que permita a los examinadores familiarizarse con estas tareas.
5.4. La importancia de la formación de los administradores

La discusión sobre la necesidad que tienen algunos examinadores de la expresión
oral de administrar la prueba además de calificar a los candidatos nos conduce a
un aspecto de la formación que no debería ignorarse: la formación de todos los
administradores. Los administradores de una prueba son las personas que «adm i
nistran» la prueba a los candidatos y son también los responsables de procurar
que las condiciones en las que la prueba se administra den a los candidatos la
oportunidad de mostrar las habilidades que se evalúan. Aunque la formación de
los administradores no debe ser tan compleja como la de los examinadores, es
importante que los administradores comprendan la naturaleza de la prueba que
van a administrar, la importancia de su papel y las posibles consecuencias para
los candidatos si la administración no se lleva a cabo de forma adecuada.
5 .4 .7 . Pruebas de expresión oral

El papel del administrador es particularmente importante en las pmebas de expre
sión oral, porque es siempre necesario que haya al menos una persona que inicie
la conversación con el candidato y que reaccione a sus intervenciones de forma
que se anime la conversación. Tal como explicamos anteriormente, algunas pm e
bas están diseñadas de form a que hay un «interlocutor» que asume este papel
mientras que el examinador observa la interacción y evalúa al candidato. En otras
pmebas el examinador debe hablar con el candidato e intentar evaluarlo al mismo
tiempo. Sea interlocutor o examinador, la persona que dialoga con el candidato
debe dominar las técnicas que ayudarán a cada candidato a sentirse cómodo, mien
tras presta atención a la vez a detalles como el tiempo y la forma de hacer las pre
guntas, para garantizar que todos los candidatos tengan las mismas oportunidades
de mostrar sus habilidades. La tarea del administrador se vuelve más complicada
si se examinan dos o tres candidatos al mismo tiempo: deberá asegurarse de que
todos entienden la tarea, deberá tomar nota del número y tipo de contribuciones
que hace cada candidato, y deberá pensar de qué forma puede introducir en la
discusión a los candidatos que todavía no han podido hablar.
En algunas pm ebas de expresión oral puede ser necesario utilizar otro admi
nistrador para dar instrucciones a los candidatos y para darles los materiales que
deberán estudiar antes de entrar en el aula de examen. A menudo se llama a esta
115
persona «acom odador». El acomodador puede también ser el responsable de las

entradas y salidas a tiem po del aula y de procurar que los candidatos que ya
hayan sido evaluados no se comuniquen con los que están esperando tum o.
El éxito de una prueba de expresión oral dependerá de que todas las perso
nas descritas cumplan bien con su deber. Tal como ya hemos sugerido, se nece
sitaría m edio día m ás de form ación para los exam inadores que tendrán que
interactuar con los candidatos, y m edio día como m ínim o para la formación de
los profesores que actuarán com o interlocutores mientras que otro hace la fun
ción de examinador. Los acom odadores no necesitarán demasiado tiempo para
aprender su trabajo, pero sería útil poder discutir con ellos lo que debe hacerse
y practicar el procedim iento varias veces antes del día del examen.
Todos los administradores deberían tener instrucciones por escrito m uy cla
ras que explicaran qué hacer y cuándo hacerlo. También sería útil para todos que
el material que debe usarse con los candidatos (hojas explicativas de la tarea, foto
grafías, textos, etc.) pudiera estar encuadernado para evitar perder tiempo antes
o durante la prueba intentando localizar o reordenar papeles recalcitrantes.
Una tarea im portante para los administradores de las pruebas de expresión
oral es la de crear un ambiente que ayude a los candidatos a sentirse cómodos.
Deberían adecuarse salas cóm odas de espera y el aula de examen debería ser lo
suficientemente grande com o para que todos los participantes puedan estar a
gusto, aunque no tan grande com o para abrumarlos. El interlocutor (o el exa
m inador que hace de interlocutor y evaluador) debería estar lo más cerca p o si
ble de los candidatos para que no deban esforzarse en hacerse oír, a no ser que,
naturalmente, la tarea requiera que se proyecte la voz, como en las pruebas de
oratoria o de arte dramático.
5.4.2. Pruebas de comprensión oral

En el caso de las pruebas de comprensión oral la selección del aula es particu
larmente im portante, al igual que la decisión sobre el núm ero de candidatos
que pueden hacer la prueba al m ism o tiem po. Algunas instituciones intentan
llenar al m áxim o las aulas, creyendo que hacen la administración m ás fácil; sin
embargo, las aulas que son lo suficientemente grandes para albergar a muchos
candidatos tienen una acústica deficiente que provoca dificultades de audición
del texto (la voz de un conferenciante en directo, un casete o una grabación en
vídeo). Resulta imprescindible que los administradores hagan un ensayo de las
pruebas de audición para comprobar si se puede ver u oír a la persona que habla
desde todas las partes del aula y para comprobar si las grabaciones pueden oírse
de la m ism a forma desde cualquier asiento.
También es importante saber cómo funciona el equipo, cuándo y cóm o debe
usarse, y qué hacer cuando hay un error de funcionamiento. Debe comprobarse
el funcionamiento de los micrófonos, los casetes y los magnetoscopios, los alta
voces y las cintas que se usarán. Si la prueba va a administrarse en un laborato
rio de idiomas, es importante comprobar todo el equipo de control y el equipo
de cada cabina.
116
Estudio sobre lo.' adúnales de exámenes de inglés
Al igual que en la administración de las pruebas de expresión oral, las perso

nas responsables de la administración de las pruebas de comprensión oral nece
sitan instrucciones claras por escrito sobre qué decir y hacer durante la prueba.
Si los candidatos van a escuchar a un conferenciante en directo, esta persona
debe tener tiempo suficiente de prepararse. La institución no debería subesti
mar el tiem po que necesita un conferenciante para completar su preparación.
En el caso de una persona que debe hacer un dictado, por ejemplo, es ante todo
necesario que comprenda el texto que leerá para decidir sobre su entonación y
fraseo, ser capaz de pronunciar todas las palabras sin titubear, controlar el ritmo
del dictado y la longitud de las pausas, y leerlo en voz lo suficientemente alta
com o para que todos los candidatos puedan oír bien. Si los candidatos deben
escuchar grabaciones, la persona responsable de poner los aparatos en funcio
namiento debe saber cuándo poner la grabación, cuándo parar, si debe parar,
y cuándo volver a pasar la grabación de nuevo.
5.4.3. Pruebas para todas las destrezas y aspectos de la lengua

Hemos dicho ya que muchas de las personas implicadas en la administración de
las pruebas de expresión oral y de comprensión oral pueden necesitar formación.
Hay otros administradores, sin embargo, cuyo trabajo no es especializado: los
responsables de la distribución y recogida de los exámenes, de la administración
del tiem po, los responsables de que los candidatos no se ayuden durante la
prueba. A m enudo nos referimos a estos administradores como «vigilantes». No
suele ser necesario que los vigilantes se sometan a sesiones de formación especí
fica, pero es importante que tengan claros sus deberes y lo que deben hacer si
surgen problem as im previstos. La institución debería dar a los vigilantes ins
trucciones claras por escrito y debería discutir estas instrucciones y otras pre
guntas que pueden tener los vigilantes antes de la administración de la prueba.
5.5. Estudio sobre los tribunales de exámenes de inglés como

lengua extranjera: cuestionario
Pedimos a los tribunales de exámenes los criterios que usaban para seleccionar
a los correctores y cuánto tiempo duraba el nombramiento. También solicita
m os los tipos de puntuación que se llevaban a cabo en los centros y el procedi
m iento que seguían para coordinar a sus exam inadores. (Fíjense que las
preguntas del cuestionario se referían a «correctores» y no a «exam inadores»,
pero por razones de consistencia con la terminología utilizada en este capítulo
seguirem os utilizando el término «exam inadores».)
Pregunta 3 1 : ¿Qué criterios utilizan para nombrar correctores?

Los criterios utilizados se parecían m ucho a los que se utilizaban para los
redactores de ítems (véase capítulo 3): los que se mencionaban más a menudo
eran la experiencia docente relevante (que tam bién incluía la preparación de
alumnos para este examen en particular), la experiencia en realización de exá
117
menes y la titulación profesional adecuada. Los que mencionaban titulación pro

fesional no explicaban a qué se referían, pero creemos que se refieren a un cer
tificado o un título en didáctica de la lengua o en lingüística aplicada.
Varios tribunales m encionaron que los futuros examinadores debían realizar
bien su trabajo en las sesiones de unificación de criterios (véase pregunta 34 más
adelante), y uno mencionó que debían completar un manual de formación autó
noma con éxito. No se daban detalles de qué se consideraba completar con éxito.
Varios tribunales también m encionaron la edad: uno dijo que los examina
dores debían ser menores de 55 años la primera vez que se les nombraba, y tres
mencionaron que la edad de jubilación estaba entre los 65 y los 70 años.
Otros factores que se mencionaron, aunque sólo por parte de uno o dos cen
tros tribunales: buenas referencias, competencia en la lengua, experiencia en el
área de estudios del candidato, fiabilidad, puntualidad, com prom iso con un
enfoque com unicativo en la didáctica y en la evaluación y una personalidad
apropiada para la evaluación de la expresión oral. No se daban detalles.
PREGUNTA 3 2 : ¿Cuánto tiempo dura el nombramiento de los correctores?

La duración del nom bram iento variaba de form a considerable entre los tri
bunales: algunos nom bran exam inadores para cada examen, pero la m ayoría
tiene contratos renovables anualmente. Varios tribunales dijeron que contratan
exam inadores por un período indefinido, en tanto siguen dando un servicio
satisfactorio. N o esta claro cóm o se m ide un «servicio satisfactorio», pero la
situación general parece ser que los exam inadores ya conocidos y aceptables
continuarán como examinadores, probablemente llegando incluso a ser exami
nadores jefes si procede.
PREGUNTA 33: ¿Hay partes del examen a) puntuadas de forma objetiva, por ejemplo por una máquina
o por administrativos; b) puntuadas de forma centralizada, por ejemplo por equipos que trabajan jun
tos; c) puntuadas de forma individual, por ejemplo, por el administrador de la prueba o su equivalente?
Sólo dos tribunales respondieron que puntuaban de forma objetiva. Uno de
ellos puntualizó que «lo s administrativos que puntúan son personal temporal
ordinario que está preparado para aplicar los esquemas de puntuación bajo una
supervisión estricta».
Cuatro tribunales dijeron que puntuaban de forma centralizada; ocho no lo
hacían. Uno de los tribunales se refirió a un «fin de sem ana de expresión
escrita», pero no dio detalles sobre cóm o se organizaba. Los otros centros no
describieron cóm o funcionaba su puntuación centralizada.
Sólo cuatro tribunales dijeron que llevaban a cabo puntuación individual; sin
embargo, puede ser que la pregunta se interpretara de forma distinta por parte
de los tribunales, puesto que algunos de ellos, de los que sabem os que tienen
examinadores que puntúan en su dom icilio, respondieron de form a negativa.
Según nuestra experiencia la mayor parte de los tribunales tiene organizada en
realidad una «industria casera», en la que los exámenes se mandan a los dom i
cilios de los examinadores para que los puntúen en un período concreto. Aun
11 8
que esto es lo más conveniente para los examinadores, y sin duda menos caro
que la puntuación centralizada, este procedimiento tiene consecuencias para la
supervisión de la corrección y la puesta en marcha de controles de fiabilidad.
Quizá el punto m ás importante es que haya un período de tiempo desde que el
exam inador puntúe el escrito hasta que el exam inador jefe sea capaz de com
probar si la puntuación es la adecuada. Se discutirá este punto en el capítulo 6.
PREGUNTA 3 4 : ¿Convocan una sesión de coordinación con los correctores? Si la respuesta es afir
mativa, ¿cómo se llama? ¿Cuánto tiempo dura normalmente?
Once de los doce tribunales que respondieron mantienen reuniones de coor
dinación; uno no. El tribunal que no hacía este tipo de reunión respondió que
la coordinación de los exam inadores la llevaba a cabo «el exam inador jefe de
manera inform al». El nom bre de este tipo de reunión varía, de acuerdo con el
examen. El nom bre m ás com ún es «sesión de unificación de criterios», pero
también se usan «reunión de coordinación», «reunión de evaluadores», «reu
nión de exam inadores» y «reunión informativa».
El tiempo previsto para la reunión varía desde medio día a un día. Un tribu
nal dijo que la formación de sus examinadores para evaluar 10 niveles distintos
duraba sólo un día, lo que parece m uy insuficiente para asegurar una familia-
rización adecuada con las escalas de nivelación y con el procedimiento general.
PREGUNTA 3 5 : Si su tribunal de exámenes mantiene una «sesión de unificación de criterios», ¿qué

sucede normalmente durante esta reunión?
La mayoría de los tribunales mantiene sesiones de unificación de criterios pare
cidas a la descrita en el apartado 5.3.2: los correctores puntúan muestras de ejer
cicios escritos o de grabaciones en vídeo, discuten los criterios de evaluación con
el resto de los correctores y con el examinador jefe, y llegan a un acuerdo sobre
la puntuación final y las áreas problemáticas. Los detalles del proceso de unifica
ción varían (quién facilita las muestras de ejercicios escritos, cuántas muestras se
utilizan, si el examinador jefe «im parte» el criterio o si permite que se «descu
bra» a lo largo de la discusión en grupo), pero en general el patrón era parecido.
En algunos casos, sin embargo, no está claro que todos los examinadores ten
gan acceso a los m ism os ejercicios escritos.
Tam poco está claro si los exam inadores trabajan individualmente antes de
discutir las puntuaciones con otros profesores, o si trabajan en equipo desde el
principio. Si trabajan juntos desde el principio, los examinadores con persona
lidad fuerte o con opiniones m uy firmes (o prejuicios) tenderán a dominar la
discusión, evitando de esta forma que otros examinadores tengan la oportuni
dad (o la necesidad) de decidir por sí solos. Es importante prestar atención al
acceso que tienen los examinadores a los ejercicios escritos (incluso pudiendo
llevárselos a casa para referencias futuras) y el tiempo de que disponen para deci
dir las puntuaciones individualmente antes de discutirlas.
Un tribunal describió su proceso de formación de los examinadores de expre
sión oral:
119
Demostración en directo con candidatos, evaluadores y evaluadores que
puntúan. Corrección individualizada con hojas de puntuación por parte de los
evaluadores presentes. Se discuten los resultados verbalmente de forma
inmediata y se evalúan y supervisan los comentarios por escrito después de la
reunión.
Hay dos puntos importantes en este proceso: en el primero, el tribunal faci

lita demostraciones en directo, y en el segundo se permite a los evaluadores que
den sus puntuaciones de forma individual antes de discutirlas con sus colegas.
Sin embargo, hay puntos a los que debemos prestar atención: ¿Tienen los eva
luadores presentes ocasión de practicar com o parte de su form ación o sólo
observan a los que evalúan a los «candidatos»? ¿Cuál es la naturaleza de la super
visión que tiene lugar después de la reunión? Este proceso debe ser la forma de
comprobar si los examinadores son lo suficientemente competentes para em pe
zar a puntuar. Por desgracia, sin embargo, sabemos m uy poco sobre cómo iden
tifica un exam inador jefe la incom petencia y cóm o se inform a a los
examinadores de que no pueden puntuar.
Un tribunal parece mantener sesiones de coordinación con los jefes de equipo,
pero no hay una reunión entre los jefes de equipo y los examinadores de a pie.
Aunque los examinadores tienen la oportunidad de discutir escritos con su jefe
de equipo de form a individual, se pierden discusiones con otros examinadores,
que son en potencia m uy valiosas.
Un centro m andaba un m anual de form ación autodidacta a los exam inado
res, y les daba un certificado cuando demostraban que eran lo suficientemente
competentes com o para puntuar ejercicios escritos por sí solos. El centro usa
seguramente este tipo de manual porque el examen se puede «solicitar» desde
distintos países y debe puntuarse de forma individual en un período de tiempo
muy breve. Por desgracia, sin embargo, no nos dieron detalles sobre cómo está
redactado el manual o cómo se usa, ni sobre cómo puede darse un «certificado»
a los correctores que realizan una formación autodidacta.
PREGUNTA 36. ¿Qué pasos se dan al final de la sesión de unificación de criterios para establecer el
grado de acuerdo entre los correctores?
Muchos de los tribunales mencionaron que pretendían llegar a un «acuerdo»
al final de sus sesiones de unificación de criterios, pero no estaba claro cóm o
decidían si se había conseguido un grado suficiente de acuerdo. La siguiente
descripción ilustra este punto:
Los correctores habrán tenido los escritos durante una semana y habrán
corregido provisionalmente unos 10 por nivel. En la reunión se discutirán y
revisarán, si es necesario, los esquemas de puntuación y se acordará un
enfoque común.
La descripción m ás clara que recibim os fue esta:

Al final de la reunión los jefes de equipo llegan a un acuerdo con respecto a
los ítems problemáticos. Pertrechados con las actas de estas sesiones, los jefes
120
de equipo dirigirán su propio proceso de unificación de criterios. Los
correctores deben puntuar los ejercicios escritos seleccionados y comparar sus
resultados con los de la reunión. No se empieza la puntuación «en serio»
hasta que se haya llegado a un acuerdo completo entre los distintos equipos.
H em os citado dos tipos de reunión: una en la que se coordinan los jefes de

equipo y otra en la que éstos se coordinan con los exam inadores. Lo que no
sabemos, sin embargo, es si este «acuerdo com pleto» es el resultado de la nego
ciación o si se evalúa de alguna forma a los examinadores para ver su capacidad
de otorgar puntuaciones satisfactorias. Ningún tribunal mencionó la evaluación
de los examinadores para determinar si estaban preparados para puntuar, ni un
análisis de fiabilidad entre correctores para ver el grado de acuerdo existente
entre cada exam inador y el examinador jefe y sus colegas. Una pregunta toda
vía por responder es hasta qué punto puede permitirse a un examinador des
viarse de las puntuaciones acordadas sin que se le considere incapacitado para
puntuar. (Véanse los capítulos 4 y 6 para una discusión sobre la fiabilidad.)
5.6. Estudio sobre los tribunales de exámenes de inglés como

lengua extranjera: documentación
5.6.1. Formación de los correctores de la expresión escrita
Los documentos que nos mandaron los centros contribuyeron muy poco a nues
tra comprensión de sus procedimientos de formación. Sólo había cuatro docu
m entos que m encionaban la form ación; la m ayoría no incluía inform ación
alguna sobre cóm o se formaba a los correctores para llevar a cabo su cometido.
El documento de la ESB solamente decía que:
Los evaluadores se reúnen regularmente para comparar sus anotaciones y
discutir técnicas de evaluación (página 1).
No concretaban cóm o llevaban esto a cabo.

La descripción m ás completa de un program a de formación la dio la AEB en
un folleto que describe el procedim iento que se seguía con sus exámenes de
GCE (niveles O y A) antes de 1986. No sabem os si se seguía el m ism o proce
dim iento para la prueba de TEEP, y en cualquier caso los procedim ientos del
TEEP habrán cambiado puesto que el examen ha pasado a otra institución; sin
em bargo, vale la pena reproducir la descripción del procedim iento de la AEB
puesto que es el tipo de descripción que probablemente dará a sus usuarios la
tranquilidad de que el tribunal cuida la formación de sus examinadores:
Tan pronto como ha finalizado el examen, desde el tribunal se envían a todos
los examinadores copias de las hojas de examen, esquemas de puntuación y
hojas de puntuación. La primera tarea de los examinadores es la de estudiar las
preguntas y los esquemas de puntuación y la de llevar a cabo un ensayo de
puntuación con unos cuantos ejercicios escritos. En este estadio también se
identificarán respuestas imprevistas a las que no se puede adaptar el esquema.
121
AI cabo de dos o tres días después del examen, todos los examinadores asisten
a una sesión de unificación de criterios. En esta reunión el examinador jefe
discute cada pregunta y su esquema de puntuación correspondiente. Se toma
nota de lo que se requiere para cada puntuación; se acuerdan cuáles son las
respuestas alternativas aceptables y también se toma nota no sólo de las
respuestas aceptables sino también de las que sólo son correctas parcialmente y
de las que son totalmente incorrectas. Se tratan aspectos diversos sobre las
respuestas analizadas y se toman decisiones sobre todos ellos. Además, se
discute el sistema de puntuación para garantizar que todos los examinadores
corrigen de la misma forma. El objetivo de esta reunión es garantizar una
correcta aplicación del esquema de puntuación por parte de todos los
examinadores en todos los escritos para que, sea quien sea quien puntúe y sin
importar dónde puntúe, una respuesta en particular reciba siempre una
puntuación apropiada. En muchas materias el tribunal se asegura de que todos
los examinadores corrijan fotocopias de los mismos ejercicios escritos para
comprobar que puntúan de acuerdo con el mismo criterio y de la misma
forma antes de que abandonen la reunión (página 11).
MATERIALES PARA LA FORMACIÓN

Uno de los hallazgos m ás útiles en el estudio de los documentos fue que tanto
Oxford com o UCLES publican folletos para profesores que quieren preparar a
estudiantes para el examen. Estos folletos contienen preguntas de exámenes ante
riores, m uestras de respuestas a las preguntas de expresión escrita, y las pun
tuaciones del tribunal junto a comentarios para cada ejercicio escrito.
La finalidad de estas publicaciones es la de fam iliarizar a los profesores no
sólo con las tareas que deberán llevar a cabo los candidatos durante el examen
sino también con la forma en la que se les juzgará. Presumimos que las m ues
tras de respuestas y los comentarios eran (o son) utilizados también para la for
mación; sin em bargo, no sabem os cómo se han utilizado.
5.6.2. La formación de correctores de la expresión oral

Se encontró m uy poco sobre la formación de los correctores de la expresión oral
en la documentación estudiada.
Oxford-ARELS dice lo siguiente acerca de la coordinación de los jefes de equipo:
Alrededor de una semana después de cada examen, se convocan reuniones de
coordinación de jefes de equipo para establecer criterios con respecto a las
muy detalladas guías de corrección ya enviadas...
Las guías de corrección para todos los exámenes son extremadamente
detalladas. Están agrupadas en unos folletos conocidos como claves, y se utiliza
un folleto para cada puntuación. Como ejemplo, diremos que la clave para un
examen de nivel avanzado contiene unas 90 apreciaciones...
Los criterios requeridos varían con cada tarea; en algunas, sólo se dan puntos a una
respuesta que no contenga ningún error; en otras se reconocen 2, 3 o 4 grados de
corrección. La clave de corrección da detalles completos. En muy pocas ocasiones
se pide a los correctores que realicen una evaluación subjetiva, puesto que no hay
alternativa. En estos casos se da tanta ayuda como sea posible en la clave.
122
Debate
No se dan detalles sobre el funcionamiento de la sesión de unificación de cri

terios, y tampoco se dice nada sobre la formación de los correctores ordinarios.
Sin em bargo, Oxford-ARELS sí da información sobre el proceso de control de
calidad, que se describe en el capítulo 6.
MATERIALES PARA LA FORMACIÓN DE LOS EXAMINADORES

Tanto las publicaciones de la LCCI como las de UCLES hacen referencia a vídeos
que producen para sus pruebas. LCCI ofrece dos tipos de vídeo a aquellos que
estén interesados: uno que está pensado para profesores y estudiantes e ilustra
los distintos niveles de actuación lingüística oral, y otro que está pensado para la
formación. Este tipo de vídeo no «pretende ilustrar los principios de la evalua
ción de la expresión oral en general sino facilitar la crítica y la discusión entre los
examinadores del LCCI en proceso de formación.» Esto nos informa sobre el fun
cionamiento de la formación en el LCCI: básicamente, sus examinadores no pun
túan muestras de actuaciones en sus sesiones de formación, pero no tenemos
detalles sobre cómo forman a sus examinadores. Presumimos, pero no lo sabe
mos, que hay comentarios que acompañan a cada tipo de vídeo para ayudar a los
profesores y a los examinadores a entender lo que ven.
UCLES menciona vídeos en su descripción del FCE y del CPE, pero sólo sabe
m os que los vídeos m uestran niveles de actuación en los exámenes. No sabe
mos si hay notas explicativas ni cómo se utilizan los vídeos en la formación.
5.7. Debate
Resultó reconfortante constatar que hay muchos tribunales que mantienen sesio
nes de unificación de criterios, pero es preocupante comprobar que hay dos que
no lo hacen. Fue útil leer las descripciones ofrecidas por los tribunales sobre su
proceso de formación; sin embargo, las descripciones eran a menudo muy bre
ves. Todavía no hemos resuelto distintas preguntas sobre diversos estadios de la
formación y especialmente sobre cuándo decide un tribunal que sus examina
dores están preparados para empezar a puntuar «en serio». Varios tribunales
mencionaron que los examinadores deben llegar a un acuerdo sobre los ejerci
cios escritos seleccionados o sobre las actuaciones grabadas en vídeo, pero no
sabemos si este acuerdo es el resultado de la discusión (en cuyo caso se persuade
y no se convence a los exam inadores) o si es una prueba que deben pasar los
examinadores. Si éste fuera el caso, no sería razonable esperar que cada exam i
nador estuviera de acuerdo por completo con cada puntuación otorgada por el
exam inador jefe y los jefes de equipo, pero si se perm ite variación («desvia
ción »), ¿cuánta se acepta?
N os sorprendió constatar que al menos uno de los tribunales forma a sus exa
m inadores por correo o por teléfono y no de form a presencial. El tribunal se
toma la m olestia de form ar a los jefes de equipo en grupo, pero los jefes de
equipo no forman a sus examinadores en persona. No se sabe si el tribunal cree
que sería una pérdida de tiem po reunir a todos sus examinadores para la dis
123
cusión, pero nos encontramos ante una falsa idea de la economía. En el caso de
que el centro fuera capaz de dar razones convincentes para la form ación por
correo o por teléfono, todavía veríamos poco claro que los examinadores em pe
zaran a m andar los prim eros escritos puntuados a los jefes de equipo después
de haber empezado la corrección en serio. Parecería más sensato pedir a los exa
m inadores que enviaran los prim eros escritos puntuados antes de em pezar a
puntuar en serio y pedir a los examinadores que esperaran instrucciones antes
de continuar puntuando.
D escubrim os dos novedades interesantes: el «fin de sem ana de expresión
escrita» que convoca un centro para formar a los examinadores de la expresión
escrita y para supervisarlos mientras están puntuando, y los manuales de fo r
mación autodidacta, que un centro utiliza para preparar a los examinadores que
no pueden asistir a las sesiones de form ación. El fin de sem ana de expresión
escrita parece facilitar un buen ambiente para discutir los criterios de puntua
ción y para discutir y volver a discutir ejercicios escritos que no se adaptan con
facilidad a ninguno de los puntos de las escalas de clasificación: si los correcto
res no tienen que viajar y no tienen que preocuparse de las presiones dom ésti
cas, pueden concentrarse en la corrección por completo. El manual de formación
autodidacta podría ser una buena idea en países en los que viajar resulta difícil
y en donde el tribunal de exámenes sólo tiene la opción de facilitar formación
a distancia. Sin em bargo, sería im portante conocer m ejor cóm o funciona el
manual de formación y cóm o decide el centro que un exam inador está capaci
tado antes de poder recomendar esta práctica.
Un punto final: los materiales facilitados por algunos tribunales para ayudar
a los profesores a comprender cóm o se evalúan la expresión oral y la expresión
escrita eran m uy interesantes. Sería útil que todos los centros ofrecieran cintas
de vídeo (o casetes) que ilustraran los criterios que utilizan para evaluar con
ejemplos de los distintos niveles de actuación lingüística. Es especialmente útil
que estas grabaciones vayan acompañadas de las puntuaciones que daría el exa
m inador jefe a las actuaciones, junto con notas explicativas de las razones.
Existe siem pre el peligro de que capítulos com o este, que describen el pro
ceso que ha de seguirse para llegar a un objetivo final, sean considerados dem a
siado prescriptivos o poco prácticos. Está claro que cada institución tiene sus
limitaciones y que a m enudo es necesario llegar a situaciones de com prom iso.
No insistiremos en que todos los pasos del proceso descrito se sigan al pie de la
letra, pero sí insistiremos en que hay que hacer ciertas cosas para garantizar que
los exam inadores estén bien preparados. Entre éstas se cuentan las siguientes:
La institución debe tener un programa de formación de algún üpo. Las institu
ciones no deberían suponer jamás que las plantillas de corrección y las escalas de
valoración son perfectas o que los examinadores pueden aplicarlas sin practicar.
Las instituciones deben prever un período de tiem po razonable para la for
m ación, especialmente si los exam inadores se forman por prim era vez. N o es
posible hacer una form ación com pleta de los exam inadores de la expresión
escrita o de la expresión oral en un par de horas.
124
Sumario
Las instituciones deberían facilitar fotocopias de los escritos que se van a dis
cutir para que los examinadores puedan hacer sus anotaciones y puedan guar
darlas para una futura consulta.
Los exam inadores deben tener la oportunidad de tomar sus propias decisio
nes y discutirlas con otros examinadores y con el examinador jefe o con el jefe
de equipo. Debe evitarse que el EJ o el jefe de equipo simplemente expliquen
lo que debe hacerse.
Las instituciones deberían tener una política sobre el grado de acuerdo que
esperan de sus exam inadores y debería haber algún m odelo definido que los
examinadores deban conseguir antes de que se les permita examinar en serio.
5.8. Sumario
Una plantilla de corrección o una escala de valoración debe estar diseñada de
forma apropiada para las tareas que se van a pedir a los candidatos.
Antes de la formación, el examinador jefe debe fijar los criterios aplicando el
esquem a o la escala a una muestra de exámenes o actuaciones. Si fuera necesa
rio, debería m odificarse el esquem a o la escala a partir de este ensayo.
El EJ debería seleccionar ejercicios escritos o actuaciones adecuadas para el
program a de formación.
Deben seleccionarse examinadores experimentados y cualificados.
En la sesión de unificación de criterios, deben tenerse en cuenta los ejercicios
escritos o las actuaciones consensuadas y las problemáticas, y se debe llegar a
un acuerdo sobre la forma de aplicar las plantillas o escalas.
Los examinadores que actúan de form a poco satisfactoria durante la form a
ción deben volverse a formar o ser rechazados.
Si es necesario, las plantillas o escalas y las directrices para su aplicación debe
rían revisarse a partir de la sesión de unificación de criterios antes de utilizarse
«e n serio».
Para las pruebas de expresión oral, las actuaciones que se graben para ser uti
lizadas en la form ación se compilarán en una única cinta.
En la reunión de formación para la expresión oral, se garantizará la visión y audi
ción de las cintas. Cuando esto no sea posible, se organizarán actuaciones en directo.
Los exam inadores de la expresión oral necesitarán consejos prácticos sobre
cóm o sentarse y qué hacer con sus papeles y deberían disponer de instruccio
nes por escrito antes del examen.
Debería organizarse una form ación específica para los interlocutores y tam
bién para los exam inadores si no sólo van a evaluar sino también a conversar
con el candidato. Esta form ación debería capacitar a los interlocutores y a los
exam inadores para conseguir la actuación oral apropiada.
También los que administrarán la prueba tienen que ser preparados para saber
cuáles son sus cometidos.
En las pruebas de com prensión oral, deberá com probarse que el aula o las
aulas tengan la capacidad y la acústica adecuada, la existencia y el estado de cual-
125
La form ación de exam inadores y adm inistradores
quier equipam iento especial que sea necesario y tam bién debería hacerse un
ensayo previo. Si la prueba debe administrarse en directo y no utilizando una
grabación, el conferenciante o conferenciantes necesitan formación e instruc
ciones claras por escrito que expliquen qué hacer y cuándo hacerlo.
Bibliografía
Mathews, J. C. (1985). Examinations: A Commentary. George Alien and Unwin, Londres.
126
6 La supervisión de la fiabilidad
de los examinadores
En este capítulo se discutirá la naturaleza de la fiabilidad de los examinadores y

su importancia, y cóm o puede conseguirse una fiabilidad en la puntuación. Es
im portante que la nota de una prueba de un candidato no dependa de quién
corrige la prueba, ni de la coherencia de un corrector en particular; un exam i
nador no fiable es quien cam bia sus criterios durante la corrección, quien no
los aplica de forma consistente, o quien no está de acuerdo con las notas de otros
examinadores. Describiremos con algún detalle el tipo de proceso que debería
seguirse en un program a de supervisión eficaz.
6.1. La importancia de la supervisión de la fiabilidad

de los examinadores
En el capítulo 5 insistim os en la importancia que tiene la preparación completa
de todos los exam inadores, en especial de aquellos que puntúan la expresión
escrita y la expresión oral. La form ación ayudará a los exam inadores a co m
prender las escalas de puntuación que deberán utilizar y debería prepararles para
solucionar los problemas, incluso los no previstos cuando se diseñaron las tareas
por prim era vez. La formación debería dar a los examinadores competencia y
confianza; sin embargo, no se puede garantizar que los examinadores corrijan
com o se ha previsto. Hay m uchos factores que pueden interferir en la capaci
dad de emitir juicios sensatos y coherentes por parte de un examinador: difi
cultades con las escalas de puntuación, la presión de tiempo, las preocupaciones
domésticas y profesionales, etc. Incluso los examinadores experimentados pue
den verse afectados por estos problemas. Es responsabilidad de la institución el
diseñar procedim ientos de control de calidad para garantizar a los usuarios de
las pruebas que los resultados son lo m ás fiables posible.
El término «fiab le» puede aplicarse a diversos aspectos del proceso de con
fección de un examen (véanse los capítulos 4 y 5 sobre pruebas objetivas), pero
en este capítulo nos concentraremos en la corrección de la expresión escrita y
de la expresión oral. También hay necesidad de supervisar la corrección de las
pruebas objetivas, pero en este caso sólo se trata de comprobar que los exam i
nadores han aplicado la clave de respuestas o el esquema de puntuación de forma
adecuada y que sus cálculos son exactos. Aunque siempre habrá errores, los pro
cesos de supervisión son claros. Los que se utilizan para las pruebas subjetivas
son más com plicados y por tanto nos concentramos en ellos en este capítulo.
127
La supervisión de la fiabilidad de los exam inadores
En nuestra discusión aparecerán a menudo dos términos: «fiabilidad interna»

y «fiabilidad entre correctores». Se dice que un exam inador tiene «fiabilidad
interna» si siem pre da al m ism o grupo de ejercicios escritos o de actuaciones
lingüísticas orales las m ismas puntuaciones en dos ocasiones distintas. El exami
nador todavía puede considerarse fiable si algunas de las puntuaciones son dis
tintas; sin embargo, no puede permitirse mucha variación sin que se cuestione su
validez. La fiabilidad entre correctores se mide a menudo utilizando un coeficiente
de correlación o a través de alguna form a de análisis de la varianza. La noción
de correlación se discutió en detalle en el capítulo 4. Un análisis de la varianza
compara en esencia las distribuciones (medias y desviaciones típicas —véase capí
tulo 4) de dos o más poblaciones. Por ejemplo, las puntuaciones que han dado
cuatro examinadores distintos al m ism o grupo de ejercicios escritos puede con
trastarse. Si los distintos examinadores han dado las m ism as puntuaciones cada
vez, las medias y las desviaciones típicas serán idénticas. El análisis de la varianza
es una forma de evaluar cuán significativas pueden ser las diferencias (para más
detalles véase cualquier libro de texto de introducción a la estadística).
La «fiabilidad entre correctores» se refiere al grado de similitud entre diferen
tes examinadores: ¿Pueden dos o más examinadores, sin influirse entre sí, dar las
m ismas notas al m ism o grupo de escritos o actuaciones orales? No sería realista
esperar que todos los examinadores coincidieran todo el tiempo; sin embargo, es
esencial que cada examinador intente emular siempre el «m odelo». Este modelo
lo establece o bien el exam inador jefe o bien la com isión de coordinación, tal
como se discutió en el capítulo 5. Aunque siempre habrá alguna variación entre
los examinadores y el modelo, debe haber un alto grado de coherencia general si
queremos que la prueba se considere fiable. Esta fiabilidad también se mide por
un coeficiente de correlación o por alguna forma de anáfisis de varianza.
Hay varias formas en las que una institución puede supervisar la puntuación
de sus examinadores. La selección de unos u otros métodos dependerá de diver
sos factores com o, por ejemplo, si la corrección se hace de form a centralizada
o no, o si se trata de la corrección de ejercicios escritos o de actuaciones lingüís
ticas orales. En las siguientes secciones describiremos m étodos adecuados para
cada situación.
6.2. Corrección centralizada

La situación más sencilla imaginable es la de una corrección centralizada de prue
bas de expresión escrita. En este caso hay al m enos tres tipos de supervisión.
6.2.1. Muestreo p o r parte del examinador jefe

o del je fe de equipo
Cuando la corrección tiene lugar de form a centralizada, los exam inadores se
dividen norm alm ente por equipos: cada equipo cuenta con un coordinador y
con un m áxim o de 1 0 o 12 exam inadores. Si se trata de una prueba a escala
pequeña (alrededor de 100 candidatos), puede que sólo haya un equipo, coor
128
Corrección centralizada
dinado por el examinador jefe. Si hay más candidatos, puede haber varios equi
pos, cada uno coordinado por el jefe de equipo. Todos los jefes de equipo
habrán sido coordinados por el examinador jefe y ellos habrán coordinado a los
m iem bros de sus equipos (véase capítulo 5). Cada equipo corregirá en su zona
de la sala de corrección o en una sala separada. Esto permitirá al jefe de equipo
supervisar toda la corrección de forma eficaz y facilitará a los correctores la dis
cusión de problem as de corrección tal com o vayan surgiendo.
Los exam inadores deberían corregir según su preparación, deberían tener
especial cuidado en no escribir comentario alguno sobre el ejercicio escrito y
deberían anotar sus resultados en las hojas de puntuación diseñadas al efecto.
Algunos tribunales de exámenes piden a los examinadores que anoten sus pun
tuaciones delante o detrás del pliego de examen, pero no recom endam os esta
práctica en absoluto, puesto que incita a los otros examinadores, jefes de equipo
o «segund os correctores» (véase sección 2.3 más adelante) a mirar la puntua
ción escrita antes de dar la suya propia.
El procedim iento de m uestreo debería comenzar justo después de que
empiece la corrección. Los párrafos siguientes explicarán los pasos del proceso.
(Nótese que en esta explicación y en las otras de este capítulo supondremos que
el coordinador de corrección es un jefe de equipo.)
Cada examinador debe corregir un cierto número de ejercicios durante el pri
mer día de corrección. El jefe de equipo recoge un número de ejercicios puntua
dos por el examinador (a menudo 1 o 2 ejercicios de cada 10) y los lee otra vez
para dar una puntuación independiente. (Esto se llama «puntuación a ciegas»,
porque el jefe de equipo no debería conocer las notas del examinador mientras
está puntuando). Si las puntuaciones del jefe de equipo están de acuerdo con las
del examinador, se permite que el examinador continúe corrigiendo. Si, por el
contrario, las puntuaciones del jefe de equipo no están de acuerdo con las del exa
m inador y las diferencias son serias (por ejemplo, una diferencia de más de un
punto en una escala de 1 al 5), el jefe de equipo discute la situación con el exa
minador. El objetivo de la discusión es el de reducir las diferencias de opinión
entre las dos partes, por lo que debe haber una lectura exhaustiva de los ejercicios
problemáticos y de la escala de puntuación. Ocasionalmente el examinador con
vencerá al jefe de equipo para que reconsidere su decisión, pero en instituciones
en las que se lleva a cabo un muestreo se suele asumir que el jefe de equipo tiene
razón y al final es el examinador el que debe modificar su puntuación.
El proceso de m uestreo debería continuar a lo largo de todo el periodo de
puntuación, aún cuando el jefe de equipo se sienta seguro de que los examina
dores están corrigiendo bien. Una de las causas más comunes de ausencia de
fiabilidad en la corrección es la autocomplacencia, pero afortunadamente es tam
bién una de las m ás fáciles de prevenir.
6.2.2. La utilización de «ejercicios de fiabilidad»

El segundo m étodo de supervisión de la puntuación es el de preguntar a cada
examinador que puntúe de forma independiente el m ism o paquete de «ejerci
129
d o s de fiabilidad». Estos e je r d d o s escritos habrán sido escogidos por el exa

m inador jefe com o representantes de distintos puntos en la escala de puntua-
d ón y de distintos problemas a los que se enfrentan los examinadores (pareados
a las m uestras de ejercicios utilizados en la form ación —véase capítulo 5) y
habrán sido corregidos por el examinador jefe y la com isión de unificación de
criterios. Este ejercicio de fiabilidad debería tener lugar después de que los exa
m inadores hayan em pezado a corregir «e n serio », pero lo suficientem ente
pronto en el periodo de puntuación como para poder hacer cambios en los ejer
cicios que puedan haber sido corregidos de forma incorrecta por exam inado
res no fiables. La tarde del primer día de corrección o la segunda mañana serían
el m om ento adecuado.
No es necesario hacer fotocopias de los ejercicios para cada m iem bro del
equipo: éstos pueden circular entre los m ism os. Es im portante, sin em bargo,
que los m iem bros del equipo no escriban encim a de los ejercicios que leen,
puesto que tales anotaciones o marcas influirán sin duda en los exam inadores
posteriores. Los examinadores deberían anotar sus puntuaciones en una hoja de
puntuación por separado y entregarlas al final al jefe de equipo. Este comparará
las puntuaciones que cada examinador dio con las puntuaciones que se acorda
ron en la com isión de unificación de criterios. Si el jefe de equipo ve que las
puntuaciones de algún exam inador discrepan mucho de las puntuaciones de la
comisión, debería haber una discusión para determinar el porqué. Si el jefe de
equipo constata que el equipo entero da puntuaciones distintas, debería haber
una reunión para discutir lo que está sucediendo y para recoger sugerencias
sobre cóm o solucionar el problema. El objetivo de este ejercicio es el de refor
zar la coordinación que tuvo lugar durante el periodo de formación (véase capí
tulo S), y si resulta que los examinadores están aplicando la escala de puntuación
de forma distinta de la de la comisión, debe detenerse la corrección para llevar
a cabo una nueva unificación de criterios.
Hay dos form as en las que el jefe de equipo puede determinar si los exam i
nadores están puntuando de la form a que se supone que deben puntuar. La
forma m ás rápida, conocida como « a simple vista», es la de colocar las notas de
cada exam inador junto a las de la comisión. Las diferencias obvias de opinión
se verán inmediatamente, y el jefe de equipo puede empezar a actuar, seleccio
nando inmediatamente más muestras de algunos examinadores.
La form a a «sim p le vista», sin em bargo, sólo revelará los problem as m ás
sobresalientes. Un m étodo m ás inform ativo es hacer una correlación de las
puntuaciones de cada examinador con las puntuaciones de la comisión de uni
ficación de criterios y comparar las m edias y las desviaciones típicas. La corre
lación indicará si el exam inador ha ordenado los ejercicios de fiabilidad en el
m ism o orden en que el comité (una correlación razonable a la que aspirar sería
de un 0,8) y la com paración de m edias y de desviaciones típicas indicará si el
exam inador es m ás estricto o m ás benévolo que la comisión. Si la puntuación
m edia del exam inador es significativam ente m ás baja que la de la com isión,
esto significará que el exam inador es m ás estricto; si es significativamente más
130
Corrección centralizada
alta, significará que el exam inador es m ás benévolo. (Una diferencia signifi

cativa es la que resulta lo suficientemente grande com o para que no se deba
sólo a la casualidad. La prueba m ás corriente para ver si la diferencia entre dos
m edianas es significativa es la prueba t, y se utiliza el análisis de la varianza
para com parar m ás de dos medianas. Véase Guilford y Fruchter, 1978, o cual
quier introducción a la estadística.) El m ejor resultado para un examinador es
tener una correlación de 0,8 o más alta con las puntuaciones de la comisión de
unificación de criterios, y una nota m edia que no sea significativamente dis
tinta de la de la com isión. Si alguna de estas condiciones está ausente, enton
ces el jefe de equipo debería discutir el problem a con el examinador e intentar
encontrar una solución.
El jefe de equipo deberá com probar el trabajo de todos los m iem bros del
equipo de la m ism a forma. Esto requiere una cantidad de cálculos respetable,
que puede hacerse a m ano o con una calculadora. Algunas instituciones prefie
ren hacer estos cálculos por ordenador, utilizando un programa estadístico como
el SPSS o SAS (véase el apéndice 8). Los lectores interesados en análisis más sofis
ticados (com o la teoría de la generalizabilidad, que está basada en el análisis de
la varianza y que puede estimar la fiabilidad de un grupo entero de correctores
de una vez) deberían ir a Crocker y Algina, 1986.
6.2.3. El procedimiento de la doble corrección

La tercera form a de supervisar a los examinadores y de asegurar que sus pun
tuaciones sean fiables requiere el procedimiento de la doble corrección de cada
parte de la prueba que necesite un juicio subjetivo. Esto significa que cada escrito
lo corrigen dos examinadores distintos, trabajando independientemente. La pun
tuación que el candidato recibe por su ejercicio es la m edia de las puntuaciones
otorgadas por los dos examinadores.
Administrativamente, la form a más fácil es disponer que dos examinadores
de cada equipo corrijan cada ejercicio escrito, pero no es necesario que las dos
personas trabajen juntas todo el tiempo. Al igual que en los dos m étodos ante
riores, los examinadores deberían abstenerse de escribir sobre el ejercicio, para
no influirse mutuamente. Cada uno debe anotar su puntuación en una hoja de
puntuación por separado. Es responsabilidad del jefe de equipo fijarse en si las
dos puntuaciones son parecidas o no. Si son parecidas (es decir, si están en la
m isma área general de la escala de puntuación), la nota final del candidato será
la m edia de las dos puntuaciones; si, sin em bargo, las puntuaciones son muy
distintas (dos puntos o más en una escala de cinco puntos), los examinadores
deberán volver a leer el ejercicio y estudiar la escala de nivel cuidadosamente.
Si los exam inadores no pueden aproxim arse en sus puntuaciones, se dará el
escrito a otro examinador, que puede ser otro miembro del equipo o incluso el
jefe de equipo. Quedará a criterio de la institución la decisión del punto de vista
que debe primar en caso de desacuerdo, o si las dos puntuaciones más cercanas
o todas las puntuaciones deberían hacer media.
131
6.3. Alternativas cuando la corrección se lleva a cabo

fuera del centro de exámenes
Todos los m étodos citados más arriba son válidos para la corrección centralizada,
cuando los m iem bros de un equipo de corrección trabajan juntos en el m ism o
lugar al m ism o tiempo. Si la corrección tiene lugar fuera del centro de exám e
nes, los procedim ientos descritos anteriormente deberán modificarse. Analiza
remos primero el caso en que los examinadores corrigen en su domicilio.
6.3.1. Corrección en el domicilio de los examinadores

El procedim iento por el que el jefe de equipo analiza una muestra de los ejer
cicios corregidos por los examinadores debe modificarse. Si los examinadores
están corrigiendo en casa pueden no estar en posición de garantizar la correc
ción de un núm ero determinado de ejercicios por día; no es por lo tanto prác
tico esperar que puedan m andar una muestra de las correcciones de cada día.
Sería práctico, sin em bargo, pedirles que envíen una muestra de cada paquete
de las correcciones que deben hacer o, preferiblemente, mandar el paquete ter
minado al jefe de equipo para que éste realice un muestreo al azar. Esto permite
al jefe de equipo acceder a los ejercicios que los exam inadores han corregido
en horas distintas durante el día y en distintas condiciones; si los examinadores
escogen su propia muestra, pueden enviar ejercicios que han corregido cuando
estaban más frescos, o ejercicios que han tardado m ás tiempo en corregir o que
han analizado m ás cuidadosamente. Si el jefe de equipo escoge la muestra, será
más representativa de la corrección habitual de los examinadores.
El m ayor problem a de este método es el tiempo: se puede retrasar el proceso
de puntuación si los exam inadores deben esperar para tener noticias del exa
minador jefe antes de empezar un nuevo paquete de correcciones. Sin embargo,
esto es m ejor para todas las partes implicadas que si el examinador se apresura
a hacer todas sus correcciones y después quizá tiene que volver a corregir (o si
el exam inador jefe debe buscar otro exam inador para corregir porque el exa
minador original no era capaz de corregir bien ). Es responsabilidad del jefe de
equipo el com unicarse con los exam inadores lo antes posible, inform arles si
pueden continuar o aconsejarles sobre los problem as detectados. En el último
caso el jefe de equipo debería enviar los ejercicios problemáticos al examinador
para que éste pueda estudiar los cambios que ha hecho el jefe de equipo e inten
tar internalizarlos. Las correcciones posteriores de esta persona deberán super
visarse cuidadosamente.
El segundo procedimiento de supervisión, que implica que todos los examina
dores corrijan el m ism o paquete de ejercicios de fiabilidad, también puede lle
varse a cabo con exam inadores que corrigen en su dom icilio. La principal
modificación es que se deben enviar fotocopias de todos los ejercicios a cada exa
minador, pero esto no es necesariamente demasiado caro ni ocupa demasiado
tiempo, especialmente si se compara a los costes que supone volver a corregir
todos los ejercicios de un examinador si la corrección no se ajusta a los criterios
132
Alternativas cuando la corrección se lleva a cabo fuera del centro de exámenes
de la institución. Siempre existe la posibilidad de que los correctores corrijan los

«ejercicios de fiabilidad» de una forma más cuidadosa que el resto de ejercicios,
y de que el jefe de equipo no obtenga una idea fidedigna de la capacidad del
corrector para adaptarse a la escala de nivel bajo condiciones normales; sin
embargo, el procedimiento será útil para descubrir a aquellos correctores que tie
nen problemas incluso cuando saben que deben corregir de forma cuidadosa.
El tercer método de corrección, el procedimiento de la doble corrección, tam
bién es posible con examinadores que corrigen desde su domicilio. La principal
dificultad es que probablemente no será fácil para los examinadores que trabajan
por separado poder discutir diferencias de opinión en los casos en que éstas lla
man la atención por su importancia. Sin embargo, podría pedirse al jefe de equipo
que lea los ejercicios en los que hay estas diferencias y que tome una decisión final.
6.3.2. La corrección en los centros de administración de pruebas

El segundo tipo de corrección no centralizada tiene lugar en los centros de admi
nistración de pruebas, especialmente durante las pruebas orales. Este tipo de
corrección es notoriamente difícil: los examinadores sólo disponen de un breve
periodo de tiempo durante el que pueden tomar decisiones y a menudo no pue
den volver a revisar la actuación lingüística del candidato para confirmar o cam
biar su decisión sobre el nivel de actuación. Curiosamente, sin embargo, existen
irnos cuantos procedimientos de supervisión para las pruebas de expresión oral.
El procedim iento m ás com ún es el del m uestreo. Lo lleva a cabo el jefe de
equipo, quien visita el centro y asiste a las pruebas orales administradas por el
examinador. El jefe de equipo observa la administración de la prueba y puntúa
al candidato de form a independiente. Cuando la prueba ha terminado, el jefe
de equipo y el exam inador comparan sus puntuaciones y discuten los puntos
en los que tienen diferencias de opinión serias. Aunque este procedimiento es
sin duda útil para los examinadores observados, la posibilidad de poder obser
var a varios examinadores a lo largo de un año es limitada, especialmente cuando
hay instituciones que examinan en varios centros.
Es raro encontrar algo equivalente a los «ejercicios de fiabilidad» para las prue
bas orales, o al procedimiento de doble corrección. Las instituciones afirman que
no es práctico introducir estos procedimientos; cuando hay muchos examinado
res sería caro copiar «casetes de fiabilidad», y sería difícil desde un punto de vista
administrativo, además de caro, tener a dos examinadores en cada centro de admi
nistración de exámenes. Sin embargo, las instituciones que administran pruebas
para su uso propio (promoción intema, final de curso) podrían considerar estas
opciones; si los examinadores son también miembros del equipo de profesores,
podrían ver o escuchar juntos una única copia del casete de fiabilidad y llevar a
cabo el procedimiento de doble corrección sin que sea necesario viaje alguno. Una
posibilidad interesante para las instituciones que examinan a candidatos en dis
tintos centros de administración de exámenes sería la de grabar las actuaciones de
los candidatos para que el jefe de equipo pueda tomar una muestra o incluso hacer
una doble corrección. Este es un procedimiento que se utiliza en la evaluación de
133
lenguas extranjeras en el Reino Unido y que también utiliza Oxford-ARELS en sus

exámenes de inglés como lengua extranjera.
La sugerencia puede no ser adecuada para todas las instituciones, pero podría
ponerse en práctica por muchas.
6.4. Fiabilidad interna

Todos los procedim ientos detallados m ás arriba son intentos de m ejorar la fia
bilidad extem a: el acuerdo entre exam inadores. Sin em bargo, a m enudo ocu
rre, especialmente en la evaluación de idiom as, que las diferencias de opinión
entre exam inadores sobre la calidad de la actuación de un candidato pueden
ser legítim as. Por eso recom endam os el procedim iento de doble corrección
en la m ayoría de circunstancias: este sistem a perm ite a los exam inadores dis
crepar (hasta cierto p u n to ), y sim plem ente hace m edia de los resultados para
llegar a una nota final.
En todos los casos es crucial que cada redactor sea coherente internamente:
es decir, cada exam inador debería estar de acuerdo consigo m ism o a la hora de
evaluar la m ism a actuación en una ocasión diferente. Esta fiabilidad interna
puede suponerse que se ha supervisado normalmente cuando se comprueba la
fiabilidad entre correctores. Cualquier acuerdó» entre examinadores estará siem
pre limitado por la consistencia interna de cada uno de los examinadores. Sin
em bargo, puede ser importante asegurar la fiabilidad intem a al final de la for
m ación de los. exam inadores o, de forma rutinaria, durante la corrección.
La única form a de garantizar la fiabilidad intem a es pidiendo a los exam ina
dores que vuelvan a corregir ejercicios que ya han corregido. Esto sólo tendrá
sentido si las primeras puntuaciones no se han anotado en los ejercicios (por lo
cual abogam os firm em ente para que los exam inadores nunca escriban en sus
ejercicios). El jefe de equipo debería ser el responsable de seleccionar una m ues
tra de ejercicios corregidos con anterioridad por cada exam inador y organizar
la m anera de incluirlos en los paquetes de ejercicios que m ás adelante deberá
corregir este examinador. Podrá entonces com probarse la correlación entre la
primera y la segunda puntuación, y las m edias y desviaciones típicas respecti
vas, y podrá decidirse qué pasos dar si la fiabilidad interna resulta ser baja.
Pueden idearse procedim ientos sim ilares para la pm ebas de expresión oral
cuando las actuaciones hayan sido grabadas. En este caso, las cintas de sonido
pueden ser preferibles a las cintas de vídeo para evitar la posibilidad de que el
examinador reconozca al candidato, aunque hem os de tener en cuenta que las
puntuaciones basadas en actuaciones grabadas pueden resultar ligeramente dis
tintas a las puntuaciones basadas en actuaciones en directo.

En el cuestionario preguntam os a los tribunales de exám enes de inglés com o
lengua extranjera si practicaban el procedim iento de doble corrección, cóm o
134
resolvían los conflictos entre exam inadores y qué tipos de estadísticas utiliza
ban para investigar la fiabilidad de la corrección de sus exámenes.
PREGUNTA 3 7 : Una vez empezada la corrección, ¿se lleva a cabo la doble corrección de algunos ejer
cicios? En el caso de respuesta afirmativa, ¿qué proporción de ejercicios?
Cuando redactamos esta pregunta presum imos que los tribunales de exáme
nes intentarían mejorar la fiabilidad de las correcciones subjetivas utilizando dos
examinadores para corregir cada ejercicio y quizá cada actuación oral. Descubri
m os, sin embargo, que sólo tres tribunales utilizaban este sistema: un tribunal
dijo que llevaba a cabo una doble corrección de todas las pruebas de expresión
escrita en su único examen de inglés como lengua extranjera, otro respondió que
utilizaba la doble corrección en m uchos de sus exámenes, y otro que llevaba a
cabo la doble corrección de las actuaciones orales en el nivel más avanzado.
Otros seis tribunales parecieron interpretar «doble corrección» en la fo rm a
que nosotros utilizamos «corrección de m uestreo» anteriormente: informaron
que en algún punto durante el proceso de corrección el exam inador jefe, o el
jefe de equipo analizaba un porcentaje de los ejercicios corregidos por un exa
m inador cualquiera. Algunos tribunales no dijeron cuántos ejercicios se anali
zaban de esta m anera; otros dijeron que analizaban un 10 o un 15 por ciento
de los exámenes correspondientes a cada examinador. Un tribunal dijo que sólo
llevaba a cabo la doble corrección «a petición»: presumiblemente si un candi
dato o un centro de administración no estaba satisfecho con el resultado final y
pedía revisión de examen.
No quedó del todo daro cuándo tenía lugar d muestreo. Un centro respondió que:
Una muestra inicial de 10 a 15 ejercicios para cada parte (aproximadamente
un 10%) es supervisada por d examinador jefe y d examinador adjunto. Si
hay motivo de preocupadón, se tienen en cuenta más ejerddos. Si es
necesario, se vuelve a corregir desde cero.
Esto indica que los ejerdcios escritos son com probados por un examinador
veterano sólo al comienzo d d proceso de correcdón, cuando los examinadores
están frescos y se comportan según la norma. Sólo aquellos examinadores que
no actúan de form a satisfactoria en este estadio se vuelven a supervisar. Parece
arriesgado perm itir a los examinadores corregir durante tanto tiempo ( d resto
del periodo de corrección) sin algún tipo de evaluación de su trabajo, puesto
que hay muchas presiones que pueden rebajar su nivel de atendón y hacerles
corregir peor de lo que debieran. Sin em bargo, al m enos un tribunal continúa
analizando muestras a lo largo de todo el periodo de corrección:
Se analizan muestras de los ejerddos escritos de todos los examinadores al
prindpio, en la mitad y al final d d proceso de corrección. Al final los
examinadores se someten a corrdaciones estadísticas y empíricas. Esto puede
originar una nueva correcdón de los ejerd dos que han sido corregidos por
malos examinadores (que no se volverán a contratar) o un escalonamiento de
los examinadores demasiado exigentes o demasiado benévolos.
135
(Para una breve explicación del término «escalonam iento» véase la pregunta
41 m ás adelante.)
Es importante hacer notar en este punto que la mayoría de los tribunales que
respondieron a la pregunta sobre la doble corrección hacían referencia a sus exá
menes escritos, quizá porque nuestra pregunta mencionaba «ejercicios escritos».
Sólo cuatro mencionaron pruebas orales. Un tribunal mencionó que grababan
todas las actuaciones orales del nivel superior y que éstas eran corregidas por dos
examinadores, y por m ás en casos de desacuerdo. Una respuesta de otro centro
mencionaba que a menudo usaban interlocutores y examinadores en algunas de
sus pruebas, y que los interlocutores podían contribuir a la evaluación (aunque
en caso de diferencias de opinión entre el interlocutor y el examinador, el punto
de vista del examinador prevalecía sobre el del interlocutor). Otros dos tribuna
les que administran pruebas orales respondieron que la doble corrección «no pro
cedía», aunque am bos se refirieron al «m uestreo» o a la «supervisión» en sus
respuestas a la pregunta 41. Sabemos pues m uy poco sobre los procedimientos
que se utilizan en la mayor parte de los tribunales para garantizar que sus exam i
nadores de expresión oral mantengan sus criterios de forma consistente.
PREGUNTA 38: ¿Qué ocurre en caso de discrepancia entre el primero y el segundo corrector? Mar
que los apropiados:
1. Se llama a un tercer corrector, y se utilizan las dos puntuaciones más cercanas.
2. Se hace media entre las dos puntuaciones.
3. Se respeta la puntuación de1 segundo corrector.
4. Los dos correctores discuten y llegan a un acuerdo.
5. Otros.
Los tribunales que afirmaron utilizar la «doble corrección» en el sentido que
nosotros lo entendíamos —es decir, utilizando dos examinadores independien
tes para corregir cada ejercicio o actuación—tenían diferentes formas de llegar
a una puntuación final cuando los dos examinadores no estaban de acuerdo. La
práctica de pedir a los dos examinadores que discutieran y llegaran a un acuerdo
la llevaba a cabo un tribunal, pero dos dijeron que en algunos de sus exámenes
esta decisión se dejaba al jefe de equipo o al examinador jefe. El cuarto tribunal
dijo que el proceso no acababa aquí necesariamente. Si la decisión del exam i
nador jefe no era satisfactoria, se podía llamar a los examinadores de otros equi
pos para que diera su opinión: «y algunos candidatos han tenido el privilegio
de tener hasta nueve correcciones antes de tomar una decisión».
Los tribunales que usaban el m étodo del m uestreo dijeron que se respetaba
la opinión del segundo corrector. Este corrector era un exam inador veterano
(examinador jefe o jefe de equipo) en todos los casos.
PREGUNTA 3 9 : ¿Se calculan habitualmente las correlaciones entre correctores?

Cinco tribunales declararon que se calculaban habitualmente las correlaciones entre
correctores, y tres dijeron que calculaban las correlaciones sólo ocasionalmente.
136
Uno respondió que no calculaba las correlaciones de forma habitual, pero no

dijo si las calculaba o no. Tres tribunales respondieron que la pregunta «n o pro
cedía»: dos porque no hadan doble correcdón y uno «porque el examinador
jefe corrige todos los ejerdcios».
Resultó curioso que al m enos ocho tribunales dijeran que calculaban corre
laciones algunas veces, puesto que sólo cuatro dijeron hacer doble corrección.
No sabemos con quién hacen las correladones estos tribunales. Sería interesante
saberlo, y ver los resultados de los cálculos. Por lo que sabem os, no se hacen
públicas.
PREGUNTA 4 0 : ¿Se calculan habitualmente las medias y las desviaciones típicas de los correctores?
Ocho tribunales dijeron que calculaban las m edias y las desviaciones típicas
habitualmente; dos dijeron que sólo lo hacían en ocasiones. Otros dos dijeron
que esto no procedía con su examen o bien porque «el examinador jefe corrige
todos los ejercicios escritos» o bien porque el examen era de«evaluación oral».
De nuevo encontram os curioso el núm ero de tribunales que dicen llevar a
cabo estos cálculos porque no sabemos qué medias se comparan y no tenemos
evidencia de los resultados de estos cálculos.
PREGUNTA 4 1 : ¿Se sigue habitualmente otro proceso para calcular o comprobar la fiabilidad de los
correctores?
Varios tribunales se refirieron a su proceso de formación y muestreo, que ya
hemos comentado en el capítulo 5; otros mencionaron nuevos procedimientos.
Dos tribunales se refirieron al procedimiento llamado «escalonamiento»; un tri
bunal de exámenes «subirá» (ajustará la puntuación dada a) los ejercicios escri
tos que han sido corregidos por alguien que resulta ser demasiado estricto, y
«b ajará» los ejercicios corregidos por examinadores demasiado benevolentes.
Suponem os que los tribunales deciden sobre la dirección y el grado de escalo
namiento analizando las m edias y las desviaciones típicas de sus examinadores,
pero no está claro con quién comparan a cada examinador ni cómo se hace el
«escalonam iento».
El problema del escalonamiento es que puede haber una tendencia a creer que
la fiabilidad de la corrección se ha obtenido porque los resultados de los exa
m inadores se han ajustado para «com pensar discrepancias». Sin em bargo, el
escalonamiento puede en realidad empeorar los problemas; a no ser que los exa
minadores que han demostrado no tener fiabilidad extem a sean examinadores
con fiabilidad interna com probada —cosa harto difícil—la m odificación de los
resultados de los candidatos puede resultar menos, y no más, justa todavía. En
resumen, la corrección y la precisión del escalonamiento están puestas en duda
y los responsables de los exámenes deberían al menos comprobar que al menos
el escalonamiento consigue lo que se pretende. Es m ejor, creemos, asegurar la
fiabilidad de los examinadores de la forma descrita más arriba.
Otros procedim ientos utilizados incluían inform es sobre cada exam inador
recogidos por el examinador jefe (confidenciales para el centro), y la «repeti
137
ción de la coordinación». El tribunal que m encionó la repetición de la coordi

nación no dio detalles sobre quién la necesitaba ni cuándo debía llevarse a cabo.
Otro tribunal dijo que en el caso de los examinadores de pruebas orales había
un proceso de «observación, exam en en grupo y nueva form ación», pero no
está claro a qué se refiere el término «exam en en grupo» ni quién debe volver
a ser formado. (Suponemos que la «repetición de la coordinación» y la «nueva
form ación» son procesos que tienen lugar además de las sesiones de unifica
ción de criterios habituales que se convocan a lo largo del año.) El último pro
cedim iento m encionado se describió com o «só lo inform e en pantalla de
orden ador», pero no se dieron m ás detalles. Es una pena que el tribunal no
ampliara más la información, puesto que otros podrían beneficiarse de los nue
vos procedim ientos utilizando micro-ordenadores.

como lengua extranjera: documentación
Recibimos docum entos de cuatro tribunales que contenían información sobre
la supervisión de los examinadores. Analizaremos primero los procedimientos
utilizados para la supervisión de la corrección de la expresión escrita y luego
analizaremos los procedimientos utilizados para la supervisión de la corrección
de la expresión oral.
6.6.1. La supervisión de la corrección de la expresión escrita

Recibimos inform ación sobre la supervisión de la corrección de la expresión
escrita de tres tribunales: la LCCI, el AEB y el UCLES.
La LCCI, en su Handbook of Duties of Examiners and Moderators for Business Studies Examina
tions (Manual de deberes para los examinadores y moderadores de exámenes de estudios comerciales),
dedica una página a lo que ellos llaman «procedimientos estándar de re-escruti
nio». Estos procedimientos se describen brevemente a continuación:
1. El examinador adjunto (término usado por la LCCI para «examinador») envía
12 ejercicios escritos del paquete inicial (preferiblemente en la franja del
40-60% ) al examinador jefe.
2. El examinador jefe analiza los ejercicios escritos. «Si así lo desea, el
examinador jefe puede telefonear al examinador adjunto para dar un informe
(favorable o no favorable) sobre el re-escrutinio. En cualquier caso, los
ejercicios escritos del examinador adjunto... se le devolverán... con
instrucciones, por ejemplo:
a. El criterio de corrección es aceptable: «OK. Continúe».
b. El criterio de corrección requiere pequeños ajustes.
c. El criterio de corrección requiere ajustes considerables. En este caso, el
examinador jefe puede pedir al examinador adjunto que haga los ajustes
apropiados, pero que se abstenga de devolver ejercicios corregidos al
tribunal hasta que se haya comprobado una muestra de los escritos vueltos
a corregir.
138
3. Muestreo complementario
El examinador jefe puede pedir más muestras de los ejercicios corregidos por el
examinador adjunto «para comprobar que están de acuerdo con el criterio
establecido». Al final del periodo de corrección, el examinador jefe debería
escribir un informe sobre el comportamiento de los examinadores adjuntos cuyo
trabajo ha sido comprobado, por ejemplo:
a. Corrección satisfactoria. Reutilizar para pruebas futuras.
b. Corrección inicial ligeramente irregular, pero se hicieron los ajustes
adecuados, por lo que el examinador adjunto puede volverse a utilizar para
pruebas futuras.
c. Este examinador adjunto no pudo adaptar su corrección a los criterios
requeridos. No se volverá a utilizar.
Hay varias características positivas en esta descripción, como son que el exa
minador jefe compruebe las correcciones una vez modificadas por el examinador
y que el tribunal guarde la información sobre qué examinadores deberían volver
a corregir en el futuro. Sin embargo, hay varios puntos que hay que aclarar:
1. ¿Por qué es el examinador quien selecciona los ejercicios escritos que van
a ser com probados, y no m anda el paquete entero al exam inador jefe
dejándole así escoger qué ejercicios corregirá? Com o dijim os anterior
mente, pedir al examinador que escoja los ejercicios puede provocar que
la muestra enviada esté corregida más cuidadosamente que el resto.
2. ¿Por qué no se continúa solicitando m uestras a todos los correctores
durante todo el periodo de corrección? Si los examinadores no se «m an
tienen en alerta», la complacencia puede hacer acto de presencia.
3. ¿Cómo decide el examinador jefe que el examinador no está corrigiendo
suficientemente bien? No se mencionan los procedimientos que utiliza el
tribunal o los resultados que considerarán com o evidencia de fiabilidad
o no fiabilidad.
4. ¿Qué ocurre con los ejercicios corregidos por un examinador que no pudo
«ajustarse al criterio requerido»? Algunos tribunales afirman que vuelven
a corregir todos los ejercicios de un examinador que ha demostrado ser
poco fiable; suponem os que esto ocurre en esos tribunales pero no lo
sabem os a ciencia cierta.
El folleto del AEB How to set and mark GCE examinations (Cómo administrar y corregir los
exámenes de GCE) presenta un procedimiento que es muy similar al de la LCCI, pero
sugiere que todos los ejercicios escritos de los exam inadores se someten a un
muestreo durante el periodo de corrección y afirma de forma explícita que se
volverán a corregir todos los ejercicios escritos si ello es necesario (página 12).
El AEB también da detalles sobre lo que ocurre al final del periodo de correc
ción com o una comprobación complementaria de la fiabilidad de la corrección.
Aunque este procedimiento no es pertinente en exámenes de inglés como len
gua extranjera (el AEB ya no produce este tipo de exam en), suponem os que se
139
utiliza para exámenes de lengua extranjera. Es útil reproducir esta descripción

por completo pues contiene varias buenas ideas que podrían ser adoptadas por
instituciones que tienen un gran núm ero de candidatos:
En asignaturas en las que se requiere un número mayor de quince
examinadores para corregir una prueba, éstos se dividen en equipos. Un equipo
está supervisado por el examinador jefe, mientras que el resto son supervisados
por examinadores adjuntos veteranos. Todas las dudas que surgen después de la
sesión de unificación de criterios se dirimen directamente con el examinador
jefe o a través del examinador adjunto veterano.
Tan pronto como es posible, después de la sesión de unificación de criterios,
cada examinador adjunto envía al jefe de equipo (examinador jefe o
examinador adjunto veterano) una muestra de ejercicios escritos corregidos. El
jefe de equipo comprueba que cada examinador esté corrigiendo
correctamente, volviendo a corregir estos ejercicios escritos. Si es necesario, se
pide al examinador que haga los cambios, pequeños o no, para corregir
correctamente. Si no está totalmente satisfecho, el jefe de equipo solicita
ejercicios complementarios después de haber señalado las inexactitudes y una
vez que los examinadores hayan modificado sus correcciones. (El muestreo
complementario de ejercicios corregidos, algunos seleccionados al azar,
garantiza que la corrección prosiga de forma satisfactoria y que todos los
examinadores estén corrigiendo de acuerdo con el criterio correcto. Si todavía
hubiera dificultades con algún examinador—hay algunos buenos profesores
con buenos conocimientos de su asignatura a los que les resulta muy difícil
este tipo de trabajo—, deben tomarse medidas para que todos los escritos de
este examinador se vuelvan a corregir. En algunos casos las dificultades se
limitan a la corrección de sólo una pregunta de la prueba y sólo debe volverse
a corregir esta pregunta.)
Cuando se ha completado la corrección, los examinadores jefes y sus adjuntos
veteranos se encuentran en el tribunal para revisar el trabajo de todos los
examinadores adjuntos. Vuelven a corregir más ejercicios corregidos por todos
los miembros de sus equipos y estos ejercicios de «revisión de oficio» se
seleccionan de tal forma que supongan una variedad de resultados por parte
de cada examinador, una variedad en la procedencia de los examinadores y
una variedad del periodo durante el cual se corrigieron los escritos. La muestra
de ejercicios ya corregidos puede haber señalado algunos problemas; la
información estadística de la que dispone el responsable del examen también
puede señalar posibles problemas pero el trabajo de cada examinador recibe el
mismo escrutinio exhaustivo. Se vuelven a corregir tantos ejercicios escritos
como sea necesario hasta que se pueda tomar con seguridad una decisión
sobre la calidad de su trabajo. En la mayoría de los casos, la corrección resulta
ser correcta y los resultados se aceptan. En algunos pocos casos, la evidencia de
la segunda corrección indica que un pequeño ajuste numérico corregiría la
puntuación, y se hace este pequeño ajuste. Cuando no puede tomarse ninguna
de estas decisiones, se vuelven a corregir todos los ejercicios. De esta manera,
al final de la reunión de revisión de oficio, el tribunal ha confirmado la
corrección de la mayoría de sus examinadores y ha dado los pasos apropiados
sobre el resto para garantizar que las puntuaciones otorgadas no dependen de
140
quién corrigió el trabajo o de cuándo fue corregido. La corrección de las

partes objetivas de la prueba no presentan ninguno de estos problemas. Las
hojas de respuestas que contienen las respuestas codificadas se escanean por
medio de una máquina especial y sólo es necesario asegurarse de que la
máquina haya sido programada con los códigos de respuesta correctos. Hay un
procedimiento especial para garantizar que los candidatos que no siguen las
instrucciones de utilización de las hojas de corrección reciben puntos por sus
respuestas correctas.
(How to set and mark GCE examinations, AEB, página 12)
Los aspectos en esta descripción que vale la pena señalar son que el muestreo
es continuo para cada profesor incluso una vez finalizada la corrección y que se
utiliza información estadística que sirva de ayuda en el proceso de toma de deci
siones. Por desgracia, no sabemos qué tipo de información se utiliza. UCLES tam
bién describe su proceso de supervisión para el FCE y el CPE en el General Handbook
(Manual General). Es importante señalar que en el proceso seguido por UCLES no
parece haber una división clara entre formación y supervisión: el examinador
recibe una muestra de ejercicios escritos para su formación al mismo tiempo que
recibe el primer paquete de «ejercicios de verdad», y debe devolverlos al mismo
tiempo. Aunque este sistema es sin duda rápido si el examinador corrige bien la
muestra de ejercicios, debe de ser difícil decidir qué hacer si estos ejercicios dan
problemas. No se dan detalles sobre lo que ocurre en estos casos.
Hay que señalar que ninguno de los tres informes menciona los procedimientos
estadísticos utilizados para tomar decisiones sobre la fiabilidad de la corrección.
6.6.2. La supervisión de la corrección de la expresión oral

Oxford-ARELS publica una breve descripción de cómo supervisa la corrección de
la expresión oral en un folleto titulado Oxford-ARELS Examinations in English as a Forágn
Language: Rationale, Regulations and Syllabuses. (Los exámenes de Oxford-ARELS en inglés como len
gua extranjera: fundamentos, normativa y programas). La descripción es la que sigue:
Las grabaciones de los candidatos son corregidas todas en el Reino Unido por
parte de examinadores cualificados. Para los dos niveles superiores es
obligatoria la corrección independiente por parte de dos examinadores; si
discrepan en más de una pequeña diferencia el examinador veterano debe dar
un tercer y definitivo juicio. En el nivel preliminar, todas las grabaciones que
en una primera corrección están cerca del limite que separa dos notas (por
ejemplo entre aprobado y suspenso) vuelven a corregirse por dos
examinadores; si existe una discrepancia significativa, se pide una tercera
corrección. En cada examen al menos un 10% de la totalidad de las
actuaciones es revisada por los examinadores veteranos (página 7).
Resulta alentador saber que este tribunal lleva a cabo tanta doble corrección
y que también se pide una tercera opinión en caso de discrepancias. Es curioso,
sin embargo, que el examen de nivel inferior es corregido por sólo un exam i
nador, excepto en el caso en que la nota del prim er exam inador esté cerca del
límite entre dos puntuaciones.
141
E n c o n tr a m o s s ó lo o tr a re fe re n c ia a p r o c e d im ie n to s d e s u p e r v is ió n e n lo s d o c u
m e n t o s q u e r e c i b i m o s d e l o s c e n t r o s . L C C I e n s u f o lle t o Languages for Industry and Com
merce: Oral Examinations. Syllabus Booklet, Regulations and Teacher's Guide, 1 9 9 0 - 1 9 9 2 (Lenguas
para Ja Industria y el Comercio: exámenes orales. Folleto de descripción, normativa y libro del profesor,
1 9 9 0 —1 9 9 2 ) , d i c e l o s i g u i e n t e a c e r c a d e la s p r u e b a s d e e x p r e s i ó n o r a l:
Los coordinadores actúan como examinadores jefes para el grupo y son los
responsables de la supervisión de todos los examinadores de su grupo y les
observarán durante la administración de los exámenes para mantener la
formación y los criterios (página 41).
Desgraciadamente, esta descripción es demasiado general para que pueda ser

utilizada por instituciones que deseen diseñar nuevos sistemas de evaluación o
reformar los antiguos.
6.7. Debate
Es clara la importancia que tiene la supervisión de la corrección de una prueba
para que pueda hablarse de la fiabilidad del resultado. La form a m ás corriente
de hacer esto por parte de los tribunales de exámenes es sacando muestras de
las puntuaciones de los examinadores y pidiendo ajustes si la corrección no es
satisfactoria. En los exámenes con gran núm ero de candidatos, el m uestreo lo
llevan a cabo los jefes de equipo, cuyas decisiones no se cuestionan; en algunos
exámenes, sin em bargo, las correcciones de los jefes de equipo las supervisa a
través de un m uestreo el examinador jefe, cuya decisión es definitiva.
Sólo unos cuantos tribunales de exámenes ofrecieron detalles de sus proce
dim ientos de m uestreo. Las descripciones que dieron fueron útiles, pero hay
algunas cuestiones que deben clarificarse:
1. ¿Por qué hay tantos tribunales que utilizan el m uestreo en lugar de la

doble corrección?
2. ¿Por qué algunos tribunales sólo efectúan un muestreo al comienzo de la
corrección y no durante todo el periodo?
3. ¿Por qué algunos tribunales piden al exam inador que escoja los escritos
que constituirán la muestra en lugar de llevar a cabo un muestreo al azar?
4. ¿Piden todos los tribunales a los examinadores que han mostrado «d ife
rencias en la corrección» que vuelvan a mandar sus ejercicios escritos des
pués de haberlos corregido de nuevo para volverlos a analizar?
La clarificación de todos estos puntos resultaría m uy valiosa para institucio

nes que estén diseñando nuevos exámenes y deseen adoptar m étodos de super
visión prácticos sin tener que sacrificar demasiada fiabilidad.
Aunque detectamos que algunos tribunales practican habitualmente la doble
corrección, creemos que debería prestarse atención a los siguientes puntos:
La doble corrección es posible tanto con un gran número de candidatos como
con un número reducido de los m ism os y debería estar más extendida.
142
Sum ario
Es igualmente importante hacer doble corrección tanto cuando los examina

dores trabajan en su domicilio como cuando corrigen de forma centralizada.
La corrección debería llevarse a cabo de form a que el primer examinador no
influya en la opinión del segundo examinador.
Creemos tam bién que necesitam os saber m ás acerca de los procedim ientos
utilizados por los tribunales para la supervisión de la corrección de la expresión
oral. Som os conscientes que los examinadores jefes y los jefes de equipo obser
van a menudo a los examinadores mientras éstos están corrigiendo, pero duda
m os que este m étodo perm ita la supervisión de m ás de unos pocos
exam inadores cada año. Una posibilidad que hem os sugerido es organizar un
sistem a de supervisión m ediante grabaciones en cinta, para que los jefes de
equipo o los examinadores jefes puedan no sólo oír la actuación del candidato
sino también controlar cómo el examinador administra la prueba, y puedan de
esta form a com probar que la puntuación otorgada ha sido la razonable. Cree
m os que todos los tribunales que administran pruebas orales deberían hacer esto
de forma habitual.
6.8 Sumario
Presentamos a continuación una serie de cuestiones que deberían plantearse las
instituciones cuando organizan la supervisión de la fiabilidad de sus examina
dores:
¿Se han dividido los exam inadores por equipos y está claro quién es el jefe
de cada equipo?
¿Se ha entregado a los examinadores la última versión de la plantilla de correc
ción o de las escalas de valoración que incorporan clarificaciones y otras mejo
ras acordadas durante la formación?
¿Se ha recordado a los examinadores que no deben escribir en los ejercicios
escritos de los candidatos?
¿Se ha acordado un sistema de supervisión de correctores? ¿Se hará un mues-
treo, se utilizarán ejercicios escritos de fiabilidad o se llevará a cabo la doble
corrección?
Si la supervisión se va a hacer mediante muestreo, ¿se ha informado a todos
sobre los detalles del sistema?
¿Qué porcentaje de los ejercicios corregidos por cada examinador analizará
el jefe de equipo?
¿Qué opinión prevalecerá si la evaluación de un ejercicio por parte del jefe
de equipo difiere de la del examinador?
¿Se llevará a cabo el m uestreo al comienzo del proceso de corrección o con
tinuará a lo largo de todo el proceso?
¿Volverá a analizar el jefe de equipo los ejercicios que haya tenido que vol
ver a corregir un examinador?
Si la supervisión se va a efectuar mediante «ejercicios escritos de fiabilidad»,
¿se ha inform ado a todos sobre los detalles del sistema?
143
¿Se han dado a los ejercicios escritos que se utilizarán para estudiar la fiabili
dad una «pu n tuación de con sen so» por parte del exam inador jefe y de la
com isión de unificación de criterios?
¿Se han hecho las suficientes fotocopias de los ejercicios escritos para que
todos los equipos puedan realizar el procedim iento de fiabilidad al m ism o
tiempo?
¿Se ha tom ado una decisión sobre qué nivel de correlación indica una fiabi
lidad aceptable entre correctores?
¿Saben los jefes de equipo cóm o calcular las correlaciones para poder infor
m ar a sus examinadores tan pronto como termine el estudio de la fiabilidad?
Si la supervisión se va a realizar mediante la doble corrección, ¿se ha infor
mado a todos sobre los detalles del sistema?
¿Se ha tom ado una decisión sobre la amplitud de las discrepancias que debe
existir entre dos examinadores antes de discutir sus puntuaciones respectivas?
¿Se ha tom ado una decisión sobre lo que debe hacerse si ninguno de los dos
examinadores está dispuesto a cambiar sus puntuaciones?
¿Se ha creado un sistema para supervisar los exámenes orales? ¿Se grabará cada
actuación, o al m enos una muestra de las actuaciones?
Si hacia el final del proceso se descubre que un examinador no ha sido cohe
rente en sus correcciones, o ha sido demasiado generoso o estricto, ¿existe un
sistema para corregir las puntuaciones erróneas? ¿Si se utiliza el «escalona-
m iento», existe un sistema para decidir cuándo y cómo ponerlo en práctica?
¿Se guardarán informes completos para que los examinadores que no hayan
corregido bien no vuelvan a puntuar en el futuro?
¿Se pubhcará de alguna manera la inform ación obtenida durante el proceso
de supervisión? Si no, ¿cóm o sabrán los usuarios del examen que la correc
ción ha sido fiable?
Bibliografia
Crocker, L. y J. A lgina (1 9 8 6 ). Introduction to Classical and Modem Test Theory. H olt R inehart
W in ston , C hicago.
G uilford, J. P. y B. F ru ch ter (1 9 7 8 ). Fundamental Statistics in Psychology and Education.
M cG raw -H ill, Tokio.
144
7 Informe de resultados y determinación
de la puntuación de aprobado
En este capítulo se tratan las cuestiones que se han de considerar una vez se ha
corregido el exam en. Se deberán tom ar decisiones sobre si sim plem ente se
suman los diferentes resultados para llegar a una puntuación total para la prueba,
o si se da a unos ítem s m ás im portancia que a otros. Los responsables de la
prueba deben decidir de qué manera informarán de los resultados, y a menudo
también deben decidir qué candidatos se han comportado de forma adecuada,
desde el punto de vista lingüístico, y por lo tanto han superado la prueba, y cuá
les han suspendido.
7.1. Resultados
Una vez se han corregido las pruebas, será posible calcular algún tipo de resul
tado para cada candidato. Si la prueba tiene secciones de corrección objetiva
(por ejem plo, ejercicios de respuesta de opción múltiple o de reconocimiento
del error), se habrá adjudicado un punto si la respuesta ha sido correcta y un 0
si la respuesta ha sido incorrecta. Estas puntuaciones pueden sumarse para lle
gar a un total para cada sección de la prueba o a un total global para toda la
prueba, o pueden hacerse ambas cosas. Si la prueba se corrige de forma subje
tiva, se pueden dar puntuaciones globales o analíticas (véase capítulos 5 y 6) a
las actuaciones lingüísticas de toda la prueba o de algunas tareas en particular.
En este último caso, las puntuaciones pueden sumarse para llegar a la puntua
ción global del examen.
A veces, los resultados de las pruebas objetivas se m odifican para paliar los
efectos de un acierto por azar. En tales casos, el resultado obtenido por el estu
diante se ajusta deduciendo un porcentaje calculado a partir de las posibilida
des de acertar el ítem por azar. En una prueba de verdadero/falso, en la que las
posibilidades de acertar la respuesta correcta es del 50%, se puede esperar que
los estudiantes respondan correctamente a una pregunta por cada pregunta que
respondan incorrectamente, por lo que la modificación consistirá en la deduc
ción del núm ero de respuestas erróneas del núm ero de respuestas correctas. La
fórmula general es:
Respuestas erróneas
Resultado m odificado = Respuestas correctas — --------------------------------
Número de alternativas —1
145
Inform e de resultados y determ inación de la puntuación de aprobado
Sin em bargo, la utilización de tales correcciones es controvertida y sólo se

recomienda cuando se sabe que existe la posibilidad de acertar a ciegas y si hay
un gran número de ítems omitidos por algunos o todos los estudiantes. En cual
quier otro caso, la corrección tiene efectos m ínim os y no se recomienda (Ebel
y Frisbie, 1991: 2 1 3 ).
7.2. Ponderación
7 .2 .7 . Ponderación de los ítems
Los redactores de pruebas creen a m enudo que algunos ítems son m ás im por
tantes que otros y que tales ítem s deberían por lo tanto tener m ás peso en el
total de la prueba. Dar valor extra a algunos ítems se conoce com o «pondera
ción» (weighting). Sin em bargo, la ponderación diferenciada de ítems raramente
m ejora la fiabilidad o la validez.
Se da m ás peso a algunos ítems porque se cree que el completarlos requiere
m ayor com petencia o m ás conocim ientos, o porque requiere m ás tiem po, o
porque se cree que son m ás im portantes en el currículo o en el concepto de
dominio. Ebel, sin embargo, condena de forma taxativa la ponderación de ítems:
Si una prueba de aprovechamiento cubre dos áreas, una de las cuales se
considera el doble de importante que la otra, deberían redactarse el doble de
ítems sobre esta área más importante. Esto redundará en medidas más fiables y
válidas que si se presenta el mismo número de ítems para las dos áreas y los
que pertenecen a la parte más importante valen el doble.
Los ítems complejos o que necesitan de más tiempo para ser contestados
deberían, si es posible, producir más de una respuesta que pueda puntuarse de
forma independiente como correcta o incorrecta.
(Ebel, 1979: 199.)
La form a m ás sim ple de ponderación es la ponderación por igual: dar la m ism a

nota a cada ítem. Es importante señalar, sin em bargo, que si las diferentes sec
ciones de una prueba son de distinta longitud, y que si cada ítem recibe la
m ism a puntuación, entonces las distintas partes tendrán un peso distinto a no
ser que los resultados se m odifiquen de alguna manera.
7.2.2. La ponderación de las secciones de una prueba

Los elaboradores de una prueba pueden también considerar que las distintas par
tes de una prueba (no ítems) deberían tener un valor distinto. Pueden creer que
algunos aspectos de la competencia son más importantes que otros en un con
texto dado, esto es, según el objetivo de la prueba. Si la prueba selecciona solici
tudes para estudios académ icos, entonces la corrección de la expresión escrita
puede ser más importante que una pronunciación correcta. Si la prueba selecciona
controladores de tráfico aéreo internacional, la capacidad de identificar números
e instrucciones en el discurso oral puede ser mucho más importante que la capa
cidad de escribir redacciones coherentes y gramaticalmente correctas.
146
Transform ación
Otra razón para la ponderación puede ser pedagógica: para enfatizar ante los
alumnos la importancia de algunas partes del currículo. Por ejemplo, puede ser
difícil producir ítems o tareas con un componente oral, pero los profesores pue
den considerar las destrezas orales como cruciales y por lo tanto dar m ás peso
a este componente aunque no esté en proporción al número de ítems.
Otra razón para el distinto peso de distintos componentes puede ser el de ase
gurarse de que los candidatos utilicen su tiempo de forma adecuada cuando res
ponden a la prueba.
La relación entre las distintas secciones de una prueba según las correlaciones
existentes entre las mismas puede ser una consideración a tener en cuenta a la hora
de ponderarlas. Si distintas secciones de la prueba tienen una correlación alta entre
ellas, entonces el hecho de ponderarlas o no deja de ser un problema: la ponde
ración natural «n o ponderada» dará unos resultados tan válidos com o los que
resultarían de procedimientos estadísticos más complejos (Ebel, 1979: 252).
Si los componentes de una prueba no van a tener el mismo peso, normalmente
la prueba más fiable debería tener más peso. Si los componentes tienen la misma
fiabilidad, entonces se pueden usar de forma legítima juicios sobre la importan
cia relativa: debería insistirse, sin embargo, en que estos son subjetivos.
Una correlación baja de una sección de una prueba con respecto a otras sec
ciones significa a m enudo que está midiendo algo distinto que las demás. Puede
darse más peso a esta parte para aumentar su contribución a la puntuación total.
Si las partes de distinta longitud tienen la misma ponderación, deberían pon
derarse los resultados técnicamente para que sus desviaciones típicas fueran igua
les (para una explicación y discusión detalladas, véase Ebel, 1979: 252—5). En
general, sin embargo, el m ejor consejo es no ponderar las secciones de acuerdo
con un ajuste de puntuaciones según una fórm ula, sino ponderarlas en el
m om ento de la elaboración de la prueba, incluyendo más o menos ítems en las
distintas partes.
7.3. Transformación
Si, a pesar de las diferencias de longitud, cada parte de la prueba se considera
igualmente importante, entonces será necesario transformar las puntuaciones
antes de sumarlas o compararlas. La forma más común de transformación es la
de convertir las puntuaciones de cada parte en porcentajes: dividiendo la pun
tuación por el núm ero de ítems y multiplicando por 100.
Hay form as m ás com plejas de transform ación de resultados (puntuaciones
según criterios, puntuaciones z y otras): se tratan en la mayoría de los libros de
texto sobre la evaluación en la educación y no se describirán aquí. Baste decir
que el efecto final de tales transformaciones es el de hacer comparables las pun
tuaciones de distintas secciones y, a m enudo, si se suman, conseguir que estén
ponderadas equitativamente.
Las decisiones sobre la transformación pueden suponer la comparación de la
actuación de un candidato dado en una sección de la prueba con su actuación
147
Informe de resultados y determinación de la puntuación de aprobado
en otra sección. Puede decidirse ajustar las puntuaciones de una parte a la luz
de las puntuaciones de otra. Por ejemplo, la puntuación de un candidato en la
prueba de expresión oral, corregida de form a subjetiva, puede ajustarse para
acercarla a la puntuación de esta m ism a persona en una prueba de comprensión
oral corregida de form a objetiva: esto podría justificarse si una prueba se con
sidera o se sabe que es m ás válida o fiable que otra. La justificación para trans
formar puntuaciones es a m enudo subjetiva y está influida por consideraciones
pedagógicas, psicométricas y de lingüística aplicada.
Puede ser importante saber si las partes de una prueba se han transformado
y cóm o ha ocurrido, puesto que afecta directamente a la puntuación final y por
lo tanto lo que ésta significa. Si, por ejemplo, la puntuación de una prueba de
expresión escrita con un valor m áxim o de 20 puntos se sum a a la puntuación
de una prueba de comprensión lectora con un valor m áxim o de 50 puntos para
llegar a una puntuación final m áxim a de 70, esta puntuación final contará cla
ramente con m ás puntos de lectura que de expresión escrita: en otras palabras,
la capacidad lectora de una persona tendrá más peso en la nota final que la capa
cidad de redactar, si las dos pruebas tienen una dificultad, fiabilidad y variabi
lidad equivalentes.
7.4. Suma final

En el caso en que el resultado sea una letra o un número, esta puntuación estará
form ada por distintos com ponentes: la sum a de las puntuaciones de las dife
rentes partes del examen. Esta sum a se hace a m enudo de form a complicada.
Para ilustrarlo, tom arem os el caso del UCLES First Certifícate in English, no porque
el examen sea ejemplar, sino porque resulta conocido para m uchos lectores.
El exam en del FCE consiste en 5 «p a rte s» o pruebas. Cada parte tiene un
número variable de puntos posibles:
La parte 1 (com prensión de lectura) tiene un valor de 55 puntos (a partir de
25 ítems de un punto cada uno y de 15 ítems de 2 puntos cada uno). La pun
tuación del candidato en esta sección se transforma m ás adelante en una pun
tuación sobre un m áxim o de 40 puntos.
La parte 2 (expresión escrita) tiene cinco preguntas que se corrigen de forma
subjetiva y que se puntúan de 0 a 20. Las puntuaciones del candidato se con
vierten en una puntuación sobre un m áxim o de 40 puntos.
La parte 3 (uso de la lengua) se corrige sobre una puntuación total que se
decide durante la reunión de los examinadores (UCLES General Handbook, 1987: 48)
a m enudo entre los 70—80 puntos. La puntuación final del candidato se trans
forma en una puntuación sobre un m áxim o de 40 puntos.
La parte 4 (com prensión oral) tiene una nota total de 20. «Este total final de
20 puede suponer el ajuste de las puntuaciones iniciales en un número de ítems
individuales; esto se hace para dar la ponderación deseada a algunas respuestas
por cuestiones de discriminación y para paliar, por ejemplo, el factor del acierto
por azar de los ítems de verdadero/falso» (UCLES General Handbook, 1987: 57).
148
Las distintas puntuaciones
La parte 5 (expresión oral) tiene un m áxim o de 30 puntos y la puntuación

del candidato se transform a en una puntuación sobre un m áxim o de 40 pun
tos. Sin em bargo, esta puntuación sobre 40 se ajusta « s i no concuerda con la
actuación del candidato en las otras partes» (UCLES General Handbook, 1 9 8 7 : 4).
El resultado de este proceso son cinco puntuaciones que se sum an basta un
posible m áxim o de 180. En otras palabras, los candidatos tienen resultados para
cada sección (comprensión de lectura, expresión escrita, uso de la lengua, com
prensión auditiva y expresión oral) que tienen aproximadamente el mismo peso.
Debe decirse que este proceso es complejo y que en principio resulta a menudo
m ejor evitar el uso de tales complejidades ajustando el equilibrio de los ítems
en la prueba y asegurando la fiabilidad de los correctores con una form ación
adecuada.
7.5. Las distintas puntuaciones

A la hora de comprender los resultados de un examen, la puntuación final tiene la
mayor importancia: la puntuación que se da a los candidatos o a las empresas o
a las escuelas. En principio, una vez ponderadas y transformadas las puntuacio
nes parciales, es posible informar sobre cada puntuación parcial por separado o
combinarlas de algún m odo con el objetivo de tomar decisiones o de informar.
El enfoque m ás simple es el de combinar las puntuaciones sumándolas y deci
dir una puntuación de corte para «aprobar» respecto al examen com o un todo.
Esto, en realidad, es un procedimiento m uy com ún en los exámenes escolares
y a m enudo se utiliza también en exámenes de ámbito nacional. En este enfo
que, la actuación de un candidato en una sección puede compensar una actua
ción pobre en otra sección. Sin embargo, esta compensación no será explícita y
se verá obviam ente afectada por el distinto peso de cada sección del examen.
Una forma de afinar este enfoque de aprobado/suspenso es tener distintas pun
tuaciones de corte: una puntuación es el límite entre el aprobado y el suspenso,
una segunda puntuación, y m ás alta, es el límite entre el aprobado y el notable,
una tercera puntuación es el límite entre el notable y el sobresaliente. Esta es,
por ejemplo, la costumbre en los exámenes de nivel O del GCE en muchos paí
ses. En el caso de los exámenes de FCE y de CPE de UCLES, los candidatos aprue
ban con una puntuación A, B o C, y suspenden con una D o una E. Una forma
de afinar m ás todavía es tener notas de corte para cada sección de la prueba y
no permitir a los candidatos que aprueben el examen si no consiguen una pun
tuación m ínim a en cada parte (véase apartado 7.7, m ás adelante).
En m uchos exámenes del Reino Unido, la puntuación final es una letra o un
núm ero. Sin em bargo, no es necesario dar una puntuación global: es posible
dar las puntuaciones de las partes m ás importantes de la prueba por separado.
Por ejemplo, un tribunal de exámenes puede dar una puntuación de perfil, de
la A a la D, para las cinco partes distintas: expresión escrita, corrección, com
prensión de lectura, comprensión auditiva y expresión oral (el examen de JMB'S
UETESOL). Algunos exámenes hacen las dos cosas: el IELTS, por ejemplo, da las
149
puntuaciones de O a 9 para las cuatro partes de expresión oral, com prensión

auditiva, comprensión de lectura y expresión escrita, pero también da una pun
tuación global, que es la sum a y la m edia de las cuatro puntuaciones parciales.
7.6. ¿Combinar o no combinar?

A m enudo se discute que el enfoque sim ple de dar una letra com o resultado
final, aunque fácil, puede ser injusto para algunos candidatos, puesto que no se
reconocen sus distintas capacidades en las partes que com ponen el examen. La
alternativa mencionada con anterioridad trata cada componente de forma sepa
rada y da puntuaciones según un perfil, de acuerdo con el cual un candidato
podría «a p ro b a r» dos partes y «su sp en d er» tres: no se calcula ni se inform a
sobre un «aprobado» o «suspen so» global. El problema que presenta este enfo
que es que ignora las necesidades del mundo real: las personas que toman deci
siones necesitan a m enudo sólo una inform ación, no un núm ero de
informaciones que requerirá una consideración m ás compleja. A la hora de deci
dir sobre un puesto de trabajo o sobre la adm isión a estudios superiores, los
jefes de personal y los tutores necesitan saber si un candidato es o no adecuado
en térm inos am plios y pueden no llegar a com prender que tal decisión sea a
m enudo un asunto complejo.
Un enfoque ligeramente distinto consiste en informar de los resultados, pero
no estipular una puntuación de corte para «aprobar». En tales casos la respon
sabilidad de decidir si una puntuación es adecuada o inadecuada pesa sobre el
usuario de la puntuación. Este es el enfoque que toma el ETS, que no decide una
puntuación de «aprob ad o» para los resultados del TOEFL, aunque instituciones
particulares fijan sus propias puntuaciones de corte para las adm isiones. El
mismo enfoque es el adoptado para el examen de IELTS, aunque se facilitan des
criptores para cada puntuación, que guíen a los usuarios de las puntuaciones
sobre la interpretación del significado de las mismas.
Resulta interesante examinar la práctica actual de la utilización de las puntua
ciones de perfil del IELTS. La intención a la hora de dar las cuatro puntuaciones
de perfil sin indicación alguna de aprobado o suspenso es la de permitir a las dis
tintas instituciones decidir cual es el perfil apropiado para el candidato. Por ejem
plo, puede resultar que los estudiantes de Ingeniería Eléctrica no necesiten una
puntuación alta en expresión oral, pero necesiten una buena puntuación en com
prensión de lectura, mientras que los estudiantes de Derecho necesiten ser bue
nos en expresión oral y en com prensión de lectura. Así pues la decisión de
admitir o no admitir variará de acuerdo con la disciplina de la institución y el
candidato. Sin embargo, en la práctica, la mayoría de los tutores responsables de
admisiones probablemente ignoran las puntuaciones de perfil y sólo tienen en
cuenta la puntuación final; la media de las cuatro puntuaciones. Incluso aquí, es
posible discutir qué un futuro estudiante de Lingüística necesite una puntuación
global m ás alta que un estudiante de Agricultura, por ejemplo, puesto que las
demandas lingüísticas de una disciplina pueden ser más altas, en general, que las
IS O
La determ inación de las puntuaciones para aprobar
de la otra. De todas formas, m uchos tutores simplemente consideran que una

puntuación de 6'5 es «adecuada» y cualquier puntuación por debajo es «inade
cuada», sin tener en cuenta la disciplina solicitada. En otras palabras, los que
toman las decisiones ignoran —algunos dirían que infrautilizan—el valor de las
puntuaciones de perfil en las decisiones sobre selección.
7.7. La utilización de las puntuaciones parciales

para tomar decisiones
Supongam os, pues, que es importante, tanto por razones teóricas como prácti
cas, tomar una decisión global sobre un candidato a partir de las puntuaciones
parciales. Podría decidirse que un candidato debe «aprobar» todas las pruebas
para aprobar el examen en su totalidad. O también, podría permitirse suspen
der una prueba de las cinco; por ejemplo, un candidato podría todavía aprobar
el exam en a pesar de no haber sacado un buen resultado en una prueba. O
podría decidirse también que si un candidato suspende una prueba, deberá obte
ner una puntuación alta en otra de las de pruebas para compensar (esto se llama
«co m p en sació n »). O podría estipularse que un candidato sólo puede aprobar
el examen si ha llegado a una nota m ínim a estipulada en una parte en particu
lar (esto se llama «b arrera»).
Está claro que la noción de «aprobar» un examen como un todo presenta pro
blemas conceptuales en potencia y puede provocar gran número de arbitrarie
dades. Los candidatos pueden llegar a la m isma puntuación global de diferentes
formas y obtener un aprobado, aunque tengan perfiles distintos. Esta es una de
las principales razones por las que muchos consideran que es mucho mejor dar
puntuaciones de perfil que dar puntuaciones globales, sea una nota de apro
b ad o / suspenso o sea una nota a interpretar por los futuros usuarios de los resul
tados de la prueba.
Otro problem a que se ha detectado en la noción de etiquetar la actuación en
una prueba com o «ap rob ad o» o «suspen so» es que una actuación, o una pun
tuación, puede tener distintos valores según el objetivo para el que se utiliza: lo
que se considera adecuado para un objetivo o para una población de candida
tos puede ser inadecuado o m uy adecuado para otro objetivo u otra población.
Esta es la razón por la que muchos resultados de examen se dan con referencia
a una escala y no como una decisión de aprobado o suspenso, por ejemplo como
aprobado, notable o sobresaliente, tal com o mencionam os antes. Puede resul
tar incluso, com o ocurre en los exámenes de niveles A en el Reino Unido, que
se facilite m ás de una puntuación de suspenso.
7.8. La determinación de las puntuaciones para aprobar

A pesar de las consideraciones de los apartados anteriores, en muchos casos y
por distintos m otivos, los evaluadores se ven forzados a determinar si la actua
ción lingüística de un candidato es adecuada (un aprobado) o inadecuada (un
1S1
suspenso). En el Reino U nido, por ejemplo, es práctica com ún en los tribuna

les de exámenes el fijar puntuaciones de corte. Como hemos visto, esta decisión
puede tomarse para cada prueba o para todo el examen. En las pruebas corre
gidas de form a subjetiva, especialmente en pruebas referidas a un criterio, esta
decisión puede tomarse para cada tarea y el examinador decide si el candidato
ha completado la tarea de forma adecuada o no. Sin embargo, en muchas prue
bas, la puntuación final será una com binación de ítem s corregidos de form a
objetiva y de form a subjetiva. ¿Cóm o pueden determinarse los lím ites entre
aprobado y suspenso para un examen en su totalidad?
Vale la pena señalar en este punto que en muchos contextos la determinación
de una nota para aprobar no se considera un problema y se juzga apropiado un
porcentaje fijo. Puede ser el 50% o el 75% u otro número m ágico. Esto es sim
plemente una cuestión de tradición histórica y no hay razón para que una cifra
en particular sea la frontera entre aprobado y suspenso.
Un aspecto del problem a de cómo determinar las puntuaciones para aprobar
es la diferencia entre las pruebas referidas a una norm a y las pruebas referidas
a un criterio, m uy discutida en la bibliografía sobre evaluación (véase, por ejem
plo, Ingram, 1977). Ya hem os tratado este tema en el capítulo 4, pero resulta
aquí m uy apropiado un breve recordatorio sobre la distinción.
En las pruebas referidas a una norm a, lo que ocurre en esencia es que cada
candidato se com para con otros candidatos, tanto con los que han hecho la
prueba antes para establecer las norm as de la prueba, como los que han reali
zado a la prueba en su versión final. El caso más simple es cuando los candida
tos se ordenan de acuerdo con sus puntuaciones y se decide arbitrariamente qué
núm ero de estudiantes han «ap ro b ad o ». Este núm ero arbitrario puede venir
dado por la disponibilidad de plazas en una institución o por la m edidas del
aula. Por ejemplo, una institución puede ser capaz de ofrecer clases de repaso
de com prensión de lectura y de escritura a sólo 40 alumnos. Puede utilizarse
una prueba de nivel para identificar a los 40 candidatos más flojos en estas des
trezas. Los estudiantes que saquen puntuaciones m ás altas que el candidato
número 40 a partir del último pueden considerarse que han «aprobado»: no se
les aceptará en las clases, a causa de la falta de espacio.
La mayoría de las decisiones son m ás complejas que ésta y no las dicta tanto
la disponibilidad de recursos como las opiniones de los profesores, de los admi
nistradores o incluso de los políticos a partir de su experiencia en la docencia o
de sus nociones sobre los criterios académicos apropiados para una población
dada. Un sistema educativo puede creer que los criterios de aprovechamiento
en la enseñanza secundaria corresponden a un 40 % de la población que no llega
al criterio. Esto se traduce en la determinación de una puntuación para aprobar
que permita pasar a un 60% de la población, presente o futura.
Una alternativa, sólo un poco m ás sofisticada, es la de «pun tuar sobre la
curva». Esto se refiere a la distribución normal o campana de Gauss (véase cual
quier libro de introducción a la estadística), y supone que las distribuciones nor
males existen y que son las m ás apropiadas para la competencia lingüística y el
152
La determ inación de las puntuaciones para aprobar
aprendizaje. (No discutiremos aquí si esta presunción está justificada.) Básica

mente, la idea es la de agrupar a los candidatos en categorías de acuerdo con su
puntuación expresada en términos de desviaciones típicas. Los que están por
encima de dos desviaciones típicas sobre la m edia se consideran «sobresalien
tes» o «excepcionales» y reciben la nota más alta; los que están entre una y dos
desviaciones típicas sobre la media se consideran «buen os» y se clasifican como
tal; y así sucesivam ente hasta los «excepcionalm ente flojos», para los que su
puntuación está más de tres desviaciones típicas por encima o por debajo de la
media. Por desgracia, una puntuación cualquiera no es necesariamente «excep
cionalmente buena» o «m ala» simplemente porque esté más de tres desviacio
nes típicas por debajo de la m edia: se trata de una nota extrema, y su calidad
debe interpretarse de acuerdo con el contenido y el objetivo de la prueba así
como en relación a la población que ha realizado la prueba.
Se adopta un enfoque similar cuando se analiza la curva de distribución para
ver si hay huecos en la distribución: las curvas bimodales (véase la figura 7.1)
son útiles para la misma, puesto que la caída en la curva de frecuencia facilita un
punto de corte natural (aunque éste debería interpretarse en términos del signi
ficado de la puntuación y de la dificultad de la prueba así como de su objetivo).
Nota
Fie. 7.1. Distribución bimodal
La evaluación referida a un criterio es distinta, al menos en principio. Se define

un criterio o modelo a priori —antes de administrar la prueba—y se considera apro
bado a todo candidato que ha igualado o superado tal criterio. No hace falta decir
que la realidad no es nunca tan sencilla: el problema aparece a la hora de decidir
cuál debe ser el criterio para una prueba dada. En las pruebas de expresión oral
y de expresión escrita es posible discutir que el proceso de puntuación pueda lle
varse a cabo con referencia a un criterio, puesto que la mayoría de los descrip
tores de los criterios de puntuación contienen, en esencia, definiciones de
Inform e de resoltados y determ inación de la puntuación de aprobado
adecuación, y los correctores deben juzgar si el candidato cumple el modelo para

cada criterio. Aunque esto es de por sí poco claro, es mucho m as com plicado
aplicar este principio a las pruebas de ítems discretos de gramática o de vocabu
lario, o incluso en las pruebas de tipo cloze que pretenden medir la comprensión
de lectura. ¿Qué consdtuye un resultado adecuado en esta prueba de gramática?
¿Qué podem os considerar un aprobado en la prueba de tipo doze?
Una manera de responder a esta pregunta de forma no arbitraria es identifi
cando «m o d e lo s» o personas que se sabe que poseen la habilidad que se está
m idiendo y ver cóm o responden a la prueba. Por ejemplo, podría seleccionarse
a personas que se sabe que son buenas lectoras, y ver cóm o responden a una
prueba de com prensión de lectura. Esta actuación se compararía entonces con
las personas que no pueden considerarse «m o d e lo s» en cuanto a actuación
lingüística y se tom aría una decisión sobre dónde se marca la puntuación de
corte entre los dos tipos de actuación. En las pruebas de dom inio, una buena
fuente de «m od elos» la constituyen los hablantes nativos con estudios que pue
den utilizar de forma competente la lengua sobre la que se evaluará a los can
didatos. Sin embargo, para la mayoría de las pruebas de aprovechamiento (véase
el capítulo 2 para la discusión de las diferencias entre pruebas de dom inio y de
aprovechamiento), es mucho más problemático identificar m odelos adecuados,
y puede que la única form a de conseguirlos sea utilizando alumnos que ya han
superado con éxito el program a que se evalúa.
Un enfoque altemaüvo, conocido como «determinación de criterios» es pedir
a expertos en la materia —profesionales formados que tengan la experiencia rele
vante- que analicen el contenido de la prueba y decidan cual será con toda pro
babilidad la actuación de aquellos candidatos que tienen aproxim adam ente el
nivel de la prueba. Una form a de llevar esto a cabo es pedir a los expertos que
estimen las probabilidades que un candidato tiene, para cada ítem, de dar una
respuesta correcta. Estas probabilidades pueden a continuación sumarse junto a
las del resto de la prueba, de la m ism a form a que se suman los resultados rea
les, para llegar a un porcentaje probable de aprobado para un candidato. Por
ejemplo, los expertos podrían estar de acuerdo en que la probabilidad de que
un candidato que tiene aproximadamente el nivel de la prueba acierte el ítem 1
es del 75%, mientras que para el ítem 2 es del 50% y para el ítem 3 es del 25%.
La sum a sería 75 + 50 + 25 dividido por 3 = 50%. La puntuación para apro
bar esta prueba con tres ítems sería pues de 1,5.
Debe decirse que este procedim iento es largo y tedioso: un atajo más prác
tico es el de pedir a los expertos que analicen las partes de cada prueba y esti
m en qué resultado consideran que un candidato con el nivel adecuado debe
obtener en cada parte.
Un procedim iento alternativo, detallado en Ebel y Frisbie, 1991, utiliza la
escala que se va a utilizar para informar de los resultados. Primero, se establece
la puntuación que se asignará a una actuación m ínim am ente suficiente (por
ejemplo una D). Se redacta una descripción sobre el conocimiento y habilidad
que tiene un alum no que pasa la prueba con la puntuación m uy justa, y des-
154
pues se hace lo m ism o para el resto de las puntuaciones (en este caso, C, B y A).
A continuación, un experto lee el prim er ítem de la prueba y decide si un
alumno flojo puede responderlo de forma adecuada. Si es así, se etiqueta el ítem
con una D. Si no, el experto decide si un alumno de nivel C puede responderlo
correctamente y etiqueta el ítem con una C. Se sigue este procedim iento para
todos los ítems de la prueba. Se cuenta el número de ítems que tienen una D y
el núm ero resultante representa la puntuación de corte para un alumno D. El
total de ítem s que tienen una C se sum a a la puntuación de corte para D y se
convierte en la puntuación de corte para C. Se siguen procedimientos similares
para obtener el resto de puntuaciones de corte, que deberán ajustarse a la baja
para compensar posibles errores de medición. Otros procedimientos para la fija
ción de criterios se describen en la bibhografia sobre la evaluación referida a un
criterio (véase por ejemplo Popham, 1990).
No hace falta decir que en estos procedimientos, y para aspirar a una validez
m ínim a, resulta im prescindible tener razones de peso para entender que los
expertos son tales, y estas razones deben ser explícitas. En la práctica, aunque
estos procedim ientos podrían llevarlos a cabo tribunales de exámenes im por
tantes, la decisión sobre las puntuaciones para aprobar se tom a a m enudo de
form a m ás arbitraria y se refiere - d e form a in apropiada- al porcentaje global
que se ha usado históricamente.
En resum en, el proceso de ponderación y de com binación de las notas por
ítem y por nivel para llegar a resultados adecuados puede ser complejo. Los pro
cedimientos que se utilicen dependerán en gran parte del objetivo de la prueba
y deberían reflejar lo que uno cree o, m ejor, lo que uno sabe sobre la natura
leza de la competencia lingüística y del aprendizaje de idiom as. Tomar decisio
nes sobre lo que se puede considerar aprobado o suspenso es igualm ente un
tema com plejo, y por este m otivo los elaboradores de pruebas tienden a evi
tarlo, dejando la decisión en m anos de instituciones y de usuarios para que
actúen de acuerdo con sus intereses. Sin embargo, cuando se espera que un exa
men facilite las decisiones de aprobado y suspenso, existen —aunque haya difi
cultades- form as de obtener puntuaciones de corte empírica y racionalmente,
o al m enos defendibles, y no de forma arbitraria o al azar.
A continuación veremos cómo toman tales decisiones los tribunales de exá
menes de inglés com o lengua extranjera en el Reino Unido.

Tratamos estos puntos en el cuestionario de las preguntas 42 y 43. La pregunta
42 consultaba sobre las reuniones que se convocaban cuando se había com ple
tado la corrección del examen. Esperábam os que hubiera una reunión para
tomar decisiones sobre la ponderación de los resultados, en la que se tomarían
decisiones sobre transform ación y com binación y en la que se discutirían las
puntuaciones para aprobar.
155
PREGUNTA 4 2 : ¿Se convocan reuniones (reuniones para decidir las notas, reuniones de examinado
res) antes de entregar los resultados? En caso de respuesta afirmativa, ¿cómo son estas reuniones?
La mitad de los centros que respondieron dijeron que existen esas reuniones,
llamadas «sesiones de resultados». En esta reunión, para citar a un tribunal,«se
determinan los límites entre puntuaciones, se revisan los casos límite y se ana
lizan los ejercicios escritos en los que algunos examinadores expertos tuvieron
dificultades o dudas».
Citando a otro tribunal: «Los examinadores tienen a su disposición durante
la reunión las estadísticas del año en curso y de años anteriores, los exámenes
del año en curso y los casos límite de años anteriores. Utilizando esta inform a
ción se determina el límite entre aprobado y suspenso, se revisan los casos límite
y se redacta un informe sobre la puntuación final». Tres tribunales se refirieron
al proceso de análisis de los «casos lím ite» como una «reconsideración del tra
bajo de todos los candidatos que están justo por encima o por debajo de cada
límite de puntuación». Debería mencionarse, sin embargo, que sólo cuatro tri
bunales describieron tal tipo de proceso.
Entre los tribunales que respondieron que no mantenían tal tipo de reunión,
uno respondió: «Se solían convocar, pero ahora se da una nota para cada des
treza», y otro respon dió: «L os exám enes pueden revisarse si se solicita. Los
correctores tienen instrucciones de corregir de nuevo los resultados que se hallan
en el límite y en caso de duda, someterlos a la consideración del tribunal para
que lo hagan llegar, si es necesario, al supervisor.»
El único examen de UCLES que no mantenía este tipo de reunión era el IELTS,
que no facilita puntuaciones de aprobado y suspenso (véase la discusión en los
apartados 7.4 y 7.6 más arriba). El resto de los exámenes de UCLES seguía pro
cedimientos parecidos a los m encionados anteriormente.
La pregunta 43 consultaba de forma explícita sobre los procedim ientos para
determinar el límite entre aprobado y suspenso, presuponiendo que el proceso
no necesariamente debía desarrollarse durante una reunión, sino que podían
hacerlo los responsables del examen posiblemente con un ordenador.
PREGUNTA 4 3 : ¿Se sigue algún procedimiento especial para decidir sobre los límites entre aprobado
y suspenso?
Tres cuartas partes de los tribunales que respondieron explicaron los proce
dimientos especiales que seguían para decidir las puntuaciones para aprobar. A
m enudo se parecían a los descritos, pero un tribunal añadió la siguiente infor
mación: «El informe sobre la puntuación final que se elabora después de la reu
nión incluye las discrepancias que pueda haber entre las puntuaciones para
aprobar del año en curso y las de años anteriores (teniendo en cuenta nuestra
rápida expansión y por lo tanto el cam bio en núm ero y en naturaleza de nues
tra población de can didatos).» Sólo tres tribunales hicieron referencia a esta
dísticas sobre la actuación de los candidatos en el examen del año en curso o de
años anteriores. El examinador jefe parece ser importante en este proceso para
al menos un tribunal.
156
Entre los tribunales que respon dieron negativam ente a la pregunta, uno
señaló que «se determinan los lím ites entre las distintas puntuaciones antes
del exam en ». D esconocem os cóm o pueden com pensar la dificultad inespe
rada de un examen.
La m ayoría de los exámenes de UCLES parecen seguir procedimientos espe
ciales a la hora de decidir los límites entre puntuaciones, pero sólo dos respon
sables detallaron sus respuestas:
Informes del examinador, datos sobre el nivel de los ítems, comparación con
actuaciones anteriores (FCE, CAE, CPE, Paper 4).
En cada prueba un candidato sólo puede suspender una tarea. Para aprobar el
examen, los candidatos deben aprobar todas las pruebas (CEIBT).
Esta última respuesta era el único caso en que las respuestas al cuestionario
hicieron referencia a las decisiones de aprobar o suspender a un nivel de sec
ciones de una prueba. Sin embargo, pudim os recoger información sobre estos
aspectos al analizar los docum entos que recibim os (véase apartado 7.10 más
adelante).
Las respuestas a estas dos preguntas fueron diversas y detalladas. Parece que es
habitual que los examinadores y los responsables de examen tengan reuniones
para discutir las puntuaciones para aprobar. Debido a que en el Reino Unido los
resultados de los exámenes de GCSE y de los niveles A reciben mucha publici
dad, en especial en lo que se refiere a los cambios de puntuación para aprobar
año tras año, y puesto que se comparan estos cambios entre los diferentes tribu
nales de exámenes —una de las pocas áreas que puede ser analizada por el gran
público- se presta mucha atención al mantenimiento de los criterios año tras año.
Otro tema es si los criterios son apropiados, que puede tratarse o no en las reu
niones m encionadas. Sin em bargo, es tranquilizador saber que parece que se
siguen los m ism os procedim ientos para los exám enes de inglés com o lengua
extranjera o inglés com o segunda lengua (que no forman parte del sistema de
los niveles A o del GCSE.) Los procedim ientos parecen combinar la evaluación
referida a una norm a y la evaluación referida a un criterio. Lo que no sabemos
con detalle es cómo se deciden exactamente las puntuaciones para aprobar: pode
m os sólo suponer que las personas implicadas en ello toman decisiones a partir
de la información que recogen con respecto a lo que constituye una actuación
adecuada. El tener muestras de actuaciones de las distintas puntuaciones facilita
obviamente el proceso y nos da m ás confianza en su validez. Para pruebas que
incluyen componentes orales esto es naturalmente más problemático.
La reunión de puntuación, cuando tiene a su disposición información sobre
la actuación en el año en curso, las estadísticas de años anteriores, las pruebas
de los candidatos y las pruebas límite de años anteriores, está en condiciones de
mantener los criterios constantes a través de los años, si podem os suponer que
la población que se presenta al exam en es constante en lo que se refiere a sus
capacidades y a su actuación. Sin embargo, esto no ocurre cuando la población
crece o disminuye o cuando se han introducido innovaciones en el formato de
157
la prueba, en sus contenidos o en los criterios de puntuación. Además, no está

nada clara la confianza que se puede tener en la consistencia de los resultados
de tribunales que tienen un número pequeño de candidatos o en los resultados
de aquellos tribunales que no siguen los procedimientos mencionados de adju
dicación de puntuaciones.
7.10. Estudio sobre los tribunales de examen de inglés

La documentación que recibim os de los tribunales contenía bastante inform a
ción sobre cómo se informa de los resultados, pero mucha m enos sobre cómo
se determinaban las puntuaciones para aprobar y cuáles eran los porcentajes de
aprobados.
7.10.1. Ponderación
La mayoría de los centros de exámenes no dan demasiada información sobre la
ponderación de sus exámenes. La excepción son la Oxford Delegacy, el ARELS
Examinations Trust y UCLES.
Por ejemplo, Rationale, Regulations and Syllabuses incluye comentarios sobre la pon
deración de las distintas secciones de las pruebas de Oxford:
Excepto para la sección 1, el número preciso de puntos adjudicados varía de
examen a examen, para poder llevar a cabo los ajustes necesarios según el
trabajo que se requiere para cada sección. La proporción es en general:
Sección 1 33 a 35%
Sección 2 40 a 54%
Sección 3 11 a 15%
Sección 4 5 a 6%
Sección 5 5 a 6%
Las secciones 1 y 2 tienen el mayor número de puntos, pero los candidatos
cometen a menudo el error de no prestar la suficiente atención a las últimas
secciones, en las que todavía pueden ganar puntos.
(Rationale, Regulations and Syllabuses, sin fecha: 4)
El UCLES General Handbook (1 9 8 7 ) hace referencia a un «program a de investi
gación intensivo en el que se estableció la deseable ponderación relativa de los
elementos objetivos y subjetivos en la evaluación de la lengua hablada y escrita»
(1987: 3), pero no se dan m ás detalles sobre esta investigación. Sin em bargo,
se da información sobre cómo se calculan y combinan los resultados de las dife
rentes secciones de cada prueba. Se dice que los puntos fuertes y las lim itacio
nes de diversos form atos ampliamente aceptados se com pensan los unos con
los otros... Los resultados en las secciones de corrección objetiva, sección 1 y
sección 4, se correlacionan con los resultados obtenidos de form a m ás tradi
cional, por ejemplo, los obtenidos por la actuación en diversas tareas com uni
cativas» (1 9 8 7 : 3).
158
En efecto, tal com o hem os visto en el apartado 7.4 más arriba, lo que sucede
es que los resultados de las pruebas subjetivas se ajustan a la luz de las pruebas
objetivas «teniendo en cuenta cualquier variación entre exam inadores» o, en el
caso de la sección 5 (expresión oral), «cuando su contribución a la puntuación
total no coincide con la prevista a partir de la actuación del candidato en otras
partes» (1987: 4). En otras palabras, si un candidato obtiene muy buenos resul
tados en la prueba de expresión oral en comparación con su actuación en el resto
del examen, su resultado se ajustará probablemente a la baja.
El General Handbook da la siguiente información sobre lo que sucede después del
proceso de puntuación:
... las puntuaciones iniciales se convierten en «puntuaciones normalizadas»
calculando la media y la desviación típica de todas las puntuaciones otorgadas
por un examinador en concreto, ajustándolas para que se acerquen a la media
y a la desviación típica de las puntuaciones obtenidas por los candidatos en la
sección 1 [...] de modo que se minimice la subjetividad de la corrección [...]
La utilización de puntuaciones normalizadas tiene el efecto de reducir el
«agrupamiento» de resultados que se halla a menudo en la corrección de
redacciones y el de asegurar que muchos candidatos obtengan el máximo de
40 puntos (1987: 17).
El problem a de este enfoque es, naturalmente, que no perm ite que haya
demasiada diferencia entre las distintas capacidades de un candidato: si la actua
ción no «está en línea», se ajusta para que se acerque a la actuación en otras sec
ciones. N os gustaría haber encontrado m ás fundam entos, especialm ente del
programa de investigación citado, para esta práctica dudosa. Los ajustes pueden
hacerse para compensar la baja fiabilidad de la entrevista si se compara con las
otras partes de la prueba, pero esto tenderá a afectar a la validez. Sería más ade
cuado tratar el problem a de una baja fiabilidad con una m ejor form ación y
supervisión de los correctores.
En A Brief Guide. EFL Examinations and TEFL Schemes, se describe el PET como una
prueba con 100 puntos en la que se adjudica un 25% a cada componente (com
prensión de lectura, expresión escrita, comprensión oral y expresión oral). No se
dan razones para el uso de una ponderación de igualdad en este examen en vez
de la ponderación más complicada que se utiliza en el resto de exámenes de UCLES
descritos más arriba. No hay información disponible sobre actuaciones flojas en
un componente y cómo pueden compensarse por una buena actuación en otro.
7.10.2. El informe de resultados y la determinación

de las puntuaciones para aprobar
Varios tribunales simplemente publican las puntuaciones finales y parecen tener
notas fijas para aprobar. Por ejemplo, CENTRA publica un folleto que describe
sus Tests in English Language Skills 1992. En este folleto afirma que:
Los resultados se adjudicarán de la siguiente manera:
aprobado, 40%; notable, 55%; sobresaliente, 70%.
159
No se fundamentan estos resultados.

Otro ejem plo es el Trinity College de Londres, que administra una serie de
pruebas de expresión oral, cuya descripción incluye la siguiente inform ación
sobre resultados:
Se otorgarán certificados a los candidatos que obtengan las notas mínimas
necesarias: aprobado: 65%; notable: 75%; sobresaliente: 85%.
(Syllabus of Grade Examinations in Spoken English for Speakers of Other Languages, 1990:7)
No hay m ás inform ación sobre cóm o se llega a estos resultados o cóm o se

determinan o analizan las fronteras entre los m ism os.
Tampoco Pitmans o ESB ofrecen fundamentos sobre las puntuaciones finales
que publican, ni hay discusión sobre cómo se consideran, a la hora de decidir
las puntuaciones para aprobar, las variaciones en cuanto a la dificultad del exa
men de año en año o a las variaciones en el grupo de candidatos.
Algunos tribunales, sin embargo, lo hacen m ejor. El LCCI publica una serie
de documentos que ayudan a definir los resultados y a describir las puntuacio
nes para aprobar. Para cada examen hay puntuaciones de aprobado, notable y
sobresaliente, que están descritas en términos de comportamiento. Una nota de
un 50% es el aprobado, y un 75% corresponde a un sobresaliente. Un notable
equivale al 60%. Al contrario de otros centros, el LCCI da m ás detalles:
Las puntuaciones límite para un aprobado son un 48 y un 49%, y se volverán
a corregir los ejercicios escritos para ver si se puede dar un aprobado. Límites
parecidos para un notable y un sobresaliente son un 58/59% y un 73/74%
respectivamente.
Además (en dos exám enes), «las notas que caen entre los m árgenes 45—49
después de este nuevo proceso de escrutinio darán al candidato la posibilidad
de un aprobado en un nivel inferior al que se ha presentado» (1987: 9).
Los siguientes comentarios adicionales provienen del Handbook of Duties for Exa
minen:
Se recomienda a los examinadores que no otorguen un aprobado, notable o
sobresaliente como resultado de la suma «mecánica» de notas. Cada prueba
debería juzgarse en última instancia como un todo: la plantilla de corrección
debe ayudar a juzgar, no a distorsionar el proceso. El criterio primordial de los
exámenes del tribunal es el criterio práctico de su utilidad. Nuestros exámenes
evalúan con referencia a un criterio, por lo tanto no con referencia a una
norma: aprobamos a los que merecen aprobar (y suspendemos a los que
merecen suspender), independientemente de los resultados estadísticos.
Este grado de explicitación es de agradecer: el problema estriba en cómo saben

los exam inadores quién debería aprobar y qué fiabilidad tienen estos juicios
(véase capítulo 6 para m ás discusión sobre este aspecto). El docum ento con
tiene detalles considerables, pero no se presentan pruebas de la validez del cri
terio de utilidad, ni tam poco se discuten los aspectos relacionados con la
variación de la dificultad de un examen de un año a otro.
160
Debate
7.10.3. Porcentaje de aprobados

La m ayoría de los centros no facilitaron inform ación sobre el porcentaje de
alumnos que aprobaban y suspendían sus exámenes. La excepción a esto fue el
JMB. En los informes de los examinadores de los exámenes de 1990, se da infor
mación sobre los márgenes de puntuación de cada prueba, se presenta una tabla
que muestra los puntos correspondientes a cada nota junto con el porcentaje de
candidatos por cada nota en cada sección. Esta cantidad de información es poco
corriente en nuestra experiencia y es de agradecer. Además, el informe señala:
Debe apreciarse que las puntuaciones reflejan la naturaleza de una parte en
concreto de la prueba y la forma en que se ha puntuado, y no representa un
estándar absoluto: las notas, no los puntos, son las que dan cuenta de las
decisiones del examinador sobre niveles de actuación (1990:1).
El comentario siguiente se encuentra en la Guide to English Commerce del LCCI:

Los porcentajes de aprobado y suspenso no se determinan de forma
proporcional al número de alumnos matriculados, sino que varían de acuerdo
con la calidad de los exámenes producidos en cada convocatoria. Puesto que los
mismos examinadores administran, corrigen, supervisan y revisan las pruebas
cada año, los criterios se mantienen razonablemente constantes por lo que las
fluctuaciones en el número de aprobados puede atribuirse a la actuación de los
candidatos, que de por sí puede variar según el día. No pueden pues sacarse
conclusiones reveladoras a partir del número de aprobados [...] Citamos a
continuación, con todas las reservas, los resultados mundiales del periodo
1980—1985, que variaron de acuerdo con los siguientes porcentajes:
Elemental: 64-72%
Intermedio: 35-48%
Avanzado: 29—49%
Estas cifras son meramente un aspecto de la actuación de los candidatos que se
presentaron al examen durante este periodo y no son de ninguna manera
proporciones ideales de la población que habitualmente se presenta a los
exámenes, que en cualquier caso era cuatro veces mayor en el nivel
intermedio que en cualquiera de los otros dos niveles. Esto afecta por su parte
a la importancia que puede darse a las cifras, que deberían utilizarse con gran
cautela (1986: ii).
Este candor es admirable: sin embargo, no explica cómo el LCCI puede con
fiar en que sus notas para aprobar sean las apropiadas, a pesar de sus afirm a
ciones, sin información sobre la fiabilidad y validez de los juicios emitidos por
sus examinadores.
7.11. Debate
La práctica en lo que se refiere a las explicaciones facilitadas y a la publicación
de resultados y obtención de notas varía obviamente según los diferentes tri
bunales. Algunos dan bastantes detalles sobre cómo combinan, ponderan y trans-
/
161
form an los resultados y llegan a las notas finales o a decisiones sobre quién
aprueba o suspende. Otros dan información que es poco adecuada.
Puesto que algunos tribunales se ven en condiciones de facilitar informes y
descripciones, no puede suponerse que el resto no lo haga por cuestiones de
seguridad.
El problema de decidir cuándo un candidato reúne las condiciones para apro
bar una prueba en particular es obviamente compleja y difícil. Depende en gran
parte del objetivo de la prueba, de la naturaleza de los candidatos, de la com
posición de la prueba, de su fiabilidad y de las consecuencias que se despren
derán para los candidatos: cuanto más importante sea la prueba, más importante
resulta garantizar que se tom an decisiones válidas y fiables. Enmascarar con
secretismo o misterio el proceso de toma de decisiones no es una respuesta ade
cuada al problema. Los elaborado res de las pruebas tienen el deber de informar
a los candidatos y a otros interesados sobre los procedimientos que han seguido
para garantizar que se mantengan los criterios y se tomen decisiones razonables,
y también para dar a la gente confianza sobre los propios criterios y su signifi
cado con respecto al propósito con el que se utilizarán.
Obviamente, la naturaleza de la información facilitada variará según la natu
raleza de las pruebas a las que se refieran, pero no debería ser difícil, largo ni
costoso para los elaboradores de pruebas el facilitar información estándar sobre
los procedim ientos que siguen y los resultados estadísticos de sus exámenes.
Tal inform ación debería incluir inform es apropiados y fáciles de entender
sobre los resultados, con una descripción clara y precisa sobre la actuación en
la prueba. Debería también explicar el significado y las limitaciones de los resul
tados ofrecidos. También debería facilitarse información sobre cómo se llega a
la decisión de aprobar o suspender.
Una información adecuada podría incluir lo siguiente:
1. Qué procedim ientos se siguen cuando se ha corregido la prueba y antes

de publicar los resultados.
2. Cuál es, o es probable que sea, la ponderación de cada una de las partes
de la prueba.
3. Qué resultados se publicarán y de qué forma.
4. Cómo se relacionan los resultados publicados con los puntos de la prueba
en su totalidad, y con la puntuación de cada parte de la prueba.
5. Cómo se llevará a cabo, si es que se realiza, la revisión de los casos límite
y cual es el margen de puntos aceptable para cada sección.
6. Qué significa el resultado final con relación al objetivo de la prueba y el
uso de la lengua en el m undo real.
A la hora de decidir qué información debería facilitarse, es instructivo ver qué

criterios se han establecido en otras partes.
Nevo y Shohamy, 1986 incluyen las siguientes categorías de criterios de eva
luación para los instrum entos de evaluación relevantes de este capítulo (para
más detalle, véase el capitulo 11):
162
Sum ario
Alcance de la información: La información recogida en la prueba debería tener

la amplitud suficiente como para responder a preguntas pertinentes sobre los
conocimientos adquiridos por el alumno y a las necesidades e intereses del
público específico.
Criterios justificados: Los criterios utilizados para determinar los resultados y
la puntuación de la prueba están descritos y justificados con claridad.
Claridad del informe: Los resultados de la prueba se presentan de forma
fácilmente comprensible para el público.
Informe equilibrado: Los resultados de la prueba representan de forma justa y
completa los puntos fuertes y débiles del individuo evaluado.
El Code of Fair Testing Practice in Education (véase capítulo 11), dice que los elabo-
radores de las pruebas deberían:
Facilitar informes de resultados adecuados y fácilmente comprensibles, que
describan la actuación en la prueba de forma clara y precisa. También explicar
el significado y las limitaciones de los resultados publicados (Punto 9,
Elaboradores de pruebas).
Facilitar información que ayude a los usuarios a seguir los procedimientos
razonables para la fijación de la nota para aprobar... (Punto 12, Elaboradores
de pruebas).
Además, los usuarios de la prueba deberían:

Explicar cómo se determinaron los resultados para aprobar y recoger
información sobre la adecuación de los resultados (Punto 12, Usuarios de la
prueba).
7.12. Sumario
Una vez se ha puntuado la prueba, los responsables de la m isma deben tener en
cuenta una serie de aspectos. Algunas de estas decisiones se habrán tomado en el
momento de la redacción de las especificaciones de la prueba o en el momento
de la redacción de la prueba misma. Pueden, sin embargo, revisarse y m odifi
carse después de la corrección, antes de la publicación de los resultados.
¿Se dará la m isma puntuación a cada ítem, o se darán más puntos a unos ítems
que a otros? ¿Superan los inconvenientes de hacer esto último a las ventajas prác
ticas de utilizar una puntuación uniforme?
¿Cómo se sumarán las notas de cada ítem? ¿Se requieren notas para cada can
didato en cada prueba, o en las secciones de cada prueba?
¿Se ajustarán los resultados de algunas secciones según la actuación en otras
secciones? ¿Se ponderarán las distintas secciones de forma diferente? ¿Cómo?
¿Cómo se publicarán los resultados? ¿Se transformarán en una letra como cali
ficación final o se darán en forma de porcentaje? ¿Se facilitará un perfil de los
resultados, en letras, bandas o números? ¿Se dará una nota total final?
¿Se facilitará sólo urna nota de aprobado o suspenso? ¿Se puede aprobar o sus
pender cada parte o sólo se tendrá en cuenta todo el examen?
163
En el caso en que sean necesarias puntuaciones como tales, ¿están determ i

nadas de forma permanente por tradición o por creencias, o pueden variarse?
¿Cómo se determinarán las puntuaciones para aprobar: contando a partir de
cero o bajando a partir de la nota m áxim a hasta llegar al núm ero preciso; con
referencia a una norma, utilizando las estadísticas de años anteriores y la del año
en curso; con referencia a un criterio, utilizando muestras de actuaciones o de
candidatos «m o d e lo »; solicitando la opinión de expertos sobre la prueba; uti
lizando una combinación de los m étodos anteriores?
¿Habrá una puntuación límite para revisar los exámenes de los candidatos que
se acerquen a la puntuación para aprobar? ¿Cómo se llevará esto a cabo?
¿Se calcularán los porcentajes de aprobados y se informará sobre ellos?
¿Qué inform ación se dará a conocer sobre los criterios, la ponderación, las
puntuaciones para aprobar y el porcentaje de aprobados, para quién y de qué
forma?
¿Qué significan los resultados que se dan a conocer, y para quién se infor
mará y de qué?
Bibliografía
Ebel, R. L. y D. A. Frisbie (1991). Essentials of Educational Measurement. 5* edición,
Joint Committee on Testing Practices (1988). Code of Fair Testing Practices in Education.
American Psychological Association, Washington, DC.
Nevo, D. y E. Shohamy (1986). «Evaluation Standards for the Assessment o f
Alternative Testing Methods: an Application.» Studies in Educational Evaluation, 12,
págs. 149-158.
Popharn, W. J. (1990). Modem Educational Measurement: A Practitioner's Perspective. 21 edición,
164
8 La validación
Este capítulo trata la cuestión más importante de todas en la evaluación de idio

mas: ¿Evalúa la prueba lo que se supone que debe evaluar? Este aspecto debería
ser la preocupación primordial de todos los evaluadores, puesto que si una prueba
no es válida para el objetivo para el que se ha preparado, los resultados no signi
fican lo que se cree que significan. En este capítulo se describirán distintas formas
de evaluar la validez y se discutirá la relación entre validez y fiabilidad. Se buscará
también la respuesta a la pregunta ¿Cómo puedo saber si mi examen es válido?
8.1. La importancia de la validez

Henning, 1987, define la validez como sigue:
La validez se refiere en general a la adecuación de una prueba dada o de
cualquiera de sus secciones como medida de lo que se supone que mide. Una
prueba es válida en tanto que evalúa lo que se supone que evalúa. De aquí se
desprende que el término válida, cuando se utiliza para describir una prueba,
debería ir acompañado de la preposición para. Cualquier prueba puede ser
válida para unos objetivos y no para otros (página 89).
No se puede subestim ar la esencia del propósito para el que se elabora o se

utiliza una prueba. Uno de los problem as m ás com unes de las pruebas es su
mala utilización: utilizar una prueba con un propósito para el que no se diseñó
y para el cual, por lo tanto, se desconoce su validez. Esto no significa que una
prueba no pueda ser válida para más de un propósito. Sin embargo, si se va a
usar para un objetivo, debe establecerse y demostrarse la validez de uso para tal
objetivo. No es suficiente decir: «Esta prueba es válida», a no ser que se pueda
responder a las preguntas siguientes: «C óm o lo sabes? ¿Para qué es válida?
También debe señalarse que la definición de Henning permite distintos gra
dos de validez: las pruebas son más o menos válidas según sus objetivos: la vali
dez no es un término absoluto. Esto significa que los usuarios deben utilizar su
criterio o el de otra persona a la hora de decidir, a partir de la evidencia de que
disponen, sobre la validez relativa de una prueba.
8.2. Tipos de validez

La validez puede establecerse de distintas maneras, lo que lleva a la mayoría de
los autores que tratan del tema a hablar de distintos tipos de validez. Seguire
m os esta costumbre, puesto que facilita la explicación, pero querem os señalar
165
La validación
que estos « tip o s» son en realidad distintos «m é to d o s» de evaluar la validez

(véase Bachman, 1990). Lo m ejor, hay que destacar también, es llevar a cabo
la validación de una prueba en el m ayor núm ero de form as posible. En otras
palabras, cuantos más «tip o s» de validez puedan establecerse, m ejor, y cuanta
más evidencia pueda recogerse para cada «tip o » de validez, mejor.
En los últimos años, el creciente interés en los distintos aspectos de la validez
ha llevado a una confusión de nombres y definiciones, pero la mayor parte de los
evaluadores, aunque usen distintos términos, han identificado tres tipos básicos
de validez: racional, empírica y de constructo (véase Thomdike y Hagen, 1986). La vali
dez racional (o de «contenido») depende del análisis lógico del contenido de la
prueba para ver si ésta contiene una muestra representativa de las destrezas lingüis
ticas importantes. La validez empírica depende de la evidencia empírica y esta
dística sobre si los resultados de los alumnos en la prueba son similares a sus
resultados en otras medidas apropiadas de sus capacidades lingüísticas, como pue
den ser sus resultados en otras pruebas, sus autoevaluaciones o las valoraciones de
sus profesores. La validez de constructo hace referencia a lo que en realidad sig
nifican los resultados de la prueba. ¿Qué nos dicen sobre los candidatos? Si se
supone que una prueba evalúa la capacidad de un alumno para usar elementos de
cohesión y de referencia en la expresión escrita, ¿es esto cierto? Para comprobarlo
el evaluador debe formular teorías y predicciones sobre el examen y probarlas.
Sin embargo, tal como ha avanzado la investigación sobre la validez de las prue
bas, no es útil hacer la distinción entre la validez racional y la empírica, puesto que
ambos métodos de validación incluyen datos empíricos. Los análisis de contenido
de las pruebas incluyen a menudo estudios sistemáticos del contenido y la opinión
de expertos a los que se les pide, por ejemplo, que evalúen la prueba de distintas
formas, algunas de las cuales pueden analizarse estadísticamente (esto se discute
con más detalle en el apartado 8.3.2). Utilizaremos pues los términos de validez
interna y externa, siendo la diferencia principal que la validez intema hace referencia
a los estudios realizados sobre el contenido de la pm eba y su efecto, mientras que
la validez extema hace referencia a los estudios de comparación realizados entre los
resultados de los alumnos y las m edidas de su capacidad obtenidas fuera de la
pmeba. La validez externa también se llama «validez de criterio» (véase la American
Psychological Association, 1985), puesto que los resultados de los alumnos se compa
ran con otros criterios para medir sus capacidades, pero evitaremos utilizar el tér
mino «criterio», porque ya lo hemos utilizado con otro significado.
La validez de constructo es la m ás difícil de com prender de las tres. Tiene
m uchos atributos de la validez interna y de la externa, por lo que m uchos la
consideran un término genérico para ambas. Discutiremos esto con m ás deta
lle en su momento.
8.3. La validez interna

Como la validez interna tiende a ser más conocida conceptualmente por el lec
tor, em pezarem os por este término. Hay muchas formas de evaluar la validez
166
La validez interna
interna de una prueba, pero las tres más comunes son: la «validación aparente»,
que se obtiene recogiendo comentarios sobre el valor de una prueba entre per
sonas que no han colaborado directamente en su elaboración, como pueden ser
los alumnos y los administradores de la misma; la «validación de contenido»,
en la que los redactores o expertos en la materia juzgan la prueba, y la «valida
ción de respuesta» (Henning, 1987: 9 6 ), en la que se utilizan una serie de téc
nicas de apreciación cualitativa, tales como la introspección y la observación de
sí m ism os por parte de los candidatos para comprender cómo responden a los
ítems y por qué.
8.3.1. La validez aparente

La validez aparente se refiere a la «credibilidad aparente o a la aceptación
pública» (Ingram, 1977: 18) de una prueba, y a m enudo es considerada por
los expertos en evaluación como poco científica y nada importante (véase Ste-
venson, 1985). En esencia, la validez aparente im plica una opinión intuitiva
sobre el contenido de la prueba m antenida por aquellos cuya opinión no es
necesariam ente «exp erta». Tales personas pueden carecer de conocim ientos
sobre «evaluación»: los administradores de la prueba, los usuarios de los resul
tados de la m ism a y los alumnos. La opinión es, en general, global y se refiere
a la prueba com o un conjunto, aunque también puede prestarse m ás atención
unos ítems en concreto, instrucciones poco claras, periodos de tiempo poco rea
listas, como una form a de justificar la opinión global sobre una prueba. Se dice
a m enudo que la validez aparente provoca siempre el m ism o comentario: «Esta
prueba no parece válida».
Sin embargo, se está dando una mayor importancia a la validez aparente desde
la aparición de la evaluación de la lengua como comunicación (CLT), y muchos
de los defensores de este enfoque (véase por ejemplo, Morrow, 1979 y 1986,
y Carroll, 1980 y 1985) propugnan que un examen comunicativo de idiom as
debería parecerse a lo que se hace «en el mundo real» con la lengua. Como esto
no está definido de forma rigurosa o sistemática (por ejemplo, el concepto de
«autenticidad» se cita frecuentemente para justificar la validez de una prueba,
aunque pocas veces se explica), es probablemente apropiado relacionar tales lla
madas a la «vida real» con la validez aparente. Sin embargo, intentos más siste
m áticos de definir la vida real, com o los esquem as conceptuales de Bachman
relativos a la habilidad lingüística comunicativa y a distintos aspectos del método
utilizado (véase capítulo 2), pertenecen de forma clara al ámbito de la validez
de contenido.
Quisiéramos advertir al lector que compruebe siempre si el término «validez
aparente» se utiliza de forma peyorativa (en cuyo caso significa probablemente
«sin v alid ez»), o si se usa de form a positiva, en cuyo caso significa «aceptable
para los usuarios». Nuestra propia posición sobre el tema es que la validez apa
rente es im portante en evaluación. Por una parte, las pruebas que no parecen
válidas a los usuarios no se tomarán en serio para su propósito. Por otra, si los
candidatos consideran que una prueba tiene un aspecto válido, creerán que pue
167
La validación
den hacerlo m ejor y responder a los ítem s de form a apropiada. En otras pala
bras, creemos que la validez aparente influye en la validez de respuesta de una
prueba.
Pueden recogerse datos sobre la validez aparente entrevistando a alumnos o
pidiéndoles que com pleten un cuestionario sobre sus actitudes, reacciones e
im presiones con respecto a una prueba que acaban de terminar o de analizar.
Los resultados pueden sumarse estadísticamente, si se quiere, para poder deter
minar la aceptabilidad de los ítems y de las distintas partes de la prueba.
8.3.2. La validez de contenido

«La validez de contenido concierne a la representatividad o a la adecuación del conte
nido —la substancia, el m eollo, los temas—de un instrumento de m edida» (Ker-
linger, 1973: 4 5 8 ). La validez de contenido requiere la recogida de opiniones
de «expertos»: gente en cuya opinión estamos dispuestos a confiar, aunque no
coincida con la nuestra. Ésta es quizá para nosotros la distinción más importante
entre la validez aparente y la validez de contenido: en la validez aparente no
aceptamos la opinión de los demás, aunque la respetamos, porque sabem os que
para las personas que han opinado este aspecto de la prueba es importante y por
lo tanto influirá en su comportamiento. En la validación del contenido recoge
m os la opinión de personas en las que estam os dispuestos a confiar.
Tradicionalmente, la validez de contenido im plica que los «expertos» em i
tan juicios de form a m ás sistemática. Una form a de hacer esto es analizando el
contenido de una prueba y comparándolo con una definición de lo que debiera
ser el contenido. Tal definición puede estar en las especificaciones de la prueba
(véase capítulo 2), puede ser el program a o el currículo, o puede ser una espe
cificación de ámbito. Henning (1 9 8 7 : 4) dice: «Es precisamente en el área de
la validez de contenido de las mediciones de aprovechamiento donde las prue
bas referidas a un criterio o ámbito tienen ventajas considerables sobre las prue
bas referidas a una norma, más tradicionales.»
Un comité de redacción tal com o los descritos en el capítulo 3 puede cum
plir los requisitos necesarios para la validación del contenido, pero sólo en el
caso de que los m iem bros del comité puedan considerarse expertos y si se lleva
a cabo la comparación del borrador de la prueba con sus especificaciones o con
las definiciones del contenido de forma sistemática. En nuestra experiencia esto
raramente ocurre. Por el contrario, los m iem bros del comité opinan sobre el
contenido de los ítems sin mucha preparación, no hay un intento de recogida
de opiniones independiente y sistemática, lo que significa que la dinámica de
grupo del comité influye directamente en el resultado.
Una m ejor forma de validar el contenido supondría la creación de un instru
mento para la recogida de datos. Los expertos recibirían instrucciones sobre
cómo opinar y cóm o tom ar nota de sus opiniones. Por ejem plo, podría esta
blecerse una escala sobre la que los expertos puntuarían la prueba de acuerdo
con el grado de cumplimiento de los criterios. Bachman, Kunnan, Vanniariajan
y Lynch, 1988, utilizaron dos escalas de valoración: la escala de competencia
168
La validez interna
lingüística comunicativa (CLA) y la escala de las características del método uti

lizado (TM C), para hallar una forma de cuantiñcar las comparaciones del con
tenido de dos series de pruebas. Las facetas de la CLA se puntuaron en una escala
de cinco puntos y se relacionaron con el nivel de habilidad requerida a los can
didatos en las áreas de competencia gramatical, textual, ilocutiva, sociolingüís-
tica y estratégica. La facetas del TMC hacían referencia a los ítems y a los textos
de la prueba y tenían en cuenta el entorno de la prueba, las instrucciones de la
prueba, el tipo de ítem s y la naturaleza del contenido de la prueba. Entre las
facetas del contenido de la prueba estaban: la complejidad de la lengua, la orga
nización retórica, el grado de contextualización, el tema de la prueba, los pre
juicios culturales y las características pragmáticas. Para cada faceta los evaluadores
puntuaban un ítem o texto de acuerdo con una escala que tenía en general tres
puntos. Por ejemplo:
Muy Muy
ORGANIZACIÓN simPle compleja
RETÓRICA 0 1 2
Algunas facetas se puntuaban de acuerdo con el número de apariciones de un

rasgo, por ejemplo:
Sin Una Dos o más

REFERENCIAS aparición aparición apariciones
CULTURALES 0 1 2
Clapham, 1992, utilizó una adaptación de la escala TMC de Bachman para

evaluar el contenido de tres pruebas de comprensión de lectura. Pidió a tres pro
fesores de inglés para fines académicos que puntuaran aspectos del contenido
de la prueba, incluyendo el contenido preposicional y las características orga
nizativas y sociolingüísticas de los ítems y de los textos.
Una alternativa utilizada por Alderson y Lukmani, 1989, es la de facilitar a
los expertos una lista de destrezas que se supone que se evalúan en un conjunto
de ítems y pedir que marquen junto a cada ítem la destreza o destrezas que creen
que evalúa. Estas opiniones se agrupan luego para tener una idea clara del grado
de consenso que existe entre expertos. Los ítems sobre los que hay poco con
senso se consideran com o ítems con una validez de contenido baja.
Otra alternativa es la m encionada en el capítulo 2.3, en donde se describe
cóm o, durante el desarrollo de una prueba internacional de inglés para fines
específicos, se pidió a profesores de entre un amplio espectro de especialidades
académicas que dieran su opinión sobre los textos utilizados para las pruebas
de com prensión de lectura y el tipo de tarea que suponían que se pedía a los
alumnos (Alderson, 1988b). Esta investigación se llevó a cabo durante la redac
ción de las especificaciones y los ensayos previos de los ejemplos y muestra lo
pronto que debe comenzar el proceso de validación del contenido en la elabo
ración de una prueba.
169
La validación
Lo que estos distintos enfoques tienen en com ún es, prim ero, que utilizan
como informadores a expertos en el cam po que se analiza y, segundo, que los
expertos reciben una lista o instrucciones precisas sobre los aspectos de la prueba
que se van a considerar.
Finalmente, una advertencia sobre la utilización de expertos. Durante mucho
tiempo se ha supuesto, con respecto a la evaluación de idiom as, que las op i
niones de los expertos son decisivas: lo único que hay que hacer es seleccionar
a las personas adecuadas y éstas producirán opiniones válidas. Desgraciadamente,
esto no siempre es así. Recientes investigaciones sobre la evaluación de idiomas
han em pezado a exam inar la naturaleza de los juicios em itidos por expertos
(véase Alderson, 1993). Reflexionando, no sorprende que a m enudo los exper
tos no coincidan en sus opiniones. Algunas veces sólo uno o dos tienen o p i
niones ampliamente divergentes, pero otras es m uy difícil entrever un consenso
entre ellos. Es interesante para los investigadores del m undo de la evaluación
constatar esta variedad en la em isión de juicios: sugiere que los aspectos que
hay que juzgar son mucho m enos claros, más controvertidos, quizá m ás com
plejos de lo que se pensó en un principio. Si se analiza tal com plejidad a fondo
surgen todo tipo de nuevos matices. Sin embargo, el responsable de una prueba
se encuentra ante un dilem a en tales circunstancias. Si los «e x p erto s» no se
ponen de acuerdo sobre lo que evalúa una prueba, ¿qué es en realidad lo que
ésta evalúa? Al contrario de un investigador, que puede perm itirse el lujo de
investigar este tema durante un tiempo, los responsables de una prueba necesi
tan información sobre la validez de sus instrumentos tan pronto como sea posi
ble. Si no se ha llegado a un acuerdo, ¿debería desecharse la prueba?
La respuesta a este dilema, creemos, se encuentra en el hecho de que la vali
dez de una prueba es más relativa que absoluta. Si los procedim ientos de vali
dación del contenido revelan problemas relacionados con la validez de contenido
de la prueba, se deben recoger otros tipos de evidencia de validez: validez
externa, validez aparente, validez de respuesta, y así sucesivam ente. A largo
plazo, podrían pedir que se investigara sobre el problema que se ha descubierto,
pero de momento no deben desesperarse. Más bien deben aceptar que en la eva
luación de idiom as, com o en otros m uchos aspectos, hay todavía m ucho que
desconocem os y hay que continuar a la búsqueda de la validez o m odificar su
prueba o las especificaciones de la m ism a a la luz de los desacuerdos.
Una form a de solucionar este dilem a, a la que m uchos se resistirían, sería
agrupar expertos que se sabe que coinciden habitualmente u organizado todo,
mediante un proceso de formación o de alguna otra manera, para que se m ini
mice el desacuerdo. A lo largo de este libro hem os señalado el valor que tiene
la form ación de exam inadores, de redactores de pruebas, de administradores.
Sin embargo, la formación de jueces expertos para fomentar o para asegurar un
acuerdo tiene sus riesgos: el riesgo de la clonación. Cuando se utiliza a exper
tos, es im portante utilizar a aquellos cuya opinión se respetará. Intentar cam
biar esta opinión por m edio de la formación, porque discrepe del resto, es sólo
cubrir el expediente y poner la fiabilidad por delante de la validez.
170
La validez interna
8.3.3. La validez de respuesta

Com o se ha indicado anteriormente, un aspecto que es cada vez más corriente
en el proceso de validación de una prueba es la recogida de información sobre
cóm o responden a los ítems de una prueba distintos individuos. Los procesos
que siguen, el razonamiento que hacen al responder, son indicaciones im por
tantes de lo que evalúa la prueba, al menos para estos individuos. De aquí que
haya m ucho interés actualmente en recoger relatos de estudiantes/candidatos
sobre su comportamiento y sus pensamientos durante el proceso de realización
de un examen.
La recogida de datos introspectivos durante un examen no es algo sencillo,
porque la recogida de datos puede interferir en el proceso que se pretende inves
tigar. Sin embargo, la investigación ha revelado aspectos muy interesantes refe
rentes a la actuación en una prueba a través de estos relatos centrados en los
estudiantes (véase Cohén, 1984; Faerchy Kasper, 1987, y Grotjhan, 1986). Por
ejemplo, la introspección durante una tarea de tipo doze mostrará si el alumno
responde al ítem utilizando las destrezas de lectura que pretende el redactor de
la prueba o si lo que pone en práctica es algún conocim iento de la estructura
gramatical de la frase en la que aparece el ítem. De forma parecida, la instros-
pección durante una tarea de comprensión de lectura puede identificar debili
dades de los ítems y puede producir casos en los que los alumnos responden a
un ítem de forma incorrecta aunque comprendan el texto, o de forma correcta
aunque no lo entiendan (véase Alderson, 1990).
¿Cómo deben recogerse los datos introspectivos? La manera más sencilla es
hacerlo retrospectivamente. Una vez que los candidatos han contestado la prueba,
o una de sus partes, pueden ser entrevistados sobre las razones por las que die
ron las respuestas que dieron. Una forma de refrescar su m emoria para las res
puestas son los propios textos en el caso de la comprensión lectora y la expresión
escrita y quizá también para las pruebas de comprensión oral. Sin embargo, en
el caso de las pruebas de expresión oral, los datos más útiles se recogen grabando
al candidato en vídeo o audio durante su actuación. El entrevistador deberá ser
lo m ás neutro posible, haciendo preguntas generales como: «¿Por qué diste esta
respuesta? ¿Por qué respondiste de esta forma?», y debería preguntar sólo cuando
las respuestas no estén claras o no estén lo suficientemente detalladas.
El inconveniente de tales retrospecciones es que los candidatos no se acuer
dan de por qué respondieron de una forma en concreto. Una alternativa es obte
ner introspecciones concurrentes, en las que el candidato «piensa en voz alta»
mientras responde a unas preguntas formuladas durante los periodos de silen
cio por un observador que está callado durante el resto del tiempo. El problema
m ás obvio aquí es que si la prueba tiene consecuencias im portantes, es muy
poco razonable someter a los candidatos a tal investigación. Así pues, los infor
m adores para este tipo de validación serán inevitablemente personas que no
estén realizando la prueba «en serio», y la realización de una prueba en serio es
algo m uy distinto a realizarla sólo con m otivo de una investigación. Además,
algunos tipos de comportamiento pueden no ser accesibles a la introspección,
171
La validación
especialm ente los procesos m ás autom áticos relacionados con los procesos
lingüísticos de abajo a arriba (bottom-up), con ítems de gramática o de léxico o
con las pruebas de pronunciación o entonación. Sin em bargo, especialmente
para el tipo de pruebas en la que los candidatos deben ser conscientes de lo que
están haciendo —como en el caso de los exámenes de expresión escrita, por ejem
p lo - tales m étodos de recogida cualitativa de datos pueden facilitar información
m uy útil sobre lo que las pruebas evalúan en realidad.
8.4. La validez externa
Los tipos m ás com unes de validez externa son la validez concurrente y la validez
predictiva; la estadística utilizada con m ás frecuencia es el coeficiente de correla
ción (véase el capítulo 4 para una explicación del término «co rrelació n »). El
concepto de validez externa es quizá más fácil de comprender a través de la dis
cusión sobre validez concurrente.
8.4.1. La validez concurrente

En esencia, la validez concurrente supone la comparación de los resultados de
la prueba con cualquier otra m edida de los m ism os candidatos durante aproxi
m adam ente el m ism o periodo de la prueba. Esta otra m edida pueden consti
tuirla los resultados de una versión paralela de la misma prueba o de otra prueba,
las autoevaluaciones de los candidatos sobre sus propias capacidades lingüísti
cas o las notas del profesor, de un experto en la materia o de otros inform ado
res sobre el candidato en distintos aspectos relevantes. Lo importante es que esta
medida pueda expresarse numéricamente (com o sucede, por ejemplo, con las
escalas de valoración) y que no esté relacionada con la prueba. El resultado de
la com paración se expresa norm alm ente com o un coeficiente de correlación,
que oscila entre los valores —1,0 y + 1,0. La mayoría de los coeficientes de vali
dez concurrente oscila entre + 0 ,5 y + 0 ,7 ; los coeficientes m ás altos se obtie
nen si las pruebas son m uy parecidas y fiables, pero raram ente si se
correlacionan m edidas como la autoevaluación o las valoraciones del profesor.
Es im portante que haya m otivos para creer en los resultados de la m edida
extema. Hay pocos motivos para comparar las notas de los alumnos con su actua
ción en un tipo de medida que se sabe que es poco fiable o no válida. Aunque esto
pueda parecer lógico y obvio, en la práctica es m uy difícil recoger datos extemos
creíbles. Tom em os por ejemplo el caso de recogida de datos sobre una prueba:
un proyecto clásico de validación concurrente supondría la comparación de los
resultados de la prueba en cuestión con los resultados de otra prueba reconocida
como válida y fiable. Sin embargo, si esta otra prueba existe, ¿por qué vam os a
preocupamos de producir una nueva prueba para contrastarla? ¿Por qué no usa
mos la pmeba original? Hay dos respuestas a esto. La primera es que la otra prueba
puede no estar fácilmente disponible. Puede resultar demasiado cara, demasiado
larga para fines prácticos, o puede ser una pm eba que sólo esté disponible para
llevar a cabo validaciones y no para el uso regular de la institución. En este caso,
172
La validez extem a
se necesita una prueba alternativa: la que se está validando. La segunda respuesta

es que una vez se ha validado la nueva prueba, el tribunal de exámenes necesita
producir nuevas versiones de forma regular. (La construcción de tales versiones
equivalentes se discute con brevedad en el capítulo 4.) Si los alumnos responden
a la nueva versión y a la validada previamente, y si el índice de correlación resul
tante entre los dos grupos de resultados es alto, es decir por encima de 0,90, pode
m os afirmar que la nueva prueba tiene validez concurrente.
Sin em bargo, a m enudo no existe una prueba reconocida com o válida y fia
ble para realizar la validación concurrente, aunque deseem os saber si la prueba
experimental puede compararse con otras pruebas conocidas y utilizadas en el
m ism o contexto, aunque no se conozca su validez y fiabilidad. En tales casos se
está obligado a tratar los resultados de la correlación con mucha cautela. En rea
lidad, no se espera que las dos pruebas no tengan ninguna correlación, puesto
que en un principio las dos evalúan contenidos lingüísticos. De todas, formas
tampoco se espera tona correlación alta entre las dos, en parte porque presum i
blemente están evaluando distintos aspectos de la capacidad lingüística y en parte
a causa de la posible poca fiabilidad e incierta validez de la otra prueba. En tales
circunstancias, se necesita una interpretación m uy cuidadosa.
Además de com parar los resultados de una prueba con las puntuaciones de
otras pruebas, a m enudo es m uy útil compararla con otras medidas de las capa
cidades de los alumnos. Una m edida útil es la opinión del profesor sobre sus
propios alumnos. Si los profesores han dado clase a los m ismos grupos de alum
nos durante un periodo de tiempo considerable, deberían tener una idea clara
sobre sus niveles de com petencia y poder establecer un orden jerárquico de
acuerdo con algún aspecto de su habilidad lingüística. Si la destreza que se eva
lúa es relativamente fácil de puntuar, p or ejem plo la «fluidez oral», el orden
facilitado por el profesor puede dar una idea clara de los niveles de capacidad
de todos los alumnos de la clase, pero hay áreas lingüísticas, tales como las des
trezas receptivas de la lectura o de la audición, que son prácticamente im posi
bles de puntuar. Puesto que los profesores son también poco consistentes y no
están Ubres de juicios parciales, las puntuaciones serán más válidas si se utilizan
dos profesores para cada grupo de alumnos.
Otro m étodo de llevar a cabo estudios de validación es correlacionando las
puntuaciones de los alum nos con las apreciaciones de los profesores sobre su
actuación. Por ejem plo, podría pedirse a los profesores que com pletaran el
siguiente cuestionario:
¿Cómo evaluaría a cada alumno sobre una escala del 1 al 5 para cada una de las siguientes destrezas:
gramática, expresión escrita, expresión oral, competencia lingüistica en general?
Alumno Gramática Expresión escrita Expresión oral Dominio de la lengua

01
02
03
Etc.
173
La validación
La escala del 1 al S puede ser tan sencilla como la siguiente:

1. Flojo
2. Medianamente bueno
3. Bueno
4. Muy bueno
5. Como un hablante nativo
O puede ser m ás compleja, con definiciones individuales para cada nivel de
las distintas destrezas. (Para m ás información sobre definiciones y descriptores
véase el capítulo 5.)
El cuestionario anterior puede también utilizarse para la autoevaluación, aun
que debe tenerse en cuenta que los alumnos pueden no estar tan acostum bra
dos a evaluar su habilidad lingüística com o lo están los profesores. A
continuación hay dos ejemplos de un cuestionario de autoevaluación.
Ejemplo 1
Las siguientes áreas plantean posibles problemas lingüísticos que pueden surgir si usted estudia francés en
Francia. Indique por favor si cree que tendría dificultades serias <anuy a menudo», «a menudo», «a veces»,
«raras veces» o «nunca»; o si cree que «no procede», porque no utilizaría la lengua francesa para este
propósito en Francia. Dibuje un círculo alrededor del número de la columna que corresponde a su respuesta:
Espero tener muy a a a raras nunca no
serios problemas: menudo menudo veces veces procede
Escuchar y
comprender
conferencias.
Escuchar y
comprender
los medios de
comunicación
(TV, radio).
Comprender a la
gente en las tiendas,
en espacios públicos,
etc.
Ejemplo 2:
¿Cómo evalúa su capacidad de usar la lengua francesa en las áreas siguientes? Por favor, dibuje un
círculo alrededor del número que mejor describe su capacidad.
LECTURA
No lo Justo Muy bien Casi
suficientemente para como un
bien para sobrevivir sobrevivir nativo
2 3 4 5 6 7
174
La validez extem a
8.4.2. La validez predictiva

Com o sugiere el nom bre, este tipo de validez se distingue de la validez concu
rrente en que en lugar de recoger las medidas externas al m ism o tiempo que se
adm inistra la prueba experim ental, las m edidas externas sólo se recogen un
tiem po después de que la prueba se haya administrado.
La validez predictiva es más corriente en las pruebas de dominio: las pruebas
que intentan predecir lo bien que alguien actuará en el futuro. La form a más
sim ple de estudiar la validez predictiva es dar a los alumnos la prueba y al cabo
de un tiem po volverles a administrar otra prueba sobre la habilidad que pre
tendía predecir la prim era prueba. Un uso com ún de las pruebas de dom inio
com o el IELTS o el TOEFL es identificar a los alum nos que pueden tener pro
blemas cuando estudien en un m edio inglés a causa de sus dificultades con esta
lengua. La validación predictiva supondría adm inistrar la prueba IELTS a los
alumnos antes de dejar su país de origen para estudiar en el extranjero, y des
pués, una vez instalados en el país donde van a estudiar y pasado un tiempo de
adaptación, volverles a adm inistrar una prueba sobre su uso del inglés en el
m edio en que están. U na alta correlación entre las dos notas indicará un alto
grado de validez predictiva en la prueba de IELTS.
Por desgracia, la vida no es nunca tan sim ple. Primero, es im probable que
todos los alumnos que hagan la prueba de IELTS puedan viajar para estudiar en
el extranjero: algunos serán excluidos por m alos resultados. Esto se conoce
como «m uestra truncada del problem a»: sólo se puede usar parte de la pobla
ción original en la validación —en este caso, los que pueden utilizarse serán los
m ejores alum nos. El efecto de utilizar m uestras truncadas no está suficiente
mente estudiado en tales exámenes, pero probablemente reducirá la amplitud
de los resultados de los alumnos y rebajará el coeficiente de validez predictiva.
Si todos los alum nos hubieran podido acceder a la educación en el extranjero
y no sólo los m ejores, la correlación entre las dos pruebas hubiera sido m ás
alta. Segundo, es probable que en nuestro ejem plo hipotético la competencia
lingüística de nuestros alum nos pueda haber m ejorado entre la prim era y la
segunda ocasión, especialmente después de llegar al país extranjero. Esto tam
bién tendrá com o resultado la reducción del coeficiente de validez predictiva.
Tercero, com o ocurre con la validez concurrente, es poco probable que esté
dispon ible una m edida externa adecuada de la capacidad de utilización del
inglés por parte de los alumnos en un ámbito de estudio, a no ser que sea otra
versión de la prueba original.
En realidad, este últim o problem a intoxica m uchos estudios de validez pre
dictiva: ¿qué puede considerarse una buena medida de la destreza que uno está
intentando predecir? Algunos estudios de validación de las pruebas de dom i
nio utilizan la puntuación final o la m edia de las puntuaciones (grade point ave-
rage) que los alum nos obtienen al final de sus estudios. Sin em bargo, estos
estudios no sólo utilizan obviamente muestras truncadas, sino que los resulta
dos de cualquier correlación están oscurecidos por el hecho de que el tipo de
175
La validación
nota ñnal refleja no sólo la capacidad lingüística sino también habilidades aca
démicas, conocimiento de las distintas materias, perseverancia, técnicas de estu
dio, capacidad de adaptación a la cultura y al contexto del país extranjero y
muchas otras variables.
Es posible utilizar otras medidas en vez de la puntuación final o la media de
las puntuaciones. Se podría intentar, por ejemplo, recoger las opiniones de los
que están en contacto habitual con los alumnos. El responsable de la validación
de la prueba puede pedir a los distintos profesores que evalúen a los alumnos
que han hecho la prueba sobre sus habilidades lingüísticas: su habilidad en expre
sión escrita, sus habilidades de comunicación oral... Sin embargo, aquí de nuevo
podem os encontramos con una muestra truncada. También nos encontraremos
con el problem a de que muchos profesores no son capaces de dar una opinión
útil sobre las habilidades lingüísticas de sus alumnos hasta el final del primer tri
mestre, cuando los alumnos ya han tenido oportunidades de sobra para mejorar
su capacidad lingüística (véase Criper y Davies, 1988, y Wall, Clapham y Alder-
son, 1994). Las correlaciones resultantes son m uy difíciles de interpretar.
Otro ejemplo de un estudio de validación predictiva puede ser la validación
de una prueba de competencia lingüística para alumnos que quieren ser profe
sores de la lengua en cuestión. En este ejem plo, tales alum nos deben pasar la
prueba antes de poder empezar las asignaturas de m etodología de su curso, en
las que necesitaran un alto nivel de competencia en la lengua extranjera. La vali
dez predictiva de la prueba supone realizar un seguimiento de los alumnos que
pasan la prueba y pedir a sus alumnos, sus com pañeros docentes y sus obser
vadores que los evalúen de acuerdo con su habilidad lingüística en clase. La vali
dez predictiva de la prueba sería la correlación entre los resultados de la prueba
y las evaluaciones de su habilidad lingüística en el aula.
En todas estas circunstancias no esperaríamos correlaciones altas entre la prueba
y la medida extema. En realidad, en los estudios de validez predictiva, es corriente
que los redactores de pruebas y los investigadores estén satisfechos con un coe
ficiente tan bajo com o + 0 ,3 . Sin embargo, la dificultad de llevar a cabo estudios
de validación predictiva no absuelve a los responsables de la prueba de la res
ponsabilidad de recoger datos para demostrar que sus pm ebas poseen un grado
de validez para el propósito para el cual están previstas y se utilizan.
A veces, la frontera entre la validez concurrente y la validez predictiva es muy
tenue. Por ejemplo, después de dar a los alumnos una prueba de nivel, los eva
luadores deberán intentar confirmar la validez de la prueba preguntando a los
profesores que tienen a estos alumnos en sus clases si se han colocado en la clase
adecuada. Los profesores deberán responder a esta pregunta durante la primera
semana de clase, antes de que los alumnos hayan tenido tiempo de mejorar, para
que la validación se considere concurrente y predictiva.
En muchas de las circunstancias en que se desarrollan las pmebas, es poco prác
tico, si no im posible, recoger datos externos sobre los candidatos a la prueba.
Puede resultar que la institución responsable de la pmeba no tenga control alguno
o acceso a los alumnos una vez se ha administrado la pm eba; puede ser que no
176
La validez de constructo
se puedan establecer criterios relevantes dada la diversidad de motivos por los

que los alumnos hacen la prueba; o puede tratarse de que no haya recursos dis
ponibles para realizar estudios de validación especiales. En tales casos puede ser
útil llevar a cabo un estudio del examen com o tal, para ver cómo se relacionan
entre sí las distintas partes y por consiguiente averiguar qué evalúa el examen.
Esto se discutirá a continuación bajo el título de validez de constructo.
8.5. La validez de constructo

Se ha dejado la discusión sobre la validez de constructo para el final, en parte
porque es el concepto m ás difícil de explicar y en parte porque algunos evalua
dores creen que es una forma superior de validez a la que contribuyen tanto la
validez intem a como la externa. Ebel y Frisbie, 1991, dan la siguiente explica
ción de la validez de constructo:
El término constructo se refiere a un constructo psicológico, una
conceptualización teórica sobre un aspecto del comportamiento humano
que no puede medirse u observarse directamente. Ejemplos de constructos
son la inteligencia, la motivación para un fin, la ansiedad, el
aprovechamiento, la actitud, el dominio y la comprensión de lectura. La
validación del constructo es un proceso de recogida de datos para
demostrar que una prueba dada mide en realidad el constructo psicológico
que sus elaboradores intentan medir. El objetivo es determinar el
significado de los resultados de la prueba, para asegurar que significan lo
que se cree que significan (página 108).
Una explicación más breve es la dada por Gronlund, 1985, para quien la vali
dación de constructo m ide «e n qué grado la actuación en una prueba puede
interpretarse como una medida significativa de alguna característica o cualidad»
(página 58).
8.5.1. La comparación con la teoría

Para algunos teóricos de la evaluación, la validez de constructo es una forma de
validación que im plica en esencia la valoración de hasta qué punto la prueba
está basada de forma clara en la teoría que la subyace. Nótese que en este enfo
que la teoría en sí no se cuestiona: se da por sentado. El tema es si la pm eba es
una buena puesta en práctica de la teoría. En efecto, esta form a de validación
del constmcto funciona de forma similar a la validación del contenido: se selec
cionan expertos, se les da una definición de la teoría que subyace la prueba y se
les pide que emitan juicios de opinión cuando hayan analizado la prueba desde
el punto de vista de la validez de constructo.
8.5.2. Correlaciones internas

Como m encionam os anteriormente, una forma de evaluar la validez de cons
tructo de una prueba es haciendo correlaciones entre las distintas partes de la
prueba. Puesto que la razón para tener diferentes componentes en una prueba
177
La validación
es que todos ellos m idan algo distinto y por lo tanto contribuyan a la visión de
conjunto que se intenta obtener sobre la habilidad lingüística m ediante la
prueba, deberíam os suponer que las correlaciones serán bajas, posiblem ente
entre + 0 ,3 y + 0 ,5 . Si dos partes tienen una correlación m uy alta, digam os de
+ 0 ,9 , podrem os suponer que las dos partes de la prueba son en esencia lo
m ism o. Si este es el caso, podem os decidir desechar una de las dos. Las corre
laciones entre cada parte de la prueba y toda la prueba, por otra parte, se puede
suponer que serán más altas, al menos de acuerdo con la teoría clásica de la eva
luación, posiblemente alrededor de + 0 ,7 o más, puesto que la puntuación glo
bal se considera una m edida más general de la habilidad lingüística que la
obtenida en cada parte de la prueba. Obviamente, si la puntuación de este com
ponente se incluye en la puntuación global, la correlación será en parte la resul
tante entre este componente consigo m ism o, lo que aumentará la correlación
de forma artificial. Por este m otivo es habitual que en estudios de correlación
intema se correlacionen los componentes de una prueba con la puntuación glo
bal menos el componente en cuestión.
T a bla 9 . 1 . Matriz de correlación entre partes de una prueba

Lectura Competencia Expresión Expresión Total Total
lingüística escrita oral menos
componente
Lectura - 0,53 0,27 0,44 0,73 0,50
Competencia
0,53 - 0,43 0,66 0,84 0,72
lingüística
Expresión
0,27 0,43 - 0,45 0,66 0,46
escrita
Expresión
0,44 0,66 0,45 - 0,86 0,66
oral
Total 0,73 0,84 0,66 0,86 - -
n = 2,443
Datos sacados de Alderson, Wall y Clapham, 1986.
En la matriz de correlación citada la correlación m ás alta es la existente entre

los componentes de competencia, que consisten en una serie de pruebas de tipo
cloze y c-tests, y la pm eba de expresión oral (0,66). La correlación está por encima
de lo que podría esperarse si las pruebas en realidad evalúan distintas destrezas,
pero la coincidencia no es lo suficientemente grande com o para sugerir a los
redactores la supresión de una de las dos partes. Todas las partes excepto la de
expresión escrita tienen correlaciones con la pm eba global por encima de un
0,7. El hecho de que la correlación entre la expresión escrita sea más bien baja
(+ 0 ,6 6 ) puede deberse al hecho de que este prueba resultó ser poco fiable, y
las correlaciones entre las pruebas no fiables muestran coeficientes bajos puesto
que los resultados se deben al factor suerte. Las correlaciones de las partes de
competencia lingüística y de expresión oral con la nota global están por encima
178
La validez de constructo
de + 0 ,8 . Esto muestra que ambos componentes influyen de forma importante

en la puntuación global final. Cuando cada una de esta pruebas se correlaciona
con la puntuación global menos ella misma, las correlaciones se reducen a + 0 ,7 2
y a + 0 ,6 6 . De todas formas, estas correlacions son todavía las más altas entre las
partes de la prueba y el total y muestran lo importantes que son estas dos sec
ciones dentro de la serie.
Una versión algo m ás refinada de este proceso de validación del constructo
es la de hacer predicciones teóricas sobre las relaciones que hay entre los com
ponentes de la prueba a la luz de las necesidades de la teoría subyacente, y des
pués compararlas con los coeficientes de correlación.
8.5.3. Comparaciones con los datos personales de los alumnos

y sus características psicológicas
Otra forma de validación del constructo que se lleva a cabo es la de comparar la
actuación en la prueba con los datos personales y otros datos recogidos de los alum
nos en el momento de realizar la prueba. La intención es la de detectar parcialidad
en la prueba hacia grupos de alumnos según sus características personales: sexo,
edad, lengua materna, número de años estudiando la lengua... La hipótesis sería
que una prueba válida es más difícil para alumnos que han estudiado la lengua
durante un periodo de tiempo más corto, o para aquellos cuya lengua materna es
menos cercana a la lengua de la prueba que la de otros alumnos, etc.
Una alternativa sería la de comparar la actuación en la prueba con medidas
psicológicas que se consideren teóricamente relevantes. Se podría querer vali
dar una prueba de aptitud, por ejemplo, comparando la actuación en una parte
que evalúa la sensibilidad hacia la gramática con otra m edida de la habilidad
para el aprendizaje inductivo de la lengua con la que en teoría se supone que va
relacionada.
Nótese que estos procedimientos de validación son parecidos a los de validez
intema y externa discutidos con anterioridad. La diferencia es que la razón para
seleccionar los aspectos relevantes del historial de los alumnos y de sus caracte
rísticas psicológicas se derivan de la teoría.
8.5.4. Análisis multirrasgo y validación convergente y divergente

Otros procedim ientos m ás com plejos de validación del constructo, que supo
nen la utilización m ás o m enos sofisticada de la estadística, van m ás allá del
ámbito de este libro. Se remite al lector interesado a Kerlinger, 1973, y a Wood,
1991, para obtener explicaciones más detalladas. Es, sin embargo, útil en este
punto esbozar dos de estos enfoques.
Lo que Bachman, 1990 llama el «enfoque clásico hacia el diseño de estudios
de correlación para la validación del constructo» es la matriz multirrasgo-multimé-
todo (multitrait-multimethod matrix) descrita por Campbell y Fiske, 1959. Consiste en
una combinación de procedimientos de validación intem a y extema. La teoría
es que se verá que las pruebas relacionadas entre sí mostrarán correlaciones más
altas (validez convergente) que las pruebas que no tienen ninguna relación (vali
179
La validación
dez d ivergente): los alum nos responden a la prueba experim ental al m ism o
tiempo que a las otras pruebas cuyas propiedades ya se conocen (com o se hace
en la validación concurrente). W ood, 1991, da una explicación m uy clara sobre
el análisis m ultirrasgo-m ultim étodo, y variaciones sobre este procedim iento
pueden verse en estudios realizados por Bachman y Palmer, 1981,1982.
8.5.5. Análisis factorial

Otro enfoque es el del análisis factorial. Lo que hace el análisis factorial es coger
una matriz de coeficientes de correlación, que habitualmente es demasiado com
pleja de comprender en un estudio superficial, y reducir su com plejidad a pro
porciones m ás m anejables m ediante m edios estadísticos. El resultado de tal
reducción es habitualmente un pequeño núm ero de factores. Las distintas prue
bas comparadas en la matriz de correlación original se relacionarán de distintas
formas con los distintos factores (el término usado técnicamente es «cargarán»).
Existen dos variedades principales: una es el análisis factorial exploratorio y el
otro es el análisis factorial confirmatorio. En el primero, solamente se exploran
los datos para ver los factores que emergen: esto se hace mirando con qué fac
tores se relacionan de form a m ás cercana qué pruebas y etiquetando los factores
de acuerdo con esto. En la segunda, el investigador formula una hipótesis sobre
las pruebas o las partes de una prueba que previsiblemente mostrarán relación y
cómo y a continuación lleva a cabo pruebas de «confirm ación» de las hipótesis
con los datos. La razón para que estos enfoques de análisis factorial pertenezcan
a los procedimientos de validación del constructo es que los factores que emer
gen se explican o se prevén en función de una teoría - e n este caso, la teoría de
lingüística aplicada que uno tiene sobre qué debería relacionarse con qué.
8.6. Fiabilidad y validez

La relación entre la fiabilidad (véanse los capítulos 1, 4 y 6) y la validez es en
principio simple, pero en la práctica compleja y no siempre bien entendida.
En principio, una prueba no puede ser válida si no es fiable. Si una prueba no
m ide algo de form a consistente, es de suponer que no siempre lo puede m edir
de form a precisa. Por otra parte, es posible que una prueba sea fiable pero no
válida. Una prueba puede, por ejem plo, dar los m ism os resultados de form a
repetida, aunque no m ida lo que se supone que mide. Por lo tanto, aunque se
necesita fiabilidad para obtener validez, la fiabilidad por sí sola no es suficiente.
El problem a para la m ayoría de las personas responsables de exámenes es que
para maximizar la fiabilidad a m enudo es necesario reducir la validez. Las prue
bas de respuesta m últiple pueden ser m uy fiables, especialmente si contienen
suficientes ítem s, pero m uchos dirían que la actuación en una prueba de res
puesta múltiple no es una medida válida de la habilidad de un alumno para uti
lizar la lengua en el m undo real. Para tom ar un ejem plo extrem o, es posible
redactar una prueba escrita de respuesta múltiple de pronunciación que sea alta
mente fiable pero que no pueda identificar a los alumnos cuya pronunciación
180
Fiabilidad y validez
es en realidad buena o mala (véase Buck, 1989). Por otra parte, es posible admi
nistrar una prueba oral de pronunciación que sea válida, pero puede resultar
m uy difícil de corregir de forma fiable. Algunas personas argumentarán que la
fiabilidad debe sacrificarse en aras de la validez. Pero no podem os tener validez
sin fiabilidad. En la práctica, ni la validez ni la fiabilidad son valores absolutos:
hay grados de ambas y es habitual hablar de un com prom iso entre las dos: se
m axim iza una en detrimento de la otra. Lo que se decide m aximizar depende
del objetivo de la prueba y de las consecuencias para los candidatos que obten
gan un resultado inadecuado.
El análisis de las correlaciones entre partes de la prueba nos da un buen ejem
plo de los intereses divergentes de la fiabilidad y de la validez. D ijim os m ás
arriba que era en general m ejor obtener correlaciones bajas entre las distintas
partes de la prueba puesto que cada parte estaba allí para evaluar una destreza o
rasgo distinto. Sin embargo, lo que no mencionam os fue que cuanto más bajas
son las correlaciones, m enos hom ogéneos son los ítems de la prueba, y por lo
tanto más bajas son las correlaciones entre los ítems, y m ás bajo es el índice de
fiabilidad de la consistencia interna de toda la prueba. Por lo tanto una validez
de constructo alta puede comportar una baja consistencia interna.
Sin em bargo, si una prueba contiene ítem s que no son hom ogéneos, ¿sig
nifica esto que la prueba no es fiable? Puede tener un índice bajo de consis
tencia interna porque m ide distintos rasgos con la m ism a prueba, pero puede
estar m idiendo estos rasgos de form a consistente. Si este es el caso, el índice
de consistencia interna no parece que sea una form a de evaluar la fiabilidad.
Sin em bargo, puesto que indica si se están m idiendo uno o m ás rasgos, puede
constituir, aunque de form a un poco perversa, una m edida de validez. Tene
m os pues un ejem plo de un índice de fiabilidad que puede utilizarse com o un
índice de validez. Esto plantea dos problemas. El prim ero es que los conceptos
de fiabilidad y validez no están siem pre tan bien delim itados com o podría
suponerse. El segun do es que cuando calculam os un índice de fiabilidad en
particular necesitam os saber qué nos dice este índice para saber si es el apro
piado para nuestros propósitos.
En el caso de pruebas que tienen a propósito una gam a de ítem s heterogé
neos, por lo que se puede esperar un índice de consistencia interna bajo, podrí
am os decir que el índice sólo debería calcularse para las distintas partes de la
prueba y que para toda la prueba es m ejor utilizar el m étodo de comprobación
de la fiabilidad con el uso de pruebas paralelas descrito en el capítulo 4.3 y 4.5.
Con este m étodo no im porta cuántos rasgos se estén evaluando, mientras cada
prueba evalúe lo m ism o. Si las dos pruebas m uestran una correlación alta, la
prueba será fiable.
Sin embargo, tenemos aquí un problema a la hora de distinguir entre validez
y fiabilidad. Para saber si la segunda prueba es realmente paralela a la primera,
debem os hacer correlaciones entre los resultados de las dos pruebas para esta
blecer la validez concurrente de la segunda prueba. ¿Cuál es pues la diferencia
entre esta correlación, que se supone que comprueba la validez concurrente, y
181
La validación
la correlación con pruebas paralelas, que se supone que comprueba la fiabilidad?

La respuesta es que no hay diferencia: en este caso es im posible distinguir entre
validez y fiabilidad. (Para más discusión, véase Alderson, 1991,ySw ain , 1993.)
La confusión que hem os visto entre validez y fiabilidad puede llevar al eva
luador a considerar si vale la pena después de todo com probar la fiabilidad.
Hemos de decir rápidamente que sí vale la pena. Si un proceso en particular dis
cierne entre validez o fiabilidad no importa: lo que importa es que seamos cons
cientes de los problem as que tenemos. Puesto que una prueba no puede ser
válida sin ser fiable, es esencial que las pruebas se analicen todo lo que se pueda
para garantizar su fiabilidad, y si algunas de las formas de análisis resulta que
com prueban la validez y no la fiabilidad, al m enos nos dan m ás inform ación
sobre la prueba. Lo que importa en realidad es si la prueba da un resultado que
puede considerarse com o un reflejo justo y preciso de la habilidad lingüística
del candidato.
8.7. Informe sobre los tribunales de exámenes de inglés

Al comienzo de este capítulo hem os introducido la validez diciendo que era la
cuestión más importante en la evaluación de idiomas. No sólo debem os com
probar que el material que se incluye en una prueba es el apropiado para el obje
tivo con el que se elabora, sino que debem os com probar si los resultados son
precisos. ¿La prueba aprueba y suspende a los alumnos que deben aprobar y sus
pender? En su libro Assessment and Testing, W ood duda sobre los procedim ientos
de validación de los tribunales de exámenes del Reino Unido, y dice:
Si se p re gu n tara a u n tribunal de exám en es so b re la validez de su oferta, o m ás
in clu so , so b re q u é p a so s da p ara validar los resu ltad o s q u e otorg a, ¿q u é diría?
(W o od , 1 9 9 1 : 14 7 )
Estamos ahora en situación de poder responder a la pregunta.
PREGUNTA 2 5 : Además de los procedimientos seguidos para la validación aparente y de contenido

(véase capítulo 3, preguntas 16—19), los siguientes tipos de validez, a) ¿son pertinentes? b) ¿se esti
man o calculan?
Cinco tribunales no respondieron a esta pregunta o simplemente respondie
ron con brevedad. Los que respondieron dieron las siguientes respuestas:
Pertinente Estimada
1) validez concurrente Sí 6 Sí 6
2) validez predictiva Sí 4 Sí 2
3) validez de constructo Sí 4 Sí 4
Un tribunal no facilitó respuestas pero añadió el siguiente comentario: «N ece
sitaríamos m ás inform ación sobre el significado de estas preguntas y la inten
ción al preguntarlas». Otro tribunal, sin em bargo, aunque tam poco dio
respuestas detalladas, dijo:
182
L os exam in ad o res expertos p u e d e n hacer sus prevision es so b re la actuación de

lo s can d id atos en alg u n as pregu n tas o en las partes d e la p ru e b a de la q u e son
resp o n sab le s o en to d o el exam en . Tales su p o sicio n e s se contrastan con las
estadísticas de la p ru e b a antes de tom ar decision es so b re la ad ju d icación de
p u n tu acion es. El p ro c e so de ad ju d icación tam b ién tiene en cuenta los casos
in divid u ales en los q u e hay m ayor variación en la actuación de los distin tos
c o m p o n en tes de la prueba.
Otro tribunal respondió que esta pregunta no era pertinente, puesto que la
suya era una prueba oral. Esta respuesta, naturalmente, no tiene ningún sentido.
No se pidieron detalles, ni nos los dieron, sobre cóm o se estimaban o calcu
laban estos tipos de validez, pero el LCCI respondió que se estimaban de forma
«im presionista y anecdótica, no de forma matemática, todavía».
Un tribunal dio breves detalles. Sobre la validez concurrente dijo: «A medida
que vam os obteniendo datos, llevamos a cabo estudios comparativos con los
exámenes de TOEFL y de UCLES, y la comparación con nuestra propia prueba
(otra prueba para alumnos extranjeros) es una de las características clásicas de
nuestro proceso de adjudicación de resultados en los niveles superiores». Con
respecto a la validez de constructo, el tribunal respondió: «Las pruebas se estruc
turan en seis niveles, cada uno de los cuales evalúa destrezas específicas», e hizo
hincapié en que los estudios de validez predictiva «estaban planificados, pero
de momento no había suficientes candidatos como para dar estadísticas fiables».
Otro tribunal respondió que se estimaban algunos tipos de validez pero no en
todas las pruebas; sin embargo, «las compañías y las universidades que utilizan
las pruebas parecen contentas». Esto haría referencia a la validez aparente.
Un tribunal facilitó una respuesta detallada:
1) Validez concurrente. Este tipo de validez es pertinente. En realidad se h an llevado
a cab o distintas in vestigacion es com paran do [los exám en es] con entrevistas
«c a ra a cara». M ás recientem ente se está elab oran do u n a tesis doctoral [se
cita el n o m b re del alu m n o] q u e com para las actuaciones de distintos
can didatos en u n o de n uestros exám en es con los resultados ob ten idos en
entrevistas orales.
2) Validez predictiva. Existen organ izacion es q u e los utilizan [los exám en es] para
prever la capacidad d e actuación de ciertos in dividu os en el lugar de trabajo.
Por e jem p lo [la com pañ ía X ], requiere q u e su personal pase el exam en antes
de perm itirles participar en in tercam bios internacionales. D e fo rm a sim ilar,
la p ro m o c ió n a niveles adm inistrativos «in tern acion ales» en [com pañ ía Y]
req u iere un ap ro b ad o en el exam en , y tod os lo s p ro feso res en [p aís Z]
deb en dem ostrar tam bién el m ism o nivel de com petencia oral en la prueba.
N u n ca h em o s estim ado estadísticam ente la validez predictiva del exam en,
p e ro asu m im o s, p u esto q u e tales organ izacion es parecen estar satisfechas
con los resultados ob ten idos a lo largo de los añ os (1 2 en el caso de la
com pañ ía y ) , que el exam en deb e de tener la validez predictiva esperada.
Cinco de los examinadores jefes de UCLES no respondieron a esta pregunta

por lo que fue difícil hacerse una idea de lo que pasaba con los exámenes de
183
La validación
UCLES. Sin embargo, analizando las respuestas parece que hay una gran varia
ción de un examen a otro, y de una parte a otra. Las pruebas de expresión escrita
en tres de los exámenes y en una de uso del inglés, se analizaban para com pro
bar su validez concurrente y su validez de constructo, pero no hay estudios de
validación en las pruebas de lectura, comprensión oral y expresión oral. Cuatro
de los otros exámenes no se validaban de forma sistemática, pero uno de ellos,
el IELTS se sometía a estudios específicos de validación.
A partir de las respuestas obtenidas parece que hay tribunales poco familiari
zados con los m étodos para evaluar la validación descritos en este capítulo, y
hay al m enos un tribunal que no está familiarizado con nuestra utilización del
término «validez». Esto no significa, naturalmente, que la validez no se evalúe
bajo otro nom bre, pero demuestra una falta de conocim iento de los términos
y procedimientos establecidos en la evaluación educativa.
PREGUNTA 2 6 : ¿Llevan a cabo estudios específicos de validación de sus exámenes? En caso de res
puesta afirmativa, facilite detalles.
Cinco tribunales dijeron que llevaban a cabo tales estudios, aunque es dudoso
en el caso de un tribunal puesto que la respuesta explicaba: «Se llevan a cabo
sesiones de unificación de criterios a lo largo del año, a las que asisten los ase
sores».
Otro tribunal respondió que los estudios de validez tenían lugar « a partir de
la revisión del esquem a general», pero no dio m ás detalles.
El AEB se refirió a Weir, 1983.
Un tribunal dijo que no llevaban a cabo estudios específicos pero sin embargo
añadió: «Algunas tesis de doctorado han utilizado [los exámenes] como base».
También dijo que «la English Speaking Union ha validado los exám enes». Debería
m os insistir aquí en que la aprobación de la ESU no implica la validación de la
prueba en el sentido en que se ha utilizado el término en este capítulo.
La respuesta de un centro fue «H ay proyectos en curso».
El único tribunal que nos facilitó inform ación sobre estudios de validez fue
el LCCI; aunque dijo que los estudios «eran confidenciales», añadió que «algu
nos resultados pueden publicarse» y adjuntó un artículo como ejemplo.
PREGUNTA 27: En el caso de que se administren distintas versiones de su examen, ¿se toman medi
das para garantizar que sean equivalentes?
Las respuestas de los tribunales fueron: sí, 9; no, 1; no procede, 2.
A la pregunta sobre la descripción de las m edidas que se toman, hubo dis
tintas respuestas.
Dos de los tribunales utilizaban análisis estadístico de los resultados (uno men
cionó el análisis de Rasch) y el resto dependía de las opiniones de los comités
de redacción. Cinco de los tribunales señalaron el hecho de que utilizaban los
m ismos redactores y supervisores para todas las versiones, o que todas las prue
bas de un m ism o año se analizaban en una m ism a sesión.
Un tribunal dio una respuesta m ás detallada:
184
Debate
La estructura de la p ru e b a es parecid a en to d o s lo s exám en es del m ism o nivel.

L os d istin to s n iveles so n p u n to s fijos. A parte d e las co m p ro b acio n es internas
q u e se llevan a cab o d e sp u é s de la ad m in istración d e la pru eba, n uestros
exam in ad o re s expertos n otarían si u n a parte de u n a p ru e b a es m á s fácil o m ás
d ifícil q u e las an teriores.
PREGUNTA 28: ¿Se administra más de un tipo de prueba distinto durante el mismo periodo de exa
men? En caso afirmativo, ¿qué medidas se toman para garantizar que cada tipo de prueba sea equi
valente en dificultad?
Las respuestas de los tribunales fueron: sí, 5; no, 5.
Los pasos que se dieron para asegurar la equivalencia en dificultad entre dis
tintas pruebas son los m ismos que los detallados en la respuesta a la pregunta 27.
Las tres excepciones fueron:
1. M edian te la u n ificació n d e criterios y la evaluación.
2. A través del p ro ceso de análisis de la prueba. Si aparecen discrepancias en las
actuaciones de los candidatos, se solucion an a la h ora de decidir los lím ites
entre pun tuacion es en la reun ión para la determ inación de las calificaciones.
3. El tribu nal fu n cio n a con u n sistem a « a p e tic ió n », con lo q u e lo s distin tos
cen tros e sc o g e n el día y la h ora d e la realización del exam en . El com ité de
red acció n garan tiza la co m p arab ilid ad y la ad ecu ación de los ítem s. El nivel
de dificu ltad está d eterm in ado p o r el fo rm ato de lo s exám enes.
Puede deducirse de las respuestas a las preguntas 27 y 28 que la mayoría de

los tribunales no llevan a cabo comprobaciones estadísticas sobre la equivalen
cia de sus exámenes. En general confian en sus comités de redacción o supervi
sión para la administración de exámenes equivalentes y para identificar aquellas
partes que puedan resultar demasiado fáciles o demasiado difíciles.

Los únicos docum entos que recibim os relacionados con la validez fueron un
inform e confidencial de UCLES, que discutía distintas formas de llevar a cabo
estudios de validación, y un documento de LCCI producido en marzo de 1989,
titulado Policy and Practice for Assessment: A Guide for Examinen and Assessors. Este folleto
da detalles de la política y de la práctica que debería guiar las actividades de eva
luación del Instituto. Describe lo que el Instituto hace y por qué lo hace. Un
apartado del documento está dedicado a los asuntos de fiabilidad y validez.
8.9. Debate
Vimos en el capítulo 3 que la mayoría de los tribunales emplean gran cantidad de
tiempo y energía en la redacción de sus ítems, concentrándose en los problemas
relacionados con la validez aparente y de contenido. Sin embargo, salvo una o dos
excepciones, parece, por los resultados de nuestro informe, que no analizan si sus
185
La validación
exámenes son válidos en la práctica. De la misma forma que muchos tribunales con
fían en que hay ítems que funcionan bien sin ningún ensayo previo, también parece
que confían en que sus exámenes son válidos sin confirmación empírica alguna.
Vale la pena citar los comentarios de W ood sobre los procedimientos de vali
dación de los tribunales de exámenes del Reino Unido. Nótese que estos comen
tarios hacen referencia a los tribunales de exámenes del Reino Unido en general
y no sólo a los de inglés com o lengua extranjera.
Los tribu n ales d e exám en es h an ten ido suerte en n o en zarzarse en u n a
d iscu sió n so b re la validez. Al con trario de la fiab ilid ad , la validez n o se p resta
a in fo rm e s sen sacion alistas. Sin em b arg o , el nivel de o lvido de la validez p o r
parte de lo s cen tros es o b v io u n a vez se centra la aten ción sob re el tem a.
Siem pre q u e lo s cen tros argu m en tan q u e están m id ie n d o la cap acid ad de
em itir ju icio s claros y razon ad os, o la cap acid ad d e llegar a con clu sio n es
(a m b o s e jem p lo s del exam en d e ec o n o m ía d e IGCSE), tien en la
re sp o n sa b ilid a d d e al m e n o s intentar u n a valid ació n d e las m e d id a s [...] L os
tribunales sab en tan p o c o so b re lo q u e están evalu an d o q u e si, p o r e jem p lo , se
les dijera q u e lo s p ro feso re s están evalu an d o h ab ilid ad es (in teligen cia) y n o
ap rovech am ien to , lo s tribu nales n o estarían e n p o sic ió n d e p o d e rse defender.
(W o o d , 1 9 9 1 : 1 5 1 )
De nuestro debate sobre el tema de la validez debe desprenderse que la vali

dación de pruebas, y en particular la realización de m étodos externos de vali
dación, es largo y difícil. Sin em bargo, no podem os tom ar la validez por
descontado. Debemos esforzamos en comprobar que una prueba realmente eva
lúa lo que se supone que evalúa y lo hace de form a precisa.
8.10. Sumario
Tipos de validez Procedimientos de evaluación
Validez interna
Validez aparente Cuestionarios y entrevistas a candidatos, adm inis

tradores y otros usuarios.
Validez de contenido a) Comparar el contenido de la prueba con las espe
cificaciones y el programa.
b) Cuestionarios y entrevistas a «ex p erto s», com o
profesores, especialistas en la materia, especialis
tas en lingüística aplicada.
c) Los expertos valoran los ítem s y los textos de la
pm eba de acuerdo con una lista detallada de cri
terios.
Validez de respuesta Los alumnos hacen introspección sobre su proceso de
respuesta a la pm eba, ya sea al m ism o tiempo que la
hacen, ya sea de forma retrospectiva.
186
Bibliografia
Validez externa
Validez concurrente a) Estudiar las correlaciones entre los resultados de
los alumnos y los resultados en otras pruebas.
b) Estudiar las correlaciones entre los resultados de
los alumnos y las valoraciones de los profesores.
c) Estudiar las correlaciones entre los resultados de
los alumnos y otras medidas de sus capacidades,
com o las valoraciones de los estudiantes o de los
profesores.
Validez predictiva a) Estudiar las correlaciones entre los resultados de

los alumnos con los resultados de pruebas reali
zadas poco después.
b) Estudiar las correlaciones entre los resultados de
los alumnos y el éxito en los exámenes finales.
c) Estudiar las correlaciones entre los resultados de
los alum nos y otras m edidas de sus capacidades
obtenidas un poco después, tales com o las valo
raciones del profesor experto en la materia o del
profesor de idiom as.
d) Estudiar las correlaciones entre los resultados de
los alumnos y el éxito de la nivelación realizada.
Validez de constructo
a) Estudiar la correlación de cada parte de la prueba
con las otras partes.
b) Estudiar la correlación de cada parte de la prueba
con la prueba en su totalidad.
c) Estudiar la correlación de cada parte de la prueba
con la prueba en su totalidad menos la parte ana
lizada.
d) Comparar los resultados de los alumnos con sus
datos personales y características psicológicas.
e) Estudios multimétodo-multirrasgo.
f) Análisis factorial.
Bibliografia
A lderson, J. C. (1 9 8 8 b ). « N e w Procedures fo r V alidating Proficiency Tests o f ESP?
T h eory an d P ractice.» Language Testing, S (2 ), p ig s . 2 2 0 - 2 3 2 .
A lderson , J. C. ( 1 9 9 0 ). «T e stin g R eadin g C om p reh en sion Skills (Part T w o ): G etting
Studen ts to Talk ab ou t T aking a R eadin g Test (A Pilot S tu d y ).» Reading in a Foreign
Language, 7 (1 ), p ig s . 4 6 5 - 5 0 2 .
A lderson , J. C. ( 1 9 9 1 ). «D is-sp o rtin g L ife .» En A lderson J. C. y B. N orth, (e d s.),
Language Testing in the 1990s. M acm illan , L ondres.
187
La validación
A lderson, J. C. ( 1 9 9 3 ). «Ju d g e m e n ts in L an gu age T e stin g .» En D. D ou glas, y C.

Chapelle, A New Decade of Language Testing. TESOL, A lexandria, V irginia.
A lderson, J. C. y Y. L ukm an i ( 1 9 8 9 ). «C o g n itio n an d Levels o f C o m p reh en sio n as
E m b o d ied in Test Q u e stio n s.» Reading in a Foreign Language, 5 (2 ), p ig s . 2 5 3 —2 7 0 .
A lderson, J. C. y B. N orth (e d s.), ( 1 9 9 1 ). Language Testing in the 1990s. M acm illan,
Londres.
A lderson, J. C , D. W all y C. M. C lapham ( 1 9 8 6 ). An Evaluation of the National Certificate in
English. Centre for R esearch in L an gu age E ducation, U n iversid ad de Lancaster.
A m erican Education R esearch A ssociation , A m erican Psych ological A ssociation , y
N ation al C oun cil on M easurem en t in Education ( 1 9 8 5 ). Standard for Educational and
Psychological Testing. A m erican P sy ch ological A ssociation , Inc., W ash in gton , DC.
B achm an, L. F. ( 1 9 9 0 ). Fundamental Considerations in Language Testing. O x fo rd U niversity
Press, O xford.
Bachm an, L. F., A. K unnan, S. V an niariajan y B. Lynch ( 1 9 8 8 ) . «T ask an d A bility
A nalysis as a B asis fo r E xam in in g C ontent and C onstruct C om p arab ility in T w o EFL
Proficiency Test B atteries.» Language Testing, 5, p ágs. 128—160.
Bachm an, L. F. y A. S. Palm er ( 1 9 8 1 ). «A M ultitrait-M ultim ethod In vestigation in to
the C on struct V alidity o f Six Tests o f L isten in g and R e a d in g .» En A. S. Palm er, P. J.
M. G root y G. A. T rosp er (e d s.), The Construct Validation of Tests of Communicative
Competence. TESOL, W ash in gton , DC.
Bachm an, L. F. y A. S. Palm er (1 9 8 2 ). «T h e Construct V alidation o f Som e C om pon ents
o f C om m u nicative Proficien cy.» TESOL Quarterly, 16 (4 ), p ig s . 449^4-65.
Buck, G. ( 1 9 8 9 ). «W ritten Tests o f Pron un ciation: D o Th ey W o rk ?» English Language
Teaching Journal, 4 1 , p ig s . 5 0 - 5 6 .
C am pbell, D. T. y D. W . Fiske ( 1 9 5 9 ). «C o n v ergen t and D iscrim in ant V alidation b y
the M u ltitrait-M ultim ethod M a trix .» Psychological Bulletin, 5 6 , p ig s . 8 1 - 1 0 5 .
Carroll, B. J. ( 1 9 8 0 ). Testing Communicative Performance. P ergam on , Londres.
Carroll, B. J. ( 1 9 8 5 ). «S e c o n d L an gu age P erform ance T estin g o f U n iversity and
Profession al C o n te x ts.» En P. C. H auptm an , R. LeBlanc y M. B. W esch e (e d s .) ,
Second Language Performance Testing. U n iversity o f O ttaw a Press, Ottawa.
C lapham , C. M. ( 1 9 9 2 ) . The Effect of Academic Discipline on Reading Test Performance.
C on trib u ció n presen tad a en el L an gu age T estin g R esearch C o llo q u iu m , Princeton,
NJ.
Cohen, A. D. ( 1 9 8 4 ). « O n T akin g Tests: W hat the Students R e p o rt.» Language Testing, 1
(1 ) . p ig s . 7 0 - 8 1 .
Criper, C. y A. D avies ( 1 9 8 8 ). ELTS Validation Project Report, ELTS R esearch R eport 1 (I).
The B ritish C oun cil y U n iversity o f C am b rid ge Local E xam in ation Syndicate,
L on dres y C am b rid ge.
Ebel, R. L. y D. A. Frisb ie ( 1 9 9 1 ) . Essentials of Educational Measurement. 5* edició n ,
Prentice-H all, E n g le w o o d Cliffs, NJ.
Faerch, C. y G. K asper ( 1 9 8 7 ). Introspection in Second Language Research. M ultilin gual
M atters, C levedon.
G ron lun d, N . E. ( 1 9 8 5 ) . Measurement and Evaluation in Teaching. M acm illan, N ueva York.
G rotjahn, R. ( 1 9 8 6 ). «T e st validation and cogn itiv e p sy ch o lo gy : so m e
m e th o d o lo g ic al c o n sid e ratio n s.» Language Testing, 3 (2 ), p ig s . 159—185.
H en n in g, G. ( 1 9 8 7 ). A Guide to Language Testing. N ew b u ry H o u se, C am b rid ge, M ass.
In gram , E. ( 1 9 7 7 ) . «B a sic C on cepts in T e stin g .» En J. P. B. Allen y A. D avies (e d s.),
Testing and Experimental Methods. O x ford U n iversity Press, O xford.
188
Bibliografía
K erlinger, F. N . ( 1 9 7 3 ). Foundations of Behavioral Research. H olt, Rinehart an d W inston,

N u eva York.
M o rro w , K. (1 9 7 9 ). «C o m m u n icativ e L an gu age T esting: R evolution or E volu tion ?»
En C. J. B rum fit y K. Jo h n so n (e d s.), The Communicative Approach to Language Teaching.
O x fo rd U n iversity Press, O xford.
M o rro w , K. ( 1 9 8 6 ). «T h e Evaluation o f Tests o f C om m u n icative P erfo rm an ce.» En
M. Portal (e d .), Innovations in Language Testing. N FER-N elson, W in dsor, Berks.
Stevenson, D. K. ( 1 9 8 5 ). «A uth en ticity, V alidity and a T ea Party.» Language Testing, 2
(1 ), p a g s. 4 1 —47.
Sw ain, M. ( 1 9 9 3 ). «S e c o n d L an gu age T estin g an d Second L an gu age A cquisition : Is
T h ere a C on flict w ith T radition al P sy ch om etrics?» Language Testing, 10 (2 ), pags.
1 93-207.
T h orn dike, R. L. y E. P. H agen ( 1 9 8 6 ). Measurement and Evaluation in Psychology and
Education. M acm illan, N ueva York.
W all, D ., C. M. C lap h am y J. C. A lderson ( 1 9 9 4 ). «E valu atin g a Placem ent T e st.»
Language Testing, 11 (3 ), p a g s. 3 2 1 —3 4 3 .
W eir, C. J. ( 1 9 8 3 ). «Id e n tify in g the L an gu age Problem s o f O verseas Students in
Tertiary E ducation in the U n ited K in g d o m .» Tesis doctoral. U n iversid ad de
Lon dres.
W o o d , R. ( 1 9 9 1 ). Assessment and Testing: A survey of Research. C am b rid ge U niversity Press,
C am b rid ge.
189
9 Los informes posteriores a la prueba
En este capítulo se discute por qué es importante escribir inform es una vez ter
m inada y administrada la prueba. Los inform es podrán ir dirigidos a distinto
tipo de público y las características de cada informe, según el público a quien
va dirigido, se describen con detalle.
9.1. La importancia de los informes posteriores a la prueba

Las pruebas tienen importantes consecuencias para los candidatos y para los que
utilizan sus resultados. Es pues responsabilidad de los que elaboran las pruebas
el facilitar toda la información que puedan sobre la validez, la fiabilidad y el sig
nificado de las pruebas y de sus resultados. Aspectos com o el de la responsabi
lidad ante el público empiezan a discutirse en los círculos de evaluación, aunque
todavía no se han establecido o acordado criterios específicos para las pruebas
de idiom as por parte de los responsables de la investigación y elaboración de
las mismas. Sin em bargo, está claro que las presiones para conseguir tales crite
rios y para obtener inform ación sobre los instrum entos de los redactores de
pruebas aumentarán (véase capítulo 11).
Además, se dedica m ucho tiem po y energía a la preparación de pruebas de
idiom as, y puede aprenderse m ucho de todos los estadios del proceso de eva
luación. Es p or tanto im portante que las instituciones tengan archivos de sus
decisiones, sus procedim ientos, los anáfisis que llevan a cabo sobre los resulta
dos de las pruebas y los comentarios que reciben, y que pasen la inform ación
al público que consideren apropiado.
El público m ás obvio lo constituyen las personas que trabajan en la m ism a
institución: los que tienen el encargo de elaborar las futuras versiones de las
pruebas y de coordinar las actividades relacionadas con la elaboración de prue
bas (ensayos previos, administración, corrección, etc.) Estas personas necesita
rán información detallada que les ayude a tomar las decisiones adecuadas sobre
la práctica de la institución en el futuro.
Otro público obvio son los profesores que han preparado a los candidatos del
año en curso y que prepararán a otros alumnos en un futuro. Estas personas no
necesitan tanto información técnica com o resúmenes de cómo lo han hecho sus
alumnos y consejos sobre cóm o preparar al próxim o grupo de forma más eficaz.
Hay también otras personas que pueden necesitar información sobre las prue
bas: entre estas se hallan los administradores de otras instituciones que quieren
saber si pueden utilizar la prueba, o si pueden aceptar sus resultados, y los pro
190
Los inform es posteriores a la prueba para la propia institución
fesionales del m undo de la evaluación y otros cam pos relacionados, que están
interesados en saber cómo asumen los retos clásicos planteados por la validez,
la fiabilidad y las cuestiones prácticas los distintos tribunales de exámenes.
Cada institución debe decidir por sí m ism a el público al cual quiere dirigirse
y considerar a continuación la clase de información que puede resultar más útil
para este público. Sin embargo, uno de los asuntos más importantes es la res
ponsabilidad ante el público, por eso debería publicarse una inform ación
mínima para todas las partes interesadas.
En el apartado que sigue discutiremos la clase de información que interesa a
cada tipo de público y revisarem os los inform es posteriores a la prueba que
hemos recibido de distintos tribunales de exámenes, para ver si lo hacen y cómo
lo hacen.
9.2. Los informes posteriores a la prueba

para la propia institución
Un informe posterior a la prueba elaborado para la propia institución cumple
dos funciones:
1. Sirve como informe histórico de la prueba, mostrando cómo funcionaron

en la práctica los diferentes aspectos de la prueba.
2. Sirve com o guía para la elaboración de futuras pruebas, con recomenda
ciones para m ejorar los aspectos de la prueba actual que no funcionaron
bien.
Hay varios tipos de información que la institución necesita recoger y anali

zar para decidir si la prueba resultó satisfactoria. El tribunal de exámenes debe
ría inform ar sobre las estadísticas relevantes y sobre su interpretación de las
cifras. También debería resumir lo que se ha aprendido a partir del análisis de
las notas tomadas durante puntos clave en el proceso, examinando los comen
tarios recogidos de los participantes im portantes a lo largo del proceso y del
estudio de la actuación de los candidatos.
9.2.1. Información estadística

Puede que no sea posible para una institución recoger toda la información que
quisiera de todos sus candidatos, sobre todo si hay un gran núm ero de ellos,
pero debería hacerse un esfuerzo para recoger datos de al menos una muestra
de la población. Es siempre aconsejable consultar a un especialista en estadística
para la educación con el fin de determinar la m edida de una muestra adecuada
para una población en concreto, al igual que para discutir el m ejor método de
escoger la muestra.
Los datos m ás im portantes para recoger son los resultados de cada ítem de
corrección objetiva y los puntos otorgados por cada parte de corrección subje
tiva. Con estos datos podrán reconstruirse de forma precisa los resultados tota
les de las secciones y del total de la prueba.
191
Los informes posteriores a la prueba
Es también im portante recopilar las puntuaciones otorgadas por todos los

correctores que participen en un estudio de fiabilidad entre correctores del tipo
descrito en el capítulo 6.
Los análisis sobre los que se debería informar son los siguientes:
1. Estadísticas descriptivas para toda la prueba y para cada una de sus partes:
histograma, m edia, m oda, m ediana, rango y desviación típica.
2. Análisis de ítems para cada ítem de corrección objetiva: coeficiente de difi
cultad e índice de discriminación.
3. Correlaciones entre las distintas partes de la prueba y entre cada parte y el
total de la prueba m enos ésta.
4. Fiabilidad de cada sección de corrección objetiva.
5. Fiabilidad de la corrección de cada sección de corrección subjetiva.
Los detalles de cómo llevar a cabo los primeros cuatro análisis se encuentran en
el capítulo 4, y los detalles sobre el quinto están en el capítulo 6. Los resultados
deberían indicar si las diferentes partes de la prueba se comportan como debieran
y si no, dónde parecen encontrarse los problemas. Esta información estadística
puede combinarse con la clase de información descrita m ás adelante para deter
minar si las partes de la prueba que plantean problemas tenían defectos intrínse
cos o si los problemas se debieron a una preparación inadecuada de los candidatos
o a una prueba mal administrada que produjo resultados inesperados.
Deberían darse explicaciones sobre cualquier problem a detectado, junto con
las recomendaciones sobre cóm o evitar tales problem as en el futuro.
9.2.2. Resultados de las observaciones

Debería haber observadores presentes durante la administración de la prueba,
el programa de formación para los exam inadores y las sesiones de corrección.
Los observadores deberían tener una lista de los aspectos específicos que han de
tener en cuenta durante la observación de cada procedim iento, aspectos que
deberían estar claramente im presos en un docum ento de observación. Las
siguientes tres preguntas podrían form ar parte de un docum ento de observa
ción durante la administración de una prueba:
1. El administrador comprueba
la identidad de los candidatos. SÍ NO
Problemas: _____________________________________
2. El administrador lee las instrucciones dos veces. SÍ NO
Problemas: _____________________________________
3. Todos los candidatos pueden oír al administrador SÍ NO
Problemas: _____________________________________
Debería redactarse un inform e indicando si la administración, la formación,

la corrección, etc. se desarrollaron sin incidentes y describiendo los problem as
192
Los inform es posteriores a la prueba para la propia institución
que pudieron haber influido en los resultados de los candidatos tanto favorable
como negativamente. Ejemplos de los problemas que pueden afectar a los resul
tados son:
El administrador no evita que los candidatos hablen durante la prueba. (Los
candidatos pueden intercambiar información y / o im pedir la concentración
de los que se encuentran a su alrededor.)
El profesor que está dictando un texto a los candidatos pronuncia m al varias
palabras. (Los candidatos no entienden el sentido del texto y por tanto no
comprenden otras palabras que han sido bien pronunciadas.)
Después de la sesión de formación, el examinador jefe no envía a los exami
nadores una versión revisada de las escalas de puntuación para la expresión
escrita. (Los examinadores terminan usando la escala original, que contiene
conceptos «desdibujados», una redacción poco clara, etc., resultando así difí
cil una corrección consistente.)
Durante la corrección de la expresión escrita se permite a los examinadores
que escriban sus comentarios encima de los ejercicios escritos de los candi
datos. (Los exam inadores que deben hacer una segunda corrección se sien
ten influidos por los comentarios de los primeros correctores.)
9.2.3. Resultados de los comentarios posteriores

Deberían recogerse los comentarios de los administradores, los candidatos y los
examinadores de forma regular, utilizando cuestionarios sobre aspectos especí
ficos de la prueba. Por ejemplo:
1. ¿Comprendió las instrucciones de la tarea 1
de expresión escrita? SI NO
2. ¿Se requería el número de palabras adecuado? SÍ NO
Deberían incluirse resúmenes de esta inform ación en el inform e junto con

recomendaciones sobre cómo mejorar el proceso en el futuro. Ejemplos del tipo
de ayuda que puede obtenerse con esta información son los siguientes:
Las instrucciones dadas a los administradores decían que la prueba debía durar
30 m inutos y las instrucciones dadas a los candidatos decían que duraría 35
m inutos. (Hubo confusión durante los últim os cinco m inutos de la prueba
puesto que tanto los administradores com o los candidatos intentaron decidir
qué instrucciones eran las correctas.)
El redactor de la prueba pretendía cubrir todo el libro de texto, pero la mayo
ría de las clases que se presentaron a la prueba no pasaron de la penúltima
lección. (Esto no invalidaría la prueba, pero explicaría la mala actuación de
los candidatos en alguno de los ítem s.)
A los exam inadores no les gustó la regla que decía que los candidatos que
escribieran al menos seis palabras obtendrían un 1 en la escala de puntuación
de 5 pinitos. (Esto podría explicar por qué había m ás puntuaciones de 0 de
lo esperado.)
193
T
Los inform es posteriores a la prueba
9.2.4. Análisis de los ejercicios escritos de los candidatos

Esto pueden llevarlo a cabo com o una operación independiente los jefes de
equipo o el examinador jefe, o puede formar parte de la recogida de comenta
rios por parte de los examinadores. El objetivo del análisis es encontrar el tipo
de problem as que los candidatos tuvieron con ciertos ítem s o tareas. Si, por
ejemplo, un análisis de ítems (véase el capítulo 4) revela que un ítem de lectura
con respuesta abierta en particular funciona mal, vale la pena repasar los exá
menes de los candidatos para ver si hay algún esquema o patrón en las respuestas
incorrectas que dé inform ación sobre la fuente del problem a. No es raro que
durante el análisis de los ejercicios escritos de los candidatos se descubran pro
blemas en un ítem o en una tarea que hayan escapado a la atención de redacto
res y supervisores. Ejemplos de problem as de este tipo son:
La tarea de expresión escrita pide a los candidatos que escriban un conjunto

de norm as. Los que escriben buenas norm as utilizan, com o es natural, una
sintaxis sim ple, por ejem plo: «Seca lo m ojad o». Por desgracia, la escala de
puntuación no perm ite que se otorgue una puntuación alta a no ser que se
hayan utilizado frases complejas. La consecuencia es que incluso los m ejores
candidatos obtienen puntuaciones bajas. Muchos candidatos responden de
forma incorrecta a un ítem que sólo requiere un cálculo aritmético. El hecho
de que m uchos den la m ism a respuesta incorrecta lleva al analista a darse
cuenta de que el texto original contiene una frase ambigua, que puede inter
pretarse legítimamente de forma no prevista por el redactor de la prueba.
Un análisis de los ejercicios escritos tam bién revelará los problem as de los
candidatos que simplemente no tienen la competencia requerida para una buena
actuación. En estos casos puede que la culpa no sea de la prueba.
9.2.5. Análisis de las características del candidato

y detección de parcialidad
A la institución le puede interesar en recoger datos sobre los candidatos para
poder com parar las actuaciones de distintos grupos de personas. Este tipo de
comparación, que puede hacerse por sexo, región, lengua materna, edad, etc.,
a veces revela parcialidad en algunos ítem s o tareas. Por ejem plo, el análisis
puede revelar que los candidatos jóvenes tienen m ás problem as que otros en
secciones de la prueba que presuponen conocimientos de cultura general más
allá de su nivel de experiencia. De form a similar, se puede descubrir que los
candidatos de una lengua en especial tienden a tener más problem as con cier
tos tipos de ítems que otros candidatos de otras lenguas. Si la organización de
la prueba hace descubrimientos de este tipo, deberá decidir si usar los m ism os
tipos de prueba o cambiarlos para adaptarse a los candidatos.
Estas decisiones dependerán de m uchos factores. Por ejem plo, si un centro
dice que una prueba es apropiada para todas las edades, puede que tenga que
reconsiderar la utilización de los ítem s que sólo pueden responder satisfacto
194
Inform es posteriores a la prueba para profesores...
riamente las personas mayores. Sin em bargo, si se ha prom ocionado siempre

una prueba como apropiada para personas mayores, el hecho de que los candi
datos m ás jóvenes la realicen peor no debería plantear un problema. En el caso
de un cierto tipo de ítem que demuestra ser más difícil para los candidatos de
una lengua en particular que para el resto, la organización debería considerar si
el tipo de ítem en concreto es la única forma de evaluar un cierto tipo de cono
cimiento y si este conocimiento es una característica indispensable de la prueba.
Si esto es así, los redactores y el grupo que ha tenido problemas deberá aceptar
que la prueba es «ju sta » y que este grupo tiene, necesariamente, m ás proble
mas. Sin embargo, también podría darse el caso de que se encontrara otra forma
de evaluar el m ism o tipo de conocimiento sin perjudicar a un grupo con res
pecto a los demás.
9.2.6. Comparación con estadísticas de versiones previas

de la prueba
Es importante para la institución saber cómo se relaciona una prueba con las ver
siones anteriores. ¿Resultó ser de una dificultad parecida? ¿Era fiable en los años
anteriores? ¿Se aplicaron las mismas notas para aprobar? ¿La distribución de notas
fue parecida? Aunque los evaluadores intenten producir pruebas que son de difi
cultad equivalente, y puedan organizar los ensayos previos, el análisis y la edi
ción de pruebas de form a que esto se garantice, cualquiera de los factores
mencionados en los apartados anteriores, u otros que son ajenos a la pmeba (pro
blemas políticos, por ejemplo) pueden producir resultados imprevistos.
9.3. Informes posteriores a la prueba para profesores

que preparan a sus alumnos para la misma
El segundo tipo de público que más claramente se beneficia de los informes pos
teriores a la prueba lo constituyen los profesores que han preparado alumnos
para la prueba que se ha administrado y que prepararán nuevos alumnos para
futuras versiones. Tal com o se dijo en el apartado 1, estos profesores no nece
sitan tanto información técnica como resúmenes de las clases de problemas que
los candidatos tuvieron en las distintas partes de la prueba y recomendaciones
sobre cóm o preparar a los candidatos de forma m ás eficaz en el futuro. Véase
que aunque nos referim os a profesores en este apartado, no hay motivo para
que esta inform ación no esté también a disposición de los alumnos, de forma
directa o a través de sus profesores.
Los profesores que también son responsables de la administración de la pmeba
querrán saber qué problem as relativos a dicha adm inistración afectaron a la
actuación de los candidatos, y si ellos (y sus compañeros) necesitan prestar más
atención a ciertos aspectos relativos a la administración.
La clase de información que desearán poseer los profesores o que necesitarán
comprender se describe en los apartados siguientes.
195
9 . 3 . 1. Información estadística referente a la población

de la prueba y a su actuación en la misma
y en cada una de sus secciones
Este tipo de inform ación no es vital para los profesores o los alum nos que se
preparan para la prueba, pero es útil porque dará a los alumnos una m ejor idea
de cómo se desenvuelve el resto de los candidatos y de cómo puede compararse
su actuación con la de los demás.
La inform ación que puede resultar interesante para cada prueba sería la
siguiente:
¿Cuántos candidatos se presentaron a la prueba o a cada nivel de la m ism a?

¿Qué características tenían—sexo, nacionalidad, lengua materna, edad, etc.?
¿Cómo resultó la distribución de las puntuaciones —cuántos aprobados, nota
bles y sobresalientes se dieron para cada prueba o para cada nivel?
¿Cuáles fueron las notas m edias y las desviaciones típicas en cada sección de
la prueba?
¿Cómo se diferencian estas cifras de las del año pasado?
La forma m ás simple de dar este tipo de información es mediante tablas, con

breves comentarios que ayuden a los lectores a interpretar lo que están leyendo.
Estos comentarios deberían responder a preguntas como éstas: ¿Por qué la nota
para aprobar esta versión es más alta o más baja que para la versión anterior? ¿Por
qué no ha variado la proporción de candidatos que han obtenido una nota en con
creto aunque la prueba parece que ha sido más difícil que la versión anterior?
9.3.2. Clave de respuestas para los ítems de corrección objetiva y

escalas de valoración para las secciones de corrección subjetiva
No siempre resulta obvio para los profesores cómo deben responderse las pre
guntas de un examen ni tampoco cómo se puntúan destrezas como la expresión
oral o la expresión escrita. Puesto que una forma m uy corriente de preparar a
los alum nos para una prueba es utilizando exámenes antiguos, es importante
que los profesores sepan cuáles de las respuestas propuestas por sus alumnos
hubieran sido consideradas «aceptables» por el tribunal de exámenes.
Resulta también útil para los tribunales de exámenes reproducir muestras de
expresión escrita que representen distintos puntos en la escala de valoración,
para que los alumnos, al igual que los profesores, puedan discutir lo que hace
que un ejercicio escrito sea m ejor que otro.
9.3.3. Debate de cada sección de la prueba por parte de

los evaluadores: lo que se evaluaba, problemas típicos
y recomendaciones para prepararse de forma
más eficaz en el futuro
Este debate debería ponerse por escrito una vez analizados los aspectos mencio
nados con anterioridad en los apartados del 9.2.1 al 9.2.6. Es de vital importan
196
Inform es posteriores a la prueba para profesores...
cia para profesores y para alumnos, y debería constituir el cuerpo del informe.
Los evaluadores deberían, prim ero, reflejar con claridad lo que se evaluaba
en cada sección de la prueba.
A continuación, deberían indicar cóm o respondieron los candidatos a cada
sección y mencionar el tipo de problema que resultó más difícil para la pobla
ción en general o para ciertos segmentos de la población. Es importante entrar
en detalle en este punto, pero también es importante que emerjan puntos gene
rales de entre los detalles. Si los evaluadores pueden ver que los problemas que
tuvieron los candidatos con un ítem en especial están relacionados con los pro
blemas que tuvieron con otros ítems, deberían decirlo claramente, en parte por
que los profesores tal vez no vean las conexiones (si no tienen acceso a las
especificaciones para cada ítem, puede que no sean conscientes de lo que se está
evaluan do), pero tam bién porque de esta form a pueden concentrarse en los
aspectos específicos que provocaron las dificultades en esta ocasión y no en las
categorías lingüísticas más generales que pueden aparecer otra vez en versiones
futuras de la prueba.
Finalmente, los evaluadores deberían hacer recomendaciones sobre el tipo de
contenidos lingüísticos y las destrezas en las que deberían hacer hincapié los
candidatos en el futuro, o sobre técnicas que pueden resultar útiles para los can
didatos con el fin de mejorar su actuación.
9.3.4. Reconocimiento de problemas en la prueba

Es importante que las instituciones que han descubierto problemas en sus prue
bas lo reconozcan. Esto ocurre a menudo tras el análisis de ítems, y los tipos de
problema que pueden surgir incluyen instrucciones ambiguas, inclusión de con
tenidos o destrezas que no están en el programa, etc. El hecho de que un orga
nism o responsable de evaluación haya com etido un error no dará mala
im presión a los profesores o a los alumnos si los evaluadores dejan claro que al
final se trató a los candidatos de manera justa.
9.3.5. Recomendaciones a los profesores sobre

la administración de la prueba
El término «adm inistración» cubre una amplia gam a de actividades, desde la
matriculación de los candidatos hasta la entrega de los resultados finales, pero
las actividades en las que más fácilmente se implicará al profesorado son las que
tienen lugar mientras los candidatos están realizando la prueba. Algunos p ro
blemas que suceden habitualmente durante las pruebas de com prensión oral
son: una m ala colocación del equipo de sonido, una acústica deficiente en la
sala de examen o interferencias causadas por ruido en los pasillos o en salas cer
canas. También pueden ocurrir problemas durante las pruebas de expresión oral,
en especial (aunque no exclusivamente) si las pruebas im plican a m ás de un
candidato al m ism o tiempo. Algunos problemas surgen porque los profesores
no se han preparado bien: puede que no hayan informado suficientemente a los
candidatos de los pasos a seguir, puede que no los hayan puesto en grupos o
197
parejas com patibles. Sin em bargo, pueden surgir otros problem as porque los
profesores pierdan el control del tiempo, den a los candidatos ayuda excesiva,
no observen las reglas de seguridad, etc. A veces, por desgracia, los profesores
no son conscientes de los procedim ientos correctos, sobre todo si no han reci
bido formación en esta área.
El inform e posterior a la prueba puede ser una manera efectiva de recordar
a los p rofesores estos p rob lem as y lo que deben hacer para evitarlos en el
futuro.
9.3.6. Información sobre futuros cambios en la prueba o en los

procedimientos que deben seguirse
Los organism os responsables de evaluación pueden tener buenas razones para
cambiar la forma general de sus pruebas, ajustar la ponderación o m odificar el
contenido lingüístico o de destrezas. El informe posterior a la prueba es el lugar
lógico para notificar a los profesores los cam bios que tendrán lugar puesto que
es el espacio natural en el que los profesores buscarán información cuando pre
paren a nuevos alumnos para futuras versiones de la prueba.
9.4. Informes posteriores a la prueba para el resto del público

Existen al m enos dos tipos de público para los informes posteriores a la prueba:
los responsables de seleccionar una prueba o decidir si aceptar sus resultados, y
otros profesionales que quieren comprender cóm o aplican en la práctica cier
tas instituciones los principios de la evaluación.
Los adm inistradores a los que nos referim os pueden trabajar en distintos
lugares: escuelas, centros de estudios superiores, de n egocios o industriales.
Pueden tener a su cargo la selección de pruebas con las que se prepararán sus
alum nos o em pleados, o pueden tener que aceptar o rechazar a un alum no
según sus calificaciones en la prueba. En ambos casos, les interesarán los m is
m os tipos de preguntas:
¿Esta prueba cubre los contenidos lingüísticos y de destrezas que nos interesan?
¿Es adecuada para el tipo de alumno o empleado que tenemos?
¿Cuáles fueron los resultados de la prueba?
¿Qué relación existe entre los resultados de nuestros alumnos y los del resto
de la población?
¿Es una prueba válida?
¿Es fiable?
Los otros profesionales a los que nos referimos pueden ser profesores, eva
luadores o investigadores que trabajan en educación o en campos relacionados.
Tendrán distintos m otivos para querer explorar m ás allá de la superficie de la
prueba que les interesa, pero una razón relativamente frecuente es que buscan
m odelos para organizar su propio sistema de evaluación. Los tipos de pregunta
que querrán hacer son a m enudo detalladas y a veces técnicas:
198
Inform e sobre los tribunales de exámenes de in g lés...
¿Qué m étodos se han utilizado para validar las pruebas?

¿Cuáles fueron los resultados de los estudios de validación?
¿Qué m étodos se han utilizado para determinar la fiabilidad de la prueba?
¿Cuáles fueron los resultados de los estudios de fiabilidad?
¿Qué investigación se ha llevado a cabo sobre esta prueba?
En algunos países, las instituciones que producen pruebas para su uso extemo
deben facilitar un m anual que contiene inform ación sobre el objetivo de la
prueba, la población a la que va dirigida, su elaboración y desarrollo, los estu
dios de validez y de fiabilidad, y la investigación en curso. Aquellos que están
interesados en averiguar si una prueba es apropiada para sus propósitos o en
saber lo que significan los resultados, consultan primero el manual. El sistema
de evaluación del Reino Unido no utiliza manuales de forma tan extensa como
otros sistemas (en reabdad los manuales son prácticamente inexistentes), por lo
que aquellos que necesitan información sobre la validez y la fiabilidad de una
prueba deben acudir a otra parte. Un posible lugar puede ser un informe pos
terior a la prueba. Este informe no debería ser tan detallado com o los informes
elaborados para uso intem o, y tampoco debería analizar y evaluar las actuacio
nes de los candidatos de la m ism a manera que lo hacen los informes para pro
fesores. No debería ser excesivamente largo, puesto que su principal objetivo
es el de inform ar a los lectores sobre hechos, no servir de prueba para tomar
decisiones o com o material de formación de profesores o alumnos.

PREGUNTA 4 4 : ¿Los examinadores jefes redactan informes? Si es así, ¿están a disposición de: a) los
profesores, b) los alumnos, c) sólo unos pocos?
En esta pregunta hemos mencionado a los examinadores jefes porque asumimos
que ellos eran las personas que deberían recoger toda la información a la que nos
hemos referido en este capítulo como «informes posteriores a la prueba».
De los doce tribunales que respondieron, tres dijeron que sólo redactaban
informes para uso intem o.
Un tribunal respondió que empezaría a producir un informe del examinador
jefe el año siguiente, y que pretendía distribuirlo a los centros examinadores.
Estos informes estarían a disposición de los alumnos de los centros educativos.
Los ocho tribunales restantes respondieron que ya producían inform es del
examinador jefe que distribuían de forma habitual o a veces enviaban a los pro
fesores; sin em bargo, uno de estos tribunales pareció referirse a los inform es
que producen para los exámenes de enseñanza secundaria de otras asignaturas,
no los exámenes de inglés com o lengua extranjera.
Este tribunal nos m andó una copia de sus inform es del exam en de nivel A
para inglés y artes aplicadas; aunque la inform ación que contenía era m uy
extensa y probablemente m uy útil para el público a que iba dirigida, no era de
interés para nuestro informe.
199
Los inform es posteriores a ¡a prueba

9.6.1. Informes posteriores a la prueba para el uso
del propio centro
Por desgracia no recibimos informes intemos de ningún tribunal de inglés como
lengua extranjera, por lo que no podem os comentar las funciones que cumplen
tales informes ni la forma que tienen. No sabemos si los tribunales tienen archi
vos de las propiedades estadísticas de sus pruebas, del seguimiento de sus dis
tintos procedim ientos, de los com entarios que reciben, de los análisis de los
ejercicios escritos de los candidatos, de los análisis para detectar distintas actua
ciones según los distintos grupos de candidatos o de la parcialidad de la prueba.
Sabemos que alguno de estos tribunales guarda la información sobre la actua
ción de los candidatos en años anteriores porqué hemos visto esta información
en los informes para profesores; sin embargo, sabem os poco más de los datos
que los tribunales analizan para su uso intemo o de cómo reaccionan a los resul
tados de sus análisis.
9.6.2. Informes posteriores a la prueba para profesores

que preparan a alumnos
Tres tribunales nos enviaron informes posteriores a los exámenes que adminis
traron en 1989 o 1990:
El JMB nos envió una copia de sus Examiners' Reports 1990, que cubría las ver
siones del UETESON de marzo y noviembre de 1990.
La Delegación de Oxford nos m andó su Armual Rcport, que cubría las versiones
de noviembre de 1989 y de marzo y mayo 1990 de la Oxford Examination in English
as a Foreign Language.
El Instituto de Exámenes de Pitman nos mandó su Examinations Report 1989, que
incluía sus exámenes de English for Speakers of Other Languages para aquel año.
Los informes de JMB y de la Delegación de Oxford se parecían en que cada
tribunal facilitaba comentarios detallados sobre los exámenes en cuestión. Hemos
seleccionado varios ejem plos de cada uno de estos tribunales para ilustrar los
puntos que querem os señalar (ver más adelante).
El informe de Pitman sobre su examen de ESOL no es m uy detallado, proba
blemente porque es sólo uno de las dos docenas de exám enes sobre los que
informa en el m ism o libro.
No recibim os copias de los informes de ningún otro tribunal, por lo que no
podem os comentar sobre su naturaleza o eficacia.
El propósito de los siguientes apartados es el de revisar la clase de inform a
ción que puede resultar útil para profesores que preparan a sus alum nos para
las pruebas y presentar fragmentos de los informes posteriores a la prueba que
hemos recibido para ver cóm o intentan los distintos tribunales dar respuesta a
las necesidades de los profesores.
200
INFORMACIÓN ESTADÍSTICA
En el apartado 9.2 afirmamos que a los profesores les interesarían cuatro tipos
de información estadística. Listamos a continuación las preguntas que hicimos
junto con la información que recibim os de JMB o de la Delegación de Oxford.
1. ¿Cuántos candidatos se presentaron para la prueba o para cada nivel de la

prueba? ¿Cuáles eran sus características: sexo, nacionalidad, lengua
materna, edad, etc.?
La Delegación de Oxford da esta información de la forma siguiente:
T abla 9 .1 .C andidatura para los exámenes de oxford por año t país ( página 3 )
Los Exámenes de Oxford de inglés como lengua extranjera
Superior Preliminar
1988 2630 1988 6538
1989 3073 1989 6988
Candidatura por países

Superior Preliminar
1989 1988 1989 1988
Argelia 38 26 105 106
Argentina 25 57 277 268
Bélgica 0 2 1 0
Brasil 579 435 219 138
Chile 2 36 95 0
Etc.
Aquí podem os ver que hay m ás candidatos para el nivel preliminar que para
el superior, y que las cifras para cada prueba aumentaron unos 400 candidatos
a lo largo del año analizado. También podem os ver en qué partes del m undo
son m ás populares estos exámenes y si los candidatos aumentan o disminuyen.
Estas cifras darán a los profesores y a sus alum nos una idea de si la prueba es
conocida o im portante en su propia parte del m undo, lo que puede ayudar a
decidir si quieren adoptarla o no.
Los tribunales no facilitaron m ás detalles sobre sus candidatos.
2. ¿Cuál fue la distribución de resultados? ¿Cuántos aprobados, notables y

sobresalientes hubo en cada examen o en cada nivel del examen?
Ninguno de los informes facilitó el núm ero de candidatos que se presenta

ron a cada nivel; sin em bargo, el informe de JMV presentaba el porcentaje de
candidatos que obtuvo una puntuación en concreto para cada una de las des
trezas evaluadas (página 2).
3. ¿Cuáles fueron las puntuaciones m edias y las desviaciones típicas resul
tantes de cada sección de la prueba?
201
Esta inform ación puede encontrarse en el inform e de JMB, justo antes de la

discusión de cada sección de la prueba. Está ilustrado en el siguiente fragmento:
Apartado 3. Lectura
(Nota máxima: 30; media: 16,03; desviación típica: 5,52.)
Los dos textos produjeron una buena dispersión de resultados. Los alumnos
flojos y medianos tendieron a sacar buenos resultados en las preguntas basadas
en hechos pero respondieron mal a las preguntas que requerían una
comprensión más amplia del texto. Los dos párrafos de resumen sólo los
hicieron bien los mejores candidatos...
(Fragmento de un análisis del apartado 3 del examen del UETESOL,
marzo de 1990, página 5)
La idea de presentar la inform ación estadística al principio del debate sobre

la sección de la prueba correspondiente es m uy buena, puesto que ayuda a
los lectores a ver la relación que existe entre las cifras y la inform ación que
sigue.
4. ¿Cómo se distinguen estas cifras de las del año anterior?
El inform e de la Delegación de O xford presenta tablas con el porcentaje de

aprobados de las cuatro versiones distintas de dos exám enes (página 2). Lo
que revela la tabla es que la versión correspondiente a marzo de 1990 de los
dos exám enes tuvo un porcentaje de aprobados m ucho m ás bajo que nin
guna de las otras tres versiones. Estas cifras podrían significar que los exá
m enes de m arzo de 1990 fueron m ás « d ifíc ile s» que otras versiones. Una
revelación de este tipo p odría resultar inquietante para los p rofesores que
presentaron sus candidatos a la versión de m arzo de 1990: sin em bargo, el
centro, en su introducción al inform e, afirm a que el bajo porcentaje de apro
bados puede deberse al tipo de población que se presentó a la prueba y no a
la prueba en sí. Creem os que facilitar este tipo de inform ación a los p ro fe
sores es positivo; sin em bargo, es tam bién im portante saber qué análisis rea
lizó el tribunal para determ inar si fue la población y no las preguntas lo que
hizo la prueba difícil.
LAS PLANTILLAS DE CORRECCIÓN PARA LOS ÍTEMS DE

CORRECCIÓN OBJETIVA Y LAS E S C A L A S DE VALORACIÓN
PARA LAS SECCIONES DE CORRECCIÓN SUBJETIVA
La segunda función de estos informes es la de facilitar la respuesta correcta y las
escalas de valoración para la expresión escrita y la expresión oral. El informe de
JMB fue el único que recibim os que facilitaba las plantillas de corrección utili
zadas por los examinadores, junto con las modificaciones que se habían incluido
durante las sesiones de unificación de criterios.
Ninguno de los informes que recibim os facilitó la escala de valoración para
la expresión escrita. Sabemos que al m enos un tribunal, la Delegación de Oxford,
presenta una escala de valoración estándar (utilizada para todo tipo de ejerci
cios de expresión escrita en cada convocatoria de exam en), una muestra de ejer-
202
cicios escritos y comentarios del examinador aparecidos en otra publicación. Sin

embargo, sería útil dar la escala de valoración en el informe posterior a la prueba
para que toda la inform ación esté disponible cuando los profesores lean los
comentarios sobre los principales problem as de los candidatos.
EL DEBATE DE LOS EVALUADORES DE CADA SECCIÓN DE LA

PRUEBA: QUÉ SE ESTABA EVALUANDO, PROBLEMAS MÁS
CORRIENTES Y RECOMENDACIONES PARA PREPARAR
A LOS CANDIDATOS DE FORMA MÁS EFICAZ EN EL FUTURO
La tercera función de un inform e es ayudar a los profesores y a los alumnos a
comprender lo que se está evaluando en cada sección de la prueba. El informe
de JMB da varias explicaciones de este tipo: por ejemplo, esta es la descripción
de lo que se pide en la parte de expresión escrita:
En la primera pregunta de esta parte, los examinadores buscan
primordialmente un dominio preciso de las estructuras sintácticas simples.
Para obtener un aprobado los candidatos deben mostrar un dominio funcional
de las formas verbales, las expresiones con preposición, etc., que requiere el
enunciado. En la segunda pregunta, el énfasis está en elementos más generales
como, por ejemplo, la organización, la coherencia, el desarrollo de las ideas,
del argumento, etc., aunque la lengua constituye también un factor
importante... (página 3).
Resulta especialmente útil que el tribunal explique el propósito de los nue

vos tipos de ítem. JMB facilita la explicación de una tarea de corrección que no
había sido utilizada anteriormente:
Este tipo de pregunta se ha introducido para fomentar una mayor corrección
de las versiones finales de los trabajos escritos. Cuando un ejercicio escrito ya
ha sido revisado para garantizar que las ideas y el sentido se han presentado de
forma clara, todavía pueden encontrarse errores de concordancia, de tiempo
verbal, del uso de preposiciones, de ortografía, etc. Son los errores de esta
naturaleza los que se han cometido o se han introducido en breves fragmentos
de expresión escrita en este tipo de pregunta. En el mundo real los autores que
corrigen su propio trabajo no conocen el número o posición de tales ítems.
Sin embargo, para el propósito del examen, siempre habrá alguna indicación
para los candidatos cuando se incluya este tipo de pregunta (página 5),
Una vez explicado el propósito de cada sección, el tribunal debería indicar

los tipos de problemas que los candidatos tuvieron en algunas preguntas en par
ticular. Este ejemplo proviene del informe de la Delegación de Oxford:
En las preguntas 3 a la 6 de la sección 1, los candidatos a menudo se
equivocaron en la distinción entre escribir notas y escribir de forma
telegráfica. Deberían saber la diferencia: una «nota» debe ser breve y puntual,
pero tiene que estar escrita con frases completas; en la «form a telegráfica» se
omiten los artículos, algunos verbos, etc. y sólo debería utilizarse cuando se ha
pedido específicamente, aunque esto rara vez ocurre en el examen del nivel
preliminar (página S).
203
r Los inform es posteriores a la prueba
Aquí el tribunal no sólo describe el problema que tuvieron los candidatos sino
que también intenta clarificar el concepto para los profesores. Aunque no todo
el m undo estaría de acuerdo con la distinción dada por el tribunal, está claro
que esto es lo que esperan los examinadores en el futuro.
El JMB también facilita una crítica clara del comportamiento de los candida
tos, aunque reconoce que en los últimos años ha habido una m ejoría en algu
nos aspectos de su actuación:
En esta pregunta se vio claramente que se había tomado nota de los
comentarios relativos a la importancia de las respuestas bien organizadas y
presentadas. En contraste con años anteriores fue reconfortante ver que la gran
mayoría de candidatos había incluido una introducción, organizado sus
respuestas en párrafos, y había incorporado algún tipo de conclusión.
Por desgracia, el resto de la composición fue a menudo decepcionante. La
mayoría de los candidatos todavía no saben cómo dar explicaciones o hacer
comentarios sobre datos cuando la pregunta lo requiere. Cuando el informe
debe acompañar a los datos, el lector no espera la repetición de los mismos.
Espera que el informe los haya interpretado y los comente. Esto supone tomar
nota de las tendencias o patrones, si los hay, detectar las anomalías y
seleccionar puntos de interés concretos... (página 4).
Las consecuencias de una crítica explícita son a m enudo obvias, pero resulta
útil si los tribunales explican claramente el tipo de docencia que deberían im par
tir los profesores o los tipos de repaso que deberían hacer los alumnos.
El inform e de JMB facilita varios ejem plos interesantes sobre cóm o puede
hacerse esto. En el caso de los candidatos que no «saben cóm o dar explicacio
nes o hacer comentarios sobre datos» (véase más arriba), recomiendan:
El lenguaje necesario para comentar datos numéricos o gráficos debe enseñarse
de forma más explicita... (página 4).
En una sección posterior del m ism o inform e el tribunal lista una serie de
libros de texto útiles que el profesor puede utilizar para ayudar a sus candida
tos a solventar estos problemas. Esta información es especialmente valiosa para
profesores que todavía no tienen demasiada experiencia en la preparación de
candidatos para esta prueba.
RECONOCIMIENTO DE PROBLEMAS EN LA PRUEBA MISMA

La cuarta función que pueden cumplir los informes posteriores a la prueba es
la de hacer saber a los profesores y a los alumnos si ha habido problem as en la
prueba m isma y cómo los ha solucionado el tribunal. Un ejemplo de buen hacer
puede verse en el informe de la Delegación de Oxford, en el que el tribunal pre
senta la evaluación de un ítem en particular:
La única dificultad en mayo surgió con la opción B. La palabra «appointment»
se malinterpretó en muchos casos. Como se trata de una palabra difícil para el
nivel preliminar, no se penalizó a los candidatos que la interpretaron mal
(página 4).
204
En el m ism o informe el tribunal discute el nivel de dificultad de una sección

completa de la prueba, que resultó más difícil que en años anteriores:
Los candidatos encontraron dificultades en la sección 2 de la prueba de
noviembre, por lo que se tuvo en cuenta durante el proceso de puntuación
(página 7).
El JMB también reconoce sus propios problemas: en este ejemplo admite que
ama parte en particular no resultó tan equilibrada como hubiera sido de esperar:
Esta parte resultó más difícil de lo esperado, por lo que se ajustaron los resultados
como corresponde [...] Esta parte en concreto mostró una marcada parcialidad
hacia los ítems de gramática en detrimento de los ítems de léxico y esto puede
haber contribuido al nivel de dificultad. Los exámenes en el futuro tenderán a
estar más equilibrados y se considerará importante el desarrollo del vocabulario a
través de textos, trabajo de diccionario y actividades diversas (página 12).
Reconocimientos de este tipo pueden ahorrar tiempo y problemas a profeso

res y alumnos. En los ejemplos presentados más arriba, los problemas no eran
serios, pero los profesores podían haberse equivocado al utilizar los exámenes
anteriores como material de repaso, pues habían resultado más difíciles de lo que
les hacía suponer la descripción de los contenidos. En otros casos, sin embargo,
es aún más importante que las instituciones indiquen cuándo han tenido proble
mas, por ejemplo, cuando no han revisado las instrucciones de manera apropiada
o cuando no han detectado que hay ciertos ítems que no pueden responderse a
partir de los textos que se dan a los alumnos. Este tipo de error puede causar
mucha frustración. Creemos que la admisión del error puede ayudar mucho a pro
fesores y alumnos y aumentar la reputación de un tribunal si éste deja claro que
no ha penalizado a los candidatos por errores que no son culpa suya.
RECOMENDACIONES A LOS CENTROS SOBRE LA

ADMINISTRACIÓN DE LA PRUEBA
La quinta función del informe posterior a la prueba es la de aconsejar sobre cues
tiones relativas a la administración de los exámenes, especialmente en lo que
hace referencia a las pruebas de comprensión oral y de expresión oral.
El único ejemplo que encontramos de esta función en los informes que reci
bimos fue este párrafo del informe de JMB, que insistía en la necesidad de com o
didad en las pruebas de expresión oral:
El mejor entorno para la prueba es una habitación relativamente íntima en la
que el candidato no se sienta amenazado por el espacio y la distancia y donde
las voces no resuenen, lo que se traduce en una mala reproducción acústica. Si
hay un aula cercana disponible para los candidatos que esperan, es mucho más
agradable que estar sentado en un pasillo donde hay mucho movimiento de
alumnos... (página 16).
Sin embargo, hem os encontrado buenos ejemplos de este tipo de recomen

dación en informes posteriores a la prueba de otras materias, especialmente en
20S
Los inform es posteriores a la prueba
lenguas extranjeras. La siguiente recomendación proviene de un informe sobre

una prueba oral de español e ilustra la clase de consejo que los tribunales podrían
facilitar sobre la administración de la prueba:
Aunque en general el nivel de la grabación era bueno, todavía existen
problemas que afectan al desarrollo de las pruebas.
a) Los momentos de excesivo ruido de fondo continúan siendo causa de
preocupación. Es importante señalar que el examinador sólo puede puntuar
lo que puede oír. Las clases que se reúnen fuera del aula de examen, la
gente que interrumpe la prueba y la mala colocación de los micrófonos son
factores que influyen en la audibilidad de los candidatos.
b) Hubo ocasiones en la que los profesores se apartaron de las respuestas de
los diálogos en el nivel básico, lo que produjo confusión en los candidatos.
c) La preparación por parte de algunos profesores de su actuación en el
diálogo 4 fue insuficiente y demuestra que hay profesores que no
comprenden que los candidatos tengan que completar frases. Se debe tener
en cuenta que solucionar los problemas de los candidatos, no presentarles
los problemas existentes, introducir tareas adicionales o ayudarles en exceso
no ayuda a los candidatos.
(Northern Examining Association, Spanish: Report on the 1990 Examination, páginas 5—6)
Este tribunal continuaba con tres fórmulas más con las que los profesores podrían
mejorar su administración de los diálogos. Aunque algún tipo de recomendación
puede parecer obvia para una persona poco familiarizada con el tema, es también
obvio que los profesores no comprendieron o no prestaron la suficiente atención
a las reglas que se suponía que debían seguir. El centro ha intentado recordar a los
profesores cómo hacer su trabajo bien para ayudar a sus propios alumnos.
INFORMACIÓN SOBRE CAMBIOS EN LA PRUEBA

O EN LOS PROCEDIMIENTOS
Encontramos varios ejemplos de esto en el informe de JMB. El examen de UETE-
SOL había sufrido una revisión importante durante el año correspondiente al
informe, pero estaba claro que tendrían lugar más cambios en las versiones futu
ras de la prueba. El tribunal anunció estos posibles cambios a profesores y alum
nos para darles tiem po de adaptarse a las nuevas exigencias. Este fragmento del
informe se refiere a la sección de comprensión oral de la prueba:
Se espera que los profesores continúen preparando a sus candidatos para
escuchar varios tipos de información auditiva, en variedad de contextos, de
modo que estén preparados para las conferencias, los seminarios, las tutorías
individuales con que se encontrarán en la enseñanza superior, cuyo contexto y
estilo se reflejan cada vez más en la prueba de comprensión oral (página 7).
9.6.3. Informes posteriores a la prueba para otros públicos

Los tribunales de exámenes de inglés como lengua extranjera no elaboran infor
mes del tipo descrito en el apartado 9.4. Suponíamos que en alguna parte de los
206
Debate
documentos que recibimos de los tribunales encontraríamos la información que

interesa a los administradores u otros profesionales, pero la única información que
encontramos fueron descripciones sobre el tipo de público a quien iban dirigidas
las pruebas (en material publicitario y en los program as), el dpo de lengua y des
trezas que se evaluaban, y las distribuciones de los resultados de los candidatos.
No había información sobre la validez o la fiabilidad de ninguna prueba en
la información que recibimos. Nos desilusionó que no existiera o no estuviera
a nuestra disposición inform ación técnica de este tipo, y que no pudiéram os
señalar a ninguno de los tribunales de exámenes de inglés como lengua extran
jera com o m odelo de distribución de información de este tipo.
9.7. Debate
Los informes posteriores a la prueba son importantes por las razones que hemos
discutido al principio de este capítulo. Sin embargo, la evidencia recogida es que
hay pocos y escasos informes adecuados sobre la actuación en las pruebas de idio
mas, al menos en el campo del inglés como lengua extranjera. Hemos extraído bas
tantes pasajes de los informes que recibimos porque son buenos ejemplos de la dase
de información que debería estar a disposidón de los distintos tipos de público y
de como podría presentarse. Sin embargo, tales informes son difíciles de encontrar,
y esto es una pena. Puede ser que hasta el momento no haya habido la suficiente
presión sobre los que elaboran pruebas para que presenten evidencia de la validez
y fiabilidad de sus instrumentos, pero tal como dijimos al principio de este capí
tulo, puede que esto cambie, y sólo puede cambiar a mejor. Puede también deberse
a que los profesores no piden información sobre la actuación de sus candidatos,
pues la mayor parte de éstos son extranjeros y no están en la posición de presionar
a los tribunales de exámenes. Esto contrasta con los profesores de enseñanza secun
daria del Reino Unido, que sí pueden presionar a los tribunales para que faciliten
la información adecuada para ayudar a los que preparan los exámenes. Puesto que
los tribunales de exámenes del Reino Unido presumen de la relación entre la docen
cia y la evaluación, todavía sabe peor que tan pocos faciliten una información ade
cuada a los profesores y alumnos de inglés como lengua extranjera.
El incremento general de publicaciones com o el Code of Fair Testing Practices in
Education y los APA/AERA/NCME Standards (véase capítulo 11) asegura que los usua
rios de las pruebas y otras partes interesadas reciben la información más com
pleta posible sobre la prueba que utilizan. La m ejor m anera de facilitar tal
información es mediante los manuales y los informes que hemos defendido.
El docum ento APA/AERA/NCME Standards dedica un apartado com pleto (el
número 5) a la descripción de lo que deberían contener los manuales técnicos
y las guías del usuario. El apartado de los once m odelos sobre este tema va pre
cedido por la siguiente frase: «Los editores deberían facilitar la suficiente infor
mación para que un usuario o revisor cualificado de una prueba pueda evaluar
si es apropiada y técnicamente adecuada» (página 35). Los tribunales de exá
menes del Reino Unido deberían hacer lo m ismo.
207
9.8. Sumario
Las instituciones deberían primero determinar las obligaciones existentes —tanto
legales com o morales—para publicar informes sobre la actuación en sus prue
bas. Esto variará según el contexto.
Se debería tener en cuenta las necesidades del público al que se dirigen los infor
m es: ¿Qué necesitan saber? ¿Qué podría resultarles de ayuda?
Debería facilitarse información estadística relacionada con los asuntos que inte
resan al público.
¿Deben incluirse los resultados de la supervisión del examen?
¿Existen com entarios recibidos de los alum nos, de los exam inadores o de los
administradores ?
¿Se han analizado los ejercicios escritos de los alum nos para ver qué pueden
revelar sobre los puntos fuertes y débiles del examen y de los candidatos?
¿Existe evidencia de parcialidad en la prueba?
¿Cómo se relaciona esta prueba con las versiones anteriores?
¿Cómo pueden preparar los profesores m ejor a sus alumnos, o cóm o pueden
los alumnos prepararse a sí m ism os?
¿Qué consideran los examinadores com o buenas actuaciones y actuaciones flo
jas, y por qué? ¿Qué criterios se utilizan para evaluar la actuación?
¿Qué problem as se detectaron en la prueba?
¿Qué cam bios se prevén en un futuro próxim o?
¿Qué contenidos o destrezas cubre la prueba, y para qué sirven los resultados
de un candidato?
¿Es la prueba válida?
¿Es la prueba fiable?
208
10 Desarrollo y mejora de los exámenes
En este capítulo se discute cómo pueden modificarse y mejorarse las pruebas a

la luz de su com portam iento, de la investigación y de los comentarios poste
riores. Se tratan las cuestiones de por qué y cóm o pueden mantenerse al día las
pruebas y se insiste en la necesidad de una constante supervisión de la prueba
durante su periodo de vigencia.
10.1. La supervisión de una prueba

10.1.1. Análisis constantes: contenido de la prueba,
administración, formación del profesorado y corrección
Habrá quedado claro desde el capítulo 8 que establecer la validez de una prueba
no es un asunto rápido ni fácil. Esto quiere decir que a m enudo se ponen en
funcionamiento pruebas —y se utilizan de forma rutinaria para el propósito para
el cual se han diseñado—sin que su validez se haya visto confirmada. Los res
ponsables de la elaboración de la prueba habrán dado todos los pasos necesa
rios para garantizar que su instrumento sea lo más fiable y válido posible, dado
el tiem po y los recursos disponibles. Sin em bargo, puede que los problem as
relacionados con una prueba o con los procedim ientos que ésta im plica sólo
emerjan cuando la prueba haya funcionado durante un tiempo. Esto es así tanto
para los exám enes que sólo se adm inistran una vez, pero cuya estructura se
repite año tras año, com o para las pruebas «segu ras» que se administran más
de una vez.
En algunas circunstancias, es simplemente imposible continuar revisando una
prueba hasta que cada ítem, escala o parte funcione a la perfección; lo que ocu
rre habitualmente es que el borrador de examen se somete a ensayos previos y
se m odifica, pero no se vuelve a someter a ningún ensayo antes de ponerlo en
funcionamiento. Así los responsables de una prueba no llegan a saber cómo fun
cionan los ítems, las tareas o las instrucciones modificadas hasta que se adm i
nistra la prueba.
En tales casos, puede ser posible analizar los resultados de la prueba y retirar
los m alos ítems antes de calcular los resultados. Sin embargo, es más probable
que se lleven a cabo los análisis después de la administración, cuando ya se hayan
entregado los resultados. En este caso, aunque ya no se pueden ajustar las notas,
los resultados de los anáfisis deben tenerse en cuenta antes de empezar a elabo
rar una nueva versión de la prueba. Esto permitirá hacer ajustes en las especifi
caciones, la formación o los procedim ientos de administración.
209
Desarrollo y mejora de los exámenes
En realidad, nosotros recom endam os que las pruebas se supervisen de forma

regular y rutinaria. Los análisis de los ítems y de cada parte deberían llevarse a
cabo después de cada administración, deberían calcularse estadísticas descripti
vas (incluyendo los coeficientes de fiabilidad habituales), y los correctores debe
rían ser supervisados para observar la fiabilidad de sus puntuaciones (véanse
capítulos 4, 5 y 6 para detalles de cóm o deberían llevarse a cabo tales análisis).
Hemos sugerido en el capítulo 8 que los informes posteriores a la prueba debe
rían contener información que permita m odificarla en un futuro, si es necesa
rio. En esencia, tales procedimientos son parecidos a los que se deberían seguir
durante la fase de ensayos previos de los ítems y de la prueba.
Sin embargo, durante una administración rutinaria pueden surgir otros pro
blemas que no se identifiquen de form a fácil en los análisis establecidos. Para
ilustrarlo, discutiremos un ejemplo en el que estuvimos implicados; una nueva
prueba para evaluar la h abilidad de escuchar conferencias. La prueba tenía
lugar con la utilización de una cinta de vídeo: los alumnos debían ver el vídeo
de una conferencia m ientras escuchaban el texto y luego tenían que anotar
sus respuestas en una h oja de respuestas. La prueba fue ensayada de form a
habitual, pareció aceptable, y se puso en funcionam iento. Sin em bargo, la
observación de la administración de la prueba reveló que m uchos alum nos no
estaban en realidad m irando los m onitores: de hecho, leían sus hojas de res
puesta mientras escuchaban el texto y respondían de acuerdo con lo que oían,
no con lo que veían. Los análisis de ítem s no habían revelado nin gún p ro
blema en la prueba, pero la observación nos indicó que la im agen podía resul
tar en realidad redundante. A partir de este hecho se diseñaron dos pequeños
estud ios: el p rim ero com paraba la actuación en la prueba de vídeo con la
actuación en la m ism a prueba sólo escuchando el texto. N o había n inguna
diferencia en los resultados. El segundo estudio preguntó a los estudiantes qué
versión de la prueba preferían. Votaron unánim em ente p o r la versión que
tenía sólo el sonido; dijeron que la prueba con vídeo era dem asiado com pli
cada, puesto que no sólo debían leer las preguntas, escuchar la cinta y re s
ponder a las preguntas sino que tam bién debían estar m irando el m onitor al
tiem po que leían la hoja de respuestas. Ignorar la im agen reducía la com ple
jidad de la tarea sin afectar la m edida de su capacidad auditiva. Por lo tanto
quitam os el com ponente vídeo.
El prim er punto que ilustra este ejemplo es que si no hubiéram os observado
la prueba de forma rutinaria, no habríamos tropezado con el problema. Así pues,
aconsejam os la observación rutinaria de la adm inistración de la prueba com o
una form a complementaria de supervisión. El segundo punto es que necesitá
bam os diseñar un estudio especial en pequeña escala para investigar el problema
que se había observado: los procedimientos rutinarios no fueron suficientes por
sí m ism os para ayudam os a com prender el problema. Las organizaciones res
ponsables de exám enes deben estar preparadas para diseñar (posiblem ente a
pequeña escala) estudios especiales cuando la experiencia o los comentarios pos
teriores sugieran que pueden ser necesarios.
210
La supervisión de una prueba
Puede ocurrir que los procedimientos recomendados por los que han elabo
rado la prueba no se lleven a la práctica por parte de los responsables de la misma
o se abandonen una vez comenzada la prueba. Las comprobaciones rutinarias de
los procedimientos pueden identificar tales situaciones. Para ilustrar este punto
podem os citar el ejemplo de una nueva prueba de idiomas, cuyo proyecto de ela
boración incluía también el desarrollo de procedimientos de formación, certifi
cación y supervisión de los examinadores de las pruebas de expresión oral y de
expresión escrita. Se consideró la importancia de que las puntuaciones se lleva
ran a cabo de form a fiable porque la prueba se administraba en varios países y
podía darse el caso de que sólo hubiera un corrector por prueba. Los elaborado-
res prepararon un manual de formación para los examinadores, que incluía actua
ciones grabadas en vídeo, una muestra de ejercicios escritos y directrices sobre
cóm o puntuar, junto con instrucciones sobre cóm o dirigir sesiones de forma
ción en las que utibzar los materiales. Tam bién elaboraron un procedim iento
para calcular la fiabilidad de las puntuaciones otorgadas por los profesores al final
del taller, lo que perm itiría a las autoridades poder certificar que un profesor
cum plía los criterios requeridos. Además, se acordaron y diseñaron procedi
mientos para la recogida rutinaria de muestras grabadas de actuaciones de can
didatos en la prueba oral, junto con m uestras de la expresión escrita de los
candidatos, que debían mandarse a un punto centralizado para volver a puntuar.
Esta supervisión debía llevarse a cabo de manera regular, y los correctores que se
«apartaran del cam ino» (puntuando demasiado alto o demasiado bajo) serían
avisados y despedidos o tendrían que volver a seguir un programa de formación.
Después de los ensayos, se pusieron en funcionamiento la prueba y los pro
cedimientos recom endados, pero éstos se abandonaron pronto porque fueron
considerados «in n ecesarios». Los talleres de form ación se substituyeron por
«form ación autodidacta». Los exam inadores debían leer el m anual y ver los
vídeos, y se suponía que, como consecuencia de ello, podrían puntuar de forma
fiable. No se llevaron a cabo com probaciones rutinarias sobre la fiabilidad de
las puntuaciones. Las propuestas de los responsables de la elaboración de la
prueba se frustraron por una ejecución imperfecta de los procedim ientos. En
tales casos, hay probablemente necesidad de supervisión extema de la puesta en
práctica. La disponibilidad de informes posteriores a la prueba, como se ha des
crito en el capítulo 9, daría la oportunidad de realizar esta supervisión.
Un problem a aparece cuando se utilizan las pruebas sin cam bio alguno
durante un núm ero de años. Los examinadores empiezan a relajarse en la utili
zación de las escalas de puntuación y la formación dada a los examinadores, que
es en un com ienzo adecuada, puede volverse laxa y mecánica, al tiem po que
éstos creen que ya tienen la suficiente experiencia en la administración de la
prueba. Sin embargo, experiencia no siempre equivale a fiabilidad, y las com
probaciones rutinarias sobre el consenso entre exam inadores, especialmente
cuando tiene lugar una doble corrección auténtica, son esenciales para garanti
zar que se mantengan los estándares y que la formación y la unificación de cri
terios de los examinadores continúen siendo satisfactorias.
211
'■ ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
10.1.2. Comentarios de los usuarios de la prueba

Otro aspecto importante de la supervisión de la prueba que no debería pasarse
por alto es la recogida de información entre los usuarios de la misma. Los can
didatos pueden facilitar información muy valiosa a los responsables de la prueba:
lo que piensan de los ítems, de los m étodos de la prueba, de la claridad de las
instrucciones, del tiempo disponible para las distintas partes, la importancia del
contenido a la luz de su experiencia com o estudiantes o sobre sus propósitos
para aprender la lengua, la relación entre cómo perciben sus habilidades lingüís
ticas y su actuación en la prueba en cuestión, etc. Tal información puede reco
gerse de form a rutinaria con cuestionarios adm inistrados inm ediatam ente
después de la prueba, o en estudios preparados especialmente. La ventaja de
recoger inform ación de form a regular m ás que de form a especial es que se
puede identificar la información importante m ás rápidamente.
Igualmente, deberían recogerse de forma sistemática los comentarios de los pro
fesores, como se sugirió en el capítulo 9, para introducirlos en los informes de los
examinadores. Entre otras cosas, esto propiciaría el control de los cambios en los
niveles de dificultad o incluso de los cambios en la habilidad de los candidatos.
También habría que recabar comentarios de los profesores de idiomas, sobre
todo en las pruebas relacionadas con los currículos. Si es posible, resulta útil reco
ger información no sólo sobre la relación entre el contenido y el m étodo de la
prueba con el currículo, sino también sobre si la prueba está afectando a la forma
de enseñar de los profesores. ¿Hay formas de preparar a los alumnos para la pmeba,
usadas habitualmente por los profesores, que podrían no ser recomendables si se
hicieran cambios en la prueba o si se dieran directrices sobre actividades de pre
paración adecuadas? (Véase Wall y Alderson, 1993, para una discusión sobre este
punto, pero nótese también que los profesores pueden no ser la fuente más fiable
de información sobre las actividades de preparación para la prueba. La observación
directa de las aulas puede revelar prácticas no sospechadas ni admitidas.)
Es igualmente importante recabar información de otros usuarios de los resul
tados de las pmebas: los responsables de admisión en centros de enseñanza supe
rior, empresas, autoridades educativas y otros parecidos. La pregunta clave es
hasta qué punto tales informadores creen que la prueba cumple el objetivo para
el cual se pensó. Tal información es en cualquier caso (especialmente, aunque
no sólo, para los exámenes de dominio) necesaria para la validación de la prueba
(capítulo 8), en particular cuando es relevante la validez de predicción y hace
falta saber si se están seleccionando los candidatos adecuados teniendo en cuenta
la información recogida por la prueba. Tal como se discutió antes, normalmente
resulta m uy difícil investigar a los candidatos rechazados, pero es posible hacer
un seguimiento de la naturaleza de la población que sí aprobó -entró en la uni
versidad, encontró empleo, entró en el m undo profesional, etc —y ver si ocu
rren cam bios en tal población a lo largo del tiem po. Las opiniones de los
usuarios de la prueba serán fuentes de información importante aquí pero puede
resultar necesario suplementarias con m edidas de la población más objetivas.
212
La influencia de nuevos hallazgos en la necesidad...
10.1.3. Características de la población de la prueba
Un aspecto relacionado con la supervisión que resulta útil es la determinación de
las características de la población de la prueba (no sólo de los que aprueban). Es
posible que con el tiempo la población cambie: el origen geográfico, el bagaje
lingüístico, el sexo, el nivel educativo, el nivel de aprovechamiento y el nivel de
habilidad, etc. Por este motivo, la administración rutinaria de un cuestionario que
recoja información biográfica sobre los candidatos es de un valor considerable. Ade
más, pueden organizarse estudios específicos para analizar las características de la
población con más profundidad, por ejemplo su modvadón, las razones para pre
sentarse a la prueba, su historial como estudiantes de la lengua, sus estrategias comu
nicativas, y otros aspectos. Los resultados de un estudio de este tipo pueden damos
información sobre la pmeba y sobre los posibles cambios necesarios. Los estudios
sobre la parcialidad de las pruebas son cada vez más comunes y potencialmente
importantes para los exámenes de idiomas. ¿Es la pmeba parcial con referencia al
sexo o a una etnia? ¿Lo hacen mejor que el resto los candidatos de ciertas regiones
o grupos socioeconómicos? Puede, sin embargo, haber dificultades a la hora de
interpretar los resultados o de decidir qué hacer. En un estudio, Lynch, Davidson y
Henning, 1988, descubrieron que partes del examen de nivel de inglés como
segunda lengua de la UCLA (Universidad de California en Los Ángeles) favorecían
a los estudiantes de habla española y perjudicaban a los estudiantes de habla core
ana. Sin embargo, una vez analizado el problema, parece claro que esto sucede por
que el inglés es de por sí parcial: a causa de la afinidad lingüística, a los alumnos
de habla española les resulta más fácil aprender inglés que a los de habla coreana.
Tal parcialidad sugeriría que la pmeba es válida en lugar de señalar su no validez.
Finalmente, es im portante supervisar los niveles de aprovechamiento y de
habilidad de la población que se presenta a la pm eba. Si, a lo largo del tiempo,
parece que los niveles estén cambiando, puede ser necesario investigar las cau
sas y ajustar la prueba. Podría suceder que, debido a la creciente familiaridad
con la prueba y a una m ejor preparación, la pm eba estuviera volviéndose más
fácil, o podría ser que con una m ejor enseñanza del idiom a la habilidad de la
población estuviera aumentando. En cualquier caso, podría resultar necesario
ajustar la pmeba. Como alternativa, puede decidirse que tales cambios en la difi
cultad o en la habilidad requerida queden reflejados en un mayor porcentaje de
éxito en la prueba. Mucho dependerá, com o siempre, de los objetivos que se
buscaban con la administración de la pmeba, pero si no se hace un seguimiento
de la actuación de los candidatos se perderá una información importante.
10.2. La influencia de nuevos hallazgos en la necesidad

y la oportunidad de revisar una prueba
10.2.1. Nuevas técnicas de análisis

La necesidad de m ejoras en una prueba o en los procedim ientos relacionados
con la m ism a puede en ocasiones descubrirse sólo con la introducción de nue
213
vos m étodos de análisis. Por ejem plo, el desarrollo de m etodologías que ana
lizan distintos rasgos y distintos m étodos (multi-trait, multi-method methodologies)
para la investigación de la validez convergente y divergente (véase el capítulo
8; Bachman y Palmer, 1981, y Cam pbell y Fiske, 1959) fue el detonante de
varios estudios de validez que contribuyeron a nuestra com pren sión de la
form a en que podría evaluarse m ejor la competencia lingüística. El descubri
miento del análisis factorial confirm atorio com o un nuevo instrumento junto
con el análisis factorial exploratorio llevó a descubrim ientos similares. Este es
el caso del desarrollo de los program as de ordenador que perm iten realizar
nuevos análisis estadísticos. Un m uy buen ejem plo reciente de esto es el desa
rrollo y la disponibilidad de FACETS (Linacre y Wright, 1992). Este program a
permite el análisis de la actuación de distintos examinadores en distintas tareas,
bajo distintas condiciones operativas y con distintos tipos de candidatos. Es
posible explorar hasta qué punto algunos exam inadores en concreto funcio
nan de form a poco consistente o idiosincrática, o si hay que ajustar las esca
las de puntuación o se deben m odificar las tareas para obtener puntuaciones
más consistentes o válidas. Antes de la aparición de estos program as, podían
hacerse com probacion es sobre la variabilidad entre exam inadores, pero de
forma m uy rudimentaria. Ahora es posible explorar el proceso de puntuación
y los factores que influyen en los resultados con m ás profundidad y conoci
m iento. En tales circunstancias es p o sib le que pruebas que pod ían parecer
satisfactorias tengan que ser revisadas porque m uestren aspectos problem áti
cos después de ser analizadas con m ejores instrum entos.
Una situación parecida ha ocurrido recientem ente cuando los investiga
dores de la evaluación de idiom as se han interesado y fam iliarizado con téc
nicas de investigación «cu alitativ as», que pueden utilizarse para investigar
la validez de la prueba. U n ejem plo de tales técnicas es el u so de inform es
introspectivos de candidatos y exam inadores, llam ados inform es de «pen sar
en voz alta», y relatos retrospectivos sobre los procesos de realización de una
prueba (véase capítulo 8 ). Tales datos cualitativos pueden revelar in form a
ción sorprendente sobre lo que los alum nos y los exam inadores están pen
sando en lo relativo a las tareas de una prueba, que puede estar en conflicto
con lo que lo s resp o n sab les de la elabo ración de la pru eb a creen que los
alum nos o los exam inadores «d eb erían h acer». En tanto que los datos dan
evidencia de la validez (o no validez) del contenido, los responsables de la
prueba deberían hacer todos los esfuerzos que estén en su m ano para reco
ger in form ación sobre el funcionam iento de los instrum entos existentes y
hacer las m odificaciones necesarias en los ítems, instrucciones, m étodo, esca
las de puntuación y otras facetas de la elaboración de la prueba que se con
sideren apropiadas.
El m ensaje claro es que los administradores y los redactores de una prueba,
al igual que los investigadores, deben estar familiarizados con los nuevos des
cubrimientos de m étodos de análisis, para poder aplicarlos a las pruebas exis
tentes y a las pruebas que puedan desarrollarse en el futuro.
214
La influencia de nuevos hallazgos en la necesidad...
10.2.2. Cambios en la tecnología

Tales novedades pueden parecer crípticas y rem otas para los redactores y los
usuarios norm ales de pruebas, aunque su ritmo de desarrollo es tal que, cree
m os, ya no lo son. Sin embargo, novedades m ás sencillas pueden ofrecer opor
tunidades para cam biar pruebas que no eran posibles hace irnos años, y que
reconocerá el m ás cínico de los redactores de pruebas. Un ejemplo obvio de esto
es la posibilidad de tener casetes baratos y de buena calidad. La disponibilidad
de tal tecnología hace posible unificar la administración, por ejemplo, de prue
bas de dictado y grabar la actuación de los candidatos en las pruebas orales para
que luego puedan ser puntuadas por correctores preparados. Posibilita, incluso,
com o sucede con la prueba AET y el Test of Spoken English (TSE), la administración
de pruebas orales en grupo y en laboratorios de idiomas. Esto hace que la admi
nistración de pruebas orales resulte m ás factible. Tal tecnología también signi
fica que a los estudiantes se les puede evaluar su capacidad de comprensión de
una gam a de textos orales, lo que antes no podría haberse realizado con facili
dad: discusiones de radio, com entarios sobre hechos públicos, contestadores
telefónicos, avisos en aeropuertos y en estaciones de tren, etc.
En realidad, podría pensarse que la posibilidad de utilizar grabaciones de
sonido ha aum entado la disponibilidad de pruebas de com prensión oral y ha
acentuado la enseñanza de la comprensión oral. Podría incluso decirse que los
casetes, junto con otros m edios de reproducción de textos escritos (com o por
ejemplo, las fotocopiadoras) han impulsado, e incluso iniciado, el debate sobre
la conveniencia del uso de lenguaje auténtico en la mayoría de las pruebas.
De igual forma, la llegada de la tecnología de vídeo hace posible el uso de un
tipo de textos y de formatos de prueba que eran impensables antes (aunque el
ejemplo anterior del desarrollo de una prueba de comprensión oral utilizando
una grabación en vídeo ilustra que tales posibilidades pueden no representar
una m ejora real en la validez de la prueba). También m ejora la form ación de
los examinadores de las pruebas de expresión oral. Actualmente, la tecnología
de vídeo interactivo ofrece fascinantes posibilidades para la innovación en el
campo de la evaluación.
La disponibilidad de ordenadores personales ya ha llevado a un gran número
de avances interesantes (y menos interesantes) en el terreno de la evaluación de
idiom as por ordenador (véase Alderson, 1986, 1988a, y Alderson y Windeatt,
1991, que tratan con extensión el impacto potencial de tales avances). Los exá
menes adaptables, en los que el ordenador decide qué nuevo ítem presentar según
la actuación del candidato en los ítems anteriores, provocará cambios radicales
en la forma en que se administran las pruebas y se calculan los resultados.
Incluso cambios tan simples como la disponibilidad de electricidad en las escue
las donde antes no había, va a producir grandes oportunidades de innovación y
avance en las pruebas de idiomas a nivel de escuela o incluso a nivel de aula.
El mensaje está claro: los responsables de la elaboración de las pruebas deben
estar abiertos a los avances generales que ofrecen oportunidades de cambio en
cuanto a contenido y método de la prueba.
215
10.3. Nuevas tendencias

Una cosa parece obvia en estos últim os treinta años de enseñanza, de evalua
ción de idiom as y de lingüística aplicada, y es que las ideas sobre la naturaleza
de la lengua, sobre la competencia lingüística, sobre el aprendizaje y la docen
cia de la lengua y sobre las mejores maneras de evaluar el aprendizaje y la com
petencia lingüística están cambiando constantemente.
La lingüística se ha apartado de un enfoque basado en la lengua com o un sis
tema formal y se ha vuelto más consciente de otras dimensiones: la naturaleza
del significado, la relación entre las frases y su contexto, la variación lingüística
según el usuario y según el uso, etc. La lingüística se ha abierto para incluir
aspectos sociolingüísticos de la comunicación, se ha redefinido la competencia
lingüística en térm inos de com petencia com unicativa (Hym es, 1 9 7 2 ), y los
m odelos de competencia lingüística han pasado de estar basados en la com pe
tencia gramatical a incluir la competencia textual, la competencia ilocutiva y la
competencia sociolingüística (véase Bachman, 1990).
De forma parecida, en la docencia de la lengua el objetivo de instrucción y apren
dizaje se ha ampliado para incorporar no sólo las estructuras lingüísticas y el léxico
sino también funciones y nociones, estrategias de aprendizaje y de comunicación,
el comportamiento culturalmente apropiado y otros aspectos. A su vez, la revolu
ción comunicativa se ha transformado en ortodoxia y debe resistir los envites de
los que abogan por la importancia que tiene el hecho de que los estudiantes adquie
ran conciencia sobre la lengua -conocimientos sobre la lengua—, que propugnan
una semi-reinstauración de la importancia de la gramática, entendida de forma
amplia, en cualquier definición de los propósitos y objetivos de la formación.
La evaluación de idiom as no está aislada de tales avances, y los años ochenta
vieron cambios importantes en el contenido y, hasta cierto punto, en los m éto
dos de los exámenes para reflejar estas nuevas preocupaciones e ideas. La eva
luación de unidades discretas dio paso, al m enos en ciertos ámbitos, a pruebas
basadas en tareas, a técnicas m ás integradas y a un m ayor énfasis en la evalua
ción de la actuación. Las pruebas de respuesta múltiple se complementaron con
otras com o las de tipo doze, las pruebas c-test, las preguntas con respuesta breve
y otros procedim ientos de respuesta m ás abierta, y la evaluación objetiva cedió
terreno a form as de corrección m ás subjetivas aunque posiblem ente m ás váli
das para evaluar la competencia lingüística.
Es im probable que hayam os visto el fin de los cam bios en la form a de des
cribir la lengua y la competencia lingüística, y de decidir qué contenidos lingüís
ticos enseñar y cóm o. Mientras la evaluación de idiom as deba incorporar una
noción del lenguaje, y una visión de la docencia y del aprendizaje de la lengua,
los exámenes deberán continuar reflejando los cambios teóricos y prácticos que
se produzcan en los otros campos. Así pues, los responsables de la elaboración
de pruebas deberán estar siem pre abiertos a nuevas ideas sobre lo que resulta
importante y relevante a la hora de evaluar, y cóm o deben m edirse estas habi
lidades y este contenido.
216
Nuevas tendencias
Por tanto, mientras sigan cambiando los currículos y los libros de texto, cam
biarán también las pruebas basadas en éstos para mantener su validez curricu
lar (de contenido). Al desarrollarse nuevas form as de enseñanza de las
habilidades de com prensión oral, por ejemplo, o de la enseñanza de la gram á
tica de form a significativa y comunicativa, las pruebas deberán cambiarse para
incorporar tales novedades. Esto no quiere decir que la evaluación de idiom as
dependa de la docencia y deba responder a cada capricho de la m oda pedagó
gica; de hecho, hay pruebas que tendrán que mantenerse independientes de los
currículos para poder cumplir su propósito. Los responsables de la elaboración
de pruebas trabajan bajo determ inados im perativos que no se aplican de la
m ism a form a a los autores de libros de texto y a los autores de un currículo (los
exámenes son sólo muestras, deben administrarse en un periodo de tiempo rela
tivamente corto, no pueden ayudar a los alum nos flojos, etc.) y tienen que
capear cualquier deseo o presión de seguir la m oda con consideraciones que
tengan en cuenta los aspectos prácticos, la validez y la fiabilidad. Sin embargo,
es difícil concebir una situación de evaluación en la que los responsables de la
prueba puedan mantenerse inmunes a la influencia de los avances externos y al
m ism o tiem po conservar la aceptación de sus pruebas por parte de la comuni
dad profesional de profesores, especialistas en lingüística aplicada y otros eva
luadores. Así pues, hay una necesidad constante de encontrar formas que pongan
al día y m odifiquen las pruebas para incorporar los avances externos.
U na form a habitual de cam biar las pruebas es som eterlas a una revisión
importante cada cierto núm ero de años, como se ilustra en la siguiente cita de
Alderson, 1986:
D esp u és de con siderar, al m e n o s, las p au tas de d esarrollo del in glés c o m o
le n g u a extranjera, diría q u e un a p ru e b a tien e u n c id o vital e sta b le a d o d e 12 a
1S añ os. U n a vez ha n acido, u n a p ru e b a necesita tiem p o y cu idad os
e sm erad o s p a ra desarrollarse, p ara atraer m á s y m á s aten ción y can didatos,
p a ra establecer su cred ib ilidad c o m o in stru m en to p a ra u n o b jetivo en
particular, p a ra q u e sea reco n o cid a c o m o válida y fiable, alg o q u e n o so tro s en
el R ein o U n id o m e d im o s m ás p o r la o p in ió n del p ú b lic o y el p re stig io q u e
p o r datos e m píricos. Este p e rio d o suele ocu par entre tres y cin co años.
U n a vez establecida, la p ru e b a se con sidera c o m o aceptable durante un
p e rio d o de tie m p o razon able. D urante este p e rio d o p u e d e resultar aceptada
p o r varied ad d e in stitucion es, citada en la b ib lio g rafía so b re evalu ación y
d e sp u és en la b ib lio g rafía so b re docen cia. Puede tener gran n ú m e ro de
can didatos, a m e n u d o con stituyen do el o b jetivo d e su fo rm ació n y sus
asp iracion es. Este p e rio d o p u e d e durar entre cin co y o ch o años.
H acia el fin al de este p e rio d o , sin em b argo , aparecen sig n o s d e sen ilid ad en
fo rm a d e au m en to de críticas so b re la in fluen cia d e la p ru e b a en la docen cia y
en las am b icio n es y vida de lo s alu m n os. La q u e ja habitual es q u e la pru eb a
ejerce u n a in fluen cia restrictiva en la docen cia, y q u e n o p erm ite a lo s
p ro feso re s en señ ar de fo rm a deseab le o sig u ie n d o la m od a.
La p re sió n p u e d e en ton ces crecer den tro d e la o rgan ización m ism a (en el caso
de G ran Bretaña, den tro del p ro p io tribu nal d e e xám en es) p ara q u e cam b ien
217
*
las esp ecificacion es, el con ten id o o el fo rm a to de la pru eba. Estas presion es
p ara el cam b io , c o m o verem o s, n o están tan relacion adas con la re c o g id a de
datos q u e d em u estren la in cap acid ad d e la p ru e b a p ara satisfacer el p ro p ó sito
esp ecificad o c o m o con la sen sació n q u e tienen las partes in teresadas d e que
existe u n d e sfase de la p ru e b a con resp ecto a lo s avances de la teoría didáctica
y d e la lin gü ística aplicada. En un sen tido m á s general, p u e d e tratarse d e q u e
la p ru e b a ya n o cu m p la con su fu n c ió n original.
Puede q u e el c am b io lo p ro d u zcan p ro feso re s un iversitarios d e lin güística
ap licada a través de la in vestigación , a m e n u d o im p u lsa d a p o r com ités o
c o m isio n es de trabajo, o p o r el m ism o tribu nal de exám en es a través d e la ya
existen te o recién creada re d de p ro feso re s—evalu adores [...] o p u e d e ser
p ro v o cad a p o r u n a im p licació n directa, n o siem pre solicitada, de los
p ro feso re s m e d ian te m o v im ie n to s c o m o el de las p ru eb as escalon ad as (g rad e ó
test movement) en el caso del R eino U n id o. Sea cual sea el agen te del cam b io, un
n uevo alu m b ram ie n to es in evitable, a m e n u d o d e sp u é s de un p e rio d o de
ge stació n de d o s o tres añ os. Y volverem os a contar con otra in n ovación : el
n acim ien to de u n a n ueva pru eba. Esta p u e d e p arecerse m u c h o a la an terior o
ser m u y distin ta d e ella.
D e tod as fo rm as, es lícito p regu n tarse: ¿Existía la n ecesidad real de u n a nueva
pru eb a? ¿D on d e re sid ía la dem ostración , y n o só lo la op in ió n , d e q u e la
p ru e b a an tigu a n o era eficaz, de q u e estaba periclitada, a pu n to d e p asar a otra
vida? ¿Q u é n ecesid ad sen tían o q u é sab ían de la n ecesid ad de u n a n ueva
p ru e b a su s u su a rio s: lo s alu m n os, lo s p atrocin ad ores, las in stitucion es?
(p ágin as 9 6 —9 7 ).
Otra forma de cambiar las pruebas, sin embargo, es organizando m odos de

innovar el contenido y el form ato de la m ism a constantemente. Esto im plica
cam bios continuos en cuanto a form atos, m ás que revisiones relativamente
ambiciosas e irregulares como las sugeridas anteriormente. Puesto que cualquier
tipo de prueba, incluso una de aprovechamiento basada en un currículo espe
cífico, es inevitablemente sólo una muestra de lo que podía haberse evaluado,
la m odificación continua del diseño de la prueba está justificada en el deseo de
m ejorar la cobertura del currículo por parte de la prueba. Si el form ato de la
prueba permanece estable durante un periodo de tiempo, puede tener el efecto
de reducir el currículo: no sólo restringirá la prueba a los elementos que se cree
que son evaluables o convenientes sino que posiblemente la enseñanza durante
la preparación para la prueba se limitará a los tipos de actividades y habilidades
que se van a evaluar. Para evitar tal limitación, al igual que para m ejorar la vali
dez del contenido, hay organizaciones que adoptan de form a deliberada una
política de innovación constante cada año. Para cada convocatoria se cambia una
parte de la prueba: puede tratarse de la introducción de un m étodo de examen
nuevo, de un distinto equilibrio entre sus com ponentes, de la evaluación de
nuevas destrezas o competencias; o pueden introducirse cam bios en los enun
ciados, en los tipos de prueba o en los procedimientos de respuesta. El propó
sito de tal innovación es precisamente el evitar cualquier tipo de fosilización de
la prueba, con las poco deseables y previsibles consecuencias.
218
Informe sobre los tribunales de exámenes de inglés...
10.4. El mundo real

Hay, naturalmente, otras consideraciones que llevan a los responsables de una
prueba a cambiarla aparte de los avances teóricos. Los aspectos prácticos son a
m enudo de gran im portancia. El coste de la producción de una prueba es a
m enudo un factor significativo en la limitación de lo que puede conseguirse: el
grado de complejidad que implica la elaboración de una prueba, la cantidad de
formación necesaria para los examinadores, el número de distintas hojas, la can
tidad de tiem po necesaria para la administración de la prueba, el núm ero de
examinadores necesario. Además, una presión financiera complementaria puede
llevar al centro a m odificar la naturaleza de su prueba y su administración para
reducir costes. La creciente saturación de los horarios de examen en las escue
las puede significar que queda m enos tiem po disponible que antes para una
prueba de idiomas, y puede ser necesario llegar a una solución de compromiso
en el m om ento del diseño de la prueba.
Puede darse tam bién el caso (aunque m enos corriente) de que haya más
tiempo disponible y que desaparezca la limitación de recursos y de personal pre
parado, por lo que las pruebas puedan volverse m ás innovadoras y reflejar el
currículo y las tendencias en la enseñanza y en la lingüística apficada. La presión
de otros tribunales de exámenes competidores, del país o internacionales, tam
bién pueden provocar llamadas a la innovación más que a la sim plificación o
reducción de costes.
Muchos países tienen una autoridad centralizada con la única responsabili
dad de producir exámenes, y la experiencia muestra que tales m onopolios de
estado tienden a ser conservadores en lo que respecta a la innovación. Sin
em bargo, en otros ám bitos, com o es el caso de los exámenes de inglés como
lengua extranjera en el Reino Unido, por ejemplo, las «fuerzas del m ercado»
tienden a forzar una innovación competitiva en el desarrollo de pruebas con la
esperanza de alcanzar una cuota de m ercado más alta. De manera parecida,
donde los tribunales de exámenes compiten intemacionalmente por el m ism o
m ercado (com o es el caso, por ejem plo, con el ETS de TOEFL, y el IELTS de
UCLES), podem os suponer que el diseño de las pruebas avanza a m edida que
cada institución intenta ganar ventaja. Así pues, debemos esperar que las pros
pecciones de mercado y las comparaciones de «productos» rivales sean im por
tantes en algunos ámbitos y actúen como una fuerza de cambio en el desarrollo
de pruebas.

El cuestionario contenía varias preguntas que intentaban descubrir hasta qué
punto los tribunales de exámenes del Reino Unido realizaban de forma regular
la revisión y la actualización de sus pruebas. Además, pretendíamos determinar
hasta qué punto los centros estaban satisfechos con las pruebas existentes y sus
219
procesos de producción para poder estimar hasta qué punto tales centros podían
sentir la necesidad de cambiar sus pruebas en un futuro.
PREGUNTA 46: ¿Se recogen comentarios sobre sus exámenes?

Sólo un tribunal dijo que no recogía tal tipo de inform ación sobre sus exá
menes. Cómo se recogía y de quién, sin embargo, variaba. Algunos tribunales
recogían inform ación de manera informal de profesores en conferencias y en
seminarios, y «p o r rum ores». Uno o dos recogían información de forma regu
lar, utilizando los «inform es de los vigilantes de las pruebas», los «inform es de
los asesores», o cuestionarios a «escuelas, centros de administración de exám e
nes, profesores y exam inadores» (nótese que no a estudiantes). Un tribunal res
pondió que se recogían comentarios de manera «informal, por contacto personal
con los centros», y otro que su «intención es la de mandar cuestionarios a los
centros periódicamente, aproximadamente cada tres años». La práctica de UCLES
varía, pero al m enos una respuesta mencionaba una «H oja de información del
candidato» que debían rellenar todos los candidatos.
PREGUNTA 47: ¿Existen procedimientos rutinarios para garantizar que sus exámenes se revisen a la
luz de los comentarios?
Es interesante remarcar que tres tribunales respondieran que tales procedi
mientos no existían. Una respuesta de UCLES decía que los grupos de trabajo
discutían el tema a intervalos de seis meses.
PREGUNTA 48: ¿Cada cuánto tiempo aproximadamente se revisan sus exámenes?

La frecuencia de la revisión de los exámenes de inglés como lengua extran
jera varía de «e n m enores detalles, constantemente» a «cada dos años aproxi
m adam ente»; un tribunal dijo: «Revisiones menores cada pocos años. Mayores
revisiones sólo ocasionalm ente. Actualmente se está realizando una revisión
im portante.» Dos centros hicieron referencia a revisiones en 1989 y 1990 res
pectivamente.
PREGUNTA SO: ¿Tienen planes para realizar cambios como los descritos más arriba en los procedi
mientos que siguen?
La mitad de los tribunales dijo que sí tenían tales planes y la otra mitad res
pondió que no. Se hizo mención a una revisión de envergadura en curso, pero
no se facilitaron detalles.
Las últimas preguntas pretendían sondear hasta qué punto los centros estaban
satisfechos con sus pruebas y hasta qué punto creían que sus pruebas eran «supe
riores» a otras pruebas del mercado. Aunque estas respuestas no estaban directa
mente relacionadas con la supervisión de la prueba o con su mejora, dan idea de
si los centros creen, al menos en público, que sus pruebas tienen que mejorar.
PREGUNTA 51: Se dice que la fuerza de los exámenes británicos reside en su relación con la docen
cia. ¿Está de acuerdo? ¿Puede describir cómo se demuestra esta relación en el caso de su examen?
220
Informe sobre los tribunales de exámenes de inglés...
N ingún tribunal discrepó de esta afirmación, aunque uno dijo que no tenía
opinión, puesto que «la fortaleza de nuestros esquem as reside en unas defini
ciones claras de actuación. No dictamos materiales de aprendizaje».
Entre los que respondieron «A lgo », uno dijo: «H ay otros puntos fuertes, y
la docencia es una base tambaleante, porque las m odas cam bian frecuente
m ente.» La m ayoría respondió con un rotundo Sí y tres dijeron que sus exá
m enes tenían efectos de rebote positivos. Sin em bargo, no tenemos
conocimiento de ningún estudio sobre la materia. La suposición más común fue
que la cercanía a la docencia estaba asegurada con la implicación de los profe
sores como examinadores y con la evaluación de las destrezas comunicativas.
PREGUNTA 52: También se dice que los criterios y procedimientos «psicométricos» o «americanos»
son irrelevantes para los exámenes británicos. ¿Está de acuerdo? Si está de acuerdo, ¿qué criterios y/o
procedimientos son irrelevantes para sus exámenes?
Una gran mayoría de los tribunales discrepó de esta afirmación, aunque varios
decían que tales «procedim ientos» sólo afectaban a las secciones de corrección
objetiva de sus exámenes. Dos tribunales, sin embargo, añadieron calificacio
nes a su desacuerdo, que creemos vale la pena citar completas:
U n a co m b in ac ió n de re alism o lin gü ístico b ritán ico y de psicom etría am ericana
es, creo, m u y deseab le y técnicam ente p o sib le , m ien tras se su p o n g a q u e los
exam in ad o res n o sean u n os sinvergüen zas y, dentro de u n os lím ites, tien dan a
co n verger en su s o p in io n e s sob re lo s con ten idos lin gü ístico s y los can didatos
[...] el an álisis p sico m é trico n o es n un ca lo suficien tem en te com pleto co m o
p a ra d isip ar todas las sosp ech as y n o con ven cerá a lo s p ro feso res si entra en
con flicto con el sen tido com ú n , evidencia em pírica q u e p u ed en com pren der
fácilm en te a sim p le vista.
Y también:
Su ap licació n au m en taría de fo rm a sign ificativa el coste de u n pro d u cto que
d eb ería tener u n p re cio m o d erad o .
PREGUNTA 53: ¿Cuáles son, en su opinión, los puntos fuertes de sus exámenes?
Esta pregunta provocó gran variedad de respuestas, desde «flexibilidad de la
administración», «disponibilidad a petición», «tareas prácticas realistas», exá
menes «disponibles para distintos niveles», a las m enos modestas «fiabilidad,
justicia com pleta, validez y procedim ientos de adm inistración intachables».
Gama de textos y tipos de tarea, autenticidad, relación con la docencia y la afir
m ación de efectos de rebote fueron los puntos fuertes más mencionados.
PREGUNTA 54: ¿Cuáles son, si los tienen, los puntos débiles de sus exámenes?
¡No es de sorprender que las respuestas a esta pregunta fueran más breves!
Cuatro tribunales dijeron que no tenían ninguno, y uno afirm ó que el único
punto débil de sus exámenes es que todavía no se convocaban en Estados U ni
dos o Canadá. Sin embargo, uno o dos dio respuestas más detalladas, haciendo
221
Desarrollo y m ejora de los exámenes
referen cia, p o r ejem p lo , a la d ificu ltad de u n ificar ju ic io s de im p re sió n . La

ausencia del com pon en te de evaluación de la p rod u cción oral fue m en cion ad o
por dos centros, y un tercero m encion ó las destrezas integradas.
N o todos los lectores se tranquilizarán al leer una de las respuestas: «S i se d es
cubriera u n punto débil, se rectificaría in m ediatam ente».
Las respuestas de UCLES eran m ás creíbles y resultaron francas y alentadoras.
U na de ellas contenía tres puntos:
a) Necesitamos llevar a cabo mayores esfuerzos para garantizar la fiabilidad de

los examinadores mediante certificaciones y revisiones de estas certificaciones.
b) Tenemos que procurar establecer en mayor medida que las distintas
versiones sean equivalentes en términos de fiabilidad y de contenido.
c) Las tareas de expresión escrita que requieren una corrección subjetiva
deberían ser corregidas habitualmente por dos correctores.
U na segu n d a resp uesta identificó d os p u n tos débiles « la falta de form ación

del personal relacionado con la adm inistración de la prueba y la adm inistración
ted io sa», y un a tercera respuesta, refiriéndose a una prueba recién introducida,
dijo: « la falta de p roced im ien tos form ales para la validación y la equiparación
constante de la p ru eb a».
10.6. Discusión
Según estos resultados, parecerá que los tribunales están en general satisfechos
de sus pruebas, aunque estén im plicados en u n proceso de revisión habitual. Lo
que está m en os claro es hasta qué punto esta revisión es el resultado de la reco
gid a sistem ática de d ato s, y hasta q ué pu n to refleja reaccio n es in tu itivas del
«ám b ito p ro fesio n al» y del «m e rc a d o ». N uestra posición es que la recogida de
com entarios in form al a través de «ru m o re s» es una base p oco fiable para fu n
dam entar la satisfacción sob re la prueba, o in cluso las revisiones de la m ism a.
Sin em bargo, algunas respuestas aseguraron que se identificaban los problem as
y que se tom aban m edid as para ponerles rem edio.
La supuesta estrecha relación con la docencia era quizá predecible, pero debe
tom arse con escepticism o, p uesto que la práctica varía de form a considerable.
Las afirm acion es sob re el efecto de rebote b en eficio so so n com u n es, p ero no
presentan pruebas y , com o han señalado Alderson y Wall, 1 993, ésta es un área
que p o d ría b en eficiarse de u n a co n sid erab le in v estig ació n . D ada la su p u esta
estrecha relación entre la d ocencia y la evaluación, p u ede darse el caso de que
las pruebas puedan m ejorarse m ediante u n estudio exhaustivo de la práctica de
la preparación de pruebas.
10.7. Sumario
¿Qué p rocedim ientos de supervisión se llevan a cabo?
análisis de ítem s y fiabilidad de la prueba
cálculo de la fiabilidad de la corrección
222
Sum ario
observación de la adm inistración de la prueba

observación del proceso de form ación y de unificación de criterios
observación de la corrección y de la supervisión
com paraciones de niveles de éxito a lo largo del tiem po
recogida de datos sob re las características de la población de la prueba:
sexo
país o región de origen
len gua m aterna
historial de aprendizaje de lenguas
m otiv os para presentarse a la prueba
nivel de habilidad
etc.
com entarios de los u suarios de la prueba:
candidatos
exam inadores
profesores
otros usuarios, com o, por ejem plo, responsables de adm isión
¿Se llevan a cabo los procedim ientos de seguim ien to de form a adecuada?
¿Se necesitan estudios especiales?
parcialidad de los ítem s y de la prueba
m otivación del candidato, razones para presentarse a la prueba, resultados
en otras m aterias
etc.
¿Hay otros m étodos de análisis disponibles —estadísticos o cualitativos- que p u e
dan revelar m ás in form ación sobre la prueba?
¿Q ué tecnología está dispon ible que pueda conducir a m ejoras?
casetes de audio
laboratorios de lenguas
fotocopiadoras
electricidad
vídeo
vídeo interactivo
ordenadores
lectores ópticos
sistem as de reconocim iento de caligrafía
lápices correctores
etc. ^
¿Está pasada de m od a la visión de los contenidos lingüísticos que la prueba con
tiene?
¿Refleja la prueba las corrientes y la práctica actual de la docencia de lenguas?
¿Q ué efecto tiene la prueba en la docencia? ¿Puede m ejorarse?
¿Puede la prueba ponerse al día de form a habitual y n o sólo ocasionalm ente?
¿Puede reducirse el coste de la prueba sin que se vean afectadas la validez y la
fiabilidad?
223
Desarrollo y m ejora de los exámenes
¿Puede sim plificarse la prueba sin que se vean afectadas la validez y la fiabili
dad?
¿Cómo son las pruebas de la competencia? ¿Puede su prueba mejorar lo que ellas
hacen?
¿Revelan los estudios de m ercado la necesidad de cam bio? ¿Hay huecos en el
mercado?
Bibliografía
Alderson, J. C. (1986a). En Leach y Candlin (eds.), Computen in English Language Education
and Research. Longman, Londres.
Alderson, J. C. (1986b). «Innovations in Language Testing?» En M. Portal (ed.).
Innovations in Language Testing, págs. 93—IOS. NFER-Nelson, Windsor, Berks.
Alderson, J. C. (1988a). «Innovations in Language Testing: Can the Microcomputer
Help?» Número especial de Language Testing Update.
Alderson, J. C. y S. W. Windeatt (1991). «Computers and Innovation in Language
Testing.» En J. C. Alderson y B. North (eds.). Language Testing in the 1990s: The
Communicative Legacy. Macmillan, Nueva York.
Alderson, J. C. y D. Wall (1993). «Does Washback Exist?» Applied Linguistics, 14, págs.
115-129.
Press, Oxford.
Bachman, L. F. y A. S. Palmer (1981). «A Multitrait-Multimethod Investigation into
the Construct Validity o f Six Tests o f Listening and Reading.» En A. S. Palmer, P. J.
M. Groot y G. A. Trosper (eds.), The Construct Validation of Tests of Communicative
Competence. TESOL, Washington, DC.
Campbell, D. T. y D. W. Fiske (1959). «Convergent and Discriminant Validation by
the Multitrait-Multimethod Matrix.» Psychological Bulletin, 56, pigs. 81—105.
(eds.), Sociolinguistics, pigs. 269-293. Penguin, Harmondsworth.
Linacre, J. M. y B. D. Wright (1992). FACETS: Many-Facet Rasch Measurement. MESA Press,
Chicago.
Lynch, B., F. Davidson y G. Henning (1988). «Person dimensionality in language
test validation.» Language Testing, 5 (2), pigs. 206—219.
pigs. 41—69.
224
11 Criterios de la evaluación de lenguas:
el estado de la cuestión
En este capítulo final se tratan los principios y los criterios que hemos pretendido
establecer e ilustrar en este libro hasta el momento. Cada capítulo ha tratado un
estadio distinto del proceso de redacción y de evaluación de las pruebas, y ha des
crito lo que consideramos como «práctica deseable» en la evaluación de idiomas.
Al mismo tiempo hemos intentado ilustrar la práctica habitual en una zona en par
ticular —el Reino Unido—y en un grupo de pruebas: las de inglés como segunda
lengua o lengua extranjera. Si hubiéramos descrito la práctica de otras partes del
mundo o de otros idiomas en el Reino Unido, sin duda hubiéramos hecho otro
retrato, quizá m ejor, quizá peor del que hem os pintado en estas páginas. Hay
muchos factores que influyen en el proceso de evaluación: prácticos, financieros
y políticos. Distintos responsables de distintas pruebas pueden empezar con la
m ism a idea, pero acaban con instrumentos y procedimientos m uy diferentes a
causa de las limitaciones del entorno en el que trabajan. Heaton (1988: 24) uti
liza el término «com prom iso» para describir el tira y afloja que está siempre pre
sente en el proceso de elaboración de una prueba. Si tales compromisos resultan
inevitables, al menos debemos garantizar que estén basados en ciertos principios.
Tener una idea clara de cuál es la mejor práctica ayudará a los responsables de la
prueba a ver qué elementos pueden permitirse sacrificar y cuáles deben mantener
a pesar del alto coste. Aquí reside el significado de «criterios» (standards).
11.1. ¿Qué son los criterios?

En evaluación, el término standards puede tener dos significados distintos, sólo
uno de los cuales se adoptará en este capítulo. El prim er significado tiene rela
ción con los niveles de los resultados de los alumnos. Este es el m ás com ún
m ente utilizado para referirse a los candidatos de una prueba, com o en la
expresión «L os niveles han caído...», y hem os utilizado el término con este sig
nificado en capítulos anteriores.
El segundo significado de standards [al que corresponde el término «criterios»]
está relacionado con la noción de «principios». Pollit (1990) considera los «cri
terios» com o una forma de m edir la adherencia de una institución a irnos deter
m inados «principios»:
Los «principios» dividen el mundo de la evaluación de forma horizontal, en distintos
ámbitos que nos conciernen. Los «criterios» lo dividen de forma vertical, definiendo
(por ejemplo) cuánta «fiabilidad» se debe pedir, o lo bien o lo detalladamente que
debe describirse el proceso de elaboración de la prueba (página 1).
225
Criterios de la evaluación de lenguas: el estado de la cuestión
Para Pollitt es relativamente fácil llegar a un acuerdo sobre los «principios»,

mientras que los «criterios» son «escurridizos» y pueden conducir a un exceso
de prudencia o a una represión de los avances creativos.
De la m ism a m anera que vem os la lógica de esta distinción, reconocem os
que para la mayor parte del m undo de la evaluación los «criterios» y los «prin
cipios» se refieren a la m isma idea: una base para evaluar la práctica de la eva
luación. Esto es así a causa de los Standards for Educational and Psychological Testing, que
describimos más adelante, y documentos similares, que utilizan la palabra «cri
terios» en sus títulos. Q uerem os contribuir a lo que consideram os un uso
extendido del térm ino, y tam bién querem os anim ar a los que están desarro
llando un trabajo im portante en esta área. Por este m otivo utilizam os el tér
mino «criterios» con este segundo significado, que se refiere a las directrices
acordadas que deberían consultarse y, en la m edida de lo posible, ser tenidas
en cuenta durante la elaboración y evaluación de una prueba. En el Reino
Unido y en el entorno europeo, la expresión «c ó d ig o de com portam iento»
parece preferirse al término «criterios», e incluimos un resum en de estos dos
tipos de docum entos en este capítulo.
Estos últimos años hem os asistido a una discusión considerable sobre la nece
sidad de contar con criterios, y sobre si la evaluación de idiom as debería tener
unos criterios propios. La Asociación Internacional de Evaluación de Lenguas
(ILTA) está investigando los criterios existentes para las pruebas y otros tipos de
medidas en el ám bito de la educación, para comenzar una discusión sobre el
posible diseño de una política que defina estos criterios o la compilación de un
nuevo conjunto que sea m ás específico. En este capítulo damos nuestra opinión
sobre los criterios en general y sobre los conjuntos de criterios en particular que
pueden ser puntos de partida útiles para un trabajo futuro.
En los apartados siguientes describimos seis conjuntos de criterios distintos.
Los hem os escogido porque creem os que representan enfoques interesantes
sobre el problema que supone la definición de una buena prácdca y porque cada
grupo contribuye con algo nuevo a nuestro retrato de lo que deberían ser los
criterios. Somos, sin em bargo, conscientes de que al escoger criterios escritos
en inglés podem os estar excluyendo de la discusión directrices producidas en
otras lenguas. El inform e de ILTA dará pronto información sobre los esfuerzos
que se hacen para asegurar la calidad de pruebas y exámenes en otras lenguas.
A continuación presentamos la base, el propósito y la organización general
de cada uno de estos seis conjuntos de criterios, y un comentario sobre el valor
de su contribución al cam po de la evaluación. Incorporam os luego ideas de
todos ellos a una discusión sobre las preguntas que deberían formularse en futu
ros debates sobre la conveniencia de otros criterios.
Nótese que la fecha que se da entre paréntesis al principio de cada descrip
ción es la fecha de la última edición del documento que se presenta. Ninguno
de los documentos tiene m ás de diez años; esto no significa, sin em bargo, que
todos los avances hayan tenido lugar en la última década. En realidad, m uchos
de los documentos son el resultado de años de reflexión y de revisión. Es tam-
226
Standards for Educational and Psychological T estin g ...
bien im portante darse cuenta de que algunos docum entos reconocen a otros
com o fuente de inspiración. Ha habido mucho intercambio en esta área hasta
el m om ento, y es probable que continúe en el futuro.
11.2. Standards for Educational and Psychological Testing

(«Criterios de evaluación educativa y psicológica») (1985)
11.2.1. Antecedentes
Quizá los criterios m ás conocidos son los Standards for Educational and Psychological
Testing, a los que m uchos se refieren com o los «criterios APA». Estos criterios
fueron publicados en 1985 por The American Educational Research Association (AERA),
The American Psychological Association (APA) y The National Council on Measurement in Edu
cation (NCME). APA y AERA habían pubÜcado por separado «recomendaciones
técnicas» para pruebas a m ediados de los años cincuenta y, junto con NCNE,
contribuyeron a la publicación de sus prim eros criterios conjuntos en 1966.
Estos fueron revisados en 1974 y de nuevo en 1985. La versión de 1985 incluye
la gran cantidad de cambios que tuvieron lugar en el campo de la evaluación en
los años setenta, incluyendo adelantos técnicos, nuevos usos de las pruebas para
«preocupaciones sociales crecientes sobre el papel de la evaluación en la logro
de objetivos sociales» (página 5). Suponem os que habrá otra revisión durante
la presente década.
11.2.2. Propósito
El docum ento de los criterios es suficientemente explícito en cuanto a su pro
pósito:
El propósito al publicar este documento es el de facilitar criterios para la
evaluación de pruebas, prácticas evaluativas y los efectos producidos por esta
práctica [...] Pueden aportar un marco de referencia para garantizar que se
tratan los aspectos importantes [...] Todos los responsables de la elaboración
de pruebas, los que las costean, los editores, y los usuarios deberían hacer
esfuerzos para cumplir estos criterios y animar a otros a hacer lo mismo
(página 2).
Se da por hecho que hay pruebas que no ofrecen la calidad que el público
espera de ellas: los criterios pueden utilizarse com o una base para identificar
las pruebas que cum plen con sus objetivos y las que no. El docum ento reco
noce que «la utilización de criterios en litigios es inevitable» (página 2 ); sin
em bargo, se han ideado com o guía para contribuir a la tom a de decisiones,
pero no de form a prescriptiva. En realidad, hay que señalar recientes debates
con AERA sobre cóm o, o sobre si los criterios deberían «im p o n erse». El
Comité de Revisión los ve claramente com o voluntarios, aunque con un grado
de obligación moral.
El prefacio al documento de los criterios da información detallada sobre cómo
cree el Comité de Revisión que éstos deberían operar:
227
Los criterios deberían:

1. tratar temas relativos al uso de pruebas en variedad de aplicaciones;
2. ser el modelo de los criterios técnicos para la buena práctica profesional y
no una prescripción sobre acción social;
3. hacer posible la determinación de la adecuación técnica de una prueba, la
propiedad y adecuación de aplicaciones específicas, y si las inferencias
basadas en los resultados de la prueba son razonables;
4. requerir a los responsables de la elaboración de pruebas, a los editores y a
los usuarios la recogida y disponibilidad de información suficiente para que
un inspector cualificado pueda determinar si se cumplieron los criterios
adecuados;
5. representar un fuerte imperativo ético, aunque estaba claro que el
documento en sí no debía contener mecanismos de control;
6. reconocer que no todos los criterios son aplicables de forma uniforme
según instrumento y uso;
7. presentarse a un nivel que permita utilizarlos a una gama amplia de
profesionales que elaboran o utilizan las pruebas o sus resultados.
8. no inhibir la experimentación en el desarrollo, utilización e interpretación
de pruebas;
9. reflejar los actuales niveles de consenso de los expertos reconocidos.
(Página v)
11.2.3. Objetivos
Los criterios van dirigidos a las pruebas, según se definen en el documento de
la siguiente forma:
Por pruebas se entiende instrumentos de habilidad (aptitud y
aprovechamiento) tipificados, mecanismos de diagnóstico y evaluación,
listados de intereses, listados de personalidades e instrumentos de proyección
[...] En los criterios se cubren tres categorías amplias de instrumentos de
evaluación: tareas para evaluar la actuación, cuestionarios, y en menor medida,
muestras de actuaciones (páginas 3—4).
Sin em bargo, los criterios no sólo van dirigidos a los instrum entos de eva
luación sino también, y sobre todo en la revisión de 1985, al uso de las prue
bas y, en particular, a sus aplicaciones y a los procedimientos administrativos.
Procuran ser completos, dirigiéndose a «u n uso mayoritario de las pruebas, a
los aspectos técnicos relativos a una amplia gam a de preocupaciones sociales y
legales, y a las distintas necesidades de los participantes en el proceso de eva
luación» (página v iii).
7 1.2.4. Organización general

El documento de los criterios está subdividido de la siguiente manera:
228
Standards for Educational and Psychological T estin g ...
Parte I: Criterios técnicos para la redacción y evaluación de pruebas

Contiene capítulos sobre los aspectos siguientes: validez; fiabilidad; elabo
ración y revisión de pruebas; elaboración de escalas y de normas, com pa
ración y ecuación de resultados; y publicación de la prueba: manuales
técnicos y guías del usuario.
Parte II: Criterios profesionales para la utilización de pruebas
Contiene capítulos sobre principios generales de la utilización de pruebas;
la evaluación educativa y psicológica en escuelas; utilización de pruebas
para asesoram iento; selección de personal; licenciaturas profesionales y
ocupacionales; y evaluación de programas.
Parte III: Criterios para aplicaciones específicas
Se ocupan de evaluación de minorías lingüísticas; y de la evaluación de per
sonas discapacitadas.
Parte IV: Criterios para los procedimientos administrativos
Cubren la administración de las pruebas, puntuación y publicación de resul
tados; y de la protección de los derechos de los candidatos.
Hay un prólogo al principio de cada capítulo que facilita un contexto para la
interpretación de los criterios descritos en el capítulo. También hay un glosario
de térm inos técnicos utilizados en el docum ento de siete páginas y un índice
para dirigir a los usuarios a las secciones que m ás les interesen.
7 7 .2 .5 . Características distintivas
Los criterios comprenden tres tipos distintos de recomendaciones: criterios pri
m arios, secundarios y condicionales. Los criterios primarios deberían:
cumplirlos todas las pruebas antes de su utilización y deberían cumplirse en
todas las utilizaciones posibles, a no ser que haya una razón profesional de
peso que demuestre por qué no es necesario o técnicamente posible en un
caso en particular. Los responsables de la elaboración de las pruebas y sus
usuarios, al igual que los patrocinadores de la prueba, deben poder explicar
por qué alguno de los criterios primarios no se ha cumplido (página 2).
Un ejemplo de criterio primario es el número 1.11:

Debería presentarse evidencia de validez para los principales tipos de
inferencias para cuyo uso se recomienda una prueba. Debería facilitarse una
^-explicación que respalde la evidencia presentada (página 13).
Los criterios secundarios, por otra parte, son deseables, pero pueden encon
trarse «m ás allá de lo que puede esperarse en muchas situaciones» (página 3).
Tales criterios describen procedimientos beneficiosos pero pueden ser difíciles
de poner en práctica cuando los recursos son limitados. Un ejemplo de criterio
secundario es el número 2.10:
Los errores típicos de corrección deberían hacerse públicos si afectan a los
límites para pasar la prueba. Si se especifican las notas de corte para selección
229
C riterios de la evaluación de lenguas: el estado de la cuestión
o clasificación, estos errores deberían notificarse en los niveles cercanos a la

nota límite entre niveles o a la nota de corte (página 22).
La tercera categoría de criterios, llamada «condicional», puede ser primaria

o secundaria, según la prueba que se esté analizando. En este caso, el responsa
ble de la prueba debe utilizar un elemento de raciocinio que equilibre las con
sideraciones prácticas con otros factores tales com o el núm ero de candidatos
que se presentará a la prueba. Si la prueba tiene pocos candidatos y las conse
cuencias de sus resultados no son excesivamente importantes, puede no valer la
pena el intentar cumplir un criterio condicional. Un ejemplo de este tipo de cri
terio, es el núm ero 5.1:
Debería haber un manual técnico a disposición de futuros usuarios en
el m om ento de publicar o empezar a utilizar una prueba (página 35).
Aunque sería útil para los patrocinadores de la prueba, para los adm inistra
dores y otros el poderse referir a tal tipo de manual, podría resultar poco razo
nable pretender que una persona responsable de la elaboración de la prueba
elabore un manual para cada versión de la misma, especialmente si se adm inis
tra más de una versión cada año. Esto no significa que no tenga que haber docu
m entos que respondan a las preguntas de futuros usuarios, sino que estos
documentos pueden tener el formato de informes breves en lugar de publicarse
oficialmente en forma de folletos.
Además de distinguir entre criterios esenciales y los que pueden no tenerse
en consideración si las circunstancias lo piden, el docum ento también facilita
un comentario explicativo para ciertos criterios. Este comentario contiene una
información general, una justificación, una ejemplificación y una explicación
de la redacción del criterio: pretende contribuir a la comprensión, no constituir
otro principio que deba ser tenido en cuenta.
11.2.6. Comentario
Por lo que hem os dicho se puede deducir que los criterios son m uy totalizado
res. Aunque a primera vista puedan abrum am os, con 16 apartados y 181 direc
trices, una vez que el lector se haya fam iliarizado con la organización de las
definiciones y se hayan leído los prólogos y el comentario, no son difíciles de
comprender. Existen, sin embargo, dos aspectos que quisiéramos comentar.
El primero es que no está claro por qué los criterios secundarios se conside
ran m enos «prim ordiales» que los criterios prim arios. Alrededor del diez por
ciento de todas las directrices corresponden a esta categoría «secundaria», que
significa que los evaluadores no necesitan seguirlos si creen que no son prácti
cos, ni tienen que explicar por qué no los han seguido. Naturalmente, si los eva
luadores se concentran en los criterios primarios, su práctica será tan correcta y
estará tan bien documentada que la falta de los criterios secundarios ni se notará;
sin em bargo, es difícil entender las razones para decidir qué criterios pueden
soslayarse.
230
Code of F air Testing Practices in E ducation...
El segundo aspecto tiene que ver con el entorno educativo en el que se utili
zan las pruebas. En Estados Unidos existe una gran dependencia del uso de prue
bas normalizadas; una serie de preocupaciones sobre los problemas que pueden
resultar de este tipo de evaluación es lo que llevó, en primer lugar, al desarro
llo de los criterios. En otros entornos, las pruebas norm alizadas pueden ser
m enos corrientes y presentar, por tanto, m enos causas de preocupación sobre
posible abusos o usos erróneos.
Sin em bargo, la fam iliaridad con los criterios es útil para los evaluadores o
profesores de idiom as, para los evaluadores de programas y para los investiga
dores de lingüística que necesiten elaborar o utilizar pruebas de idiomas, y no
pretendemos excusam os por haber tratado este conjunto de criterios en detalle.
11.3. Code of Fair Testing Practices in Education (Código para

una buena práctica en evaluación educativa) (1988)
A principios de los años ochenta, durante el periodo en que los Criterios de eva
luación educativa y psicológica estaban en el estadio de revisión final, la APA empezó
a preocuparse por la cantidad de críticas dirigidas hacia la práctica de la evalua
ción en Estados Unidos y sobre el volumen de legislación y los litigios relacio
nados con los exámenes y su uso. Aunque la edición revisada de los Criterios
iba a tener en cuenta el papel cambiante de las pruebas en la sociedad, algunos
m iem bros de la APA creyeron que sería útil centrarse en cómo mejorar la prác
tica de la evaluación. Se celebró una conferencia en 1984, que congregó a repre
sentantes de la APA, de la AERA, de NCME, de la Canadian Psychological Aaoaation y
a 23 editores de pruebas. Se constituyó el Joint Committee on Testing Practices (JCTP)
y se form ó un grupo de trabajo que estudiara la posibilidad de crear un código
de comportamiento para evaluadores. El resultado de su trabajo fue el Code of Fair
Testing Practices in Education (Diamond y Fremer, 1989: passim ).
11.3.2. Propósito
El propósito del Código es «establecer las principales obligaciones hacia los can
didatos y hacia los profesionales que elaboran o que utilizan pruebas en educa
ción» (JCTP, 1980: 1). No es intención del Código el modificar o complementar
él documento sobre criterios del año 1985, sino el subrayar ciertos aspectos tra
tados, en particular los relativos al uso correcto de las pruebas en educación.
Como los Criterios, el Código está preocupado sobre todo por las pruebas elabora
das de forma profesional, incluyendo las producidas por editores comerciales,
m ás que por las pruebas a pequeña escala elaboradas por profesores o escuelas.
Está redactado en un estilo que pretende ser comprensible para el público en
general; de hecho, su parte introductoria afirma que debe ser «significativo para
los candidatos y /o para sus padres o tutores» (página 2).
231
11.3.3. Objetivos
El Código especifica directrices para los redactores de pruebas y para sus usuarios.
Considera que los redactores son «las personas que elaboran la prueba así como
las que diseñan la política de unos program as de evaluación en particular», y
que los usuarios son «las personas que seleccionan pruebas, encargan su elabo
ración, o toman decisiones a partir de las notas de las m ism as» (página 1). Reco
noce que estos papeles pueden solaparse en ocasiones, como se daría en el caso
de que el M inisterio de Educación decidiera elaborar un nuevo exam en para
complem entar un nuevo program a de enseñanza a escala nacional, y utilizara
los resultados de la prueba para juzgar la eficacia del programa.
11.3.4. Organización general

El Código presenta las obligaciones de los redactores de pruebas y de sus usuarios
en cuatro grandes áreas:
A. Elaboración/Selección de pruebas apropiadas

B. Interpretación de resultados
C. Criterios de equidad
D. Información a los usuarios
En los apartados A—C estas responsabilidades se presentan en columnas para

lelas; cada enunciado d irigid o a un redactor se em pareja con el correspon
diente enunciado para el usuario. Generalmente se pide al redactor que facilite
la inform ación al usuario (definiciones, descripciones, explicaciones, testi
m onios, m uestras de pruebas, inform es claros de los resultados y recom en
daciones) , y al usuario se le pide que considere toda esta inform ación antes
de decidir qué prueba será la m ás apropiada para la población. El redactor tam
bién debería revisar los materiales de la prueba para evitar la parcialidad hacia
cualquier grupo de la pob lación , y el usuario debería evaluar los p ro ced i
m ientos utilizados y los resultados obtenidos por los redactores y utilizar los
m ejores m ateriales o procedim ientos facilitados para asegurar que la prueba
es justa para todos.
El apartado A contiene ocho directrices para los redactores y usuarios. El apar
tado B, cinco, y el apartado C, tres. A continuación se incluyen algunas direc
trices del apartado A, para m ostrar cóm o se presentan y cóm o se corresponden
las que van dirigidas a los redactores con las que se dirigen a los usuarios.
Los redactores deberían: Los usuarios deberían:

1. definir lo que m ide cada prueba y 1. definir prim ero el propósito de la
para qué debe utilizarse. Describir la evaluación y la población que va a
población para la que la prueba es ser evaluada. A continuación,
adecuada. seleccionar una prueba para tal
propósito y esa población a partir de
un estudio completo de la
información disponible.
232
Code of F a ir Testing Practices in E ducation..,
2. representar de form a adecuada las 2. investigar fuentes de información

características, la utilidad y las potencialmente útiles, además de los
limitaciones de las pruebas para los resultados obtenidos, para
propósitos previstos. corroborar la información que
proporcionan las pruebas.
3. explicar los conceptos necesarios 3. leer los materiales facilitados por
y relevantes en evaluación con la los redactores de la prueba y evitar
claridad y el detalle adecuados al utilizar pruebas de las que se facilita
público. información incompleta o poco
clara.
4. describir el proceso de 4. familiarizarse con el cómo y el
elaboración de la prueba. Explicar cuándo se elaboró y ensayó la
cóm o se seleccionaron el contenido prueba.
y las destrezas que se evalúan.
5. facilitar evidencia de que la 5. leer evaluaciones independientes
prueba cumple con el propósito de la prueba y de otras alternativas
previsto. posibles. Buscar la información
necesaria para confirmar las
conclusiones de los redactores de la
prueba.
En el apartado D hay cinco directrices. Sin embargo, en esta sección los redac
tores y los usuarios tienen las mismas obligaciones, que tienen que ver con faci
litar a los que van a hacer la prueba la información que necesitan para decidir,
ante todo, si se presentan a la misma, familiarizarse con el nivel exigido, obte
ner copias de la prueba una vez realizada, solicitar una nueva corrección, pre
sentar una reclamación, etc.
7 7 .3.5. Comentario
El Code of Fair Testing Practices in Education pretende reforzar m uchos de los princi
pios que ya aparecieron por prim era vez en los Criterios APA/AERA/NCME,
pero se lim ita a las pruebas de educación. Aunque sienta principios para los
responsables de la elaboración de pruebas, va dirigido en realidad a los usua
rios de las pruebas y a los candidatos, dándoles aquella inform ación a la que
tienen derecho antes y después de la adm inistración de una prueba. El fo r
m ato de los principios es fácil de utilizar y el lenguaje no incluye térm inos
técnicos. Com o en los Criterios, en el Código se utiliza el término «debería» en
lugar de « d e b e » , m ás obligatorio; sin em bargo, insiste en las obligaciones
m orales de los responsables de la prueba y de los usuarios, una vez que han
decidido cum plir el Código:
Las organizaciones, las instituciones y aquellas personas que suscriben el Código
se comprometen a defender los derechos de los candidatos siguiendo los
principios listados (página 2).
233
Al contrario del docum ento de los Criterios, el Código otorga el m ism o peso a
todas sus directrices: no se discute sobre qué criterios pueden ser deseables aun
que no prácticos en la vida real. Esto puede ser debido a que el Código pretende
operar a un nivel general, m ientras que el docum ento de los Criterios da reco
m endaciones m ucho m ás técnicas y detalladas.
7 1.3.6. ALTE Code o f Practice

(Código de comportamiento de ALTE)
El Código de JCTP ha influido en la evaluación de idiom as en cuanto que ha sido
la base para el ALTE Code of Practice (1 9 9 4 ). ALTE es la Association of Language Testers
in Europe, un grupo que facilita exám enes de idiom as. Las lenguas que evalúan
los m iem bros de esta asociación incluyen el catalán, el danés, el holandés, el
francés, el alemán, el italiano, el portugués y el español. La asociación pretende,
entre otras cosas:
... establecer criterios comunes en todos los estadios del proceso de evaluación
de idiomas; es decir, durante el proceso de redacción, administración,
corrección, puntuación, publicación de resultados, el análisis de los mismos y
redacción de las conclusiones (página 2).
ALTE ha adoptado este Código «para hacer explícitos los criterios que pretende
cumplir, y para reconocer públicam ente las obligaciones bajo las que opera»
(página 3).
El Código está inspirado de cerca en el de JCTP y utiliza m ucha de su termino
logía. Se dirige a los responsables de la elaboración de exámenes, a sus usuarios
y a los candidatos, y cubre las m ism as áreas que el JCTP. Sin embargo, es inte
resante su tono. Con referencia a los responsables de los exámenes, el Código dice,
para cada apartado: «En la práctica, esto significa que los m iem bros de ALTE
garantizarán lo siguiente: ...» (ib., passim ).
Este nuevo código para los responsables de exámenes debe ser bienvenido; será
interesante ver cómo puede llevarse a la práctica y cómo puede supervisarse.
11.4. ETS Standards for Quality and Fairness

(Criterios de calidad y de equidad de ETS) (1987)
7 1.4.1. Antecedentes
En 1981, el Educational Testing Service (ETS) de Estados Unidos adoptó los ETS Stan
dards for Quality and Fairness. El propósito del docum ento era hacer explícitos los
principios, la política y las directrices que el ETS pretendía seguir en su deseo
de asegurar «transparencia en la evaluación, información al público, calidad y
equidad» (página iii). Los Criterios del ETS se encontraban entre los documentos
consultados por el Standards Revisión Committee de AERA/APA/NCME a prin
cipios de los años ochenta, cuando estaban intentando actualizar sus propios
criterios y hacerlos más sensibles a los cam bios educativos en Estados Unidos.
Varios años m ás tarde, el ETS devolvió el cumplido, analizando el documento
234
ETS Standards for Q uality and F airn ess...
de los criterios revisados cuando empezó a reescribir su propio documento. Al

hacer esto, el ETS pretendía mantenerse «al frente de la evaluación y de las últi
mas teorías en la profesión» (página iv ).
11.4.2. Propósito
Los Criterios del ETS pretenden garantizar el producto y los servicios de una orga
nización en particular. Contienen criterios explícitos para juzgar la actuación de
los profesionales de la evaluación, en cuanto a los principios, la política y las
directrices. El ETS deja m uy claro, sin embargo, que sus Criterios se han redac
tado teniendo presente el propio ETS; por ello, quizá no puedan aplicarse a otros
organism os o a otras personas.

Los Criterios del ETS se dividen en siete secciones distintas: Responsabilidad ante
el público. —Confidencialidad de los datos. —Control de calidad en cuanto a ade
cuación y tiempo. —Investigación y desarrollo. -Pruebas y medición. -U so de la
prueba e Información al público. Los tres primeros apartados incluyen afirma
ciones relevantes para todas las actividades que lleva a cabo el ETS, mientras que
los cuatro restantes son relevantes para áreas específicas. Cada apartado contiene
una definición de los principios que el ETS pretende seguir y de la política que
quiere mantener. Éstos van seguidos de directrices detalladas que marcan exac
tamente qué debe hacerse para asegurar pruebas y servicios de alta calidad.
Casi un tercio del documento está dedicado al tema de las pruebas y su medi
ción. Este apartado contiene directrices detalladas que se refieren a la validez, a
la elaboración y a la administración de pruebas, a la fiabilidad, a la definición
de escalas, a la nivelación y a la interpretación de resultados. Reproducim os a
continuación las últimas cinco entradas del apartado «Elaboración de pruebas»,
para dar una idea del nivel de detalle:
10. Evaluar el comportamiento de cada edición de la prueba mediante:
—análisis apropiados y oportunos de pruebas y de ítems, incluyendo
análisis de fiabilidad, correlación entre secciones o partes y velocidad;
—comparación de las características de la prueba con sus especificaciones
psicométricas.
11. Revisar periódicamente la adecuación del modelo de respuesta al ítem y la
muestra utilizada para estimar los distintos parámetros, cuando se utilicen
procedimientos de la teoría de respuesta al ítem para elaborar, puntuar o
nivelar la prueba.
12. Revisar el contenido de la prueba y de las especificaciones periódicamente
para garantizar que todavía son relevantes y apropiadas para el ámbito que
se pretende evaluar.
13. Revisar periódicamente todas las ediciones de la prueba todavía en activo
pero elaboradas en años anteriores y sus descripciones en las
publicaciones para garantizar que todavía son adecuadas en cuanto a
contenido y lenguaje para los posibles candidatos y el ámbito de la
materia.
235
C riterios de k evaluación de lenguas: el estado de la cuestión
14. Analizar los cambios importantes de las especificaciones de la prueba para

garantizar que se consideren debidamente las consecuencias que puedan
tener en la comparación de resultados y para determinar si son necesarios
cambios en cuanto a terminología o si debe advertir a los usuarios sobre
las diferencias que existan con las pruebas anteriores (página 12).
1 1.4.4. Características distintivas

Hay dos características que distinguen a los criterios del ETS del resto de crite
rios que presentamos: el hecho de que representan una «política corporativa»
y el hecho de que se incluye un mecanismo de regulación en la estructura orga
nizativa del ETS que garantiza el cumplimiento de los criterios.
En la introducción al documento, el ETS reconoce que sus criterios «reflejan
y adoptan» los de AERA/APA/NCME. Sin em bargo, el ETS también deja claro
que sus criterios están pensados para su propio entorno profesional: «... los cri
terios pueden no resultar útiles para las organizaciones cuya práctica, progra
mas o servicios sean distintos de loS de ETS» (página v i).
El ETS m ism o es el prim er juez que interpreta si ha seguido la política y las
directrices de forma satisfactoria; sin embargo, la organización también se somete
a un proceso de auditoría elaborado y riguroso, por el que inspectores indepen
dientes extemos valoran si la actuación del ETS en distintas áreas evalúa de acuerdo
con sus propios criterios. El comité auditor informa a la ETS Office of Corporate Qua-
lity Assurance, que resume el informe de la asesoría y la solución o soluciones que
el personal del ETS ha adoptado ante el informe. Este resumen se somete a perso
nas y a comités que pertenecen a los puestos altos de la jerarquía organizativa.
El ETS también invita a un «com ité visitante» a que evalúe su comportamiento
con respecto a los criterios. Este comité está form ado por «personalidades dis
tinguidas del ám bito educativo, expertos en el cam po de la evaluación y repre
sentantes de organizaciones que han sido críticas con el ETS en el p asad o »
(página iii). Este comité también prepara un inform e para el ETS, que publica
la organización y que se da a conocer a los m edios de comunicación y a todos
aquellos que piden una copia.
Está claro que en el contexto del ETS, el término «criterios» supone m ás que
una connotación moral: como existe un mecanismo de regulación dentro de la
política de la organización, los criterios se parecen más a unas reglas que a unas
directrices. Sin embargo, las reglas no son mecánicas. Hay espacio para la inter
pretación (por ejemplo, «el ETS elaborará pruebas que sean lo suficientemente
fiables para su uso o usos p revistos»), y los responsables de la prueba tienen
ocasión de exphcar cóm o se han interpretado ciertas definiciones y porqué no
han podido seguir ciertos procedimientos.
11.4.5. Comentario
Los criterios del ETS son claros y comprensibles: se han escrito para profesio
nales de la evaluación más que para el público en general, pero su organización
y redacción los hace; fáciles de seguir. El documento incluye un glosario de siete
236
Standards for Educational Testing M ethods...
páginas que clarifica los términos clave utilizados en las directrices que se deben
seguir durante el proceso.
La cobertura de los criterios es también amplia. El ETS trata la calidad técnica
de las pruebas y sus responsabilidades hacia los usuarios y los candidatos; ade
m ás el ETS trata temas relacionados con la accesibilidad de la información para
investigadores y para el público en general.
Sin embargo, la característica más importante de estos criterios no es su redac
ción o su cobertura, sino el hecho de que se escribieron para ser cum phdos.
Puesto que el no cumplirlos, si no se explica de forma m uy convincente, puede
traer serias consecuencias (incluyendo la reducción del program a), los profe
sionales del ETS deben considerar de form a m uy cuidadosa todos los pasos que
siguen a la hora de preparar un producto para su público y no pueden perm i
tirse a sí m ism os ni a sus colegas caer en la complacencia. N o está claro si tal
control sería posible o incluso deseable para los evaluadores en general. Este es
uno de los temas que debe considerarse en futuros debates sobre criterios.
11.5. Standards for Educational Testing Methods

(Criterios para métodos de evaluación en educación) (1986)
En 1986 Nevo y Shohamy escribieron sobre una adaptación que habían hecho
de los Standards for Evaluación of Educational Programs, Projects and Materials (1981). Estos
criterios los había desarrollado a lo largo de los años el Joint Committee on Stan
dards for Educational Evaluation, com puesto por m iem bros de AERA, APA,
NCME y otras nueve organizaciones. Se redactaron para servir como guía a los
profesionales relacionados con la evaluación de programas educativos y se pre
tendía que el establecimiento de un conjunto de principios comunes contribu
yera a la m ejora de la práctica de la evaluación en el campo de la educación.
El Comité redactó una lista de 30 criterios, divididos bajo cuatro grandes titula
res: criterios de utilidad, de viabilidad, de adecuación y de corrección. Dedicaron
un capítulo a cada uno de los criterios, con una definición formal del criterio, un
prólogo explicando por qué era importante, directrices para los investigadores para
cumplirlo, una lista de posibles dificultades, una lista de advertencias y un histo
rial de casos problemáticos que tuvieron los investigadores en el pasado cuando no
eran conscientes del criterio o no lo siguieron. El historial va acompañado de con
sejos para ayudar a futuros investigadores a evitar los mismos problemas.
Nevo y Shohamy intentaron extender tales criterios a los métodos de evaluación.
A partir de los 30 criterios originales del comité, elaboraron una lista de 23 que
creyeron adecuados para la evaluación. Se eliminaron algunos criterios originales,
se combinaron otros, y se añadieron uno o dos nuevos. Al igual que el comité, divi
dieron sus criterios en cuatro apartados. Organizaron estos apartados en un orden
distinto, pero dejaron los criterios más o menos agrupados de la misma forma que
en el documento original. Todos los criterios se redactaron de nuevo para adap
tarlos a los métodos de evaluación y no a los programas de evaluación.
237
-------- ----------------------------------------- ----------------------------------------- —
Nevo y Shohamy no se contentaron con una mera formulación de los criterios:

decidieron ponerlos en práctica con profesionales relevantes. Pidieron a dos gru
pos que estudiaran los criterios y que los utilizaran para ordenar cuatro métodos
de evaluación alternativos que se estaban considerando para un nuevo examen a
escala nacional. El primer grupo consistía en miembros de la organización que iban
a tomar la decisión final sobre qué métodos se incluirían en el nuevo examen; un
segundo grupo consistía en expertos en el terreno de la evaluación que asistían a
un congreso sobre evaluación. También diseñaron un examen de muestra que con
tenía los cuatro métodos de evaluación que estaban considerando. Este examen se
administró a 1.000 alumnos para averiguar no sólo cómo funcionaban las prue
bas en el m undo real, sino también para facilitar una base que permitiera discri
minar si los nuevos criterios podían utilizarse para evaluar tales métodos.

Los criterios resultantes se organizaron de la forma siguiente:
1. Criterios de utilidad
Los criterios de utilidad pretenden «garantizar que un m étodo de
evaluación esté al servicio de las distintas necesidades de
inform ación práctica que tienen algunos grupos».
Los aspectos que se tratan en este apartado son identificación del
público, credibilidad del evaluador, amplitud de información,
justificación de los criterios, claridad del informe, distribución del
informe, pertinencia temporal del informe e impacto de la evaluación.
2. Criterios de precisión
Los criterios de precisión pretenden «garantizar que un m étodo de
evaluación revele y transmita información técnicamente adecuada
sobre los logros educativos de aquellos a los que se evalúa».
Los problem as analizados en este apartado son la m edición válida, la
m edición fiable, las condiciones de evaluación, el análisis de datos y
los informes objetivos.
3. Criterios de viabilidad
Los criterios de viabilidad se proponen «garantizar que un m étodo
de evaluación sea realista, prudente y económ ico».
Los problem as analizados en este apartado son los procedimientos
prácticos, la viabilidad política y el coste adecuado.
4 . Criterios de equidad
Estos criterios pretenden «garantizar que un método de evaluación se
lleve a cabo de forma legal, ética y con la debida consideración hada
el bienestar de los candidatos y de los afectados por los resultados».
Los problem as presentados aquí son los criterios aceptados, los
derechos hum anos, el derecho a conocer, los conflictos de intereses,
los valores sodales, y los informes equilibrados.
(Página 151)
238
Standards for Educational Testing M ethods...
11.5.3. Comentario
Aunque las propuestas de Nevo y de Shohamy tratan aspectos técnicos de la eva
luación (como por ejemplo B - l, medición válida: «La evaluación se lleva a cabo
mediante instrumentos y procedim ientos que facilitan información válida para
un uso con creto»; y B-2, m edición fiable: «La evaluación se lleva a cabo
mediante instrumentos y procedimientos que facilitan información viable para
un uso co n creto »), m uestran m ayor interés en el contexto de la situación de
evaluación y la consideración que la prueba en sí merece al público; los infor
mes; el efecto de la prueba en los candidatos, la educación y la sociedad. La via
bilidad política de una prueba (C-2: «La evaluación se planifica y se lleva a cabo
teniendo en cuenta las distintas posiciones de los diversos grupos de interés,
para poder obtener su cooperación») es un problem a que no aparece en otros
conjuntos de criterios de evaluación. En el docum ento original del comité, el
criterio se presentaba de la siguiente forma:
La evalu ación se d eb ería plan ificar y llevar a cab o teniendo en cuenta las
distin tas p o sic io n e s de los diversos g ru p o s d e interés p ara p o d e r obten er su
co o p erac ió n y p o d e r con trolar o contrarrestar cu alq u ier p osib le intento p o r
parte d e u n o de estos g ru p o s d e acortar las operacion es evaluativas o d e aplicar
lo s re su ltad o s d e fo rm a p arcial o errón ea (p ágin a 5 6 ).
Es interesante que Nevo y Shohamy no hayan incluido la segunda parte del

criterio original, en el que se reconoce claramente que las evaluaciones educa
tivas pueden utilizarse como armas políticas y que los evaluadores necesitan ser
conscientes de todas las formas posibles en que puede hacerse un uso erróneo
de sus evaluaciones para poder prever cualquier irregularidad.
Tanto los Criterios de AERA/APA/NCME como el Code of Fair Testing Practice tie
nen apartados que hacen referencia al posible uso erróneo de las pruebas, pero
no está claro si se refieren al uso erróneo como resultado de la ignorancia o de
la falta de cuidado, o si reconocen que hay partes que podrían utilizar la infor
m ación de form a errónea deliberadamente tal com o está implícito en el crite
rio citado m ás arriba. La pregunta para el futuro es si los peligros que existen
para los evaluadores en el campo de la educación también existen para los redac
tores y usuarios de pruebas, y si los criterios en evaluación deberían incluir
directrices para ayudar a las personas relacionadas con la evaluación a capear los
problem as de la Realpolitik.
En lo que respecta a la aplicabilidad del nuevo conjunto de criterios a los
m étodos de evaluación, Nevo y Shohamy concluyen que sus criterios podrían
adoptarse y utilizarse como un «m arco para analizar y evaluar los méritos de los
m étodos de evaluación alternativos» (página 157). Afirman que consideran su
trabajo sólo «com o un intento parcial de estudiar el alcance de los criterios», y
animan a otros investigadores a llevar a cabo investigaciones m ás sistemáticas
en esta área.
239
11.6. SEAC's Mandatory Code of Practice

(Código de comportamiento obligatorio de SEAC) (1993)
The Schools Examination and Assessment Council (SEAC) fue fundado por el gobierno del
Reino Unido en los años ochenta para regular los criterios y los procedim ien
tos de elaboración de exámenes en el contexto del National Curriculum para escue
las de enseñanza primaria y secundaria de Inglaterra y Gales. A partir de entonces
se ha reorganizado y se ha cam biado su nom bre por el de Schools Curriculum and
Assessment Authority (SCAA).
En Inglaterra y Gales, a la edad de 16 años los alumnos de secundaria deben
presentarse a unos exámenes que, para muchos, marcan el final de sus estudios:
las pruebas para obtener el General Certifícate of Secondary Education (G CSE). Tales exá
menes son elaborados por distintos grupos u organism os examinadores, que a
lo largo del tiempo han producido gran número de currículos, exámenes y prác
ticas evaluativas distintas.
Con la aparición del National Curriculum, se vio la necesidad de racionalizar esta
pluralidad de programas y de sistemas, y de regular la preparación y validación
de exámenes por parte de los distintos grupos. A finales de los años ochenta, el
Secretario de Estado para Educación pidió a SEAC que preparara un código de
comportamiento para la administración de los exámenes del GCSE en Inglate
rra y Gales. «Se requiere el cumplimiento del código para la aprobación de las
calificaciones del GCSE y de los currículos asociados, según el apartado 5 de la
Ley de Reforma Educativa de 1988» (SEAC, prólogo).
11.6.2. Propósito
El Mandatory Code pretende garantizar la «calidad y consistencia en el proceso de eva
luación para todos los grupos que ofrecen las pruebas del CGSE. Garantizará que
los criterios de puntuación sean constantes para cada asignatura en todos los tri
bunales de exámenes y con los distintos currículos en diferentes años» (loe. d t.).
11.6.3. Organización
El Código de comportamiento obligatorio está dividido en seis apartados, com o sigue:
1. Responsabilidades de los grupos examinadores y del personal del grupo examinador
Define los papeles del consejo rector del grupo, su jefe ejecutivo, los res
ponsables de grupo exam inador, el presidente de los exam inadores, el
exam inador jefe, los exam inadores titulares, los revisores, los asesores,
los examinadores adjuntos y los supervisores principales y adjuntos.
2. La Administración de los exámenes y los esquemas de puntuación provisionales para los exá
menes finales y las pruebas de fin de módulo
Este apartado trata sobre cóm o deberían garantizar los grupos exam ina
dores que los exámenes y los esquemas de puntuación cubran los objeti
240
SEAC's M andatory Code of P ractice...
vos de evaluación y que se mantengan los criterios en los distintos currí-

culos. Incluye detalles sobre cómo debe llevarse a cabo la redacción final
de la prueba y el proceso de revisión.
3. Unificación de criterios de puntuación: exámenes finales y pruebas de fin de módulo
Pretenden asegurar la fiabilidad de la puntuación estipulando un sistema de
grupos de corrección y de formación, el proceso de unificación de criterios
y el sistema de supervisión de la puntuación, al igual que el reajuste final
de puntuaciones a partir de los problemas surgidos con examinadores.
4. Evaluación del trabajo de clase y moderación
Cubre la supervisión externa de los criterios de evaluación del trabajo de
clase entre centros de adm inistración de pruebas o escuelas. Detalla la
necesidad de la formación del profesorado y de la supervisión de las tareas
encomendadas sobre el trabajo de clase, así como la unificación de crite
rios en la puntuación y la moderación de resultados entre centros.
5. Fijación de los límites de calificación o nivel
Trata de los procedimientos que han de seguirse para garantizar quedos cri
terios de calificación o nivel se mantengan con el tiempo y con los distintos
currículos. Estipula qué información debería tenerse en cuenta para deter
minar los límites de calificación o nivel, y cómo deben fijarse y revisarse.
6. La evaluación de la ortografía, de la puntuación y de la gramática
Refleja la preocupación del Gobierno de que los niveles de ortografía,
puntuación y gramática deben mantenerse o mejorarse, y define la pro
porción de puntos que deben darse a la actuación en estas áreas, sin tener
en cuenta la asignatura que se evalúa. Esto afecta a los exám enes, a las
pruebas de final de m ódulo y al trabajo de clase.
11.6.4. Comentario
Quizá la característica m ás destacada de este Código de comportamiento es que sea
prescriptivo, es decir, legalmente obligatorio. Todavía no se sabe cóm o funcio
nará, cómo se aplicará y se supervisará, y qué sanciones se impondrán si hay un
grupo que no cumple con alguno de sus requisitos. Será interesante ver su evo
lución a lo largo del tiempo.
El segundo punto que hay que considerar es que este Código se refiere a prue
bas o exámenes orientados a medir el aprovechamiento, cuyos currículos fun
cionan com o program as de enseñanza en las escuelas y cuyo contenido está
definido por ley a través del National Curriculum. Así pues, el Código afecta igual
mente a la evaluación del trabajo de clase y de las pruebas de fin de m ódulo y
a los exámenes.
Dado que el inglés com o lengua extranjera no forma parte del National Curri
culum, las pruebas de esta materia no se ven afectadas por el Código, aunque sí se
verá afectado el inglés como lengua materna, al igual que otras lenguas moder-
241
ñas. Está por ver si los tribunales que elaboran exámenes de inglés para extran
jeros deciden voluntariamente adherirse a este código; a nosotros, por nuestra
parte, nos gustaría poder analizar de cerca los m otivos de cualquier centro que
decida no extender este código (que, según se dice, está basado «e n la m ejor
práctica evaluativa») a las asignaturas no reguladas, por ejemplo el inglés como
lengua extranjera.
Finalmente, es interesante señalar que el gobierno del Reino Unido ha con
siderado adecuado legislar sobre la evaluación de parte del uso de la lengua
inglesa, mientras ignoraba otros muchos aspectos. El cinco por ciento de la pun
tuación de cada sección escrita de los exámenes (excepto en las partes de res
puesta m últiple y en las que deben responderse en una lengua extranjera)
corresponde a la ortografía, la puntuación y la gramática, de acuerdo con tres
criterios de actuación: umbral, interm edio y avanzado. El hecho de que unos
criterios acordados intem acionalmente se im pongan de una manera tan pres-
criptiva es un punto discutible, que trataremos en el próxim o apartado.
11.7. ¿Qué deberíamos esperar de unos criterios?

M encionamos antes que habíam os seleccionado seis conjuntos de criterios en
particular porque eran buenos ejemplos del tipo de trabajo que se ha hecho en
el pasado reciente y porque cada uno de estos conjuntos añade algo nuevo a
nuestra com prensión de lo que los criterios pueden y deben ser. El comentario
al final de cada descripción discute los que consideramos puntos fuertes y débi
les de cada conjunto de criterios, y no los vam os a repetir aquí. Lo que vamos
a hacer, sin embargo, es facilitar una lista de preguntas que, en nuestra opinión,
debería hacerse cualquier organización a la hora de elaborar sus propios crite
rios en el futuro.
¿Es necesario crear otro conjunto de criterios? ¿Qué hay de malo en los que ya
tenemos?
Si la respuesta es que los criterios existentes no incluyen la evaluación de idio
mas, ¿qué es lo que falta?
Si la respuesta a esta pregunta está relacionada con una visión en particular de
la lengua o de la m etodología, ¿llegaremos a un acuerdo sobre qué contenido
y m etodología son m ejores y perdurarán más, cuando la m oda cambie y afecte
a nuestra idea de cuál es el contenido o la m etodología más apropiada?
¿Habrá un conjunto de criterios que se adapte a toda la gam a de pruebas ofer
tadas, o los criterios adecuados para un tipo de pruebas obligarán a asum ir el
m ism o esquema para otro tipo de pruebas (por ejemplo, pruebas de ítems dis
cretos comparadas con pruebas basadas en la actuación) ?
¿Los criterios deberían ser totalizadores? ¿Deberían limitarse a los instrumentos
de evaluación y a los procedim ientos empleados o deberían preocuparse por la
utilización de los resultados de las pruebas? ¿Deberían ir incluso m ás allá y faci
litar directrices para tratar la realidad política y las intenciones dudosas de mucha
gente en nuestra sociedad?
242
Estado de la cuestión en la evaluación del inglés...
¿Los criterios deberían ser muy detallados? ¿Dónde se traza la línea entre el deta
lle esencial y la trivialidad?
¿Qué tipo de lengua debería usarse: lengua comprensible por los evaluadores o
lengua que puede comprender el público en general?
¿En qué idiom as deberían redactarse, y quién hará las traducciones?
¿Los criterios deberían ser idealistas? ¿Deben describir un m ínim o de buena
práctica o el m áxim o?
¿Hasta qué punto deben ser o pueden ser prescriptivos?
¿Debe haber irnos criterios más prescindibles que otros? La distinción entre pri
marios, secundarios y condicionales, ¿es útil o confunde?
¿Deberían ser obligatorios? Si éste es el caso, ¿quién se ocupará de hacerlos cum
plir? Si la respuesta es negativa, ¿cóm o podem os asegurar que todas las partes
harán lo posible para que se cumplan?
¿Hay alguna manera de «com probar» los criterios para averiguar si son efectivos?
11.8. Estado de la cuestión en la evaluación del inglés

como lengua extranjera en el Reino Unido
En este libro hem os presentado los resultados de un informe sobre los tribuna
les de exámenes de inglés com o lengua extranjera en el Reino Unido para ilus
trar la práctica habitual de la evaluación en un área geográfica. Creemos que
nuestro informe cubre los exámenes más significativos de inglés como lengua
extranjera del Reino Unido y es representativo de la práctica habitual de la eva
luación en este país.
Los resultados del informe muestran algunos de los procedimientos seguidos
por todos o por la mayoría de los tribunales y otros en los que hay más varia
ción. Las áreas de coincidencia más importante son: la disponibilidad de las des
cripciones del contenido del exam en; los criterios utilizados para nom brar
redactores de ítems o de pruebas y la naturaleza de su relación contractual con
los tribunales; el proceso de redacción final o de moderación; la producción de
distintas versiones cada año; los criterios para el nombramiento de examinado
res; la ausencia de corrección «objetiva» o administrativa; la existencia de sesio
nes de unificación de criterios para examinadores; el cálculo, aunque sólo de
forma ocasional, de una estimación de la fiabilidad del examinador; la produc
ción (aunque no siempre se difunden) de los informes del examinador jefe; y
la recogida de comentarios sobre los exámenes, normalmente por parte de los
tribunales de exámenes y, a veces, de los profesores. La mayoría de los tribu
nales cree que los criterios psicométricos son relevantes para los exámenes del
Reino Unido, aunque no quedó claro en el informe si creían que sus exámenes
cumplían tales criterios.
Las áreas m ás significativas en las que la práctica varía de forma considerable
son: los ensayos previos de los ítem s y de las preguntas; la validación de la
prueba; los procedimientos para garantizar la equivalencia de las distintas ver
siones de los exámenes; la formación y la supervisión de los administradores;
243
la doble corrección de todos los escritos; la existencia de reuniones para fijar las
puntuaciones; la disponibilidad de los informes de los examinadores jefes; y el
cálculo y disponibilidad de estadísticas sobre la realización de la prueba.
Algunos análisis mostraron, sin embargo, que el acuerdo puede, en algunos
casos, ser más aparente que real. Así, por ejemplo, aunque la mayoría de los tri
bunales calcula la fiabilidad del corrector, la frecuencia con la cual se calcula, cómo
se calcula, y qué ocurre con los resultados varía de forma considerable. De forma
parecida, aunque la doble corrección tiene lugar en la mayoría de los tribunales, lo
que éstos entienden por doble corrección varía, siendo en muchos casos poco más
que un control de algunos examinadores llevado a cabo por el examinador jefe.
Aunque la mayoría de los tribunales tienen sesiones de unificación de criterios para
correctores, lo que realmente ocurre en estas reuniones varía. Necesitaríamos lle
var a cabo una inspección mucho más detallada de las actividades de cada tribunal
para llegar a una descripción precisa de lo que ocurre en realidad.
Así pues, aunque no nos abstenemos de emitir un juicio, es probable que una
evaluación justificada de la calidad de los procedim ientos de control de calidad
deban esperar a esta inspección detallada. Esto sería sólo posible contando con
la colaboración de los tribunales, y sólo tendría sentido llevarla a cabo si hubiera
coincidencia entre lo que debería ocurrir durante la producción de la prueba y
su administración y lo que el investigador quiere averiguar. Los distintos crite
rios que hem os visto en este capítulo son puntos de referencia obvios.
Los resultados del informe parecen demostrar que en general hay información
disponible sobre el contenido de los exámenes pero que el tipo de información y
el grado de detalle que contiene varía de forma considerable. Las recomendacio
nes dirigidas específicamente a los candidatos están ausentes, y pocos centros dan
ejemplos de las actuaciones de los alumnos en exámenes previos. Aunque la mayo
ría de los centros argumentan que existe un «análisis de necesidades» que justi
fica o guía la elaboración de sus exámenes, la naturaleza de tales análisis parece
que varía mucho. La mayoría de los centros parecen interpretar el término «aná
fisis de resultados» de forma equivalente a «preguntar a los profesores».
Los redactores de ítems son por lo general profesores titulados y experimen
tados en inglés com o lengua extranjera, que se consideran en contacto con las
corrientes de pensamiento existentes en la profesión y son, por tanto, capaces
de incorporar tales ideas a los exámenes. La falta de redactores profesionales a
tiempo completo puede también verse com o una forma de garantizar este con
tacto con la profesión. Los redactores reciben una cantidad considerable de direc
trices relativas al contenido y al m étodo de la prueba. Existen procedim ientos
de m oderación y de revisión final de la prueba, pero es difícil determ inar lo
concienzudos que son. Es posible que varíen entre tribunales, entre los distin
tos com ités, y en particular entre los exam inadores jefes. En otras palabras,
mucho depende de la calidad de las opiniones de personas individuales. En par
ticular, no se conoce la m inuciosidad de los procedim ientos para comparar el
contenido de la prueba con el currículo. Además, no está claro hasta qué punto
los comités de redacción están abiertos a las opiniones de «críticos extem os».
244
Estado de la cuestión en la evaluación del in g lés...
La ausencia extendida de ensayos previos es causa de considerable preocupa

ción, puesto que los ensayos previos pueden corroborar o negar el valor de las
opiniones de los revisores, los m oderadores y los examinadores. En la actuali
dad parece que incluso cuando se realizan ensayos previos sólo se incluyen los
ítems de respuesta objetiva, y debem os recordar que la mayoría de los tribuna
les no los utilizan. En cualquier caso, no hay ninguna razón por la que las prue
bas de respuestas abiertas u otros tipos de prueba no pueden someterse al rigor
de los ensayos previos.
Es preocupante la ausencia de evidencia empírica, que no sea anecdótica, que
valide los exámenes de algunos tribunales, así com o la idea de que no todos los
tribunales comprenden lo que se entiende por validación, validez y fiabilidad.
Puede darse el caso de que los exámenes sean válidos, pero la validez debería
ser el sujeto de la investigación, no la com probación. Incluso cuando se dice
que se ha llevado a cabo una validación, muchos reconocen que se ha hecho de
forma «im presionista y de manera anecdótica», por ejemplo aduciendo que las
«com pañías y las universidades parecen contentas». Algunos centros reivindi
can la realización de estudios de validación, pero no dan detalles, con lo que
debem os ser escépticos.
La equivalencia de las distintas versiones de los exámenes parece estar garanti
zada por el uso de los procesos de revisión y moderación, por la referencia al currí-
culo, y por el uso de los mismos redactores de ítems y comités de redacción durante
un período de tiempo determinado. Es posible que cuando éste sea el caso, los pro
cedimientos para la adjudicación de calificaciones finales que tienen en cuenta el
comportamiento de los candidatos en exámenes de años anteriores pudiera con
tribuir a la comparación de la dificultad de la prueba a lo largo de los años, pero
en cualquier caso, no todos los centros llevan a cabo estos procedimientos.
De forma similar, hay falta de datos sobre la fiabilidad de las pruebas y la fia
bilidad de la corrección. Se toman medidas para formar y supervisar a los correc
tores pero parece que se presta poca atención de forma sistemática a la hora de
ver si los procedim ientos de form ación y de supervisión han sido eficaces. De
nuevo, debería medirse la fiabilidad, no sólo afirmarla. Parece ser que alrede
dor de la m itad de los centros que respondieron calcula estadísticas sobre la
actuación de los correctores, pero no hem os tenido acceso a las m ism as. La
corrección doble auténtica es poco habitual.
Los tribunales de exámenes afirman que sus pruebas están basadas en lo mejor
de la docencia actual y que tienen un efecto positivo sobre la enseñanza, pero
no sabem os qué es lo m ejor de la docencia actual ni hem os visto evidencia del
efecto de rebote positivo. Una vez más, se hacen afirmaciones infundadas sobre
la calidad de los exámenes que deberían analizarse de forma crítica.
Sin embargo, nuestro informe sugiere que los distintos procedimientos segui
dos por los tribunales no son necesariamente inadecuados y que puede ocurrir
que los tribunales tengan los datos que podrían confirmar la calidad, la validez
y la fiabilidad de sus exámenes. Los resultados de nuestro informe sugieren que
los tribunales hacen m ás de lo que se podía esperar y m ás de lo que se sabe
24S
T
públicamente. El hecho es que la información existente no está disponible con
facilidad ni públicamente, y costó mucho tiempo y m uchos esfuerzos llegar tan
lejos com o hem os llegado. Esto debería ser innecesario. Si la evidencia que
demuestra la calidad supuesta de la prueba existe, debería estar a disposición del
público. Además, creem os que la inform ación debería estar fácilmente dispo
nible, y no sólo después de haber hecho esfuerzos considerables para obtenerla.
En la actualidad, parece que los diferentes tribunales im pücados en la eva
luación del inglés com o lengua extranjera hacen cosas distintas, con distintos
grados de rigor, para supervisar la calidad de sus exámenes. Los resultados de
este informe muestran que no hay coincidencia en los procedimientos a seguir
por los que elaboraran exámenes de inglés com o lengua extranjera y tampoco
existe un conjunto unitario de criterios que deban seguir.
Creemos que la situación está madura para que los tribunales de exámenes del
Reino Unido y los redactores de pruebas elaboren un conjunto de criterios para todas
las pruebas de inglés como lengua extranjera, y para discutir qué procedimientos
serían los más apropiados para garantizar el cumplimiento de tales criterios.
11.9. Conclusión
La evaluación de idiom as todavía no tiene unos criterios comunes con los que
poder evaluar, comparar o seleccionar las pruebas. La necesidad de tales crite
rios se está discutiendo y ya se está trabajando en el tema, lo que puede con
ducir al desarrollo de unos criterios apropiados reconocidos intemacionalmente.
Sin em bargo, creemos que este libro ha dejado claro que la teoría de la eva
luación de idiom as ya ha ñjado un conjunto de principios que pueden inspirar
la elaboración de pruebas y la investigación en el cam po de la evaluación. Estos
principios se recogen bajo etiquetas tales com o validez, fiabilidad, practicidad
o viabilidad, e impacto o efecto de rebote. Los redactores de pruebas tienen tam
bién un conjunto de procedimientos generalmente aceptados para el desarrollo
y adm inistración de pruebas si se pretende que tales pruebas representen lo
mejor de la prácdca profesionaL Este libro ha pretendido explicar los principios
y describir los procedim ientos. Tam bién hem os podido describir la práctica
habitual de un grupo de redactores de pruebas. La práctica varía de forma con
siderable en cuanto a su naturaleza, su concreción y su calidad.
Existen, sin embargo, razones comprensibles de que no haya ninguna prueba
que se adapte a todos los principios y procedimientos, y esperamos que la m ayo
ría de los redactores de pruebas sean conscientes de la necesidad de m ejorar de
forma continuada sus procedimientos y sus productos. Esperamos que este libro
haya indicado no sólo dónde pueden mejorar éstos, sino también cómo pueden
producirse esas mejoras, y esperamos llevar a cabo un nuevo informe en el futuro,
con respecto al Reino Unido o con miras internacionales, sobre el inglés u otros
idiomas. Esperamos que las cosas evolucionen, que haya mejoras y que progrese
la profesionalidad de los evaluadores, de los tribunales de exámenes y de las com
pañías comerciales, de los ministerios y de los colegios y universidades.
246
Bibliografía
Bibliografía
A m erican E ducation R esearch A ssociation , A m erican Psych ological A ssociation , y
N ation al C oun cil o n M easurem en t in Education ( 1 9 8 5 ). Standard for Educational and
Psychological Testing. A m erican Psych ological A ssociation , Inc., W ashin gton , DC.
A ssociation o f L an gu age Testers in E urope (1 9 9 4 ). The ALTE Code of Practice. ALTE,
C am bridge.
D iam on d , E. E. y J. Frem er ( 1 9 8 9 ). «T h e Jo in t C om m ittee on T estin g Practices and
the C o d e o f Fair T estin g Practices in E d u catio n .» Educational Measurement: Issues and
Practice. N ú m e ro de prim avera.
H eaton , J. B. ( 1 9 8 8 ). Writing English Language Test. 2 1 ed ició n , L on gm an , Londres.
Jo in t C om m ittee o n Stan dards fo r Educational Evaluation (1 9 8 1 ). Standards for
Evaluations of Educational Programs, Projects, and Materials. M cG raw -H ill, N ueva York.
Jo in t C om m ittee on T estin g Practices ( 1 9 8 8 ). Code of Fair Testing Practices in Education.
A m erican P sy ch ological A ssociation , W ash in gton , DC.
N evo, D. y E. Sh oh am y ( 1 9 8 6 ). «E valu ation Standards for the A ssessm ent o f
A lternative T estin g M eth ods: an A p p lic atio n .» Studies in Educational Evaluation, 12,
p ig s . 149—158.
Pollitt, A. ( 1 9 9 0 ). Standards. Notes prepared for a meeting to discus language testing standards.
U n iversity o f C am b rid g e Local E xam in ation s Syndicate, C am bridge.
Sch ools E xam in ation an d A ssessm en t C oun cil ( 1 9 9 3 ). Mandatory Code of Practice for the
GCSE. SEAC, Londres.
247
A p é n d ic e s
Apéndice 1 Tribunales de exámenes consultados en

la investigación y pruebas que elaboran ......249
Apéndice 2 Cuestionario y carta explicatoria

enviada a los tribunales de exámenes .......... 251
Apéndice 3 índice de discriminación

E-i.3 (D de Ebel) ..................................................... 259
Apéndice 4 Estadísticas de distribución ............................... 260
Apéndice 5 Correlación por orden de rango ..................... 263
Apéndice 6 Fiabilidad por el método

de las dos mitades ............................................... 265
Apéndice 7 Kuder Richardson 21 .......................................... 267
Apéndice 8 Paquetes estadísticos .........................................269
248
A p é n d ic e 1
Tribunales de exámenes consultados en la investigación

y pruebas que elaboran
Nombres de los tribunales de exámenes

ARELS Examination Trust (AET)
Associated Examining Board (AEB)
City and Guilds o f London Institute (C & C)
English Speaking Board (ESB)
Joint Matriculation Board (JMB)
London Chamber o f Commerce and Industry Examinations Board (LCCI)
North W est Regional Examinations Board (CENTRA)
Pitman Examinations Institute (PEI)
Trinity College London (Trinity)
University o f Cambridge Local Examinations Syndicate (UCLES)
University o f London Schools Examination Board (ULSEB)
University o f Oxford Delegacy o f Local Examinations (OUDLES)
Exámenes citados en las respuestas de los tribunales

ARELS Examination Trust (AET)
ARELS Examinations in Spoken English & Comprehension (2 niveles)
Associated Examining Board (AEB)

Test o f Enghsh for Educational Purposes (TEEP)
City and Guilds o f London Institute (C &G)
Communication in Technical Enghsh (Overseas) (CTE)
Communication Skills (CS)
English
W ordpower
English Speaking Board (ESB)

Enghsh as an Acquired Language (EAL)
Toint Matriculation Board fTMB')

University Entrance Test in Enghsh for Speakers o f Other Languages (UETESOL)
249
A péndices
London Chamber o f Commerce and Industry Examinations Board (LCCI)

English for Commerce (3 niveles) (EfC)
English for Business (3 niveles) (EfB)
Spoken English for Industry and Commerce (4 niveles) (SEflC)
North West Regional Examinations Board (CENTRA)

Test in English Language Skills (3 niveles) (TELS)
Pitman Examinations Institute (PEI)

English for Speakers o f Others Languages (5 niveles) (ESOL)
Trinity College London (Trinity)

Graded Examinations in Spoken English for Speakers o f Other Languages
University o f Cam bridge Local Examinations Syndicate (UCLES)

Preliminary English Test (PET)
First Certificate in English (FCE)
Certificate in Advanced English (CAE)
Certificate o f Proficiency in English (CPE)
Diploma o f English Studies (DES)
Certificates in Communicative Sífilis in English (4 niveles) (CCSE)
Certificate in English for International Business and Trade (CEIBT)
Cambridge Examination in English for Language Teachers (CEELT)
International English Language Testing System (IELTS)
International General Certificate o f Secondary Education (IGCSE)
University o f London Schools Examination Board (ULSEB)

Certificate o f Attainment in English: (CAE)
a) versión sin laboratorio de idiom as, niveles 1-6
b) versión con laboratorio de idiom as, niveles 3-6
University o f O xford Delegacy o f Local Examinations (OUDLES)

Oxford Preliminary Exam (OPE)
Oxford Higher Exam (OHE)
250
A p é n d ic e 2
Cuestionario y carta explicatoria enviada

a los tribunales de exámenes
JC A /A IG D
N o v ie m b re d e 1 9 9 0
Q u erid o colega:
C o m o q u iz á recordará, el Lancaster L an gu age T estin g R esearch G roup está llevan d o a

cab o u n e stu d io sob re lo s tribu nales d e exám en es de ESOL b ritán ico s p a ra intentar
determ in ar lo s criterios y p ro ce d im ie n to s q u e se sig u e n en la elab oración , valid ación y
ad m in istración de p ru e b a s d e id io m as.
Ya le h em o s p e d id o su s resp u estas en u n a carta con tres pregu n tas abiertas que
preten d ían re c o g e r las o p in io n e s de lo s tribunales so b re sus criterios y sob re el
p ro c e d im ie n to utilizad o p a ra establecer la fiab ilid ad y la validez. A dem ás h em os
re c o g id o datos d e cuatro fuen tes com plem en tarias:
a) L os m ie m b ro s del G ru p o de In v e stigació n h an p o d id o b asarse en su am p lia

e x p e rie n c ia tras h ab er trab ajad o co n d istin to s trib u n ales p erten ecien tes a ESOL
c o m o c o rre cto re s, re d acto re s de íte m s y d e p ru e b a s, m ie m b ro s de co m ité s de
re d a c c ió n , de re u n io n e s p a ra la a d ju d ic a c ió n de calificacio n es, así c o m o
tam b ié n d e fo rm a ad hoc en g ru p o s de trab ajo y co m ité s aseso res. Los tribu nales
de e x ám en e s de EFL c o n lo s q u e h e m o s trab a ja d o so n : JM B , AEB, UCLES,
In stitu te o f L in g u ists, RSA , PLAB. A d e m á s, a lg u n o s m ie m b r o s tie n e n
e x p e rie n c ia e n la p re p a ra c ió n d e a lu m n o s q u e h an esta d o e stu d ia n d o p a ra
p re se n tarse a u n o o m á s d e u n o de lo s ex ám en e s e lab o rad o s p o r tales
trib u n ale s d e e xám en e s.
b) U n a serie d e entrevistas con lo s rep resentan tes de diversos tribunales de
exám en es c o m o parte d e u n p ro y ecto d e in vestigación separado so b re lo s
exám en es d e in glés en el extran jero. Estas entrevistas d ieron p a so a in fo rm es
cuyo con ten ido se co n sen su ó con lo s tribunales de exám enes.
c) V isitas a u n n ú m e ro de tribunales d e exám en es con asistentes a cursos sob re
evalu ación de id io m as durante u n p e río d o d e tres años.
d) In form es sob re trece p ru eb as b ritán icas de in glé s c o m o le n gu a extranjera, y las
reaccion es a éstos p o r parte d e lo s rep resentan tes d e lo s tribunales, pu b licad o s
en A lderson, Krahnke y Stansfield, 1 9 8 4 , Review of English Language Proficiency Tests.
251
Apéndices
E stam os ah ora in ten tan do com p letar la in fo rm ac ió n m ed ian te un cuestionario

estructurado, q u e se b asa en parte en las fuen tes de in fo rm ació n citadas m á s arriba.
So m o s m u y con scien tes de q u e es p o sib le q u e esté m u y o cu p ad o , p o r lo q u e h em os
in ten tado red u cir la can tid ad de tiem p o re q u e rid o para com pletar el cuestion ario. Sin
em b argo , con el fin de garan tizar la re c o g id a de un con ju n to de datos lo m á s com pleto
p o sib le , estaríam os m u y ag rad e cid o s si dedicara el tie m p o n ecesario a su contestación.
Pen sam os presen tar u n a po n en cia (u n resu m en revisad o de la m ism a estará
d isp o n ib le en b reve) so b re n uestros resu ltad os en u n a con feren cia in tern acional en
m arzo de 1 9 9 1 , p o r lo q u e e sp eram o s re co g e r tanta in fo rm ació n co m o sea p osib le
hasta entonces p ara co n se g u ir q u e n uestro in fo rm e sea lo m á s rep resen tativo posible.
En esta p resen tación n o p e n sam o s m en cio n ar lo s n o m b re s de n in gú n tribunal en
con creto, a n o ser q u e así lo solicite el tribunal. Sin em b argo , si u ste d prefiere q u e la
in fo rm ació n q u e va a darn os se m an ten ga con fid en cial, p o r favor h ágan o slo saber.
A grad ecem os la co o p erac ió n de q u e h em o s disfru tad o h asta la fech a p ara este
proy ecto; especialm en te q u e re m o s m o strar n u estro agrad ecim ien to a lo s tribu nales que
se han to m ad o la m o le stia de re sp o n d er d e fo rm a extensa. E sp eram os q u e el
cu estion ario q u e in c lu im o s n o d u p liq u e la in fo rm ació n q u e m u c h o s tribunales ya nos
han enviado. C reem os, sin e m b argo , q u e p ara evitar p o sib le s m alas in terpretacion es
p o r n uestra parte de las resp u estas q u e ya h e m o s recib id o, sería d e interés, p o r
cuestion es de clarid ad y de glo b alid ad , si p u d ie ra resp o n d er a tod as las pregu n tas,
au n q ue esto sig n ifiq u e dup licid ad . C reem os q u e lo s resu ltad os de este e stu d io serán
con sid erab lem en te útiles p a ra la p ro fe sió n y q u e tam b ién ayudarán a lo s tribunales de
exám en es b ritán ico s a establecer el valor d e su s p ru e b a s en el m e rcad o internacional.
N o s in teresa q u e n uestros resu ltad os reflejen la calidad de lo s exám en es b ritán ico s, p o r
lo que e sp e ram o s q u e su s datos sean lo m á s com pletos, preciso s e im parciales p o sib le.
E sp eram os q u e p u e d a re sp o n d er a este cuestion ario. Pero si p refiere discutir estos
asp ectos con n o so tro s en lu g a r d e resp o n d er p o r escrito, p o d ría m o s fijar u n a reu n ión
con sus representan tes.
E staríam os m u y ag rad e cid o s si p u d ie ra resp o n d er antes del 21 de diciem bre. Si esto
n o es p o sib le , h ágan o s sab er p o r favor cuán d o p o d e m o s esperar su respu esta.
Le d am o s las gracias p o r su co lab o ració n p o r adelantado.
A tentam ente,
J. Charles A lderson
C oord in ad or
Lancaster Language Testing Research Group
252
Cuestionario y carta explicatoria enviada a los tribunales de exámenes
Cuestionario
El objetivo de este cuestionario es establecer y confirmar las prácticas seguidas
por los tribunales británicos de exámenes de ESOL a la hora de elaborar, validar
y administrar sus exámenes. Puede darse el caso de que alguna de la
información que puede Ud. darnos sea confidencial o de uso restringido. Por
favor indique en sus respuestas a las preguntas que siguen si este es el caso.
Puede ser que no quiera responder a una pregunta en particular o que la
pregunta sea irrelevante. Si se encuentra en una de estas dos situaciones, por
favor indíquelo al lado de la pregunta correspondiente.
Puede que le parezca, una vez completado el cuestionario, que hay aspectos
importantes de su trabajo que no hemos cubierto o señalado suficientemente. Si eso
ocurre, por favor indíquelo en una carta por separado o al final del cuestionario.
Finalmente si la práctica o los procedimientos son distintos según la prueba,
indique por favor las diferencias donde sea necesario.
1. Nom bre del tribunal de exámenes ................................................................

2. Nom bre de la persona que responde ............................................................
3. Puesto en el tribunal de exámenes ................................................................
4. ¿Cuánto tiempo ha trabajado en este puesto? ..............................................
5. ¿A qué exámenes hacen referencia sus respuestas?
DESCRIPCIÓN DE LOS CONTENIDOS

6. ¿Publica su centro una descripción
del contenido del examen (o exámenes) ? Sí No
7. En caso de respuesta afirmativa, ¿esta descripción
incluye algunos de los datos siguientes?
a) Definición del propósito del examen. Sí No
b) Descripción del tipo de estudiante
a quien va dirigido. Sí No
c) Descripción del nivel de dificultad del examen. Sí No
d) Descripción de una actuación tipo para cada
nivel o calificación. Sí No
e) Descripción de lo que se puede esperar
«en el m undo real» de un candidato
que obtiene un certificado o una nota
determinada en un nivel concreto. Sí No
f) Descripción de un curso o de unos estudios
que se supone que deben seguir los candidatos
antes de presentarse al examen. Sí No
253
.Apéndices
g) Descripción del contenido del examenen cuanto a:

estructuras Sí No
vocabulario Sí No
funciones lingüísticas Sí No
temas Sí No
longitud de los textos Sí No
tipos de preguntas Si No
ponderación de las preguntas Sí No
tiem po adjudicado para cada prueba Sí No
tiem po para cada sección de la prueba Sí No
h) Descripción de los criterios que se utilizarán
para evaluar la actuación de los estudiantes. Sí No
i) Descripción de cóm o se calculan
las calificaciones finales. Sí No
j) Ejemplos de pruebas anteriores. Sí No
k) Ejemplos de actuaciones de alumnos
en pruebas anteriores. Sí No
1) Algún añadido a lo anterior. Sí No
Por favor, dé más detalles a continuación
o en hoja aparte.
¿Se ha llevado a cabo algún tipo de «análisis de
necesidades» para ayudar al tribunal a tomar
decisiones sobre el propósito, el contenido,
el m étodo, el nivel, etc. del examen? Sí No
En caso de respuesta afirmativa, por favor incluya
esta descripción en el cuestionario.
¿Se da a los redactores de pruebas alguna
información adicional o guía suplementaria? Sí No
En caso de respuesta afirmativa, ¿qué información se
da sobre el propósito y contenido de la prueba?
ELABORACIÓN DE LA PRUEBA
11. ¿Qué criterios utilizan a la hora de nombrar
redactores de ítems o de pruebas?
12. ¿Para cuánto tiempo se nom bran los redactores?
13. ¿Con cuánta antelación respecto a la fecha de examen se
pide a los redactores que empiecen a redactar sus ítems?
14. ¿Cuánto tiem po se da a los redactores para que elaboren
el prim er borrador de un ítem?
15. Una vez que el redactor entrega el prim er borrador,
¿qué sucede?
254
Cuestionario y carta expiicatoria enviada a los tribunales de exámenes
16. ¿Se reúne algún comité en algún punto del proceso

para discutir cada prueba? Sí No
17. ¿Qué requisitos deben reunir los m iem bros de
este comité?
18. ¿Cuánto tarda un comité en discutir/preparar
un examen completo?
19. ¿Qué pasos se dan, si se dan, para comprobar que
el borrador presentado coincide con la descripción
de los contenidos del examen (si existe) ?
20. ¿Qué pasa habitualmente con el borrador después
de las deliberaciones del comité?
21. ¿Se someten los ítems o las preguntas a ensayos previos? Sí No
En caso de respuesta afirmativa, ¿cómo se seleccionan los
estudiantes, y cuántos responden a cada ítem o pregunta?
22. Si se realizan ensayos previos, ¿qué estadísticas se calculan
a partir de los resultados?
23. ¿Qué ocurre si los ítems o preguntas que se ensayan
no son satisfactorios?
24. ¿Qué pasos se dan, si se dan, además de los mencionados
anteriormente, para controlar la calidad de los redactores
de ítems o pruebas?
VALIDACIÓN
25. Además de los procedim ientos anteriores para la validación de aspecto
y de contenido, los siguientes tipos de validez:
a) ¿son pertinentes?
b) ¿se estiman o calculan?27*
pertinente estimada
i) validez concurrente Sí No Sí No
ii) validez de predicción Sí No Sí No
iii) validez del constructo Sí No Sí No
¿Llevan a cabo estudios de validación específicos
en sus exámenes? Sí No
En caso de respuesta afirmativa, facilite detalles
o una copia de los informes relevantes.
27. En caso de que se administren distintas versiones
de su examen, ¿se toman m edidas para asegurar
que son equivalentes? Sí No
En caso de respuesta afirmativa, incluya por favor una
descripción de tales medidas.
255
Apéndices
28. ¿Se administra más de un tipo de prueba distinto

durante el m ism o período de examen? Sí No
En caso afirmativo, ¿qué medidas se toman para garantizar
que cada tipo de prueba sea equivalente en dificultad?
ADMINISTRACIÓN
29. ¿Se da una formación específica a los administradores? Sí No
En caso afirmativo, ¿quién da esta formación
y cuanto tiempo dura?
30. ¿Se supervisa la administración de la prueba? Sí No
En caso afirmativo, ¿quién? ¿Qué ocurre como
resultado de la supervisión?
CORRECCIÓN
31. ¿Qué criterios se utilizan para el nombramiento
de correctores?
32. ¿Para cuánto tiempo (meses, años) se nom bran
los correctores? 35678*
33. ¿Hay algunas secciones del examen
a) que se corrigen de form a objetiva, por ejemplo,
por m edio de una m áquina o de un corrector? Sí No
b) que se corrigen de form a centralizada, por
ejemplo, por m edio de equipos de trabajo? Sí No
c) que se corrigen de form a local, por m edio
personas que trabajan solas, por ejemplo,
el administrador de la prueba o un equivalente? Sí No
¿Convocan una «sesión de unificación de criterios»
para los correctores? Sí No
En caso afirmativo, ¿cómo se llama a este tipo de reunión?
¿Cuánto tiempo dura normalmente?
35. Si su tribunal mantiene una «sesión de unificación de
criterios», ¿qué ocurre habitualmente durante esta sesión?
36. ¿Qué pasos se dan al final de la sesión de unificación
de criterios para establecer el grado de acuerdo
entre correctores?
37. ¿Una vez empezada la corrección, se lleva a cabo
la doble corrección de algunos ejercicios escritos? Sí No
En caso de respuesta afirmativa, ¿en qué proporción?
38. ¿Qué ocurre si no hay acuerdo entre el prim er y el
segundo corrector? Dibuje un círculo alrededor del
número que corresponda:
256
Cuestionario y carta explicatoria enviada a los tribunales de exámenes
1) se incorpora a un tercer corrector y se utilizan

las dos puntuaciones más cercanas.
2) se hace la media de las dos notas.
3) se mantiene la puntuación del segundo corrector.
4) los dos correctores discuten y llegan a un acuerdo.
5) otros (por favor, especifique).
39. ¿Se calculan habitualmente las correlaciones entre
correctores? Sí No
En caso de respuesta negativa, ¿se calculan en algún caso? Sí No
40. ¿Se calculan habitualmente las medias y las
desviaciones típicas de los correctores? Sí No
41. ¿Se sigue algún otro proceso para calcular o comprobar
la fiabilidad de los correctores? Sí No
En caso afirmativo, ¿puede describirlos más abajo
o por separado o puede mandarnos una copia de
los informes correspondientes?
RESULTADOS
42. ¿Se mantienen otras reuniones antes de la publicación
de resultados (reuniones de adjudicación de
puntuaciones, reuniones de examinadores)? Sí No
En caso de respuesta afirmativa, ¿qué forma toman
estas reuniones?
43. ¿Se siguen procedimientos específicos para la decisión
sobre las puntuaciones de aprobado/suspenso o los
límites entre notas? Sí No
En caso afirmativo, ¿puede describir tales procedimientos
o mandarnos o darnos referencias sobre publicaciones
o informes relevantes?45
44. Redactan informes los examinadores jefes? Sí No
Ji éste es el caso, ¿están a disposición
a) de los profesores? Sí No
b) de los estudiantes? Sí No
c) sólo de forma restringida? Sí No
Si tales informes existen, ¿podría enviamos una copia?
Si no puede m andam os una copia, ¿podría describir
más abajo o por separado lo que habitualmente
contiene un informe de este tipo?
45. ¿Se calculan estadísticas sobre los ítems o pm ebas
cuando el examen ha concluido? Sí No
En caso afirmativo, ¿cuáles?
En caso afirmativo, ¿qué ocurre con los resultados?
257
Apéndices
REVISIÓN DE EXÁMENES
46. ¿Se recogen comentarios sobre sus exámenes? Sí No
En caso afirmativo, ¿cóm o y quién la recoge?
47. ¿Existen procedim ientos rutinarios que garanticen que sus
exámenes se revisan teniendo en cuenta los comentarios? Sí No
48. ¿Cada cuánto tiempo, por término m edio,
se revisan sus exámenes?
49. ¿Hay aspectos importantes de sus procedimientos
de control de calidad que crea que no han sido
incluidos en este cuestionario? Sí No
En caso afirmativo, dé detalles m ás abajo o por separado.
50. ¿Existen planes para hacer cam bios en los procedimientos
que realizan, tal com o se han descrito antes? Sí No
En caso de respuesta afirmativa, por favor facilite detalles
junto con una estimación sobre cuándo serán operativos.
51. Se dice que la fuerza de los exámenes británicos de
inglés com o lengua extranjera reside en su relación
con la docencia. ¿Está de acuerdo? Sí No Algo
¿Puede describir cóm o puede demostrarse esta
relación con respecto a su examen?
52. También se dice que los criterios y procedimientos
«am ericanos» o «psicom étricos» no son pertinentes
para los exámenes británicos. ¿Está de acuerdo? Sí No Algo
Si está de acuerdo (parcialmente), ¿qué criterios y /o
procedim ientos no son relevantes para sus exámenes?
53. ¿Cuáles son, en su opinión, los puntos fuertes
de sus exámenes?
54. ¿Cuáles son, si los hay, los puntos débiles de sus exámenes?
Pretendemos publicar los resultados de
este estudio de form a anónima. ¿Preferiría que
nom bráramos su tribunal en nuestra presentación? Sí No
Muchas gracias por su cooperación.
O Language Testing Research Group

Lancaster University, UK.
1990
(Nótese que a causa de las limitaciones de este volumen no se ha dejado el

espacio necesario para las respuestas a las preguntas.)
258
A p é n d ic e 3
índice de discriminación E13 (D de Ebel)
1. Ordenar a los alumnos de acuerdo con su nota total.

2. Dividirlos en tres grupos, asegurándose de que los grupos más altos y los
más bajos tienen igual número de estudiantes.
3. Contar cuántos estudiantes del grupo alto y del grupo bajo responden
correctamente a un ítem.
4. Encontrar la diferencia entre el número de respuestas correctas en el grupo
alto (GA) y en el grupo bajo (GB). Dividir este resultado por el número
total de personasen el grupo alto (TA):
G A -G B
TA
Por ejemplo, para los resultados en la tabla 4.1:
hay 14 respuestas correctas en el grupo alto;

hay 13 respuestas correctas en el grupo bajo.
El núm ero total de alumnos en el grupo alto es de 21.
Así, pues, para encontrar el I.D.

1 4 - 13
yy = 0, 047619
21
Una vez establecido con dos decimales, el I.D. es de + 0 ,5 .
259
A p é n d ic e 4
Estadísticas de distribución
Imaginar que ocho estudiantes tuvieron los siguientes resultados:
12 28 19 15 15 35 14 15
La media
La m edia es la suma de todas las notas, dividida por el número de estudiantes:
M — m edia X = la puntuación
£ = «la sum a d e » N = el número de estudiantes
£X _ 12 + 28 + 1 9 + 15 + 15 + 35 + 1 4 + 1 5 _ 153 _
N 8 " 8 “ 1
La m edia es pues 19,13.
La moda
Es la nota más frecuente. En este caso hay tres 15, y sólo una de cada una de las
otras notas. La m oda es por lo tanto 15.
La mediana
La mediana es la nota del medio, o el punto medio en las notas. Primero se orde
nan las notas de m ayor a menor:
35 28 19 15 15 15 14 12
A continuación se calcula el punto medio de las notas. Puesto que hay ocho estu
diantes, el punto m edio está entre la cuarta y la quinta nota (hay cuatro notas
por encima de este punto, y cuatro por debajo). Puesto que la cuarta y la quinta
notas son las dos un 15, el punto m edio es un 15. La mediana es un 15.
Si las notas hubieran sido 3 5 - 2 8 - 1 9 - 1 7 - 1 5 - 1 5 - 1 4 —12, la m ediana hubiera
sido el 16.
Si hubiera habido un núm ero impar de notas, la mediana hubiera sido enton
ces la nota del m edio. Por ejem plo, si las notas fueron 3 5 - 2 8 - 1 9 - 1 7 -1 5 , la
mediana hubiera sido 19.
260
Estadísticas de distribución
El rango
El rango es la diferencia entre la nota m ás alta y la nota más baja. El rango es:
3 5 -1 2 = 23.
La desviación típica
Es la raíz cuadrada de la desviación media al cuadrado de la media de las notas
de los alumnos.
(X —M )2
DT =
/ N - 1
DT = desviación típica X = «la sum a de»
X = puntuación M = la media de las notas
N = el número de alumnos
Primer paso. Hacer un listado de las puntuaciones (X ).
Segundo paso. Hacer un listado de las diferencias entre cada puntuación y la

m edia (19 ,1 2 5 ) en (X—M).
Notas:
a) Utilizar la m edia exacta; no corregir ningún
decimal.
b) El resultado de la sum a de los núm eros en
(X—M) debería ser 0.
Tercer paso. Elevar al cuadrado los números en la lista (X-M ) y anotarlos en

(X -M )2
Cuarto paso. Sumar la columna (X -M )2. El resultado total es X (X -M )2.
X (X -M ) (X -M )2
35 15,875 252,02
28 8,875 78,77
19 - 0,125 0,02
15 - 4 ,1 2 5 17,02
15 - 4 ,1 2 5 17,02
15 - 4 ,1 2 5 17,02
14 - 5 ,1 2 5 26,67
12 - 7 ,1 2 5 50,77
0 ” X (X -M )2 = 458,91
261
.Apéndices
Ahora puede utilizarse la fórmula.
nr - J - . /458.91 _ > 5 8 . 9 1 ,-------

D T _ V N -1 ~ V 8 -1 ~ V 7 = ^6 5 -56
(N ota: 6 5 ,5 6 es la varianza (v) utilizada por la fórm ula de Kuder

Richardson 21 en el apéndice 7.)
DT = 8,1 (Utilizar una calculadora para calcular la raíz cuadrada.)
262
A p é n d ic e 5
Correlación por orden de escala
La fórmula es: rho
rho = coeficiente de correlación
X = suma de
d = diferencia entre escalas
N = núm ero de estudiantes
Ejemplo
1. Hacer una lista de los resultados de los estudiantes en cada prueba igual
que en la tabla de la página siguiente. Asegúrese de que las dos puntua
ciones del m ism o estudiante están en una m ism a línea. Por ejem plo, las
notas del estudiante A son 20 y 12, y las del estudiante G son 13 y 17.
2. Ordenar los alumnos de cada prueba según su resultado en la prueba. Por

ejem plo, el estudiante A fue el prim ero en la prueba 1 y el tercero en la
prueba 2. El estudiante G fue el octavo en la prueba 1 y también en octavo
en la prueba 2. (Si las notas están empatadas, deben darse a los estudiantes
las m edias de las escalas. Por ejemplo, C y D habrían sido tercero y cuarto
en la prueba 1, con lo que su escala m edia es
Los alumnos G, H e I habrían sido el séptimo, octavo y noveno, por lo que

su escala m edia es 8.)
3. Encontrar las diferencias entre las dos escalas de cada estudiante (d), dedu
ciendo el número m enor del mayor. La diferencia entre las dos escalas del
estudiante A es 3—1 = 2 . 4
4. Elevar estas diferencias al cuadrado.
263
Apéndices
5. Sumar estas diferencias al cuadrado. Esto da Xd2.

Resultado de Resultado de Escala de Escala de
Estudiante la prueba 1 la prueba 2 la prueba 1 la prueba 2 d d2
A 20 12 1 3 2 4
B 18 11 2 4 2 4
C 17 8 3,5 7 3,5 12.25
D 17 15 3,5 1 2,5 6,25
E 16 14 5 2 3 9
F 14 6 6 9 3 9
G 13 7 8 8 0 0
H 13 10 8 5 3 9
I 13 9 8 6 2 4
J 9 4 10 10 0 0
X d2 = 5 7 ,5 0
N = 10
Xd2 = 5 7 ,5 0
Ahora puede utilizar la fórmula.
1-
i 6X57,5 \
rho - 1 1 - 0 , 3 4 8 4 = 0,6516
1^10(100— 1) J
Una vez reducidos a dos los decimales, la correlación es igual a 0,65.
264
A p é n d ic e 6
Fiabilidad por el método de las dos mitades

Para obtener este dato, debe calcularse primero la correlación por orden de escala
(véase apéndice 5) entre las m itades pares e im pares de la prueba, y a conti
nuación debe utilizarse la fórmula correctiva de Spearman Brown.
1. Dividir la prueba en dos mitades, con los ítems impares (ítems 1, 3, 5, 7,

etc.) en una prueba, y los ítems pares (ítems 2, 4, 6, 8, etc.) en la otra.
2. Calcular las notas de cada alumno en las pruebas pares e impares.
3. Dar a cada alum no dos escalas, una para la prueba im par y una para la
prueba par.
4. Calcular la correlación por orden de escala entre los dos grupos de escalas.
rho = 1 —
5. Esta correlación entre las dos mitades de la prueba nos dice la fiabilidad de
una prueba que fuera la mitad de la prueba completa. Para averiguar la fia
bilidad para toda la prueba, debe utilizarse la fórmula correctiva de Spear
m an Brown:
= 2r,hh
1 + rhh
rK = fiabilidad
rhh = correlación entre las dos m itades de la pm eba
265
Apéndices
Estudiante Resultado Resultado Resultado Escala Escala
en toda en la mitad en la mitad en la mitad en la mitad
la prueba impar par impar par d d2
A 15 8 7 2,5 3 0,5 0,25
B 8 6 2 4,5 9 4,5 20,25
C 9 6 3 4,5 7,5 3 9
D 6 2 4 8 5,5 2,5 6,25
E 3 0 3 10 7,5 2,5 6,25
F 10 5 5 6 4 2 4
G 14 4 10 7 1 6 36
H 18 10 8 1 2 1 1
I 2 1 1 9 10 1 1
J 12 8 4 2,5 5,5 3 9
X d 2 = 9 3 ,0 0
N = 10 E d 2 = 93
ruu = 1 - í . . 6? '6X93 \
2 . U i - I - i - n t í . — HA A.
La correlación entre las dos mitades de la prueba es de 0 ,4 4 por lo tanto

rhh = 0 .4 4
2rhh _ 2 X 0,44
r“ “ 1 + rhh “ 1 + 0 ,4 4 “ ° ’61 Por lo tanto rtt = ° - 61
El índice de fiabilidad de las dos mitades es de 0,61.
266
A p é n d ic e 7
Kuder Richardson 21
fórmula es la siguiente:
nv —M (n —M)
r tt
(n - l)v
r« = el índice de fiabilidad
n = núm ero de ítems
V = varianza de la prueba
M = nota media
Este ejemplo utiliza los resultados del apéndice 6.
1. El núm ero de ítems de la prueba es de 20, por lo que n = 20.
97
2. La nota m edia es de ^ , por lo que M = 9,7.
3. v = 26,9 (Para calcular la varianza deben seguirse los pasos 1—6

en el ejemplo de la desviación típica del apéndice 4.)
4. nv = 2 0 X 2 6 , 9 = 538
5. n-M = 2 0 - 9 , 7 = 10,3
6. M (n-M ) = 9,7 X 10,3 = 99,91
7. n- 1 = 2 0 - 1 = 19
8 ( n - l) v = 19 X 26,9 = 511,1
Substituir los sím bolos en la fórmula por los núm eros:
_ nv —M (n —M)
rtt ( n —l ) v
538-99,91 4 3 8 ,0 9 n oc,
'« = 511,1 = 7 ÏÏT = 0’857
267
.Apéndices
El índice de fiabilidad KR21 es de 0,86.
La razón de que este índice de fiabilidad sea tan distinto del de las dos mitades
se debe probablem ente a que el núm ero de alumnos es m uy pequeño y a que,
por tanto, los resultados están m uy influidos por el factor azar. Si hubiera habido
100 estudiantes, o incluso 50, los dos índices habrían sido probablemente m uy
parecidos, aunque el índice de las dos mitades habría sido ligeramente m ás bajo.
268
A p é n d ic e 8
Paquetes estadísticos
IT E M A N Part of the M icroCA T testing system
A s se ss m e n ts S y ste m s C o rp o r a tio n ,
2 2 3 3 , U n iv e r s ity A v e n u e , S u ite 4 0 0 ,
S t. P a u l,
M in n e so ta 5 5 1 1 4 ,
U SA .
SP S S Statistical Package for the Social Sciences

S P S S I n c .,
4 4 4 N . M ic h ig a n A v e n u e ,
C h ic a g o ,
I llin o is 6 0 6 1 1 ,
U SA
SA S Statistical Package for D ata Analysis

S A S I n s t i t u t e I n c .,
S A S C ir c le ,
Box 8000,
C ary ,
N o r t h C a ro lin a 2 7 5 1 2 - 8 0 0 0 ,
U SA
FACETS Rasch Measurement Computer Program

M E SA P ress,
5 8 3 5 S. K i m b a r k A v e n u e ,
C h ic a g o ,
I llin o is 6 0 6 3 7 ,
U SA .
B IG S T E P S Rasch Measurement Computer Program

M E SA P ress,
5 8 3 5 S. K i m b a r k A v e n u e ,
C h ic a g o ,
I llin o is 6 0 6 3 7 ,
U SA
j4péndices
Q U EST The Interactive Test Analysis System

A u stra lia n C o u n c il f o r E d u c a tio n a l R e se a r c h ,
R a d fo rd H o u se ,
F r e d e r ic k S tre e t,
H a w th o r n , V ic to r ia 3 1 2 2 ,
A u stra lia
TESTA T A Supplementary Module for SYSTAT

1 8 0 0 S h e rm an A ven u e,
E v an sto n ,
I llin o is 6 0 2 0 1 - 3 7 9 3 ,
U SA
B IL O G One-, Two-, and Three-Parameter Item Response Theory Analysis

S c ie n tific S o ftw are , In c.,
M o o re sv ille ,
In d ia n a 4 6 1 5 8
U SA
270
Glosario
A nálisis d e la varian za (Analysis of variance)

El análisis de la varianza compara las distribuciones (m edias y desviaciones
típicas) de dos o m ás grupos para ver si las diferencias entre las medias son
significativas. Se utiliza la prueba t (t-test) para comparar los dos grupos y una
ratio F para más de dos grupos (capítulo 4).
A nálisis factorial (Factor analysis)

El análisis factorial aborda una matriz de coeficientes de correlación, a menudo
demasiado compleja para entenderla mediante un estudio superficial, y reduce
la com plejidad de tal matriz a proporciones más manejables. El resultado de
tal reducción se utiliza para identificar los factores que tienen en común los
distintos grupos de ítems (capítulo 8).
Análisis m ultim étodo-m ultirrasgo (Muldtrait-multimethod analysis)

Véase Validez de constructo.
A nálisis Rasch
Véase T eoría de respuesta al ítem .
A sim etría negativa (Negatively skewed)

En una distribución con asimetría negativa, las notas se agrupan en el extremo
alto del histogram a y decrecen hacia la izquierda del gráfico. Esta distribu
ción m uestra que la prueba resultó fácil para los candidatos (capítulo 4 ).
(Véase Asim etría positiva.)
A sim etría p ositiv a (Positively skewed)

En una distribución con asimetría positiva, las notas se agrupan al final del his
tograma, y decrecen hacia la derecha. Tal distribución muestra que la prueba
resultó difícil para los candidatos (capítulo 4). (Véase Asimetría negativa.)
Banco d e ítem s (Item bank)

Un banco de ítems es un conjunto de ítems o tareas que ha sido calibrado de
acuerdo con características tales com o la habilidad de una persona, la difi
cultad del ítem y su capacidad de discrim inación, y ha sido almacenado en
un archivo central para su uso en el m om ento en que sea necesario. Cuando
los elaboradores de una prueba están planificando una nueva versión de una
prueba, pueden seleccionar del banco ítems que no sólo serán del nivel ade
cuado para la población de la prueba, sino que también, cuando se agrupen,
271
*
Exámenes de idiomas. Elaboración y evaluación
se com binarán para form ar una prueba que sea equivalente en dificultad y
discriminación a las pruebas previas del m ism o tipo (capítulo 4).
B im odal (Bimodal)
Se llama bim odal a una distribución que tiene dos m odas (capítulo 4).
Clave (Key)
Una clave es el conjunto de respuestas aceptables en una prueba de correc
ción objetiva. En una clave sólo hay una respuesta aceptable para cada ítem
(capítulo 5).
C oeficiente de co rrelación (Correlatíon coefficient)

Un coeficiente de correlación es una cifra que representa el grado en que dos
conjuntos de resultados coinciden. Hay muchas formas de calcular los coefi
cientes de correlación. La correlación por orden de escala y la correlación de
Pearson se explican en el capítulo 4, y la fórm ula y el ejemplo desarrollado
de la correlación de rango se facilitan en el apéndice 5 (capítulo 4).
C oeficiente de d ificu ltad (Facility valué)

El coeficiente de dificultad m ide el nivel de dificultad de un ítem. Representa
el porcentaje de alumnos que lo contesta correctamente (capítulo 4).
C orrelación biserial (Biserial correlatíon)

Véase Indice de discrim inación.
C orrelación b iserial p u n tu al (Point biserial correlatíon)

Véase índice de discrim inación.
C orrelación de P earson (Pearson Product Moment Correlatíon)

Véase Coeficiente de correlación.
C orrelación p o r ord e n d e escala (Rank oíd a correlatíon)

Véase Coeficiente de correlación.
C urtosis (Kurtosis)
La curtosis se refiere a la indinación de la curva de distribución de una prueba
(capítulo 4).
Curva característica d el ítem (Item characteristíc curve)

Véase Teoría de respuesta al ítem .
D escripción d e los con tenidos (Syllabus)

La descripción de los contenidos de una prueba se deriva de las especifica
ciones de la misma. Aunque algunos tribunales de exámenes del Reino Unido
utilizan especificaciones y descripciones de form a intercambiable, nosotros
vemos una diferencia entre ambos. Una especificación es un documento deta
llado, a m enudo sólo de uso interno y confidencial para el centro de exám e
272
Glosario
nes. La descripción de los contenidos es un documento público, a menudo
mucho m ás simplificado, que indica a los usuarios lo que incluirá la prueba.
Mientras que las especificaciones son para los redactores de la prueba y para
los que necesitan evaluar si una prueba cum ple con su objetivo, la descrip
ción de los contenidos va dirigida a los profesores y a los estudiantes que
desean prepararse para la prueba, a personas que deben tomar decisiones con
respecto a las notas de la prueba y a editores que desean elaborar materiales
relacionados con la prueba (capítulo 2). (Véase Especificaciones.)
D escriptores (Descriptors)
Los descriptores son las definiciones que describen los niveles de actuación
en cada punto o prácticam ente en cada punto de una escala de valoración
(capítulo 5).
D esviación típ ica (Standard deviation)

La desviación típica es, aproximadamente, la cantidad m edia en que la pun
tuación de cada estudiante se desvía (o difiere) de la m edia. Si un alumno
tiene una nota de 4, y la media es 6, este estudiante se desvía - 2 de la media.
De la m ism a form a, un estudiante con una nota de 10 se desviará + 4 de la
media. La desviación típica informa sobre la cantidad media en que todas las
notas difieren de la m edia (capítulo 4).
D eterm in ación de niveles (Standard setting)

En este libro la determinación de niveles hace referencia al procedimiento por
el cual jueces expertos —profesionales que tienen la experiencia adecuada-
analizan el contenido de la prueba y deciden cuál debería ser la posible actua
ción de los candidatos mínimamente adecuados para la prueba (capítulo 7).
D iferencia significativa (Significant difference)

Una diferencia significativa es la que resulta lo suficientemente grande como
para que no se deba sólo al azar. La prueba para saber si la diferencia entre
dos m edias es significativa es la prueba t (capítulo 6).
Ensayos (Trialling)
Véase Ensayos previos.
Ensayos generales (Main trials)

Ensayos p revios (Pretesting)

' En este libro, los ensayos previos se refieren a todo tipo de ensayos a los que
se som ete una prueba antes de que salga a la luz o empiece a funcionar. La
m ayoría de los ensayos previos tienen lugar durante los «ensayos generales»
pero deberían ir precedidos de ensayos previos m enos form ales llam ados
pruebas piloto. Las pruebas piloto pueden variar en envergadura, desde pro
bar un examen con un pequeño grupo de miembros del mismo departamento
273
a probarla con un centenar de estudiantes, pero, en cualquier caso, su obje
tivo principal es limar los principales problem as antes de los ensayos genera
les (capítulo 4).
Entrevistador (Interlocutor)
Una persona (a m enudo un profesor) que interacciona con el candidato en
una prueba de expresión oral para obtener una producción lingüística, m ien
tras que otra persona llamada examinador evalúa la actuación del candidato
(capítulo 5). (Véase Exam inador.)
Escala an alítica (Analytic scale)

Una escala analítica es un tipo de escala de valoración en la que la actuación
de un candidato (en expresión escrita, por ejem plo) se analiza en términos
de distintos componentes (como por ejemplo, la organización, la gramática,
la ortografía) y se dan descripciones de cada componente a niveles distintos.
En la corrección analítica el candidato puede recibir una puntuación m ás alta
en un com ponente de su actuación que en otro; es decisión del usuario de
los resultados el combinar estas puntuaciones para llegar a un resultado glo
bal (capítulo 5).
Escala de valoración (Rating scale)

La escala de valoración se utiliza normalmente para puntuar pruebas de expre
sión escrita y de expresión oral. Este tipo de escala consiste en números, letras
y otras etiquetas (como por ejemplo «Excelente» o «M uy bu en o»), que pue
den ir acompañadas de descriptores, definiciones del tipo de comportamiento
a que se refiere cada punto en la escala (capítulo 5).
Escala h o lística o g lo b al (Holistic scale)

Una escala holística es un tipo de escala de valoración en la que se pide a los
exam inadores que no presten dem asiada atención a un aspecto en concreto
de la actuación de un candidato, sino que juzguen su eficacia global. Se les
pide, por ejem plo, que juzguen la habilidad de escribir en general y no que
emitan juicios por separado sobre la organización, la gramática, la ortogra
fía, etc. del escrito (capítulo 5).
Escala p o r im p resió n gen eral (Impression scale)

Esta escala es un tipo de escala holística que permite a los examinadores em i
tir juicios rápidos sobre la actuación de un candidato (capítulo 5).
Escalonam iento (Scaling)

El escalonamiento es el procedimiento utilizado por los tribunales de exámenes
para ajustar las puntuaciones otorgadas por un examinador que, como se des
cubre más tarde, no «está en línea» con otros examinadores. Las puntuaciones
pueden nivelarse al alta si se descubre que el examinador era demasiado estricto,
o a la baja si el examinador era demasiado benevolente (capítulo 6).
274
Glosario
Especificaciones (Specifications)
Las especificaciones de una prueba constituyen la descripción oficial de lo que
una prueba evalúa y cóm o evalúa lo que pretende evaluar. Las especificacio
nes son la guía a seguir por los redactores de la prueba y de los ítems, y tam
bién son esenciales para establecer la validez del constructo de la prueba
(capítulo 2). (Véase Descripción de los contenidos.)
Exam in ador (Examiner)

En este libro, el término «exam inador» indica la persona responsable de juz
gar la actuación de un candidato en una prueba o examen. Utilizam os este
término para incluir a todos aquellos que tienen tal responsabilidad, sin tener
en cuenta si corrigen las secciones de corrección objetiva o subjetiva, y sin
tener en cuenta si han estado implicados en la redacción y administración de
la prueba. Distinguimos entre examinador y entrevistador en la evaluación de
la expresión oral: el prim ero se refiere a la persona que evalúa a los candida
tos, mientras que el segundo se refiere a otra persona que interacciona con el
candidato mientras el examinador evalúa su actuación (capítulo 5).
Fiab ilid ad (Reliability)

La fiabilidad es la medida en que los resultados de una prueba son fiables; si
los candidatos volvieran a responder a la prueba mañana, después de haberla
hecho hoy, ¿obtendrían el m ism o resultado (asumiendo que su habilidad no
hubiera cam biado) ? (Véase el capítulo 2 y en todo el libro.) Hay muchas
maneras de medir la fiabilidad de pruebas «objetivas» (test-retest, formas para
lelas, dos mitades, KR20, KR21 etc.), que se explican con detalle en el capí
tulo 4. La fiabilidad de las pruebas subjetivas se m ide calculando la fiabilidad
de la corrección. Esto puede hacerse de distintas form as (fiabilidad entre
correctores, fiabilidad interna, etc.) (capítulo 6).
Fiab ilid ad de fo rm as paralelas (Parallel form reliability)

Véase Fiabilidad.
Fiabilidad de las d os m itades (Split-half reliability)

Véase Fiabilidad.
Fiab ilid ad de test retest (Test-retest reliability)

Véase Fiabilidad.
Fiab ilid ad entre correctores (Inter-rater reliability)

La fiabilidad entre correctores se refiere al grado de similitud entre distintos
examinadores. ¿Pueden dos o más examinadores, sin influirse entre sí, dar las
m ism as notas al m ism o grupo de escritos o actuaciones orales? No sería rea
lista esperar que los exam inadores estén de acuerdo todo el tiem po; sin
embargo, es esencial que cada examinador intente acercarse al m odelo siem
pre. La fiabilidad entre correctores se m ide habitualmente mediante el coefi-
275
Exámenes de id io m a s. Elaboración y evaluación
cíente de correlación, o mediante algún tipo de análisis de la varianza (capí
tulo 6). (Véase Fiabilidad intem a.)
Fiabilidad in tern a (Intra-rater reliability)

Se considera que un examinador demuestra fiabilidad intema si da las mismas
puntuaciones al m ism o grupo de escritos o expresiones orales en dos ocasio
nes distintas. El examinador puede todavía considerarse fiable incluso si algu
nas notas son distintas; sin embargo, no se puede permitir mucha variación si
se pretende evitar que se cuestione la fiabilidad. La fiabilidad intema se mide
a m enudo mediante un coeficiente de correlación o mediante algún tipo de
análisis de la varianza (capítulo 6). (Véase Fiabilidad entre correctores.)
Fórm u la Ej 3
Véase índice de discrim inación.
ín dice de d iscrim in ación (Discrimination index)

El índice de discriminación mide hasta qué punto los resultados de un ítem en
particular están correlacionados con los resultados de toda la prueba. Además de
saber la dificultad de un ítem, es importante saber cómo discrimina, es decir, lo
bien que distingue entre los alumnos de los distintos niveles de capacidad. Si el
ítem funciona bien deberíamos esperar más de los alumnos que sacan buenas
notas que de los que sacan notas bajas. Si los alumnos buenos no responden bien
a un ítem, mientras que los alumnos flojos lo responden correctamente, el ítem
tiene problemas que deben investigarse. Hay distintos métodos para calcular el
índice de discriminación de un ítem (fórmula E] 3, correlación biserial, corre
lación biserial puntual), que se explican en el capítulo 4 (capítulo 4).
Inform e de resu ltad o s (Reported scores)

Un informe de resultados es el que contiene la nota que se entrega a los can
didatos, a los empresarios o a las colegios o institutos (capítulo 7).
K uder R ich ardson 20 y 21 (también conocidos por KR20 y K R 21)

Véase Fiabilidad.
M edia (Mean)
La nota m edia de una prueba es lo que comúnmente se llama la media; esto
es, la sum a de las notas de todos los estudiantes dividida por el núm ero de
estudiantes (capítulo 4).
M ediana (Median)
La mediana es la nota obtenida por el estudiante que se encuentra en la mitad
de los resultados obtenidos por la totalidad de los estudiantes. Si, por ejem
plo, cinco alumnos responden a una prueba, u obtienen unas notas de 9, 7,
6, 2 y 1, la mediana sería de 6. La mediana es particularmente útil cuando el
evaluador cree que la media no es, de alguna manera, representativa del nivel
de habilidad de todo el grupo (capítulo 4).
276
Glosario
M oda (Mode)
La m oda es la nota obtenida por el mayor número de estudiantes (capítulo 4).
M odelo de d os parám etros (Two-parameter model)

Véase Teoría de respuesta al ítem.
M odelo de tres p arám etros (Three-parameter model)

M odelo de un p arám etro (One parameter model)

Plan tilla de corrección (Mark scheme)

Una plantilla de corrección es parecida a una clave, puesto que contiene un
grupo de respuestas aceptables para una prueba de corrección objetiva. Sin
em bargo, al contrario que una clave, puede haber más de una respuesta
correcta para cada ítem (capítulo 5).
Ponderación (Weighting)
Los redactores de pruebas a m enudo creen que hay ítems más importantes
que otros y que tales ítems deberían tener más peso. Dar valor añadido a algu
nos ítems se conoce como ponderación (capítulo 7).
Prueba t (T-test)
La prueba t se lleva a cabo para averiguar si la diferencia entre dos medias es
signiñcativa (capítulo 6).
Pruebas de aprovech am iento (Achievement tests)

Las pruebas de aprovechamiento son parecidas a las pruebas de progreso, pero
se administran al final del curso. El contenido de las pruebas de aprovecha
miento y de las de progreso se basa generalmente en el program a del curso
o en el libro de texto (capítulo 2).
Pruebas de clasificación (Placement tests)

Las pruebas de clasificación están pensadas para evaluar los niveles de habili
dad lingüística de los estudiantes con el fin de colocarlos en el curso o clase
apropiada (capítulo 2).
Pruebas de co rrección ob jetiva (Objective testing)

Estas pruebas hacen referencia a ítem s del tipo de respuesta múltiple, ver
dadero—falso y reconocimiento del error, entre otras, en las que el candidato
debe producir una respuesta que se ha de puntear como «correcta» o «inco
rrecta». En la corrección objetiva, el exam inador com para la respuesta del
candidato con la respuesta o conjunto de respuestas que el redactor del ítem
ha determinado com o correctas (capítulo 5). (Véase Pruebas de corrección
subjetiva.)
277
Pruebas de corrección subjetiva (Subjective testing)
Estas pruebas hacen referencia a los ítems o tareas en las que los examinadores
no pueden aplicar juicios del tipo «correcto» o «incorrecto». Deben evaluar la
calidad de la respuesta de un candidato a una tarea, y para ello deben utilizar una
«escala de valoración» (capítulo 5). (Véase Pruebas de corrección objetiva.)
Pruebas d e d iagn óstico (Diagnostic tests)

Las pruebas de diagnóstico pretenden descubrir aquellas áreas en las que un
estudiante necesita ayuda suplementaria. Pueden ser relativamente generales
y mostrar, por ejemplo, si un estudiante necesita ayuda en una de las dos prin
cipales destrezas lingüísticas, o más específicas, identificando los puntos débi
les en el uso de la gramática por parte de un estudiante.
Pruebas de d om in io (Proficiency tests)

Las pruebas de dom inio no están basadas en un programa en particular. Están
pensadas para evaluar la habilidad lingüística de estudiantes que tienen dis
tinto bagaje educativo. Algunas pruebas de dominio, como muchas de las ela
boradas por los tribunales de exámenes del Reino Unido, pretenden m ostrar
si los estudiantes han alcanzado un nivel dado de habilidad lingüística gene
ral. Otras están pensadas para mostrar si los estudiantes tienen las habilidades
suficientes com o para utilizar una lengua en un área específica, com o puede
ser la medicina, el turismo o los estudios académicos (capítulo 2).
Pruebas de p rogreso (Progress tests)

Las pruebas de progreso se administran en diversos estadios a lo largo de un
curso de lengua para ver lo que los alumnos han aprendido (capítulo 2).
Pruebas equivalen tes (Equivalent tests)

Las pruebas equivalentes están basadas en las m ism as especificaciones pero
pueden variar en cuanto a número de ítems, tipo de respuestas y contenido.
Los tribunales de exámenes a m enudo tienen una gama de tipos de pruebas
que pueden utilizarse en un examen, y a menudo no esperan ni quieren usar
las todas cada vez. Lo importante con respecto a las pruebas equivalentes es
que cada una m ida las m ism as destrezas lingüísticas y que se correlacionen
entre sí lo m ás posible (capítulo 4). (Véase Pruebas paralelas.)
Pruebas p aralelas (Parallel tests)

Las pruebas paralelas están elaboradas para que resulten tan similares entre sí como
sea posible. Deberían, pues, incluir las mismas instrucciones, tipos de respuesta
y número de ítems, y deberían estar basadas en el mismo contenido. También
deberían, si se probaran con los mismos estudiantes, producir las mismas medias
y las mismas desviaciones típicas (capítulo 4). (Véase Pruebas equivalentes.)
Pruebas p ilo to (Pilot testing)

278
Glosario
Rango (Range)
El rango es la diferencia entre las notas más altas y las más bajas de una prueba
(capítulo 4).
R eferencia a la n o rm a (Norm-referenced)
Si una prueba se considera con referencia a la norma pretende ordenar a los
alum nos en algún tipo de escala, para poderlos com parar unos con otros
(capítulo 4 ). (Véase Referencia a un criterio.)
R eferencia a u n criterio (Criterion-referenced)

Si una prueba se dice que evalúa con referencia a un criterio, los estudiantes
no se comparan los unos con los otros, sino con un nivel de conocimientos,
o con un conjunto de criterios fijados por descriptores (capítulo 4). (Véase
Referencia a la norm a).
T eoría de la generalizabilidad(Generalisability theory)

La teoría de la generalizabilidad se basa en el análisis de la varianza y puede esti
mar la fiabilidad de un grupo completo de correctores de una vez (capítulo 6).
T eoría de resp uesta al ítem (Item Response Theory)

La teoría de respuesta al ítem es un sistema de m edición que tiene en cuenta
tanto al candidato com o las características del ítem. Está basada en la teoría
de la probabilidad y muestra la probabilidad de que una persona acierte un
ítem en particular. Las notas de los candidatos y los totales de cada ítem se
transforman en una escala para que puedan relacionarse entre sí. La relación
entre la actuación de los candidatos en el ítem y las habilidades que subyacen
en la actuación del ítem se describen en una curva de las características del
ítem. Hay tres m odelos principales de la teoría de respuesta al ítem; el modelo
con un parámetro (Rasch) que sólo tiene en cuenta la habilidad de un candi
dato y la dificultad del ítem; el modelo de dos parámetros, que también tiene
en cuenta la discrim inación del ítem; y el m odelo de tres parám etros, que
además tiene en cuenta la posibilidad de acertar por azar (capítulo 4).
T ran sform ación (Transformation)

La transformación tiene lugar cuando los responsables de la prueba quieren
dar el m ism o peso a las partes de una prueba que tienen distinta duración. La
forma más habitual de hacer una transformación es convirtiendo las notas de
las distintas partes en porcentajes, dividiendo cada nota de cada parte por el
número de ítems y multiplicando por 100. Hay formas de transformación de
notas m ás complejas (notas tipificadas, notas z, etc.) (capítulo 7).
V alidez (Validity)
La validez define hasta qué punto una prueba m ide lo que se supone que
mide: se refiere al uso o usos que se darán a las calificaciones de una prueba
y a las formas en las que pueden interpretarse estas calificaciones, por lo que
siempre está relacionada con el propósito de la prueba. Aunque el único capí
279
tulo del libro que hace referencia a la validez en su título es el número 8, el
concepto de validez es central en todos los capítulos, desde el dedicado a las
especificaciones hasta el que trata de los criterios.
V alidez aparen te (Face validity)

La validez aparente se refiere a la «credibilidad aparente o aceptación pública»
de la prueba (Ingram, 1977:18), y es frecuentemente rechazada por los evalua
dores como poco científica e irrelevante. En esencia, la validez aparente implica
un juicio intuitivo sobre el contenido de la prueba expresado por personas cuya
opinión no es necesariamente «experta». Normalmente, tales personas son «n o
profesionales»: administradores, usuarios no expertos y estudiantes (capítulo 8).
Validez con currente (Concurrent validity)

La validez concurrente im plica la comparación de los resultados de la prueba
con otra m edida de los m ism os candidatos recogida aproxim adam ente al
m ism o tiem po de la prueba. Esta otra m edida pueden ser los resultados de
una versión paralela de la m ism a prueba o de otra prueba, o de la autoeva-
luación de los candidatos sobre sus habilidades lingüísticas, o las puntuacio
nes dadas por los profesores, los especialistas en la m ateria u otros
inform adores. Esta m edida debe estar expresada num éricam ente (com o
sucede, por ejemplo, con las escalas de puntuación), y no debe estar relacio
nada con la prueba en sí (capítulo 8).
Validez d e con stru cto (Construct validity)

Un constructo es un com ponente clave en una teoría. Toda teoría contiene
un núm ero de constructos e intenta definir la relación entre los m ism os. Por
ejemplo, algunas teorías de comprensión de lectura afirman que hay muchos
constructos distintos dentro de la com prensión de lectura (lectura globahza-
dora, lectura selectiva, etc.) y que los constructos son distintos entre sí. Para
m edir la validez del constructo de una prueba un evaluador debe articular la
teoría que subyace a su prueba y comparar los resultados con esta teoría. La
validación del constructo im plica evaluar lo bien que una prueba m ide los
constructos en los que está basada (capítulo 2).
Lo que Bachman, 1990, llama el «enfoque clásico en el diseño de estudios de corre

lación para la validación del constructo» es la matriz multimétodo-multirrasgo (mul-
titrait-multimethod matrix) descrita por Campbell y Fiske, 1959. En esencia consiste en
una combinación de procedimientos de validación internos y extemos. La teoría es
que las pmebas que están relacionadas entre sí mostrarán correlaciones entre sí más
altas (validez convergente) que las pruebas que no están relacionada (validez diver
gente). Los estudiantes responden a la pmeba experimental al mismo tiempo que
a las otras pruebas, algunas de cuyas propiedades ya se conocen (como es el caso en
la validez concurrente). Wood, 1991, da una explicación muy clara de este método
de análisis y pueden verse variantes de este procedimiento en los estudios multi
método-multirrasgo realizados por Bachman y Palmer, 1981 y 1982 (capítulo 8).
280
Glosario
Validez de contenido (Content validity)

La validación del contenido (o racional) depende de un análisis sistemático
del contenido de la prueba para ver si la prueba contiene una muestra repre
sentativa de las destrezas lingüísticas relevantes. La validación del contenido
im plica la recogida de opiniones de «expertos»: personas en cuya opinión se
está dispuesto a confiar, aunque discrepe con la propia (capítulo 8).
V alidez d e resp uesta (Response validity)

La validación de la respuesta (Henning, 1987: 96) se refiere a la creciente
gama de técnicas cualitativas mediante las cuales se pide a los candidatos infor
m ación sobre cóm o responden a los ítems de una prueba (capítulo 8).
V alidez e m p írica (Empirical validity)

La validación empírica depende de la evidencia empírica y estadística sobre si
los resultados de los estudiantes en la prueba son similares a otros resultados en
otras m edidas apropiadas de su habilidad, tales com o sus resultados en otras
pruebas, sus autoevaluaciones o las valoraciones de sus profesores sobre sus
habilidades. Hay dos tipos de validez empírica: la validez concurrente y la vali
dez predicüva (capítulo 8). (Véase Validez concurrente y Validez predictiva).
V alidez extern a (External validity)

La validez externa hace referencia a los estudios que comparan los resultados
de los estudiantes en una prueba con la habilidad que se ha podido compro
bar desde fuera. La validez externa a m enudo se llam a validez de criterio
(véase American Psychological Association, 1985) porque las notas de los estudian
tes se com paran con otras m edidas de su habilidad referentes a un criterio.
Hay dos tipos de validez externa: la validez concurrente y la validez predic
tiva (capítulo 8). (Véase Validez concurrente y Validez predictiva)
Validez in tern a (Internal validity)

La validez inteima se refiere a los estudios sobre el contenido que se ha obser
vado en una prueba y el efecto comprobado de la misma. Hay varios tipos de
validez interna : la validez aparente, la validez de contenido, la validez de
constructo y la validez de respuesta (capítulo 8). (Véase Validez aparente,
Validez de contenido, Validez de constructo y Validez de respuesta.)
Validez pred ictiva (Predictive validity)

La validez predictiva supone la comparación de las notas de una prueba con
otra m edida sobre los m ism os candidatos, tom ada un tiempo después de la
administración de la prueba. La validación predictiva es m uy com ún en las
pruebas de dom inio: se pretende que las pruebas puedan la calidad de la
actuación de un candidato en el futuro (capítulo 8).
Validez racion al (Rational validity)

Véase Validez de contenido.
281
Abreviaturas y acronimos
ABEEB Association o f British ESOL Examining Boards

AEB Associated Examining Board
AERA American Educational Research Association
AET ARELS Examination Trust
ALTE Association o f Languages Testers in Europe
APA American Psychological Association
ARELS Association o f Recognised English Language Schools
C&C City and Guilds o f London Institute
CAE Certificate in Advanced English (UCLES)
CCSE Certificates in Communicative Skills in English (UCLES)
CEELT Cam bridge Examination in English for Language Teachers
(UCLES)
CEIBT Certificate in English for International Business and Trade (UCLES)
CENTRA North West Regional Examinations Board
CPE Certificate o f Proficiency in English (UCLES)
CS Com munication Skills (C&G)
CTE Communication in Technical English (Overseas) (C&G)
CUEFL Examination in the Communicative Use o f English as a Foreign
Language
DES Diplom a o f English Studies (UCLES)
EAL English as an Acquired Language (ESB)
EAP English for Academic Purposes
EfB English for Business (LCCI)
EfC English for Commerce (LCCI)
EFL English as a Foreign Language
ELTS English Language Testing Service (The British Council)
ESB English Speaking Board
ESL English as a Second Language
ESOL English for Speakers o f Other Languages (PEI)
ESP English for Specific Purposes
ESU English Speaking Union
ETS Educational Testing Service
FCE First Certificate in English (UCLES)
GCSE General Certificate o f Secondary Education
IELTS International English Language Testing System (UCLES)
IGCSE International General Certificate o f Secondary Education
282
Abreviaturas y acrânimos
ILTA International Language Testing Association

JCTP Joint Committee on Testing Practices
JMB Joint Matriculation Board
LCCI London Chamber o f Commerce and Industry Examination Board
NCME National Council o f Measurement in Education
OHE Oxford Higher Exam (OUDLES)
OPE Oxford Preliminary Exam (OUDLES)
Oxford University o f O xford Delegacy o f Local Examinations
PEI Pitman Examinations Institute
PET Preliminary English Test (UCLES)
RSA Royal Society o f Arts
SCAA Schools Curriculum and Assessment Authority
SEAC Schools Examination and Assessment Council
SEflC Spoken English for Industry and Commerce (LCCI)
TEEP Test o f English for Educational Purposes (AEB)
TELS Tests in English Language Skills (CENTRA)
TESOL Teaching English to Speakers o f Other Languages
TOEFL Test o f English as a Foreign Language (ETS)
Trinity Trinity College London
TSE Test o f Spoken English (ETS)
TWE Test o f Written English (ETS)
UCLES University o f Cambridge Local Examination Syndicate
UETESOL University Entrance Test in English for Speakers o f Other
Languages (JMB)
ULSEB University o f London Schools Examination Board
283
Bibliografía
A lderson, J. C. ( 1 9 7 8 ). A Study of the Cloze Procedure with Native and Non-Native Speakers of
English. Tesis doctoral in édita, U n iversid ad de E dim bu rgo .
A lderson, J. C. ( 1 9 7 9 ). «T h e C loze P rocedure an d P roficien cy in E nglish as a F o reig n
L a n g u a g e .» TESOL Quarterly, 13 (2 ), p ig s . 2 1 9 —2 2 7 . R eim p reso en J. W . Oiler
(e d .), ( 1 9 8 3 ) . Issues in Language Testing Research. N e w b u ry H o u se, R ow ley, M ass.
A lderson, J. C. ( 1 9 8 0 ). «N a tiv e an d N on -n ative Speaker P erform ance o n C loze Test »
Language Learning, 13 (1 ), p ig s . 5 9 - 7 6 .
A lderson, J. C. (1 9 8 6 a ). En Leach y C an dlin (e d s.), Computers in English Language Education
and Research. L o n gm an , L ondres.
A lderson, J. C. (1 9 8 6 b ). «In n o v atio n s in L an gu age T e stin g ?» En M. Portal (e d .),
Innovations in Language Testing, p i g s . 9 3 - 1 0 5 . N FER -N elson, W in dsor, Berks.
A lderson, J. C. (1 9 8 8 a ). «In n o v atio n s in L an gu age T estin g: Can the M icro com p u ter
H e lp ?» N ú m e ro especial d e Language Testing Update.
A lderson, J. C. (1 9 8 8 b ). « N e w P rocedures fo r V alidating Proficiency Tests o f ESP?
T h eory an d P ractice.» Language Testing, 5 (2 ), p ig s . 2 2 0 —2 3 2 .
A lderson, J . C. ( 1 9 9 0 ). «T e stin g R ead in g C o m p reh en sio n Skills (Part T w o ): G ettin g
Students to Talk ab o u t T akin g a R e ad in g T est (A Pilot S tu d y ).» Reading in a Foreign
Language, 7 (1 ), p ig s . 4 6 5 - 5 0 2 .
A lderson, J. C. (1 9 9 1 ). «D is-sp o rtin g L ife .» En A ld erson J. C. y B. N orth, (e d s.),
Language Testing in the 1990s. M acm illan, Londres.
A lderson, J. C. (1 9 9 3 ). «Ju d g e m e n ts in L an gu age T e stin g .» En D. D ou glas, y C.
Chapelle, A New Decade of Language Testing. TESOL, A lexandria, V irginia.
A lderson, J. C. y G. Buck (1 9 9 3 ). «Stan d ard s in T estin g: A Survey o f the Practice o f
U K E xam in ation B o ard s in EFL T e stin g .» Language Testing, 10 (2 ), p ig s . 1—26.
A lderson, J . C. y C. M . C lapham (1 9 9 2 a ). «A p p lie d Linguistics an d L an gu age Testin g:
a Case Study o f the ELTS T e st.» Applied Linguistics, 13, p ig s . 149—167.
A lderson, J. C. an d C. M. C lapham (1 9 9 2 b ). Examining the ESTS Test: An Account of the First
Stage of the ELTS Revision Project. IELTS Research R eport 2. T h e British Council,
U n iversity o f C am b rid ge Local E xam in ation Syndicate an d International
D evelopm en t P rogram o f A ustralian U n iversities an d C olleges, C am bridge.
A lderson, J. C , K. K fah n ke y C. Stan sfield (e d s.), (1 9 8 7 ). Reviews of English Language
Proficiency Tests. TESOL, W ash in gton , DC.
A lderson, J. C. y Y. L ukm an i ( 1 9 8 9 ). «C o g n itio n an d Levels o f C o m p reh en sio n as
E m b o d ied in Test Q u e stio n s.» Reading in a Foreign Language, 5 (2 ), p ig s . 2 5 3 —2 7 0 .
A lderson, J . C. y B. N orth (e d s.), ( 1 9 9 1 ). Language Testing in the 1990s. M acm illan,
Londres.
A lderson, J. C. y D. W all ( 1 9 9 3 ). «D o e s W ashback E x ist?» Applied Linguistics, 14, p ágs.
1 1 5 -129.
A lderson, J. C , D. W all y C. M. C lapham ( 1 9 8 6 ). An Evaluation of the National Certificate in
English. Centre for R esearch in L an gu age E ducation, U n iversid ad d e Lancaster.
284
Bibliografía
Alderson, J. C. y S. W. Windeatt (1991). «Computers and Innovation in Language

Testing.» En J. C. Alderson y B. North (eds.). Language Testing in the 1990s: The
Communicative Legacy. Macmillan, Nueva York.
Allan, A. (1992). «Development and Validation of a Scale to Measure Test-Wiseness
in EFL/ESL Reading Test Takers.» Language Testing, 9, pigs. 101-123.
American Education Research Association, American Psychological Association, y
National Council on Measurement in Education (1985). Standard for Educational and
Psychological Testing. American Psychological Association, Inc., Washington, DC.
Angoff, W. y A. J. Sharon (1971). «A comparison of scores earned on the Test of
English as a Foreign Language by native American college students and foreign
applicants.» TESOL Quarterly, 5, pig. 129.
Association of Language Testers in Europe (1994). The ALTE Code of Practice. ALTE,
Cambridge.
Press, Oxford.
Bachman, L. F., A. Kunnan, S. Vanniariajan y B. Lynch (1988). «Task and Ability
Analysis as a Basis for Examining Content and Construct Comparability in Two EFL
Proficiency Test Batteries.» Language Testing, 5, pigs. 128—160.
Bachman, L. F. y A. S. Palmer (1981). «A Multitrait-Multimethod Investigation into
the Construct Validity of Six Tests of Listening and Reading.» En A. S. Palmer, P. J.
M. Groot y G. A. Trosper (eds.), The Construct Volidation of Tests of Communicative
Competence. TESOL, Washington, DC.
Bachman, L. F. y A. S. Palmer (1982). «The Construct Validation of Some Components
of Communicative Proficiency.» TESOL Quarterly, 16 (4), pigs. 449—465.
Buck, G. (1989). «Written Tests of Pronunciation: Do They Work?» English Language
Teaching Journal, 41, pigs. 50—56.
Buck, G. (1991). Expert estimates of test item characteristics. Contribución presentada en el
Language Testing Research Colloquium, Princeton, NJ.
Campbell, D. T. y D. W. Fiske (1959). «Convergent and Discriminant Validation by
the Multitrait-Multimethod Matrix.» Psychological Bulletin, 56, pigs. 81-105.
Carroll, B. J. (1980). Testing Communicative Performance. Pergamon, Londres.
Carroll, B. J. (1985). «Second Language Performance Testing of University and
Professional Contexts.» En P. C. Hauptman, R. LeBlanc y M. B. Wesche (eds.),
Second Language Performance Testing. University of Ottawa Press, Ottawa.
Carroll, B. J. y R. West (1989). ESU Framework: Performance Scales for English Language
Examinations. Longman, Londres.
Clapham, C. M. (1992). The Effect of Academic Discipline on Reading Test Performance.
Contribución presentada en el Language Testing Research Colloquium,
Princeton, NJ.
Clapham, C. M. y J. C. Alderson (en prensa). Constructing and Trialling the IELTS Test. IELTS
Research Report 3. The British Council, University of Cambridge Local
Examinations Syndicate and International Development Program of Australian
Universities and Colleges, Cambridge.
Cohen, A. D. (1984). «On Taking Tests: What the Students Report.» Language Testing, 1
(1), pigs. 70—81.
Cohen, A. (1994). Assessing Language Ability in the Classroom. 21 edición, Newbury
House/Heinle and Heinle, Rowley, Mass.
285
Exámenes de idiom as. Elaboración y evaluación
Criper, C. y A. Davies (1988). ELTS Validation Project Report, ELTS Research Report 1 (I).
The British Council y University of Cambridge Local Examination Syndicate,
Londres y Cambridge.
Crocker, L. y J. Algina (1986). Introduction to Classical and Modem Test Theory. Holt Rinehart
Winston, Chicago.
Davidson, F. y B. Lynch (1993). «Criterion-Referenced Language Test Development.
A Prolegomenon.» En A. Huhta, K. Sajavaara y S. Takala (eds.), Language Testing: New
Openings. Institute for Educational Research, Universidad de Jyvaskyla, Finlandia.
Davies, A. (1991). The Native Speaker in Applied Linguistics. Edinburgh University Press,
Edimburgo.
Diamond, E. E. y J. Fremer (1989). «The Joint Committee on Testing Practices and
the Code o f Fair Testing Practices in Education.» Educational Measurement: Issues and
Practice. Número de primavera.
Douglas, D. (ed.), (1990). English Language Testing in U. S. Colleges and Universities. NAFSA,
Washington, DC.
Ebel, R. L. y D. A. Frisbie (1991). Essentials of Educational Measurement. 51 edición,
Faerch, C. y G. Kasper (1987). Introspection in Second Language Research. Multilingual
Matters, Clevedon.
Gronlund, N. E. (1985). Measurement and Evaluation in Teaching. Macmillan, Nueva York.
Grotjahn, R. (1986). «Test validation and cognitive psychology: some
methodological considerations.» Language Testing, 3 (2), pigs. 159—185.
McGraw-Hill, Tokio.
Hamilton, J., M. Lopes, T. McNamara y E. Sheridan (1993). «Rating Scales and
Native Speaker Performance on a Communicatively Oriented EAP Test.» Melbourne
Papers in Language Testing, 2, pigs. 1—24.
Hudson, T. y B. Lynch. (1984). «A Criterion Referenced Measurement Approach to
ESL Achievement Testing.» Language Testing, 1, pigs. 171—202.
Hughes, A. (1988). «Achievement and Proficiency: The Missing lin k .» En A. Hughes
(ed.), Testing for University Study, ELT Documents 127. Modern English Publications,
Londres.
Cambridge.
Hutchinson, T. y A. Waters (1987). English for Specific Purposes: A Learner Centred Approach.
Cambridge University Press, Cambridge.
(eds.), Sociolinguistics, págs. 269-293. Penguin, Harmondsworth.
Joint Committee on Standards for Educational Evaluation (1981). Standards for
Evaluations of Educational Programs, Projects, and Materials. McGraw-Hill, Nueva York.
286
Bibliografía
Joint Committee on Testing Practices (1988). Code of Fair Testing Practices in Education.
American Psychological Association, Washington, DC.
Kerlinger, F. N. (1973). Foundations of Behavioral Research. Holt, Rinehart and Winston,
Nueva York.
Klein-Braley, C. (1981). Empirical Investigation of Cloze Test. Tesis doctoral, Universidad de
Duisburg.
Lado, R. (1961). Language Testing. McGraw-Hill, Nueva York.
Linacre, J. M. y B. D. Wright (1992). FACETS: Many-Facet Rasch Measurement. MESA Press,
Chicago.
Lynch, B., F. Davidson y G. Henning (1988). «Person dimensionality in language
test validation.» Language Testing, S (2), pigs. 206—219.
Magnusson, D. (1966). Test Theory. Addison Wesley, Reading, Mass.
Mathews, J. C. (1985). Examinations: A Commentary. George Allen and Unwin, Londres.
Morrow, K. (1979). «Communicative Language Testing: Revolution or Evolution?»
En C. J. Brumfit y K. Johnson (eds.), The Communicative Approach to Language Teaching.
Oxford University Press, Oxford.
Morrow, K. (1986). «The Evaluation of Tests of Communicative Performance.» En
M. Portal (ed.), Innovations in Language Testing. NEER-Nelson, Windsor, Berks.
Munby, J. (1978). Communicative Syllabus Design. Cambridge University Press, Cambridge.
Nevo, D. y E. Shohamy (1986). «Evaluation Standards for the Assessment of
Alternative Testing Methods: an Application.» Studies in Educational Evaluation, 12,
págs. 149-158.
Peirce, B. N. (1992). «Demystifying the TOEFL Reading Test.» TESOL Quarterly, 26,
pigs. 665—689.
Pollitt, A. (1990). Standards. Notes prepared for a meeting to discus language testing standards.
University o f Cambridge Local Examinations Syndicate, Cambridge.
Popham, W. J. (1990). Modem Educational Measurement: A Practitioner’s Perspective. 21 edición,
Robinson, P. (1980). ESP (English for Specific Purposes). Pergamon, Oxford.
Schools Examination and Assessment Council (1993). Mandatory Code of Practice for the
GCSE. SEAC, Londres.
Stevenson, D. K. (1985). «Authenticity, Validity and a Tea Party.» Language Testing, 2
(1), pigs. 41-47.
Swain, M. (1993). «Second Language Testing and Second Language Acquisition: Is
There a Conflict with Traditional Psychometrics?» Language Testing, 10 (2), pigs.
193-207.
Swales, J. (1985). Episodes in ESP. Pergamon, Oxford.
Thorndike, R. L. y E. P. Hagen (1986). Measurement and Evaluation in Psychology and
Education. Macmillan, Nueva York.
Valette, R. M. (1977). Modern Language Testing. 21 edición, Harcourt Brace Jovanovich,
Nueva York.
pigs. 41—69.
Wall, D., C. M. Clapham y J. C. Alderson (1994). «Evaluating a Placement Test.»
Language Testing, 11 (3), pigs. 321—343.
287
Weir, C. J. (1983). «Identifying the Language Problems o f Overseas Students in

Tertiary Education in the United Kingdom.» Tesis doctoral. Universidad de
Londres.
Weir, C. J. (1988). Communicative Language Testing. Universidad de Exeter.
Weir, C. J. (1990). Communicative Language Testing. Prentice-Hall Regent, Englewood
Cliffs, NJ.
Wood, R. (1991). Assessment and Testing: A survey of Research. Cambridge University Press,
Cambridge.
Wright, B. D. y G. N. Masters (1982). Rating Scale Analysis: Rasch Measurement. Mesa Press,
Chicago.
Wright, B. D. y M. H. Stone (1979). Best Test Design: Rasch Measurement. Mesa Press,
Chicago.
288
Indice
Los núm eros en c u r s iv a remiten a las definiciones dadas en el Glosario.
"a simple vista", 130 Cámara de Comercio e Industria de

ABEEB, 11 Londres, 30, 35, 36, 99, 123,
actividades de vacío de información, 64 138-139, 142, 160, 161, 183-185
administradores, formación de, Campbell, D., 179, 214
115-117 Carroll, B„ 11, 167
Alderson, J. C , 10, 11, 27, 48, 57, 74, City and Guilds o f London Institute (C &
97, 169, 170, 171, 178, 212, 245, G), 70, 100
217-218 Clapham, C„ 27, 169, 176
Algina, J„ 77, 78, 85. 89, 92, 97, 131 cloze, 47, 57—58
Alian, A., 47 coeficiente de dificultad, 81—82, 272
American Educational Research Cohén, A., 9, 171
Association (AERA), 227—231 comentarios posteriores, 193
American Psychological Association, comités de redacción, 64-66
166 completar huecos, pruebas de, 56—57
análisis de ítems, 81-87 comprensión oral, 116
coeficiente de dificultad (CD), Consejo de Europa, 32
8 1 - 82, 272 constructos, 21
índice de discriminación (ID), corrección,
8 2 - 87, 276 centralizada, 128
análisis de necesidades, 17, 26, 38 "a simple vista” , 130
análisis de varianza, 271 doble corrección, 131
análisis factorial, 180, 271 ejercicios de fiabilidad, 129—131
análisis multimétodo-multirrasgo, 179 muestreo, 128-129
Anastasi, A., 86, 89, 96 prueba t, 131, 277
Angoff, W „ 97 puntuación a ciegas, 129
"asimetría negativa” , 93, 271 segundos correctores, 131
"asimetría positiva” , 93, 271 clave, 106-107, 272
Associated Examining Board (AEB), 23, descriptores, 107, 273
38, 99, 101, 121-122, 138-141, ejercicios,
184 consensuados, 111
Association of Recognised English problemáticos, 111
Language Schools (ARELS), 32, 34 en el domicilio, 132
en los centros de administración de
Bachman, L„ 18, 21, 23, 166, 167, 169, pruebas, 133
180, 214, 216 escala analítica, 108
bancos de ítems, 92, 271 escala de valoración, 107, 274
BIGSTEPS, 91. 269 redacción, 110—111
BHOG, 92, 270 escala holística o global, 107-108,
Buck, G.. 11, 48, 74, 181 274
289
Exámenes de id io m as. E laboración y evaluación
escala por impresión general, 108, ejercicios consensuados, 111

274 ejercicios, 44
escalonamiento, 274 English for Academic Purposes, 27
objetiva, 106 English for Business Purposes, 35
plantillas de corrección, 106—107, English for Specific Purposes, 27
277 English Speaking Board, 31, 34. 35,
sesión de unificación de criterios, 112 121
subjetiva, 107 English Speaking Union, 1 1 ,3 2
supervisión, 138—142 ensayos previos, 74—104, 273-274
correlación, 78-81 análisis de las pruebas, 78—96
coeficiente de, 272 fase general de ensayo, 76
coeficiente de Pearson, 81, 272 pruebas piloto “menos formales” , 75
correlación biserial, 85 razones para, 74
correlación biserial puntual, 85 uso de versiones paralelas y
correlación por orden de escala, 85, equivalentes, 96
272 utilización de hablantes nativos, 97
correlaciones internas, 177—179 entrevistas orales, 63
Criper, C„ 27, 176 escala analítica, 108, 109, 274
criterios, 18, 225, 247 escala de logit, 90
condicional, 230 escala de valoración, 107, 110-111, 274
criterios primarios, 229 escala holística o global, 107—108, 274
criterios secundarios, 229 escala por impresión general, 108, 274
definido, 225 escalonamiento, 274
determinación de, 111, 273 especificaciones,
principios, 226 para los responsables de la
Crocker. L„ 77, 78, 85, 89, 92, 96, 131 elaboración de la prueba, 16—18
cuestionario, 253—258 para los responsables de la
curtosis, 272 validación de la prueba, 2 1 -2 4
para los usuarios de la prueba,
Davidson, F., 18, 213 24-25
Davies, A., 27. 97. 176 usuarios, 24—25
descripción de los contenidos, 14, 272 validación, 23-24
descriptores, 107, 273 especificaciones de una prueba, 14,
desviación típica, 95, 261, 273 16-28, 275
determinación de las puntuaciones para criterios, 18
aprobar, 151—155 destrezas lingüísticas, 18
Diamond, E., 231 ejercicios, 18
dictado, 59 elementos lingüísticos, 18
diferencia significativa, 273 estudiantes, 17
dispersión, 95 instrucciones. 18
doble corrección, 13 1 métodos, 18
Douglas, D., 11 para los usuarios, 24—25
propósito del examen, 16
Ebel, R., 146, 147, 154, 177 secciones o partes, 17
Educational Testing Service (ETS), 21, situación en la lengua meta, 18
219, 236 tareas, 18
efecto de rebote, 48 taxonomía, 18
efecto del método, 47 tipos de texto, 18
290
índice
estadística descriptiva, 92 Hudson, T., 78

“ asimetría negativa” , 93, 271 Hughes, A., 9, 28, 49
"asimetría positiva” , 93, 271 Hutchinson, T., 27
desviación típica (DT), 95, 273 Hymes, D„ 27, 216
diferencia significativa, 273
dispersión, 95 índice de discriminación (ID), 82-87,
media, 93, 276 259, 276
mediana, 94, 276 informes posteriores a la prueba,
moda, 93, 277 190-208
rango, 95, 279 análisis de los ejercicios de los
examinador, 105, 275 candidatos, 194
formación de. 110-115 para el resto del público, 198—199
expresión oral, 115-116 para la propia institución,
1 9 1 - 195
Faerch, C , 171 para los profesores, 195—198
fase general de ensayo, 76—78 resultado de las observaciones,
fiabilidad, 12, 88, 127, 180-182, 275 1 9 2 - 193
alfa de Cronbach, 101 resultados de los comentarios
consistencia interna, 88 posteriores, 193
de formas paralelas, 88, 275 inglés para fines académicos, 27
ejercicios, 129-131 inglés para fines específicos, 27
entre correctores, 128, 275 inglés para los negocios, 35
fiabilidad interna, 128, 134, Ingram, E., 152, 167
276 Instituto de Exámenes de Pitman. 31-32,
fiabilidad test-retest, 88, 275 200
Kuder Richardson 20 (KR20), interlocutor, 105
88-89, 103, 276 International English Language Testing
Kuder Richardson 21 (KR21), System (IELTS), 27
88-89, 103, 267-268, 276 ITEMAN (Microcat), 85. 101, 269
m étodo de las dos mitades, 88, ítems de corrección objetiva, 54, 277
275 ítems dicotómicos, 54
y validez, 180—182
Fiske, D„ 179, 214, Joint Committee on Testing Practices,
fórmula E l-3, 85, 259 231-234
Fremer, ]., 231 Joint Matriculation Board, 30, 36, 149,
Frisbie, D., 146, 154, 177 161
Fruchter, B., 81, 89, 131
Kasper, G, 171
Gronlund, N., 177 Kerlinger, F., 168, 179
Grotjahn, R., 171 Klein-Braley, C , 57
Guilford, J., 81, 89, 131 Krahnke, K., 10
Kuder Richardson 20 & 21 (KR20/21),
hablantes nativos, 97 88-89, 103, 276
Hagen. E., 166 Kunnan, A., 168
Hambleton, ]., 92
Hamilton, 97 Lado, R., 48
Heaton, B„ 9, 49, 52, 255 Lancaster Language Testing Research
Henning, G„ 76, 92, 165, 168, 213 Group, 11, 74
291
Linacre, J., 214 programas de ordenador

London Chamber o f Commerce and BIGSTEPS, 91. 269
Industry, 30, 35, 36, 99, 123, B1LOG, 92. 270
138-139, 142, 160, 161, ITEMAN (Microcat), 85. 101, 269
183-185 QUEST, 91, 270
Lopes, M., 97 SAS, 85, 131, 269
Lord, F„ 92 SPSS, 85, 131, 269
Lukmani, 169 pruebas
Lynch, B„ 18, 78, 168, 213 análisis de necesidades, 17, 26, 38
comentarios de los usuarios de la
Magnusson, D., 97 prueba, 212
Masters, G., 92 de comprensión oral, 116-117
Mathews, J., 106 de expresión oral, 115
McNamara, T., 97 de repaso, 213-215
media, 93, 260, 276 desarrollo y mejora, 209—224
mediana, 94, 260, 276 estado de la cuestión en EFL,
tendencia central, 94 243-246
moda, 93, 260, 277 exámenes versus ejercicios, 44
modelo de dos parámetros (Rasch), 91 redactar ítems, 43
modelo de tres parámetros (Rasch), 91 respuesta múltiple, 48, 50-53
modelo de un parámetro (Rasch), 91 supervisión, 209—213
Morrow, K., 167 textos apropiados, 46
muestreo, 131 pruebas, tipos de, 16—17
muestra truncada, 175-176 pruebas de aprovechamiento, 17,
Munby, J., 23, 26 277
pruebas de corrección, 56
National Curriculum (UK), 240 pruebas de corrección objetiva,
Nevo, D„ 162, 237-239 49 -61, 106
niveles de dificultad, 31—32 pruebas de corrección subjetiva,
61-64, 87, 107, 278
Oiler, J., 9, 24, 48, 58 pruebas de diagnóstico, 278
ordenadores, usos de los, 215 pruebas de dominio, 17, 278
Oxford, University of, Delegacy o f Local pruebas de nivel, 16, 277
Examinations (OUDLES), 37, pruebas de progreso, 17, 278
2 0 0-204 pruebas equivalentes, 96, 278
Oxford-ARELS, 32, 35. 123, 141, pruebas para fines específicos, 17
158 pruebas paralelas, 96-97
pruebas piloto, 75, 278 .
Palmer, A., 180, 214 pruebas tipo C, 47, 58
Pearson, correlación de, 81, 272 pruebas-t, 131, 277
Peirce, B., 50 puntuación/porcentaje de aprobados,
plantillas de corrección, 106, 277 151-155, 159-161
Pollitt, A., 225
ponderación de items, 146—147, 158, QUEST, 91, 270
277
Popham, W „ 155 rango, 92, 261, 279
preguntas de respuesta breve, 60 redacción de ítems, 43
Preliminary English Test (PET), 34 actividades de relacionar, 54
292
índice
actividades de vacío de Schools Examination and Assessment

información, 64 Council (SEAC), 11, 240
cloze, 57 segunda corrección, 129
completar huecos, 56 sesión de unificación de criterios,
dictado, 59 112-113
entrevistas orales, 63 Sharon, A.. 97
ítems dicotómicos, 54 Sheridan, E., 97
preguntas de respuesta breve, 60 Shohamy, E., 162, 237—239
problemas con algunos tipos (de SPSS, 85, 131, 269
pruebas), 49 Stansfield, C , 10
pruebas de corrección, 56 Stevenson, D., 167
pruebas objetivas, 106, 277 Stone, M., 92
pruebas subjetivas, 107, 278 supervisión, 138—142, 209—213
pruebas/tests tipo C, 58 Swales, J .p 27
redacciones y trabajos, 61 Swaminathan, H., 92
respuesta múltiple, 50
resúmenes, 62—63 tareas de ordenamiento, 55
tareas de ordenamiento, 55 tendencia central, 94
tipos, 47 teoría de la generalizabilidad, 131, 279
tipos de pruebas objetivas, 54 teoría de respuesta al ítem (TRI), 90—92,
tipos de pruebas subjetivas, 61 279
trabajos, 61 BIGSTEPS, 91, 269
transferencia de información, 54 BILOG, 92, 270
redacciones y trabajos, 61-62 curva característica del ítem, 90,
referencia a un criterio, 77, 153, 279 272
referencia a una norma, 77, 152, 279 escala de logit, 90
relacionar, ítems de, 54 modelo de dos parámetros, 91
respuesta múltiple, 48, 50 modelo de tres parámetros, 91
resultados, 145 modelo de un parámetro, 91
combinar, 150 QUEST, 91, 270
corrección, 145 Thorndike, R., 166
determinación para puntuaciones, transferencia de información, 54
151-155, 159-160, 161 transformación de la nota, 147-148,
informe/informar, 149, 159—160, 279
276 Trinity College, 30—34, 160
suma final, 148
transformación, 147—148, 279 University o f Cambridge Local
utilización de puntuaciones Examinations Syndicate (UCLES), 11,
parciales para tomar decisiones, 21, 28, 32, 33, 37-39, 66-68, 98,
131 100-102, 122-123, 138, 141,
resúmenes, 62—63 148—49, 156-158, 183, 184, 219,
Robinson, P., 27 222
Rogers, H., 92
Royal Society o f Arts (RSA), 23 validación convergente-divergente,
179-180
SAS, 85, 131, 269 validez, 12, 165, 180-182, 279
Schools Curriculum and Assessment análisis multimétodo-multirrasgo,
Authority (SCAA), 240 179
293
comparación con la teoría, 177

comparación con los datos de los
alumnos, 179
correlaciones internas, 177—179
criterio, 166
y fiabilidad, 1 2 ,1 8 0 —182
validez, tipos de, 165—166
validez aparente, 167, 280
validez concurrente, 172—174, 280
validez de constructo, 21,
177-179, 280
validez de contenido, 168—170,
281
validez de criterio, 166
validez de respuesta, 171, 281
validez empírica, 166, 281
validez externa, 166, 172—177,
2 81
validez interna, 166—172, 281
294
validez predictiva, 172, 175—177,
281
validez racional, 166, 281
Vallette, R., 49
Vanniariajan, S., 168
varianza, 262
video,
para la formación de los
examinadores, 123
usados en las pruebas, 215
Wall, D „ 48, 176, 212

Waters, A., 27
Waystage, nivel (de dificultad), 31
Weir, C , 9, 38, 49, 99, 101, 184
West, R., 11
Windeatt, S., 215
Wood, R., 179, 182, 186
Wright, B., 92, 214
>
Cl .
X
- i
3
Exámenes de idiomas Q
&
j. C harles A ld e rso n /C a ro lin e C la p h a m /D ia n n e W all
à
T radu cción de. N e u s F i g u e r a s or
D ire cto r d e ¡a ..e le c c ió n : A lv a r o G a rc ía S a n t a C e c ilia
Esta obra describe de forma clara y concisa los principios básicos de la

elaboración y evaluación de exámenes y pruebas de idiomas. Cada capítulo trata
un aspecto del proceso de desarrollo de los exámenes y aporta definiciones
sencillas de los conceptos clave en evaluación, así como las indicaciones
pertinentes para la aplicación de las técnicas y los procedimientos de análisis
que son básicos en este campo.
Aspectos como la redacción de los ítems, los criterios de evaluación, la valide? E

y fiabilidad de las pruebas, las escalas de valoración y los informes de n
resultados, entre otros, se presentan al lector convenientemente ilustrados con 3
te
ejemplos y referencias tomadas de la práctica profesional. Cada capítulo incluye i*
una bibliografía específica del asunto que trata, una serie de pautas para el te
a.
debate de los aspectos más importantes y un breve sumario de las ideas clave.
o
Cada capítulo presenta también un análisis comparado de la práctica de 3
O)
distintos tribunales y centros examinadores, lo que permite contrastar u
los principios con la práctica de la elaboración y evaluación de exámenes
de idiomas.
El glosario de términos incluido al final del libro facilita la consulta de los

conceptos principales que se desarrollan en los distintos capítulos.
Colección Cambridge de didáctica de lenguas

Con la presente colección, Cambridge University Press pretende poner al alcaffce
del lector en lengua española algunos de sus títulos más importantes en el campo
de la didáctica de lenguas.
Ilustración de Albert Rocarols
C a m b r id g e
U N IV I K S m l ’ Kf- -s
IS B N 84-8323-030-5
ft\ ___
**

Examenes de Idiomas 67 IMPER PDF

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Examenes de Idiomas 67 IMPER PDF

Diunggah oleh

Hak Cipta:

Format Tersedia

C am bridge

Traducción de Neus Figueras

CAMBRIDGE UNIVERSITY PRESS

Título original: Language Test Construction

Edición española como Exámenes de idiomas,

Impreso en España por C +I, S.L.

Capítulo 1 Génesis y prólogo ...................................................... 7

Capítulo 2 Especificaciones de examen ..................................14

Capítulo 3 La redacción de ítems

Capítulo 4 Ensayos previos y análisis .....................................74

Capítulo 5 La formación de examinadores

Capítulo 6 La supervisión de la fiabilidad

Capítulo 7 Informe de resultados y determinación

Capítulo 8 La validación ...........................................................165

Capítulo 9 Los informes posteriores a laprueba ................ 190

Capituló lo Desarrollo y mejora de los exámenes ............. 209

Capítulo 11 Criterios de la evaluación de lenguas:

Glosario ....... 271

Abreviaturas y acrónimos .......................................................... 282

índice ............................................................................................... 289

Este libro va dirigido a profesores de idiom as que tengan la responsabilidad

En este libro describim os el proceso de elaboración de pruebas, desde el

tJna de las cosas que no pretendemos en este libro es la descripción detallada

Este análisis se actualizó para la publicación de un capítulo en Douglas, 1990, sobre

1. ¿Tiene criterios concretos a los que se ciñe?

Presentamos los resultados de esta primera fase de nuestra investigación en

La investigación a la que se hace referencia en este libro es el resultado de

2.1. ¿Qué son las especificaciones de examen?

2.2. ¿Quién necesita especificaciones de examen?

2.3. ¿Qué aspecto deben tener las especificaciones de examen?

2.3.1. Especificaciones para los responsables

1. ¿Cuál es el propósito del examen? Los exámenes tienden a encuadrarse en una

m ico para ver si necesitan clases de lengua o de alguna destreza usada

4. ¿Qué situación en la lengua meta se ha previsto para la prueba? ¿Se simulará de

Inevitablemente, algunas de las preguntas descritas cubren espacios pareci­

EXAMEN DE FRANCÉS PARA ESTUDIOS DE POSTGRADO

Propósito general de la prueba

Detalle de la serie de pruebas

- Comprensión de lectura, 60 minutos.

Se facilitan los resultados de cada prueba por separado. Hay un listado

Prueba de comprensión de lectura

Nivel de la prueba. El nivel de comprensión de lectura exigido debería

a) lectura general o globalizadora (skimming);

Procedencia de los textos: libros de referencia, trabajos, reseñas, artí­

identificar los titulares apropiados,

Los responsables de la elaboración pueden utilizar otros tipos de ítems,

Instrucciones. Hay una introducción estándar a la prueba de compren­

2.3.2. Especificaciones para los responsables

Esquemas conceptuales relativos a la habilidad

A. HABILIDAD LINGÜÍSTICA COMUNICATIVA

1. COM PETENCIA ORGANIZATIVA

B. ASPECTOS DEL MÉTODO UTILIZADO EN LA PRUEBA

1. ASPECTOS DEL ENTORNO DE LA PRUEBA

2. ASPECTOS DE LAS INSTRUCCIONES GENERALES

3. ASPECTOS DEL CO N TEN IDO DE LA PRUEBA UNPUT)

tación (en directo, pre-grabado, ambos), lengua de presentación

4. ASPECTOS DE LA RESPUESTA PREVISTA

2.3.3. Especificaciones para usuarios de la prueba

2.4. ¿Cómo pueden elaborarse las especificaciones de examen?

Variedad: por ejemplo: inglés británico o americano,

El desarrollo de una prueba de aprovechamiento es, en teoría, tarea más fácil,

2.5. Estudio sobre los tribunales de exámenes de inglés

PREGUNTAS 6 A 7(d): ¿Publica su tribunal una descripción dd contenido dd examen (o exámenes)?

Inevitablemente, algunas de las preguntas descritas cubren espacios pareci

Procedencia de los textos: libros de referencia, trabajos, reseñas, artí

Instrucciones. Hay una introducción estándar a la prueba de compren

Los exámenes de la Cámara de Comercio e Industria de Londres (LCCI) tie

definir y difíciles de identificar en los futuros redactores de ítems, pero obvia

porque no comprenden qué deben hacer. Si es posible, el tipo de redacción uti

especialmente en la lengua hablada. Nuestra experiencia nos demuestra que pre

la secuencia de forma correcta. ¿Deberíamos dar a este estudiante la m isma cali

distinguirá entre estudiantes de distintos niveles, m ientras que otras versio

Or another th _can h e scientists e sti_____ when

El segundo problema es que la frase final no da suficientes pistas a los hablan

tener lugar en un estadio inicial del proceso de redacción y no debería im pli

PREGUNTA 9 : ¿D an a los redactores información complementaria o directrices? («Complementa

parte», «cuatro partes en un día de trabajo», y « a menudo 3 días para 15 com