Anda di halaman 1dari 52

ESTNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIN EDUCATIVA

1
Contenido



PREFACIO ........................................................................................................................................ 3

PRESENTACIN .............................................................................................................................. 5

INTRODUCCIN ............................................................................................................................. 9

ORIENTACIONES VALORALES ................................................................................................. 17

ESTNDARES DE CALIDAD ...................................................................................................... 21

CONCLUSIN ................................................................................................................................ 39

GLOSARIO ..................................................................................................................................... 41

REFERENCIAS BIBLIOGRFICAS .............................................................................................. 49

CENTRO NACIONAL DE EVALUACIN PARA LA EDUCACIN SUPERIOR


2
ESTNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIN EDUCATIVA

3
Prefacio


L CENTRO NACIONAL DE EVALUACIN para la Educacin Superior (CENEVAL) se consti-
tuy legalmente el 28 de abril de 1994, con el carcter de Asociacin Civil sin fines de
lucro, siendo los asociados fundadores la Asociacin Nacional de Universidades e Institucio-
nes de Educacin Superior, la Secretara de Educacin Pblica, la Universidad Nacional
Autnoma de Mxico, el Instituto Mexicano de Contadores Pblicos, el Colegio Nacional de
Psiclogos y el Colegio Nacional de Mdicos Veterinarios y Zootecnistas de Mxico; a estas
instituciones se aadieron posteriormente la Federacin de Instituciones Mexicanas Particula-
res de Educacin Superior y el Instituto Politcnico Nacional.

De acuerdo con el Art. 2 de su Estatuto, El CENEVAL tiene por objeto contribuir a mejorar la
calidad de la educacin media superior y superior mediante evaluaciones externas de los
aprendizajes logrados en cualquier etapa de los procesos educativos, de manera independiente
y adicional a la que llevan a cabo las instituciones educativas...

A seis aos de su creacin, el CENEVAL ha realizado ya un importante trabajo en la direccin a
la que apunta su misin, labor consistente en el desarrollo de decenas de instrumentos de eva-
luacin y su aplicacin -en numerosas instituciones de educacin media superior y superior,
as como en diversos sistemas educativos estatales del pas- a sustentantes cuyo nmero va de
millones a centenares.

Los procesos de desarrollo y aplicacin de esas pruebas se han hecho con cuidado, pero tam-
bin con presin de tiempo, por lo que es normal que no siempre se hayan atendido todos los
elementos metodolgicos que las mejores prcticas de las instituciones especializadas han
definido como deseables.

Si bien puede decirse que el CENEVAL se ha ganado ya un claro reconocimiento en el medio
nacional, tambin es cierto que hay todava grupos importantes que no estn convencidos de
su necesidad y ponen en tela de juicio, a veces radicalmente, su existencia.

Por ello, adems del cuidado que sus instancias internas debern tener en su quehacer diario,
resulta conveniente que el CENEVAL cuente con un componente de evaluacin externa, tanto
por razones tcnicas como por credibilidad. Las razones tcnicas se deben a la complejidad y
especializacin del trabajo psicomtrico, que hace necesaria la intervencin de especialistas
E
CENTRO NACIONAL DE EVALUACIN PARA LA EDUCACIN SUPERIOR


4
para juzgar su calidad. En cuanto a la credibilidad, un organismo concebido para la evaluacin
externa como el CENEVAL, en congruencia con su propia filosofa, no podra rechazar el some-
terse a rigurosos procesos de evaluacin, buscando que los instrumentos que son el resultado
de su trabajo se apeguen a los estndares de calidad ms exigentes en su propio campo.

Con apoyo en las situaciones anteriores, la direccin general del CENEVAL consider conve-
niente la integracin de un grupo de carcter internacional, compuesto por personas con inde-
pendencia de criterio, alto nivel profesional y experiencia en el rea de evaluacin, que apoya-
ran los esfuerzos del Centro.

El llamado Consejo Asesor Externo decidi que su primera tarea sera la de elaborar un docu-
mento que, aprovechando la experiencia internacional, resumiera las mejores prcticas en el
campo de la utilizacin de instrumentos de evaluacin educativa, como insumo clave para
posteriores trabajos de metaevaluacin de los productos del CENEVAL y para la eventual for-
mulacin de recomendaciones para elevar la calidad del quehacer del Centro.

Al apoyar la difusin pblica de este documento, el CENEVAL asume el trabajo del Consejo
Asesor Externo y su ambiciosa expectativa de que sirva no slo al propio Centro, sino a todos
los que se dedican a la elaboracin de pruebas: a los acadmicos, a las autoridades educativas
y, en general, a todas las personas que se interesan en la evaluacin, siempre en la perspectiva
del mejoramiento de la calidad de la educacin.






MTRO. ANTONIO GAGO HUGUET
DIRECTOR GENERAL DEL CENEVAL

ESTNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIN EDUCATIVA

5
Presentacin


PARTIR DE UNA REFLEXIN sobre su propia misin y concepciones bsicas, el CENEVAL
pidi a un grupo de personas relacionadas con la investigacin educativa, especfica-
mente en el campo evaluativo, que lo ayudaran a aplicar internamente la filosofa relativa al
papel de la evaluacin en cualquier proceso de bsqueda de la calidad. Este grupo, denomina-
do Consejo Asesor Externo, consider que la tarea encomendada debera comprender, en pri-
mer lugar, la definicin de los estndares de calidad que deben cuidarse al elaborar, aplicar y
corregir pruebas. Slo contando con ese tipo de estndares ser posible monitorear la medida
en que se respeten en la actividad cotidiana.

Para realizar la tarea no haba que partir de cero, ya que en el mbito internacional se han
hecho ejercicios similares basados en la experiencia acumulada por organismos especializados
a lo largo de por lo menos cien aos. Pero tampoco era una tarea simple: no podra bastar ob-
tener documentos extranjeros y hacerlos traducir, dado que la menor tradicin mexicana en
este campo, junto con las peculiaridades locales, haca indispensable un trabajo original de
adaptacin y desarrollo, adecuando muchos de los planteamientos generados en otros contex-
tos, complementndolos y matizndolos en funcin de las circunstancias propias.

Por ello esa primera tarea que el Consejo acord emprender en su primera reunin, en julio de
1999, requiri un ao de trabajo. La pluralidad del grupo -que incluye a dos personas del
CENEVAL y el resto de experiencias, formaciones y afiliaciones institucionales diversas, en
Mxico, Espaa y Estados Unidos- as como la seriedad y responsabilidad con que todos sus
integrantes asumieron el trabajo, junto con las facilidades que los modernos medios de comu-
nicacin ofrecen, hicieron posible que el ao se aprovechara intensamente con una interaccin
virtual que permiti revisar cuidadosamente hasta ocho versiones del escrito, y dos reuniones
adicionales presenciales, en febrero y julio del 2000, en las que se discuti cada punto del do-
cumento en forma exhaustiva, hasta llegar a la formulacin que se presenta ahora al pblico.

Al realizar el trabajo anterior, el Consejo Asesor Externo era plenamente consciente tanto de
la importancia del mismo, como de su novedad en Mxico e inclusive en el mundo de habla
hispana. De esta conciencia se derivan dos consecuencias:

La primera es el enfoque general que se ha dado al documento: se considera que los estn-
dares propuestos no son exclusivos de un organismo, sino que deberan aplicarse en cual-
A
CENTRO NACIONAL DE EVALUACIN PARA LA EDUCACIN SUPERIOR


6
quier institucin dedicada a la elaboracin de instrumentos de evaluacin de tipo objetivo,
diseados para ser aplicados en gran escala.

La segunda consecuencia es el carcter relativamente provisional de esta versin que, en
un plazo no muy lejano, deber ir seguida por otra que recoja la experiencia de las prime-
ras aplicaciones de los estndares, as como los elementos adicionales que la comunidad
de los interesados por la evaluacin educativa en el mbito nacional e hispanoamericano
nos aporte.

El listado de estndares de calidad propuestos, que es la parte central de esta publicacin, va
precedido de dos elementos, y seguido de otro cuyo sentido es el siguiente:

La Introduccin presenta la concepcin que tenemos los autores de este trabajo, de la apor-
tacin que se pretende hacer al conjunto de los esfuerzos de evaluacin que se desarrollan
en Mxico, al tiempo que permite a los lectores identificar las fuentes utilizadas para este
trabajo.

El apartado denominado Orientaciones Valorales constituye una sistematizacin de las
concepciones y los principios metacientficos filosficos, ticos y de poltica educativa y
social- que, en opinin de los autores, deberan sustentar cualquier esfuerzo de evaluacin
en el campo educativo. Esta sistematizacin fue de gran importancia para el trabajo, ya que
permiti dar coherencia al conjunto de los Estndares de Calidad, cuyo sentido pleno slo
puede comprenderse teniendo presentes las Orientaciones.

El listado de estndares va seguido de un Glosario que presenta definiciones de los princi-
pales trminos tcnicos empleados para favorecer la comprensin del texto.

Adems del Glosario, inicialmente se prevea un apndice en el que, con el subttulo de
Parmetros sugeridos, se pensaba sintetizar una serie de criterios tcnicos de tipo numrico
que precisaran el contenido de algunos estndares, indicando valores mnimos o mximos
que no deben sobrepasar los indicadores relativos a algunas de las dimensiones de la calidad
de una prueba, como la confiabilidad o la validez.

La dificultad del punto, sin embargo, hizo desistir de la idea de incluirlo en esta versin. Se
pens que, en el caso ms usual en nuestro contexto que es el de pruebas construidas con refe-
rencia a norma, cuyos resultados se analicen utilizando la Teora Clsica de las Pruebas, los
criterios tcnicos generalmente aceptados se encuentran sin dificultad en los manuales espe-
cializados. En cuanto a los enfoques ms recientes y complejos, que son tambin poco conoci-
dos y utilizados por ahora en Mxico e Hispanoamrica, los criterios tcnicos son menos cla-
ros, y en no pocas ocasiones no existen todava unos que se puedan considerar generalmente
aceptados. Pensamos en pruebas construidas con referencia a criterio y en pruebas de res-
puesta construida que deban analizarse utilizando la Teora de Respuesta al tem y la Teora de
la Generalizabilidad.

ESTNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIN EDUCATIVA

7
Contar con un texto que integre los criterios tcnicos relativos a los diversos aspectos y varian-
tes de la elaboracin y utilizacin de pruebas es en principio deseable, incluso y tal vez con
mayor razn, si se presentan puntos de vista contrastantes en algunos rubros. Esta faceta de la
tarea, sin embargo, result demasiado compleja para terminarla en el plazo de un ao, y deber
quedar pendiente para el futuro.

Por circunstancias histricas precisas, los acercamientos psicomtricos a la evaluacin educa-
tiva han tenido un desarrollo lento y precario en Mxico y otros pases de habla hispana, en
comparacin con Estados Unidos y el mundo anglosajn. En la actualidad no es raro escuchar
opiniones en el sentido de que los acercamientos de tipo cualitativo seran absolutamente su-
periores y que, por consiguiente, deberan sustituir a los primeros de manera tambin absoluta.

Los autores de este trabajo compartimos una idea distinta, en el sentido de que cualquier acer-
camiento a la evaluacin es parcial y necesita complementarse con otros. Por ello nos parece
clara la necesidad de que se desarrollen tanto los acercamientos psicomtricos como los alter-
nativos, y que lo hagan interactuando y complementndose, para dar lugar a sistemas integra-
les de evaluacin que, para ser realmente completos, en cualquier sistema educativo grande,
como el de un pas como Mxico, tendrn que comprender pruebas de tipo objetivo para ser
utilizadas en gran escala. Pensamos que pruebas bien hechas y aplicadas pueden ser un ele-
mento muy valioso de cualquier sistema nacional de evaluacin, y estamos conscientes de que
pruebas defectuosamente diseadas o mal manejadas pueden hacer mucho dao.

El Consejo Asesor Externo pretende contribuir a que se haga realidad lo anterior con este es-
fuerzo de formulacin de estndares de calidad. De manera tal vez muy ambiciosa, pretende-
mos que los estndares sean discutidos, enriquecidos y, finalmente, adoptados por los ms
diversos organismos especializados, dando lugar a una generalizacin de las mejores prcticas
de evaluacin en Mxico y otros pases de la regin.

Agradecemos el apoyo de la maestra Yolanda Leyva, Subdirectora de Investigacin del
CENEVAL, para la elaboracin de las sucesivas versiones de este documento.



FELIPE MARTNEZ RIZO
COORDINADOR DEL CONSEJO ASESOR EXTERNO
CENTRO NACIONAL DE EVALUACIN PARA LA EDUCACIN SUPERIOR


8


ESTNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIN EDUCATIVA

9
Introduccin


OMO PARTE DE LAS TENDENCIAS mundiales que subrayan la importancia de la calidad en
todos los mbitos, incluidos los educativos, durante la dcada de los aos 90 surgieron en
Mxico varios organismos cuyo propsito tiene que ver, de diversas maneras, con la evalua-
cin de la educacin y, con diversas aproximaciones, las instituciones de educacin superior
emprendieron esfuerzos de evaluacin y mejoramiento.

Frente al recelo, muchas veces justificado, que una evaluacin provoca, es importante explici-
tar, como punto de partida de este documento, una idea bsica: la que consiste en sealar que,
dado que la calidad de las instituciones de educacin superior (IES) es algo muy complejo, su
evaluacin no puede ser simple, sino que debe incluir diversos acercamientos. En otras pala-
bras: no basta una evaluacin aislada, sino que se requiere un sistema de evaluacin bien dise-
ado e instrumentado.

Debe aadirse de inmediato una idea complementaria: la que establece que, si bien es claro
que un acercamiento exhaustivo -que capte perfectamente la realidad- es imposible de alcan-
zar, tambin parece que, combinando inteligentemente una gama adecuada de acercamientos
metodolgicos complementarios, es factible una aproximacin que sea razonablemente com-
pleta a algo tan complejo como la calidad de una institucin o sistema educativo. Las dos ide-
as anteriores pueden expresarse de manera muy breve: evaluar no es sencillo, pero es posible.

Para precisar cmo deber ser un buen sistema de evaluacin debe partirse de una premisa
ms: la de que la evaluacin no es un fin en s misma. Su propsito central no puede ser colo-
car o seleccionar, sino proporcionar informacin a diferentes usuarios para tomar decisiones
adecuadas.

En otras palabras, la evaluacin tiene sentido en la medida en que contribuye a mejorar la ca-
lidad. No es suficiente para ello, pero s es indispensable: si no sabemos si algo est bien o
mal, en qu aspecto y medida, no podremos desarrollar estrategias de superacin.

A partir de lo anterior, se puede precisar que un sistema de evaluacin para las IES mexicanas
deber tener en cuenta, por lo menos, tres dimensiones:


C
CENTRO NACIONAL DE EVALUACIN PARA LA EDUCACIN SUPERIOR


10
Los niveles de la evaluacin: institucional, de programas, de cursos, de personas.
Los enfoques metodolgicos: analticos (cuantitativos) y sintticos (cualitativos).
Las perspectivas interna y externa.

En cuanto a la primera dimensin, debe subrayarse la relacin que hay entre los cuatro niveles
mencionados: si bien no puede negarse que hay aspectos propios del nivel institucional, parece
claro que, finalmente, la calidad de una institucin educativa ser la que tengan sus programas,
de cualquiera de las funciones que realice, de docencia, investigacin o difusin. En lo relativo
a docencia, la calidad de un programa, por su parte, ser la de los cursos que lo componen; y la
calidad de un curso depender finalmente de la del maestro que lo imparta y se definir, en
ltima instancia, en trminos del aprendizaje que alcancen los alumnos. Por ello contar con
instrumentos para evaluar los aprendizajes de los alumnos resulta indispensable para que un
sistema de evaluacin pueda pretender ser razonablemente completo.

En cuanto a la segunda dimensin, no puede ignorarse que, en las ltimas dcadas, el panora-
ma de las metodologas de evaluacin se ha enriquecido, afortunadamente, con una amplia
variedad de acercamientos: al lado de las tcnicas ms antiguas y simples, como las pruebas de
opcin mltiple, hay ahora pruebas de respuesta construida, de ejecucin y desempeo, porta-
folios, autoevaluaciones y evaluaciones por colegas, evaluaciones libres de metas, tcnicas
judiciales con abogados del diablo y defensores de oficio, y otras. Y tras la proliferacin de
polmicas destructivas, parece establecerse una tendencia integradora, que reconoce la insufi-
ciencia de cada enfoque en lo particular y la necesidad de acercamientos complementarios.

En cuanto a la ltima dimensin, la evaluacin interna es esencial; ninguna otra puede ser ms
fina y cualquier otra, si no hay componente interno, no dar resultados de mejoramiento. La
evaluacin externa resulta indispensable tambin, por varias razones: porque complementa a la
interna enriqueciendo sus resultados: la desventaja de la lejana y la falta de familiaridad es
tambin la ventaja de la distancia y la independencia; porque valida a la evaluacin interna,
que puede ser objetiva, pero tambin parcial; y porque permite una comparabilidad que la in-
terna no puede lograr.

La comparabilidad es indispensable en un sistema de educacin superior formado por centena-
res de instituciones. Sea que el sistema dependa de recursos pblicos, sea que se sostenga con
recursos privados, o cualquier combinacin de ambos, los responsables gubernamentales y los
particulares necesitan elementos objetivos para tomar las decisiones que procedan en relacin
con la educacin superior: los particulares, en especial los alumnos y sus padres, para optar
por una u otra institucin; los funcionarios pblicos, federales y estatales, para orientar las
polticas de apoyo, lo cual no debe entenderse sin ms en sentido restrictivo o fiscalizador,
pero s en sentido de apoyo no incondicional o a ciegas, sino con base en evidencias del buen
uso de los recursos asignados.

As pues, estudiar la calidad de una IES implica esfuerzos varios: en lo relativo a evaluaciones
institucionales y de programas, los acercamientos ms pertinentes parecen ser autoevaluacio-
nes complementadas por evaluaciones externas por pares y agencias acreditadoras, que utili-
cen inteligentemente indicadores de desempeo. Para la evaluacin de personas y, en especial
ESTNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIN EDUCATIVA

11
para la de alumnos, aspirantes y egresados, parece lgica la utilizacin de diversos tipos de
pruebas, al lado de otros acercamientos como los de tipo portafolios; en gran escala la utiliza-
cin de instrumentos de tipo objetivo resulta indispensable, no en forma aislada, sino integrada
con los dems mecanismos.

Las evaluaciones del aprendizaje que realizan los profesores son imprescindibles. Sin embar-
go, una IES no debera depender exclusivamente de las evaluaciones hechas por sus propios
docentes para fundamentar juicios sobre el nivel alcanzado por los alumnos de un programa.
Los docentes mismos, adems de no ser especialistas en evaluacin, son a la vez jueces y par-
tes interesadas, por lo que sus apreciaciones deberan integrarse con otras que den ms garant-
as de imparcialidad. Evaluacin interna y externa deben complementarse: la primera ser
siempre ms contextualizada y, frecuentemente, ms fina; la segunda validar a la primera y
permitir comparaciones interinstitucionales, o con respecto a otras regiones o pases, que la
primera sola no permite.

Debe aadirse de inmediato que, para que una evaluacin como la que permite hacer las prue-
bas estandarizadas sea til, una condicin sine qua non es, lgicamente, que las pruebas sean,
a su vez, de muy buena calidad. Que sean elaboradas, aplicadas y corregidas, y sus resultados
analizados y utilizados, aplicando los estndares de calidad ms exigentes. Si no se procede de
esta manera las pruebas no aportarn elementos valiosos y, en el peor de los casos, podran dar
pie a decisiones inadecuadas o injustas basadas en sus resultados.

Por lo anterior, y en el marco de la tarea que se le ha encomendado, el Consejo Asesor Externo
ha elaborado este documento que comprende un conjunto de estndares de calidad, que se
pretende sean aplicables a cualquier prueba y a cualquier organismo que tenga entre sus fun-
ciones la de elaborar instrumentos objetivos de evaluacin, con base en las mejores prcticas
de organismos internacionalmente reconocidos en el campo, a partir de la literatura a que se
hace referencia enseguida.

Por la naturaleza de los instrumentos desarrollados por los organismos que pretenden valorar
el grado en que las personas a quienes se aplican dominan ciertos conocimientos o habilida-
des, los aspectos psicomtricos deben tener un peso importante en una metaevaluacin, pero
sta debe comprender otros elementos para ser completa.

Por ello este documento se basa fundamentalmente en dos obras, una que contiene estndares
para pruebas psicomtricas y la segunda estndares para la evaluacin de programas. La pri-
mera es Standards for educational and psychological testing, publicada por tres asociaciones
especializadas: la American Educational Research Association (AERA); la American Psycho-
logical Association (APA); y el National Council on Measurement in Education (NCME). La
segunda es The Program Evaluation Standards. How to Assess Evaluations of Educational
Programs (publicada por The Joint Committee on Standards for Educational Evaluation).

De la primera se utiliz inicialmente la edicin 1997 de la versin de 1985. En cuanto a la
segunda, se utiliz la edicin de 1994 y tambin se tuvo a la vista la primera edicin, de 1981:
Standards for Evaluation of Educational Programs, Projects and Materials.

CENTRO NACIONAL DE EVALUACIN PARA LA EDUCACIN SUPERIOR


12

Parece conveniente reiterar en este punto la idea expresada en la presentacin, en el sentido de
que no debe pensarse, sin embargo, que el trabajo es slo una adaptacin o, menos an, una
simple traduccin de materiales internacionales. Los textos citados son, ciertamente, un punto
de partida y de referencia, pero el trabajo realizado implica adecuaciones, matices, desarrollos
y complementos, a partir de la realidad nacional.

Cuando ya estaba listo este documento, a principios de 2000, comenz a circular la versin
ms reciente de los estndares americanos, con la aparicin de Standards for educational and
psychological testing (AERA-APA-NCME, 1999). A diferencia de la versin de 1985, que esta-
bleca estndares para pruebas convencionales, de opcin mltiple, en presentacin de papel y
lpiz, elaboradas y analizadas con base en la teora clsica de las pruebas, con escasa atencin
a las novedades tericas y tcnicas que a mediados de los aos 80 ya se haban desarrollado
ampliamente, los nuevos estndares, fruto del trabajo de decenas de especialistas durante siete
aos, no son simplemente una actualizacin menor de la versin anterior, sino que constituyen
un planteamiento novedoso y mucho ms completo.

Adems de precisar aspectos incluidos desde 1985, como los relativos a los diversos conceptos
de validez, los nuevos estndares tienen en cuenta expresamente la teora de respuesta al tem
y la interpretacin de pruebas con referencia a criterio; atienden no slo a las pruebas de op-
cin mltiple sino tambin a las de respuesta construida y las de ejecucin, as como a las
aplicadas por computadora, adaptativas o no, e incluso a modalidades consideradas alternati-
vas a las pruebas, como las evaluaciones por portafolios.

Si antes no se contemplaba expresamente lo relativo a sesgo, ahora se atienden diversos ngu-
los de este tema, al que la preocupacin por los derechos de las personas y la equidad hace que
se preste tanta atencin en la actualidad. En la misma direccin est la atencin expresa a las
variantes controladas de las condiciones de aplicacin que se han desarrollado para atender a
sustentantes que presentan condiciones especiales, como discapacidades, escaso dominio o
desconocimiento de la lengua en que se construy la prueba y similares (accomodations). Se
atienden tambin otros avances tcnicos recientes de especial inters para los organismos que
aplican pruebas en gran escala y pretenden apoyar el establecimiento de polticas educativas a
nivel macro, como el muestreo matricial (matrix sampling) o el anlisis de la ganancia en apli-
caciones longitudinales (gain scores).

Con todo, y aunque en el campo de la psicometra se hayan registrado avances importantes en
aspectos como los mencionados, los estndares que se presentan se reducen bsicamente a los
relativos a pruebas convencionales de opcin mltiple. La decisin de acotar as el mbito de
cobertura de este documento se basa en las siguientes consideraciones: en el medio mexicano
y, probablemente, hispanoamericano, el uso de pruebas avanzadas es todava excepcional, en
tanto que las pruebas convencionales se utilizan en forma amplia, y seguramente lo seguirn
siendo por bastante tiempo dadas la ventaja que tienen en trminos de costo-beneficio para la
evaluacin de sistemas educativos grandes.

Limitndose a traducir un texto extranjero habra sido sencillo incluir estndares para una am-
plia gama de pruebas, incluyendo las ms avanzadas, pero esto sera de poca utilidad en nues-
ESTNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIN EDUCATIVA

13
tro medio, ya que esas pruebas son prcticamente desconocidas. Parece mucho ms importante
en el momento actual mejorar de manera significativa la calidad de las pruebas ms usuales,
para posteriormente incursionar en terrenos menos trillados.

Debe reconocerse, en efecto, que el escaso desarrollo de la tradicin psicomtrica en Hispano-
amrica hace frecuente que aun las pruebas convencionales se elaboren y manejen de manera
deficiente, con utilizaciones equivocadas y potencialmente sesgadas e injustas para determina-
dos sustentantes. Estas limitaciones constituyen un fundamento parcial a las crticas de quie-
nes se oponen a la utilizacin de pruebas.

Algunas de las crticas que se hacen a las pruebas tienen fundamento, pero no distinguen las
deficiencias inherentes a la metodologa convencional, de aquellas atribuibles a fallas de im-
plementacin, que pueden corregirse con el mismo tipo de instrumentos si se les maneja co-
rrectamente; por otra parte, los crticos suelen ignorar la existencia de desarrollos metodolgi-
cos novedosos, que permitiran superar en forma ms radical muchas de las limitaciones de los
enfoques tradicionales.

Es cierto, en efecto, que una evaluacin rica, como se requiere para apoyar un esfuerzo pro-
fundo de mejoramiento de un sistema educativo, implica deseablemente la utilizacin de los
enfoques metodolgicos ms novedosos, pero tambin lo es que las pruebas convencionales,
manejadas en forma correcta, tambin pueden ser elementos valiosos de una estrategia de me-
joramiento.

La opcin que se adopta en este documento es la de que conviene comenzar por el perfeccio-
namiento de los acercamientos convencionales, como etapa previa a la introduccin de nuevos
enfoques. Creemos que el esfuerzo de apegarse estrictamente a un conjunto de estndares co-
mo el que se propone est al alcance de cualquier organismo que se lo proponga seriamente en
un plazo corto. Y pensamos que un paso as, adems de trascendente en s mismo, constituira
el punto de partida necesario y adecuado para el siguiente, que consistira lgicamente en la
introduccin, en forma consistente, de los acercamientos ms avanzados.

El Consejo Asesor Externo considera que esta versin de los estndares de calidad, aplicable
bsicamente a pruebas convencionales, deber ser seguida en un plazo razonable por otra que,
adems de incorporar las correcciones y ajustes que proceda al contenido actual, contemple en
forma ms completa la amplia gama de acercamientos metodolgicos a la evaluacin educativa.

El documento siguiente tiene, por otra parte, una perspectiva propia, que trae consigo la con-
secuencia de que los estndares aqu propuestos contemplen puntos que no incluye el texto
americano. Los puntos adicionales se refieren, en general, a aspectos operativos y prcticos
bsicos, como los relativos a medidas de seguridad, que en los lugares con una tradicin psi-
comtrica ms amplia puede ser razonable obviar, pero que en contextos como el mexicano no
pueden darse por supuestos.

Es importante subrayar, en este sentido, la interaccin de tipo factorial que se establece entre
los componentes de un sistema complejo de evaluacin. Para entender la diferencia entre una
interaccin aditiva y una factorial baste recordar que si uno de los sumandos de una adicin es
CENTRO NACIONAL DE EVALUACIN PARA LA EDUCACIN SUPERIOR


14
muy pequeo, o incluso igual a cero, la suma total de los restantes no se ve afectada por ello, y
puede ser muy grande si los sumandos restantes lo son. En el caso de una multiplicacin, por
el contrario, por grandes que sean los factores, el producto final ser nulo si uno solo de los
factores es igual a cero.

As ocurre con los sistemas complejos, como los de evaluacin: si una prueba est hecha con
todo cuidado, utilizando los conceptos y procedimientos ms avanzados en su diseo y los
mtodos ms sofisticados y costosos en el procesamiento de sus resultados, basta que falle
gravemente cualquier paso del proceso, por secundario que parezca (como el que no se evite
que los sustentantes copien, o que en la lectura ptica de los resultados se altere el orden de los
datos capturados en una sola lnea) para que el conjunto global de los resultados finales pueda
viciarse en forma completa.

Es por esto por lo que debe prestarse atencin, en forma equilibrada, a todos los pasos y aspec-
tos del complejo proceso de evaluacin, en lugar de atender privilegiadamente unos y descui-
dar otros, como se maximiza el producto de una multiplicacin con varios factores de valor
medio, en vez de unos factores muy grandes y otros tendientes a cero.

Por ello se ha tratado de que los estndares siguientes cubran todos los aspectos del proceso
de evaluacin, y el conjunto se organiza segn una secuencia lgico-cronolgica que eviden-
cia lo anterior. Se comienza con la planeacin de las pruebas, e incluso antes, con orientacio-
nes en cuanto a las instancias responsables de ellas y los manuales, hasta la comunicacin y
utilizacin de los resultados, pasando por la elaboracin de reactivos, lo relativo a confiabili-
dad y validez, igualacin de versiones y normalizacin, as como todo lo relativo a la aplica-
cin y correccin de las pruebas.

Se trata, pues, de un trabajo original, cuya estructura y contenido son diferentes a los del texto
americano, pero es claro que un nmero significativo de los estndares siguientes s tiene una
relacin clara con algunos de aquel. Cuando sucede as, la equivalencia o la relacin se hace
explcita sealando entre parntesis el nmero de estndar respectivo en la versin de AERA-
APA-NCME de 1985-97, en la de 1999 o en ambas.

Adems de los textos citados, en forma complementaria se utilizaron adems: Guidelines for
Test Use: A commentary on the Standards for Educational and Psychological Tests (BROWN,
FREDERICK G., 1980); Code of Fair Testing Practices in Education (THE JOINT COMMITTEE
ON TESTING PRACTICES, 1989); Principles of Good Practice in Assessment (WASC, 1992);
Psicometra: Teora de los tests psicolgicos y educativos (MARTINEZ ARIAS, ROSARIO, 1995);
Meta-Assessment: Evaluating Assessment Activities (ORY, JOHN C., 1992); Implications of
Using the Revised Program Evaluation Standards in Local Education Agencies (DEGRACIE,
JAMES S., BEVERLY MERRIL y JAMES K. ZAHARIS, 1996); The Revised Program Evaluation
Standards and Their Correlation With the Evaluation Use Literature (THOMPSON, BRUCE,
1996); Guide to the Use of the Graduate Record Examinations Program (GRE BOARD, 1988);
The College Board Admissions Testing Program: A technical report on research and devel-
opment activities relating to the Scholastic Aptitude Test and Achievement Tests (ANGOFF,
WILLIAM H. Ed., 1971); Principles of Good Practice for Assessing Student Learning (AAHE,
ESTNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIN EDUCATIVA

15
1992); Criterion Three and the Assessment of Student Academic Achievement (DOHERTY,
AUSTIN y GERALD W. PATTON, 1991).

Los estndares no incluyen puntos de referencia numricos. Lo anterior se debe a que en su
mayora comprenden, ms bien, elementos de los que slo puede constatarse la presencia o la
ausencia o, a lo ms, la suficiencia o insuficiencia, segn la apreciacin de personas conocedo-
ras. Por ello se formulan mediante oraciones en tiempo futuro, con sentido imperativo, del tipo
deber, que corresponden a las expresiones que en ingls se designan como should state-
ments. La no inclusin de criterios numricos se justifica porque los que se aplican a las prue-
bas usuales (normativas, analizadas con teora clsica) pueden encontrarse en los manuales de
psicometra y los apropiados para pruebas avanzadas, adems de su escasa utilizacin, no pue-
den establecerse fcilmente en forma inequvoca, por lo que se decidi dejar la tarea de preci-
sarlos para un momento posterior.

Los procesos de metaevaluacin que puedan efectuarse para juzgar si un instrumento cumple o
no con los estndares, por lo tanto, consistirn por lo general en la valoracin de la presencia
o ausencia y la adecuacin-inadecuacin del aspecto de que se trate en trminos cualitativos,
a juicio de los responsables de la metaevaluacin. En los casos en que existan parmetros
numricos generalmente aceptados se aplicarn tambin, y en este caso la metaevaluacin
comprender tanto el verificar que se cuente con las mediciones de que se trate, como que los
resultados del instrumento objeto de anlisis se siten dentro de los rangos aceptables.

Los estndares se presentan en un solo nivel de importancia, sin distinguir unos primarios y
otros secundarios, sino que se incluyen todos los que se considera necesario que estn presen-
tes para que un instrumento pueda ser considerado de calidad. Esto no implica desconocer que,
si bien todos son deseables, hay unos ms fundamentales que otros. No pareci conveniente,
sin embargo, hacer tal distincin en esta etapa.

Es claro que un instrumento difcilmente podra cumplir con todos los estndares desde su
primera aplicacin, y que no por ello deber ser considerado inadecuado; sin duda ser inevi-
table que el cumplimiento de todos los requisitos implique un proceso ms o menos largo. La
aplicacin de este documento a casos reales de pruebas en uso permitir afinar los criterios
para precisar lo que es aceptable y lo que no lo es, en casos particulares, valorando las circuns-
tancias de cada uno. Por otra parte, la redaccin permitir distinguir fcilmente los casos en
que un estndar slo sea aplicable en ciertas circunstancias, o sea los que podran manejarse
como estndares condicionales.

Sin contradecir lo anterior, y en el entendido de que esta versin deber ser substituida en un
plazo razonable por otra que incorpore la experiencia derivada de los primeros ejercicios de su
aplicacin, consideramos que, por su importancia, por la viabilidad de cumplirlos con un es-
fuerzo razonable, y por la posibilidad de presentar evidencias verificables al respecto, los
estndares contenidos en este documento pueden considerarse, en general, como requisitos de
calidad sobre los cuales los organismos dedicados a elaborar pruebas (ODEP) deberan presen-
tar evidencias, y cuyo cumplimiento debera considerarse como un requisito necesario para
que una prueba sea utilizada para apoyar la toma de decisiones importantes.

CENTRO NACIONAL DE EVALUACIN PARA LA EDUCACIN SUPERIOR


16
Los autores creemos que si este esfuerzo de precisar los estndares de calidad que debern
cumplir los instrumentos de evaluacin en gran escala es seguido por su discusin, adopcin,
utilizacin y cumplimiento, se habr hecho una contribucin trascendente al mejoramiento de
la calidad educativa.
ESTNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIN EDUCATIVA

17
Orientaciones valorales


N CUALQUIER REALIDAD COMPLEJA, como la de los sistemas educativos, la nocin de cali-
dad es multidimensional y algunas de sus dimensiones fundamentales trascienden el nivel
de lo emprico y lo tcnico, para situarse en el terreno metacientfico, filosfico y tico.

La elaboracin de un listado de estndares de calidad particulares, como el que se presenta en
este trabajo para instrumentos de evaluacin educativa, supone necesariamente, pues, de ma-
nera implcita o explcita, la adopcin de un cierto nmero de principios de naturaleza valoral
que tienen un lugar de tipo axiomtico en el conjunto, como referentes bsicos que no depen-
den de otros superiores.

Cada organismo concreto que se dedique a elaborar este tipo de instrumentos tendr, como es
natural, sus propias orientaciones, que dependern de la misin de cada uno y que condicio-
narn su concepcin de calidad. Los autores de este trabajo hemos partido tambin, inevita-
blemente, de nuestras propias concepciones, y consideramos necesario explicitarlas antes de
presentar el listado de los estndares particulares que proponemos, listado cuyo sentido e in-
tencin podrn comprenderse mejor teniendo a la vista los principios de los que se parti para
su construccin.

La manera de organizar las orientaciones valorales es, por supuesto, de importancia mucho
menor que su contenido. Es claro que los mismos principios podran presentarse en un nmero
mayor de incisos ms cortos, o en uno menor de apartados con varios niveles de desagrega-
cin. El hecho de haber decidido presentar las orientaciones en la forma de un declogo, y el
orden preciso en que aparecen los elementos que lo constituyen, tienen seguramente influen-
cias subjetivas ms o menos conscientes. Ms all de las posibles interpretaciones, considera-
mos razonable esperar que estas orientaciones sern compartidas por la mayora de quienes se
interesen por la educacin, por su calidad y por su evaluacin.

El declogo de orientaciones valorales que subyace en la definicin de los estndares de cali-
dad que proponemos es, pues, el siguiente:

1. Filosofa de superacin. La calidad, adems de ser una realidad compleja, es dinmica;
esto quiere decir que no puede alcanzarse de una vez por todas, sino que implica la
bsqueda permanente de mejoramiento. Por ello, la evaluacin deber concebirse como un
E
CENTRO NACIONAL DE EVALUACIN PARA LA EDUCACIN SUPERIOR


18
medio clave para que las instituciones educativas, sus alumnos y egresados, alcancen nive-
les de aprendizaje cada vez mejores, poniendo los medios necesarios para que las pruebas
y dems procedimientos evaluativos no sean considerados como instrumentos de polticas
fiscalizadoras o punitivas.

2. Visin educativa de la evaluacin. Ms all de su valor instrumental, los procesos de
evaluacin deben ser diseados y aplicados de tal forma que constituyan por s mismos
experiencias de aprendizaje valiosas, que promuevan en el sustentante propsitos de supe-
racin.

3. Atencin a los usuarios. Quienes se dediquen a elaborar instrumentos de evaluacin edu-
cativa debern interesarse por todos sus posibles usuarios: alumnos y sustentantes, en pri-
mer lugar; pero, adems, padres de familia; maestros del ciclo de que se trate y de los ci-
clos o niveles anterior y siguiente; autoridades de las instituciones y los sistemas educati-
vos; futuros empleadores y pblico en general, con especial atencin a los medios de co-
municacin. Los Organismos Dedicados a la Elaboracin de Pruebas (ODEP) buscarn con-
tribuir a crear y fortalecer una autntica cultura de la calidad y la evaluacin, promoviendo
la formacin de especialistas y la capacitacin de todos los usuarios, para la adecuada
comprensin de los sistemas de evaluacin y para evitar interpretaciones infundadas de los
resultados, tanto triunfalistas como alarmistas.

4. Adecuacin tcnica, eficiencia e innovacin. Los instrumentos de evaluacin debern
caracterizarse por su elevado nivel tcnico en todas las dimensiones que deben atender los
instrumentos psicomtricos, en particular las diferentes variantes de la validez y la confia-
bilidad, de modo que se asegure la comparabilidad y objetividad de los resultados. Los
procedimientos de aplicacin de las pruebas y los de procesamiento de los resultados de-
bern tener tambin un alto grado de confiabilidad. Los ODEP debern ser eficientes en el
uso de sus recursos y en la agilidad de sus procedimientos. Ms all de las tareas cotidia-
nas, y segn sus posibilidades, desarrollarn la investigacin necesaria para manejar los
avances ms recientes en el campo de la evaluacin e incorporarlos de manera consistente
a sus programas de trabajo.

5. Relevancia. Los productos y procesos de los ODEP debern corresponder a las necesidades
del sistema educativo al que se dirijan y a sus condiciones, evitando planteamientos que
resulten lejanos e inaccesibles. Los referentes de las pruebas debern ser establecidos a
partir de las mejores prcticas educativas, curriculares, pedaggicas y profesionales, para
asegurar la relevancia de los contenidos de los instrumentos de evaluacin desarrollados.

6. Orientacin acadmica. Las funciones y competencias de las instancias de los ODEP se
articularn de manera que se respete estrictamente la independencia de criterio de sus
cuerpos tcnicos, de manera que los lineamientos bsicos de cada prueba y sus contenidos
sean definidos sin presin externa alguna, al tiempo que se asegure que los cuerpos tcni-
cos operen con apego a los criterios de calidad propios de sus actividades.

7. Respeto de la autonoma de las instituciones usuarias. Los ODEP tendrn clara concien-
cia de su naturaleza de instancias cuya funcin es apoyar a otras instituciones educativas,
ESTNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIN EDUCATIVA

19
respetando la misin de cada una y evitando la pretensin de constituirse en organismos de
carcter normativo. Al mismo tiempo, los ODEP pondrn todos los medios a su alcance pa-
ra promover el uso adecuado de los resultados de la aplicacin de sus instrumentos, evi-
tando los usos inapropiados de aqullos.

8. Equidad. Deber hacerse todo lo necesario para asegurar que los instrumentos evalen de
manera objetiva e imparcial los conocimientos, habilidades y aptitudes para los que hayan
sido diseados, evitando cualquier sesgo por razones de gnero, grupo tnico, condicin
socioeconmica y cultural o cualquier otra caracterstica, mediante el manejo de instru-
mentos libres de sesgo y garantizando que las condiciones de administracin de las prue-
bas sean equivalentes, igualando las versiones, y cancelando versiones o aplicaciones
cuando haya razones para temer la existencia de fugas de informacin o la presencia de
circunstancias indebidamente favorables o desfavorables. Debern atenderse las necesida-
des de los sustentantes discapacitados, o que presenten situaciones particulares, para ofre-
cerles tambin igualdad de condiciones.

9. Transparencia y honestidad. Los ODEP mantendrn una actitud de apertura, de manera
que todos los procesos de elaboracin, aplicacin y calificacin de las pruebas estn suje-
tos a escrutinio externo. Dado que, por la naturaleza de las pruebas, en muchos casos los
reactivos no podrn ser consultados por personas ajenas, este principio implicar, adems
de la existencia de rganos externos de tipo acadmico que realicen actividades de metae-
valuacin, la publicacin de manuales y reportes tcnicos, y la difusin de los mecanismos
de operacin de los ODEPs. Adems, deber ofrecerse toda la informacin pertinente a ins-
tituciones, alumnos y otros usuarios, para que puedan valorar objetivamente la informa-
cin derivada de la aplicacin de los instrumentos y la puedan utilizar correctamente para
los propsitos que proceda, evitando cualquier manejo o estrategia publicitaria engaosa
que pueda inducir a error.

10. Postura tica. En todas sus actividades los ODEP mantendrn una postura que se caracteri-
ce por un elevado sentido tico, respetando escrupulosamente los derechos de las personas
e instituciones que utilicen sus servicios, as como los cdigos de prcticas correctas apli-
cables, promoviendo el desarrollo de este tipo de normas deontolgicas y estndares tcni-
cos en el campo de la evaluacin.

CENTRO NACIONAL DE EVALUACIN PARA LA EDUCACIN SUPERIOR


20
ESTNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIN EDUCATIVA

21
Estndares de calidad

1. Estndares relativos a las instancias responsables
de elaborar y aplicar las pruebas

1.1. Los Organismos Dedicados a la Elaboracin de Pruebas (ODEP) contarn con una es-
tructura bsica cuyas dimensiones estarn en proporcin a la importancia de las acti-
vidades que desarrollen, pero que deber comprender elementos unipersonales y cole-
giados de tipo y caractersticas adecuadas para asegurar un funcionamiento correcto.
Los aspectos que deber atender en todo caso esa estructura son:

Un componente acadmico, con especialistas del campo de contenidos a que se re-
fiera una prueba. Cuando la amplitud o complejidad del campo cubierto lo justifi-
que podr haber subcomits especializados.
Un componente tcnico, con especialistas en el campo de la elaboracin de prue-
bas. Si un ODEP elabora varios instrumentos este componente podr ser comn y
constituir una instancia tcnica interna de tipo central.
Un componente de carcter social, con usuarios (v.gr. instituciones de educacin
superior) y personas provenientes de otros sectores relacionados con la prueba,
como colegios profesionales, empleadores importantes, maestros, padres de fami-
lia u otros, sea con carcter representativo, sea a ttulo individual.
Un rgano colegiado (Consejo Tcnico de la prueba o equivalente) que ocupar el
nivel superior en la estructura de instancias de un instrumento y estar integrado
por personas de los tres componentes anteriores, en forma equilibrada.
Un responsable de cada prueba con calificacin acadmica y experiencia en el
campo del conocimiento de que se trate y/o en evaluacin educativa.
Redactores de reactivos o items conocedores de los temas de que se trate y con en-
trenamiento suficiente para la tarea. (Dada la importancia de este punto deber
desarrollarse posteriormente, con estndares de calidad particulares).
Revisores de reactivos distintos de los redactores.
Un rgano que vigile la posible presencia de sesgos (comit de equidad o equiva-
lente), que podr ser comn a diversas pruebas.

1.2. Los ODEP debern contar con una reglamentacin interna en la que se precisen las
atribuciones y responsabilidades de cada una de las instancias que integren su estruc-
CENTRO NACIONAL DE EVALUACIN PARA LA EDUCACIN SUPERIOR


22
tura. La responsabilidad de tomar las decisiones fundamentales en relacin con cada
prueba deber recaer en el Consejo Tcnico o equivalente, al que estarn subordinados
tanto el coordinador como las dems instancias.

1.3. Los ODEP debern estar en condiciones de aportar informacin suficiente para verifi-
car la calificacin y experiencia de quienes integren las instancias de su estructura.

1.4. Todas las instancias de los ODEP documentarn sus actividades y conservarn archivos
y registros de las mismas, haciendo posible la realizacin de evaluaciones externas.

2. Estndares relativos a los manuales de las pruebas

2.1. Los ODEP contarn con un manual tcnico con especificaciones aplicables a todos los
instrumentos que desarrollen; cuando proceda, cada prueba tendr, adems, un manual
particular con elementos especficos. Los manuales debern publicarse o estar dispo-
nibles para ser consultados por cualquier persona interesada.

2.2. El manual tcnico de cada prueba deber estar disponible para los usuarios potenciales
desde el momento en que vaya a comenzar el uso operacional de la misma. (Equiva-
lente APA 1985, 5.1; AERA 1999, 6.1)

2.3. Los manuales debern describir en detalle la fundamentacin terica de la prueba, as
como los modelos psicomtricos utilizados, sintetizando los trabajos de planeacin a
que se refiere el siguiente apartado. Indicarn los usos recomendados de la prueba y
resumirn su fundamento. Incluirn sntesis de anlisis de confiabilidad, validez y
otros que se mencionan en los apartados siguientes, con referencias que permitan a las
personas interesadas localizar los trabajos resumidos. Cuando sea posible anticipar
usos inadecuados de una prueba el manual deber incluir advertencias especficas pre-
viniendo contra ellos. (Equivalente APA 1985, 5.2; AERA 1999, 6.3)

2.4. En los casos en que se prevea que una prueba ser aplicada en formas o lugares no
controlados por el organismo que la elabor, los manuales debern especificar cual-
quier tipo de competencia especializada que se requiera para administrarla e interpre-
tar sus resultados correctamente, con indicaciones sobre el entrenamiento, la certifica-
cin o la experiencia que se requieran para ello. (Equivalente APA 1985, 5.4; AERA
1999, 6.7)

3. Estndares relativos a la planeacin de las pruebas

3.1. Las pruebas se desarrollarn sobre una slida base cientfica. Los diseadores debern
acumular la evidencia relacionada con la prueba, decidir cul informacin se requiere
antes de su publicacin o distribucin y cul puede proporcionarse despus; asimismo,
deben realizar la investigacin necesaria cuando la obtencin de evidencia relacionada
con la prueba as lo requiera. (Equivalente APA 1985, 3.1; AERA 1999, 3.1)

ESTNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIN EDUCATIVA

23
3.2. Las definiciones de dominios y especificaciones de una prueba deben ser suficiente-
mente claras para que expertos en el tema puedan emitir juicios sobre la correspon-
dencia de un tem con el dominio que representa. (Equivalente APA 1985, 3.3; AERA
1999, 3.2)

3.3. Los ODEP contarn con un documento que describa el perfil de referencia de cada
prueba que desarrollen. El perfil tomar en cuenta los planes de estudio del nivel del
que egresan los sustentantes y los del nivel al que pretenden ingresar o, en su caso, las
competencias, conocimientos y habilidades necesarios para el desempeo de las acti-
vidades profesionales establecidas como objetivo de los planes de estudio de que se
trate. (Relacionado con AERA 1999, 6.6 y 13.3)

3.4. Cuando se usen como referentes los planes de estudio de una carrera, los perfiles
tendrn en cuenta la variedad de planes existentes en las diversas regiones e institu-
ciones del pas, sin buscar su uniformidad e identificando elementos generales comu-
nes.

3.5. Cuando las pruebas incluyan elementos opcionales, slo se manejarn puntajes globa-
les para efectos de comparacin de sustentantes en caso de que sea posible asegurar la
equivalencia de las combinaciones opcionales; cuando esto no sea posible debern
evitarse las comparaciones globales y limitarlas a los elementos comunes.

3.6. Cuando se detecten diferencias importantes entre los planes de estudio de diferentes
IES, regiones o subsistemas, se utilizarn mecanismos que las tomen en cuenta al ana-
lizar los resultados agregados, como anlisis basados en plantillas OTL (opportunity to
learn), o asignando pesos diferenciados a diversas secciones para tener en cuenta las
caractersticas de un subconjunto particular. (Relacionado con AERA 1999, 13.6)

4. Estndares relativos a la elaboracin y prueba de reactivos

4.1. Las especificaciones usadas en la construccin de items debern describirse con clari-
dad. Cuando, por razones de seguridad, no se puedan proporcionar ejemplares de los
exmenes para inspeccin, se dar informacin descriptiva que incluir un tem repre-
sentativo de cada categora mayor de la clasificacin o definicin de dominio. Cuando
el grado de dificultad sea una dimensin de dicha clasificacin se debern presentar
items representativos de los niveles de dificultad. (Equivalente APA 3.2; AERA 1999,
3.3)

4.2. Los reactivos sern redactados, con base en las especificaciones, por personal acad-
mico que tenga el perfil adecuado y haya sido previamente capacitado para la tarea.

4.3. Los reactivos sern revisados en su contenido, y en lo relativo al respeto de las especi-
ficaciones establecidas, por personal diferente de los redactores. (Relacionado con
AERA 1999, 3.5)

CENTRO NACIONAL DE EVALUACIN PARA LA EDUCACIN SUPERIOR


24
4.4. Los reactivos sern piloteados en campo sometindolos a anlisis de grado de dificul-
tad y capacidad de discriminacin. Para que sean incorporados a las versiones operati-
vas de las pruebas, los reactivos debern satisfacer al menos los niveles mnimos ge-
neralmente aceptados en los manuales especializados. Los items que no alcancen esos
niveles se desecharn o se corregirn hasta que los cumplan. Progresivamente se harn
anlisis de ajuste, distractores y posibles sesgos. (Relacionado con AERA 1999, 3.9)

4.5. El piloteo en campo deber hacerse con una muestra representativa y suficiente pa-
ra un anlisis de reactivos apropiado.

4.6. Para su piloteo en campo, se podrn incluir items en etapa de prueba en las aplicacio-
nes operativas, siempre y cuando no se les utilice en la calificacin de los sustentan-
tes.

4.7. Se analizar permanentemente el comportamiento de todos los items que se utilicen en
las aplicaciones operativas, para detectar aquellos que dejen de presentar valores ade-
cuados.

4.8. Desde la etapa de elaboracin y revisin de reactivos se evitarn las redacciones que
pudieran producir sesgos, proporcionando a redactores y revisores el entrenamiento
necesario para ello. Despus del piloteo y de las aplicaciones operativas, todos los
items sern sometidos a anlisis estadsticos de sesgo, utilizando tcnicas adecuadas
(v. gr. Delta-plot, Item-by-Subgroup, Log-linear, Standardization, Differentially
Functioning Items) teniendo en cuenta las fuentes de sesgo potencialmente relevantes,
como gnero, regin, etc.

4.9. Los items que sean objeto de sealamientos de sesgo por parte de los usuarios o con
base en los anlisis anteriores, sern presentados a un grupo de jueces especializado,
que constituir el comit de equidad, para su anlisis.

4.10.Cuando existan reportes de investigacin adecuadamente fundamentados cuyos resul-
tados muestren diferencias en cuanto al funcionamiento de items o pruebas entre gru-
pos de sustentantes que se distingan por edad, gnero, grupo tnico o cultural u otra
caracterstica que se considere no debera ser relevante para explicar los resultados,
debern hacerse los estudios necesarios para detectar y, en su caso, eliminar, cualquier
factor de sesgo en el diseo, contenido o forma de los items y las pruebas. (Equivalen-
te a AERA 1999, 7.3)

4.11.Deber evitarse la formulacin de reactivos que, por el vocabulario que utilicen, o por
la complejidad de su redaccin, puedan implicar una dificultad especial para respon-
derlos, si el nivel de competencia lingstica no forma parte del constructo que se pre-
tende evaluar. (Equivalente AERA 1999, 7.7)


ESTNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIN EDUCATIVA

25
5. Estndares relativos a confiabilidad, error de medida y longitud de
la prueba y sus partes

5.1. Los ODEP debern analizar permanentemente la confiabilidad y el error de medida de
las pruebas y sus partes. Los resultados, junto con consideraciones basadas en la expe-
riencia, fundamentarn las decisiones sobre la longitud de unas y otras.

5.2. Para cada puntaje global, parcial o combinado se deber proporcionar informacin de-
tallada sobre los niveles de confiabilidad y los errores estndar de medida, que facili-
ten al usuario la decisin de si el grado de precisin es suficiente para el uso que se
pretenda dar a la prueba. (Equivalente APA 1985, 2.1; AERA 1999, 2.1)

5.3. Se debern describir los procedimientos empleados en la obtencin de muestras de in-
dividuos o grupos para estimacin de medidas de confiabilidad y errores estndar de
medicin, as como la naturaleza de las poblaciones involucradas. Tambin se debe
describir el nmero de individuos en cada muestra empleada para obtener los estima-
dos, las medias y las desviaciones estndar. (Equivalente APA 1985, 2.2)

5.4. Se precisar el mtodo de estimacin de la confiabilidad de la prueba, as como la
forma de expresarla (v.gr. en trminos de componentes de varianza, o bien de coefi-
cientes de correlacin, de errores estndar de medida, de porcentajes de decisiones co-
rrectas o estadsticas equivalentes). Tambin se debern reportar las condiciones en
que se estim la confiabilidad y aquellas condiciones en que puede ser aplicable la
prueba. (Equivalente APA 1985, 2.3)

5.5. Cuando una prueba vaya a usarse para decisiones dicotmicas (v.gr. ser admitido o no
en una institucin) o politmicas, debern ofrecerse estimaciones de la confiabilidad
de tales decisiones precisando la manera de obtenerlas (v.gr. porcentaje de sustentan-
tes que resulte clasificado de la misma manera en dos aplicaciones o utilizando formas
alternativas de la prueba, medidas de missclassification u otras). (Equivalente APA
1985, 2.12; AERA 1999, 2.15)

5.6. Si se prepara una forma corta de una prueba reduciendo el nmero de items o reorga-
nizando porciones de la prueba en formas separadas, se deben proporcionar datos
empricos o un razonamiento terico para estimar la confiabilidad de cada forma corta
y su correlacin con la forma estndar. (Equivalente APA 1985, 3.17; AERA 1999, 2.17
y 3.16)

5.7. Cuando se incluyan procesos de jueceo en la calificacin de una prueba, se deber
proporcionar evidencia del grado de concordancia entre calificaciones hechas por jue-
ces independientes. Si tal evidencia an no ha sido obtenida, debe advertirse acerca de
la variabilidad en el proceso de calificacin, como posible fuente de errores de medi-
cin significativos. (Equivalente APA 1985, 2.8; AERA 1999, 2.10)


CENTRO NACIONAL DE EVALUACIN PARA LA EDUCACIN SUPERIOR


26
6. Estndares relativos a validez

En general:

6.1. Los ODEP cuidarn sistemticamente las diferentes fuentes de evidencia para juzgar la
validez de las pruebas, entendiendo el concepto en forma unitaria, a partir del anlisis
del contenido, de la revisin de la consistencia con los perfiles de referencia (cons-
tructos) y de la relacin con criterios concurrentes o predictivos. Para cada instrumen-
to deber hacerse un anlisis inicial de validez en la etapa de prueba y anlisis poste-
riores con una periodicidad preestablecida. Los resultados debern publicarse.


En cuanto a validez de contenido:

6.2. Deber haber evidencias de validez que apoyen las principales inferencias para las que
se recomiende usar una prueba. Deber presentarse el razonamiento que sostenga la
mezcla particular de evidencias asociadas con cada uso. (Equivalente APA 1985, 1.1;
AERA 1999, 1.1)

6.3. Si la validez de alguna interpretacin comn no se hubiese investigado, se deber
asentar el hecho y prevenir a los usuarios potenciales para evitarla. Las afirmaciones
acerca de la validez de una prueba debern referirse a la validez de interpretaciones
particulares o de tipos de decisiones particulares. (Equivalente APA 1985, 1.2; AERA
1999, 1.3)

6.4. Cuando se propongan interpretaciones de puntajes parciales, diferencias de puntajes o
perfiles derivados de una prueba, deber hacerse explcita la evidencia que soporte di-
chas interpretaciones. Cuando se desarrollen puntajes compuestos deber ofrecerse la
base para ponderar puntajes parciales de determinada forma. (Equivalente APA 1985,
1.3; AERA 1999, 1.10)

6.5. Cuando la evidencia relacionada con el contenido sirve como demostracin significa-
tiva de validez para un uso particular de la prueba, se ofrecer una definicin clara del
universo representado, su relevancia para el propsito de la prueba y los procedimien-
tos seguidos para generar contenidos que representen el universo. Si el muestreo de
contenidos intenta resaltar algunos elementos crticos, ms que asegurar la representa-
tividad del universo, se deber justificar la importancia relativa que se asigna a esos
factores. (Equivalente APA 1985, 1.6; AERA 1999, 1.6)

6.6. Cuando se invite a expertos en reas de contenido para que juzguen si los items son
muestras representativas de un universo o si el proceso de correccin se realiz ade-
cuadamente, o cuando los criterios externos usados estn compuestos por opiniones de
jueces, debern describirse las calificaciones, experiencia y la capacitacin relevante
de los expertos. Tambin deber describirse cualquier procedimiento utilizado para al-
canzar un consenso entre los jueces sobre la correccin de las especificaciones del
ESTNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIN EDUCATIVA

27
universo y la representatividad de las muestras en relacin con los objetivos persegui-
dos. (Equivalente APA 1985, 1.7; AERA 1999, 1.7)

En cuanto a validez de criterio, concurrente o predictivo:

6.7. Toda medida usada para estudios de validez de criterio deber describirse con exacti-
tud, haciendo explcitas las razones de que se eligiera como criterio relevante. (Equi-
valente APA 1985, 1.12; AERA 1999, 1.16)

6.8. La calidad tcnica de los criterios elegidos debe ser considerada. Los criterios deben
elegirse independientemente de los ndices predictivos de la prueba. Si la evidencia
indica que una medida de criterio est afectada de manera significativa por factores
extraos, esta evidencia se debe reportar. Si se han empleado recursos para reducir los
efectos de tales factores se deben describir detalladamente. (Equivalente APA 1.13)

6.9. Las relaciones entre predictores y medidas de criterio que se utilicen en procesos de
admisin a instituciones educativas debern describirse mediante ecuaciones de regre-
sin de las estimaciones y errores estndar asociados, o por tablas de prediccin,
adems de los coeficientes de correlacin. (Equivalente APA 8.9)

6.10.Los reportes de estudios de validacin referidos a criterios externos, deben proporcio-
nar la descripcin de la muestra y el anlisis estadstico utilizado para determinar el
grado de exactitud predictiva. Las estadsticas bsicas debern incluir nmero de casos
(y las razones para eliminacin de algunos), medidas de tendencia central y variabili-
dad, relaciones y una descripcin de cualquier tendencia marcada a alejarse de una
distribucin normal. (Equivalente APA 1.11)

6.11.Se deber reportar el tiempo transcurrido entre la administracin de una prueba y la
recoleccin de los datos del criterio externo. Los reportes de validacin debern sea-
lar con exactitud la fecha de su realizacin, as como los intervalos de tiempo en que
se recogieron los datos. (Equivalente APA 1.18)

6.12.Cuando se hagan ajustes estadsticos (v.gr. restriccin del rango o atenuacin) para
estimar la relacin entre resultados de la prueba y variables criterio, debern reportar-
se tanto los coeficientes ajustados como los no ajustados, as como los procedimientos
utilizados para hacer el ajuste. (AERA 1999, 1.18)

En cuanto a validez de constructo:

6.13.Cuando una prueba se presenta como medida de un constructo especfico, ste debe
distinguirse de otros constructos. Se deben explicitar las interpretaciones de las medi-
das de la prueba y debe presentarse evidencia relacionada con el constructo que apoye
tales inferencias, en particular de que no existe una dependencia fuerte de constructos
ajenos al descrito. (Equivalente APA 1.8)


CENTRO NACIONAL DE EVALUACIN PARA LA EDUCACIN SUPERIOR


28
Para pruebas de certificacin o concesin de licencias de ejercicio profesional:

6.14.El universo o dominio de contenidos que cubre un examen de certificacin o conce-
sin de licencia para el ejercicio de una actividad profesional deber definirse con cla-
ridad y explicarse en trminos de la importancia del contenido para el desempeo
competente de la ocupacin. Debe proporcionarse el sustento necesario que apoye la
afirmacin de que los conocimientos y habilidades evaluados por la prueba son nece-
sarios para un desempeo competente en el rea ocupacional en cuestin, y de que son
consistentes con el propsito para el cual se estableci el programa de certificacin o
concesin de licencia. (Equivalente APA 1985, 11.1; AERA 1999, 14.8 y 14.9)

6.15.Se evitar que las decisiones de certificacin o concesin de licencias de ejercicio
profesional se basen nicamente en pruebas de opcin mltiple. Tales decisiones de-
bern tomarse con base en sistemas de evaluacin que incluyan pruebas de ejecucin,
portafolios, u otros acercamientos complementarios que aseguren una cobertura ms
amplia del universo de conocimientos y habilidades respectivo.

6.16.Debe hacerse explcita cualquier interpretacin de constructo de una prueba empleada
en programas de certificacin o para la concesin de licencias para el ejercicio de una
profesin y debe reportarse la evidencia y el anlisis lgico que apoye estas interpre-
taciones. (Equivalente APA 1985, 11.2; AERA 1999, 14.14)

Sobre otros aspectos que pueden afectar la validez:

6.17.Deber informarse si se aplicar alguna correccin por posible adivinacin de las res-
puestas de una prueba, explicando cul es la estrategia de respuesta adecuada.

6.18.Si se encuentra que estrategias de respuesta no relacionadas con los constructos o
contenidos que mide una prueba influyen significativamente en los resultados, tales
estrategias debern explicarse a los sustentantes antes de la administracin de la prue-
ba, sea en la gua, sea al momento de dar las instrucciones, si puede hacerse breve-
mente. Si los efectos de dichas estrategias son positivos, su uso por todos los susten-
tantes deber promoverse, y deber desalentarse si los efectos son negativos. (Equiva-
lente APA 1985, 3.11; AERA 1999, 11.13)

6.19.Como parte de las investigaciones para el desarrollo de una prueba, deber estudiarse
la sensibilidad de los resultados al mejoramiento gracias a la prctica, la preparacin o
el entrenamiento corto. Los materiales que se difundan para ayudar a interpretar los
resultados debern resumir los resultados de dichas investigaciones, indicando el gra-
do en que pueda esperarse mejorar los resultados en la prueba, gracias a prctica o
preparacin. (Equivalente APA 1985, 3.14; AERA 1999, 1.9)

6.20.El establecimiento de lmites de tiempo reducidos slo deber hacerse si la rapidez de
respuesta es uno de los componentes de la habilidad que se pretende evaluar. De no
ser as, debern establecerse lmites de tiempo que, con base en la experiencia, permi-
ESTNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIN EDUCATIVA

29
tan que la gran mayora de los posibles sustentantes terminen la prueba sin presin.
(Relacionado con AERA 2000, 3.18, 2.8)

7. Estndares relativos a la integracin, igualacin y estabilidad de ver-
siones

7.1. Antes de comenzar la etapa operativa de una prueba, deber asegurarse que el banco
de items respectivo comprenda un nmero suficiente de reactivos que satisfagan los
estndares de calidad, de manera que sea factible manejar el nmero de versiones y
ordenamientos necesarios para las aplicaciones previstas.

7.2. Los reactivos se analizarn despus de cada aplicacin, y se retirarn del banco de
items probados los que dejen de presentar valores aceptables.

7.3. Tambin se retirarn del banco los items que dejen de ser vigentes en relacin con el
dominio correspondiente y los que pudieran haberse difundido.

7.4. Con los items probados se elaborar un nmero de versiones de una prueba suficiente
para las aplicaciones planeadas de la misma. Este principio no se opone a la utiliza-
cin de items en etapa de prueba ni a la de elementos ancla.

7.5. Todas las versiones debern apegarse a las mismas especificaciones y debern ser
equivalentes. Deber informarse sobre los mtodos de igualacin y los estudios de
equivalencia y sus resultados.

7.6. Cuando haya razones para temer que una versin de una prueba se haya difundido y
haya riesgo de que algunos sustentantes la conozcan previamente, deber retirarse de
inmediato.

7.7. Cuando se utilicen varias versiones de una prueba en una misma aplicacin, deber
verificarse a posteriori su equivalencia, hacindose los ajustes correspondientes en los
puntajes de los sustentantes, en caso necesario.

7.8. Una misma versin de una prueba no deber utilizarse ms de tres veces al ao en el
mismo lugar, teniendo en cuenta el recorrido de la prueba.

7.9. Cuando se utiliza un diseo de test-ancla para la equiparacin de formas de una prue-
ba, debern describirse las caractersticas del test-ancla, especialmente en su relacin
con las formas que se tratan de equiparar. (Equivalente APA 1985, 4.8; AERA 1999,
4.11 a 4.14)

7.10.Cuando se preparen formas adicionales de una prueba haciendo una versin corta de
una mayor, o modificando el orden en que se presentan los reactivos, y haya razones
para pensar que los resultados en esas formas alternativas puedan verse influenciados
por el efecto del contexto en que se presentan los reactivos, deber presentarse evi-
CENTRO NACIONAL DE EVALUACIN PARA LA EDUCACIN SUPERIOR


30
dencia de que no se produce una distorsin de las normas para las diversas versiones o
para la equiparacin de los puntajes entre unas y otras. (Equivalente AERA 1999, 4.15)

7.11.Los programas permanentes de aplicacin de pruebas que pretenden mantener una
misma escala a lo largo del tiempo debern realizar peridicamente controles para ve-
rificar la estabilidad de la escala. (Equivalente APA 1985 4.9; AERA 1999, 4.17)

8. Estndares sobre la interpretacin de resultados: escalas,
estandarizacin y puntos de corte

8.1. Los ODEP ofrecern evidencias relativas al cuidado de los procedimientos de cons-
truccin de escalas, estandarizacin y establecimiento de puntos de corte, de manera
que sustenten interpretaciones correctas de los resultados.

8.2. Las escalas en que se reporten los resultados de una prueba, y el razonamiento para
elegirlas, debern describirse y publicarse para facilitar interpretaciones correctas de
las calificaciones por parte de usuarios y sustentantes. La publicacin deber especifi-
car cmo se derivan los puntajes de los datos crudos. (Equivalente APA 1985, 4.1;
AERA 1999, 4.1, 4.2)

8.3. Los reportes de estandarizacin de una prueba debern incluir el ao en el cual se re-
cab la informacin normativa, proporcionando estadsticas descriptivas y describien-
do en detalle el diseo del muestreo, cuando proceda, y las tasas de participacin en
forma tal que se pueda evaluar su adecuacin. (Equivalente APA 1985, 4.4; AERA
1999, 4.6, 4.8)

8.4. Deber informarse con precisin sobre la forma en que se establezcan los niveles que
se consideren satisfactorios o no en pruebas criteriales. Deber combinarse un proce-
dimiento sistemtico a priori refinado con anlisis a posteriori de los resultados de las
aplicaciones de la prueba. (Relacionado AERA 1999, 4.9)

8.5. Deber informarse sobre las caractersticas de las poblaciones de las aplicaciones uti-
lizadas para los anlisis a posteriori que hayan servido para fijar los puntos de corte,
advirtiendo expresamente sobre el hecho de que, si los sustentantes de una nueva apli-
cacin son muy diferentes de los de las aplicaciones de prueba, el uso de esos puntos
de corte podr traer como consecuencia tasas de decisiones equivocadas diferentes a
las estimadas.

8.6. Cuando se espera que una prueba sea utilizada para hacer evaluaciones referidas a
normas estadsticas de grupos se debern proporcionar datos normativos basados en
estadsticas grupales apropiadas. (Equivalente APA 4.5)




ESTNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIN EDUCATIVA

31
9. Estndares relativos a la elaboracin de materiales para las pruebas

9.1. Adems de los materiales indispensables para la aplicacin (cuadernillos y hojas de
respuesta, o equivalentes en modelos no convencionales) para cada prueba debern
prepararse por lo menos guas para los sustentantes, guas para las instituciones usua-
rias, guas de calificacin y formas para los reportes de resultados.

9.2. Las guas para que los sustentantes puedan prepararse para la prueba debern contener
informacin suficiente para que puedan enfrentarla con clara conciencia de sus carac-
tersticas e implicaciones. Toda la informacin relevante deber presentarse por igual
a todos los aspirantes. (Relacionado AERA 1999, 8.1)

9.3. Las instrucciones presentadas a los sustentantes deben ser lo suficientemente detalla-
das para que stos puedan responder a la prueba, tal y como los diseadores lo planea-
ron. Cuando sea pertinente, se debern proporcionar muestras de prctica o ejemplos
de preguntas. (Equivalente APA 3.22)

9.4. Cuando se utilicen formas no habituales de registrar las respuestas, v.gr. por computa-
dora, deber permitirse la realizacin de alguna prctica previa, a no ser que el domi-
nio de la computadora forme parte del constructo que se trata de evaluar. (Equivalente
AERA 1999, 8.1)

9.5. Las hojas de respuesta debern permitir que los sustentantes concentren su atencin en
la tarea a realizar, evitando complicarla por falta de claridad en la disposicin de la
pgina, el tipo de letra u otros factores ajenos a los propsitos de la prueba.

9.6. Las formas de reportes de calificaciones y el material instruccional relativo, incluyen-
do reportes computarizados, debern facilitar interpretaciones apropiadas. (Equivalen-
te APA 3.16)

9.7. La gua para las instituciones usuarias deber incluir toda la informacin necesaria pa-
ra asegurar una correcta aplicacin y una adecuada interpretacin y utilizacin de los
resultados de la prueba.

9.8. Las guas para la calificacin debern contener todos los elementos necesarios para la
adecuada realizacin de todos los pasos de dicho proceso.

9.9. Todos los materiales debern estar correctamente redactados y pasar por revisiones de
estilo antes de su publicacin.

9.10.Los procesos de reproduccin de las pruebas y sus materiales complementarios de-
bern hacerse con la supervisin necesaria para evitar errores de impresin y garanti-
zar la seguridad de los materiales y la confidencialidad de los resultados. Se cuidar lo
relativo a la disposicin de los sobrantes de impresin.

CENTRO NACIONAL DE EVALUACIN PARA LA EDUCACIN SUPERIOR


32
9.11.Una vez reproducidos, las pruebas y los materiales complementarios se almacenarn
y custodiarn de manera que se garantice que la informacin contenida en ellos no se
difunda indebidamente.

10. Estndares relativos a la promocin y contratacin

10.1.Los materiales y las actividades para la promocin del uso de una prueba debern ser
objetivos. Deber evitarse el uso de tcnicas de publicidad que sugieran que la prueba
puede ofrecer ms de lo que tenga fundamento en la evidencia de investigacin en que
se basa. (Equivalente APA 5.7)

10.2.Como condicin previa para la firma de un contrato para la prestacin de sus servi-
cios, los ODEP debern asegurarse de que las personas o los cuerpos colegiados de la
institucin usuaria que tengan que ver con la toma de decisiones, basada en resultados
de la prueba, tengan informacin suficiente al respecto.

10.3.Los contratos que firmen los ODEP con instituciones usuarias debern incluir una
clusula por la que las segundas se comprometan a no utilizar los resultados de la
prueba para justificar decisiones que no tengan un sustento adecuado y a informar co-
rrectamente sobre el cumplimiento de ese compromiso.

10.4.Cuando la aplicacin de una prueba se haga en el marco de procesos manejados por
dependencias pblicas responsables de los servicios educativos de una o varias enti-
dades, o por decisin institucional en relacin con procesos de evaluacin externa o
acreditacin, la naturaleza de las decisiones y el papel tcnico del organismo que ela-
bora las pruebas debern sealarse con toda claridad.

11. Estndares relativos a la preparacin de la aplicacin de las pruebas

11.1.Deber asegurarse que los procesos de inscripcin para la aplicacin de pruebas inclu-
yan informacin suficiente para los sustentantes en cuanto a las caractersticas de las
mismas y el uso que se dar a los resultados, adems de lugares, fechas y condiciones de
la aplicacin.

11.2.Deber obtenerse informacin sobre variables demogrficas, socioeconmicas y rela-
tivas a antecedentes escolares de los sustentantes, que sirva para la realizacin de la
investigacin de desarrollo de las pruebas. Esta informacin podr recabarse desde el
momento de inscripcin a la prueba, o antes de la aplicacin de la misma. En el se-
gundo caso deber cuidarse que no se afecten los lmites de tiempo para la sustenta-
cin de la prueba.

11.3.Los locales en que se apliquen las pruebas debern ser supervisados previamente y,
en su caso, preparados para que renan condiciones adecuadas de comodidad y un
mnimo de distractores. Deber fijarse el nmero mximo de sustentantes que podr
aceptarse en cada local. (Equivalente APA 1985, 15.2; AERA 1999, 5.4)
ESTNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIN EDUCATIVA

33

11.4.El personal responsable de las aplicaciones deber tener la capacitacin suficiente pa-
ra la realizacin de esas tareas. En la seleccin de dicho personal se buscar que tenga
condiciones de imparcialidad, evitando ocupar como aplicadores a profesores de los
sustentantes u otras personas que puedan tener inters en los resultados.

11.5.Cuando las pruebas vayan a ser aplicadas por los usuarios, los instructivos para la
administracin debern ser suficientemente claros y enfatizar los aspectos clave, de
manera que puedan reproducirse con suficiente aproximacin las condiciones de apli-
cacin en que se obtuvieron normas y datos usados para estimar confiabilidad y vali-
dez de la prueba. (Equivalente APA 1985, 3.21; AERA 1999, 3.19)

11.6.El traslado de los materiales de la prueba y su custodia antes y despus de la aplica-
cin, deber hacerse con medidas de seguridad que garanticen que no se produzcan
fugas de la informacin. Tales medidas incluirn deseablemente la utilizacin de
transportes y bvedas de seguridad y cajas selladas, as como procesos de vigilancia
en los momentos clave de entrega, recepcin y distribucin de los materiales, como
presencia de notarios o comisiones de vigilancia y dobles controles del nmero de
pruebas entregadas y recibidas.

11.7.Deber seguirse con cuidado el recorrido de la prueba, para evitar la aplicacin reite-
rada de una misma versin en el mismo lugar en un intervalo reducido de tiempo, para
detectar oportunamente irregularidades y tener elementos sobre el posible retiro de al-
guna versin que pudiera haberse difundido indebidamente.

12. Estndares relativos al desarrollo de la aplicacin

12.1.Los aplicadores debern seguir cuidadosamente los procedimientos estandarizados es-
tablecidos en el manual de la prueba. Debern observarse estrictamente las especifica-
ciones relativas a las instrucciones a dar a los sustentantes, las formas de presentacin
de los items y las de responder, los lmites de tiempo y los materiales de consulta
permitidos. (Equivalente APA 1985, 15.1; AERA 1999, 5.1)

12.2.Los lineamientos relativos a materiales de apoyo que se permitir utilizar durante una
prueba, como calculadoras y diccionarios, se establecern considerando sus caracters-
ticas y las condiciones del conjunto de sustentantes potenciales, de manera que se ase-
gure al mximo la igualdad de condiciones de aplicacin.

12.3.Debern hacerse todos los esfuerzos razonables para asegurar la validez de los punta-
jes obtenidos por los sustentantes eliminando las posibilidades de utilizacin de me-
dios fraudulentos. (Equivalente APA 1985, 15.3; AERA 1999, 5.6)

12.4.Debern ofrecerse adaptaciones, esto es, variantes controladas de la aplicacin, a sus-
tentantes con discapacidades u otras condiciones particulares, salvaguardando la equi-
dad. La informacin sobre la manera de tener acceso a tales variantes controladas (ac-
CENTRO NACIONAL DE EVALUACIN PARA LA EDUCACIN SUPERIOR


34
comodations) deber proporcionarse previamente por igual a todos los sustentantes.
(Equivalente AERA 1999, 11.23)

12.5.Los procedimientos de aplicacin incluirn medidas para verificar la identidad de los
sustentantes y para asegurar la igualdad de condiciones de todos ellos.

12.6.Deber haber un responsable de aplicacin calificado, quien ser la nica persona au-
torizada para tomar decisiones que modifiquen las condiciones de aplicacin en caso
de presentarse circunstancias imprevistas. Este mismo responsable deber ser infor-
mado de toda irregularidad, para la eventual anulacin de los resultados de uno o ms
sustentantes.

13. Estndares relativos a los procesos posteriores a la
aplicacin y a la calificacin

13.1.Los procedimientos para recoger y trasladar los materiales de la prueba debern con-
tar con medidas de seguridad como las utilizadas para su recepcin. Habr normas en
cuanto a su disposicin final: devolucin o destruccin supervisada.

13.2.Las formas que se utilicen para la inscripcin de sustentantes y las hojas de respuesta
se revisarn y prepararn para la calificacin, asegurando la correspondencia del resul-
tado de cada sustentante con su autor y la posibilidad de comparar los resultados de la
prueba con las variables obtenidas para efectos de investigacin.

13.3.El rea responsable de la calificacin de las pruebas deber documentar los procedi-
mientos utilizados para garantizar la calidad del proceso. Deber monitorearse la fre-
cuencia de errores y presentarse la informacin respectiva si se solicita. (Equivalente
APA 1985, 15.5; AERA 1999, 5.8; relacionados 3.22-3.24)

13.4.Si el proceso de calificacin de las pruebas se hace manualmente deber haber una do-
ble verificacin de las claves de respuesta y un control por muestreo de la exactitud del
proceso.

13.5.Si el proceso se hace mediante lector ptico, para elaborar el archivo bsico de los re-
sultados deber haber verificaciones dobles de las claves de respuesta y controles ma-
nuales peridicos por muestreo de la exactitud de la lectura ptica de hojas de res-
puesta.

13.6.En los casos de respuestas construidas u otras formas no convencionales de evalua-
cin, se establecern controles de calidad apropiados a cada caso. Si se emplean pro-
cedimientos de jueceo por expertos, deber haber guas precisas para el trabajo de los
jueces, procesos previos de capacitacin y controles a posteriori de la confiabilidad de
las calificaciones.

ESTNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIN EDUCATIVA

35
13.7.Cuando haya decisiones importantes que dependan de los resultados en una prueba,
como en los procesos de admisin a una institucin o el otorgamiento de licencias pa-
ra el ejercicio profesional, los sustentantes debern tener manera de solicitar que se
verifique la exactitud de sus resultados. Cuando no pueda darse la prueba misma y la
clave de respuestas deber ofrecerse otro medio de verificacin. (Equivalente APA
1985, 15.8)

13.8.En algunos casos puede ser recomendable invalidar o anular los resultados de uno o
ms sustentantes, debido a posibles irregularidades, incluyendo el fraude. Deber
haber criterios y procedimientos definidos para la toma de este tipo de decisiones y
deber informarse de ellos a los sustentantes implicados en tales situaciones. En el ca-
so de pruebas de las que dependan decisiones importantes, como procesos de admi-
sin u otorgamiento de licencias, si una breve investigacin con los elementos dispo-
nibles no permite aclarar la cuestin y se decide anular o suspender un resultado, el
sustentante en cuestin deber ser notificado de los motivos de sospecha y se deber
hacer lo posible por agilizar la revisin subsiguiente y por proteger los intereses del
sustentante. El sustentante deber tener la oportunidad de ofrecer evidencia en su fa-
vor; a solicitud del interesado se proporcionarn elementos relevantes. (Equivalente
APA 1985, 16.7, 16.8 y 16.9; AERA 1999, 8.10-8.13)

14. Estndares relativos a la comunicacin de resultados

14.1.Los resultados de las pruebas debern reportarse en un lapso razonable a todas las
partes involucradas. Adems del puntaje obtenido, y segn el tipo de prueba de que se
trate, deber ofrecerse informacin sobre datos normativos, criterios de referencia o
puntos de corte. Esta informacin deber presentarse en forma tal que un sustentante
tpico pueda interpretarla correctamente.

14.2.Cuando los propsitos de la aplicacin de una prueba incluyan el describir la situa-
cin de una poblacin particular de sustentantes, como la de una regin o institucin,
los criterios para que un individuo sea incluido o excluido de la aplicacin debern
anunciarse claramente y respetarse. (Equivalente AERA 1999, 11.24)

14.3.Los reportes y la informacin que se proporcione a tomadores de decisin o al pbli-
co incluirn adems breves descripciones de propsitos y caractersticas de la prueba,
lo que puede o no medir, las conclusiones y decisiones que pueden basarse en los re-
sultados y otras informaciones que ayuden a evitar interpretaciones inapropiadas. (Re-
lacionado con AERA 1999, 11.18)

14.4.Los contratos que firmen los ODEP con instituciones usuarias de sus servicios estable-
cern expresamente a quin debern entregarse los resultados individuales.

14.5.En el caso de aplicaciones no institucionales, si se pretendiera entregar los resultados
individuales a terceras personas, de manera que fuera posible una identificacin no-
minal, las formas de inscripcin solicitarn expresamente el consentimiento de los
CENTRO NACIONAL DE EVALUACIN PARA LA EDUCACIN SUPERIOR


36
sustentantes para ello, ofrecindoles la informacin necesaria. En caso de que un sus-
tentante no otorgue su consentimiento sus resultados no debern proporcionarse a na-
die ms, a no ser que haya una disposicin legal al respecto. (Relacionado con AERA
1999, 8.5)

14.6.Cuando se publiquen resultados de las pruebas en forma desagregada por grupos
identificados por caractersticas como gnero, grupo tnico y similares, debern in-
cluirse notas aclaratorias en caso de que exista sustento emprico basado en investiga-
ciones fundamentadas para creer que los resultados puedan tener significado diferente
para unos grupos y otros. (Equivalente AERA 1999, 7.8)

14.7.Cuando la publicacin de los resultados implique la asignacin de individuos a ciertas
categoras, stas debern escogerse con cuidado y describirse con precisin, evitando
el uso de etiquetas estigmatizantes. (Equivalente AERA 1999, 8.8)

14.8.Con precauciones que garanticen el anonimato de los sustentantes, los resultados
podrn ser facilitados a investigadores con un inters profesional legtimo. (Equiva-
lente APA 1985, 16.3; AERA 1999, 5.13)

14.9.Cuando los resultados de una prueba se utilicen para algn tipo de certificacin o pro-
mocin, los sustentantes debern tener mltiples oportunidades de presentarla, con el in-
tervalo de tiempo apropiado y/o cuidando que se utilice una versin equivalente diferen-
te.

14.10.Cuando los resultados de una prueba se difundan en los medios de comunicacin,
los responsables de la difusin debern ofrecer informacin que ayude a minimizar la
posibilidad de que se hagan interpretaciones errneas. (Equivalente APA 1985, 6.8;
AERA 1999, 5.10)

14.11.Las organizaciones que conserven resultados obtenidos en pruebas por individuos,
debern tener polticas claras en cuanto al tiempo que conservarn esos resultados, su
disponibilidad y su uso a lo largo del tiempo. (Equivalente APA 1985, 15.11; AERA
1999, 5.16)

15. Estndares relativos a la utilizacin de los resultados

15.1.Adems de la informacin individual de los resultados de las pruebas, los ODEP de-
bern difundir materiales que ayuden a los sustentantes y dems partes interesadas a
usar correctamente dichos resultados como insumos para la toma de las decisiones
pertinentes.

15.2.Ninguna decisin que tenga impacto importante sobre los alumnos deber hacerse
nicamente con base en los resultados de una sola prueba. Se buscar siempre tomar
en consideracin otras informaciones relevantes, si pueden incrementar la validez glo-
bal de la decisin. (Equivalente AERA 1999, 13.7)
ESTNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIN EDUCATIVA

37

15.3.Los ODEP apoyarn a instituciones y otros usuarios de sus pruebas para capacitar al
personal que interprete los resultados, para desarrollar normas locales y, en general,
para que cuenten con la capacidad necesaria para la adecuada utilizacin de los resul-
tados. (Equivalente AERA 1999, 13.4, 13.13)

15.4.Los sustentantes, en particular los que no obtengan resultados satisfactorios, si lo so-
licitan, debern recibir informacin sobre su puntaje bruto y los mnimos considerados
satisfactorios, as como sobre cualquier puntaje parcial relevante para la toma de deci-
siones. (Equivalente APA 11.4)

15.5.Cuidando la confidencialidad de los resultados, los derechos de los sustentantes y los
compromisos que establezcan con instituciones usuarias, los ODEP debern promover
el aprovechamiento de los resultados de las pruebas por parte de las instituciones de
adscripcin de los sustentantes, las de los niveles o ciclos anteriores y subsiguientes y
los sistemas educativos estatales y el nacional, considerndolos como elementos va-
liosos de retroalimentacin para los procesos de revisin curricular y para el monito-
reo de la calidad educativa, que pueden contribuir al diseo y establecimiento de pol-
ticas y mecanismos de mejoramiento ms adecuados. Para ello los ODEP debern ofre-
cer oportunidades de formacin de personal capacitado para interpretar correctamente
los resultados de las pruebas en los organismos usuarios.

15.6.Los ODEP procurarn adems contar con reas especializadas de investigacin que
utilicen los resultados de las pruebas y hagan avanzar el conocimiento terico y meto-
dolgico al respecto. Promovern tambin el aprovechamiento de dichos resultados
por otros investigadores, estableciendo reglas claras que permitan el acceso a la in-
formacin, cuidando el derecho a la confidencialidad de los resultados de personas e
instituciones.

16. Estndares relativos al mejoramiento de las pruebas

16.1.Los ODEP contarn con programas de trabajo de mediano plazo, en los que se es-
tablezca la periodicidad o los criterios para decidir los momentos precisos en que
se realizarn las siguientes actividades:
Las evaluaciones internas y, en su caso, las externas por instancias competen-
tes.
La revisin, correccin o complementacin de los manuales tcnicos, para man-
tener actualizada la informacin destinada a los usuarios e incluir informacio-
nes o advertencias adicionales. (Equivalente APA 1985, 5.5; AERA 1999, 3.26)
La revisin o correccin de las pruebas cuando existan nuevos datos de investi-
gacin, o cuando se den cambios significativos en el dominio representado, o
nuevas condiciones de uso e interpretacin que hagan inapropiado el instrumen-
to para los propsitos para los cuales fue diseado. (Equivalente APA 1985,
3.18; AERA 1999, 3.25)

CENTRO NACIONAL DE EVALUACIN PARA LA EDUCACIN SUPERIOR


38
16.2.Dada la sensibilidad de diferentes acercamientos a la evaluacin en relacin con
diversas habilidades, se promover la utilizacin de enfoques combinados y moda-
lidades alternativas de evaluacin. Se estimular la innovacin y la bsqueda de
acercamientos y formas nuevas de evaluacin asegurando que se haga sobre fun-
damentos consistentes, basados en los resultados de investigaciones previas, e in-
dicando los anlisis que se harn para valorar la calidad y aplicabilidad de las nue-
vas pruebas as desarrolladas.

16.3.Si llegaran a aplicarse versiones de un examen que incluyan reactivos que no al-
cancen los niveles de calidad establecidos o, de cualquier otra forma, la aplicacin
de una prueba no respetara los estndares de calidad contenidos en este documen-
to, se informar con precisin de las implicaciones tcnicas de lo anterior a las au-
toridades responsables de las decisiones relacionadas con las pruebas. Tales situa-
ciones debern ser excepcionales y superarse a la mayor brevedad, de manera que
no se extiendan a ms de una aplicacin. Si se prev que lo anterior no es posible,
la prueba dejar de manejarse como operativa y deber considerarse en etapa de
desarrollo.

ESTNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIN EDUCATIVA

39
Conclusin

UNQUE PUEDA RESULTAR REITERATIVO, conviene repetir tres ideas fundamentales que se
han expresado desde la Introduccin de este documento y en distintos lugares del mismo.

La primera es la de que elaborar un documento sobre instrumentos de evaluacin de tipo obje-
tivo no implica pensar que este acercamiento a la calidad educativa es superior a otros, y mu-
cho menos que es el nico aceptable. Estamos conscientes de que una evaluacin integral im-
plica la utilizacin complementaria de varios acercamientos.

En segundo lugar, el acercamiento comprensivo adoptado en la elaboracin de la lista de
estndares puede llevar a pensar que se considera que un instrumento debe cumplir todos los
criterios simultneamente y en el mismo grado, desde la primera vez que se utiliza. Por el con-
trario, parece claro que el desarrollo de instrumentos de gran calidad es un proceso laborioso y
largo, que implica diversas etapas y aproximaciones sucesivas. Lo que s es fundamental es
que haya conciencia del grado de avance alcanzado, para no utilizar los resultados obtenidos
mediante un instrumento en una forma indebida, que carezca del sustento adecuado. No podra
pedirse que una prueba no se aplique hasta que est perfectamente madura y probada y alcance
un nivel satisfactorio en todos los aspectos considerados en los estndares; pero si debe espe-
rarse que cuando una prueba todava no alcance tales niveles, sus resultados se utilicen con
especial precaucin y se advierta expresamente a los usuarios sobre sus limitaciones.

La tercera idea es que, dado el dinamismo que caracteriza al campo de la psicometra y a la
naturaleza de esfuerzo inicial, en un medio con una dbil tradicin al respecto, que caracteriza
a este documento, la adopcin de una perspectiva de mejoramiento continuo es obligada:
adems de las correcciones que exija la experiencia, y en forma consistente con una nocin
dinmica de calidad, la relacin de estndares que presentamos deber enriquecerse y modifi-
carse teniendo en cuenta los avances del campo de la psicometra y, en general, de las metodo-
logas de evaluacin, as como los de las ciencias cognitivas, tratando de incorporar las mejo-
res prcticas de evaluacin que dichos avances se hagan posibles en el mbito internacional.

Para terminar, reiteramos la esperanza de que este documento sea til a las personas que traba-
jan en el campo de la evaluacin educativa y, ms all de ellas, a todos los que se interesan por
una educacin de calidad.

Mxico, D. F., julio del 2000.
A
CENTRO NACIONAL DE EVALUACIN PARA LA EDUCACIN SUPERIOR


40
ESTNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIN EDUCATIVA

41

Glosario

L VOCABULARIO QUE SE UTILIZA en los trabajos de orientacin psicomtrica incluye
trminos muy especializados, cuyo uso en los medios de habla hispana an no se estanda-
riza, dado el escaso desarrollo de esta tradicin de investigacin. Por ello es conveniente este
Glosario, en el que se incluyen definiciones de trminos tcnicos utilizados en los estndares.

Debe sealarse que algunos de los trminos siguientes adoptan sentidos particulares cuando se
refieren a pruebas llamadas normativas o criteriales (ms precisamente, pruebas construidas
con referencia a normas o con referencia a criterios), o bien cuando se les emplea en el marco
de una u otra de las corrientes vigentes en la psicometra actual, en particular la teora clsica
de las pruebas (classical tests theory, CTT), la teora de la respuesta al tem (item response
theory, IRT) y la teora de la generalizabilidad (generalizability theory), por no hablar de las
variantes de algunas, como los modelos de un parmetro (Rasch) en contraposicin con los de
dos y tres, en IRT. Este glosario no entra en detalle en cuanto a las formas de manejar ciertas
nociones en una u otra de dichas teoras o variantes, y se limita a presentar el sentido bsico de
cada trmino.

Por otra parte, y adems de las diferencias de fondo en cuanto a la definicin exacta de un
concepto, la ausencia de una tradicin psicomtrica fuerte en los medios de habla hispana trae
consigo el que haya tambin diferencias de forma, ms superficiales, debidas a la necesidad de
traducir al espaol neologismos especializados que no existan previamente ni siquiera en
ingls, o tenan un sentido tradicional que corresponde slo aproximadamente al nuevo sentido
tcnico que adoptan en un contexto terico preciso.

Debe decirse test o prueba? Item o reactivo? El plural correcto de tem, en el supuesto de
que se adopte en espaol esta palabra, es items o temes? Debe preferirse fiabilidad, como se
hace en Espaa, o confiabilidad como en Mxico, para traducir reliability? Es lgito una cas-
tellanizacin aceptable de logit? Debe traducirse como chi o como ji la letra griega que, al
parecer, los actuales hablantes helnicos pronuncian de hecho ki? Qu hacer cuando an no
existe un trmino castellano para traducir un neologismo americano como accomodations?

Siguiendo al viejo Horacio, pensamos que estas dudas no se resolvern por decreto de autori-
dad alguna, sino nicamente si place al uso, juez omnipotente, que decide tirnico en las len-
guas.
E
CENTRO NACIONAL DE EVALUACIN PARA LA EDUCACIN SUPERIOR


42

Por ello, sin pretensiones de pontificar ni de sustituir a la Real Academia de la Lengua, el si-
guiente glosario presenta definiciones de trminos tcnicos fundamentales en psicometra, de
acuerdo con el uso ms frecuente en nuestro medio o, en todo caso, de acuerdo con el sentido
que les damos en este documento. En algn caso nos atrevemos a proponer un trmino nuevo,
como el que abre la lista, adaptaciones, por accomodations.

Si no podemos contribuir a la estandarizacin de la terminologa psicomtrica, por lo menos
facilitaremos la comprensin del texto, en beneficio de los lectores no especializados que, pre-
sumiblemente, sern mayora entre quienes consulten este trabajo.


***

ADAPTACIONES. Se traduce el trmino americano accomodations y designa las condiciones
especiales de aplicacin de una prueba que pueden ofrecerse en forma controlada a sustentantes
que tengan alguna dificultad especial, no relacionada con los dominios que se evalan, que pue-
da reducir su desempeo, como discapacidades, habla de una lengua diferente a la de la prueba,
etctera.

ADIVINACIN. Eleccin al azar de alguna de las opciones de un reactivo cuando un susten-
tante no sabe cul es la respuesta correcta. Puede distinguirse la adivinacin simple de la adi-
vinacin informada, segn sea el patrn de azar de la persona. Vase correccin por adivina-
cin.

ADMINISTRACIN. Vase aplicacin de una prueba.

AJUSTE. Medida que seala el grado en que la distribucin efectiva de unos datos empricos
coincide con otra distribucin terica definida previamente con base en algn modelo matem-
tico. Por ejemplo, la correspondencia de la curva caracterstica de un reactivo en relacin con
el modelo logstico.

APLICACIN DE UNA PRUEBA. Proceso por el que un instrumento se aplica a un con-
junto de sustentantes. Se distinguen aplicaciones piloto, cuando el instrumento est en etapa
de construccin, y sus resultados todava no pueden considerarse vlidos ni confiables, y apli-
caciones operativas, cuando la prueba ha alcanzado niveles de confiabilidad y validez acepta-
bles.

BANCO DE ITEMS. Conjunto de reactivos o items calibrados, disponibles para ser usados
en una prueba de acuerdo con una tabla de especificaciones.

CALIBRACIN DE ITEMS. Procedimientos para analizar las propiedades mtricas de los
items, verificando que cumplan con niveles aceptables segn los propsitos de la prueba.

CALIFICACIN, DE UNA PRUEBA. Proceso por el que se verifica si las respuestas dadas
por los sustentantes de una prueba corresponden o no a las que se consideran acertadas.
ESTNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIN EDUCATIVA

43

COEFICIENTE DE CORRELACIN. ndice estadstico del grado en que se relacionan dos
variables. Generalmente se utiliza para validez predictiva y validez concurrente el coeficiente
de correlacin producto-momento de Pearson, y para confiabilidad el coeficiente de correla-
cin Alfa de Cronbach.

CONFIABILIDAD. Cualidad de las mediciones obtenidas con un instrumento, que se caracte-
rizan por ser iguales o consistentes, dentro de cierto rango, cuando se aplican varias veces a un
mismo objeto.

CONSTRUCTO. Variable psicolgica latente (Ej. habilidad verbal, habilidad espacial, ansie-
dad, etctera). Es un concepto terico derivado de la investigacin, que se construye para ex-
plicar patrones de conductas observables.

CONTROL DE RECORRIDO. Registro de lugares y fechas en que se aplican las diversas
formas alternas de un instrumento, para fundamentar las decisiones relativas al momento ade-
cuado para retirar cada una de ellas, buscando evitar el riesgo de que los sustentantes puedan
tener un conocimiento previo de su contenido que distorsione los resultados.

CORRECCIN POR ADIVINACIN. Transformacin de los puntajes de una persona res-
tando una parte proporcional de los errores, bajo la hiptesis de que las respuestas incorrectas
son producto de la adivinacin.

CRITERIAL, PRUEBA. Instrumento diseado de manera que los resultados obtenidos por
un sustentante se comparen con un nivel previamente definido que se considera satisfactorio o
aceptable. Vase criterio.

CRITERIO. En evaluacin referida a criterio, indicador de un valor aceptable de un resultado
de ejecucin o aprendizaje. En otro sentido, en lo relativo a validez de criterio, predictiva o
concurrente, un criterio es una variable dependiente del modelo de correlacin utilizado; en
este caso la variable independiente es el puntaje obtenido en la prueba y se denomina predic-
tora. Vase medidas de criterio.

CRUDOS, DATOS O PUNTAJES. Generalmente se refiere al nmero de respuestas correc-
tas que tiene un sustentante en una prueba; es decir, sin ningn tratamiento estadstico aplica-
do a los resultados.

DESEMPEO. Resultado obtenido por un sustentante en una prueba.

DESEMPEO COMPETENTE. Se refiere al desempeo esperado en el rea profesional
para la cual se est evaluando a un sustentante.

DICOTMICAS, DECISIONES. Se refiere al tipo de decisiones que se toman a partir de
los resultados de una prueba, en donde slo hay dos opciones (aceptado - no aceptado; apro-
bado - reprobado, etctera).

CENTRO NACIONAL DE EVALUACIN PARA LA EDUCACIN SUPERIOR


44
DIFICULTAD, NDICE O GRADO DE. Caracterstica de un reactivo que hace que un
nmero mayor o menor de sustentantes lo responda correctamente. En teora clsica se mide a
partir del porcentaje de personas que responden correctamente a un reactivo. En modelos
logsticos se refiere a la probabilidad de respuesta incorrecta en lgitos.


DISCRIMINACIN, PODER DE. Caracterstica de un reactivo que hace que las respuestas
permitan distinguir con ms o menos claridad el nivel de desempeo de los sustentantes. En
teora clsica se basa en la medida en que un reactivo diferencia entre individuos de mayor y
menor dominio. En los modelos logsticos se relaciona con la pendiente en el punto de in-
flexin de la curva caracterstica del reactivo.

DISTRACTORES. En pruebas de opcin mltiple son aquellas opciones que constituyen
respuestas incorrectas o invlidas de un tem o reactivo. El anlisis de distractores consiste en
estudiar si los sustentantes seleccionan los distractores en la forma prevista al disearlos o no.

DISTRIBUCIN NORMAL. Distribucin correspondiente a la curva de Gauss. En puntua-
ciones referidas a porcentajes se trata de la distribucin terica de frecuencias con una media
del 50% y desviacin estndar de 16.67%.

DOMINIO. Conjunto de conocimientos, habilidades, destrezas, actitudes u otros rasgos que
tiene las siguientes propiedades: lmites, extensin y definicin, de tal modo que puede esta-
blecerse la pertenencia o no de un reactivo a ese conjunto o dominio o diferenciarse de otro
reactivo del mismo.

EJECUCIN, PRUEBAS DE. Variantes de las pruebas de respuesta construida que piden
al sustentante la realizacin de una actividad.

ENSAYO, PRUEBAS O PREGUNTAS DE. Variantes de las pruebas de respuesta construi-
da que piden al sustentante la redaccin de un texto.

EQUIVALENTES. Se refiere a que las versiones que se usen de una misma prueba, tengan
las mismas caractersticas y propsitos y que sean similares en cuanto a sus medidas estadsti-
cas (media, desviacin estndar y correlaciones con otras medidas).

ERROR ESTNDAR DE MEDIDA. Desviacin estndar de la distribucin de los errores
de medida, que resultan de la aplicacin de una prueba a un grupo especfico de sustentantes,
permitiendo definir intervalos de confianza.

ERROR DE MEDIDA. Diferencia entre una medida observada y la correspondiente medida
real.

ESCALA. Propiedad mtrica de un instrumento de medida con las siguientes caractersticas:
unidades, extensin, distribucin y rango.

ESTNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIN EDUCATIVA

45
ESPECIFICACIONES, TABLA DE. Documento bsico para la construccin de una prueba.
Incluye especificaciones sobre la prueba en conjunto (dominios, peso de reas, temas o con-
ductas a cubrir, destrezas a evaluar) y especificaciones sobre los items, con indicaciones sobre
su formato y reglas para considerarlos adecuados.

ESTABILIDAD. Caracterstica de una escala de medicin cuyas propiedades mtricas se
mantienen constantes, dentro de ciertos rangos, a lo largo del tiempo.

ESTANDARIZACIN. Transformacin de datos crudos en trminos de una distribucin
terica. Generalmente se usa la distribucin normal y corresponde a la distancia respecto a la
media en unidades de desviacin estndar. Sinnimo de normalizacin.

ESTNDAR. Principio del valor o calidad en la conduccin y uso de los procedimientos de
evaluacin. Estos son generalmente acordados por expertos en evaluacin.

ESTIMACIONES. Valores esperados de una variable en funcin de un modelo.

EXAMEN. Vase prueba.

FORMAS ALTERNAS. Versiones equivalentes de una misma prueba.

IGUALACIN, MTODOS DE. Mtodos estadsticos a posteriori utilizados para hacer
equivalentes formas o versiones de una prueba, en cuanto a su dificultad.

TEM, REACTIVO O PREGUNTA. Planteamiento de un problema o cuestionamiento para
conocer el resultado del aprendizaje, el desempeo de una habilidad o destreza o la muestra de
una actitud dentro de un dominio.

JUECEO. Mtodo en el cual se utiliza la opinin de jueces o expertos para determinar entre
otras cosas: la pertinencia de la validez de los reactivos respecto a un dominio, el estableci-
miento de estndares o puntos de corte, la calificacin de preguntas de respuesta no estructu-
rada, de portafolios, etctera.

LICENCIA DE EJERCICIO PROFESIONAL. Permiso para desempear una actividad que
requiere de cierta preparacin. En unos lugares se da en forma automtica al trmino de unos
estudios; en otros implica la sustentacin de pruebas especiales.

LMITE DE TIEMPO. Duracin mxima que se establece en algunas pruebas para que los
sustentantes las respondan.

LGITO. Medida adimensional obtenida como logaritmo del momio en los modelos logsticos.
Se refiere en un mismo eje tanto a la dificultad de los reactivos como a la habilidad de los sus-
tentantes.

MANUAL TCNICO. Documento que contiene los elementos de fundamentacin y planea-
cin de un instrumento de evaluacin, as como los resultados de los anlisis de validez, con-
CENTRO NACIONAL DE EVALUACIN PARA LA EDUCACIN SUPERIOR


46
fiabilidad y otros, necesarios para que se considere adecuado utilizarlo para los propsitos para
los que fue diseado.

MEDIDAS DE CRITERIO. En estudios de validez concurrente o predictiva se refieren al
criterio externo con que se correlaciona el resultado de las pruebas, v.gr. calificaciones obteni-
das mediante otras formas de evaluacin.


MUESTRA. Subconjunto de unidades que forman parte de un conjunto mayor, del que pue-
den ser o no representativas. El muestreo (al azar u otro) consiste en los procedimientos de
seleccin de muestras que tengan una representatividad estimable en relacin con la poblacin
o universo del que se tomen.

NORMATIVAS, PRUEBAS. Instrumentos diseados de manera que se pueda comparar el
resultado obtenido por una persona con los valores estadsticos de un grupo de referencia.

OPCIN MLTIPLE. Items o preguntas cuya respuesta consiste en la eleccin, por parte
del sustentante, de una entre varias opciones preestablecidas, de las cuales slo una es correcta
y las dems, llamadas distractores, no lo son. La expresin se aplica tambin a las pruebas
conformadas nicamente por preguntas de este tipo.

ORDENAMIENTOS. Formas alternas de una misma prueba que comparten los mismos reac-
tivos pero en diferente orden o los mismos reactivos en el mismo orden pero con las opciones
intercambiadas.

OTL. Iniciales de Opportunity to Learn (Oportunidad de aprender). Al analizar los resultados
obtenidos en una prueba por sustentantes de diversas escuelas, regiones y aun pases, hay pro-
cedimientos que pueden aplicarse para tener en cuenta la diversidad de planes de estudio y de
exposicin a ciertos contenidos, controlando su influencia en los resultados.

PERFIL DE REFERENCIA. Conjunto de conocimientos, habilidades, destrezas o actitudes
que se espera que un sustentante cumpla. El perfil es la gua para el diseo de la tabla de espe-
cificaciones del contenido de una prueba.

PILOTEO, APLICACIN PILOTO. Aplicacin preliminar de una prueba para calibrar los
reactivos en trminos del tiempo de ejecucin, ndice de dificultad, poder de discriminacin u
otros valores psicomtricos. Vase aplicacin.

PORTAFOLIOS. Procedimiento de evaluacin que consiste en una muestra de productos
debidos a un sustentante, que refleja su competencia en ciertos aspectos.

PRUEBA, EXAMEN O TEST. Instrumento de medicin compuesto de reactivos, diseado
para medir el nivel de ejecucin de un individuo o de un grupo en un dominio o constructo
dado. Se distinguen las pruebas normativas, o construidas con referencia a normas, y las crite-
riales, o construidas con referencia a criterios.

ESTNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIN EDUCATIVA

47
PUNTAJE. Resultado obtenido por un sustentante en una prueba. Puede distinguirse el punta-
je total o puntajes parciales, que correspondan a subdivisiones particulares. Tambin se distin-
gue el puntaje crudo, que es simplemente el nmero o porcentaje de respuestas correctas, y
puntajes normalizados o estandarizados.

PUNTO BISERIAL. ndice de correlacin tem-test cuando se hace una particin de un gru-
po de personas en dos niveles (alto y bajo) en un punto establecido arbitrariamente en funcin
del nmero de aciertos.

PUNTO DE CORTE. En pruebas con referencia a un criterio, es el puntaje mnimo o criterio a
superar para considerar que el desempeo de una persona es satisfactorio y distinguirlo de otro
que no lo es.

REGRESIN ECUACIONES DE. Expresin matemtica de la relacin funcional entre dos
o ms variables. Generalmente se utilizan mtodos de mnimos cuadrados para obtener las
ecuaciones de regresin.

REPRESENTATIVIDAD. Propiedad de una muestra en relacin con el universo o la pobla-
cin de la que se extrajo. Cuando se aplica a una muestra de reactivos significa que el conjunto
que constituye una prueba permite hacer inferencias acerca del dominio o universo que se pre-
tende medir.

RESPUESTA CONSTRUIDA. Items que requieren del sustentante una respuesta abierta, sin
limitarse a seleccionar una opcin. Pueden ser de ejecucin o de ensayo. La expresin se apli-
ca a las pruebas con este tipo de items.

SESGO. Tendencia o error sistemtico en la medicin de un conocimiento o habilidad.

TEST-ANCLA. Se refiere a la incorporacin de un porcentaje de reactivos iguales en diferen-
tes versiones de una prueba, para asegurar su equivalencia.

VALIDEZ. Coincidencia entre una variable emprica y un concepto terico. En el caso de
pruebas, equivalencia de las dimensiones de la realidad representadas por los puntajes obteni-
dos por los sustentantes y los dominios definidos conceptualmente al disearlas. Es el funda-
mento de las inferencias y decisiones que pueden hacerse legtimamente con base en la prue-
ba. Actualmente, ms que hablar de tipos de validez, esta nocin se entiende en forma unitaria,
y se distinguen ms bien varias fuentes de evidencias de validez.

VALIDEZ DE CONTENIDO. Fuentes de evidencia de la validez de una prueba que se basan
en el juicio de expertos, que establecen si la prueba es una muestra adecuada o representativa
del dominio que se pretende evaluar. Se favorece en la medida en que la definicin del domi-
nio sea clara, se verifique la calidad tcnica de los reactivos y el sistema de muestreo de stos
sea adecuado.

VALIDEZ DE CONSTRUCTO. Fuentes de evidencias de validez basadas en la consistencia
entre el perfil referencial y la prueba. El nfasis est dado en sustentar el grado en que los pun-
CENTRO NACIONAL DE EVALUACIN PARA LA EDUCACIN SUPERIOR


48
tajes en la prueba representan una caracterstica de la medida del atributo latente que se supo-
ne evala la prueba.

VALIDEZ DE CRITERIO. Fuentes de evidencias de validez basadas en la correlacin entre
los resultados obtenidos en una prueba y otra variable externa que se considera mide las mis-
mas dimensiones de la realidad, y se define como criterio. Cuando ambas mediciones se refie-
ren a desempeos que tienen lugar aproximadamente al mismo tiempo, se habla de validez
concurrente; en este caso, por lo general, la variable criterio consiste en los resultados de otras
pruebas o formas de evaluacin semejantes. Si la medicin del criterio externo es posterior, se
habla de validez predictiva. Un ejemplo es la correlacin entre los resultados de una prueba de
ingreso y las calificaciones de los sustentantes un tiempo despus, v. gr. durante el primer ao
de los estudios a los que ingresaron.

VERSIONES. Formas que puede tomar una prueba tanto en sus caractersticas mtricas como
de contenido. Se hacen a partir de una misma tabla de especificaciones de un banco de reacti-
vos, seleccionando reactivos diferentes o los mismos reactivos en varios ordenamientos. Pue-
den incluir test-ancla.

ESTNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIN EDUCATIVA

49
Referencias bibliogrficas

1. AAHE (1992). Principles of Good Practice for Assessing Student Learning. The AAHE Assess-
ment Forum. Washington. American Association for Higher Education.

2. AMERICAN EDUCATIONAL RESEARCH ASSOCIATION, AMERICAN PSYCHOLOGICAL
ASSOCIATION, NATIONAL COUNCIL ON MEASUREMENT IN EDUCATION (1999). Stan-
dards for educational and psychological testing. Washington. AERA.

3. ----- (1997). Standards for educational and psychological testing. Washington. APA. Reimpr.
1985.

4. ANGOFF, WILLIAM H. Ed. (1971). The College Board Admissions Testing Program: A technic-
al report on research and development activities relating to the Scholastic Aptitude Test and
Achievement Tests. New York. College Entrance Examination Board.

5. BROWN, FREDERICK G. (1980). Guidelines for Test Use: A commentary on the Standards for
Educational and Psychological Tests. National Council on Measurement in Education.

6. DEGRACIE, JAMES S., BEVERLY MERRIL y JAMES K. ZAHARIS (1996). Implications of
Using the Revised Program Evaluation Standards in Local Education Agencies. Journal of Expe-
rimental Education. Vol. 63 No. 1 pp. 45-53.

7. DOHERTY, AUSTIN y GERALD W. PATTON (1991). Criterion Three and the Assessment of
Student Academic Achievement. NCA Quarterly. Vol. 66 No. 2.

8. DONLON, THOMAS F. (1984). The College Board Technical Handbook for the Scholastic Apti-
tude Test and Achievement Tests. New York. College Entrance Examination Board.

9. GRADUATE RECORD EXAMINATION BOARD (1988). GRE Guide to the Use of the Gradu-
ate Record Examinations Program. Princeton. Educational Testing Service.

10. MARTINEZ ARIAS, ROSARIO (1995). Psicometra: Teora de los tests psicolgicos y educati-
vos. Madrid. Ed. Sntesis.

11. ORY, JOHN C. (1992). Meta-Assessment: Evaluating Assessment Activities. Research in High-
er Education. Vol. 33 No. 4.

CENTRO NACIONAL DE EVALUACIN PARA LA EDUCACIN SUPERIOR


50
12. THE JOINT COMMITTEE ON STANDARDS FOR EDUCATIONAL EVALUATION. JAMES
R. SANDERS, CHAIR (1994). The Program Evaluation Standards. How to Assess Evaluations of
Educational Programs. 2d. Ed. Thousand Oaks. Sage.

13. THE JOINT COMMITTEE ON STANDARDS FOR EDUCATIONAL EVALUATION. (1981).
Standards for Evaluation of Educational Programs, Projects and Materials. 1st. Ed. Sage. (Hay
edicin en castellano de Trillas).

14. THE JOINT COMMITTEE ON TESTING PRACTICES (1989). Code of Fair Testing Practices
in Education. American Psychologist.

15. THOMPSON, B. (1996). The revised Program Evaluation Standards and their correlation with
the evaluation use literature. Journal of Experimental Education. Vol. 63 No. 1 pp. 54-82.

16. WESTERN ASSOCIATION OF SCHOOLS AND COLLEGES (1992). Principles of Good Prac-
tice in Assessment. In Achieving Institutional Effectiveness Through Assessment. Oakland.
WASC.
ESTNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIN EDUCATIVA

51
Consejo Asesor Externo


Lic. Felipe Martnez Rizo
Coordinador del Consejo
Universidad Autnoma de Aguascalientes

Mtro. Eduardo Backhoff Escudero
Instituto de Investigacin y Desarrollo Educativo
Universidad Autnoma de Baja California

Dr. Arturo de la Orden Hoz
Departamento de Medicin e Investigacin y Desarrollo en Educacin
Universidad Complutense de Madrid

Dr. Agustn Tristn Lpez
Ingeniera y Estadstica Especializada

Dra. Sylvia Schmelkes del Valle
Departamento de Investigaciones Educativas
CINVESTAV

Dr. Guillermo Solano-Flores
Wested, California


PARTICIPANTES POR EL CENEVAL.

Mtro. Rafael Vidal Uribe
Secretario Tcnico del Consejo
Direccin Tcnica
CENEVAL

Dra. Sandra Castaeda Figueiras
Coordinacin del EGEL de Psicologa y Pedagoga - Ciencias de la Educacin
CENEVAL

Anda mungkin juga menyukai