Evaluacion

2009 / Ao de Homenaje a Ral SCALABRINI ORTIZ
2009
hacia una cultura de la Evaluacin

ONE 2009 / Censo
AUTORIDADES
Presidenta de la Nacin Dra. Cristina Fernndez de Kirchner Ministro de Educacin Prof. Juan Carlos Tedesco Secretario de Educacin Prof. Alberto Sileoni Subsecretario de Planeamiento Educativo Lic. Osvaldo Devries Director Nacional de Informacin y Evaluacin de la Calidad Educativa Lic. EDUARDO ARAGUNDI
Elaboracin: rea Evaluacin de la Calidad Educativa Coordinadora: Sonia Hirschberg Equipo responsable: Mirta Leon Patricia Scorzo Jorge Novello
Diseo Grfico: Karina Actis Juan Pablo Rodrguez Coralia Vignau
Hacia una cultura de la Evaluacin / ONE 2009 / Censo
ndice
Presentacin............................................................................................................................................... Pg. 5
Primera Parte. Hacia una cultura de la Evaluacin Educativa Evaluacin: nuevos significados para una prctica compleja, por Alicia Bertoni, Margarita Poggi y Marta Teobaldo............................................................................. Pg. 7 Evaluacin educativa: una aproximacin conceptual, por Nydia Elola y Lilia Toranzos................................................................................................................ Pg. 15 La evaluacin educativa, un criterio consolidado, por IIPE Buenos Aires-............................................ Pg. 17 Evaluacin Nacional y Evaluaciones Internacionales, por el equipo de la DiNIECE................................ Pg. 21 Qu pretendemos evaluar, qu evaluamos y qu conclusiones podemos extraer de la evaluacin?, por Alejandro Tiana Ferrer............................................................................ Pg. 27 Las evaluaciones educativas que Amrica Latina necesita, por P. Ravela, P. Arregui, G. Valverde, R. Wolfe,G. Ferrer, F.M.Rizo,M. Aylwin y L.Wolff............................................................... Pg. 35 Una mirada tcnico-pedaggica acerca de las evaluaciones de calidad educativa, por Felipe Martnez Rizo........................................................................................................................... Pg. 49
Segunda Parte. El Operativo Nacional de Evaluacin 2009
Marco de Referencia, por Alicia Cayssials. ............................................................................................... Pg. 53 Evaluacin, enfoques metodolgicos,por Mariela Leones y Jorge Fasce................................................ Pg. 57
Adenda 1 / Capacidades cognitivas ONE 2009....................................................................................................... Pg. 69 2 / Evaluacin Nacional y Evaluaciones Internacionales.......................................................................... Pg. 73 Glosario...................................................................................................................................................... Pg. 77
Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin
Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa Ministerio de Educacin Paraguay 1657 2do piso Of. 201 Ciudad. de Buenos Aires - C1062ACA Tel. (+5411) 4129-1448/9 Fax. 4129-1447 E-mail: diniece@me.gov.ar Pgina Web: http://me.gov.ar/diniece
Presentacin
En los ltimos aos, el proceso de elaboracin de los instrumentos de evaluacin y de anlisis de resultados, tanto a nivel nacional como internacional, se ha ido complejizando. Con el reemplazo de los modelos tradicionales de pruebas por el de modelos fundados en la llamada teora de respuesta al tem, se ha iniciado un proceso de innovacin que implica la necesidad de desarrollar nuevas capacidades y tecnologas para la elaboracin de instrumentos y la produccin e interpretacin de resultados. Por otro lado tambin se advierte el desarrollo de una tendencia a nivel internacional que seala el involucramiento de mayor cantidad de actores, tanto en el diseo de los procesos evaluativos como en el uso de la informacin que los mismos proporcionan. Esto implica que la evaluacin est dejando de ser un dispositivo que utilizan slo los gobiernos y los investigadores para pasar a ser una herramienta para los propios actores del sistema educativo. Es en este sentido que la DINIECE se compromete a desarrollar todo tipo de acciones para propiciar la participacin y el compromiso de supervisores, directivos, maestros y familias en el camino hacia la construccin de una cultura de la evaluacin en nuestro pas. Se propone, asimismo, fortalecer la dimensin poltica de la evaluacin lo que implica lograr que los resultados impacten en las prcticas educativas a travs de nuevas estrategias de llegada a las escuelas y las familias y la construccin de mejores escenarios para la devolucin y difusin de los resultados.
Esta publicacin intenta cumplir con los objetivos arriba mencionados, por un lado su amplia difusin a funcionarios, supervisores y directores de escuelas medias, pretende contribuir a enriquecer los marcos tericos y metodolgicos, por otro presenta los debates ms significativos que se estn dando en el mbito internacional. El primer trabajo de Bertoni, Poggi y Teobaldo nos sealan la importancia de la participacin de los actores en todo proceso de evaluacin. Tiana nos presenta las preguntas que tenemos que considerar al iniciar un proceso de evaluacin y el equipo de PREAL define las caractersticas que deben tener las evaluaciones en Amrica Latina. Martnez Rizo realiza un anlisis sobre los aspectos tcnico- pedaggicos de las evaluaciones. Por ltimo Fasce y Leones exponen los enfoques metodolgicos relacionados con el censo en el ltimo ao de la escuela secundaria que se realizar en nuestro pas en el mes de septiembre de este ao. En una adenda incorporamos algunos documentos elaborados por los equipos tcnicos de evaluacin, que consideramos de gran utilidad para el trabajo de este ao: el listado de las capacidades cognitivas a considerar en el censo 2009, un anlisis de las evaluaciones nacionales e internacionales realizadas en nuestro pas y un glosario con los trminos tcnicos que utilizamos cotidianamente en nuestra tarea. Esperamos que este material sea de utilidad para compartir en cada uno de los lugares de trabajo y para actualizar y enriquecer la tarea de cada uno de nosotros.
Primera Parte. Hacia una cultura de la Evaluacin Educativa
Evaluacin: nuevos significados para una prctica compleja

Los significados de la evaluacin educativa: alternativas tericas
La evaluacin educativa nos confronta con el abordaje de un espacio de conflicto, que permite analizar articulaciones o fracturas entre supuestos tericos y prcticas pedaggicas. En efecto, todo proceso de evaluacin pone en evidencia mltiples aspectos, relacionados con las caractersticas y procesos de la institucin educativa, los proyectos institucionales, los estilos de gestin, las propuestas curriculares y editoriales, las particularidades de los docentes y de los alumnos, etc. Podemos afirmar, sin lugar a dudas, que nos enfrentamos a un punto neurlgico de la relacin educativa. Ms all de las diferentes perspectivas que han abordado la cuestin de la evaluacin, nos parece importante sealar que sta constituye siempre una actividad de comunicacin en la medida en que implica producir un conocimiento y transmitirlo, es decir, ponerlo en circulacin entre diversos actores involucrados. En tanto accin comunicativa, la evaluacin padece las mismas vicisitudes que toda comunicacin entre los sujetos sociales implicados en ella. Aun cuando pueda plantearse en diferentes niveles, como el del sistema educativo, la institucin o el aula, la evaluacin implica siempre una serie de aspectos comunes que siguen una secuencia lgica y cronolgica aunque, en la prctica, algunos de ellos sean omitidos. Nos referimos a: - el relevamiento de informacin a travs de diversos procedimientos como la observacin, los documentos, las producciones, etctera; - el anlisis de los datos segn marcos de referencia que orientan la lectura de stos; - la produccin de conclusiones, en algunos casos expresadas en juicios de valor, que traduce el anlisis en proposiciones sobre el objeto evaluado, o, en otros casos, la produccin de datos cuantitativos, cifrados, que muestran algn otro aspecto de dicho objeto; - la comunicacin a los actores involucrados en el proceso evaluativo o la divulgacin a otros de las conclusiones elaboradas; - aunque no necesariamente se deriva de los puntos mencionados, la toma de decisiones para intervenir activa e intencionalmente en los procesos y resultados sobre los cuales se emiti el juicio evaluativo. A pesar de que las instancias mencionadas constituyen una secuencia, su ejecucin no es, necesariamente, lineal. El anlisis de los datos, por ejemplo, puede requerir el relevamiento de alguna informacin adicional o complementaria; la comunicacin de los resultados a los actores implicados puede llevar a cierta reconsideracin de las conclusiones, etctera. Por lo dems, segn cul sea el paradigma que da sentido a la evaluacin educativa, algunos puntos se priorizarn sobre los otros o adquirirn diferentes significados.
La articulacin del campo educativo con otros campos: implicancias para la evaluacin
Una definicin amplia de evaluacin pone el acento en que esta actividad consiste en la atribucin de un juicio de valor a una realidad observada. Ahora bien, cuando la realidad que se evala se vincula con los aprendizajes de los alumnos en el contexto de la vida escolar, el juicio de evaluacin que se emite compromete a otros niveles con los que se articula el mbito escolar. Esto es as porque, como veremos, los mbitos del aula y de la escuela se inscriben en el campo educativo, el cual, a la vez, se articula con otros campos sociales y se encuentra, en distintas situaciones histricas, sobredeterminado por alguno de ellos. Empleamos la nocin de campo en el sentido en que la define Pierre Bourdieu, es decir, como espacios de juego histricamente constituidos con sus instituciones especficas y sus leyes de funcionamiento propias. En este sentido, se habla de campo educativo, de campo econmico, de campo poltico, etctera. Volviendo entonces al campo educativo, podemos decir que se articula con otros campos, como el cientfico, el artstico o el tecnolgico, y que se encuentra, en nuestro contexto histrico-social, sobredeterminado, en buena medida, por el campo poltico y por el campo econmico. Si dentro del campo educativo nos situamos ahora en el mbito del aula, podremos observar que lo que sucede dentro de sta tiene repercusiones extraescolares, que se explican por las articulaciones y sobredeterminaciones antes mencionadas. Este fenmeno es evidente en el caso de la evaluacin, no slo por la articulacin entre el campo educativo y otros campos, sino tambin por la funcin social que aquella cumple. Efectivamente, en la medida en que la evaluacin sanciona la adquisicin o no de los aprendizajes que se
consideran necesarios para el desempeo social, sus resultados repercuten no slo sobre el sujeto evaluado y su entorno inmediato en las circunstancias presentes, sino que tienen un efecto expansivo, no necesariamente visible, sobre su insercin futura en otros campos. Podemos ver cmo tiene lugar este proceso situando el anlisis en el nivel del aula. La observacin de lo que sucede con la evaluacin de los aprendizajes en el aula permite a un observador atento construir un entramado de relaciones entre actores y entre campos, que se constituyen con la puesta en marcha del dispositivo de evaluar y, sobre todo, con los resultados derivados del mismo. En este sentido, el mbito del aula involucra no slo a los protagonistas que en buena medida lo conforman, a saber, los docentes y los alumnos, sino tambin a otros actores sociales, cuya visibilidad depende del grado de proximidad que guarden con los miembros de la relacin educativa: padres, familiares, amigos, futuros empleadores, etctera. La evaluacin, en su nivel ms visible, opera como un eje que articula el juego entre tres tipos de actores: docentes, alumnos y padres, o quienes desempeen el rol sustituto de stos. Pone en contacto a los protagonistas de los actos educativos con los padres, que son actores puente entre lo escolar y lo extraescolar. En realidad, la evaluacin es la instancia por excelencia, en trminos de los asuntos que suelen poner en relacin a los tres tipos de actores, porque sus resultados tienen repercusin sobre la trayectoria educativa de los alumnos, sobre sus posibilidades futuras ms all del campo educativo, sobre las expectativas de los padres y sobre la responsabilidad del maestro1. Por esta razn, docentes, alumnos y padres entran en relacin a propsito de las calificaciones. En la escuela juegan el juego de las notas porque en las instituciones educativas se producen, negocian y distribuyen calificaciones, que circulan luego en otros campos, bajo la forma de certificaciones, con valor en el mercado. Estos procesos de produccin, negociacin y distribucin de las calificaciones asumen caractersticas particulares en el interior de las escuelas y de las aulas. Las reglas de juego, formales o informales, explcitas o implcitas, que se configuran entre docentes, alumnos y padres a propsito de la evaluacin, se relacionan con las caractersticas institucionales y con la manera en que aquellos actores desempean sus roles, es decir, con la manera en que juegan el juego en tanto sujetos vinculados por la evaluacin. En esto inciden las concepciones o ideas que tienen acerca de ella, la importancia que le asignan, las estrategias de sobrevivencia desarrolladas para jugar el juego en las condiciones dadas, etctera. As, por ejemplo, los docentes califican a sus alumnos en funcin de sus concepciones sobre la evaluacin, sus expectativas sobre los alumnos, su mayor o menor contaminacin con las rutinas escolares. Los alumnos, por su parte, responden a las evaluaciones segn el grado de inters que tengan por lo aprendido, segn las estrategias que hayan desarrollado para pasar una prueba o un examen, etc. Por otro lado, los padres se interesan por las calificaciones de sus hijos y ejercen, segn los casos, presiones sobre stos o sobre los maestros.
En un nivel menos visible, la evaluacin pone en evidencia la vinculacin entre los dos actores presentes en la relacin pedaggica (docentes y alumnos) y un actor virtual: los futuros empleadores. Esta relacin se percibe con mayor dificultad cuanto ms alejado est el alumno del mercado laboral. Sin embargo, en la relacin pedaggica siempre est en juego el valor social de los alumnos en tanto futuros trabajadores y ello remite, necesariamente, a la relacin entre lo que se ensea y aprende en la escuela, por un lado, y las exigencias que se derivan del mundo de la produccin, por otro. En este sentido, juegan el juego los docentes, los alumnos y un actor social implcito, constituido por los agentes del mercado del empleo. Ms all de las condiciones econmico-sociales que inciden en la distribucin desigual del capital cultural, los procesos que fabrican el fracaso escolar en el interior de las escuelas (Ph. Perrenoud, 1990) demoran o interrumpen, por repeticin o desercin, el juego de los alumnos en tanto actores de ese proceso de formacin y, por ello, ponen en peligro su valor social en el futuro mercado de trabajo. Esto sucede, bsicamente, por dos razones: en primer lugar, porque el capital cultural en estado incorporado es insuficiente, es decir porque los habitus como disposiciones duraderas relacionadas con conocimientos especficos, valores, habilidades, etc., han carecido del tiempo necesario para su adquisicin y, en segundo trmino, porque el capital cultural en estado institucionalizado, bajo la forma de certificaciones o ttulos, no ha llegado a obtenerse2. En cuanto a las relaciones entre los actores de este juego, son particularmente notorias en nuestros das: los empresarios juzgan el valor y la calidad de los contenidos educativos y de la formacin de los docentes; stos, a la vez, discuten los parmetros en los que aqullos fundamentan sus juicios y los alumnos, a su turno, se incorporan a este dilogo cuando estn en condiciones de comprender la importancia que tiene para su futuro la calidad de la enseanza a la que tienen acceso, y esperan o requieren transformaciones sustantivas de ella. Por ltimo, en el entramado de relaciones al que venimos haciendo referencia, la evaluacin pone en evidencia que, en el orden social, los docentes son trabajadores que deben responder a las orientaciones que formulan los responsables de la toma de decisiones en nombre de las necesidades pblicas. Lo que est en juego en este orden es, tericamente, la satisfaccin de necesidades sociales especficas; lo cual implica, en el campo educativo, retraducciones de estas ltimas en diversos niveles de especificidad y en mltiples dimensiones. Ello significara, por ejemplo, que los fines y objetivos del sistema educativo sean congruentes con las necesidades y demandas sociales relevadas; que exista
1 Bourdieu P.: Cosas Dichas, Barcelona, Gedisa, 1988 2 Bourdieu P., Les trois tats du capital culturel, Actes de la Recherche en Sciences sociales, Pars N 30, noviembre de 1979.
coherencia entre las finalidades y objetivos formulados y la estructura del sistema educativo y sus formas de gestin; que la propuesta curricular sea compatible con los aspectos mencionados y significativa en trminos de la demanda y requerimiento sociales, etctera. La identificacin de los actores del mbito escolar y el anlisis de la imbricacin de sus prcticas con las de otros actores que operan en otros campos muestran por qu la evaluacin remite necesariamente a otros espacios extraescolares como el campo econmico y el campo social. En este sentido, puede decirse que la evaluacin est sobredeterminada y es multidimensional. Estas caractersticas se pueden advertir cuando se analizan algunos de los procesos que se inician en el mbito pedaggico. Se observa, por ejemplo, que, cuando los docentes evalan las realizaciones de sus alumnos atribuyndoles calificaciones, van creando, en el proceso de asignacin de puntajes, realidades inexistentes hasta ese momento: buenos alumnos, malos alumnos, etc. De esta manera, no slo se atribuye un valor a lo que los alumnos producen, sino a los alumnos mismos, con lo que se cae en el conocido riesgo de anticipar el destino escolar del sujeto y con ello su futuro valor social (en el espacio econmico, particularmente). Por otra parte, aun cuando los docentes no vinculen directamente estas realidades a su propia actividad, sta resulta de alguna manera evaluada; particularmente los malos o insuficientes resultados que alcanzan sus alumnos suelen llevarlos a cuestionar la pertinencia social de su tarea en el campo social y su rentabilidad en el campo econmico. De esta forma, cada acto de evaluacin, por las sobredeterminaciones que operan sobre l, se encuentra, como las muecas rusas, en el corazn de una serie de otros actos que lo envuelven3. Se podra proceder a un anlisis parecido con los alumnos y con los padres si se quisiera analizar las implicaciones econmicas y sociales que tienen las evaluaciones para estos actores.
Las intenciones de la evaluacin
Los usos sociales de la evaluacin

La multidimensionalidad de los actos evaluativos, producto de sus articulaciones y sobredeterminaciones, conduce a poner en duda la unidad y coherencia de lo que se designa con el trmino evaluacin. Algo similar ocurre cuando se analizan los diversos usos sociales que se hacen de sta. Cuando se considera el problema de la utilizacin de los resultados, puede observarse que el empleo de ellos est vinculado bsicamente a: - las intenciones de la evaluacin; - las acciones derivadas de los resultados.
Si nos preguntamos por qu se evala, la cuestin remite inmediatamente a la intencin de quien construye el objeto de evaluacin (conocer las respuestas de los alumnos a un conjunto de situaciones problemticas, por ejemplo). Si, en cambio, el interrogante est referido a para qu se evala, la preocupacin refiere a los efectos de la evaluacin sobre la accin (qu se har con los resultados). En el primer caso, los propsitos o intenciones del evaluador dependen de cul sea su concepcin sobre la evaluacin. Las intenciones ms reconocidas son las de medir, apreciar y comprender, que se corresponden con sus respectivas filosofas subyacentes. La intencin de medir el objeto est presente cuando ste se considera desde la perspectiva del desempeo o actuacin (performance) del sujeto. Pero resulta imposible medir con objetividad las realizaciones de los alumnos en una prueba, cuando se pretende dar cuenta de sus conocimientos y competencias, porque los comportamientos educativos no pueden ser aprehendidos de manera indiscutible con un instrumento de medicin. No hay relacin, en este caso, entre las propiedades del instrumento que se quiere emplear y las propiedades del objeto que se pretende medir. Jacques Ardoino y Guy Berger4 establecen una distincin entre la evaluacin estimativa, que constituye un enfoque que prioriza lo cuantitativo, y la evaluacin apreciativa, que privilegia lo cualitativo. En el primer caso, la intencin es efectuar una lectura de lo real lo ms prxima posible a la medicin. Como no se posee una unidad de medida indiscutible, se trata, en primer trmino, de circunscribir, de delimitar ciertas caractersticas de la realidad a estudiar y de estimarlas luego de la manera ms objetiva posible valindose de consideraciones de tipo cuantitativo. Es conocida, en este sentido, la experimentacin con un nuevo programa de estudios o con nuevos mtodos de enseanza para estimar en qu medida mejoran, a partir de su aplicacin, los resultados educativos alcanzados hasta el momento. Tambin se evala para apreciar, para determinar el valor de un objeto o realidad dada, con referencia a ciertos criterios preexistentes. La evaluacin apreciativa puede dar lugar, sin embargo, al desarrollo de dos orientaciones que se corresponden con dos filosofas diferentes. Por una parte, a la evaluacin apreciativa con un modelo predeterminado, que presupone un referente previo, anterior a toda recoleccin de informacin. El referente orienta la lectura de la realidad, y la evaluacin consiste en la bsqueda de los indicadores que permitan dar cuenta del estado del objeto con relacin al referen-
3 Hadji C., L valuation des actions ducatives, Pars, PUF, 1992, p. 22. 4 Ardoino J. y Berger G., Dune valuation en miettes une valuation en actes, Pars, ANDSHA-Matrice, 1989.
10
te. En la evaluacin de los alumnos, ste puede consistir, por ejemplo, en los perfiles de logro como perfil tipo previamente establecido. La evaluacin procurara apreciar en qu medida las realizaciones de los alumnos se vinculan a los indicadores seleccionados como indicadores de logro. Cuando la evaluacin parte de criterios predeterminados, responde, en general, a las caractersticas descriptas y sigue procedimientos anlogos. Por otro lado, la evaluacin apreciativa sin modelo predeterminado expresa una concepcin de la evaluacin que se fundamenta en la interpretacin. Es aquella que se interroga por el sentido. Evaluar el funcionamiento de una clase o de una escuela implica, dentro de esta metodologa, construir -en el proceso mismo de investigacin- el referente apropiado, es decir, aquel que permita aprehender la singularidad del aula o de la escuela que se evalan. Se apunta a comprender el objeto, no a juzgarlo. Se evala, entonces, para volver inteligible la realidad, para aprehender su significacin. En este contexto, evaluar las realizaciones de los alumnos significa comprender sus maneras de resolver las situaciones planteadas, considerar sus errores como indicadores de problemas a descifrar, etc. En el mismo sentido, ms que evaluar el cumplimiento de los objetivos, interesa comprender las razones por las cuales stos son o no alcanzados y entender qu representa esta situacin en trminos didcticos.
del conocimiento de los datos, lo que puede conducir, por ejemplo, a suministrar informaciones parciales. La evaluacin est siempre relacionada, entonces, con un contexto decisional dado. Tambin el uso interno de los resultados puede ser diverso segn las finalidades perseguidas por quien evala y el tipo de evaluacin empleada. Cuando se trata de una evaluacin diagnstica, el docente procura informacin acerca de los saberes y competencias que poseen sus alumnos en trminos de requerimientos necesarios para una secuencia futura de aprendizajes. En este caso, los resultados obtenidos constituyen una informacin de base para adoptar las decisiones que se estimen ms adecuadas: reforzar los contenidos o proseguir con la secuencia iniciada. Cuando se emplea la evaluacin sumativa para comprobar en qu medida los alumnos han adquirido los conocimientos esperados y las competencias correspondientes, la informacin orienta la decisin de promoverlos de grado, por ejemplo, o de otorgarles una certificacin que acredite el trmino del nivel. En la evaluacin formativa, la decisin est directamente vinculada a la seleccin y puesta en prctica de secuencias de contenidos y de estrategias pedaggicas que se consideran como las ms adecuadas para mejorar los resultados obtenidos. En este sentido, la informacin que provee la evaluacin sirve para fundar decisiones pedaggicas. En resumen: podemos decir que tanto el por qu se evala (intenciones) como el para qu se evala (uso de los resultados) determinan el tipo de evaluacin empleada. Por otra parte, segn la forma que adopte la evaluacin, los resultados permitirn tomar decisiones de orden estrictamente pedaggico (como en el caso de la evaluacin diagnstica o formativa) o decisiones vinculadas a la certificacin, la acreditacin o a polticas educativas orientadas hacia el sistema (como en el caso de la evaluacin sumativa). Desde la perspectiva de los docentes, estas ltimas formas de evaluacin tienen, obviamente, menos inters que aquellas que aportan informacin directa para su tarea. En el mismo sentido, interesa menos la objetividad de los instrumentos de evaluacin que su utilidad, en trminos de la informacin que permiten obtener sobre las producciones de los alumnos.
Las acciones derivadas de los resultados
Los resultados de la evaluacin tienen relacin directa con el objetivo de ella, con la pregunta de para qu se evala. En este sentido, es importante tener en cuenta que la relacin entre quin o quines evalan y el objeto de evaluacin (los saberes de los alumnos, por ejemplo) no es independiente del contexto en el cual aqulla se realiza. En efecto: cualquiera sea la forma que adopte, la evaluacin se inscribe siempre en un mbito de decisiones. Aun en sus formas ms frecuentes y simples, como en el caso de la evaluacin implcita, que tiene lugar en la interaccin cotidiana entre maestros y alumnos, aqulla sirve al docente para tomar decisiones sobre sus prcticas en el aula. Tenga o no conciencia de que la realiza, el maestro releva una informacin a partir de la cual organiza la interaccin con sus alumnos en trminos de lo que considera mejores condiciones para el aprendizaje. Cuando la evaluacin tiene carcter institucional, en cambio, su modalidad es explcita; es un acto deliberado, organizado, que se efecta empleando metodologas e instrumentos de carcter variado, generalmente complejos. En este caso, el uso social externo o interno de los resultados depender, en parte, del tipo de informacin que permitan obtener los instrumentos empleados y, en parte, de las decisiones previamente adoptadas, o bien de aquellas que se adopten a partir de la obtencin de los datos. Puede ocurrir tambin que el uso que se haga de la informacin obtenida sea producto de una transaccin entre las decisiones iniciales y las que se derivan
Algunas observaciones sobre la accin de evaluar

Conforme a lo que se ha venido sealando, podra decirse que evaluar implica, siempre, tomar distancia de la realidad que se analiza para poder pronunciarse sobre ella en un contexto decisional dominante (Hadji, 1992). La afirmacin poder pronunciarse acerca de la realidad requiere ciertas precisiones.
11
La evaluacin como lectura orientada: la construccin del referente

En primer lugar, evaluar supone efectuar una lectura orientada sobre el objeto que se evala, en funcin de la cual el evaluador se pronuncia sobre la realidad. Dicho de otra manera, no existe una lectura directa de la experiencia. Hay siempre un proceso de interaccin entre el evaluador y la realidad a evaluar. En ese proceso, en funcin de las propiedades de la realidad a evaluar, el evaluador construye el referente, es decir, aquello con relacin a lo cual se va a efectuar la evaluacin, aquello que le permitir pronunciase sobre la realidad que evala. En la investigacin a la que haremos referencia en el transcurso de este libro, construimos el referente a partir de los datos relevados mediante la administracin de una encuesta a docentes, en la que indagamos, entre otros aspectos, cules eran los contenidos que realmente se enseaban. Pudimos as construir el referente, que se configur como currculum real. Ms adelante explicaremos cmo tuvo lugar ese proceso. Es necesario precisar ahora que en la construccin del referente intervienen distintos factores. Por una parte, inciden las expectativas que conciernen al propio objeto evaluado como, por ejemplo, el nivel de rendimiento esperado en los alumnos. En ste sentido, cuando se evala una realidad dada, se procura comprobar si sta presenta las caractersticas que se esperan de ella. Por otra parte, la constitucin del referente se vincula a la concepcin de evaluacin que se sustenta, los propsitos que se derivan de sta y el contexto decisional en que se inserta el proceso evaluativo. Veamos este punto. Si se trata, por ejemplo, de la construccin de un sistema de evaluacin en una jurisdiccin dada, el referente ltimo puede estar constituido por el currculum prescripto. Sin embargo, por razones que obedecen estrictamente a la concepcin de evaluacin subyacente, a los propsitos derivados de ella y al contexto decisional en el que se inserta la evaluacin, se puede -en una primera etapa- partir de un referente constituido por aquello que los maestros afirman ensear en los distintos grados del nivel que se evala. En este caso, el relevamiento del mapa curricular real permite construir el referente y especificar los criterios para evaluar las realizaciones de los alumnos. En una segunda etapa, el referente puede ser lo que debera ensearse segn el juicio de los maestros (recogido mediante instrumentos adecuados) y segn los resultados que arroje la evaluacin de lo realmente enseado. En esta metodologa de evaluacin, el referente tiene un carcter provisorio y se traslada progresivamente del campo del ser (lo que se ensea) al del deber ser (lo que debera ensearse). El carcter progresivo en la construccin de los referentes permite instancias de evaluacin que, partiendo de lo real, incluyen, progresivamente, lo prescripto. Estos principios metodolgicos responden a una concepcin orientada a recabar, desde el inicio, informacin prxima al campo de experiencia de los protagonistas
de la relacin pedaggica para que los resultados obtenidos a travs de la evaluacin permitan a los docentes reorientar los procesos de enseanza. Por otra parte, una evaluacin que opera por niveles como los sealados facilita el anlisis de las sucesivas transposiciones del currculum prescripto, en las expectativas de los maestros sobre lo que debera ensearse, y en el currculum real. De esta forma, es posible introducir, en las metodologas de evaluacin, modificaciones que tiendan a poner los procesos evaluativos al servicio de la accin pedaggica. Slo con la construccin del referente hemos dado un ejemplo acerca de cmo pueden comenzar a producirse cambios respecto a lo que se pone en juego en el mbito pedaggico. Ms adelante mostraremos que la metodologa genera tambin transformaciones en los papeles de los actores y en las reglas del juego que los relacionan. Volviendo ahora al anlisis del proceso de evaluacin, es necesario sealar que al referente se aade un conjunto de criterios que guan tanto la construccin de los instrumentos de evaluacin como los procesos de valoracin posteriores. Por otra parte, los criterios tambin operan en los procesos de seleccin de lo que se quiere evaluar e intervienen, asimismo, en la construccin de los indicadores y de los datos resultantes de la evaluacin. En este sentido, tanto el objeto que se evala como el proceso de valoracin son construidos por el sujeto que evala. En la evaluacin, como en cualquier otro acto de conocimiento, no se capta nunca directa y totalmente la realidad examinada. sta es siempre objeto de un proceso previo de definicin o de eleccin de los caracteres que permitirn aprehenderla[...]Formulado de otra forma, no basta con decir que la evaluacin lleva a la realidad; todava falta construir o adoptar los indicadores de la realidad considerada. Desde este punto de vista, la evaluacin plantea el conjunto de cuestiones planteado de forma ms amplia por los procesos de produccin de conocimientos5. Veamos ahora, a manera de ilustracin, algunos de los pasos necesarios en la construccin del objeto. Una vez que el propsito de la evaluacin ha sido determinado (conocer, por ejemplo, las realizaciones de los alumnos en un rea de conocimiento y en un nivel especfico), se hace necesario fijar los criterios para evaluar las respuestas producidas por los alumnos y construir los indicadores correspondientes (tipo y nivel de conocimientos esperables, competencias requeridas, etc.). En este proceso, la seleccin de los contenidos curriculares por evaluar supone tambin partir de criterios que permitan efectuar un recorte tcnico en relacin con los contenidos enseados y con las respuestas valoradas como deseables. As, la decisin implica poner en juego una concepcin pedaggica determinada y operar con un marco epistemolgico especfico.
5 Barbier J.M, La evaluacin de los procesos de formacin, Madrid, Paids, 1993, p 66.
12
El proceso de construccin del objeto supone, entonces, proceder por recortes sucesivos de la realidad, los cuales se realizan conforme a criterios con independencia de que estn o no explicitados. Por esta razn, los indicadores que se construyen no cubren nunca la totalidad de la realidad que se evala; como se habr comprendido, al evaluar siempre se introduce un esquema de lectura de la realidad que circunscribe, recorta, reduce lo observable. En cuanto a los procesos de valoracin de los resultados, nos remitimos a lo sealado anteriormente acerca de que la evaluacin, en tanto adjudicacin de un juicio de valor a una realidad dada, supone siempre una lectura orientada, filtrada por el referente y por los criterios que constituyen una explicitacin de este ltimo. Es conveniente aclarar, asimismo, que los procesos de valoracin dependen, por otra parte, de la pertinencia de los instrumentos de evaluacin construidos, es decir, de la adecuacin entre el tipo de instrumento elaborado y las caractersticas de los procesos educativos que se desee aprehender. Como veremos ms adelante, la construccin del objeto y los procesos de valoracin pueden ser el resultado de una metodologa como la que fragmentariamente presentamos como ejemplo, de un enfoque ms cualitativo (en el cual el objeto y la valoracin se construyen en el proceso de evaluacin) o de una combinatoria de ambos paradigmas.
quisiramos sealar que pueden identificarse dos caractersticas que permanecen como elementos constantes en toda actividad evaluativa: 1. Siempre constituye una lectura orientada (tanto cuando asume formas de control como cuando se trata de la evaluacin apreciativa con referente predeterminado o de la evaluacin interpretativa). 2. Siempre consiste en un pronunciamiento acerca de la realidad.
Los mltiples significados de la palabra evaluacin

Como accin comunicativa, la evaluacin nos permite una aproximacin a ella desde el punto de vista semntico7. Tanto en el diccionario, como en las acepciones ms habituales del trmino, o aquellas asociadas con l, aparecen involucrados diferentes significados. Recuperemos algunos de ellos: Verificar / medir / valorar / comprender / aprehender / conocer Juzgar / comparar / constatar / apreciar / decir / ayudar Cifrar / interpretar / estimar / experimentar / posicionar / expresar No obstante, los diferentes trminos -en ocasiones complementarios, en otras opuestos- implican distintas perspectivas desde el punto de vista de la evaluacin educativa. Analicemos algunos de ellos, tratando de poner algn orden en la lectura. Podramos afirmar que de los trminos enunciados pueden desprenderse, por lo menos, dos perspectivas sobre la evaluacin. En primer lugar, evaluar parece involucrar el hecho de medir con precisin; en este sentido, expresar una cantidad precisa, cifrada. En otras palabras, alude a expresar una medida cuantificada. En segundo lugar, evaluar implica operaciones como estimar, apreciar, aprehender, en otros trminos, pronunciar un juicio cualitativo y, eventualmente, aproximativo sobre una realidad. Evaluar es en consecuencia un trmino bien singular que puede expresar una cosa y su contrario: lo preciso y lo aproximado, lo cuantitativo y lo cualitativo8. Es imposible, por lo tanto, no destacar el grado de ambigedad presente en la evaluacin y lo que ello implica a la hora de generar y producir prcticas evaluativas en las instituciones escolares.
La construccin de los resultados

Con respecto al producto de la evaluacin, tambin concierne al evaluador construir los resultados de la evaluacin, construir los datos, lo referido (con relacin al referente). Ello significa relevar en la realidad los signos -los indicadores- que den cuenta de la presencia de los criterios previamente establecidos. Desde este punto de vista, lo que se denomina prueba de evaluacin tiene por funcin hacer aparecer los signos buscados6. Para que esto sea posible, las pruebas deben satisfacer el requisito de la pertinencia a fin de que pueda observarse la relacin existente entre los indicadores (estructura del razonamiento de los alumnos, estrategias que ponen en juego para la resolucin de los problemas, etc.), el referente y los criterios en funcin de los cuales se evala. Si la metodologa adoptada se fundamenta en una concepcin segn la cual la construccin del referente y de los resultados debe responder a la intencin de contribuir al mejoramiento de las prcticas educativas, tambin el juicio del evaluador debe servir a ese propsito. En este sentido, ms all de la utilidad de las calificaciones obtenidas, en trminos de informacin pertinente para la gestin y de inters para los padres, docentes y alumnos, resulta indispensable una devolucin cualitativa de la informacin. Como cierre de este apartado y en funcin de lo que se ha analizado hasta ahora sobre la multidimensionalidad de la evaluacin y la variacin de sus usos sociales,
6 Hadji, op. cit. p. 36. 7 Barlow M., Lvaluation scolaire. Dcoder son langage, Lyon, Chronique Sociale, 1992, p. 60 y s.s. 8 Barlow M., op. cit., 1992, p. 63.
13
Por otra parte, ms all de estas dos grandes posiciones sealadas, aparecera, en algunos de los trminos que se asocian a la evaluacin, la idea de ayuda, sostn o apoyo, con lo que ello implica desde el punto de vista educativo.
La evaluacin y el control
En funcin de esta ambigedad del trmino, que refleja lo que sucede en las prcticas evaluativas, Jacques Ardoino y Guy Berger presentan la evaluacin como un Jano moderno con un doble perfil: un lado muestra un perfil filosfico, en la medida en que toda evaluacin plantea el problema del valor, del sentido y de la significacin de aquello que se evala (lo que requiere un tratamiento cualitativo); el otro lado muestra un perfil tcnico, ya que la evaluacin constituye un dispositivo compuesto por mtodos, tcnicas e instrumentos empleados para dar cuenta y rendir cuenta (de manera cuantitativa) de los resultados obtenidos. Ese perfil se asocia con la nocin de control. Para los autores mencionados, sin embargo, ambas nociones pertenecen a dos rdenes diferentes y a dos paradigmas epistemolgicos distintos. Veamos la significacin de cada uno de los trminos. La palabra control tiene su origen en la lengua francesa, en la contraccin de la expresin contrerle, empleada para designar el doble registro necesario para autenticar las escrituras. Adoptada por numerosas lenguas, la expresin ha conservado a lo largo del tiempo el sentido administrativo de su origen. En nuestra vida cotidiana la palabra expresa mltiples y diversas situaciones: control administrativo, control financiero, control fiscal, control policial, control aduanero, control industrial, control de calidad, etctera. La mayor parte de los instrumentos de medicin que empleamos son instrumentos de control. Tambin implican operaciones de control los mecanismos cibernticos que regulan la transmisin y recepcin de informacin en sistemas simples o complejos. En el campo educativo, los exmenes, el registro de asistencias, las amonestaciones, etc., son procedimientos explcitos de control. Esta diversidad de usos y acepciones ha conducido a considerar el control como un sistema, un dispositivo y una metodologa, constituidas por un conjunto de procedimientos que tiene por objeto (y objetivo) establecer la conformidad (o la no conformidad), y aun la identidad, entre una norma, un patrn, un modelo y los fenmenos u objetos con los que se los compara, y en ausencia de esta conformidad o identidad, establecer la medida de su diferencia9. Es importante retener, para la comprensin de este trmino y su ulterior comparacin con el de evaluacin, que el control se efecta a partir de un elemento externo y anterior (desde el punto de vista lgico, no necesariamente cronolgico) al acto mismo del control. Los exmenes y las amonestaciones, por ejemplo, existen, en tanto instrumentos, con anterioridad a la instancia de
su aplicacin y con independencia de ella. De manera totalmente opuesta, la evaluacin -de acuerdo con su propia etimologa- implica la problematizacin sobre los valores y sobre el sentido de lo que ocurre en la situacin observada. Evaluar es aprehender las significaciones propias, particulares de los actos humanos. Importa ms, en esta acepcin, la aprehensin de los significados que la coherencia o conformidad con un modelo dado. La cuestin del sentido introduce otra diferencia sustancial: mientras el control siempre opera a partir de un solo y nico referente, que es el patrn de medida como norma homogeneizadora de lo que se mide, la evaluacin es multireferencial en tanto debe aprehender significaciones heterogneas. Est siempre abierta al sentido y, por lo mismo, es inacabada. A diferencia de los acontecimientos que se miden a travs de instrumentos de control, la evaluacin se aplica a procesos humanos en los cuales la dimensin temporal es histrica e irreversible porque consiste en el tiempo vivido. Por lo tanto, no puede estar referida a estructuras objetivas en el mismo sentido que el control, que mide los acontecimientos conforme al tiempo cronolgico: un ao, un mes, una semana, etctera. La comprensin de las caractersticas especficas de los procesos de control y evaluacin permite advertir que la oposicin entre ambos es, en realidad, una cuestin que excede el problema de los mtodos y de las tcnicas de cada uno. Se trata, ms bien, de un problema epistemolgico que se traduce en la confrontacin entre dos paradigmas distintos. Sin embargo, ms all de la oposicin entre ambos procesos, se ha observado que ellos comparten ciertas funciones comunes, indispensables para la regulacin crtica de la accin. Regulacin, en el sentido que permiten ajustar las acciones con relacin a un objetivo establecido, y crtica, porque dicho ajuste se realiza a partir de una lectura orientada. Esta propiedad compartida por ambos procesos conduce a considerar que la regulacin crtica de la accin puede ser concebida a lo largo de un continuum constituido por dos polos: el control, por un lado, y la evaluacin interpretativa, por el otro. Dentro de ese continuum se ubica, hacia el polo del control, la evaluacin estimativa, que, como se vio anteriormente, se inclina hacia lo cuantitativo. En cierta forma, tambin la evaluacin apreciativa con un referente predeterminado tiene ciertas propiedades que la relacionan con el control en el sentido de que, si el referente est totalmente explicitado, el proceso evaluativo consiste en verificar, en la realidad, en qu medida aqul ha sido alcanzado. En cambio, la evaluacin apreciativa sin referente predeterminado se ubica en el polo de la evaluacin, toda vez que carece de un modelo referencial y apela a la interpretacin de la realidad observada. Se ubican en
9 Ardoino y Berger, op. cit., p. 12.
14
esta lnea, fundamentalmente, las orientaciones basadas en el paradigma interpretativo, que, como veremos ms adelante, plantean la construccin del referente en el proceso mismo de evaluacin. La introduccin del concepto de regulacin crtica permite separar la evaluacin estimativa de la medicin en sentido estricto. Entre ambas existe una frontera, ya que el objetivo de toda medicin es hacer una descripcin cuantitativa de la realidad, efectuar una lectura de ella lo ms objetiva posible. La evaluacin estimativa, en cambio, no tiene como nico objetivo medir, sino emitir un juicio a partir de los datos que la medicin provee. Este tipo de evaluacin pone de manifiesto que la realidad que se evala no puede -en sentido estrictoser medida, pero, adems, que la intencin dominante no es slo conocer sino regular. Recordemos el ejemplo que dimos a propsito de este tipo de evaluacin cuando se empleaba en situaciones experimentales a partir de la incorporacin de un nuevo programa o mtodo, destinado a mejorar los aprendizajes. En ese caso, la informacin suministrada por la evaluacin para estimar la medida en que la innovacin curricular o metodolgica mejoraba los resultados estaba al servicio de la regulacin del proceso de enseanza, permitiendo as introducir modificaciones en este ltimo. A pesar de que tanto el control como la evaluacin cumplen una funcin de regulacin crtica para la accin, ambos procesos pueden ser necesarios porque dicha funcin tiene un carcter distinto en cada caso. Habitualmente, sin embargo, suelen utilizarse los conceptos de medicin y evaluacin de manera confusa y poco discriminada. El trmino evaluacin, por ejemplo, es empleado de manera genrica y subsume prcticas muy heterogneas, que incluyen las de medicin en el sentido estricto de control. Parece adecuado suponer, como lo hacen Ardoino y Berger, que las connotaciones negativas que afectan al proceso de control inhiben la explicitacin de su uso en las situaciones en que se lo
emplea, con lo cual se induce a errores o confusiones conceptuales, por una parte, y se anula o limita la posibilidad de su uso, por otra10. En resumen, el control y la evaluacin son funciones interdependientes, idealmente complementarias pero, sin embargo, tericamente distintas por los paradigmas en que se fundan. En efecto, mientras en los casos en que se opera a partir del control se procede a establecer el grado de conformidad de un objeto o de una situacin con relacin a una norma o a un sentido dado, en la evaluacin, el sentido se construye en el proceso de interaccin y de intercambio de significaciones. Ambos procesos son necesarios para la inteligibilidad y la regulacin de las acciones, aunque no podran ser ubicados en el mismo registro, porque el tipo de informacin que proveen es diferente. La consideracin de algunas de las caractersticas propias de las metodologas del control y de la evaluacin muestra sus diferencias y su posible complementariedad. En el primer caso, el anlisis de situaciones y de comportamientos, individuales o colectivos, supone interesarse por indicadores, construidos en funcin de criterios que, a la vez, remiten a los paradigmas fundantes. A este conjunto se agregan los instrumentos para medir o apreciar los efectos o resultados. Desde otra perspectiva, que se relaciona con los anlisis de tipo cualitativo, interesa describir e interpretar el sentido de las situaciones observadas. La complementariedad de los enfoques permitira indagar sobre las causas de los resultados cuantitativos obtenidos, es decir, sobre el fundamento de ellos, incorporando el uso de instrumentos que permitan recoger informacin adicional de carcter cualitativo. Tal complementariedad permitira trabajar en el nivel de lo implcito, de los presupuestos, de los esquemas de valoracin, etc., que operan en la dinmica de la interaccin de los actores, en las distintas fases del proceso evaluativo.
10 Ardoino y Berger, op. cit.
15
Evaluacin educativa: una aproximacin conceptual

Resulta oportuna, en trminos generales, la definicin propuesta por T. Tenbrink: Evaluacin es el proceso de obtener informacin y usarla para formar juicios que a su vez se utilizarn en la toma de decisiones. a) Las funciones de la evaluacin
En trminos generales se pueden reconocer diferentes funciones frecuentemente atribuidas a la evaluacin, las mismas no son excluyentes sino complementarias y algunas se explican a travs de las ideas ms generalizadas que se tienen sobre la evaluacin y otras se relacionan directamente con un concepto ms completo y complejo de estos procesos. funcin simblica: los procesos de evaluacin transmiten la idea de finalizacin de una etapa o ciclo; se asocia con frecuencia la evaluacin con la conclusin de un proceso, an cuando no sea este el propsito y la ubicacin de las acciones evaluativas cabe tener presente que para los actores participantes en alguna de las instancias del proceso, ste adquiere esta funcin simblica. funcin poltica: tal como se sealara en el apartado anterior una de las funciones ms importantes de la evaluacin es su carcter instrumental central como soporte para los procesos de toma de decisiones. Esta funcin es claramente poltica ya que la evaluacin adquiere un rol sustantivo como retroalimentacin de los procesos de planificacin y la toma de decisiones sobre la ejecucin y el desempeo de los programas y proyectos. funcin de conocimiento: en la definicin misma de evaluacin y en la descripcin de sus componentes se identifica como central el rol de la evaluacin en tanto herramienta que permite ampliar la comprensin de los procesos complejos; en este sentido la bsqueda de indicios en forma sistemtica implica necesariamente el incremento en el conocimiento y la comprensin de los objetos de evaluacin. funcin de mejoramiento: en forma complementaria con la funcin de conocimiento y la identificada como funcin poltica, esta funcin destaca el aspecto instrumental de la evaluacin en tanto permite orientar la toma de decisiones hacia la mejora de los procesos o fenmenos objeto de evaluacin. En la medida que se posibilita una mayor compresin de los componentes presentes es factible dirigir las acciones hacia el mejoramiento en trminos de efectividad, eficiencia, eficacia, pertinencia y/o viabilidad de las acciones propuestas. funcin de desarrollo de capacidades: con carcter secundario, ya que no forma parte de los objetivos centrales de cualquier accin evaluativa, los procesos de evaluacin a travs de sus exigencias tcnicas y metodolgicas desempean una importante funcin en trminos de promover el desarrollo de competencias muy valiosas. Si se aprovechan adecuadamente las instancias de evaluacin, stas contribuyen a incrementar el desarrollo de dispositivos tcnicos institucionales valiosos y poco estimulados habitualmente. Estas competencias se refieren por ejemplo a la prctica sistemtica de observaciones y mediciones, de registro de informacin, de desarrollo de marcos analticos e interpretativos de la informacin, de inclusin de la informacin en los procesos de gestin, de desarrollo de instrumentos para la recoleccin de informacin, etc.
b)Para qu se evala
La pregunta por la finalidad de la evaluacin constituye uno de los ejes centrales junto con la definicin del objeto a ser evaluado. En trminos generales y en funcin de las definiciones adoptadas permiten identificar algunas finalidades principales de todo proceso evaluativo: diagnstico, pronstico, seleccin y acreditacin estas finalidades no necesariamente se plantean como excluyentes pero s determinan opciones metodolgicas diferenciales. La finalidad de diagnstico enfatiza los componentes vinculados con la produccin sistemtica de informacin calificada con el objeto de orientar la toma de decisiones, la gestin. La finalidad de pronstico enfatiza el valor predictivo que pueda tener la informacin que se produce, es decir las acciones evaluativas persiguen como propsito la produccin de informacin con alto potencial anticipatorio y explicativo sobre los fenmenos o procesos objetos de evaluacin. La finalidad de la seleccin pone el nfasis en la utilizacin que tiene la informacin producida por la evaluacin con propsitos de seleccin, un ejemplo claro de esto son los exmenes de ingreso a diferentes instituciones educativas cuyos aspirantes superan el nmero de vacantes disponibles. En estas circunstancias se opta por alguna estrategia de evaluacin que con frecuencia se justifica adjudicndole un valor pronstico a estos resultados.
16
La finalidad de acreditacin es la que ms se vincula con este valor social simblico que tiene la evaluacin. En estos casos en nfasis est puesto en las consecuencias que los resultados de la evaluacin tienen para el individuo o la institucin objeto de evaluacin ya que de su resultado depende la continuidad de los estudios para un sujeto o la interrupcin parcial de su carrera escolar, etc..
c)Los mbitos de la evaluacin

Si bien las imgenes ms frecuentes sobre la evaluacin se refieren a la misma aplicada a los alumnos, es importante tener en cuenta que los puntos centrales sealados en este trabajo son tambin aplicables a diferentes mbitos de la evaluacin educativa. Frente a la tarea, es necesario precisar -junto con la finalidad de la evaluacin el mbito dnde la misma tendr lugar y procurar definir las herramientas metodolgicas consideradas ms adecuadas para ese mbito, tanto en las tareas de recoleccin cuanto de sistematizacin y anlisis de la informacin. De este modo es posible diferenciar la evaluacin: de los aprendizajes. de las instituciones. del sistema educativo. de los programas o proyectos.
d) A modo de sntesis
Todo proceso de evaluacin exitoso debe observar algunos requerimientos indispensables o atender a cierto conjunto de premisas. En primera instancia debe entenderse que toda accin evaluativa es una forma particular de intervencin en la realidad. Cualquiera que sea la/s estrategia/s metodolgica/s adoptada/s los objetos de evaluacin sufren algn tipo de modificacin como consecuencia de esta intervencin. Este es un elemento que debe tener presente el evaluador, por una parte para no producir interferencias en demasa en el desarrollo habitual de las acciones y por la otra Para ponderar este efecto en la eleccin de las estrategias metodolgicas por ejemplo y el balance general de los resultados de la evaluacin. En segunda instancia toda evaluacin, por su naturaleza, requiere de criterios establecidos respecto de los cuales se formulen los juicios valorativos. Ya se seal anteriormente que el componente valorativo es uno de los elementos diferenciales de la evaluacin respecto de cualquier otro tipo de indagacin y en este sentido la formulacin, definicin o construccin de criterios resulta un requerimiento ineludible. En tercer lugar y teniendo en cuenta lo sealado en apartados anteriores, dado que toda accin evaluativa se sustenta en la produccin de informacin y en la bsqueda de indicios sobre aquellos procesos o fenmenos
no visibles en forma simple, es imposible plantear una evaluacin que abarque todos los aspectos a considerar, que incluya todos los componentes de un programa o proyectos, que indague sobre todos los procesos de gestin, etc. Por el contrario cualquier planteo al respecto implica siempre ciertos lmites conceptuales, metodolgicos, operativos, pero en todos los casos son lmites que suponen alguna forma de acotamiento de los alcances de la evaluacin. La informacin constituye el insumo bsico sobre el que se producen los procesos de evaluacin por lo tanto el rigor tcnico dirigido hacia la seleccin las fuentes, las formas de recoleccin, registro, procesamiento y anlisis, as como la confiabilidad y validez resultan exigencias insoslayables a la hora de llevar a cabo cualquier tipo de evaluacin. Las caractersticas mismas de los procesos evaluativos traen como consecuencia una notable movilizacin por parte de todos los sujetos de que una u otra manera se ven involucrados en ellos. Por ello es necesario considerar en trminos generales quienes son los sujetos alcanzados de una y otra forma por las acciones evaluativas y generar entre ellos cierta base de consenso y aceptacin. Esto contribuye a evitar la resistencia propia que generan este tipo de acciones en parte debido a la endeble cultura evaluativa que en general se observa. La comunicacin amplia sobre las finalidades de las acciones de evaluacin, los procedimientos predominantes, la utilizacin de los resultados, la difusin de los mismos son estrategias que promueven una mayor aceptacin entre los involucrados. La relevancia y la oportunidad son, por ltimo, dos requisitos bsicos para que las acciones de evaluacin tengan significacin. La relevancia se refiere a la centralidad de el/los objetos de evaluacin, es decir, la complejidad de un proceso de evaluacin se justifica en la medida en que se lleve a cabo alrededor de problemas, aspectos o fenmenos relevantes. En el mismo sentido la oportunidad es la cualidad de la ubicacin temporal adecuada del proceso de evaluacin y en especial de sus resultados. Un proceso de evaluacin exitoso lo es en buena medida en tanto sus resultados se encuentren disponibles en el momento adecuado, para incidir en la toma de decisiones, en los procesos de gestin en forma oportuna.
17
La evaluacin educativa, un criterio consolidado.

Introduccin
A tono con la tendencia internacional, en la Argentina se va consolidando el criterio de establecer sistemas de medicin de la calidad de la enseanza, para evaluar el nivel de educacin que se imparte en las aulas. En este informe se plantea la evolucin que han tenido en el sistema educativo los instrumentos que apuntan a medir la calidad de la enseanza. Ms que un anlisis exhaustivo de los resultados, se ofrecen aportes para intentar explicar las causas de su surgimiento y expansin, las metodologas empleadas y las distintas concepciones acerca de para qu y por qu evaluar.
Los sistemas de evaluacin en Amrica Latina y en Argentina

Prcticamente todos los pases de Amrica latina han iniciado, con distinto grado de aplicacin, algn tipo de programa de evaluacin del sistema educativo. As lo seala un informe del PREAL (Programa de Promocin de la Reforma Educativa en Amrica latina y el Caribe), que ubica a Mxico y Chile entre los pases de la regin que ms experiencia han desarrollado en el tema. El trabajo, realizado por el especialista norteamericano Lawrence Wolff, asesor en educacin del Banco Interamericano de Desarrollo (BID) y publicado por PREAL en julio de 1998, sostiene que la Argentina comenz tardamente en 1993- con la aplicacin de pruebas de evaluacin de la calidad. Considera que el programa argentino est bien concebido y tiene una estrecha relacin con la estrategia de descentralizacin de los servicios educativos y con el mejoramiento de la calidad de la enseanza. Agrega que si bien se perciben logros, an no se han establecido objetivos de aprendizaje claros a nivel nacional. Slo ahora, al cabo de varios aos, se iniciaron esfuerzos sistemticos por compatibilizar el currculum, los textos escolares y la pedagoga utilizada en la sala de clases. Los operativos de evaluacin educativa en la Argentina comenzaron en 1993, con los exmenes de lengua y matemtica que rindieron alumnos de sptimo grado y quinto ao del secundario. Las 38.000 pruebas administradas tuvieron carcter muestral (no incluy a todos los alumnos, sino a una parte representativa de esos niveles de enseanza) y reflejaron un promedio de 6,14 en lengua y de 4,63 en matemtica entre los que cursaban el ltimo ao de la enseanza media. Se extendieron cada ao a ms alumnos y a partir de 1997 el examen de finalizacin del secundario se ampli a todos los estudiantes de ese nivel. As, unos 280.000
jvenes rinden anualmente las pruebas de lengua y matemtica, cuyos resultados no tienen incidencia en el promedio final del alumno, aunque sirven para conocer el nivel de educacin que se imparte en las aulas. Las pruebas nacieron con la intencin de promover un certificado nacional de estudios bsicos y la pretensin de que sus resultados influyeran en el acceso a la enseanza superior. Pero tales ideas han sido por ahora dejadas de lado y se deleg en cada jurisdiccin provincial la decisin de que las notas de los alumnos figuren en el boletn de calificaciones. Mientras se conservan en forma muestral las evaluaciones en distintas etapas del nivel primario, los mayores esfuerzos se han concentrado en el desarrollo de las pruebas de finalizacin del secundario. Tambin los organismos internacionales, agrega Tiana, se sumaron a esta corriente y pusieron en marcha programas vinculados con el desarrollo de las polticas de evaluacin educativa. Ejemplo de ello son la Unesco, la Unin Europea, la Organizacin para la Cooperacin y el Desarrollo Econmico (OCDE) y la Organizacin de Estados Iberoamericanos (OEI). Creadas inicialmente para medir el desempeo de los alumnos en lengua y matemtica, las pruebas de evaluacin se extendieron en los ltimos aos a otras reas (fsica, qumica, historia, geografa, educacin cvica) y a partir del ao 2000 se incorporaron tests internacionales, con pruebas reguladas por organizaciones de alcance mundial. En consideracin de los especialistas, Chile cuenta con uno de los sistemas de evaluacin ms amplios y mejor administrados de Amrica latina. El informe de Lawrence Wolf destaca haber demostrado el mayor compromiso de largo plazo con el desarrollo de evaluaciones. El programa se inici en 1980 y desde 1988 se denomina Sistema de Medicin de la Calidad de la Educacin. La herramienta sirvi para acompaar el plan de reforma que promueve la descentralizacin. De acuerdo con ese trabajo, Mxico es el pas latinoamericano con ms larga experiencia en las evaluaciones. Pero se caracteriza por la renuencia de sus autoridades a divulgar sus resultados. A la medicin de los conocimientos y habilidades de 2,8 millones de estudiantes, acompaan una evaluacin sistemtica de la capacidad de los profesores. Brasil comenz a desarrollar en 1990 un sistema de evaluacin nacional, pero slo a partir de 1995 comenz a tomar muestras. Desde esa fecha se inici la evaluacin de la enseanza superior, el primero en su tipo en la regin. El gobierno brasileo estimula a los Estados y municipalidades a iniciar sus propias evaluaciones.
18
El informe de Wolff afirma que en Amrica latina las asociaciones gremiales de profesores tienden a ser observadores pasivos, e incluso, se oponen a las evaluaciones. El especialista del BID concluye que si se desea que stas tengan impacto en la educacin es preciso incluir desde el comienzo a los profesores en ese proceso. Propone incluir otras herramientas de medicin, como los estudios de desercin y repitencia, mediciones de los insumos escolares y estimaciones de los recursos mnimos que cada escuela debera tener, observaciones sistemticas de los procesos escolares y estudios del desempeo de los egresados en el mercado laboral. Una de las herramientas que contribuy a consolidar en todo el mundo el sistema de evaluacin de la enseanza es el Third International Mathematics and Science Study (TIMSS), que compara y explica el aprendizaje en ciencia y matemtica en 41 pases. La Argentina se sum a estos exmenes, rendidos por alumnos de primer ao del secundario, en el ao 2000. La participacin de la Argentina en los tests internacionales comenz con el TIMSS y se extendi a otros programas. El objetivo central es comparar la educacin nacional con la de otros pases, incorporar e intercambiar experiencias y capacitar a los equipos tcnicos. Adems del mencionado TIMSS, las pruebas internacionales incorporadas por la Argentina corresponden a tests diseados por la IEA (Asociacin Internacional para la Evaluacin del Logro Educativo) y la OCDE (Organizacin para la Cooperacin y el Desarrollo Econmico). Son las siguientes: PIRLS (Estudio sobre los avances internacionales en lectura y alfabetizacin). Fue diseado para proveer informacin sobre la habilidad de lectura y comprensin de los alumnos de cuarto grado (9 a 10 aos). CIVICS (Estudio internacional de educacin cvica). Est destinado a alumnos de 14 y 15 aos, para investigar la forma en que los jvenes son preparados para incorporar los valores cvicos y la cultura democrtica y aprendan a tomar parte en los asuntos pblicos. PISA (Programa para la evaluacin internacional de los estudiantes). Es una encuesta sobre habilidades y conocimientos dirigidos a chicos de 15 aos. Consiste en ejercicios sobre las reas de lectura, matemticas y ciencias y los alumnos deben responder un cuestionario sobre su desarrollo personal y actitudes.
el Laboratorio Latinoamericano de Evaluacin de la Calidad de la Educacin y comprendi a 54.000 alumnos de 13 pases. El estudio analiza el rendimiento de los alumnos en la regin y revela que el promedio de logro de los estudiantes es ms bajo de lo esperado. La mayora de los estudiantes realiza una comprensin fragmentaria de los textos que leen, reconocen las palabras incluidas en un texto pero no consiguen determinar por qu se dice lo que se dice o para qu se dice. Ello podra indicar que a los nios se les ensea a decodificar, a traducir las palabras escritas al lenguaje oral, pero sin entender el significado del texto, ni interpretar lo que leen. Los resultados en matemtica son generalizadamente ms bajos y desiguales. Los alumnos no asimilan los conocimientos ni desarrollan las competencias en la asignatura. Como dato ilustrativo se aade que los estudiantes cubanos alcanzaron los mayores puntajes en lenguaje y matemtica y que las nias alcanzan mejores logros en lenguaje y ligeramente menores en matemtica. (Nota de la redaccin: Argentina obtuvo el 2 lugar en ambas asignaturas, lo que la ubic a la cabeza de los dems pases participantes). La elaboracin de estos programas es muestra del creciente inters suscitado en el nivel internacional por la evaluacin de los sistemas educativos. Segn el especialista Tiana, ello ha producido como efecto una rpida evolucin de la evaluacin entendida como disciplina cientfica y como prctica profesional. Entre otras causas que explican ese inters, Tiana identifica la creciente demanda social de informacin sobre la educacin que se aprecia en los distintos pases. Una suerte de rendicin de cuentas. En pocas de crisis, existe la necesidad de establecer prioridades en la asignacin de recursos y para ello resulta inevitable fijar criterios de comparacin lo ms objetivos posible, es el pensamiento del profesor espaol. Para Tiana, un requisito ineludible para cualquier poltica de evaluacin es su credibilidad. Ello se vincula directamente con la independencia institucional de los mecanismos de evaluacin. Otros criterios esenciales son la participacin de los sectores implicados y el desarrollo gradual de las polticas de evaluacin, adaptadas a las circunstancias y a los contextos determinados. Es absurdo pretender desarrollar polticas de evaluacin a partir de la importacin de modelos forneos, es uno de los consejos que el experto espaol transmite a sus colaboradores y discpulos.
a) Laboratorio de la UNESCO
En octubre de 2000, la Oficina Regional de Educacin de la UNESCO para Amrica Latina y el Caribe (OREALC) difundi los resultados de un estudio internacional comparativo sobre lenguaje, matemtica y factores asociados, para alumnos de tercer y cuarto grado de la educacin bsica. La investigacin fue realizada por
b) Para qu evaluar
Muchos autores coinciden en que uno de los objetivos primordiales de la evaluacin educativa es informar y orientar la toma de decisiones. Esa idea, que habla de una utilizacin instrumental de los resultados, es el concepto que predomin en las primeras etapas del desarrollo histrico de la evaluacin. El autor W. J. Pophan
19
recuerda que en los aos 70 exista la creencia dominante de que las evaluaciones educativas deban constituir el elemento singular ms importante para la toma de decisiones. Hoy, sin embargo, se tiende a considerar que la relacin existente entre evaluacin y toma de decisiones es ms compleja. La evaluacin es uno de los elementos que contribuyen a la toma de decisiones. Pero no el nico, advierte Tiana en sus seminarios y conferencias. Y explica que la concepcin puramente instrumental de la evaluacin se fue debilitando con el tiempo y abri paso a la concepcin conceptual o iluminativa, segn la cual la evaluacin no tendra como funcin principal la de ofrecer elementos para la toma de decisiones: tambin contribuira a mejorar el conocimiento de los procesos educativos. En vez de pensar en un impacto inmediato y directo, la concepcin iluminativa considera los efectos diferidos e indirectos de la evaluacin, en plazos de tiempo ms largos que los habituales, explica el especialista espaol. Algunos autores aaden una tercera concepcin. Rossi y Freeman (1993) hablan de una utilizacin persuasiva y sostienen que la evaluacin desempeara una funcin eminentemente argumentativa al servicio del discurso poltico, sea ste de gobierno o de oposicin. Muchas veces se corre el riesgo de que los gobiernos de turno hagan pblicas slo aquellas partes del informe que tienen un carcter halagador, advierte el especialista Miguel ngel Santos, citado por Tiana en un documento sobre Tratamiento y usos de la informacin en evaluacin.
funcin fundamentalmente informativa, si desean contar con una informacin exhaustiva sobre las competencias y conocimientos de los alumnos o si prefieren producir informacin menos detallada, limitada a cada establecimiento. Ante la necesidad de capacitar cuadros tcnicos para una experiencia novedosa como la evaluacin del sistema educativo y ante la escasa masa crtica existente en la regin, en el informe se sugiere facilitar el contacto con especialistas de la comunidad internacional. Tambin se considera conveniente considerar las estrategias de uso y difusin de los resultados de las evaluaciones.
Sitiografa
www.iipe.unesco.org: Oficina Internacional de Educacin de la UNESCO. www.iipe-buenosaires.org.ar: Sitio del Instituto Internacional de Planeamiento de la Educacin (IIPE), centro de formacin e investigacin creado por la UNESCO. www.unesco.cl/home.htm: Oficina Regional de Educacin de la UNESCO para Amrica Latina y el Caribe (OREALC) www.me.gov.ar: Sitio del Ministerio de Educacin de la Nacin. www.oei.es: Organizacin de Estados Iberoamericanos (OEI). www.preal.cl: Programa de Promocin de la Reforma Educativa en Amrica Latina y el Caribe (PERAL). www.iea.nl/Home/home.html: International Association for Evaluation of the Educational Achievement (IEA) y acceso a los sitios de los programas TIMSS, PIRLS y Civics. www.eclac.org: Comisin Econmica para Amrica Latina y el Caribe (CEPAL).
c) Hacia dnde vamos

En el documento Los prximos pasos: Hacia dnde y cmo avanzar en la evaluacin de aprendizajes en Amrica latina?, elaborado en marzo de 2000 por un equipo que dirigi Pedro Ravela y publicado tambin por PREAL, se seala que muchos pases ingresaron en una fase de revisin de lo hecho hasta el momento y comenzaron a considerar nuevas alternativas. Ello responde, se explica en el informe, a los siguientes motivos: Poco aprovechamiento de la informacin producida por los sistemas de evaluacin. Se percibe un insuficiente impacto en el sistema educativo. Insuficiente calidad y capacidad de evaluacin de aprendizajes complejos en las pruebas que estn siendo aplicadas. Debilidades tcnicas en los procesos de desarrollo y validacin de los instrumentos de medicin. En el citado documento se reconoce que la instalacin de los sistemas nacionales de evaluacin ha dado pasos importantes, pero se considera necesario definir con qu estrategias se espera aplicarlos para que tengan algn impacto en la mejora de los aprendizajes. Para ello, los evaluadores deben tener claro si prefieren una evaluacin con consecuencias directas para las escuelas y maestros que determinen la aprobacin o reprobacin de los alumnos- o si esperan cumplir una
Bibliografa
Cmo avanzar en la evaluacin de aprendizajes en Amrica Latina?, por Pedro Ravela (editor), Richard Wolfe, Gilbert Valverde y Juan Manuel Esquivel. Grupo de Trabajo sobre Estndares y Evaluacin GRADE/PREAL. Marzo de 2000. La educacin secundaria. Cambio o inmutabilidad?. Anlisis y debate de procesos europeos y latinoamericanos contemporneos. Org. Cecilia Braslavasky. Santillana. Abril 2001.
20
Tratamiento y usos de la informacin en evaluacin, por Alejandro Tiana Ferrer. Universidad Nacional de Educacin a Distancia (UNED), de Espaa. Las evaluaciones educacionales en Amrica Latina: avance actual y futuros desafos, por Lawrence Wolf. PREAL. Julio de 1998. III Operativo Nacional de Finalizacin del Secundario 1999. Ministerio de Educacin de la Nacin. La evaluacin de los sistemas educativos, por Alejandro Tiana Ferrer. Revista Iberoamericana de Educacin de la OEI. Nmero 10. Enero/ Abril 1996. De Ketele, J.M. y Roegiers, X. (1995) Funciones y campos de aplicacin de la recogida de Informacin. La Muralla, Madrid. Arregui, Patricia. Sistemas de determinacin y evaluacin de metas de logros de aprendizaje escolar como instrumentos para mejorar la calidad, la equidad y la responsabilizacin en los procesos educativos en Amrica Latina. Seminario sobre Prospectivas de la Educacin en Amrica Latina y el Caribe, Chile, 23 al 25 de agosto de 2000.UNESCO. Ravela, Pedro. (Agosto, 2001)Cmo presentan sus Resultados los Sistemas nacionales de Evaluacin Educativa en Amrica Latina? PREAL.
21
Evaluacin Nacional y Evaluaciones Internacionales

A continuacin se presenta un cuadro comparativo entre el Estudio de Evaluacin Nacional y los dos Estudios Internacionales que se aplican en la actualidad en nuestro pas.
ONE
Es el Operativo Nacional de Evaluacin 2007 sobre Lengua, Matemtica, Ciencias Sociales y Ciencias Naturales en alumnos de 3, 6 de la Primaria y 2/3, 5/6 de la Secundaria, y Cuestionarios de Contexto destinados a los Directores de Primaria y Secundaria, a los Alumnos de 6, 2/3 y 5/6 y a los Docentes de 6 de Ciencias Naturales. Cabe destacar que en el ao 2007 no se aplicaron las pruebas de Ciencias Naturales y Ciencias Sociales a los alumnos de la Secundaria. n De acuerdo con la Nueva Ley de Educacin Nacional, la aplicacin del ONE tiene entre sus propsitos: -Evaluar determinados desempeos alcanzados por los alumnos en el pas, a travs de sus capacidades y de sus contenidos, en los diferentes niveles y reas. - Aportar los insumos estadsticos y pedaggicos, a partir de la evaluacin de los aprendizajes de los alumnos y de los factores asociados, para mejorar el desarrollo de polticas educativas sustentadas en la realidad de las aulas. Es una propuesta de evaluacin con base en los Contenidos Bsicos Comunes (CBC), los diseos curriculares jurisdiccionales, los Ncleos de Aprendizajes Prioritarios (NAP) y los resultados de los Operativos Nacionales de Evaluacin.
n
SERCE
El Segundo Estudio Regional Comparativo y Explicativo (SERCE 2006) sobre Lenguaje, Matemtica, Ciencias y Factores Asociados en alumnos de 3 y 6 ao de E.G.B de 16 pases de la regin. El SERCE es un producto de una construccin colectiva y participativa de los pases latinoamericanos que conforman la red del Laboratorio Latinoamericano de Evaluacin de Calidad Educativa (LLECE).
n
PISA
El Estudio PISA - Programme for International Student Assessment (Programa para la Evaluacin Internacional de Estudiantes) es una evaluacin estandarizada diseada y coordinada por la OCDE (Organizacin para la Cooperacin y el Desarrollo Econmico). Esta evaluacin se disea a partir de un conjunto de estndares de contenido y desempeo, elaborados por un grupo de especialistas en diferentes reas de conocimiento (Comprensin Lectora, Matemtica y Ciencias), que se consideran imprescindibles para que los jvenes puedan desenvolverse con xito en la sociedad y en el mundo laboral de hoy. Evala tambin la capacidad de los estudiantes de organizar y regular su propio aprendizaje (aprendizaje autorregulado), la capacidad de resolver situaciones problemticas en contextos interdisciplinarios y de la vida cotidiana (capacidad de resolver problemas). Para ello, los alumnos deben ser capaces de reconocer un problema, definir su naturaleza, usar el conocimiento para delinear una estrategia de resolucin, ajustar la solucin que mejor se adapte al problema y comunicar a otros la solucin hallada.
OBJETIVOS Y CARACTERSTICAS
El estudio busca aportar informacin a los sistemas educativos de la regin.

n
Desarrolla una propuesta de evaluacin propia y con base en los diseos curriculares de los pases participantes de la Regin.
n
El enfoque desde el que los conocimientos y capacidades son evaluados se corresponden con las habilidades para la vida en la evaluacin de Lenguaje, Matemtica y Ciencias, y el anlisis curricular SERCE.
n
22
ONE
Todas las escuelas que participan de la muestra en el pas han sido elegidas por la DINIECE de manera aleatoria, es decir, al azar mediante procedimientos estadsticos variados para este tipo de estudio.
SERCE
Todas las escuelas que participaron de la muestra en nuestro pas han sido elegidas por la UNESCO de manera aleatoria, es decir, al azar mediante procedimientos estadsticos variados para este tipo de estudio. En las escuelas seleccionadas, se evaluaron a los grupos de alumnos de 3 y 6 aos de la escuela Primaria.
n n n n n
PISA
La poblacin elegida para evaluar es la de los estudiantes que tienen 15 aos, ya que sta es la edad en la que la mayora de ellos finaliza su escolaridad obligatoria en los pases miembros. Esta evaluacin es administrada entre 4500 y 10000 estudiantes en cada pas. La delimitacin de la poblacin a estudiar en trminos de edad, y no de curso, proporciona un punto estndar en todos los pases, aunque tiene el inconveniente de no tener un referente educativo especfico en un determinado grado de escolaridad.
POBLACIN EVALUADA
En las escuelas seleccionadas, se evaluar a los grupos de alumnos de 3 y 6 aos de Primaria y de 2/3 y 5/6 aos de Secundaria. Se realizar una extensin al mbito rural evaluando a grupos de alumnos de 3 y 6 aos de Primaria, en aproximadamente 2000 escuelas rurales. - Escuelas Primarias: 4000, aprox.
n
Escuelas del pas: 169 Alumnos de 3 ao: 7.202 Alumnos de 6 ao: 7.014 Secciones de 3 ao: 309 Secciones de 6 ao: 307
- Escuelas Secundarias: 2000, aprox. - Alumnos de 3: 80.000, aprox. - Alumnos de 6: 75.000, aprox. - Alumnos de 2/3: 48.000, aprox. - Alumnos de 5/6: 48.000, aprox. La Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa -DINIECE- aplica los Operativos Nacionales de Evaluacin -ONE- desde el ao 1993 hasta el ao 2000 en forma ininterrumpida. Luego de la crisis econmica y poltica los operativos de evaluacin se realizaron en el 2002 y 2003. A partir del 2003 se decide realizar operativos de calidad cada dos aos, en el ao 2005 y 2007 se realizaron los ltimos operativos de evaluacin. Todas las jurisdicciones del pas
CICLO DE EVALUACIN
El Primer Estudio Internacional Comparativo (1997) sobre Lenguaje, Matemtica, y Factores Asociados en alumnos de 3 y 4 Ao de E.G.B de 13 de pases de la regin. El Segundo Estudio Regional Comparativo y Explicativo (2006) sobre Lenguaje, Matemtica, Ciencias y Factores Asociados en alumnos de 3 y 6 ao de E.G.B de 16 pases de la regin.
La primera evaluacin tuvo lugar en el ao 2000 con los primeros resultados publicados en el 2001 y a partir de entonces se contina en ciclos de tres aos. Esta aplicacin es de carcter cclico para poder seguir el rendimiento de los estudiantes de 15 aos y establecer relaciones longitudinales con respecto al desempeo acadmico de esas poblaciones.
LOS INSTRUMENTOS
PASES Y JURISDICCIONES
SERCE 2006/2007: 17 pases (Argentina, Brasil, Colombia, Costa Rica, Cuba Chile Repblica Dominicana, Ecuador, El Salvador, Guatemala, Nicaragua, Mxico, Panam, Paraguay, Per, Uruguay y el Estado mexicano de Nuevo Len)
PISA 2000: 43 pases PISA 2003: 41 pases. PISA 2006: 57 pases. PISA 2009: 62 pases.
(*) Ver Anexo
(*) Ver Anexo
(*) Ver Anexo
23
ANEXO 1
ONE
Estructura y caractersticas de los instrumentos
Tipo Pruebas de conocimiento Nombre Lengua Matemtica Ciencias Sociales Ciencias Naturales Del Alumno de 6 Del Alumno de 9 Cuestionarios de Contexto Del Alumno de12 Del Director de Primaria Del Director de Secundaria Del Docente de 6 de Ciencias Naturales Cuadernillos Del 1 al 3 Del 1 al 3 Del 1 al 3 4 Del 1 al 3 4 nico nico nico nico nico Autoadministrada Autoadministrada Autoadministrada Autoadministrada Autoadministrada Sesin colectiva Forma de administracin Quin lo responde? Alumnos de 3, 6, 2/3 y 5/6 Alumnos de 3, 6, 2/3 y 5/6 Alumnos de 3, 6 Alumnos de 3, 6 Alumnos de 6 Alumnos de 2/3 Alumnos de 5/6 Director o miembro del equipo directivo Director o miembro del equipo directivo Todos los Docentes de los alumnos evaluados de 6 de Ciencias Naturales
nico
Autoadministrada
24
SERCE
La siguiente Tabla resume la lista de instrumentos que se aplicaron en cada escuela: Forma de Administracin Tipo Nombre Lectura Pruebas de Logro Escritura Matemtica Ciencias Del alumno de 3 Cuestionariosde Factores Asociados Del alumno de 6 Del docente Cuadernillos Del 1 al 6 Del 1 al 2 Del 1 al 6 Del 1 al 6 nico nico nico Cdigo DL3 DL6 DE3 DE6 DM3 DM6 DC6 QA3 QA6 QP Autoadministrada Sesin colectiva Quin lo responde? Alumnos de 3 y 6 Alumnos de 3 y 6 Alumnos de 3 y 6 Alumnos de 6 Alumnos de 3 Alumnos de 6 Docentes de lenguaje y matemtica del aula evaluada Docente del rea respectiva del aula evaluada Padres o tutores de los alumnos de 3 y 6 evaluados Director o miembro del equipo directivo Aplicador con el apoyo del director
De enseanza
Cinco
QL3, QL6, QM3, QM6, QC6
Autoadministrada
De la familia
nico
QF
Autoadministrada / Entrevista Autoadministrada Entrevista
Del directivo Ficha de empadronamiento
nico nico
QD FE
25
PISA Estructura y caractersticas de los instrumentos

Los instrumentos son de dos tipos: n Pruebas de rendimiento n Cuestionarios de contexto
Estudiante
1 Cuadernillo de Prueba
Lengua Matemtica Ciencias
Escuelas
1 Cuestionario para el Estudiante 1 Cuestionario para la Escuela
Pruebas de rendimiento Las pruebas de rendimiento se construyen a partir de los textos, ejercicios y preguntas aportadas por los pases miembros de la OCDE, las que son revisadas y seleccionadas por los rganos de la Agencia Evaluadora, responsables del proyecto. Las pruebas estn constituidas por tem de tres tipos: Cerrados con cuatro o cinco opciones de respuesta para elegir la correcta. Abiertos de respuesta corta y ejercicios abiertos de respuesta extendida, en los que el alumno tiene que construir y desarrollar la respuesta. Actitudinales, a travs de ellos se obtiene importante informacin sobre contenidos actitudinales, considerados centrales en la educacin cientfica. Los resultados de estos tems no son contemplados en el puntaje final del rendimiento acadmico.
Cuestionario para el alumno En cada ciclo el estudio PISA recolecta informacin demogrfica bsica como un componente ncleo que replica las preguntas claves de los ciclos anteriores: gnero, lengua materna, nivel socioeconmico de los alumnos (tomando como elementos importantes el nivel de educacin de los padres y la situacin econmica familiar), el desarrollo educativo de los alumnos, la disponibilidad y el uso de los recursos educativos en el hogar y en la escuela, y las prcticas de enseanza, incluyendo aspectos tales como los relativos al currculum, el tiempo dedicado a la escuela y a las tareas escolares, etc. Cuestionario para el establecimiento educativo El componente comn recopila informacin sobre la situacin geogrfica de la escuela, su contexto socioeconmico, incluyendo los recursos educativos del establecimiento y su entorno, el tamao de la escuela y de sus clases, la estructura de su personal, las prcticas escolares en el nivel de la escuela y la organizacin escolar. Por otra parte, este cuestionario releva informacin sobre aspectos de la rendicin de cuentas del Establecimiento ante los padres, sobre la participacin y promocin de actividades cientficas en las que participen los alumnos y docentes, si se abordan temas relacionados con el medio ambiente, sobre la orientacin y perspectivas que tienen los jvenes sobre su futuro y sobre la promocin de las carreras relacionadas con la ciencia por parte de los actores escolares.
Cuestionarios de contexto En Argentina se aplican dos cuestionarios, uno dirigido al estudiante de 15 aos y otro al Establecimiento Educativo, completado por el director del mismo. PISA propone otros instrumentos de recoleccin de datos, como ser: Cuestionario para padres y Cuestionario de Educacin Tecnolgica, que hasta el momento Argentina no ha aplicado. A travs de la recoleccin de datos adicionales sobre los alumnos (actitudes y conductas) y el entorno educativo (condiciones de enseanza y de aprendizaje) PISA 2006 puede identificar factores sociales, culturales, econmicos y educativos que se cruzan con el desempeo de los alumnos.
27
Qu pretendemos evaluar, qu evaluamos y qu conclusiones podemos extraer de la evaluacin?
efectos fueron ambivalentes (Winkler y Gershberg, 2000). Los aos 90 se caracterizaron por la puesta en marcha y el desarrollo de un buen nmero de reformas educativas en los pases latinoamericanos. Una vez superada la desconfianza hacia la educacin que caracteriz a los aos 70 y 80, los gobiernos de la regin se lanzaron a una intensa actividad reformadora, que se dej sentir en muchos pases y que abarc diversas esferas de la realidad educativa (Gajardo ,1999). Las reformas emprendidas en esos aos persiguieron varios objetivos, entre los que cabe destacar la extensin de la escolarizacin (especialmente en la enseanza secundaria), la mejora de la calidad de la educacin impartida y el aumento de la equidad en la distribucin de los servicios educativos. Aunque no sea ste el lugar para hacer un balance de la dcada, no cabe duda de que los objetivos previstos se alcanzaron de manera muy desigual, consiguindose algunos logros destacables en el primer sentido de los mencionados, pero logrando resultados mucho ms modestos en los otros dos. La situacin es tal que un reciente informe internacional sobre el estado de la educacin en los pases de Amrica Latina adoptaba como ttulo el lema Quedndonos atrs, expresando de ese modo las carencias que an aquejan a los sistemas educativos de la regin (Comisin Internacional sobre Educacin, Equidad y Competitividad Econmica en Amrica Latina y el Caribe, 2001).
n
Una segunda orientacin de las reformas, especialmente influyente en muchos pases de la regin, consisti en la introduccin de cambios en la organizacin curricular, que llevaron generalmente aparejada una revisin de los planteamientos fundamentales en que se inspira la definicin y la construccin del currculo. Un tercer dominio de accin de las reformas tuvo que ver con los procesos de formacin inicial y capacitacin del profesorado, considerado habitualmente pieza clave de las reformas, pero no siempre tan atendido como debiera en su papel de agente transformador. Un cuarto mbito de reforma estuvo concretamente relacionado con la educacin secundaria o media, que se ha convertido en la pieza clave y ms conflictiva de los sistemas educativos y cuya expansin se ha ido tambin produciendo en Amrica Latina en las ltimas dcadas (Braslavsky, 2001). Por fin, una ltima orientacin tuvo que ver con el desarrollo de mecanismos y modelos de evaluacin; dicho de otro modo, con la consideracin de la evaluacin, como un poderoso instrumento al servicio de la gestin de la educacin y de la mejora de su calidad (Tiana, 1996).
El desarrollo de polticas nacionales de evaluacin

Las reformas de los aos 90 afectaron a diversos aspectos de la realidad educativa, que conviene detallar. Entre las orientaciones adoptadas por dichos procesos de reforma, y aun sin nimo de exhaustividad, pueden distinguirse varias lneas de actuacin que, si bien no se dieron siempre de manera simultnea, estuvieron presentes de uno u otro modo en las diversas iniciativas nacionales:
n
Un primer aspecto en que se avanz considerablemente, aunque no sin problemas, fue en la redistribucin de las competencias y responsabilidades en materia de educacin, lo que supuso la puesta en marcha de polticas de descentralizacin y de autonoma escolar, acompaadas en ocasiones de procesos de privatizacin, cuyos
Esta ltima orientacin de las reformas de los 90 cobra especial relevancia desde la perspectiva que se adopta en este trabajo, pues es precisamente el impacto de esos mecanismos de evaluacin lo que est sometido a crtica y discusin. Por este motivo, merece la pena realizar un par de comentarios adicionales sobre sus rasgos ms significativos. Una primera observacin que cabe destacar desde este punto de vista es que la mayora de los pases de la regin pusieron en marcha sus propios sistemas nacionales de evaluacin a lo largo de los aos 90, generalmente en el marco de procesos ms amplios de reforma educativa. Con configuraciones institucionales muy diferentes entre s y con mbitos de actuacin diversos, fueron varios los gobiernos que se sumaron a la experiencia pionera que otros pases como Chile venan desarrollando ya con anterioridad. Argentina, Mxico, Colombia, Bolivia o Brasil, por no citar sino algunos casos destacados, dieron pasos decididos en esa direccin,
28
de manera que al final de la dcada eran mayora los pases latinoamericanos que contaban con algn tipo de sistema nacional de evaluacin (Ravela, 2001). Sin embargo, el indudable inters por la evaluacin de la educacin que se despert en muchos pases no march asociado sino mucho ms tardamente con un inters paralelo por participar en estudios comparativos internacionales de evaluacin del rendimiento educativo. Aparte de la valiosa experiencia regional del Laboratorio Latinoamericano de Evaluacin de la Calidad de la Educacin, en el que participaron un total de trece pases de Amrica Latina y el Caribe, los estudios promovidos por organizaciones tan reconocidas como la IEA o la OCDE no han alcanzado todava en la actualidad cotas altas de participacin (Tiana, 2000). Durante los aos 90, fueron ms bien los programas de cooperacin orientados hacia el reforzamiento de los sistemas nacionales de evaluacin, como el impulsado en esa direccin por la OEI, los que lograron una participacin ms amplia. As pues, y hablando siempre en trminos generales, la situacin de la evaluacin educativa en la regin latinoamericana se caracteriza hasta el momento por la existencia de un contraste llamativo entre el desarrollo de ambiciosos programas nacionales de evaluacin y una limitada participacin en estudios comparativos internacionales. El desarrollo de esos programas nacionales est basado en la puesta en marcha de un buen nmero de instituciones y agencias de evaluacin, cuya experiencia comienza ya a ser importante.
parcelas del sistema educativo, contribuyendo al mismo tiempo a establecer metas y niveles de referencia.
n
Forzar a las instituciones escolares y a los agentes educativos a generar dinmicas de cambio, por medio de la comparacin o la competencia. Rendir cuentas a la sociedad o a las autoridades educativas acerca de los logros conseguidos, eliminando as la opacidad del sistema educativo y de las instituciones escolares. Establecer sistemas de incentivos para las instituciones y para los profesionales de la educacin. Certificar, acreditar o seleccionar instituciones, programas de estudio, profesores o estudiantes. Conocer y valorar la situacin del sistema educativo, as como el impacto producido por las polticas adoptadas. Introducir elementos de racionalidad en el debate pblico y en la construccin de polticas en el mbito de la educacin.
Una mirada a los sistemas nacionales de evaluacin

Dando un paso ms en el anlisis, conviene que nos preguntemos por las principales caractersticas que presentan esos sistemas nacionales de evaluacin que tanto auge adquirieron durante la ltima dcada. Tres son las preguntas clave que debemos hacernos, que estn ligadas respectivamente a otras tantas dimensiones de la evaluacin: para qu se evala?, qu se evala? y qu uso se hace de la informacin? a) Una multiplicidad de propsitos La primera pregunta tiene que ver con los propsitos que orientan la evaluacin de la educacin. Y anticipando la respuesta, hay que reconocer que los sistemas nacionales de evaluacin persiguen una multiplicidad de propsitos, al orientarse hacia la consecucin de uno o varios de los siguientes objetivos:
n
Es cierto que estos propsitos no son en todos los casos compatibles entre s, pero no lo es menos que las polticas nacionales de evaluacin seleccionan algunos frente a otros, les conceden distinto nfasis, establecen prioridades entre ellos o los interpretan de diferente manera. As, por ejemplo, un propsito compartido por muchos, como es el caso de la incentivacin del cambio a travs de la comparacin, no deja de ser objeto de polmica. Mientras que en algunos pases ha llevado, por ejemplo, a la publicacin de listas de clasificacin de escuelas o universidades, con el nimo de forzar una competencia abierta por conseguir ms estudiantes o ms recursos, en otros se ha rechazado frontalmente esa posibilidad y se han establecido mecanismos de confidencialidad de los datos que impiden ese tipo de uso, aunque permitiendo beneficiarse de la comparacin. Como puede apreciarse, un mismo propsito puede inspirar polticas muy diferentes. b) Una diversidad de actuaciones La segunda pregunta tiene que ver con la actividad desarrollada por los sistemas nacionales de evaluacin. Y tambin en este caso hay que anticipar la existencia de una considerable diversidad de modalidades de actuacin, referidas a su vez a distintos mbitos educativos. Entre los principales aspectos que son objeto de evaluacin en la actualidad, hay que destacar cuatro campos prioritarios:
n
Ayudar a las escuelas y a los profesores a mejorar la calidad de la educacin que imparten, proporcionndoles una informacin relevante y significativa que les permita valorar su situacin real y sus logros. Conocer y valorar en qu medida se estn alcanzando los objetivos educativos o los estndares propuestos para los distintos niveles o
Un primer campo que es objeto de considerable atencin se refiere a la evaluacin de los logros conseguidos por los alumnos. Muchas de las actividades desarrolladas en la actualidad por los sistemas nacionales de evaluacin, y sin duda las ms importantes de entre ellas, estn orientadas
29
a la valoracin de los resultados de la educacin, medidos a travs de los logros que consiguen los estudiantes. En la mayora de los casos, esas actuaciones se centran en algunas reas curriculares seleccionadas, especialmente las que se consideran fundamentales para la formacin de los jvenes (Lenguaje, Matemticas, Ciencias, Historia). A veces se complementan con la evaluacin de los logros conseguidos en otros mbitos de la formacin escolar, como la educacin cvica, el dominio de las tecnologas de la informacin y la comunicacin o las estrategias de aprendizaje. Las evaluaciones suelen estar referidas a etapas o momentos clave del proceso educativo, tales como el trnsito de una etapa a otra o el final de la escolarizacin obligatoria o de un determinado nivel de estudios. En ocasiones se evala a la totalidad de los estudiantes de los grados seleccionados, mientras que otras veces se trabaja solamente con muestras representativas. En cualquier caso, es sta una lnea de actuacin prioritaria para los sistemas nacionales de evaluacin.
n
Un segundo campo que tambin atrae considerable atencin se refiere al rendimiento que logran las instituciones educativas. El inters que ha generado la apertura de la caja negra que constituyen las instituciones ha estimulado el desarrollo de diversos programas orientados a su evaluacin. Tanto las escuelas primarias y secundarias como las universidades han sido el objetivo prioritario de muchos planes de evaluacin y de acreditacin puestos en marcha en diversos pases latinoamericanos. Esos planes de evaluacin tienen caractersticas heterogneas, pero suelen coincidir en conceder una atencin especial a los resultados conseguidos por los estudiantes, aunque sin dejar generalmente de lado el anlisis de la organizacin y el funcionamiento de la institucin de que se trata. Un tercer campo que ha ido desarrollndose recientemente, si bien con mayores dificultades que los dos anteriores, es el relativo al desempeo profesional de los docentes. La conviccin de que la actuacin de los profesores est en la base de los resultados conseguidos por los estudiantes, aunque no sea su nico determinante, ha generado un conjunto de actuaciones de diverso tipo, entre las que tambin se cuentan algunos programas de evaluacin. Se trata de acciones que no han dejado de generar cierta polmica, tanto por sus caractersticas tcnicas como por el tipo de uso que se hace de la informacin obtenida. En muchos casos, quizs en la mayora, se ha optado por utilizar la evaluacin docente en el marco de planes de incentivos profesionales, eludiendo sus aspectos ms punitivos, pero en otros casos la evaluacin se ha utilizado como instrumento de seleccin o de promocin profesional, o incluso se ha asociado con mejoras salariales o laborales.
Un cuarto campo que tambin ha atrado el inters de los sistemas de evaluacin se refiere al impacto de las polticas educativas adoptadas. En un contexto de reformas educativas, como las impulsadas en la regin durante los 90, no es extrao que se haya planteado abiertamente la pregunta acerca de los efectos y el impacto de los procesos de cambio iniciados y de las medidas adoptadas. Desde esta perspectiva, han coexistido dos tendencias que deben diferenciarse, aunque ninguna de ellas haya llegado a atraer tanta atencin como las arriba mencionadas. La primera se refiere a la evaluacin de los programas ms emblemticos de los procesos de reforma, los denominados programas estrella, aquellos en que las autoridades educativas han realizado una mayor inversin y depositado mayores esperanzas. La segunda se refiere a la evaluacin de los propios procesos de reforma, con la pretensin de establecer un mecanismo de seguimiento sistemtico de sus efectos. Pese a la limitada experiencia desarrollada en ambas direcciones, no cabe duda de que se trata de un campo llamado a experimentar un mayor desarrollo en el futuro prximo.
Aunque los cuatro campos mencionados no agotan la totalidad de los mbitos abarcados por los sistemas nacionales de evaluacin, no cabe duda de que se trata de los ms destacados y los que han experimentado un mayor empuje. Nuevamente hay que insistir en que no todos ellos han sido desarrollados en todos los pases, ni del mismo modo, ni con la misma energa, pero s puede afirmarse que son objeto de atencin especial por parte de los sistemas nacionales de evaluacin. c) Una pluralidad de usos La tercera pregunta tiene que ver con el tipo de uso que se hace de la informacin obtenida por medio de la evaluacin. Y al igual que en los dos casos anteriores, tambin hay que reconocer la existencia de una pluralidad de situaciones. Intentando analizar los usos ms habituales de los resultados de la evaluacin, podemos distinguir cinco tendencias predominantes:
n
Una primera tendencia consiste, por paradjico que pueda resultar, en la renuncia a hacer uso de la informacin obtenida. Aunque no resulte muy justificable, ni desde el punto de vista de la eficacia administrativa, ni desde la perspectiva de la transparencia, ni menos an desde las exigencias del comportamiento poltico democrtico, hay que reconocer que existen casos en que los resultados de la evaluacin no son publicados, ni difundidos, ni apenas utilizados. Una segunda tendencia, que es la ms habitual, consiste en la elaboracin y difusin de informes de evaluacin. Los informes pueden ser de diverso tipo, tener una cobertura variable (nacional, regional, sectorial) y estar dirigidos a audiencias distintas (familias, profesores, autoridades edu-
30
cativas, investigadores y tcnicos, etc.), llegando incluso a adoptar formatos diferentes. Lo importante en este caso no son las caractersticas concretas de los informes, que pueden ser de hecho muy diferentes, sino la confianza subyacente en que la difusin pblica de los resultados puede satisfacer las demandas de informacin planteadas por los diversos agentes educativos. En algunos casos se han diseado y aplicado estrategias bastante completas de difusin, logrando un impacto social y meditico importante.
n
te de diversas administraciones educativas. Igual que suceda en los epgrafes anteriores, tambin hay que decir aqu que los usos mencionados no son necesariamente excluyentes, sino que son cada vez ms las administraciones educativas que los combinan en distintos modos. Es cierto que algunos de ellos resultan contrapuestos, como puede ser la alternativa existente entre la publicacin de los resultados de las escuelas y la entrega confidencial de los datos, pero no siempre es el caso. De hecho, la combinacin de la publicacin de informes, la devolucin de resultados a las instituciones participantes en la evaluacin y la elaboracin de instrumentos de orientacin didctica constituye una realidad bastante extendida en los pases de la regin. A la vista de la situacin que se acaba de exponer cabe extraer una primera conclusin, consistente en que los sistemas nacionales de evaluacin de la regin latinoamericana no recurren a estrategias de accin uniformes ni adoptan enfoques de evaluacin idnticos. Y esta conclusin no es slo una confirmacin de los hechos que se han presentado, sino que se debe incluso considerar lgico que exista tal variedad. En efecto, si aceptamos la existencia de una multiplicidad de propsitos, una diversidad de actuaciones y una pluralidad de usos, debemos aceptar la diversidad interna de los sistemas de evaluacin. Sern precisamente los propsitos concretos que se persigan, los estilos de actuacin que se adopten y los usos que se prefieran, los que determinarn las caractersticas del sistema de evaluacin.
Una tercera tendencia consiste en la devolucin confidencial de resultados a las instituciones participantes en la evaluacin, con el propsito de que puedan utilizar los datos recibidos para elaborar sus propios planes de mejora, sin verse necesariamente expuestas al escrutinio pblico. Los modos concretos que puede adoptar esa devolucin son muy variables, pero lo que caracteriza esa modalidad de actuacin es su confianza en el valor intrnseco que encierra la comparacin y en la capacidad de reflexin y de mejora que tienen las instituciones y los agentes de la educacin cuando se enfrentan con su propia realidad. Una cuarta tendencia, no excesivamente habitual y desde luego controvertida, consiste en la publicacin de los resultados obtenidos, en forma de tablas de clasificacin. En algunos casos la publicacin se realiza por los responsables de la evaluacin, mientras que en otras ocasiones se permite o incluso se favorece que sean otros agentes (prensa, investigadores) quienes publiquen la informacin. Este tipo de uso resulta ms amenazador para las instituciones educativas que los anteriores, motivo por el cual ha recibido crticas y generado resistencias. Una quinta tendencia consiste en la utilizacin de los resultados de la evaluacin para proporcionar orientacin pedaggica a instituciones y profesores. Este tipo de uso de la informacin obtenida a travs de la evaluacin adopta dos modalidades distintas. En primer lugar, son varios los sistemas nacionales que han elaborado instrumentos tales como cuadernillos de asesoramiento a los profesores, en los que se analizan las respuestas correctas de las pruebas, as como los errores ms habituales que suelen producir los estudiantes, y se finaliza ofreciendo sugerencias didcticas ms o menos concretas. En segundo lugar, aunque sea de forma ms espordica, tambin se han desarrollado acciones de orientacin para instituciones determinadas, ayudndolas a elaborar sus propios planes de mejora, y se han incluido anlisis de los resultados de la evaluacin en programas de formacin docente. Este tipo de uso, que es menos tradicional que la difusin de informes, est recibiendo una atencin creciente por par-
Una mirada a las pruebas nacionales de logros

Como se indicaba en el apartado anterior, los sistemas nacionales de evaluacin que se han desarrollado en los pases latinoamericanos desde los aos 90 vienen prestando una atencin especial a la medicin de los logros conseguidos por los alumnos. Los instrumentos que se aplican con esa finalidad son las genricamente denominadas pruebas nacionales, que merecen una mirada especial por la importancia que han llegado a adquirir. Las pruebas nacionales presentan bastantes diferencias de unos pases a otros, aunque tambin ofrecen algunas similitudes. Entre sus elementos comunes, quizs el ms destacado sea la preocupacin prcticamente universal que demuestran por evaluar el rendimiento alcanzado en Lenguaje y Matemticas. No obstante, aunque se trata de dos reas especialmente atendidas por los sistemas de evaluacin, no hay que pensar que sean los nicos dominios evaluados. En efecto, la medicin de los logros en ambas reas suele ir acompaada por la evaluacin de otras reas curriculares complementarias (entre las que sobresalen las Ciencias, la Historia o las Lenguas extranjeras) o de otras capacidades de tipo transversal, no ligadas necesariamente a reas espec-
31
ficas (como el autoconcepto, algunas estrategias de aprendizaje o ciertas actitudes). Las pruebas nacionales suelen aplicarse preferentemente en los grados terminales de las principales etapas educativas (sobre todo, al final de la enseanza primaria y de la secundaria). No obstante, tambin se aplican a veces en otros grados que tienen un especial inters desde el punto de vista diagnstico (por ejemplo, el final de ciertos ciclos), aunque la identificacin de tales puntos focales vare de unos sistemas educativos a otros. El reciente desarrollo de algunos estudios internacionales ligados a la edad de los evaluados y no al grado que cursan, como es el caso del proyecto PISA de la OCDE, an no ha encontrado traduccin directa en los sistemas nacionales de evaluacin latinoamericanos, ni es previsible que lo haga a corto plazo. El inters que despierta la valoracin de los logros conseguidos al final de determinadas etapas supera hoy en la regin al que suscita la valoracin del nivel de formacin a ciertas edades. La participacin en aquellos proyectos internacionales parece satisfacer suficientemente las preguntas que puedan plantearse en este ltimo sentido. Dependiendo del propsito que gua a la evaluacin, las pruebas se aplican en ocasiones a poblaciones o cohortes estudiantiles completas, mientras que en otros casos se limitan a muestras representativas de estudiantes. La primera decisin permite hacer un uso ms singularizado de los datos obtenidos, tal como comparar el rendimiento de diversas escuelas o estudiantes, mientras que la segunda es ms adecuada para usos diagnsticos. Por otra parte, hay pases en que las pruebas se aplican cada ao, aunque es ms frecuente que se adopten ciclos plurianuales, de distinta duracin. Las pruebas nacionales parecen satisfacer ampliamente a las autoridades educativas, a la vista del uso tan extenso que se hace de ellas. No obstante, en un anlisis ms profundo tambin presentan insuficiencias y problemas, que requieren una consideracin ms atenta. Tres son las principales insuficiencias de las pruebas nacionales de logros que han subrayado los especialistas (Ravela, 2000). La primera consiste en la existencia de algunas debilidades tcnicas en los procesos de desarrollo y validacin de los instrumentos de medicin. La segunda se refiere a la insuficiente calidad y capacidad que las pruebas ofrecen para evaluar aprendizajes complejos. La tercera tiene que ver con el insuficiente aprovechamiento que suele hacerse de la informacin obtenida. Los problemas a los que se ha hecho alusin son de distinto tipo. Para comenzar, habra que sealar algunos relativos al diseo y confeccin de los instrumentos de evaluacin:
n
plausible, plantea dificultades cuando no existen objetivos explcitos (lo que sucede en muchos casos), o cuando los objetivos de cada curso o etapa se formulan de manera poco concreta. Cuando no se pueden determinar los objetivos de forma precisa, resulta sin duda ms difcil elaborar las pruebas. La segunda dificultad se refiere al tratamiento de la diversidad curricular existente entre diferentes regiones, distritos o escuelas. La mayora de los modelos curriculares aplicados en Amrica Latina conceden cierto grado de autonoma a las autoridades regionales o distritales o a las propias escuelas para definir el currculo. En consecuencia, no resulta sencillo hacer pruebas que abarquen todas las enseanzas efectivamente impartidas en todo el sistema educativo. Las soluciones posibles son dos: elaborar pruebas de mnimos, lo que implica reducir el campo de evaluacin, o elaborar pruebas comunes a partir de un consenso profesional o tcnico. Ambas soluciones son utilizadas en la regin, sin que quepa conceder prioridad a una de ellas sobre la otra.
n
Un segundo problema tiene que ver con algunas disyuntivas que se plantean en relacin con el diseo y la confeccin de las pruebas. La primera disyuntiva se refiere al enfoque de las pruebas, que pueden estar centradas en los conocimientos adquiridos por los alumnos o abarcar tambin el desarrollo de actitudes. Las pruebas que miden unos y otras no son iguales, ni siquiera plantean las mismas exigencias tcnicas, lo que obliga a decidir su enfoque. Una segunda disyuntiva se refiere al carcter de las pruebas, pudindose optar por la elaboracin de pruebas referidas a criterios de logro o por la confeccin de pruebas de tipo normativo, adaptadas a una distribucin de resultados estadsticamente normal. La tercera disyuntiva se refiere a la delimitacin de la poblacin sujeta a evaluacin, que permite optar por pruebas de aplicacin censal (dirigidas a toda la poblacin estudiantil de un determinado grado o edad) o de tipo muestral (dirigidas a muestras representativas de poblacin).
Un primer problema tiene que ver con el contenido de las pruebas, asunto que plantea dos tipos de dificultades. La primera se refiere a la relacin que debe existir entre las pruebas y los objetivos educativos. Lo deseable es que las pruebas estn referidas a los objetivos establecidos en el sistema educativo, de manera que permitan valorar el grado en que se alcanzan las metas previstas. Aunque este planteamiento resulta lgico y
Otro grupo importante de problemas estn relacionados con la explicacin de los resultados conseguidos. La mayora de los sistemas nacionales de evaluacin no suelen contentarse con medir los logros alcanzados por los estudiantes, sino que tambin pretenden explicar por qu se producen tales resultados. Sin embargo, dicho intento de explicacin tropieza con varios problemas y dificultades:
n
Un primer problema tiene que ver con el grado de coherencia realmente existente entre la evaluacin y el currculo. Como se sealaba al comienzo del trabajo, el desarrollo de los sistemas nacionales de eva-
32
luacin ha ido generalmente asociado a otros procesos de reforma curricular.

n
infrautilizacin de los datos y una ineficiencia en el uso de los recursos disponibles.

n
No obstante, esa simultaneidad no ha asegurado siempre la existencia de una adecuada coherencia entre ambos aspectos. En los casos ms extremos, puede incluso decirse que ambos procesos se han desarrollado en direcciones divergentes. Cuanta ms importancia se ha concedido a las pruebas, mayor ha sido su impacto sobre el desarrollo curricular. Un segundo problema, menos complejo pero no menos influyente, est relacionado con el tipo de interpretacin que permiten los diversos modelos de pruebas. Como se sealaba ms arriba, dos son los modelos de pruebas utilizados ms habitualmente: criteriales y normativas. Las pruebas de tipo criterial proporcionan una base slida para valorar la suficiencia de los logros conseguidos, ya que se apoyan en una definicin operativa de los objetivos que deben alcanzarse. Por el contrario, las pruebas de tipo normativo exigen alguna operacin adicional para poder valorar la suficiencia de los logros alcanzados, dado que se refieren a situaciones de normalidad estadstica. La existencia de estos dos modelos alternativos obliga a considerar cuidadosamente qu usos se quieren hacer de las pruebas, antes de decidir el que conviene aplicar. Un tercer problema se refiere a las dificultades conceptuales y tcnicas que se plantean a la hora de buscar explicaciones. Por una parte, hay que reconocer la debilidad terica de los modelos habituales de produccin educativa, que en buena parte deriva del problema que plantea la causalidad en educacin. Esa debilidad influye en la seleccin de los factores que se consideran asociados al rendimiento, pocos de los cuales cuentan con confirmacin emprica slida (Scheerens, 1996). Adems, la explicacin de los resultados se ha basado tradicionalmente en la distincin de dos tipos de variables, unas extrnsecas y otras intrnsecas. Mientras que las primeras (nivel socioeconmico y cultural, recursos destinados a la educacin) han sido objeto de anlisis abundantes, las segundas (organizacin del sistema educativo, procesos institucionales, procesos de aula) vienen resultando menos concluyentes y an requieren investigaciones adicionales. Un cuarto problema tiene que ver con la voluntad que a veces existe de buscar muchas vas de explicacin de los resultados obtenidos, que puede traducirse en un exceso de datos recogidos. Cuando ese exceso de datos va unido, como ocurre en ocasiones, con una insuficiente delimitacin conceptual de las variables seleccionadas y con limitaciones en el anlisis estadstico de los datos, la situacin puede llegar a resultar inmanejable. La consecuencia suele ser una evidente
Un ltimo grupo de problemas que plantean las pruebas de logros estn relacionados con el uso que se hace de las mismas y con las interpretaciones a que dan pie: - Un primer problema tiene que ver con los distintos tipos de uso que pueden hacerse de la informacin. Los resultados de la evaluacin pueden utilizarse con una finalidad formativa, orientada al desarrollo institucional y profesional de los agentes implicados, para fomentar la competicin, e incluso para impulsar polticas de mercado en el mbito educativo. Obviamente, las interpretaciones que permiten tales posibilidades son diferentes y persiguen distintos efectos. Es necesario sealar que, si bien esos son los extremos de un continuo de posibilidades de uso, existen otras opciones intermedias en que dichos propsitos pueden combinarse en diferente proporcin. La decisin sobre el tipo de uso que se pretende hacer de los datos de la evaluacin condiciona en buena medida el diseo de la evaluacin. - Un segundo problema tiene que ver con la existencia de diversas posibilidades de comparacin (con una norma o criterio, con otras realidades semejantes, consigo mismo a lo largo del tiempo), cada una de las cuales plantea sus propias exigencias y ofrece diferentes posibilidades. El uso de la comparacin plantea un problema complicado, que tiene que ver con la justicia de la comparacin. El intento de dar respuesta a esa cuestin ha impulsado el desarrollo de tcnicas de clculo del denominado valor aadido. - Un tercer problema consiste en el excesivo reduccionismo en que a veces se cae cuando se pretende interpretar los resultados de la evaluacin. Ese defecto puede venir originado por una excesiva limitacin del contenido de las pruebas, que no permite llegar a conclusiones razonables sobre el logro de los objetivos propuestos, o por una interpretacin poco rigurosa de los datos, que puede incluso llegar a distorsionar las interpretaciones.
A la vista del anlisis que acaba de hacerse de las pruebas nacionales de logros, se llega a la conclusin de que constituyen la prctica de evaluacin ms habitual en la regin, encontrndose bastante asentadas en la actualidad. No obstante, como se ha puesto de manifiesto, presentan algunas deficiencias y problemas que debern solventarse en el futuro, si se quiere asegurar su credibilidad y se pretende que contribuyan a mejorar la educacin.
33
Algunas reflexiones finales

Si bien es cierto que las pruebas nacionales de logros constituyen la prctica ms habitual de evaluacin educativa en Amrica Latina, no es la nica que se desarrolla en la actualidad. Como se indicaba en las primeras pginas del trabajo, existen otros tres mbitos que son tambin objeto de evaluacin. El primero corresponde a los programas y las polticas de educacin, que despiertan especial inters en el actual contexto de revisin de las reformas educativas puestas en marcha durante los aos 90. En sus formas ms elaboradas ha servido para disear mecanismos de seguimiento de los procesos de cambio, aunque se trata de una prctica escasamente implantada. El segundo mbito corresponde a las instituciones educativas, para cuya evaluacin se han diseado y aplicado algunos modelos, tradicionales o innovadores, aunque sin que pueda decirse que esta tendencia haya alcanzado todava suficiente desarrollo. El avance ms importante que se ha logrado en este sentido consiste en la expansin de una conciencia nueva acerca del valor que tiene la evaluacin institucional con vistas a la mejora de la calidad de la educacin. El tercer mbito, y al mismo tiempo el ms controvertido, corresponde al desempeo docente. Aunque en algunos pases se han desarrollado mecanismos de valoracin de la tarea docente que estn conectados con la medicin del rendimiento de los estudiantes, no existen todava experiencias suficientes ni de larga tradicin en este sentido. Las experiencias que han explorado otras direcciones son an ms escasas. En conjunto, puede afirmarse que estos otros tres mbitos abarcados por la evaluacin educativa estn actualmente infra-desarrollados en relacin con las pruebas de rendimiento. Hay que subrayar, no obstante, que la evaluacin de tales aspectos puede contribuir notablemente a la mejora de la calidad de la educacin. Precisamente de esa potencialidad procede el inters que despiertan en muchos pases de la regin. Como conclusin final, cabe afirmar que la evaluacin es una realidad integrada que cuenta con varios componentes: estudios internacionales de evaluacin, estudios diagnsticos nacionales del rendimiento, evaluacin de las instituciones educativas y otras evaluaciones complementarias de diversos aspectos de la actividad educativa (preparacin y desempeo de los docentes, impacto de las polticas aplicadas, funcionamiento de algunos programas re levantes). Aunque no todos ellos se han desarrollado con la misma energa, los sistemas nacionales de evaluacin no deberan infravalorar la importancia de concebirlos de forma integrada, de manera que las acciones emprendidas se refuercen mutuamente. El colofn a estas reflexiones que provoca la mirada a los sistemas nacionales de evaluacin educativa consistira en que la evaluacin debe considerarse como un instrumento para la mejora de la calidad de la educacin y no como una panacea capaz de solucionar todos los problemas que la educacin plantea. Otra consideracin diferente de sta no puede sino conducir a algunos errores de cierta importancia.
Bibliografa:
- - Braslavsky, C. (2001): Educacin secundaria: cambio o inmutabilidad?, Buenos Aires, Santillana. Comisin Internacional sobre Educacin, Equidad y Competitividad Econmica en Amrica Latina y el Caribe (2001): Quedndonos atrs. Un informe del progreso educativo en Amrica Latina, Santiago de Chile, PREAL. Gajardo, M. (1999): Reformas educativas en Amrica Latina. Balance de una dcada, Santiago de Chile, PREAL (documento de trabajo n 15). Ravela, P., ed. (2000): Los prximos pasos: Hacia dnde y cmo avanzar en la evaluacin de aprendizajes en Amrica Latina?, Santiago de Chile, PREAL. Ravela, P. (2001): Cmo presentan sus resultados los sistemas nacionales de evaluacin educativa en Amrica Latina?, Santiago de Chile, PREAL. Scheerens, J. (1996): Can the School Effectiveness Knowledge Base Guide School Management? en II International Conference on School Management. Participative Management and School Evaluation, Bilbao, Universidad de Deusto, pp. 98-119. Tiana, A. (1996): La evaluacin de los sistemas educativos, Revista Iberoamericana de Educacin, n 10, 1996, pp. 37-61. Tiana, A. (2000): Cooperacin internacional en evaluacin de la educacin en Amrica Latina y el Caribe. Anlisis de la situacin y propuestas de actuacin, Washington, BID Departamento de Desarrollo Sostenible. Winkler, D. y Gershberg, A.I. (2000): Los efectos de la descentralizacin del sistema educacional sobre la calidad de la educacin en Amrica Latina, Santiago de Chile, PREAL (documento de trabajo, n 17).
34
35
Las evaluaciones educativas que Amrica Latina necesita
Presentacin
Este documento aborda la importancia, propsitos y usos de las evaluaciones estandarizadas a gran escala de aprendizajes y/o logros educativos en Amrica Latina y el Caribe, bsicamente en los niveles primario y medio. Est dirigido a quienes formulan polticas educativas, docentes, acadmicos, empresarios, sindicatos, organizaciones sociales, agencias de financiamiento y medios de prensa, con el fin de aportar al debate y decisiones sobre la evaluacin estandarizada en los sistemas educativos. Se entiende por evaluacin estandarizada en gran escala a aquella que permite producir informacin comparable acerca de los desempeos de estudiantes pertenecientes a distintos contextos culturales y regionales e, incluso, a distintos pases, y que ofrece un panorama de la situacin de un pas o de un estado o provincia, aun cuando ello se haga a veces a travs de una muestra no demasiado grande (por ejemplo, 5.000 estudiantes) . El documento se centra en evaluaciones de aprendizaje definido como el cambio ocurrido en los conocimientos y capacidades de cada estudiante a lo largo del ao lectivo y/o de logro educativo, entendido como la acumulacin de conocimientos y capacidades a lo largo de toda la vida del estudiante. No se pretende orientar aqu acerca de otros aspectos tambin importantes de la evaluacin del quehacer educativo, como son las evaluaciones del desempeo docente, de las polticas educativas, de los centros educativos o aquellas que realizan los docentes en las aulas, entre otras. Tampoco se pretende incursionar en la evaluacin en el nivel terciario ni en las pruebas de seleccin para el mismo. Los contenidos de esta publicacin ayudarn a quienes toman decisiones de poltica educativa a comprender y analizar las diversas opciones existentes en cuanto a los propsitos y usos de los sistemas de evaluacin y las implicancias de cada una de ellas, de modo de orientarlos en cmo concebir una estrategia de evaluacin. Es preciso evitar el simplismo y la ingenuidad con que muchos piensan en la evaluacin, lo que genera sistemas mal concebidos y deficientemente implementados y, como consecuencia de ello, efectos perversos para el sistema educativo, malgasto de recursos y descrdito de la evaluacin externa entre los docentes. Por el contrario, se debe reconocer la gran variedad de aspectos que deben considerarse al momento de implementar un sistema de evaluacin o reformar uno existente. Para que la inversin en evaluacin valga la pena, debe tener propsitos claros, una filosofa orientada a construir una visin de responsabilidad compartida en relacin a la educacin, un diseo tcnico de calidad y adecuado
a los propsitos, una orientacin fuerte a apoyar a los docentes en su tarea y una voluntad poltica manifiesta de encarar acciones dirigidas a resolver los problemas y deficiencias que la evaluacin ponga de manifiesto. Asimismo, requiere de una inversin importante para construir una unidad tcnica competente y un plan de largo plazo, lo cual lleva tiempo y no puede ser improvisado
I. Por qu son importantes las evaluaciones nacionales de logros educativos?

La realizacin de evaluaciones estandarizadas como forma de conocer mejor la dinmica de procesos y resultados en los sistemas educativos es cada vez ms frecuente a nivel regional y mundial, en pases de muy diversas culturas y orientaciones ideolgicas de gobierno. Prueba de ello es la creciente participacin de los pases en las evaluaciones internacionales como PISA, TIMSS y PIRLS, y regionales como SERCE (en Amrica Latina) y SACMEQ (en frica), as como el desarrollo de diferentes tipos de sistemas nacionales y subnacionales de evaluacin. En algunos casos, la evaluacin est motivada por una preocupacin por la formacin ciudadana y la consolidacin de una sociedad democrtica; en otros, por la productividad de la fuerza de trabajo y la competitividad de la economa nacional, por las oportunidades para el desarrollo integral de las personas y sus posibilidades de participacin en la sociedad del conocimiento, o por la equidad y la visin de la educacin como uno de los caminos para superar la pobreza. Muchos sistemas de evaluacin parten de una combinacin de los intereses anteriores. En casi todos los casos se asume que la evaluacin puede servir: como base para adoptar polticas educativas mejor fundamentadas; para mejorar la gestin de los sistemas educativos; como instrumento para la colaboracin y el aprendizaje continuo al interior de los mismos. A continuacin se destacan los aportes principales de este tipo de evaluaciones.
36
La evaluacin estandarizada ayuda a visualizar los resultados educativos del conjunto de estudiantes La educacin es una actividad opaca, en el sentido de que sus resultados no son directa ni inmediatamente observables. Un buen docente puede apreciar si sus estudiantes estn aprendiendo o no y cmo, pero no todos los docentes tienen los mismos criterios de valoracin, los cuales estn fuertemente vinculados a su experiencia profesional: su formacin general y especfica, su conocimiento de la disciplina que ensea, su capacidad para percibir los procesos y dificultades de los estudiantes, su familiarizacin con diversos tipos de alumnos, etc. Dada la heterogeneidad del cuerpo docente de un pas, no es posible obtener una visin de la situacin del conjunto por la mera agregacin de los puntos de vista individuales. La evaluacin estandarizada apunta a lograrlo.
cul es el grado de equidad o inequidad en el logro de dichos aprendizajes; cmo evolucionan a lo largo de los aos, tanto los niveles de logro como la equidad en el acceso al conocimiento por parte de los diversos grupos sociales; en qu medida y cmo las desigualdades sociales y culturales inciden sobre las oportunidades de aprendizajes de los estudiantes; cul es la diversidad de prcticas educativas existentes en escuelas y maestros y cmo las mismas se relacionan con los aprendizajes de los estudiantes en diversos contextos sociales; cmo influyen las condiciones de la enseanza (situacin de los maestros, recursos disponibles, tiempos de estudio, etc.) en los progresos de los alumnos; qu efecto tienen en los logros educativos las inversiones en programas educativos, los cambios en la estructura del sistema, los cambios curriculares, los programas de formacin, la adquisicin de material educativo, etc.
Las evaluaciones entregan informacin sobre el real acceso al conocimiento y a las capacidades que alcanzan los alumnos, ms all de la cantidad de aos de estudio que tengan En dcadas pasadas, la equivalencia entre permanencia en el sistema educativo y acceso al conocimiento y a las capacidades simblicas se daba por descontada y los indicadores para valorar a los sistemas educativos estaban relacionados con el acceso (matrcula, cobertura, retencin, etc.). En esos tiempos, las mayoras ms pobres y con menor capital cultural no accedan al sistema educativo o apenas cursaban unos pocos aos de educacin bsica. Con la progresiva universalizacin del acceso al sistema educativo, hoy muchos estudiantes procedentes de los sectores sociales ms desfavorecidos llegan en desventaja en trminos de manejo del lenguaje oral (oficial) y escrito, con lo cual la equivalencia entre aos de estudio y acceso al conocimiento y a las capacidades ya no es tal. Por otra parte, el crecimiento del acceso a la profesin docente no fue acompaado por garantas de calidad en su formacin, lo cual tambin cuestiona la mencionada equivalencia. As, ms aos en el sistema educativo no necesariamente significa que todos los nios y jvenes estn incorporando los conocimientos, actitudes y capacidades necesarias para la vida personal y social, los que son cada vez ms sofisticados y complejos. Las evaluaciones buscan dar luces sobre lo que est ocurriendo al respecto.
Un sistema de evaluacin de aprendizajes y/o logros educativos puede aportar informacin importante a diversos actores sociales En la medida que el sistema produzca y comunique adecuadamente informacin sobre los aspectos antes indicados, puede ser un instrumento clave de mejora, enriqueciendo la comprensin de la situacin educativa y la toma de decisiones en diversos mbitos: Las autoridades y los encargados de formular polticas educativas pueden comprender mejor los problemas de la enseanza y del aprendizaje; hacerse cargo de las carencias en que se desarrolla la labor docente y desarrollar polticas pertinentes para apoyar el trabajo de las escuelas. Las evaluaciones tambin les permiten valorar, sobre una base de evidencia emprica slida, el impacto de las polticas y programas que han impulsado y los probables efectos de las que se proponen impulsar. Los directivos y docentes pueden, a partir de una mirada externa sobre los logros educativos en el conjunto del sistema, comprender mejor lo que estn logrando y lo que no estn logrando sus propios estudiantes, cmo estn aprendiendo y qu dificultades tienen. Pueden aprender de las experiencias de otros docentes y escuelas que trabajan con estudiantes de caractersticas tanto similares como diferentes a los propios. Pueden tomar decisiones ms apropiadas acerca de qu
Las evaluaciones estandarizadas ayudan a hacer visibles un conjunto de aspectos centrales de la labor educativa Entre otras cosas, las evaluaciones estandarizadas aportan informacin sobre: en qu medida los alumnos estn aprendiendo lo que se espera de ellos al finalizar ciertos grados o niveles;
37
aspectos del currculo enfatizar y enriquecer sus propios modos de evaluar el aprendizaje de sus estudiantes. Los supervisores y encargados de la formacin de docentes pueden apoyarse en la informacin sobre los logros y dificultades educativas en el conjunto del sistema para estudiar en profundidad las debilidades en el enfoque o en la prctica de la enseanza que probablemente generan algunas de las insuficiencias constatadas en los aprendizajes. Desde esa nueva perspectiva, pueden mejorar su labor tanto de orientacin a los docentes como de formacin de los mismos. En particular, los supervisores pueden beneficiarse de contar, como instrumento de apoyo para su labor, con un mapa de las escuelas que las caracterice tanto en trminos de la composicin sociocultural de su alumnado como de sus logros educativos. Los padres y madres de estudiantes, adecuadamente informados, pueden comprender mejor qu se espera que sus hijos aprendan, qu es lo que estn logrando y qu pueden hacer para colaborar con la escuela y con el aprendizaje de sus hijos. La ciudadana en general estar mejor informada sobre lo que acontece al interior del sistema educativo y, por tanto, estar ms atenta a los temas y problemas de la educacin. Estar, adems, en mejores condiciones para exigir, tanto a los poderes pblicos como a los profesionales de la docencia, la mejora continua de la educacin que se brinda a los nios, nias y jvenes, y el uso responsable de los recursos que se destinan a la educacin.
Al desarrollar estos sistemas nacionales de evaluacin, es necesario explicitar tanto el rol que estos cumplen as como las funciones que no cumplen y cules son sus limitaciones, para evitar as los riesgos de mala interpretacin respecto a lo que son y la informacin que recogen y difunden.
Una evaluacin estandarizada aporta informacin fundamental e indispensable sobre la calidad educativa, aunque no sea un indicador completo de la misma. No todos los objetivos valiosos de la educacin estn incluidos en este tipo de evaluaciones. Hay una gran cantidad de saberes, actitudes, valores y aprendizajes relevantes que no pueden por la dificultad de medirlos de esta manera o no deben porque son propios de cada entorno local y, por tanto, no son exigibles a todos los estudiantes del pas formar parte de una evaluacin estandarizada.
La evaluacin estandarizada de aprendizajes y/o logros educativos es un componente esencial de un sistema integral de evaluacin educativa, pero no es el nico tipo de evaluacin relevante. Tambin tienen importancia la evaluacin realizada en el aula por los docentes, la evaluacin del desempeo docente, la evaluacin de los centros educativos, la evaluacin de las polticas educativas, la evaluacin del uso de los recursos, la evaluacin de la relevancia del currculo, etc.
La evaluacin es condicin necesaria, pero no suficiente, para mejorar la educacin. Si bien existe alguna evidencia de que la mera existencia y difusin de informacin tiene algn impacto sobre ciertos actores, es necesario recordar que la evaluacin es apenas uno de varios elementos clave de la poltica educativa que debe procurarse estn adecuadamente alineados: la formacin docente inicial y en servicio, la carrera y condiciones para el trabajo docente, la gestin escolar, la supervisin, los diseos curriculares, los libros y materiales educativos, una inversin de recursos proporcional a las necesidades de las diversas poblaciones y una accin decidida por parte de los responsables educativos para resolver los problemas detectados, entre otros.
El desarrollo de un sistema nacional de evaluacin estandarizada puede obligar a realizar una discusin informada sobre qu aspectos del currculo formal son exigibles a todos los estudiantes y a definir con claridad qu es lo que todos los estudiantes deberan haber aprendido al final de cada ciclo educativo. La mayora de los currculos en la regin estn constituidos por largas listas de objetivos y temas, todos deseables pero no todos realizables. La elaboracin de pruebas nacionales obliga a definir qu es lo que debe ser considerado como fundamental y, por tanto, lo que todos los estudiantes deben saber y ser capaces de hacer. Se pueden usar distintos trminos para designar a estas definiciones: estndares, competencias fundamentales, indicadores de logro, niveles de desempeo, metas de aprendizaje, criterios de suficiencia, entre otros.
La evaluacin estandarizada externa solo tendr efectos positivos sobre la educacin si es concebida, percibida y empleada como un mecanismo de responsabilizacin pblica de todos los actores vinculados al quehacer educativo.
Para no confundir
38
Existe siempre el riesgo de que la poltica educativa se concentre en la implementacin de evaluaciones, pero que luego no se tomen acciones concretas para enfrentar y resolver los problemas que las mismas ponen de manifiesto. Muchas veces las autoridades se limitan a informar de los resultados y transferir toda la responsabilidad por la solucin de los problemas detectados a las escuelas y familias. Otras veces, toda la responsabilidad se atribuye a los docentes, quienes, por su parte, tienden a transferir toda la responsabilidad a los padres o al contexto. Lo importante es evitar ingresar en una dinmica de culpabilizacin y, por el contrario, intentar construir una lgica de responsabilidad compartida en torno a la educacin.
Iberoamericano de PISA, integrado por Argentina, Brasil, Chile, Colombia, Espaa, Mxico, Portugal y Uruguay.
Las evaluaciones a gran escala en la regin no solo son ms frecuentes sino tambin estn mejorando Los principales cambios y mejoras que se observan en los ltimos aos incluyen: Mayor transparencia en la difusin de los resultados. Parece haberse superado la etapa en que las autoridades en varios pases interferan en la divulgacin de los resultados de las evaluaciones cuando estos no les parecan favorables. Tendencia creciente a pasar de pruebas normativas que tienen como propsito principal ordenar comparativamente a los estudiantes a pruebas de criterios, que se enfocan en qu es lo que los estudiantes saben y son capaces de hacer. Asimismo, crecientemente se incluye en las pruebas de criterios una definicin de cul es el resultado que todos los estudiantes deberan alcanzar para que su desempeo pueda ser considerado satisfactorio. Mejora de las capacidades tcnico-metodolgicas para la construccin de pruebas y para el procesamiento de los datos. Existen esfuerzos por desarrollar pruebas que evalen un rango de conocimientos y capacidades ms amplio y que incluyan preguntas de respuesta construida. Se han ido incorporando tambin metodologas ms sofisticadas para el tratamiento de datos, como la Teora de Respuesta al tem y el Anlisis Multinivel. Creciente atencin a la difusin y uso de los resultados. Se ha ido comprendiendo que no basta con implementar una evaluacin y publicar un informe, sino que es necesario desarrollar una estrategia de divulgacin y un conjunto de reportes apropiados a cada una de las audiencias a las que se quiere llegar. Las Unidades de Evaluacin tienen una mayor conciencia acerca de los usos apropiados e inapropiados para cada tipo de evaluacin, aunque esto muchas veces no est suficientemente claro entre quienes toman decisiones de poltica. Mayor preocupacin por la investigacin de los factores que inciden sobre los aprendizajes. Si bien falta mucho por hacer en trminos metodolgicos e interpretativos para producir buenos trabajos de investigacin, en la mayora de los pases hay conciencia de que es preciso avanzar en la investigacin y en la construccin de hiptesis sobre cmo las dinmicas de la gestin de los sistemas educativos, los procesos escolares,
II. La situacin de la evaluacin estandarizada en Amrica Latina

Los sistemas nacionales de evaluacin estandarizada se desarrollaron con fuerza en toda la regin durante los aos 90. Algunos pases han mantenido sus sistemas en funcionamiento con continuidad, aun cuando se produjeran cambios de enfoque o variaciones en la institucionalidad de los mismos. Otros pases han tenido importantes discontinuidades y han tenido que comenzar prcticamente desde cero en repetidas oportunidades o tendrn que hacerlo en el futuro prximo. Adems de ello, actualmente: Diecisis pases estn participando en el Segundo Estudio Regional en 3 y 6 de primaria que lleva adelante la OREALC/UNESCO: Argentina, Brasil, Chile, Colombia, Costa Rica, Cuba, Ecuador, El Salvador, Guatemala, Mxico, Nicaragua, Panam, Paraguay, Per, Repblica Dominicana y Uruguay. Seis de estos pases participan en PISA 2006 y otros tres se incorporaran al ciclo PISA 2009. Algunos pases de la regin han participado adems (o lo estn haciendo) en los estudios de Matemtica y Ciencias (TIMSS), Lectura (PIRLS) y Educacin Cvica que lleva adelante la International Association for the Evaluation of Educational Achievement (IEA). Durante los ltimos 12 aos ha estado activa en la regin la red de los sistemas de evaluacin organizada en torno al Laboratorio Latinoamericano de Evaluacin de la Calidad de la Educacin (LLECE) de OREALC/ UNESCO, en la que participan actualmente casi todos los pases latinoamericanos. Esta red se rene dos veces al ao y es un espacio de intercambio de experiencias y formacin en el mbito de la evaluacin. Ms recientemente se ha constituido el Grupo
39
las prcticas de enseanza y las decisiones de poltica educativa influyen en las oportunidades de aprendizaje de los nios y nias. Creciente participacin de los pases en evaluaciones internacionales. Esto ha tenido consecuencias positivas en las Unidades de Evaluacin y en la calidad de su trabajo: ha contribuido a la construccin y acumulacin de capacidad tcnica en evaluacin, ha facilitado el intercambio y el desarrollo de un lenguaje comn entre pases y ha ayudado a mejorar la calidad de diversos procesos tcnicos (elaboracin de pruebas, incorporacin de preguntas de respuesta abierta, muestreo, control de las aplicaciones, anlisis de datos, modos de difusin, entre otros).
dinales, estudios de valor agregado y estudios cualitativos, entre otros. Los Ministerios de Educacin han tenido, por lo general, una limitada capacidad para concebir, formular e implementar polticas que den respuesta a los problemas identificados en las evaluaciones. Falta para ello mayor articulacin entre las Unidades de Evaluacin y otros actores educativos relevantes, dentro y fuera de los Ministerios de Educacin, y mayor articulacin entre la evaluacin, el desarrollo curricular, la formacin inicial y el desarrollo profesional de los docentes. Las acciones para la divulgacin y uso de los resultados de las evaluaciones an son insuficientes, en particular para lograr que los docentes los comprendan y utilicen y para que los resultados se incorporen a la cultura escolar. En la mayora de los pases perdura la prctica de divulgar resultados de tipos de escuela, escuelas individuales, estados o provincias, sin una adecuada consideracin de los contextos socioculturales en que operan las instituciones y subsistemas educativos. Esto conduce a interpretaciones y conclusiones errneas sobre la eficacia educativa de dichas instituciones o subsistemas. Para ello es necesario realizar evaluaciones de valor agregado, que implican dos mediciones sobre una misma poblacin en distintos momentos. Sobre este aspecto la experiencia en la regin es mnima. En muchos pases persisten importantes debilidades tcnicas en el diseo de las evaluaciones: excesiva simplicidad de la mayor parte de las preguntas y dificultad para elaborar preguntas que permitan evaluar capacidades cognitivas complejas; focalizacin de las evaluaciones en los logros educativos correspondientes a un grado especfico, lo que impide saber qu han aprendido quienes an no logran lo esperado para dicho grado; deficiencias en la conformacin de las muestras y en la forma de estimar y reportar los errores de medicin; y debilidades para establecer mediciones que sean comparables en el tiempo. No hay suficientes profesionales calificados para disear y conducir este tipo de evaluaciones, lo que se agrava por la falta de continuidad de los equipos tcnicos de los pases, muchas veces por razones de ndole poltico-partidaria. Esto dificulta la acumulacin de conocimiento y experiencia en la regin y ha dado lugar a que muchos pases tengan que comenzar desde cero con sus sistemas de evaluacin, algunos aos despus de haber tenido uno en funcionamiento y haberlo desmantelado.
Las principales debilidades presentes en los sistemas de evaluacin estandarizada en la regin se observan en la estrategia de difusin, en el uso de los resultados y en la calidad tcnica de las evaluaciones. A pesar de las mejoras previamente mencionadas, persiste un conjunto importante de debilidades que es preciso abordar: Es frecuente que desde el nivel poltico se demande la implementacin de grandes operativos de evaluacin sin propsitos claramente definidos y en tiempos y con recursos absolutamente insuficientes para hacerlo tcnicamente bien. An no se tiene claro que no cualquier evaluacin sirve para cualquier propsito y que es necesario disear cuidadosamente el sistema de evaluacin para el largo plazo, en funcin de propsitos y usos claramente establecidos. Esto es determinante para las decisiones relativas a la utilizacin de censos o muestras, a los grados y disciplinas que sern evaluados, la periodicidad de las evaluaciones, el tipo de pruebas y escalas de reporte, entre otros. Falta una mayor discusin pblica sobre qu debe ser evaluado y qu aspectos del currculo deben haber sido enseados a todos los estudiantes al concluir determinados niveles educativos. Como resultado de ello, las metas y/o estndares de aprendizaje no son claros. Mientras no exista claridad al respecto, tampoco existir claridad ni para la enseanza ni para la evaluacin. Esta tarea requiere de un amplio debate social y de un trabajo tcnico coordinado entre las unidades de currculo y de evaluacin. Para mejorar la investigacin sobre los factores que explican los resultados, falta mejorar mucho los instrumentos complementarios que se aplican junto con las pruebas y concebir diseos de investigacin ms ambiciosos: estudios longitu-
40
El riesgo de las malas evaluaciones

Solo una evaluacin tcnicamente buena y cuyos resultados sean conocidos y utilizados de manera apropiada, puede tener algn impacto en la mejora de los aprendizajes. Como es obvio, una evaluacin cuyos resultados son poco conocidos y utilizados supone un ejercicio estril y un desperdicio de recursos. Ms graves an son aquellas situaciones en que evaluaciones tcnicamente malas son ampliamente difundidas o en que las evaluaciones son empleadas para fines diferentes de aquellos para los cuales fueron concebidas y diseadas, lo cual puede tener efectos dainos para el sistema educativo. El razonamiento segn el cual lo que importa es evaluar y difundir resultados como mecanismo de rendicin de cuentas, sin importar la calidad de la evaluacin, es una falacia que puede hacer retroceder los sistemas de evaluacin e imposibilitar una discusin seria de las ventajas y desventajas de la rendicin de cuentas o responsabilizacin por los resultados.
participacin en pruebas internacionales Las pruebas nacionales pueden ofrecer una mirada ms apropiada acerca de qu aprenden los estudiantes de aquello que se les est enseando, mientras que las pruebas internacionales pueden servir para ubicar la situacin del pas en relacin a lo que saben y son capaces de hacer los estudiantes en otras sociedades y enriquecer el debate sobre el currculo nacional y el enfoque de la enseanza. Los pases deberan analizar cuidadosamente en qu pruebas internacionales participar, teniendo en cuenta lo que cada una pretende evaluar y su pertinencia en relacin a los objetivos nacionales. Parece recomendable participar peridicamente en al menos una evaluacin regional o internacional, en el marco de la poltica de prioridades que cada pas defina.
Evaluaciones para la certificacin de los aprendizajes de los estudiantes

Un sistema de evaluacin para certificar los aprendizajes de los estudiantes a travs de exmenes nacionales de alta calidad tcnica tiene ventajas asociadas a la transparencia y responsabilidad por los resultados. Hoy es comn que dos estudiantes que han aprobado un mismo nivel educativo en dos regiones distintas de un pas, posean en realidad niveles de conocimiento muy diferentes. Los sistemas de evaluacin para la certificacin dan transparencia al valor de los certificados educativos ante la sociedad. Adems, dichos sistemas hacen responsables tanto a los docentes como a los propios estudiantes por alcanzar los conocimientos y capacidades que evala el examen, lo cual tiene impactos positivos sobre el aprendizaje. En todo caso, la evaluacin externa con propsitos de certificacin es ms apropiada para los ciclos superiores del sistema educativo, sobre todo hacia el final de la educacin media. Un sistema de evaluacin para la certificacin implica algunos requerimientos que son costosos Por una parte, las pruebas deben ser de carcter censal y cada estudiante debe tener ms de una oportunidad para rendirla, lo cual requiere implementar varios operativos de evaluacin cada ao. Por otra parte, las pruebas deben tener una amplia cobertura curricular, lo cual requiere que sean extensas, en lo posible con preguntas de respuesta construida (que tienen un importante costo de codificacin) y deben abarcar varias asignaturas o disciplinas. Un sistema de evaluacin para la certificacin puede generar tensiones importantes que es necesario anticipar Si las pruebas son exigentes, ello puede conducir a niveles de reprobacin muy altos, que afectaran principalmente a los sectores sociales ms vulnerables y podran
III. Los propsitos y los usos de los resultados de las evaluaciones estandarizadas
Sea en la implementacin de un sistema de evaluacin o en su reforma, es necesario considerar algunas opciones bsicas de acuerdo a lo que se espera de l.
El primer paso es definir cul ser el propsito del sistema de evaluacin y para qu se usarn sus resultados Es preciso considerar diversas opciones, que no son necesariamente excluyentes. Un sistema puede combinar varias de ellas, pero es importante tener conciencia de que cada opcin requiere de un determinado diseo y tiene exigencias tcnicas y de costos diferentes. Se debe analizar si el sistema nacional de evaluacin ser: de carcter diagnstico (para alumnos, escuelas o sistema educativo), sin consecuencias directas para los estudiantes, cuya finalidad principal es enriquecer con informacin de calidad las percepciones, decisiones y acciones de diversos actores del sistema autoridades y cuerpos tcnicos, supervisores, directivos, docentes, estudiantes y sus familias para mejorar la enseanza y el aprendizaje. de certificacin de los logros educativos de los estudiantes, cuyo propsito central es establecer quines han alcanzado los conocimientos y desempeos necesarios para aprobar un curso o nivel y, en consecuencia, aprueba o reprueba. Es necesario tambin establecer un adecuado balance entre la implementacin de pruebas nacionales y la
41
agudizar problemas como la desercin y el desempleo juvenil, lo cual las hara insostenibles desde el punto de vista social y poltico. Por ello, es preciso acompaar este tipo de evaluaciones (en realidad todo tipo de evaluaciones, pero estas en particular) con acciones pedaggicas de carcter complementario y compensatorio. Proponer estndares altos implica asumir responsabilidad sistmica por proporcionar todas las oportunidades para aprender: textos, materiales, instalaciones y preparacin de maestros, entre otros. Existen diversos caminos para enfrentar este problema: Establecer que la evaluacin estandarizada constituya solo una parte del proceso de certificacin de aprendizajes de los estudiantes (por ejemplo, el 40% de su calificacin final). El resto de la nota correspondera a las evaluaciones que realizan los docentes a cargo de los estudiantes. Si bien en este caso se mantiene el problema respecto a la heterogeneidad de los criterios de evaluacin empleados por los docentes, es una forma de combinar la evaluacin externa y la interna, e incluso de aportar a los docentes una mirada externa que les permita reflexionar sobre sus propios criterios. Establecer un perodo de transicin hacia estndares nicos y universalmente aplicables. Durante dicho perodo, el foco principal se centra en la mejora o progreso de los estudiantes de cada escuela respecto a su situacin anterior, y no nicamente en el cumplimiento del estndar absoluto de certificacin. La peor respuesta que podra darse a este problema sera establecer un porcentaje fijo de reprobacin, por ejemplo, no debe reprobar ms del 10% de los estudiantes. Ello implica utilizar pruebas ms fciles y, por lo tanto, enviar a estudiantes, familias y educadores una seal equivocada respecto a las expectativas de aprendizaje.
expectativa exigentes sin que ello produzca un fracaso generalizado. Asimismo, ayudan a construir una cultura de la evaluacin y a acumular capacidad tcnica, de modo que, cuando se analice la posibilidad de establecer un sistema con consecuencias, existan las condiciones para hacerlo apropiadamente. Una de las alternativas a considerar entre los usos de carcter formativo es la de liberar una prueba completa para que sea aplicada en forma autnoma por parte de los maestros, con el fin de ayudarles a identificar dificultades de alumnos individuales y de enriquecer su repertorio de instrumentos de evaluacin. El principal problema de estas evaluaciones es que pueden carecer de impacto si no se toman algunas acciones complementarias Las evaluaciones de carcter diagnstico y formativo pueden resultar intrascendentes si no van acompaadas de una estrategia precisa y de una inversin importante para asegurar la divulgacin de los resultados y su uso en acciones educativas posteriores, puesto que su efectividad se juega en que los diferentes actores reciban, comprendan y utilicen los resultados. Por esto hay que tener presente que: Para que los resultados de este tipo de evaluaciones tengan impacto sobre las polticas educativas, se debe invertir tiempo en el anlisis y discusin de los mismos por parte de diversas reas del Ministerio de Educacin y otros actores relevantes, en la comprensin de los problemas y deficiencias que los resultados ponen de manifiesto y en la concepcin de acciones e inversiones apropiadas para hacerles frente. Las autoridades deben estar dispuestas a someter sus polticas y decisiones al escrutinio de la ciudadana, para lo cual es necesario tambin invertir en la comunicacin apropiada y permanente de los resultados a la opinin pblica. Para que los resultados tengan impacto sobre las prcticas de enseanza, es imprescindible asimismo invertir tiempo en el anlisis e interpretacin de sus implicancias didcticas: si los estudiantes no son capaces de resolver cierto tipo de situaciones, qu es lo que se est haciendo de manera insuficiente o inapropiada en las aulas y qu es lo que se debera hacer? Este tipo de anlisis debe ser realizado tanto por especialistas en la didctica de las reas evaluadas como por los docentes, creando para este ltimo efecto espacios permanentes y sistemticos de formacin en servicio y de trabajo colectivo al interior de las escuelas. Es muy importante que los maestros puedan analizar la mayor cantidad posible de tems para poder identificar cules revelan un bloqueo importante para el desarrollo de nuevos conceptos o capacidades. Sin embargo, siempre ser necesario conservar el carcter confidencial
EVALUACIONES DE CARCTER DIAGNSTICO Y FORMATIVO Un sistema de evaluacin de tipo formativo y sin consecuencias directas para los estudiantes tiene ventajas en trminos de costos, posibilidades de diseo y de establecimiento de estndares altos, y aporte a una cultura de evaluacin Los costos de aplicacin de estas pruebas pueden ser menores, dado que pueden hacerse en base a muestras y aplicarse solo en algunos grados claves y cada cierto nmero de aos. Por otra parte, las pruebas pueden disearse con carcter matricial, en que no todos los estudiantes responden a las mismas preguntas, sino a bloques de las mismas, lo cual permite trabajar con una cantidad muy grande de preguntas y obtener un anlisis ms detallado de los distintos aspectos del currculo. Estos sistemas permiten definir estndares o niveles de
42
de una parte de los temes para poder realizar mediciones comparables en el tiempo. Para que los resultados tengan impacto sobre la motivacin de los estudiantes y sobre la actitud de las familias hacia el aprendizaje escolar, es necesario proveerles de informacin apropiada y comprensible acerca de lo que se considera imprescindible haber aprendido en cada grado o nivel educativo y de las acciones que pueden contribuir al logro de dichos aprendizajes. Evaluar con una perspectiva amplia Es muy importante que las pruebas no se limiten a evaluar los conocimientos y competencias correspondientes a un nico grado (aquel en que se aplica la evaluacin), sino que incluyan una perspectiva ms amplia de niveles de desempeo desde ms bsicos a ms complejos a lo largo de varios grados, de modo de identificar qu han aprendido los estudiantes en grados anteriores y qu necesitan ahora. De este modo, los docentes podrn constatar y subsanar las deficiencias en los aprendizajes de cursos previos, que impiden a los estudiantes continuar avanzando y los resultados sern tiles no solo para los docentes del grado evaluado, sino tambin para los de grados anteriores. El nfasis no estar puesto en comunicar a los docentes que los estudiantes aprueban o desaprueban, sino en comunicar que estn en diferentes puntos de un continuo de aprendizaje, en el que todos pueden y necesitan progresar. Las pruebas de tipo diagnstico pueden tener carcter muestral o censal, dependiendo de la estrategia de cambio educativo El carcter censal o muestral tiene diversas implicancias, aunque tambin es posible combinar una aplicacin por muestras controlada con una distribucin censal de las pruebas para su aplicacin en forma autnoma por parte de las escuelas, con fines formativos y de anlisis de resultados e identificacin de estudiantes que necesitan apoyos complementarios. Las pruebas a base de muestras sirven para tener un diagnstico global del sistema. Requieren de un cuidadoso diseo de la muestra, de modo de obtener informacin representativa para los niveles de desagregacin en los que se desee actuar y tomar decisiones (regional, provincial, municipal; urbano y rural; escuelas indgenas, etc.). El impacto de los resultados de estas pruebas depende principalmente de las medidas de poltica educativa que se tomen a nivel central y de una estrategia de difusin apropiada que llegue a todas las escuelas. Las pruebas censales sirven para obtener informacin de cada una de las escuelas e incluso de los alumnos. El impacto de sus resultados depende de la devolucin de la informacin a cada
comunidad educativa, con un enfoque y un formato adecuados para promover una mayor participacin y compromiso a nivel local. La informacin tambin puede resultar muy til para dirigir mejor las polticas hacia distritos o escuelas con mayores problemas, ya que se puede contar con un mapa de resultados de todas las escuelas, zonas, provincias, tipos de escuela, etc.
Uso de las evaluaciones para establecer incentivos

Adems de las opciones examinadas, existen polticas de evaluacin estandarizadas dirigidas, a establecer incentivos econmicos en funcin de los resultados o a propiciar un mercado competitivo entre las escuelas Tres son las principales modalidades en este tipo de polticas: Utilizar los resultados para construir rankings de escuelas y hacerlos pblicos, como forma de: fomentar la responsabilidad de las escuelas por sus resultados; entregar a las familias informacin para la toma de decisiones sobre la escuela a la cual enviar a sus hijos; promover la competencia entre los centros educativos por obtener mejores resultados. Utilizar los resultados para entregar incentivos econmicos a las escuelas que obtienen mejores resultados o mejoras en relacin a sus resultados en evaluaciones anteriores. Utilizar los resultados como indicador de la calidad del trabajo de cada docente y como criterio para otorgar incentivos econmicos.
Estos enfoques de uso de la evaluacin a veces se constituyen, con o sin intencin deliberada, en un mecanismo por el cual el Estado renuncia a su responsabilidad por los resultados del sistema educativo En ocasiones, el Estado limita su accionar a la realizacin de evaluaciones, la entrega de resultados y el establecimiento de incentivos en funcin de estos resultados, transfiriendo la responsabilidad por los resultados a la relacin entre escuelas y familias, como si se tratase de un asunto entre actores privados, en lugar de ocuparse de crear las condiciones para que la enseanza resulte efectiva proveyendo los recursos necesarios, constituyendo un elenco docente adecuadamente formado y estableciendo mecanismos idneos para la evaluacin y la orientacin de la labor de las escuelas. Este modo de operar no considera la complejidad de la labor educativa, en especial en medios socialmente desfavorecidos, y la necesidad de invertir en la creacin de capacidades como herramienta principal para la mejora de la enseanza y el aprendizaje.
43
Criterios bsicos para la divulgacin y uso de los resultados

La responsabilidad por los resultados debe ser compartida por diversos actores Debera evitarse todo uso de los resultados con el fin deliberado o implcito de culpabilizar o responsabilizar de manera exclusiva a ciertos actores. La responsabilidad debe ser compartida entre las autoridades nacionales y regionales, los cuerpos docentes, los estudiantes y sus familias.
para evaluar a sus estudiantes, el conocimiento y la comprensin de las mismas pueden contribuir a mejorar sus modos de evaluar y a desarrollar una cultura de la evaluacin. Al reportar las diferencias de resultados en funcin de la composicin sociocultural del alumnado de las escuelas, se debe cuidar de no crear un sistema de expectativas de logro diferenciado por grupos sociales En todo caso, las diferencias deberan producirse en las polticas para crear condiciones apropiadas para ensear a los grupos ms desfavorecidos. Se debera descartar tambin cualquier tipo de uso de los resultados que, directa o indirectamente, propicie la seleccin de estudiantes por parte de las escuelas a los efectos de mejorar sus resultados.
La responsabilidad por los resultados requiere de una adecuada combinacin entre las exigencias y los apoyos a las escuelas y a los docentes Por un lado, es necesario que escuelas y docentes asuman su responsabilidad respecto al objetivo de que todos los estudiantes aprendan lo que se espera de ellos. Simultneamente, es deber de las autoridades establecer las polticas de apoyo necesarias para que escuelas y docentes puedan desarrollar su labor de manera apropiada. Un esquema de exigencias altas sobre escuelas y docentes sin los correspondientes apoyos solo puede generar malestar y desnimo. Un esquema de apoyos sin contrapartes y exigencias puede generar autocomplacencia.
Advertencias sobre la comparacin de resultados entre escuelas

Aunque los resultados de pruebas estandarizadas no dan cuenta en forma exhaustiva de la calidad educativa de una escuela, s aportan informacin relevante de los niveles de desempeo alcanzados La informacin sobre resultados en dos pruebas estandarizadas en general, lenguaje y matemtica no constituye por s misma una evaluacin de la calidad educativa de las escuelas ni debera presentarse al pblico como tal. La calidad de una escuela incluye otros aspectos relevantes y valorados por los docentes, estudiantes y familias, tales como el desarrollo emocional, las relaciones interpersonales, la formacin cvica y en valores, entre otros. Aun as, la informacin comparativa acerca de los niveles de desempeo alcanzados por los estudiantes en una diversidad de escuelas puede ser relevante para los equipos docentes de las escuelas, en la medida en que enriquece la percepcin de la propia labor, permitindoles ubicar los logros de sus estudiantes en el contexto de los alcanzados por los estudiantes en otras escuelas.
Es inapropiado utilizar los resultados de las pruebas estandarizadas como indicador principal de la calidad del trabajo del docente o de la escuela Esto es importante, en particular si no se ha controlado el efecto de otros factores internos y externos al sistema educativo y si no se tiene en cuenta que el aprendizaje depende tambin de la motivacin y esfuerzo personal del estudiante. Adems, dado que los resultados de pruebas estandarizadas no son el nico indicador de la calidad de la educacin, es preciso considerarlos en conjunto con otros aspectos relevantes como la retencin, la pertinencia y relevancia de lo que se ensea, la formacin de valores y hbitos o la formacin ciudadana. Debe evitarse la identificacin del trmino calidad con resultados de pruebas estandarizadas.
Para que la comparacin entre los niveles de desempeo de los estudiantes sea apropiada, se deben considerar sus condiciones sociales de origen Los resultados acadmicos de las escuelas deberan poder compararse con los de escuelas de similar composicin social, dado que los retos y dificultades que implica ensear a estudiantes de origen desfavorecido (o de lengua materna indgena) son muy diferentes que en el caso de estudiantes de familias con educacin secundaria completa y/o terciaria. Tambin hay que tener en cuenta las tasas de desercin de las escuelas y sus polticas de seleccin de estudiantes, dado que una escuela puede mejorar sus resultados a travs de la exclusin de estudiantes con dificultades.
Para facilitar la comprensin y uso de los resultados, no basta con ofrecer resultados numricos Es fundamental ilustrar a los distintos actores acerca del tipo de tareas que los estudiantes debieron resolver en las pruebas. Este criterio debe combinarse adecuadamente con la necesidad de mantener el carcter confidencial de un conjunto de preguntas que puedan emplearse en futuras evaluaciones para establecer mediciones comparables en el tiempo. Si bien no se pretende que los docentes utilicen pruebas estandarizadas
44
Las comparaciones entre escuelas deben considerar la diferencia entre medir el logro educativo y medir el aprendizaje En rigor, si el propsito es entregar a las escuelas, familias y/o autoridades, informacin acerca de la capacidad de ensear de los docentes y las escuelas, es necesario medir el progreso de los estudiantes a lo largo de un perodo lectivo (aprendizaje) y no nicamente el resultado final (logro). Las diferencias entre estos dos trminos se expresan en que: El aprendizaje puede ser definido como el cambio ocurrido en los conocimientos y capacidades de cada estudiante a lo largo del ao lectivo. Su medicin requiere la aplicacin de dos pruebas, una al inicio y otra al final. De este modo es posible constatar el progreso realizado por cada alumno. El logro educativo en cambio, se mide con una nica prueba y refleja la acumulacin de conocimientos y capacidades a lo largo de toda la vida del estudiante, lo cual incluye el capital cultural familiar y sus experiencias en otras escuelas o con otros docentes. Debe tenerse siempre presente que el aprendizaje y el logro educativo de los estudiantes dependen tanto de lo que hacen las escuelas y docentes, como del esfuerzo de los propios estudiantes, del apoyo de las familias a la tarea escolar, del contexto comunitario y cultural y de las polticas educativas. Los problemas educativos no pueden ser resueltos apelando exclusiva ni principalmente a mecanismos de mercado.
las siguientes preguntas bsicas: Para qu se quiere evaluar? Quines usarn los resultados y con qu propsitos? Qu se espera saber que no se sepa ya? Cules sern las unidades de anlisis para el reporte de resultados: estudiantes individuales, grupo de clase/maestros, escuelas, tipos de escuela, entidades subnacionales, sistema educativo? De acuerdo a los propsitos definidos, qu es ms apropiado evaluar aprendizaje o logro educativo al egreso de determinados grados o ciclos? Qu tipo de consecuencias tendrn los resultados y para quines? De acuerdo a los propsitos definidos, es necesario trabajar en forma censal o son suficientes evaluaciones en base a muestras? Qu grados y qu disciplinas es importante evaluar? Cada cunto tiempo es necesario y adecuado realizar las evaluaciones? Las respuestas a estas preguntas deberan plasmarse en un plan de evaluacin a corto, mediano y largo plazo, claro y explcito. En la elaboracin de dicho plan es muy importante considerar los costos en dinero implicados en cada opcin y los recursos humanos necesarios para su adecuada implementacin. En particular, se debe balancear la inversin a realizar en la recogida de informacin con la inversin en la difusin y uso de los resultados. Muchos Ministerios de Educacin destinan importantes sumas de dinero a recoger una gran cantidad de informacin todos los aos, que luego casi no se analiza, ni se difunde ni se utiliza. Es absolutamente inconducente implementar un primer operativo de evaluacin si no se ha elaborado un plan de trabajo de largo plazo. Mandatos tiles al momento de tomar decisiones polticas respecto al sistema de evaluacin No hars dao. Una de las primeras normas del juramento hipocrtico seala que el mdico se abstendr de todo aquello que pueda generar dao o perjuicio a sus pacientes. Del mismo modo, a la hora de pensar en un sistema de evaluacin es importante considerar los riesgos de efectos no deseados y perjudiciales que la estrategia de evaluacin diseada podra tener sobre el propio sistema educativo que se desea mejorar. El consumo excesivo de este producto puede resultar perjudicial para la salud. La eva-
Los resultados expresados en trminos de rankings de escuelas deben ser mirados con precaucin La mayora de los rankings de escuelas transmiten una falsa imagen de ordenamiento. Una escuela puede ocupar el primer lugar y otra el nmero 40 y, sin embargo, las diferencias entre sus promedios pueden no ser estadsticamente significativos. Esto significa que no puede decirse si un promedio es realmente superior al otro, porque las diferencias entran dentro de los mrgenes de error de la medicin. Pero aun cuando las diferencias en los promedios sean estadsticamente significativas, pueden ser irrelevantes en trminos de las proporciones de alumnos que logran los niveles de desempeo esperados.
Itinerario para la toma de decisiones

Considerando las alternativas existentes para una poltica de evaluacin, antes de poner en marcha un sistema de evaluacin (o de modificar uno existente) es indispensable seguir un itinerario de decisiones para definir las caractersticas del sistema que incluya al menos
45
luacin no puede estar por encima de la educacin. El exceso de evaluaciones puede producir perjuicios para la salud del sistema educativo, en especial si solo hay evaluaciones pero no hay polticas para dar respuesta a los problemas que estas ponen de manifiesto. No evaluars en vano. Se debe evitar recoger todos los aos informacin que nunca ser analizada ni utilizada. Para que un sistema de evaluacin tenga impacto, debe tener una periodicidad que garantice que los datos puedan ser analizados, discutidos, comprendidos y utilizados. Incorporar la nueva informacin y traducirla en decisiones y acciones lleva tiempo. Los cambios en el sistema educativo requieren ms tiempo an. Vsteme despacio, Sancho, que estoy apurado. Es muy importante que quienes toman las decisiones en los Ministerios de Educacin desestimen la creencia ingenua en la existencia de caminos fciles y rpidos. No es posible montar un programa de evaluacin serio en tres meses. No existe coyuntura ni ventana de oportunidad que lo justifique: las consecuencias de la improvisacin se harn sentir tarde o temprano. La evaluacin requiere reflexin cuidadosa acerca de sus fines y usos; discusin pblica sobre qu es lo fundamental a evaluar; dilogo e involucramiento de diferentes actores; conformacin de equipos tcnicos competentes en diversos aspectos; e informacin previa para que los actores se involucren con la evaluacin.
Incluir en las pruebas actividades con diversos grados de complejidad Se debe contemplar actividades cuya solucin requiera de competencias cognitivas suficientemente complejas, apropiadas a los desafos de la sociedad del conocimiento, as como tambin actividades sencillas que permitan informar sobre el punto en que se encuentran los estudiantes menos avanzados. Las actividades deben poseer una serie de propiedades psicomtricas que es necesario garantizar y cuyo control requiere pruebas piloto y anlisis cuidadoso. Tambin es importante, en la medida de lo posible, ampliar el uso de preguntas de respuesta construida, con el doble propsito de evaluar capacidades ms complejas y de mejorar la articulacin entre la evaluacin externa y la cultura docente y escolar.
Conformar las pruebas a partir de la apropiada integracin de las actividades en bloques y cuadernillos Este es un desafo tcnico importante y complejo, que requiere de conocimientos especializados y experiencia. Especial atencin debe otorgarse a la decisin de utilizar la Teora Clsica o la Teora de la Respuesta al tem para la construccin y el anlisis de las pruebas, lo cual requiere de programas de procesamiento modernos, analistas bien entrenados, anlisis rigurosos y asesoramiento de alto nivel.
Definir los puntos de corte que establecen los lmites entre niveles de desempeo en una prueba Vinculado con esto, se debe definir la metodologa a seguir para establecer cul de los niveles debe ser considerado como aceptable para un estudiante al finalizar el grado o ciclo educativo evaluado. Un rendimiento aceptable no puede ser establecido automticamente como equivalente al 51% o ms del mximo posible en una prueba.
Iv. Los desafos de calidad tcnica de las evaluaciones

Una vez definida la poltica de evaluacin, es necesario implementarla de acuerdo con diversos estndares apropiados de calidad tcnica. Esto implica abordar los siguientes desafos:
Elaborar un referente o marco conceptual que defina con precisin los conocimientos y desempeos que son considerados apropiados al finalizar el grado o ciclo educativo que ser evaluado Si bien esta construccin exige antes que nada un debate y decisiones de carcter poltico, las definiciones tomadas en dicho terreno deben luego ser adecuadamente traducidas en especificaciones y estndares de carcter tcnico. Asimismo, el debate poltico-educativo debe estar alimentado por informacin sobre los avances conceptuales recientes en cuanto a la enseanza y a los desempeos de los estudiantes en las disciplinas consideradas.
Disear muestras apropiadas a los propsitos de la evaluacin Esto tiene por objeto evitar operaciones ms grandes y costosas de las estrictamente necesarias y que, al mismo tiempo, tengan un nivel de precisin adecuado. En relacin a este ltimo aspecto debe incluirse, adems, la estimacin y reporte de los mrgenes de error de las mediciones.
Definir cmo se equipararn las evaluaciones La equiparacin de las evaluaciones se refiere a la metodologa mediante la cual los resultados de pruebas aplicadas en distintos aos se hacen comparables. Este es uno de los desafos tcnicos ms importantes
46
que los sistemas de evaluacin deben afrontar si uno de sus propsitos es informar sobre los avances o retrocesos en los logros educativos a lo largo del tiempo. Este proceso es indispensable para poder afirmar que los eventuales cambios que se constaten responden a cambios en la realidad educativa y no meramente a cambios en el instrumento de medicin. Requiere tomar recaudos tanto desde el punto de vista estadstico, como desde el punto de vista de la continuidad de los conocimientos y competencias evaluadas, y la estabilidad en la longitud y la estructura de la prueba.
La necesaria transparencia Sobre todos los procesos tcnicos debe existir informacin transparente y accesible. Es necesario dar un especial nfasis a la documentacin de los procedimientos tcnicos seguidos en: La construccin de los instrumentos. La estimacin de la precisin de las mediciones (y, por consiguiente, su margen de error). El diseo de las muestras y la cobertura alcanzada. La aplicacin y control de calidad de la misma. La definicin de niveles de desempeo y puntos de corte. La equiparacin y comparabilidad de los resultados con mediciones anteriores.
Construir datos longitudinales que permitan apreciar la evolucin en el tiempo de los aprendizajes de un mismo conjunto de estudiantes Este tipo de datos, que exigen ms de una medicin en el tiempo, es el que evala el aprendizaje entendido como cambio y el que mejor permite establecer cules son los procesos propiamente escolares que tienen influencia sobre el mismo. Este enfoque es el que permitira obtener informacin ms relevante para la poltica educativa y para la investigacin.
Establecer mecanismos de control del cumplimiento de las condiciones estandarizadas que deben regir durante la aplicacin de las pruebas El cumplimiento de las condiciones de aplicacin de las pruebas involucra aspectos tcnicos complejos y muchas veces descuidados. Sin embargo, son fundamentales para que la informacin sea confiable y comparable. Esto apunta a temas como: La calidad de la capacitacin de los aplicadores. El establecimiento de controles de calidad durante la aplicacin de las pruebas. La motivacin a los estudiantes para realizar las pruebas. La logstica de la distribucin. El retorno seguro de los materiales.
V. Sobre la constitucin de las unidades de evaluacin

Para llevar adelante una poltica de evaluacin de logros educativos o aprendizajes apropiada, es necesario contar con Unidades de Evaluacin con las capacidades y los recursos adecuados que implica este complejo emprendimiento. La puesta en marcha de un sistema de evaluacin serio requiere de un tiempo mnimo de entre dos y tres aos Este periodo es necesario para llevar adelante los siguientes procesos fundamentales: Discusin, definicin y difusin pblica de los propsitos del sistema de evaluacin, del tipo de consecuencias, de los usos esperados y de qu debe ser evaluado. Diseo del plan de evaluacin a largo plazo. Conformacin de equipos tcnicos con la diversidad de capacidades requeridas (elaboracin de pruebas; elaboracin de cuestionarios; conocimiento de las disciplinas a evaluar y de su didctica; currculo y estndares; muestreo; logstica de la aplicacin y control de calidad de la misma; captura y limpieza de datos; procesamiento y anlisis; construccin de escalas; contextualizacin sociocultural de los resultados y anlisis de factores asociados; interpretacin de los datos en trminos de polticas educativas, de didctica y de prcticas de enseanza).
Combinar las evaluaciones con estudios cualitativos Es importante combinar las evaluaciones nacionales estandarizadas, que ofrecen una mirada sobre el conjunto del sistema, con la realizacin de estudios cualitativos que permitan profundizar en los procesos escolares y los procesos que ocurren en las aulas. Esta combinacin de enfoques es el mejor modo de aportar informacin rica y compleja para pensar en las polticas educativas y en las prcticas de enseanza.
47
Elaboracin de instrumentos, pilotaje y supervisin externa de los mismos.
Las Unidades de Evaluacin necesitan tener una cierta estabilidad en el tiempo de sus elencos tcnicos El desarrollo de un sistema de evaluacin requiere de una planificacin a 10 15 aos. Si los equipos tcnicos cambian con frecuencia, se desperdicia el conocimiento y la experiencia acumulada en un rea compleja y se desacreditan los procesos de evaluacin ante la sociedad y los educadores.
Para que las evaluaciones estandarizadas tengan impacto sobre las polticas y las prcticas educativas, es necesario generar nuevas interfases y modalidades de trabajo que aseguren el alineamiento de los distintos actores y mbitos de decisin Las Unidades de Evaluacin deben asumir que su tarea va ms all de producir datos. Si su misin es producir informacin para otros acto22 res, se requiere de personas preparadas y con tiempo para establecer lneas de dilogo con instancias y actores responsables de: Anlisis de poltica educativa , con el fin de mejorar tanto los diseos de las evaluaciones como los planes de procesamiento y los reportes de resultados, teniendo en cuenta preguntas relevantes para la poltica educativa (por ejemplo, la muestra puede ser diseada de modo que permita evaluar el impacto de polticas o programas especficos en ciertos grupos de escuelas). Anlisis didctico, con el fin de interpretar los resultados y los problemas de aprendizaje de los estudiantes desde la perspectiva de la enseanza y la didctica de la disciplina evaluada, elaborar reportes con significado didctico para los docentes, disear programas de formacin en servicio a partir de los resultados, pensar la articulacin de las evaluaciones estandarizadas con la evaluacin en el aula. Comunicacin, con el fin de elaborar una diversidad de reportes de resultados, con diversos formatos y lenguajes, que sean apropiados y comprensibles para diversas audiencias.
Las Unidades de Evaluacin necesitan tener independencia para reportar los resultados de su trabajo Al igual que en el caso de las Unidades de Estadsticas sociales y econmicas, las unidades que realizan las acciones de evaluacin y la divulgacin de los correspondientes resultados no deben depender de los tiempos e intereses poltico- partidarios. Se ha discutido mucho respecto a si las Unidades de Evaluacin deberan estar dentro o fuera de los Ministerios de Educacin. El argumento principal para esta ltima opcin es justamente la necesaria independencia y transparencia. Sin embargo, la experiencia en la regin muestra casos de pases con unidades estables e independientes dentro de los Ministerios de Educacin y otros con unidades inestables que no han logrado consolidar su trabajo aun estando en una institucin externa. La respuesta a esta disyuntiva es que no importa tanto el lugar institucional como la cultura de continuidad y transparencia que se cree en torno a la evaluacin. Esto se logra cuando existe un mandato claro y una institucionalidad slida en relacin a la evaluacin, lo cual implica algn tipo de estatuto jurdico para el sistema de evaluacin. Establecer esto por ley es uno de los caminos a considerar, dado que exige un acuerdo amplio, en lo posible suprapartidario, que permita establecer un plan de evaluacin de la educacin de largo plazo. En este terreno, al igual que en el econmico, se requiere de cierta estabilidad en las reglas de juego. Si la poltica de evaluacin cambia permanentemente, se genera desconfianza y se pierde credibilidad.
Evaluar bien requiere inversin Ms vale no hacer ninguna evaluacin que hacer una evaluacin mala o deficiente. Esto debe ser tenido en cuenta al tomar las decisiones acerca del Plan de Evaluacin. Asimismo, ms vale un sistema de evaluacin modesto pero con costos asequibles y sostenibles en el tiempo, que una gran evaluacin, amplia y sofisticada, que solo podr realizarse una vez y que luego no podr replicarse. La inversin en evaluacin debe ser valorada en funcin del uso que se hace de sus resultados, ms que a partir de otros indicadores como el costo por alumno. Los costos de las evaluaciones son relativamente bajos cuando se los compara con los presupuestos nacionales y con las inversiones alternativas. Pero cualquier inversin en evaluacin, alta o baja, es intil si no se hace uso de los resultados.
Una institucionalidad slida requiere de rganos de gobierno y de asesoras tcnicas, independientes y plurales, y de un presupuesto apropiado y plazas de trabajo que garanticen la operacin de la unidad con la calidad tcnica requerida La independencia de la Unidad de Evaluacin no debe dar lugar a su desvinculacin de la poltica educativa. Por el contrario, la evaluacin debe responder a un proyecto poltico-educativo con amplio respaldo y debe mantener una estrecha relacin con otras reas claves de la poltica educativa como la formacin docente, el desarrollo curricular, el planeamiento y formulacin de proyectos, la evaluacin de programas y la investigacin.
48
VI. Diez recomendaciones acerca de las evaluaciones que la regin necesita

1. La evaluacin debe concebirse como un elemento articulado en un conjunto ms amplio de acciones y polticas educativas. La evaluacin por s misma no produce mejoras. Deben existir articulaciones estables entre el rea de evaluacin y las reas de desarrollo curricular, formacin docente, investigacin, diseo de polticas, comunicacin y prensa, entre otros. 2. La evaluacin debe contemplar un proceso de reflexin colectiva sobre el estado de la educacin y los caminos para mejorarla. El primer paso para ello es la consulta y el debate pblicos acerca de qu deben aprender los estudiantes y acerca de los propsitos y consecuencias de la evaluacin. Del mismo modo, es fundamental la discusin pblica constructiva a partir de los resultados, con el fin de encarar las insuficiencias de inequidades en el acceso al conocimiento por parte de los y las estudiantes. Para ello es necesario invertir en comunicacin y difusin tantos o ms recursos que en la propia evaluacin, antes, durante y despus de la misma. 3. La evaluacin debe estar al servicio del desarrollo de un sentido de responsabilidad compartida por la educacin como bien pblico. Debe promover el compromiso con la educacin de todos los actores, cada uno segn su lugar y mbito de accin. Por este motivo, debe evitarse utilizar la evaluacin para culpabilizar a actores especficos por los problemas detectados. 4. Los sistemas de evaluacin de la regin necesitan ampliar progresivamente el abanico de fines educativos que son objeto de evaluacin. Es importante en este sentido incluir a la formacin ciudadana, otras disciplinas adems de Lenguaje y Matemtica, as como un espectro ms amplio de competencias y capacidades. 5. Los sistemas de evaluacin de la regin deberan progresivamente disear evaluaciones de progreso de los estudiantes, dado que son las que pueden aportar mayor informacin acerca del impacto de las polticas educativas, de las acciones de las escuelas y de las prcticas de enseanza, en los aprendizajes de los y las estudiantes. 6. Un sistema de evaluacin es un proyecto de largo plazo, por lo que requiere de un compromiso del Estado y de una planificacin cuidadosa del diseo del sistema. Ello exige tomar decisiones acerca de los fines, las
consecuencias, los aspectos a evaluar, las reas y los grados, y la periodicidad de las evaluaciones, entre otras cosas. Todo ello exige tiempo, por lo que no es conveniente pretender la implementacin de sistemas de evaluacin en plazos reducidos. 7. Un buen sistema de evaluacin requiere inversin, principalmente en la conformacin de equipos humanos calificados, as como recursos econmicos suficientes para una adecuada implementacin de todos los procesos implicados. 8. El sistema de evaluacin debe sustentarse en una actitud firme de transparencia en relacin a los resultados y de rendicin de cuentas a la sociedad. 9. Los ministerios de educacin deben asumir un compromiso serio y consistente con los resultados de la evaluacin, lo cual implica promover el dilogo acerca de los problemas detectados y los modos de enfrentarlos, disear lneas de accin apropiadas para resolver los problemas e invertir los recursos necesarios para llevarlas adelante. 10. Los sistemas de evaluacin deben ser objeto de evaluacin peridica, con el fin de analizar la calidad tcnica de la informacin que producen y su relevancia para diversos actores educativos y sociales.
49
Una mirada tcnico-pedaggica acerca de las evaluaciones de calidad educativa
Introduccin
Las preguntas sugeridas como punto de partida para la reflexin de esta mesa fueron tres: Qu estamos evaluando? Qu de lo evaluado resulta significativo? Por qu las reformas educativas realizadas a lo largo de la dcada del 90 no se ven traducidas en los resultados de las evaluaciones? Para aventurar la respuesta que considero debe darse a esas tres preguntas considero necesario presentar antes la que considero apropiada para una pregunta ms: qu deberamos evaluar de modo que la evaluacin sirva para mejorar la calidad educativa? Organizar mi presentacin, pues, en cuatro apartados, cada uno de los cuales pretende responder una de las cuatro preguntas mencionadas.
la regin latinoamericana y otras partes del mundo no es casual: responde, desde luego, a la similar evolucin del contexto demogrfico, econmico, social y cultural. Es frecuente que el trmino calidad se defina en forma restringida, limitndolo a lo que se refiere a los niveles de aprendizaje. En este sentido se dice que, tras centrar la atencin en la cobertura y la eficiencia, ahora las polticas educativas ponen el nfasis en la calidad. Otra manera de usar la palabra, que juzgo preferible, le da un sentido ms amplio, que se aplica tambin a las polticas de cobertura y eficiencia terminal. Un concepto amplio de calidad, en efecto, no puede dejar fuera las dimensiones de cobertura y eficiencia, aunque no pueda limitarse a ellas y deba incluir adems el nivel de aprendizaje, entre otras cosas. Un concepto amplio de calidad debe incluir, en mi opinin, varias dimensiones que, en forma sinttica, pueden expresarse diciendo que un sistema educativo de calidad es aqul que:
n
Qu deberamos evaluar para que la evaluacin sirva para mejorar la calidad?

Ante un auditorio interesado en la educacin no es necesario abundar en lo relativo a la importancia de su calidad y su evaluacin. Pero teniendo en cuenta la diversidad de concepciones de estas dos nociones (calidad y evaluacin) juzgo necesario explicitar mis propias ideas al respecto, de modo que las respuestas que ofrecer para las tres preguntas siguientes cobren sentido pleno. Tratando, pues, de responder a esta primera pregunta, afirmo que, idealmente, una evaluacin adecuada para que sirva realmente para mejorar la calidad educativa sera una muy amplia, que incluyera todas las dimensiones de la calidad; todas las reas del currculo; los aspectos cognitivos pero tambin los actitudinales y valorales; no slo niveles de dominio elementales, sino tambin los ms elevados; insumos, pero tambin procesos y productos; los diversos actores y niveles organizacionales del sistema educativo; y que, adems, incluyera el anlisis de los factores que inciden en la calidad, de manera que d bases para el diseo y la implementacin de polticas. Desarrollo el primero de los elementos anteriores: una buena evaluacin deber comprender todas las dimensiones de la calidad. Sabemos que las polticas educativas han puesto el acento sucesivamente en la atencin de la cobertura, luego en la eficiencia terminal y, ms recientemente, en el nivel de aprendizaje alcanzado por los alumnos y en la equidad del servicio educativo. La coincidencia de la secuencia anterior de tales polticas en muchos pases de
Establece un currculo adecuado a las necesidades de la sociedad, incluyendo las de una mayor productividad econmica, pero tambin otras necesidades bsicas en una perspectiva de desarrollo integral, como las que tienen que ver con la democracia poltica, el respeto de los derechos humanos, el desarrollo de la ciencia, el cuidado del medio ambiente y la preservacin y enriquecimiento de la diversidad cultural. Esta dimensin puede definirse con la expresin relevancia de los objetivos curriculares. Logra que la ms alta proporcin posible de destinatarios acceda a la escuela, que permanezca en ella hasta el final del trayecto previsto y que egrese alcanzando los objetivos de aprendizaje establecidos. Esta dimensin incluye, pues, la cobertura y la eficiencia terminal, as como el nivel de aprendizaje, y en trminos sistmicos coincide con la eficacia interna del sistema. Consigue que los aprendizajes logrados por los alumnos sean asimilados por stos en forma duradera y deriven en comportamientos sociales sustentados en los valores de libertad, equidad, solidaridad, tolerancia y respeto a las personas, que son fructferos para la sociedad y para el propio individuo, quien podr as alcanzar un desarrollo pleno en los diversos roles que habr de desempear como trabajador, productor,
50
consumidor, padre de familia, elector, servidor pblico, lector y telespectador, entre otros; en pocas palabras, como ciudadano cabal. En trminos sistmicos esta dimensin es la de la eficacia externa o impacto del sistema.
n
Cuenta, para lograr lo anterior, con recursos humanos y materiales suficientes, y los aprovecha de la mejor manera posible, evitando despilfarros y derroches. Es fcil apreciar que esta es la dimensin eficiencia del sistema. Tiene en cuenta la desigual situacin de alumnos y familias, de las comunidades en que viven y las escuelas mismas, y ofrece apoyos especiales a quienes lo requieren, para que los objetivos educativos sean alcanzados por el mayor nmero posible. Esta ltima dimensin es la de equidad.
Conceptualizada as, multidimensionalmente, la educacin ser de calidad si es relevante, si tiene eficacia interna y externa, si tiene un impacto positivo en el largo plazo, si es eficiente en el uso de los recursos y si busca la equidad. Considero que es mejor este concepto amplio de calidad que uno restringido, porque creo que nadie creer que un sistema educativo es de calidad si atiende slo a una fraccin de la poblacin en edad de acceder a cierto nivel, o si pierde en el camino a muchos de los alumnos que lo comienzan, aunque los que terminan lo hagan con altos niveles de aprendizaje. Los otros componentes de una buena evaluacin son claros: todas las reas del currculo, comenzando por supuesto con Lecto-escritura y Matemticas, pero sin limitarse a ellas, sino contemplando, al menos en el mediano plazo, las ciencias naturales y las del hombre, la educacin fsica y artstica, etc. Debern incluirse los aspectos cognitivos pero tambin los actitudinales y valorales, ya que la educacin no slo pretende desarrollar los primeros, sino tambin, y con creciente nfasis, los segundos, cuya importancia para la vida en una sociedad democrtica y culta se reconoce cada vez ms. Obviamente, no slo debern valorarse niveles de aprendizaje elementales, como memorizacin, sino tambin los ms elevados, de razonamiento propio, juicio crtico y creatividad. Una buena evaluacin no podr limitarse a los insumos del sistema, si bien no puede olvidarlos, ya que sin ellos no es posible medir la eficiencia del sistema, pero habr de considerar tambin los productos, para valorar la eficacia, y los procesos, como parte de una aproximacin explicativa que indague en lo relativo a las causas de la situacin descrita, con lo que se dar sustento slido al diseo y la implementacin de acciones de mejoramiento. Con un enfoque integral como el que se propone, la evaluacin tomar en cuenta no slo a los alumnos, sino tambin a los maestros, los directores y supervisores y las autoridades educativas, as como los diferentes niveles de organizacin de un sistema complejo como
el educativo, en cada uno de los cuales hay una problemtica especfica, y oportunidades particulares de intervencin: el aula, la escuela singular, la zona o distrito escolar, el municipio, la regin, provincia o entidad federativa, y el pas. Una buena evaluacin, adems, deber caracterizarse por las cualidades tcnicas de cualquier medicin buena, que se resumen en la validez y la confiabilidad, en sus diversas facetas: que se mida realmente lo que se pretende medir, y que se haga de manera que los resultados sean comparables en el espacio y en el tiempo. Subrayo que la evaluacin no puede reducirse a la aplicacin de pruebas de aprendizaje. Estas son, sin duda, necesarias para la medicin de los resultados de la enseanza, pero la valoracin de otros aspectos implica la construccin de indicadores con otro tipo de datos, tomados de otras fuentes, como los sistemas de informacin estadstica o estudios ad hoc. Es claro que esta es una visin ideal, que en sentido estricto es imposible llevar a la prctica, pues exigira una cantidad de trabajo y un volumen de recursos enorme para recolectar la informacin necesaria. Pero si no se tiene este punto de referencia es fcil caer en el error opuesto, que en la realidad se ha dado en muchos lugares: el de reducir el sistema de evaluacin a los elementos ms fcilmente disponibles, con lo que slo se dispone de datos gruesos y burdos sobre el nmero de alumnos inscritos en el sistema al inicio y al fin de un ciclo, el de maestros y escuelas, el presupuesto asignado a las escuelas y poco ms. Por ello creo que es importante manejar una visin ideal de lo que debera ser la evaluacin como referente para el desarrollo de un sistema concreto; con tal punto de referencia, y con ayuda de las metodologas de investigacin y evaluacin educativa desarrolladas en las ltimas dcadas, es factible disear sistemas mucho ms finos que los habituales, con requerimientos de recursos al alcance de los sistemas educativos reales. No est de ms precisar que diversos tipos de evaluacin son competencia de diversas instancias. En particular conviene distinguir la evaluacin de individuos de la de los sistemas como tales. La evaluacin de los alumnos en lo individual, por ejemplo, es y sin duda seguir correspondiendo a los maestros y las escuelas en que estn los alumnos; la evaluacin de los maestros en lo individual corresponde y corresponder seguramente a los directores y supervisores. La evaluacin a la que me refiero en este escrito es, precisamente, la del sistema educativo en cuanto tal. Se trata, pues, de una evaluacin de nivel macro, que no sustituye a las evaluaciones individuales, sino que las complementa, iluminando un ngulo diferente de la realidad educativa. Tras lo anterior, las respuestas a las siguientes preguntas sern ms breves.
51
Qu estamos evaluando?
Resumo mi respuesta, en forma algo simplista y cruda, diciendo que evaluamos algunas de las dimensiones de la calidad educativa, pero dejando fuera varias de las ms importantes, que lo hacemos de manera imprecisa, y que no llegamos a las causas. Hasta hace muy pocos aos, la situacin de la mayor parte de los sistemas de evaluacin educativa de los pases de la regin era justamente la que se ha mencionado antes: solamente se contaba con datos sobre alumnos, maestros, escuelas y presupuestos, con lo que se podan estimar indicadores de cobertura, eficiencia terminal y costo alumno en forma gruesa, ya que por lo general no se controlaba la calidad de los procesos de recoleccin de informacin, no se manejaban datos por edad, con lo que slo podan construirse tasas brutas y no netas y se manejaban slo cohortes aparentes. Los esfuerzos que han hecho muchos de nuestros pases en la ltima dcada han incluido, por una parte, mejoras en los sistemas de informacin y, por otra, el desarrollo de sistemas de pruebas nacionales para valorar los aprendizajes de los alumnos. Estos esfuerzos son importantes, sin duda, pero an estn por consolidarse y adolecen de fallas claras, explicables por la falta de una tradicin en el campo y la consecuente escasez de recursos humanos especializados. Pecando tal vez de simplismo, creo que en la regin atendemos la cobertura y la eficiencia terminal en forma imperfecta y el nivel de aprendizaje de los alumnos en reas curriculares y grados clave, pero por lo general limitndose a niveles cognitivos bajos. La contraparte obvia, lo que no estamos evaluando, incluye reas curriculares adicionales, niveles cognitivos superiores, aspectos actitudinales y valorales, procesos tanto pedaggicos como de gestin y lo relativo a equidad. En las escuelas se evalan muchas de estas cosas, desde luego, pero no parece haber procedimientos para valorar tales dimensiones o aspectos de la calidad de manera permanente y sistemtica en el nivel nacional. Debe aadirse que muchas veces las evaluaciones que hacemos no tienen, en un grado suficiente, las caractersticas tcnicas mencionadas de validez y confiabilidad. Por lo que se refiere a validez, la ausencia de controles de las variables relevantes del contexto puede hacer que midamos en realidad pobreza, cuando creemos medir calidad de las escuelas. En este sentido en la regin es muy raro todava el uso de las poderosas tcnicas actuales, como los modelos jerrquicos lineales, que permiten identificar la influencia de los factores del entorno distinguindolos, por ejemplo, de los de la escuela, el aula y el propio alumno. En cuanto a confiabilidad, es tambin raro el uso de metodologas psicomtricas avanzadas, como los modelos de la teora de la respuesta al reactivo, que permiten contar con escalas ms precisas, comparables en el tiempo, que cuidan la unidimensionalidad y evitan el sesgo de manera ms adecuada que las tcnicas de la teora clsica de las pruebas. Debe aadirse que, hasta hace poco tiempo, no era raro que se manejaran pruebas que
no empleaban en forma rigurosa siquiera los principios de la teora clsica. Las tcnicas de valor agregado son tambin muy poco conocidas.
Qu de lo evaluado resulta significativo?

En principio los mecanismos de evaluacin existentes son todos significativos y, aun en ausencia de los que se sugiere aadir, contienen potencialmente elementos tiles para el mejoramiento de los sistemas educativos. Sin embargo, es frecuente que an esos elementos se desaprovechen y slo sirvan para acumular datos en anuarios estadsticos destinados a empolvarse en los estantes, sin que los responsables de tomar decisiones, y mucho menos los maestros, los conozcan y utilicen para retroalimentar su quehacer. Esto quiere decir que, adems de mejorar los actuales mecanismos de evaluacin y de enriquecerlos con nuevos elementos, es necesario un importante esfuerzo de difusin de resultados y de capacitacin de los usuarios para que estn en condiciones de entender y aprovechar los resultados de las evaluaciones.
Por qu las reformas realizadas en los 90 no se ven traducidas en los resultados?

Esta pregunta parte de un supuesto que no me parece incuestionable: que las reformas educativas implementadas en Amrica Latina en los 90 no han dado resultados. Los niveles educativos de nuestros pases son el resultado de un enorme conjunto de factores, incluyendo unos tan complejos como el explosivo incremento demogrfico que hizo del subcontinente la regin de mayor crecimiento poblacional en toda la historia hasta mediados del siglo XX, la pobreza que aflige a gran parte de la poblacin y la diversidad tnica y lingstica. Otros factores igualmente complejos incluyen el carcter autoritario de muchos regmenes polticos, las estructuras sindicales y burocrticas, y la desigualdad ancestral de nuestras sociedades. Los cambios educativos, por otra parte, son complejos tambin y, en el mejor de los casos, llevan mucho tiempo; no pueden ser el resultado rpido de esfuerzos simples. Por ello, aun si en verdad las reformas de los aos 90 no han dado resultados, podran encontrarse diversas explicaciones. Las polticas educativas de la regin han adolecido, en muchos casos, de serias deficiencias en diversos aspectos: en el diagnstico en que se sustentan, muchas veces incompleto e impreciso; en el diseo de los programas, muchas veces simplista, apostando demasiado a pocos elementos de los que se espera ms de lo que pueden dar; y, tal vez, sobre todo, en la implementacin.
52
No es fcil, en efecto, que las reformas lleguen hasta el nivel ms importante, el de la escuela y el aula. Para ello se requiere de tiempo y, adems, de estrategias muy finas que aseguren la participacin de los maestros. Desgraciadamente, es ms frecuente encontrar estrategias simplistas e implementaciones apresuradas que procesos cuidadosos y respetuosos de los actores de base y de la complejidad de la cuestin. No debera sorprender, por consiguiente, que los resultados obtenidos disten mucho de los esperados. Pero el punto que quiero destacar es que no tenemos evidencia suficiente para afirmar de manera contundente que las reformas de los 90 no han tenido resultados. Hay, sin duda, indicios importantes en tal sentido, pero los sistemas de evaluacin de que disponemos no sustentan afirmaciones tajantes. En particular, creo que en Mxico hay elementos para sostener que el nivel de aprendizaje ha mejorado ligeramente en los ltimos aos; que el impacto del gasto pblico en educacin bsica est siendo mayor para los tres deciles ms pobres de la poblacin, contra lo que ocurra antes; y que los programas compensatorios emprendidos a principios de los 90 han logrado reducir la desercin en medio rural y mejorar los niveles educativos en las zonas ms desfavorecidas. Por lo dems, la gran desigualdad que caracteriza a nuestras sociedades hace que necesitemos evaluaciones ms precisas, que tengan en cuenta el peso de los factores del entorno, tanto en razn del principio de equidad, como para valorar en su justa medida los avances que puedan darse en contextos diferentes, en los que la mejora es ms o menos difcil.
Conclusin
La ltima pregunta es, a mi juicio, la ms importante de las cuatro que he tratado de responder, tanto por lo que expresamente plantea, como por lo que sugiere de manera implcita.
Ampliando lo dicho hasta ahora tratar de aportar algunas ideas al respecto. La experiencia de las reformas educativas implementadas en los pases de mayor desarrollo econmico ha dejado lecciones importantes, en la direccin ya apuntada: no deben esperarse cambios espectaculares; las mejoras educativas se consiguen en lapsos de tiempo largos, y mediante esfuerzos sistemticos y complejos, no gracias a recetas mgicas simples o panaceas. Hoy sabemos tambin que no debe exagerarse la importancia de los recursos materiales; estos son importantes, sin duda, sobre todo hasta ciertos umbrales mnimos, y tal vez ms en cuanto a la regularidad o continuidad de su existencia que en cuanto a su monto absoluto. Pero parece claro que tanto y ms importan los procesos a travs de los que se utilizan los recursos: procesos pedaggicos especialmente en el interior del aula, procesos ms amplios de gestin en el nivel nacional y regional y, sobre todo, en cada escuela, donde el trabajo del equipo docente, el liderazgo del director y la participacin de los padres de familia han mostrado ser fundamentales. Para poder responder con bases slidas a la pregunta sobre el xito o el fracaso de las reformas educativas necesitamos, pues, en mi opinin, contar con sistemas de evaluacin bastante ms slidos, aunque no mucho ms costosos que los existentes, que nos den la informacin clave, de que hoy carecemos, sobre las diferentes dimensiones de la calidad educativa de nuestros pases en forma continuada y permanente. Es posible que nos llevemos algunas sorpresas agradables, en el sentido de que los esfuerzos realizados hasta ahora han dado algunos resultados, no espectaculares, pero s razonables, en una perspectiva histrica y comparativa en el plano internacional. Tambin es posible que se confirme la idea de que no ha habido resultados positivos. En este caso, si tenemos buenos sistemas de evaluacin tendremos tambin elementos para saber por qu ha ocurrido tal cosa, y para disear programas de mejora ms adecuados.
53
Segunda Parte.
El Operativo Nacional de Evaluacin ONE 2009 Marco de referencia
a) Introduccin Contar con estrategias para mejorar la calidad de la educacin implica, entre otros requisitos, disponer de un sistema de evaluacin que haga explcito su marco de referencia y que permita conocer qu estn aprendiendo los estudiantes. Todo tipo de evaluacin -y en especial las educativas, exige modelos tericos precisos que la justifiquen y la respalden. De este modo, la evaluacin resulta sostenida por nexos conceptuales slidamente relacionados, que permiten entrelazar los distintos pasos del proceso involucrado, desde la delimitacin del objetivo de la evaluacin a la posterior interpretacin de los hallazgos. La seleccin de la metodologa a llevar a cabo -que incluye de modo fundamental el tipo de diseo de los instrumentos, el proceso de implementacin y el anlisis posterior de los datos-, debe ser consecuente con este marco general. Existen diferentes enfoques para la elaboracin de pruebas que tienen como objetivo la evaluacin de aprendizajes y existen tambin distintas teoras que sustentan su medicin, as como diversos diseos entre los cuales optar para construir las pruebas de evaluacin. Los siguientes apartados tienen como objetivo presentar, sintticamente, el enfoque, la teora de la medicin y el diseo, adoptados como marco de referencia del Operativo Nacional de Evaluacin (ONE) 2009.
b) Sobre el enfoque de la medicin Los enfoques vigentes, para abordar operativos de evaluacin educativa, a nivel nacional e internacional, son dos, y se diferencian en cuanto al eje de referencia que cada uno adopta tanto para la elaboracin de las pruebas como para la interpretacin posterior de los resultados obtenidos. Desde este modo, este tipo de mediciones se dividen entre aquellas referidas al grupo normativo y las referidas al criterio. No existe una connotacin de valor alguna asociada a cada uno de estos enfoques. Optar por uno u otro viene dada por el propsito de la evaluacin. Es digno de aclarar que, frecuentemente, se caracterizan a las pruebas como referidas al grupo normativo o al criterio, sin embargo, esta terminologa es inapropiada. No es la prueba, sino el marco de referencia para interpretar el desempeo en la prueba, lo que se refiere al criterio o a la norma; de hecho, ambos tipos de interpretacin pueden utilizarse en una prueba determinada. Luego de subrayar estos conceptos, veamos, concreta-
mente, las caractersticas fundamentales de cada uno de estos enfoques. Cuando un estudiante es evaluado en el dominio de algn contenido y capacidad, a partir de mediciones referidas al grupo normativo, el puntaje obtenido por el alumno se interpreta por comparacin con la norma de su grupo. De esta manera, las mediciones normativas no brindan informacin respecto a cunto sabe y cunto no sabe, sino que proveen datos acerca de su posicin relativa con respecto a un grupo. Este enfoque supone, como condicin previa, que la prueba sea aplicada a un grupo normativo representativo, un grupo de individuos con caractersticas similares a los futuros destinatarios de dicha prueba-, lo cual permitir luego una lectura del rendimiento de cualquier otro estudiante. En otras palabras, la interpretacin del o los puntajes obtenidos por un alumno en particular, es realizada en funcin de las puntuaciones obtenidas por un grupo de individuos, las cuales se constituyen como referencia para la interpretacin de los puntajes alcanzados por otros alumnos. Para analizar las consecuencias prcticas de la aplicacin de este enfoque en educacin, y a modo de introduccin a otro, alternativo, tomemos un ejemplo sencillo. En principio, imaginemos que a un grupo, seleccionado como representativo, se le administra una prueba, y ste realiza de modo correcto, en promedio, el 30% de dicha prueba. Luego, un alumno en particular, contesta correctamente el 50% de la misma, que, por comparacin con el grupo normativo, puede traducirse en una calificacin de 8 puntos. Dentro de este contexto, supongamos tambin, que el docente valore como insatisfactorio que el alumno haya contestado slo el 50% de la prueba, ya que, a partir del proceso de aprendizaje en cuestin, espera un dominio mayor de los contenidos y capacidades evaluados. Surge entonces una discrepancia entre la calificacin 8 (ocho), que seala un rendimiento muy bueno, y el criterio pedaggico, que valora los conocimientos como insatisfactorios. Dicha discrepancia alude al ncleo de las diferencias entre el enfoque referido a la norma comparacin- y el referido al criterio pedaggico-. Si bien la evaluacin referida a normas resulta muy til en la medicin de numerosas variables, es obvio que no es la ms adecuada para valorar los aprendizajes. En el contexto educativo, y especialmente en la evaluacin de los aprendizajes, es conveniente la medicin referida a criterios, orientada a partir de la definicin de las capacidades y contenidos en juego. En las evaluaciones educativas, los contenidos comunes de los currculos oficiales -los cuales identifican los dominios conceptuales
54
y los procesos cognitivos involucrados en los distintos niveles educativos-, constituyen la referencia de los criterios adoptados. Resumiendo, tanto la elaboracin de instrumentos como la interpretacin de los resultados referida a criterios, es, sin duda, la ms adecuada en el mbito educativo, ya que es el enfoque ms congruente con los propsitos de las evaluaciones que se realizan en esta rea. Consecuentemente, a partir de 2005, se ha seleccionado este enfoque de la medicin como marco de las evaluaciones llevadas a cabo a travs de los Operativos Nacionales de Evaluacin (ONE), ya que permite determinar si los alumnos han logrado un nivel predeterminado, a partir de un criterio prefijado, en una disciplina dada. Los instrumentos derivados de este tipo de enfoque requieren descripciones detalladas de lo que miden, con el fin de brindar informacin precisa sobre los logros respecto de un estndar. En la escuela y ms all de ella, la informacin provista por instrumentos elaborados con este enfoque resulta til, en principio, a maestros que desean mejorar sus prcticas instruccin, a directores e inspectores que necesiten apoyar a los profesores y a los diseadores tanto de polticas para mejorar las escuelas, como a los diseadores de currculum y de textos que requieran verificar la efectividad de ambos, curriculum y textos. Desde el punto de vista de las distintas fases de construccin de una prueba basada en este enfoque, la primera y fundamental, es aquella que tiene como objetivo explicitar el criterio lgico de seleccin de los tems, teniendo en cuenta que el ms adecuado ser aquel que permita separar mejor a los examinados de acuerdo con sus niveles de desempeo en los distintos dominios. Es digno de subrayar que los criterios deben ser definidos a priori, y que estas definiciones son las que permitirn el cierre del proceso de evaluacin, al permitir la interpretacin de los resultados de los estudiantes examinados en trminos de logros del dominio o la aptitud en cuestin.
c) Acerca de la teora de la medicin Toda medicin cientfica se halla fundamentada en una teora de la medicin que tiene como objetivos proveer fundamentos conceptuales que permitan establecer asociaciones entre diversos sistemas formales y los atributos que interesa medir; mejorar la utilidad y la precisin de las mediciones; analizar distintas propuestas para describir, categorizar y evaluar la calidad de las medidas y desarrollar nuevos mtodos en la obtencin de instrumentos de mayor calidad. La necesidad de este sustento terico es particularmente relevante en disciplinas como la psicologa y la educacin, que se interesan por medir aspectos que no son directamente observables, y que, por tanto, deben inferir atributos subyacentes a partir de los comportamientos observables de los examinados. En la actualidad, en trminos generales, se dispone de dos teoras que sustentan la construccin de pruebas psicomtricas: la Teora Clsica de los Tests (TCT) y la
Teora de Respuesta al tem (TRI). Un test siempre se propone establecer inferencias sobre los rasgos psicolgicos (no observables) de los sujetos basndose en la informacin que manifiestan en las respuestas. Tanto la TRI como la TCT consideran que cada sujeto lleva asociado un parmetro individual. En la TRI se denomina aptitud, incluyendo cualquier rasgo psicolgico y se simboliza por la letra griega (zeta), mientras que en la teora clsica se denomina puntaje verdadero (V). La TCT es una teora til para describir la influencia de los errores de medida en las puntuaciones observadas u obtenidas a travs de instrumentos, y sus relaciones con las puntuaciones verdaderas. Se basa en el Modelo Lineal de Spearman, desarrollado a principios del siglo XX. Se trata del primer modelo que aborda el problema de la incertidumbre o error inherente a cualquiera de las medidas realizadas mediante la aplicacin de un test. An cuando posteriormente se han desarrollado nuevas teoras -tales como la TRI-, la TCT contina vigente. La diferencia principal entre la TCT y los diversos modelos basados en la TRI, es que la relacin entre el valor esperado y el rasgo o aptitud, en la primera es de tipo lineal, mientras que en los modelos de la TRI las relaciones pueden ser funciones de tipo exponencial, tales como los modelos de Poisson, de la ojiva normal, del error binomial, el modelo de Rasch o los modelos logsticos de 1,2 o 3 parmetros. Existen numerosos criterios con los cuales comparar la TCT con la TRI, muchos de ellos, como los mencionados arriba, son muy tcnicos. Numerosas publicaciones dan cuenta de ellos, en el presente trabajo se prefiere ms bien hacer referencia a algunos aspectos conceptuales. Sintticamente, sealemos que la limitacin ms importante de los tests elaborados segn la TCT es que no permiten separar las caractersticas del examinado de las caractersticas del test: cada uno de estos aspectos slo puede ser interpretado en el contexto de la interaccin entre unas y otras. En concreto, la aptitud de un examinado se define en trminos de un test o prueba especfica. Si el test es difcil el examinado aparecer como de poca aptitud, si el test es fcil el examinado parecer tener mucha aptitud. La dificultad de un tem se define, segn la TCT, como la proporcin de examinados que contesta el tem correctamente en un grupo determinado. A su vez, las caractersticas mtricas de la prueba, tales como la confiabilidad y la validez, se definen tambin en trminos de un grupo determinado de examinados a partir del cual se construye el baremo o las normas de interpretacin de las puntuaciones. Esto implica que es muy difcil comparar los resultados de examinados que han sido examinados con distintas pruebas. Para subsanar estas limitaciones, en la dcada de 1960, numerosos investigadores comenzaron a difundir y aplicar otros mtodos de control experimental, el del ajuste estadstico. Este ltimo requiere la parametrizacin explcita de la aptitud que interesa evaluar, as como de las propiedades de los tems, segn un modelo que relacione sus valores con los datos de las respuestas relevadas a travs de la aplicacin de la prueba. Si el modelo se sostiene y los parmetros de los tems se co-
55
nocen, el modelo ajusta los datos segn las propiedades de los tems del test y por lo tanto puede ser usado para producir mediciones de la aptitud que estn libres de las propiedades de los tems de la prueba aplicada. La puntuacin de una prueba en el modelo clsico estima el nivel de un atributo (aptitud, dominio de una capacidad evaluada a travs de determinado contenido) como la suma, ms estrictamente, la sumatoria, de respuestas a tems individuales, mientras que la TRI utiliza el patrn de respuesta. De este modo, la TRI constituye el marco adecuado para el anlisis de los aspectos vitales de las pruebas educativas construidas con el enfoque referido al criterio. Permite evaluar, sobre el dominio de la escala de aptitud, la separacin efectiva entre niveles. La TRI posee ventajas considerables con relacin al paradigma clsico, tales como las de generar medidas diferentes con tems estrictamente comparables y no dependientes de las muestras especficas de investigacin, as como alcanzar un verdadero nivel intervalar de medicin. Este modelo posee tambin dificultades en su implementacin, ya que requiere de muestras grandes entre 200 y 500 sujetos- para calibrar los tems, pero esta desventaja no resulta un problema en operativos de amplio alcance como los ONE. Una aplicacin sumamente til, de la TRI es que posibilita la construccin de bancos de tems, vale decir, un conjunto de tem que miden una misma variable y cuyos parmetros estn estimados en una misma escala. Estos tems con sus parmetros se pueden almacenar y construir en los llamados bancos de tems. En resumen, la TRI intenta dar una fundamentacin probabilstica al problema de la medicin de constructos inobservables. Su denominacin proviene del hecho de considerar al tem como unidad bsica del test. Los modelos que utiliza son funciones matemticas que relacionan las probabilidades de una respuesta particular a un tem con la aptitud general del sujeto. Si bien su origen no es tan nuevo, dada la complejidad de los clculos para su aplicacin solo empez a difundirse y utilizarse gracias a programas de computacin especficos como BIGSTEP, LOGIST, BILOG, entre otros. Como todo modelo matemtico, la TRI incluye un conjunto de supuestos acerca de los datos en los cuales se aplica. En trminos generales, consideran tres supuestos bsicos: Unidimensionalidad. Supone que cuando se disea una prueba, una nica habilidad es necesaria para explicar o dar cuenta del desempeo del examinado en la prueba. Si bien se reconoce que cuando un estudiante responde a un tem en una prueba confluyen mltiples habilidades, los tems deben disearse haciendo nfasis en una de ellas o en una combinacin particular predefinida. Independencia Local. Se espera que un estudiante evaluado responda a un tem en particular sin que recurra a informacin de otros tems para hacerlo correctamente. Es decir, la ejecucin en un tem no debe afectar sus respuestas en otro.
Curvas Caractersticas de tems (CCI). La CCI es una funcin matemtica que relaciona la probabilidad de xito en una pregunta con la habilidad, medida por el conjunto de tems que la contienen. Todo tem puede describirse por su CCI y es esta curva la unidad conceptual bsica de la TRI. Existen diferentes modelos de la TRI que se diferencian en la forma particular que adquiere la funcin de probabilidad, la cual constituye el nmero especfico de parmetros a analizar. El modelo utilizado para el procesamiento y anlisis de los datos del ONE 2009 es el Modelo de Rasch. Por ltimo, es digno de subrayar que las mediciones referidas al criterio (v. apartado 1), de antiguo uso, han recibido un nuevo impulso en el mbito educativo dentro del marco terico de la TRI. De este modo se seala la congruencia entre la eleccin del enfoque y la teora adoptados en el ONE 2009.
d) Cuestiones relacionadas con el diseo Los diseos que pueden aplicarse para llevar a cabo una evaluacin de aprendizajes son muy variados. Capitalizando la experiencia adquirida en operativos anteriores e incluyendo novedades terico-tcnicas, a partir del ONE 2009, se ha optado por dividir en dos pruebas la evaluacin de cada estudiante en un dominio especfico, una de ellas constituida por reactivos de opcin mltiple, de respuesta cerrada, y la otra por tems que implican la construccin de respuesta, llamados tambin abiertos. Ambas se administran durante la misma jornada, con un breve intervalo de tiempo -receso, recreo-, entre ellas. El diseo seleccionado apunta a asegurar la mayor cobertura de las respuestas y de este modo evaluar una diversidad de contenidos y procesos cognitivos. Concretamente, cada estudiante responde a dos cuadernillos (uno con tems cerrados y otro con tems abiertos), asignados en forma aleatoria, excepto los destinados a la evaluacin del rea Comprensin Lectora, en la cual se conserva un nexo prefijado entre un texto del Cuadernillo con tems cerrados y los tems abiertos. El cuadernillo con los reactivos de opcin mltiple cuenta con 30 tems, mientras que los de construccin de respuesta estn conformados por 2 tems. El proceso de construccin de los reactivos con respuesta cerrada ha sido llevado a cabo mediante la implementacin de un diseo matricial. Se trata de un tipo de diseo que se ha mostrado adecuado en evaluaciones educativas internacionales porque brinda soluciones a los problemas que intervienen cuando las variables a considerar son muy numerosas. Su instrumentacin implica la elaboracin de un conjunto amplio de tems que cubran el dominio del currculo que se desea evaluar. Luego estos tems se dividen en grupos de preguntas denominados bloques, de tal modo que cada uno evala de modo incompleto dicho dominio. De ah, que, especficamente, el diseo presenta una estructura en cuadernillos con bloques incompletos balanceados, que en su conjunto permiten evaluar una amplia gama de dominios y procesos en los aprendizajes a evaluar.
56
De esta manera, las pruebas construidas con este diseo permiten evaluar un amplio rango de contenidos curriculares distribuyendo los contenidos de un dominio de contenido en distintas pruebas, aunque cada estudiante en particular resuelve cuestiones relacionadas con una parte del dominio (cada uno de formatos o modelos de la prueba, que se aplica a cada estudiante est conformado por dos bloques). Cada bloque de tems cerrados est conformado por 15 tems. Los 8 bloques de tems cerrados se distribuyen en forma de espiral a razn de dos por cuadernillo. De este modo resultan 8 Cuadernillos o Modelos de tems cerrados y 4 Cuadernillos o Modelos de tems abiertos. Cada cuadernillo de administracin, compuesto por tems cerrados, consta, entonces, de dos de los bloques, que van alternando su posicin a lo largo de distintos cuadernillos de tal forma que el que se aplic en la primera posicin aparezca en otro ocupando la segunda y viceversa, como se ejemplifica en la siguiente tabla.
Nombre del cuadernillo PM3C1 PM3C2 PM3C3 PM3C4 PM3C5 PM3C6 PM3C7 PM3C8
Nombre del bloque en 1 posicin M3_1 M3_3 M3_5 M3_7 M3_2 M3_4 M3_6 M3_8
Nombre del bloque en 2 posicin M3_2 M3_4 M3_6 M3_8 M3_3 M3_5 M3_7 M3_1
En otras palabras, aunque cada alumno -a la hora de la aplicacin del ONE 2009-, contesta slo algunos reactivos, el diseo que enmarca el operativo de evaluacin en su conjunto, provee informacin sobre la totalidad de las capacidades y contenidos de los dominios en cuestin. Para la prueba ONE 2009, se han construido, para cada rea, en cada nivel, la siguiente cantidad de tems:
Tipo de tem Abiertos Cerrados 4
Cantidad de tems
Cantidad de bloques (15 tems) --8
Cantidad de Cuadernillos 4 8
120
El procesamiento de la informacin aportada por la aplicacin piloto de esta cantidad de tems permitir seleccionar las pruebas ms confiables y vlidas que sern administradas en el ONE 2009 definitivo.
57
Evaluacin. Enfoques metodolgicos
Justificacin para un cambio de enfoque en cuanto a los ONE: de pruebas referidas a normas a pruebas referidas a criterios. Para qu?, por qu? y en qu consiste?
Creo que llega el momento de empezar a llamar a las cosas por su nombre, nos hemos propuesto evaluar calidad y estamos midiendo, no evaluando. Evaluar exige tener un patrn con qu compararse y ese patrn no est del todo claro. 11
Como seala la cita que inicia este trabajo, pensar en la evaluacin de la calidad educativa exige tener un patrn con qu compararse, claro y especfico. As es como se ha adoptado la decisin poltica de redefinir la evaluacin tal como se viene desarrollando, y se solicit a los equipos tcnicos-pedaggicos de la DINIECE, la elaboracin de un nuevo diseo de pruebas para evaluar la calidad educativa. A partir de una demanda bastante generalizada, proveniente de diferentes sectores, se torna relevante la bsqueda y explicitacin de una definicin de sentido y de valor sobre los procesos vinculados a la evaluacin de la calidad educativa. Atendiendo a este propsito, se pens en un cambio de enfoque para las futuras pruebas nacionales, capaz de generar y de brindar nuevos aportes y diferentes miradas para mejorar las formas de enseanza y los aprendizajes de los alumnos. Se debe reconocer el enorme esfuerzo realizado por la Argentina en todos estos aos en materia de evaluacin de los procesos de la calidad educativa y los logros alcanzados en este campo:
n
La utilizacin de la Teora Clsica de las Pruebas (TCP) llevado a cabo bajo el enfoque de Pruebas Referidas a la Norma (PRN). La produccin de las Recomendaciones Metodolgicas para el mejoramiento de las formas de enseanza y los aprendizajes de los alumnos. El apoyo tcnico-pedaggico brindado a los Ministerios de Educacin Jurisdiccionales en el desarrollo y fortalecimiento de sus propios equipos tcnicos. Los sistemas de medicin han convertido los resultados educativos en un motivo de debate pblico...(Tedesco, 2003)
Por lo tanto, se propone seguir con el empleo de estos anlisis para el procesamiento y la produccin de resultados, a fin de construir la necesaria continuidad en todo proceso educativo y el enriquecimiento hacia la nueva propuesta. Pero para resignificar, en trminos del sentido y del valor, los procesos de evaluacin de la calidad educativa se hace necesario revisar los criterios polticos y tcnicos-pedaggicos asumidos a lo largo de estos aos, y desde all, a partir del disenso y el consenso entre los diferentes actores, construir nuevos y/o complementarios criterios de evaluacin enmarcados en un contexto diferente y regidos por la crtica, la reflexin y la toma de conciencia en esta compleja problemtica, a fin de lograr una apropiacin por parte de los actores educativos de los objetivos propuestos. Durante muchos aos, en la DINIECE se utiliz la Teora Clsica de las Pruebas (TCP) para disear instrumentos de evaluacin. Los resultados se presentaron en trminos de porcentaje de respuestas correctas. El porcentaje medio de aciertos expresa cul es el tanto por ciento medio de aciertos de los alumnos en los tem de las distintas pruebas, pero no lo que los alumnos saben o no saben. No es vlido identificar el xito o fracaso en funcin de un valor medio de aciertos, y no existe valor alguno que, a priori, pueda considerarse como rendimiento satisfactorio o insatisfactorio. Con todo, la presentacin de los resultados en trminos de porcentajes facilita su interpretacin por el lector no especializado. Hoy, el nuevo diseo de pruebas para evaluar la calidad educativa se inicia bajo dos ejes fundamentales: el enfoque de Pruebas Referidas al Criterio (PRC) y la utilizacin de la Teora Respuesta al tem (TRI) como modelo matemtico para el procesamiento y la produccin de resultados. Los resultados se presentan de acuerdo con escalas de rendimiento para cada rea evaluada. La escala, por ejemplo de 0 a 500, representa el resultado que habra obtenido un alumno que hubiera contestado a una terica prueba de 500 tems. Se pueden establecer puntos de corte en la escala y se definen las tareas que son capaces de realizar aquellos alumnos que alcanzan los respectivos niveles. De esta manera, se introduce un elemento criterial en la evaluacin.
11 Lafuente, Marta. En Evaluar las evaluaciones. Una mirada poltica acerca de las evaluaciones de la calidad educativa. IIPE - UNESCO. Argentina 2003.
58
En el marco de este enfoque, la DINIECE se propone brindar informacin til y especfica sobre el logro de los objetivos fundamentales del currculo por los estudiantes que terminan un nivel o ciclo. Con esta redefinicin de la evaluacin se persigue ampliar las posibilidades que ofrece la evaluacin educativa, a travs de pruebas de aplicacin a grandes poblaciones. Se busca la posibilidad de tener estadsticos de tem y de prueba que sean independientes de las poblaciones en las cuales se apliquen, de forma tal que se pueda realizar el seguimiento necesario de los resultados y tener una idea del efecto de ciertas polticas o programas. La Teora del Rasgo Latente, tambin denominada Teora de Respuesta al tem, tuvo su origen hace varias dcadas pero se desarrolla principalmente en los aos ochenta, cuando la computadora irrumpe con fuerza en Estados Unidos, pues los clculos exigidos para su aplicacin resultan casi imposibles de poder ser llevados a cabo sin disponer de una plataforma informtica para el tratamiento de los datos. Esta teora tambin tiene su origen en momentos en que la psicometra norteamericana reconoce las graves limitaciones que tiene la Teora Clsica de las Pruebas. La principal de estas limitaciones tiene que ver con el hecho de que los resultados obtenidos con la aplicacin de un tem, de una prueba, estn limitados por las circunstancias de aplicacin, es decir, hacen referencia exclusivamente a las situaciones en que se contestan los tems. Todos los estadsticos obtenidos en una aplicacin concreta de una prueba son relativos a las caractersticas de la prueba y de los sujetos evaluados. Como consecuencia de lo que acaba de ser sealado, esos estadsticos tienen un valor relativo, en cuanto a las muestras de tem y los sujetos evaluados (Mariano lvaro Page, 1993). La Teora de Rasgo Latente o Teora de Respuesta al tem (TRI) parte del supuesto de que las puntuaciones obtenidas en un tem por un sujeto y por consiguiente en una prueba- dependen directamente del grado o nivel en que ese sujeto posee el rasgo medido. Este rasgo es inobservable, por lo que se lo denomina rasgo latente y es un constructo que se utiliza para explicar el hecho. Hay una relacin directa entre el rendimiento observable del sujeto, las puntuaciones obtenidas en la prueba, y el nivel de posesin del rasgo no observable o latente. La relacin entre las puntuaciones observadas y el nivel de posesin del rasgo latente se describen mediante una funcin matemtica. La teora pone en relacin el nivel de habilidad y la probabilidad de responder correctamente un tem, por lo que puede definirse como la relacin funcional entre el nivel de habilidad y la probabilidad de responder correctamente un tem (Mariano lvaro Page, 1993). En trminos generales, la TRI considera tres supuestos bsicos (Hambleton y Swaminathan, 1985):
n
comtrica, se refiere al objeto de medicin). Se reconoce que cuando una persona responde a una pregunta en una prueba, entran en juego mltiples habilidades, pero las preguntas deben disearse haciendo nfasis en una de ellas o en una combinacin de ellas en particular.
n
Independencia local: se espera que un estudiante responda a una pregunta en particular sin que recurra a informacin de otros tems para hacerlo correctamente. Es decir, la respuesta de un estudiante en una pregunta no debe afectar sus respuestas en otra. Es prctica generalizada elaborar pruebas en donde se disean tem en relacin con un contexto, del que dependen las respuestas del alumno; aqu tambin se aplica la independencia local entre los tems y no entre ellos y el contexto. Es decir, el supuesto de independencia local implica que la respuesta de un sujeto a un tem es independiente, estadsticamente, de las respuestas a los otros, pero no que los tem de la prueba no estn relacionados. Curva caracterstica del tem: viene determinada por la funcin matemtica entre el nivel de habilidad o rasgo latente medido y la probabilidad de responder correctamente al tem.
A continuacin se presentan algunos conceptos correspondientes al enfoque de las Pruebas Referidas al Criterio (PRC), a fin de fundamentar el nuevo diseo de pruebas para evaluar la calidad educativa. Las Pruebas Referidas al Criterio (PRC), representan procedimientos para evaluar el rendimiento y/o conducta de los sujetos con relacin a dominios de contenidos bien definidos, en vez de por referencia a la conducta de otros sujetos, como en las Pruebas Referidas a las Normas (PRN) (Martnez Arias, Rosario; 1995). Cuando se quiere comparar el logro de ciertos grupos de estudiantes con los de otros, se puede trabajar dentro del enfoque de evaluacin referida a normas, mientras que cuando se quiere conocer qu conocimientos o competencias especficas logran desarrollar los estudiantes se debe recurrir al enfoque de evaluacin referida a criterios. Esta opcin es la ms conveniente desde el punto de vista pedaggico porque permite obtener informacin relevante acerca de los conocimientos, destrezas y habilidades especficas que un grupo de estudiantes logra dominar (Esquivel, Juan Manuel).
Cmo surgen las Pruebas Referidas al Criterio? (PRC)

La expresin Pruebas Referidas al Criterio apareci por primera vez en un artculo de Robert Glaser (1963) titulado Instructional Technology and the Measurement of Learning Outcomes: Some Questions y publicado en la revista American Psychologist, (Mariano lvaro Page, 1993).
Unidimensionalidad: en la TRI se asume que cuando se disea una prueba sta deber medir, preferiblemente, una dimensin, una habilidad (el trmino habilidad, en su concepcin psi-
59
No obstante, a pesar de la aparente novedad del trmino en un momento en que la evaluacin estaba dominada por el paradigma de las diferencias individuales, lo que representan las PRC y su finalidad ya haba sido puesto de relieve muchos aos antes. En 1913, Thorndike estableci una distincin similar a la de Glaser, que fue totalmente olvidada por el desarrollo de la psicometra clsica, especialmente en el intervalo comprendido entre las dos guerras mundiales. En los aos sesenta empiezan a comprobarse los resultados de la enseanza programada y de otros programas de intervencin y se vio que para su evaluacin era preciso un diagnstico previo de los sujetos antes de la intervencin, en trminos de lo que eran capaces de hacer. Las pruebas tradicionales con su nfasis interpretativo en el rendimiento del grupo normativo, no servan para esta finalidad ya que no proporcionaban la informacin necesaria sobre el rendimiento del sujeto. Con raras excepciones, como las que representan los trabajos de Hively (1968), Osburn (1968) y Popham y Husek (1969), puede decirse que no fue hasta el comienzo de los aos setenta cuando comenz a trabajarse de forma sistemtica sobre este tipo de pruebas.
El nmero de tem que miden cada objetivo es variable, pudiendo ser diferente el de distintos objetivos dentro de la misma prueba. No es necesario que el formato de los tems sea de eleccin mltiple, aunque es ste el formato ms frecuente. Una forma habitual para tomar decisiones del tipo apto no apto o pasa no-pasa, es comparar la proporcin de aciertos del estudiante con un criterio estndar de rendimiento, decidiendo que el sujeto pasa si su rendimiento es igual o mayor que el estndar y no pasa en caso contrario.
Los requisitos bsicos para que una prueba pueda ser considerada PRC son los siguientes:
n
La existencia de un conjunto de objetivos, contenido, capacidades, desempeos claramente definidos. Una proposicin explcita de la finalidad de la prueba.
Qu son las Pruebas Referidas al Criterio (PRC) y cules son sus caractersticas?
Se debe sealar en primer lugar que no es fcil dar una definicin de PRC, ya que no existe uniformidad ni siquiera en la denominacin dada. La palabra criterio se refiere al dominio de contenidos o conductas. La definicin que hoy es ms aceptada es la de Popham (1978): un test referido al criterio se utiliza para evaluar el estatus absoluto del sujeto con respecto a algn dominio de conductas bien definido. Hambleton y Rogers (1991) hacen una serie de precisiones a esta definicin. En primer lugar, adems de dominio de conductas, puede hablarse intercambiablemente de objetivos, destrezas y competencias. En segundo lugar, el dominio debe estar bien definido, siendo variable la amplitud y los contenidos de este dominio, ya que stos dependen de la finalidad de la prueba. En tercer lugar, cuando una PRC incluye ms de un objetivo, los tem que cubren cada uno de los objetivos suelen organizarse en subpruebas y el rendimiento de los sujetos es evaluado en cada uno de los objetivos. En cuarto lugar, es una prctica frecuente establecer estndares de rendimiento o puntos de corte, la definicin de PRC no incluye explcitamente este requisito, ya que pueden darse interpretaciones meramente descriptivas del rendimiento de los sujetos, tales como que Enrique ha respondido correctamente el 75% de las preguntas en la prueba de Geometra. Otras precisiones:
n
Cules son las diferencias entre las Pruebas Referidas a las Normas y las Pruebas Referidas al Criterio?
En apariencia hay pocas diferencias entre PRN y PRC ya que ambos tipos de pruebas suelen estar compuestas por tem con formatos similares; requieren el mismo tipo de operaciones cognitivas de los sujetos, etc. No obstante, hay numerosas diferencias tanto en la construccin, como en la interpretacin de las puntuaciones. Las PRN y las PRC difieren en primer lugar en la finalidad de la evaluacin. En las PRC el objetivo es determinar el estatus actual del rendimiento o conducta de un sujeto, o una clara descripcin de sus caractersticas, normalmente con objeto de clasificarlo en una categora determinada: pasa-falla; etc. Hambleton y Rogers (1991) encuentran una cierta analoga con las denominadas pruebas de diagnstico. En las PRN, la finalidad es describir al sujeto en el continuo de algn rasgo, expresando su posicin relativa respecto al grupo de sujetos. As pues, en las pruebas referidas a un criterio, las inferencias que se hacen de las personas son siempre referidas a un determinado objetivo o fin, y se comparan las puntuaciones obtenidas con los objetivos que estaban previsto alcanzar, en un caso para saber si un sujeto ha alcanzado cierto nivel y, en otro, para saber si alcanza el nivel exigido para determinada tarea. En cambio, las pruebas referidas a la norma, la puntuacin de cada sujeto se compara con las puntuaciones de los dems sujetos a los que se les ha aplicado la prueba, con las puntuaciones del grupo o muestra representativa de la poblacin a la que pertenece.
El nmero de objetivos medidos en PRC puede variar entre las diferentes pruebas.
60
En cuanto a la construccin de la prueba, ambos tipos establecen los elementos en trminos de las conductas o rendimientos que el sujeto exhibe en algn momento determinado. En ambos casos se pone el acento en que las respuestas a valorar sean pblicas, estandarizadas y fcilmente objetivables. En las PRN raramente se determina un dominio inicial de elementos, considerando nicamente la teora del rasgo en la que se basa el autor de la prueba, para determinar la calidad de los tems. En las PRC la determinacin del dominio de contenido o especificaciones de contenido es central para la construccin de la prueba. En cuanto a la seleccin de los tems, las propiedades psicomtricas consideradas para su inclusin en la prueba son diferentes. En las PRN el objetivo es maximizar las diferencias individuales, lo que lleva a la inclusin de un gran nmero de tem de dificultad media para aumentar el poder discriminativo de la prueba, (para poner de relieve las diferencias individuales, debe maximizarse la varianza de la prueba, seleccionando tem de dificultad media y alto poder discriminativo). En las PRC son los objetivos de la prueba los que marcan la norma para la inclusin de los tems, as como el propsito y la finalidad del mismo. Por ejemplo, cuando se trata de pruebas de apto vs. no apto para la evaluacin de los rendimientos en un programa particular, suelen incluirse elementos fciles, respondidos por el 70 u 80% de los sujetos. Por ltimo, otra de las diferencias se encuentra en los significados de la puntuacin, en una PRN las respuestas son consideradas como signos del rasgo latente que se pretende medir con la prueba. En las PRC la respuesta se considera un estimador de la conducta del dominio (Marines Arias, Rosario 1995).
dimiento estructurado para emparejar los tems con el dominio, recoger y resumir los datos.
n
Anlisis estadstico de los tems: los datos obtenidos en el estudio piloto pueden utilizarse para evaluar la eficacia de los tems en trminos de si funcionan o no en la forma en que estaba previsto. Los pasos en este proceso son: seleccionar grupos criterios (se refiere a la seleccin de los estudiantes a los que se les aplicar la prueba); calcular los estadsticos del tem (se refiere a el ndice de dificultad, es la proporcin o el porcentaje de personas que contestan correctamente el tem y el ndice de discriminacin, mide los cambios en el rendimiento o las diferencias relacionadas con la instruccin); y realizar un anlisis del posible sesgo de los tem (sern eliminados todos aquellos tem que usen un lenguaje sesgado referido al gnero, minora tnica o subgrupo particular).
Cul es la longitud de la prueba?

Hambleton, Hutten y Swaminthan (1976) en un estudio emprico en que comparan mtodos de obtener los puntajes de dominio y su efecto en varios factores (entre ellos la longitud de la prueba) concluyen que un nmero de tem igual a ocho da suficiente base para evaluar el dominio del estudiante o para tomar decisiones de instruccin para los datos de pruebas con referencia a criterios. Por su parte Popham (1978) afirma lo siguiente: Para simplificar un poco, para muchas situaciones educativas en las que se emplearn pruebas con referencia a criterios, la prueba debe consistir de 10 a 20 tem por dominio conductual. Por otra parte, Sheehan y Davis (1979) recomiendan menos tem por objetivo, ya que desarrollaron una batera de pruebas con referencia a criterios de matemtica, en la que emplearon cuatro tem por objetivo. Tambin, en las pruebas desarrolladas por Esquivel (1985) en matemtica y ciencias se emple tres tems por objetivos. En general se determina que cuando las decisiones son formativas y para muestras de individuos el nmero de tem vara entre tres y cinco por objetivo, mientras que decisiones sumativas e individuales requieren entre ocho y diez tem por objetivo.
Cmo se realiza el anlisis de los tems?

El aspecto ms crtico en la construccin de un PRC despus de la especificacin del contenido y de los objetivos es la generacin de tem12 que se conformen a las especificaciones del contenido y a los objetivos.
n
La validez del contenido de los tems: segn el concepto de validez de contenido, la determinacin de este tipo de validez requiere evaluar el grado en que la muestra de tem de la prueba es representativa del contenido del dominio. Se han propuesto diversos procedimientos basados fundamentalmente en el juicio de expertos (Berk 1984). Puede clasificarse en dos tipos: a) congruencia tem-objetivo o grado en que el tem mide el objetivo que pretende medir, b) sesgos de contenido. Crocker y Algina (1986) recomiendan definir el dominio de inters, seleccionar un panel de expertos en el contenido, proporcionar un proce-
12 Para la construccin de tem ver Criterios para la elaboracin, seleccin, supervisin, envo de tem y texto de la DINIECE.
61
Cmo
se establecen los estndares o puntos de corte?

Finalmente, una de las principales funciones de las pruebas es proporcionar datos para la toma de decisiones, especialmente cuando se utilizan TRC. En estas situaciones suele ser necesario establecer un punto de corte para decidir acerca del rendimiento del sujeto en la prueba. La prctica de obtener los puntos de corte para determinar las capacidades mnimas se conoce en la evaluacin educativa con el nombre de fijacin de estndares. El estndar es un punto en la escala de las puntuaciones de la prueba que sirve para clasificar a los sujetos en dos categoras que reflejan diferentes niveles de capacidad, con relacin a un dominio. Es frecuente que estas categoras se expresen en trminos de apto o no apto, pasa o falla. Shepard (1984) considera que es el taln de Aquiles de los TRC. El tema es tan importante que fue origen de un gran debate durante los aos setenta, de tal forma que la revista Journal of Educational Measurement dedic un nmero monogrfico a esta cuestin en 1978. Glass realiz una revisin exhaustiva sobre los estndares y puntos de corte de la que concluye que todos los procedimientos son arbitrarios o que estn basados en premisas arbitrarias (Martnez Arias, Rosario, 1995).
a) Mtodo de Nedelsky: defini el estndar absoluto en trminos de conocimientos y destrezas que un sujeto posee para pasar de curso. Los define a partir de los elementos de la prueba de eleccin mltiple, en trminos de la verosimilitud de que los sujetos sean capaces de eliminar respuestas incorrectas. b) Mtodo de Angoff: el procedimiento requiere que los jueces de la muestra de expertos examinen cada elemento de la prueba y estimen la probabilidad de que una persona mnimamente competente responda a cada tem correctamente. Angoff sugiere que esta probabilidad es ms fcil de estimar si los jueces piensan en trminos de un amplio nmero de individuos mnimamente competentes y estiman qu proporcin de este grupo respondera a cada elemento correspondiente. La suma de proporciones representara la puntuacin mnima aceptable. El mtodo Angoff hasta el momento es muy utilizado, investigado y recomendado. c) Mtodo de Ebel: propuso un sistema similar al Angoff basado en los juicios acerca de los tems, pero teniendo en cuenta adems la relevancia de contenido del tem y su nivel de dificultad. Para la valoracin de cada tem sugiere usar cuatro niveles de relevancia esencial, importante, aceptable y cuestionabley tres niveles de dificultad fcil, medio y difcild) Mtodo de Jaeger: intenta hacer la tarea de los jueces ms simple y concreta. Cada juez debe responder con S o No a la siguiente pregunta, para cada tem ser capaz de responder correctamente a este tem un sujeto que reciba la calificacin de apto en un examen de...? y si no responde al tem correctamente, se le negara el diploma? S... No... A pesar de los avances tcnicos, todava existen dificultades importantes en el establecimiento de estndares, Angoff expresa hemos observado que los diversos procedimientos de juicio para establecer estndares, no solamente plantean problemas de acuerdo entre s, sino tambin de obtener los mismos resultados en la aplicacin repetida. 2) Mtodos basados en el rendimiento de grupos de validacin: muchos autores sugieren que el criterio de validez para evaluar un estndar debe determinarse juzgando los rendimientos de los sujetos examinados. a) Mtodo del grupo lmite. b) Mtodo de los grupos de contraste. c) Otros mtodos empricos.
Clasificacin de procedimientos
Ante la multiplicidad de mtodos, fue necesario establecer algunos esquemas de clasificacin. Meskauskas (1976) propuso dividirlos en modelos de estado y modelos continuos, siendo los modelos de estado los que asumen que la capacidad es binaria, ya que el sujeto domina el tema o no lo domina; los modelos continuos asumen que el rasgo o constructo evaluado es continuo y que el papel de los mtodos consiste en determinar el nivel del rasgo que determina un rendimiento competente. Se han propuesto muchos modelos de estado, pero apenas se han usado en las aplicaciones prcticas, dominando este mbito los modelos continuos. Hambleton y Eignor (1980) Hambleton y Rogers (1990) hacen una clasificacin de stos en tres tipos denominados modelos empricos, modelos de juicios y modelos combinados. Jaeger (1989) considera que en todos est implcito el juicio y prefiere clasificarlos en modelos centrados en la prueba y modelos centrados en el rendimiento de los sujetos.
Descripcin de los procedimientos

1) Basados en juicios sobre el contenido de la prueba: son un conjunto de procedimientos basados en juicios sobre los elementos de la prueba. Aunque se han desarrollado muchos, los que mayor trascendencia han tenido son los de Nedelsky (1954), Angoff (1971), Ebel (1972) y Jaeger (1978). 3) Mtodos basados en los errores en las decisiones: Van der Linden (1980) no es una tcnica para establecer estndares, sino una tcnica para minimizar las consecuencias de los errores de medida y de muestreo. Son modelos continuos que asumen una variable latente continua con un estndar predeterminado.
62
63
Anexos
Anexo 1
Cmo se construye una Prueba Referida al Criterio?

Hambleton y Rogers (1991) proponen 11 dimensiones en la construccin de una PRC. Dependiendo de la finalidad de la prueba se tendr en cuenta a cada una de las dimensiones. 13 1 / Planteamientos iniciales. a) Especificar el propsito de la prueba. b) Especificar los objetivos, contenidos, capacidades, desempeos que la prueba pretende evaluar. c) Especificar los grupos a los que se aplicar la prueba: caractersticas sociodemogrficas, lingsticas, etc. d) Decidir el formato de los tems. e) Determinar el tiempo y los recursos econmicos que se pueden dedicar a la construccin de la prueba. f) Identificar y seleccionar jueces expertos en el contenido de la evaluacin. g) Especificar la longitud de la prueba y el tiempo aproximado de cumplimentacin. 2 / Revisin de los objetivos. a) Revisar las descripciones de los objetivos para determinar si son o no aceptables. b) Seleccionar el conjunto definitivo de objetivos que evaluar la prueba. c) Preparar especificaciones de contenidos para los tems de cada objetivo y revisarlos en cuanto a su claridad, seguridad. 3 / Redactar los tems. a) Construir un nmero de tem considerablemente mayor que el definitivo para el estudio piloto. b) Introducir los tems en un banco de tem. c) Edicin de los tems. 4- / Evaluacin de la validez de contenido. a) Identificar un grupo de expertos en el contenido de la prueba y especialistas en evaluacin. b) Examinar el grado de emparejamiento entre tem y objetivos, representatividad del contenido, etc. c) Revisar la adecuacin tcnica de los tems. d) Revisar de nuevo los tems. e) Escribir tems adicionales si es necesario. 5 / Aplicacin de la prueba. a) Preparar una prueba piloto. b) Administrar la prueba a muestras adecuadas. c) Realizar el anlisis de tem y estudio del sesgo14.
6 / Revisar la prueba. Usar los resultados de 5- c. para la revisin. 7 / Preparar la forma definitiva de la prueba. a) Determinar la longitud de la prueba, nmero de formas necesarias y nmero de tem por objetivo. b) Seleccionar tem del conjunto analizado. c) Preparar instrucciones, ejemplos, cuadernillos, hojas de respuestas, claves de correccin, etc. d) Especificar posibles modificaciones a las instrucciones, tiempo para alumnos con necesidades especiales, etc. 8 / Establecimiento de un estndar o punto de corte. a) Determinar si es necesario establecer un estndar de rendimiento, si no lo es, pasar a 9. b) Establecer el o los estndares, si habr ms de dos categoras. c) Especificar modificaciones a los estndares para posibles casos especiales. d) Especificar interpretaciones alternativas de las puntuaciones de la prueba para los casos de c. 9 / Aplicacin en forma piloto de la prueba definitiva. a) Disear la aplicacin de la prueba para recoger datos acerca de la fiabilidad y validez. b) Aplicar la prueba a muestras representativas de alumnos. c) Evaluacin del procedimiento de administracin, tem, fiabilidad y validez. d) Hacer las revisiones finales a partir de los datos anteriores. 10 / Preparacin del manual de instrucciones. a) Manual para los aplicadores de la prueba. b) Manual tcnico. 11 / Recogida de datos adicional para el anlisis sobre fiabilidad y validez.
13 Extrado de: Martnez Arias, Rosario. 14 Camilli y Shepard: sesgo de un test es una fuente de invalidez o error sistemtico que se refleja en cmo un test mide a los miembros de un grupo particular. El sesgo ha sido estudiado fundamentalmente en diferencias relacionadas con la etnia o el gnero. Tambin, como la clase social, edad, religin, etc.
64
BIBLIOGRAFA
Nunnally, Jum C. y Bernstein, Ira J. Teora Psicomtrica. McGraw-Hill/Interamericana de Mxico, 1995. Page, Mariano . Elementos de Psicometra. Eudema, 1993. Esquivel, Juan M. El diseo de las pruebas para medir logro a acadmico: Referencia a Normas o a Criterios? Costa Rica. Esquivel, Juan M. Medicin de la calidad de la enseanza. Costa Rica, 1986. Martnez Arias, Rosario. Psicometra: Teora de los Test Psicolgicos y Educativos. Editorial Sntesis, 1995. Meherens, W.A. Medicin basada en Normas y en Criterios. CECSA. Mxico, 1982. UNAM. La evaluacin referida a un criterio: un modelo en el proceso de formacin. rea de evaluacin, 1976. IIPE UNESCO. Evaluar las evaluaciones. Una mirada poltica acerca de las evaluaciones de la calidad educativa. Argentina, 2003. Sachs Adams, Georgia. Medicin y evaluacin en educacin, psicologa y guidance. Barcelona, Herder, 1970. House, E. R. Evaluacin, tica y poder. Morata, 1994. Tenti Fanfani, Emilio (Comp.) El rendimiento escolar en la Argentina. Losada, 2002.
65
Anexo 2
GRFICO 1 / Circuito metodolgico y pedaggico de la elaboracin y aplicacin de los instrumentos de evaluacin e interpretacin y comunicacin de los resultados.
Como parte de las acciones de evaluacin, se elaboran pruebas que evalan el dominio de contenidos y capacidades a fin de relevar informacin sobre el nivel de logros y dificultades de los alumnos de un determinado ao en distintas reas de conocimiento. Las pruebas estn conformadas por un conjunto de ejercicios cerrados, de respuesta fija de seleccin mltiple y por ejercicios de respuesta abierta, de desarrollo. Cada ejercicio de seleccin mltiple est constituido por un cuerpo y cuatro distractores. Slo uno de ellos constituye la respuesta correcta. Los ejercicios se disean, seleccionan y organizan de acuerdo con los contenidos y capacidades establecidos en las tablas de especificaciones (PASO 1 DEL GRFICO 1). Una de las formas usuales de las tablas de especifi-
caciones es la de un cuadro de doble entrada en el que se ingresan dos tipos de informacin: las capacidades y los contenidos a evaluar, que surgen de los CBC de la EGB y del Polimodal, de los diseos curriculares jurisdiccionales y de las opiniones de los expertos acerca de lo que se ensea en las escuelas. Los contenidos y capacidades listados para cada rea han surgido de acuerdos gestados entre las jurisdicciones a mediados de la dcada del 90. Los ejercicios tienen una distribucin proporcional de valores al interior de cada tabla, justamente, por su peso en los CBC de la EGB y del Polimodal, en los diseos curriculares jurisdiccionales y segn las opiniones de los expertos acerca de lo que se ensea en las escuelas. Cada cruce identifica una capacidad determinada en relacin con un recorte del saber.
66
El conjunto final de contenidos y capacidades a ser evaluados cumple con las siguientes condiciones:
Son centrales desde el punto de vista de la disciplina. Estn presentes en los diseos curriculares de todas las jurisdicciones. Tienen alta probabilidad de haber sido enseados. Tienen la posibilidad de ser evaluados en forma escrita. Cuentan con la posibilidad de ser evaluados en forma masiva.
CONTENIDOS Y CAPACIDADES CONdiciones
Por estas razones, las tablas de especificaciones son un instrumento indispensable para la construccin de las pruebas otorgndoles un alto nivel de validez y confiabilidad.
Al construir los ejercicios de las distintas reas del saber (PASO 2 DEL GRFICO 1) se tienen en cuenta ciertos criterios:
La consigna de trabajo debe ser escrita en forma clara, breve y simple. Deben tener vocabulario adecuado para los estudiantes. Deben ser apropiados al nivel cognitivo de los estudiantes. Deben tener un nivel apropiado de dificultad. Deben tener una nica respuesta correcta.
CRITERIOS
El cuerpo principal debe ser claro y poseer solo la informacin necesaria para la resolucin del ejercicio. La inclusin de grficos y/o ilustraciones debe aportar informacin significativa que ayude a la comprensin del ejercicio y su resolucin. Cada uno de los distractores debe plantear una respuesta que, aunque errada, responda a cierta lgica del estudiante y/o presentar errores comunes o ideas falsas corrientes. Los distractores deben ser similares en longitud, complejidad y estructura gramatical entre s y con la respuesta correcta.
67
Una vez construidos los ejercicios, son revisados por especialistas en contenidos que supervisan la correccin cientfica de los mismos; por pedagogos que analizan la pertinencia didctica y por correctores de estilo que corrigen la sintaxis y la normativa (PASO3 DEL GRFICO I). Las pruebas se elaboran previendo, tambin, los diferentes niveles de dificultad de cada ejercicio. Estos niveles de dificultad, que en un principio responden a hiptesis de expertos, son probados con pequeos grupos de alumnos y en operativos piloto (PASO 4 Y 5 DEL GRFICO I). A continuacin, se presentan ejemplos de ejercicios con diferente nivel de dificultad: Una vez probada en las muestras pilotos la calidad psicomtrica de los ejercicios y sus niveles de dificultad, se integran a las pruebas en las proporciones establecidas en las tablas de especificaciones, tratando que los ejercicios de resolucin fcil, mediana y difcil se encuentren distribuidos armnica y representativamente a lo largo de todo el instrumento para facilitar su resolucin (PASO 6 Y 7 DEL GRFICO I). Los criterios de calidad estadstica que se toman en cuenta para estas pruebas, a fin de seleccionar los ejercicios, son los siguientes:
A partir del anlisis de los logros y de los errores cometidos con mayor frecuencia en los ejercicios, se plantean recomendaciones metodolgicas para la enseanza que pueden ayudar a superar estas dificultades (PASO 9 Y 10 DEL GRFICO I), que son enviadas a todas las escuelas, jurisdicciones y organismos e instituciones pblicas y privadas, as como a la prensa para su difusin (PASO 11 DEL GRFICO I).
En suma, las pruebas de evaluacin de la calidad se construyen para evaluar los niveles de rendimiento acadmico en distintos aos del sistema educativo y en distintas reas disciplinares; definiendo estos niveles en trminos de los contenidos y de las capacidades que poseen los alumnos.
CRITERIOS DE CALIDAD PSICOMTRICA
ndice de discriminacin: indica la capacidad del ejercicio para diferenciar entre los alumnos que obtienen alto rendimiento y los que obtienen bajo rendimiento. ndice de dificultad: indica el porcentaje de alumnos que responde correctamente el ejercicio.
68
69
Adenda
Capacidades Cognitivas ONE 2009

Matemtica
En Matemtica se evala una capacidad cognitiva general: la Resolucin de Problemas. A los efectos de la evaluacin, se han considerado tres capacidades cognitivas especficas, incluidas en la resolucin de problemas:
Capacidad Cognitiva general
Descripcin
Solucin de situaciones nuevas para el alumno, en las que necesita usar los conocimientos matemticos de que dispone. La resolucin de problemas puede requerir de los estudiantes: reconocer, relacionar y utilizar informacin; determinar la pertinencia, suficiencia y consistencia de los datos; reconocer, utilizar y relacionar conceptos; utilizar, transferir, modificar y generar procedimientos; juzgar la razonabilidad y coherencia de las soluciones y justificar y argumentar sus acciones
Resolucin de problemas
Capacidades Cognitivas Especficas Reconocimiento de datos y conceptos Resolucin de operaciones (mediante distintos procedimientos) Resolucin de situaciones en contextos intramatemticos y/o de la vida cotidiana
Descripcin
Capacidad cognitiva de identificar datos, hechos, conceptos, relaciones y propiedades matemticas, expresados de manera directa y explcita en el enunciado. Reemplaza a la anterior Operar usando algoritmos. Consiste en la resolucin de operaciones usando distintos procedimientos. Capacidad cognitiva de solucionar situaciones problemticas contextualizadas, presentadas en contextos que van desde los intramatemticos hasta los de la realidad cotidiana. Interpretar informacin:
n n n n n
Comprender enunciados, cuadros, grficos Diferenciar datos de incgnitas Interpretar smbolos, consignas, informaciones Manejar el vocabulario de la matemtica Traducir de una forma de representacin a otra, de un tipo de lenguaje a otro
Expresin o emisin de procedimientos y resultados
Comunicacin en matemtica
n n n n n n n n n
Describir procedimientos de resolucin utilizados Redactar correctamente la formulacin de un resultado Describir las distintas etapas de una construccin geomtrica Describir las distintas etapas de un clculo Redactar una justificacin, una argumentacin Completar un cuadro, un grfico Producir un texto, un cuadro, un grfico, un dibujo Expresarse con un adecuado vocabulario matemtico Formular un problema o situacin problemtica
70
Lengua
CAPACIDADES COGNITIVAS: Operaciones mentales que el sujeto utiliza para establecer relaciones con y entre los objetos, situaciones y fenmenos. Se logran a travs del proceso de enseanza y del proceso de aprendizaje y cobran significado de acuerdo con la determinacin de contenidos socialmente relevantes y altamente significativos, frente a los que se ponen en juego y a travs de los cuales se desarrollan. En el rea de Lengua, la capacidad general que evala nuestra prueba es la comprensin lectora. Dentro de ella se encuentran las siguientes capacidades: Los contenidos especficos que se evalan dentro de estas tres capacidades son: Informacin explcita.Secuencia de hechos o ideas.Resumen.Procedimientos textuales especficos de cada tipo textual (narraticin, explicacin, argumentacin). Tema, idea central, tesis.Relaciones textuales.Procedimientos de cohesin (referencia, parfrasis, elipsis, conectores, etc.).Procedimientos textuales. Enunciacin. Caractersticas de personajes.Vocabulario. Tipologa textual.Gneros discursivos. Principios constructivos del texto literario. Tipos de narradores.Variedades y registros lingsticos.
EXTRAER: Localizar informacin en una o ms partes de un texto. Los lectores deben revisar, buscar, localizar y seleccionar la informacin. Deben cotejar la informacin proporcionada en la pregunta con informacin literal o similar en el texto y utilizarla para encontrar la nueva informacin solicitada.
INTERPRETAR: Reconstruir el significado global y local y hacer inferencias desde una o ms partes de un texto. Los lectores deben identificar, comparar, contrastar, integrar informacin con el propsito de construir el significado del texto.
EVALUAR Y REFLEXIONAR: Relacionar un texto con su propia experiencia, conocimientos e ideas. Los lectores deben distanciarse del texto y considerarlo objetivamente. Deben utilizar conocimiento extra-textual (la propia experiencia, elementos proporcionados por la pregunta, conocimiento de mundo, conocimiento de la lengua, conocimiento de distintos gneros discursivos). Los lectores deben justificar su propio punto de vista.
EVALUAR
INTERPRETAR
EXTRAER
71
Ciencias Sociales
ANLISIS DE SITUACIONES: Capacidad cognitiva de reconocer relaciones y/o de seleccionar cursos de accin que requieren la aplicacin de conceptos y/o principios y/o informacin previamente adquiridos. COMUNICACIN: Capacidad cognitiva de interpretar la informacin y expresar un procedimiento o un resultado. Por razones metodolgicas, los tem que evalan la comprensin o interpretacin de la informacin se encuentran en la capacidad de Interpretacin/ Exploracin de la tabla de especificaciones. Los tems para evaluar la expresin de un procedimiento o de un resultado se incluyen, en la tabla, en la capacidad llamada Comunicacin. Las posibles alternativas para evaluar esta capacidad son las siguientes: - Plantear una situacin problemtica. - Describir la solucin de una situacin problemtica. INTERPRETACIN/EXPLORACIN: Capacidad cognitiva de obtener y cruzar informacin proveniente de diferentes fuentes (textos, mapas, grficos, etc.). RECONOCIMIENTO DE CONCEPTOS: Capacidad cognitiva de identificar conceptos y principios por medio de ejemplos, casos, atributos o definiciones de los mismos o viceversa: identificar ejemplos, casos, atributos o definiciones de conceptos y principios dados. RECONOCIMIENTO DE HECHOS: Capacidad cognitiva de identificar datos y/o hechos en un conjunto de informacin mediante la utilizacin de conocimientos que el alumno posee. RECONOCIMIENTO DE VALORES: Capacidad cognitiva de elegir conductas de acuerdo con valores en situaciones vinculadas con la responsabilidad social e identificar valores implcitos o explcitos en discursos y prcticas.
- Redactar una fundamentacin. - Completar un cuadro, un mapa, etc. - Producir un texto, un cuadro, un mapa, un grfico, una tabla, etc. - Expresarse con un adecuado vocabulario de la disciplina.
- Describir las distintas etapas de una construccin cientfica.
72
Ciencias Naturales
Capacidades Cognitivas Definicin Incluye: la identificacin de caractersticas y relaciones, la interpretacin de datos y hechos: comparando, secuenciando, agrupando y clasificando segn criterios explicitados. la aplicacin de conceptos cientficos. Incluye: la interpretacin, organizacin y traduccin de informacin en distintos formatos (tablas, grficos, diagramas, esquemas y smbolos), y la expresin de argumentos o conclusiones a partir de evidencias tales como datos experimentales. Incluye: el anlisis de los datos experimentales, su validez, la identificacin de patrones y el reconocimiento de las variables involucradas, y la identificacin, interpretacin y relacin de los distintos procesos de la investigacin cientfica.
Reconocimiento de datos, hechos y conceptos
Comunicacin
Anlisis de situacin
73
Proyecto Uso de la Informacin 2009

Pautas para la presentacin de Proyectos Jurisdiccionales 2009
A.- Antecedentes
En tres llamados distintos (02-03; 04 y 06-07) se financiaron y asistieron tcnicamente proyectos jurisdiccionales de uso de la informacin surgida de la evaluacin de la calidad educativa. En las revisiones que se han realizado de la propuesta, los responsables jurisdiccionales de evaluacin destacaron tres puntos: Permiti que se implementaran propuestas que se venan formulando durante varios aos pero que nunca haban contado con fondos para poder realizarse. Brind la posibilidad de expandir el ciclo de evaluacin de la calidad educativa a travs de acciones de devolucin y uso de la informacin obtenida. Respald acciones provinciales de evaluacin para que puedan finalizarse y ser efectivas. Como parte de la evaluacin interna de la DiNIECE, se destac: La importancia de la propuesta para impulsar el uso de informacin. La heterogeneidad de propuestas recibidas. La heterogeneidad en el nivel de implementacin de los proyectos. A lo largo de estos tres llamados se ha mejorado el seguimiento y la sistematizacin de la experiencia. Esto ha permitido contar con documentacin sobre los proyectos de uso de informacin de los resultados de la evaluacin de la calidad educativa en el pas y la posibilidad de realizar un mejor seguimiento de los compromisos asumidos por las distintas partes.
dolo a funcionarios, supervisores, directivos y/o docentes. Los proyectos jurisdiccionales se centrarn en el uso de la informacin producida a partir del ONE 05. Las Jurisdicciones pueden utilizar, en forma complementaria de las bases del ONE 05, informacin surgida de estudios propios o evaluaciones provinciales. Estarn asesorados por la DiNIECE. Para el caso en que el proyecto contemple la participacin de otra institucin o profesionales externos, deber contar previamente con el expreso acuerdo de la DiNIECE. La jurisdiccin contar con un ao (doce meses corridos) para ejecutar el proyecto a partir de recibir la transferencia de la DiNIECE. Vencido ese plazo, deber nuevamente solicitar la aprobacin del proyecto y la autorizacin para el uso de los fondos, explicando los motivos de la demora.
C.- Procedimiento administrativo

Las Jurisdicciones que lo deseen podrn presentar proyectos de uso de informacin, conforme a los criterios y esquemas que se postulan en el presente documento. Al ser aprobado tcnicamente por el Equipo Pedaggico de la DiNIECE, se remitir, junto con un acta-acuerdo, a la Jurisdiccin. All ser firmado por la autoridad correspondiente y reenviado a la Direccin Nacional. Una vez que se d entrada, y a la mayor brevedad posible, se realizar la transferencia de fondos. La convocatoria est abierta hasta el 30/06/09. Es importante sealar que las transferencias pueden darse en distinto momentos del ao. Sin embargo, la primera que realizar esta Direccin Nacional en el rea de evaluacin ser en el mes de marzo de 2009. Para incluir al proyecto de uso de la informacin en esa partida ste deber ser enviado antes de la segunda quincena de febrero.
B.- Pautas para la presentacin de Proyectos Jurisdiccionales 2009

En convocatorias anteriores eran dos las condiciones que las Jurisdicciones deban respetar en sus proyectos: que se formularan de acuerdo al esquema de presentacin propuesto por la DiNIECE y que fueran tcnicamente viables . Se agregan a los anteriores, los siguientes criterios: El Proyecto deber estar orientado a mejorar el funcionamiento del sistema educativo, destinn-
D.- Monitoreo y seguimiento

Una vez aprobado el proyecto, la jurisdiccin deber presentar a la DiNIECE tres informes que documenten su ejecucin:
74
El primero ser entre el primer y segundo trimestre de aprobado el proyecto. El mismo reflejar los procesos de inicio e implementacin. El segundo describir los procesos de ejecucin y desarrollo. El tercero abarcar los procesos de finalizacin y evaluacin del proyecto.
G.- Esquema para la presentacin de proyecto

Los proyectos que se presenten utilizarn el esquema que se indica a continuacin, similar al de otras convocatorias: 1. Marco General del Proyecto de Uso de la Informacin de Evaluacin: refiere a una breve explicacin de las razones que fundamentan la implementacin del Proyecto, de acuerdo con las prioridades identificadas por la Jurisdiccin, con respecto al uso de la informacin de evaluacin. Se deber explicitar por qu resulta necesaria su realizacin. 2. Grupo - meta: el Proyecto puede estar dirigido a diferentes actores del sistema educativo, de acuerdo con las necesidades que cada Jurisdiccin identifique como prioritarias. La idea es caracterizar a los destinatarios del Proyecto, teniendo en cuenta: Cantidad aproximada de destinatarios. Nivel de decisin y accin de los mismos. Nivel/es educativo/s involucrado/s.
E.- Proyectos sugeridos

Respetando las condiciones y criterios fijados en puntos anteriores, cada jurisdiccin podr elaborar el proyecto que le parezca ms adecuado a la realidad de su situacin educativa y posibilidades. A modo de sugerencia, se sealan las siguientes propuestas: Jornadas de trabajo donde se presente y analice la informacin. Estas jornadas pueden estar dirigidas a funcionarios del sistema, a inspectores y/o directivos. Para ello, puede resultar til la elaboracin de material impreso donde se presenten los datos (Ejemplo: Proyecto presentado por la Provincia de La Rioja en la convocatoria 2006). Talleres de trabajo donde se presente la informacin, se la analice y se formulen recomendaciones o planes para mejorar la calidad educativa (Ejemplo: Proyecto presentado por la Provincia de Entre Ros en la convocatoria 2006). Trabajo de devolucin y formulacin de planes de mejora en escuelas que tengan bajos resultados (Ejemplo: Proyecto presentado por la Provincia de Salta en la convocatoria 2006).
Por ejemplo: cantidad de supervisores de escuelas de EGB de la Provincia; cantidad de directivos y docentes de establecimientos de Nivel Polimodal de las regiones con rendimiento ms bajo. 3. Objetivos: enunciar los logros que se pretenden alcanzar en relacin con el uso de la informacin de evaluacin con la implementacin del Proyecto. 4. Estrategia general: supone explicitar el curso de accin a travs del cual se prev la consecucin de los objetivos del Proyecto. Por ejemplo si se prevn encuentros de carcter presencial, una modalidad semipresencial o a distancia. Si los encuentros exigen el traslado de los destinatarios a algn punto de la Jurisdiccin o el traslado del equipo responsable del Proyecto a distintos puntos de la misma. Si se elaborarn materiales de trabajo, etc. 5. Acciones: implica una mayor especificacin de la estrategia general. Se debern enunciar en forma secuencial las tareas y los responsables que las llevarn a cabo para la consecucin de los objetivos. 6. Cronograma: especificar un listado de las acciones con las fechas tentativas de inicio y finalizacin. 7. Recursos: Materiales: folletos, copias, anillados, alguna bibliografa particular. Humanos: curriculum vitae de los responsables de la implementacin del Proyecto. 8. Productos: refieren a los resultados a los que se llegar por haber realizado las acciones.
F.- Sobre el presupuesto y los fondos

Es importante que el presupuesto del proyecto est bien definido. Los rubros en que podrn utilizarse los fondos son: Asistencia tcnica y profesional. Alquiler de Lugares y Equipos. Impresiones. Insumos de librera. Insumos informticos (no equipos). Correo.
En cuanto al monto de los fondos que se soliciten, deben estar claramente detallados en el presupuesto, corresponderse con la propuesta que se realice y la realidad del sistema educativo jurisdiccional (tanto en dimensiones como en factibilidad de realizacin).
75
9. Presupuesto y Costos: implica explicitar el costo total y el de cada una de las acciones que se ejecutarn en el Proyecto. (VER PUNTO F). 10. Seguimiento y Monitoreo: Informe inicial: Entre el 3er y el 6to mes de aprobado el proyecto. Reflejar los procesos de inicio e implementacin. Informe de proceso: Entre el 6to y el 9no mes. Describir los procesos de ejecucin y desarrollo. Informe de cierre: Al finalizar la ejecucin del proyecto. Abarcar los procesos de finalizacin y evaluacin del proyecto. 11. Requerimiento a la DiNIECE: ASISTENCIA TCNICA: describir el tipo de asistencia que se requerir y para qu momento. Por ejemplo: previa o durante la implementacin del Proyecto. INFORMACIN DE EVALUACIN: bases de datos con los resultados de los ONE, diferentes tipos de procesamiento de la informacin, materiales de uso de la informacin de evaluacin. OTRA (especificar).
BIBLIOGRAFA
Criterios de evaluacin ONE 2005. DINIECE, Ministerio de Educacin, Ciencia y Tecnologa de la Nacin, 2005. Allen, David (compilador - 2000), La evaluacin del aprendizaje de los estudiantes, Buenos Aires, Paids. Barber Gregori, Elena (1999), Evaluacin de la enseanza, evaluacin del aprendizaje, Barcelona, edeb. Carrin Carranza, Carmen (2001), Valores y principios para evaluar la educacin, Mxico, Paids. Cano Garca, E. (1999), Evaluacin de la calidad educativa, Madrid, La Muralla. Landsheere, G. de (1999), El pilotaje de los sistemas educativos, Madrid, La Muralla OEI. Lpez, F. (1994) La gestin de la calidad en educacin, Madrid, La Muralla. SITIOGRAFA Elola, Nydia y Toranzos Lilia, (2000) Evaluacin educativa. Una aproximacin conceptual., Biblioteca Digital, OEI. http://www.campus-oei.org/calidad/luis2.pdf
H.- Apoyo desde la DiNIECE

Las jurisdicciones cuentan con el Equipo Nacional para asistirlos y ayudarlos tanto en el planteo de los proyectos como en su implementacin. Por cualquier duda o consulta, pueden contactarse con Jorge Novello y/o Rafael del Campo al 011-4129-1486 int. 1486 o escribir a jnovello@me.gov.ar rdelcampo@me.gov.ar.
76
77
GLOSARIO
AGRUPAMIENTO DE TEMS: Conjunto de tems que evalan una misma capacidad cognitiva o un mismo contenido. Este agrupamiento da la posibilidad de calcular un puntaje parcial de la prueba, de la cual forman parte. ANLISIS DE SITUACIONES: Ver Capacidades Cognitivas. ANCLAJES: Un conjunto de tems comunes a pruebas diferentes que se aplican a grupos de alumnos tambin distintos y permiten la equiparacin de los puntajes obtenidos. APLICACIN CENSAL: Aplicacin de una prueba de evaluacin, a la totalidad de los alumnos de una cohorte de todo el pas. Brinda informacin relevante sobre la poblacin total. APLICACIN MUESTRAL: Aplicacin de una prueba de evaluacin, a grupos de alumnos seleccionados de manera tal que sus caractersticas sean representativas de la poblacin total. La seleccin de la muestra en nuestro caso, es aleatoria y estratificada (por jurisdiccin, mbito, rgimen y modalidad). AZAR: Ver Respuesta por Azar. BANCO DE TEMS: Un conjunto de reactivos (interrogantes, disparadores o ejercicios) organizados segn el criterio lgico del rea disciplinaria, curricular o por competencia, curso o edad de los alumnos, destinados a ser utilizados para construir futuros instrumentos de evaluacin. BLOQUE DE TEMS: Conjunto de tems de una prueba. Los bloques permiten una mayor cobertura de la diversidad de contenidos y capacidades. A partir de 2009 los ONE se estructuran en bloques. CALIDAD (de la Educacin): Una educacin de calidad es aquella que logra que los alumnos realmente aprendan lo que se supone deben aprender, aquello que est establecido en los planes y programas curriculares al cabo de determinados ciclos del sistema educativo formal. Es trabajar atendiendo a los resultados e incrementar oportunidades de aprendizaje para todos con la permanente intencin de ir disminuyendo las diferencias. Es aquella que brinda medios y orienta a los equipos de supervisin, docentes y alumnos para que se realice efectivamente el proceso de enseanza y el proceso de aprendizaje, poniendo nfasis en las estrategias de gestin y didcticas. CAPACIDADES COGNITIVAS: Operaciones mentales que el sujeto utiliza para establecer relaciones con y entre los objetos, situaciones y fenmenos. Se logran a travs del proceso de enseanza y del proceso de aprendizaje y cobran significado de acuerdo con la determinacin de contenidos socialmente relevantes y altamente significativos, frente a los que se ponen en juego y a travs de los cuales se desarrollan. En las tablas de especificaciones que enmarcan la aplicacin de nuestros instrumentos de evaluacin, quedaron establecidas hasta el momento capacidades cognitivas de acuerdo a la disciplina que se evale (Ver Adenda). CBC: Contenidos Bsicos Comunes. Conjunto de saberes relevantes que integran el proceso de enseanza de todo el pas. Son la matriz bsica para un proyecto cultural nacional; matriz a partir de la cual, cada jurisdiccin continua actualizando sus propios lineamientos o diseos curriculares y da paso, a
su vez, a diversos pero compatibles proyectos curriculares institucionales. CIVED: Civic Eduaction Study o Estudio Internacional de Educacin Cvica. Prueba de evaluacin internacional puesta en marcha por la IEA (International Association for the Evaluation of Educational Achievement) cuyo objetivo es evaluar los conocimientos y actitudes de los alumnos dentro de cuatro campos: 1. Democracia. 2. Identidad Nacional. 3. Cohesin Social y Diversidad. 4. Economa / Medios de Comunicacin y Medio Ambiente. En nuestro pas esta prueba se aplica en 9 ao de la EGB. o 2 ao del nivel Secundario y en 3 ao del nivel Polimodal o ltimo ao del nivel Secundario. COMPRENSIN LECTORA: Ver Capacidades Cognitivas. CONFIABILIDAD: El grado de estabilidad de los puntajes obtenidos en mediciones sucesivas del mismo atributo o la consistencia de los puntajes arrojados por los distintos tems que conforman la prueba. CONTENIDOS: Conjunto de saberes o formas culturales cuya asimilacin y apropiacin por parte de los alumnos se considera esencial para su desarrollo personal y social. Son instrumentos para leer, analizar e interpretar la realidad. La explicitacin de los contenidos, desde lo establecido por las diferentes disciplinas, permite determinar con mayor certeza de qu conocimiento debe apropiarse el alumno y cmo organizar las estrategias didcticas para implementar en los procesos de enseanza y aprendizaje. Son seleccionados y organizados por el sistema educativo para ser enseados y aprendidos en la escuela, sobre lo construido por la cultura vigente en un determinado momento histrico. CUESTIONARIOS COMPLEMENTARIOS: Tambin denominados como cuestionarios de contexto. Cuestionarios auto-administrados a los directivos, a los docentes y a los alumnos de las escuelas donde se llevan a cabo las pruebas de evaluacin, a fin de recoger informacin relevante acerca de las condiciones materiales, institucionales y sociales en las cuales, la comunidad educativa desarrolla sus respectivas tareas. DIFICULTAD DE UN TEM: Medida que indica cun difcil result un tem para los estudiantes que lo resolvieron. Sus valores oscilan entre menos infinito y ms infinito en la escala logit usada en el modelo Rasch. En trminos ms prcticos, los tems asumen valores entre -3 y +3. Valores positivos y altos indican alta dificultad y valores negativos indican baja dificultad. DISTRACTORES: Cualquiera de las opciones o respuestas errneas posibles, que conforman los ejercicios de seleccin mltiple o de respuesta fija. EQUIDAD: Calidad para todos. Es reconocer puntos de partida distintos y puntos de llegada similares, a partir de una visin crtica y objetiva de datos confiables. Una escuela es equitativa cuando posee la capacidad de compensar mejor las desigualdades sociales, debilitando el condicionamiento del origen social de los alumnos con respecto a sus logros de aprendizaje.
78
EQUIPARACIN: Proceso estadstico que se utiliza para ajustar puntuaciones de dos o ms pruebas de modo que sean intercambiables y comparables, es decir que se pueda establecer una correspondencia entre sus puntuaciones, de tal modo que las puntuaciones de cualquiera de ellas puedan expresarse en trminos de las de las otras. ESCALAMIENTO: El desarrollo de reglas sistemticas y de unidades significativas de medida para cuantificar las observaciones empricas. Una escala de medida se establece cuando se define el conjunto de valores posibles que pueden asignarse y se establece la regla de asignacin que establece la correspondencia entre el sistema emprico y el sistema numrico. Proceso de transformacin de las respuestas en puntuaciones. EVALUACIN: Proceso sistemtico de relevamiento de datos, incorporado al sistema de acciones educativas, que permite obtener informacin vlida y confiable para formular juicios de valor acerca de una realidad, en este caso nos referimos al campo educativo. Estos juicios pueden ser utilizados en la toma de decisiones con el objeto de mejorar las acciones educativas valoradas. FACTORES ASOCIADOS: Variables sociales, culturales y econmicas que inciden en el rendimiento acadmico de los alumnos. INDICADOR: Parmetro que permite cuantificar e inferir el valor y la existencia o inexistencia de una variable. Da cuenta de cmo vamos a traducir en el mbito emprico nuestra definicin conceptual de la variable. Sirve de puente entre las conceptualizaciones y la realidad emprica. INTERPRETACIN Y EXPLORACIN: Ver Capacidades Cognitivas. INSTRUMENTO PILOTO: Prueba de evaluacin denominada piloto que consiste en una instancia previa a la construccin del instrumento definitivo en la que se administra un conjunto de tem a una muestra de sujetos, a fin de obtener informacin sobre la calidad y pertinencia de dichos tem para evaluar los contenidos y las capacidades previamente establecidos en las tablas de especificaciones. INFORME DE RESULTADOS: Publicacin destinada a la difusin de la informacin relevada sobre los aprendizajes de los alumnos y de los datos vinculados con su historia acadmica, las expectativas de los docentes respecto de stos, las formas de organizacin del trabajo docente y de la escuela en su conjunto. Informacin que se recoge mediante la aplicacin de pruebas estandarizadas y de cuestionarios complementarios, respectivamente. INTERPRETACIN Y EXPLORACIN: Ver Capacidades Cognitivas. TEM: Mnima parte de un test o prueba que recibe puntaje. Los formatos de tem ms utilizados para evaluar rendimiento acadmico son los de eleccin mltiple o de respuesta fija, en los cuales el alumno debe elegir la respuesta correcta de entre un conjunto limitado de respuestas posibles y los de construccin o tem abierto, en los cuales el alumno debe construir la respuesta. NAP: Ncleos de Aprendizaje Prioritarios. Constituyen un conjunto de saberes comunes que deben estar al alcance de todos los nios y las nias del pas, de manera tal que nos permita compartir el mundo a todos los argentinos, y reafirmar, desde el Estado, el derecho y la oportunidad de todos a acceder a nuestra cultura. (El acuerdo alcanzado en el Consejo Federal de Cultura y Educacin, entre el Ministerio nacional, las provincias y la Ciudad de Buenos Aires, permiti establecer los Ncleos de Aprendizajes Prioritarios, conformndose una base comn para
la enseanza en todo el pas). NIVELES DE DESEMPEO: Categoras de tareas que permiten identificar grupos de estudiantes con niveles similares de rendimiento frente a la prueba. Se establecen fundamentalmente con el propsito de facilitar la comunicacin de lo que pueden hacer los estudiantes. Se determinan combinando los hallazgos de los ONE y los criterios conceptuales curriculares y pedaggicos. NIVELES DE LOGRO: Ver Niveles de Desempeo. OMISIN: Ausencia total de respuesta en un ejercicio. El ndice de omisin es el porcentaje de ejercicios no respondidos sobre el total de la poblacin de alumnos evaluados. ONE (Operativo Nacional de Evaluacin): Acciones de evaluacin instrumentadas a partir del nuevo marco legal otorgado por la sancin de la Ley Federal de Educacin, con el objetivo de suministrar informacin vlida y confiable sobre qu y cunto aprenden los alumnos durante su permanencia en el sistema educativo formal y acerca de cules son los factores asociados a ese aprendizaje. OPERACIN USANDO ALGORITMOS: Ver Capacidades Cognitivas. PIRLS: Progress in International Reading Literacy Study o Estudio internacional sobre el progreso de la alfabetizacin lectora. Prueba de evaluacin internacional puesta en marcha por la IEA (International Association for the Evaluation of Educational Achievement), cuyo objetivo es evaluar tanto los procesos que se ponen en juego para la comprensin como los propsitos de lectura. En nuestro pas se aplica en 4 ao de la E.G.B. (Ver documento Pruebas Nacionales e Internacionales para 2001). PISA: Programme for International Student Assessment o Programa para la evaluacin internacional de estudiantes. Prueba de evaluacin internacional o programa creado por la OECD (organizacin para la Cooperacin y el Desarrollo Econmico) que evala tres reas: 1. Prueba de Alfabetizacin Lectora estructurada sobre la base de tres dimensiones: Procesos o tareas de lectura - Contenidos o tipos de textos - Contextos o propsitos del texto. 2. Prueba de Alfabetizacin Cientfica estructurada sobre la base de tres dimensiones: Procesos Cientficos - Conceptos Cientficos - Situaciones y Contextos. 3. Prueba de Alfabetizacin Matemtica estructurada sobre la base de tres dimensiones: Las Grandes Ideas (contenidos) - Competencias matemticas o procesos de matematizacin - Situaciones y contextos. El objetivo del estudio PISA 2000 es elaborar indicadores del alcance de la preparacin de los alumnos de 15 aos de los sistemas educativos de los pases participantes, ya que sta es la edad en la que la mayora de los alumnos de los pases miembros de OECD terminan su escolaridad obligatoria. La evaluacin no se limita a lo que los alumnos han aprendido sino que pone especial inters en el uso que hacen de estos aprendizajes para jugar un papel comprometido como ciudadanos. PRODUCCIN ESCRITA: Ver Capacidades Cognitivas. PRUEBA PILOTO: Ver Instrumento Piloto. PRUEBA REFERIDA A CRITERIOS: Los instrumentos referidos a criterios estn enfocados a determinar si un alumno ha logrado un nivel predeterminado o criterio prefijado, en una disciplina dada. Proveen informacin precisa sobre logros respecto de ese criterio (estndares o metas educativas). PRUEBA REFERIDA A NORMAS: Los instrumentos referidos a normas comparan al estudiante con la norma de su grupo.
Las mediciones normativas reportan cul es la posicin relativa de un sujeto con respecto de la norma de su grupo. RECOMENDACIONES METODOLGICAS: Publicaciones y videos destinados a los docentes, cuyo contenido surge del anlisis y de la interpretacin de los resultados alcanzados por los alumnos en cada uno de los Operativos Nacionales de Evaluacin. En este material se plantean propuestas, tanto tericas como metodolgicas para la enseanza de aquellos contenidos y capacidades, que en forma recurrente presentan dificultad en los alumnos. RECONOCIMIENTO DE CONCEPTOS Y PRINCIPIOS: Ver Capacidades cognitivas. RECONOCIMIENTO DE HECHOS: Ver Capacidades cognitivas. RECONOCIMIENTO DE VALORES: Ver Capacidades cognitivas. REFLEXIN SOBRE LOS HECHOS DEL LENGUAJE: Ver Capacidades cognitivas. RESOLUCIN DE PROBLEMAS: Ver Capacidades cognitivas. RESPUESTA POR AZAR: Respuesta que los alumnos dan fortuitamente, sin dominar el contenido y capacidad especficos evaluados en el tem. SERCE: Segundo Estudio Regional Comparativo y Explicativo (SERCE 2006). El SERCE es un Estudio de Evaluacin, producto de una construccin colectiva y participativa de los pases latinoamericanos que conforman la red del Laboratorio Latinoamericano de Evaluacin de Calidad Educativa (LLECE). SISTEMA NACIONAL DE EVALUACIN DE LA CALIDAD DE LA EDUCACIN: dispositivo administrativo para la conduccin del sistema educativo. Su funcin es ofrecer informacin sobre los resultados de la educacin, el funcionamiento de distintos niveles del sistema, las condiciones que afectan los procesos en las distintas instancias y el aporte de distintos actores. Esto con el propsito de definir las polticas educativas, orientar el desarrollo de planes de mejoramiento y rendir cuentas sobre la respuesta del sistema a las demandas de la sociedad. TABLA DE ESPECIFICACIONES: En el caso de nuestras pruebas de evaluacin es un cuadro de doble entrada en el cual se ingresan dos tipos de informacin: las capacidades y los contenidos a evaluar, Cada cruce identifica un desempeo, es decir, una capacidad determinada en relacin con contenidos de cada rea de conocimiento. TEORA CLSICA DE LAS PRUEBAS (TCP): ver Teora Clsica de los Test (TCT). TEORA CLSICA DE LOS TEST (TCT): Teora basada en el Modelo Lineal de la Regresin con dos variables: teora psicomtrica que considera como hiptesis fundamental, que el puntaje de un sujeto en un test (observable) es funcin de dos componentes: el puntaje verdadero (inobservable) y el puntaje de error. TEORA DE LA RESPUESTA AL TEM (TRI): Teora basada en la modelizacin de las probabilidades de respuestas correctas a un tem segn las funciones de distribucin normal y logstica. Intenta dar una fundamentacin probabilstica al problema de la medicin de constructos inobservables. Considera al tem como unidad bsica del test. Sus modelos son funciones matemticas que relacionan la probabilidad de una respuesta particular a un tem, con la aptitud general del sujeto. TEORA DEL RASGO LATENTE: ver Teora de la Respuesta al tem (TRI).
TIMSS: Third International Mathematics and Science Study o Tercer Estudio Internacional de Matemtica y Ciencias. Prueba de evaluacin internacional, puesta en marcha por la IEA (international Association for the Evaluation of Educational Achievement). Su objetivo es evaluar el nivel de rendimiento de los alumnos, de manera conjunta en Matemtica y Ciencias. El ncleo central del estudio es la poblacin de alumnos de 13 aos. (Ver documento Pruebas Nacionales e Internacionales para 2001). VALIDEZ: El grado en que un test o prueba mide lo que dice medir o evala lo que pretende evaluar. Brinda informacin vlida con respecto al atributo que mide o evala el test.
BIBLIOGRAFA
Coll,Csar. Aprendizaje escolar y construccin del conocimiento, Barcelona, 1990. Coll, Csar; Pozo, J.I; Sarabia, B; Valls, E. Los contenidos en la Reforma. Enseanza y aprendizaje de conceptos, procedimientos y actitudes, Madrid, 1992. Cortada de Kohan, Nuria. Teoras Psicomtricas y Construccin de Tests, Buenos Aires, 1999. Instituto para el Desarrollo de la Calidad Educativa. Documento Pruebas Nacionales e Internacionales para 2001, Hambleton, R.K; Swaminathan, H; Jane Rogers, H. Fundamentals of Item Response Theory, United States of Amrica, 1991. Jacob, 1994; tomado de Cea DAncona, Ma. ngeles. Metodologa Cuantitativa. Estrategias y Tcnicas de Investigacin Social, Madrid, 1996. Martinez Arias, Rosario. Psicometra: Teora de los Tests Psicolgicos y Educativos, Madrid, 1995. Ministerio de Cultura y Educacin de la Nacin. Manual de Estrategias para el uso e incorporacin de la informacin de la Evaluacin, Buenos Aires, 1997. Ministerio de Cultura y Educacin de la Nacin. Recomendaciones Metodolgicas para la Enseanza - 3er Operativo Nacional de Evaluacin (1995), Buenos Aires, 1997. Ministerio de Cultura y Educacin de la Nacin. Contenidos Bsicos Comunes para la Educacin General Bsica, Buenos Aires, 1995. Ministerio de Cultura y Educacin de la Nacin. Ncleos de Aprendizaje Prioritarios para la Educacin General Bsica, Buenos Aires, 2004 - 2006. Ministerio de Cultura y Educacin de la Nacin. Propuesta de Tablas de Especificaciones, Buenos Aires, 1999. Vianna, Heraldo Marelim. Termos Tcnicos em medidas educacionais, So Paulo, 1981.

Evaluacion

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Evaluacion

Diunggah oleh

Hak Cipta:

Format Tersedia

2009 / Ao de Homenaje a Ral SCALABRINI ORTIZ

hacia una cultura de la Evaluacin

Diseo Grfico: Karina Actis Juan Pablo Rodrguez Coralia Vignau

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

Segunda Parte. El Operativo Nacional de Evaluacin 2009

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

Primera Parte. Hacia una cultura de la Evaluacin Educativa

Evaluacin: nuevos significados para una prctica compleja

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

Las intenciones de la evaluacin

Los usos sociales de la evaluacin

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

Las acciones derivadas de los resultados

Algunas observaciones sobre la accin de evaluar

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

La evaluacin como lectura orientada: la construccin del referente

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

Los mltiples significados de la palabra evaluacin

La construccin de los resultados

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

9 Ardoino y Berger, op. cit., p. 12.

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

10 Ardoino y Berger, op. cit.

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

Evaluacin educativa: una aproximacin conceptual

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

c)Los mbitos de la evaluacin

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

La evaluacin educativa, un criterio consolidado.

Los sistemas de evaluacin en Amrica Latina y en Argentina

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

c) Hacia dnde vamos

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

Evaluacin Nacional y Evaluaciones Internacionales

El estudio busca aportar informacin a los sistemas educativos de la regin.

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

(*) Ver Anexo

(*) Ver Anexo

(*) Ver Anexo

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

QL3, QL6, QM3, QM6, QC6

Autoadministrada / Entrevista Autoadministrada Entrevista

Del directivo Ficha de empadronamiento

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

PISA Estructura y caractersticas de los instrumentos

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

Qu pretendemos evaluar, qu evaluamos y qu conclusiones podemos extraer de la evaluacin?

El desarrollo de polticas nacionales de evaluacin

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

Una mirada a los sistemas nacionales de evaluacin

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

Una mirada a las pruebas nacionales de logros

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

luacin ha ido generalmente asociado a otros procesos de reforma curricular.