Resumen
El propsito de esta declaracin es informar a aquellos que usan o consideran usar modelos de
valor agregados (MVA), acerca de sus limitaciones cientficas y tcnicas en la evaluacin de
educadores y de los programas que preparan a los maestros. La declaracin brevemente revisa
los antecedentes y el contexto actual del uso de los MVA para evaluar, enumera problemas
psicomtricos especficos de los MVA y aborda la validez de las inferencias a partir de los MVA,
dado los desafos de aislar la contribucin de profesores y lderes escolares de entre muchos
otros factores que configuran el aprendizaje estudiantil. La declaracin tambin aborda las
limitaciones de la utilizacin de los MVA para evaluar los programas de preparacin de
educadores, dada la amplia variedad de experiencias y contextos en los que los egresados de
esos programas trabajan y la falta de informacin completa y comparable sobre dichos
programas. Adems, la declaracin va ms all de un examen de los desafos y limitaciones,
especificando ocho requisitos tcnicos que deben cumplirse para que el uso de los MVA sea
exacto, fiable y vlido. La declaracin concluye subrayando la importancia de cualquier sistema
de evaluacin de educadores cumpla con las ms altos estndares en materia de estadsticas y
medicin. Llama a realizar importantes inversiones en investigacin sobre los MVA y sobre
mtodos y modelos alternativos, y advierte contra el uso de los MVA para que tengan en las
evaluaciones un alto peso y consecuencias (high-stakes).
Introduccin
El propsito de esta declaracin es informar a aquellos que usan o estn considerando el uso de
los MVA sobre las limitaciones tcnicas y cientficas de su inclusin en la aplicacin de sistemas
de evaluacin.
El uso de los MVA para evaluar a los profesores y a los programas de preparacin de
educadores, sigue siendo objeto de discusin y debate. Existe un inters compartido en las
comunidades de prctica y de poltica pblica, en la ejecucin de sistemas de evaluacin de
educadores que puedan conducir a mejoras en las prcticas de enseanza y que sean justas y
libres de prejuicios. Sin embargo, existe un desacuerdo considerable entre los formuladores de
la poltica pblica de educacin y los responsables de la toma de decisiones acerca de si el
estado de conocimiento sobre los MVA, solos o en combinacin con otros indicadores, est lo
*
"High-stakes" es un concepto usado en el mundo educativo anglosajn para referirse al uso de las puntuaciones de las
pruebas que se aplican a estudiantes, profesores, directivos o instituciones, para determinar para los evaluados castigos
(sanciones, multas, reduccin de la financiacin, publicidad negativa), distinciones (premios, la celebracin p blica, una
publicidad positiva), avances (grado de promocin o graduacin de estudiantes), o compensaciones (aumentos de salario
o bonificaciones para los administradores y profesores), en funcin de sus resultados. (N. del T.)
Antecedentes y temas
Existe un amplio consenso acerca de la necesidad de tener maestros y directores de alta calidad
para todos los estudiantes, especialmente los estudiantes sub-atendidos. En un esfuerzo para
aumentar la calidad del maestro y director, muchos estados estn ideando sistemas de
evaluacin de los educadores que emplean, en diversos grados, los indicadores estadsticos
relacionados con los cambios en las pruebas de rendimiento de sus alumnos. Algunas
jurisdicciones tambin est ampliando el uso de estos sistemas4 para evaluar los programas de
preparacin del educador. Las evidencias basadas en investigacin sobre la precisin,
confiabilidad y estabilidad de estos indicadores, la validez de las medidas subyacentes, y las
consecuencias de la utilizacin de esos indicadores en los sistemas de evaluacin del educador,
todava estn en proceso de acumulacin. As, las bases tcnicas para su uso en los sistemas
de evaluacin estn lejos de haberse establecido.
Para los efectos de esta declaracin, la frase Modelos de Valor Agregado se usa como un trmino
genrico para referirse a una variedad de "autnticos" modelos de valor agregado, percentiles
del crecimiento del estudiante, y ciertos modelos de incremento que se utilizan para la
evaluacin.5 En los sistemas de evaluacin de los educadores recientemente concebidos, a los
que se hace referencia ms arriba, los MVA se emplean en un intento por determinar las
contribuciones de maestros y directivos a los resultados de aprendizaje de los estudiantes, tal
como son capturados por los exmenes estandarizados, y normalmente se emplean para
identificar aquellos educadores que aparecen, en virtud de estas medidas, como particularmente
eficaces o ineficaces. En la evaluacin docente, las puntuaciones de los MVA se derivan de los
agregados de los cambios en la calificacin de los estudiantes en sus aulas. En la evaluacin de
los directores de escuela, hay otras agregaciones que se hacen de esos cambios a travs de
varios grados y aulas. En la evaluacin de programas, tambin se utilizan puntuaciones
retrospectivamente para extraer inferencias acerca de los programas de preparacin en que los
educadores han sido capacitados.
Los MVA generalmente son vistos como superiores a los modelos de estatus para evaluar los
impactos sobre los resultados de aprendizaje de los estudiantes, porque estn basados en
alguna manera sobre los cambios en los test de rendimiento. Los modelos de Estatus
simplemente reflejan la proporcin de estudiantes que cumplen o exceden un umbral de
rendimiento al final del ao escolar, sin tener en cuenta su nivel acadmico en el comienzo del
ao. Bajo un modelo de estatus, un maestro con un grupo de estudiantes con un puntaje de alto
rendimiento al inicio del ao, normalmente estar en ventaja con un profesor cuyos estudiantes
tienen puntajes de bajo rendimiento al inicio del ao. En contraste, los MVA se centran en
cambios basados en los test (de inicio y fin de ao) de tal manera que los maestros o directivos
con cohortes de estudiantes con mayor puntuacin al inicio de ao, no necesariamente estn
en ventaja frente a otros.
Aunque los MVA pueden ser superiores a los modelos de estatus, no significa que ellos estn
listos para su uso en la evaluacin de educadores o de programas que forman profesores. Hay
potencialmente graves consecuencias negativas en el contexto de la evaluacin que pueda
resultar de la utilizacin de los MVA basados en datos incompletos o imperfectos, as como de
la malinterpretacin o el mal uso de los resultados del MVA. Los maestros y directivos, por
ejemplo, con bajas puntuaciones en los MVA pueden experimentar prdida en su avance
profesional, prdida en compensaciones salariales, e incluso despidos. Asimismo, cuando un
gran nmero de docentes y directivos son identificados o clasificados incorrectamente, entonces
los recursos se retiran y redirigen, y el sistema educativo como un todo se puede degradar. Slo
si tales indicadores se basa en datos de prueba de alta calidad, auditados y respaldados por
slidos test de validacin para los fines especficos propuestos, los MVA pueden usarse
apropiadamente, junto con otros indicadores pertinentes, para fines de desarrollo profesional o
para la evaluacin del educador.
(1) Las puntuaciones de los MVA slo deben ser derivados de las calificaciones de los alumnos
en las evaluaciones que cumplan con los estndares profesionales de confiabilidad y
validez en relacin a la finalidad prevista.
En relacin a las puntuaciones de evaluacin que se utilizarn en los MVA para cualquier
propsito, es esencial que las evaluaciones cumplan los estndares profesionales para
evaluaciones descritas en los Estndares para el Testeo Psicolgico y Educativo emitidos en
2014 por la American Educational Research Association (AERA), la American Psychological
Association (APA), y el National Council on Measurement in Education (NCME). La evidencia
relevante se debe reportar en la documentacin de soporte a afirmaciones y los usos
propuestos de los resultados del MVA, incluyendo la evidencia de que las pruebas utilizadas
son una medida vlida del crecimiento mediante la medicin real de la materia que se ensea
y la gama completa de los logros de los estudiantes, representados en las aulas de los
docentes.
(2) Las puntuaciones de los MVA deben estar acompaadas por lneas separadas de evidencia
de la confiabilidad y validez que apoyan cada afirmacin y argumento interpretativo.
La precisin de las puntuaciones de los MVA depende de la cantidad y calidad de los datos
disponibles, as como de las caractersticas del modelo. Por lo tanto, las puntuaciones de los
MVA no deben utilizarse a menos que se deriven de los datos obtenidos de un nmero
suficiente de estudiantes durante varios aos. Las puntuaciones de los MVA siempre deben
ir acompaadas de una estimacin de la incertidumbre para protegerse de una sobreinterpretacin de diferencias encontradas. Adems, se debe tener cuidado al abordar el
clculo de la inestabilidad que resulta de la movilidad de los profesores entre escuelas,
grados y asignaturas.
(4) Las puntuaciones de los MVA slo debe calcularse a partir de las puntuaciones en las
pruebas que sean comparables a lo largo del tiempo.
Cuando la evaluacin estandarizada de datos no est disponible a travs de todos los grados
(K-12) o asignaturas (por ejemplo, salud, estudios sociales) en un estado o distrito, a menudo
se usan medidas alternativas (por ejemplo, evaluaciones desarrolladas localmente, medidas
proxy, calificaciones observacionales) en los grados y asignaturas para implementar el
MVA.11 Tales evaluaciones alternativas no debe utilizarse a menos que estn acompaados
de evidencia de confiabilidad y validez tal como lo requieren los Standards for Educational
and Psychological Testing de AERA, APA y NCME. Debido a que la validez de los puntajes
de los MVA es tan dependiente de la calidad de la evaluacin subyacente, no deben ser
aplicadas en grados o asignaturas donde hay una falta de evidencias sobre confiabilidad y
validez.
(6) Los puntajes de los MVA nunca deben utilizarse solos o aislados en sistemas de evaluacin
de educadores o de programas de formacin docente.
Si se utilizan los resultados de los MVA, deberan ser slo uno de los componentes de una
evaluacin ms integral de educadores o de programas. Adems, su significado debe ser
interpretado en el contexto del currculum y tareas docentes de un profesor individual, con
advertencias explicitadas sobre los problemas comunes de interpretacin, tales como el
efecto de techo y suelo de las pruebas para la estimacin del incremento (de puntajes) en
estudiantes de alto y bajo logro. Otras medidas de la prctica y los resultados de los
estudiantes siempre deben ser integrados en los juicios acerca de la eficacia de los maestros
en general.
(7) Los sistemas de evaluacin que usan MVA deben incluir seguimiento continuo para
asegurar calidad tcnica y validez de su uso.
Debe existir transparencia con respecto a los usos y el sistema global de evaluacin en los
que los MVA estn insertados. Los informes deberan incluir la justificacin y los mtodos
utilizados para estimar el error y la precisin asociada con diferentes puntuaciones del MVA.
Adems, su confiabilidad de ao a ao y de grado a grado debe ser informado. Adems,
cuando las puntuaciones de corte o niveles de rendimiento se establecen con la finalidad de
hacer decisiones evaluativas, se deben documentar y reportar los mtodos utilizados, as
como la precisin de los estimados de clasificacin. Deber justificarse la inclusin de cada
indicador y el peso que se le asigna en el proceso de evaluacin.
Los elementos del informe deben incluir: (a) una descripcin de los datos y de los controles
de calidad de los datos empleados; (b) la metodologa, los modelos estadsticos, y los
mtodos informticos utilizados; c) una justificacin y explicacin de cmo cada indicador se
ha incorporado en el sistema de evaluacin; y d) evidencia de validez para apoyar el uso del
sistema. Cuando en la elaboracin de informe se identifican problemas materiales en la
utilizacin del MVA, se deben establecer procedimientos que desencadenen una revisin del
sistema de evaluacin y posibles modificaciones del sistema, necesarios para su uso
continuo. La produccin del reporte se puede cumplir a travs de la preparacin de un manual
tcnico, un manual de aplicacin, o un conjunto de informes de investigacin. La difusin
debe incluir formatos accesibles que estn ampliamente disponibles para el pblico en
general, as como para profesionales.
Conclusin
Muchos Estados y distritos han incorporado los MVA como parte de un sistema integral para
evaluar a los docentes, directores de escuelas y programas de preparacin de educadores.
Existen considerables riesgos de mala clasificacin e interpretaciones errneas en el uso de los
MVA para informar a estas evaluaciones. Como se detall anteriormente, la comunidad de
investigacin en educacin subraya que el uso de los MVA en cualquier evaluacin debe
satisfacer los requisitos tcnicos de la precisin, confiabilidad y validez. Esto incluye la atencin
no slo a la validez de constructo y la confiabilidad de las evaluaciones de estudiantes, sino
tambin a la confiabilidad de los resultados de los modelos de evaluacin de profesores y de
programas de formacin para educadores, as como su consecuente validez. En suma, los
Estados y los distritos deben aplicar las investigaciones pertinentes y los estndares
profesionales que se refieren al testeo, el personal, y la evaluacin del programa antes de
embarcarse en la aplicacin del MVA.
Los estndares de la prctica en estadsticas y testeo establecen un alto nivel tcnico para la
agregacin correcta de los resultados de la evaluacin de los estudiantes para cualquier
propsito, especialmente aquellos relacionados con el hacer inferencias sobre la eficacia del
profesor, el director de una escuela, de un programa de preparacin docente. En consecuencia,
la AERA recomienda que los MVA (que incluyen modelos de ganancia de puntajes de los
estudiantes, modelos de transicin, modelos del crecimiento de percentiles del estudiante, y
modelos de medidas de valor) no pueden ser usados sin evidencias suficientes de que se ha
cumplido con el alto nivel tcnico exigido, en formas que apoyen todas las afirmaciones,
argumentos interpretativos, y los usos (por ejemplo, rankings, decisiones de clasificacin).
Aunque puede haber diferencias de opinin acerca de la conveniencia de utilizar los MVA para
fines de evaluacin, hay un amplio acuerdo en que datos poco fiables o de mala calidad,
atribuciones incorrectas, falta de evidencias de la confiabilidad o validez asociadas con
puntuaciones de valor aadido y aseveraciones sin fundamento, conducen a usos indebidos que
perjudican a los estudiantes y educadores.
Por ltimo, la AERA recomienda inversiones sustanciales en la investigacin sobre los MVA, as
como sobre mtodos y modelos alternativos para la evaluacin del educador y de programas de
formacin docente. Hay alternativas prometedoras actualmente en uso en los Estados Unidos,
que merecen atencin.12 Estos incluyen el uso de datos de observacin de la maestra13 y
modelos de revisin y asistencia entre pares, los que proporcionan evaluaciones formativas y
sumativas de la enseanza14 y honran el derecho al debido proceso de los docentes.15 Tambin
hay investigaciones que consideran la relacin entre la prctica del educador y los resultados de
los alumnos, y la relacin entre las caractersticas de los programas de formacin docente y sus
resultados de rendimiento de sus graduados. 16
El valor de la evidencia alta calidad, basada en investigaciones no puede exagerarse. En
definitiva, slo inferencias rigurosamente fundamentadas acerca de la calidad y la eficacia de los
maestros, lderes educativos, y de los programas de preparacin de los educadores pueden
contribuir a mejorar el aprendizaje de los estudiantes.
Referencias
American Educational Research Association. (2000). Position statement on high-stakes testing
in pre-K12 education. Retrieved from
http://www.aera.net/AboutAERA/AERARulesPolicies/AERAPolicyStatements/Posi
tionStatementonHighStakesTesting/tabid/11083/Default.aspx
American Educational Research Association, American Psychological Association, & National
Council on Measurement in Education. (2014). Standards for educational and
psychological testing. Washington, DC: American Educational Research Association.
American Educational Research Association, American Psychological Association, & National
Council on Measurement in Education. (2014). Standards for educational and
psychological testing. Washington, DC: American Educational Research Association.
Baker B. D., Oluwole J., Green P. C. III. (2013).The legal consequences of mandating high stakes
decisions based on low quality information: Teacher evaluation in the race-to-the-top
era. Education Policy Analysis Archives, 21(5)
Braun H., Chudowsky N., Koenig J. (2010). Getting the value out of value-added: Report of a
workshop. Washington, DC: National Research Council and National Academy of
Education.
Chiang H., Lipscomb S., Gill B. (2012). Is school value-added indicative of principal quality ?
Cambridge, MA: Mathematica Policy Research.
Darling-Hammond L., Meyerson D., LaPointe M., Orr M. (2010). Preparing principals for a
changing world. San Francisco: Jossey-Bass.
Fuller E. J., Hollingworth L. (2014). A bridge too far? Challenges in evaluating principal
effectiveness. Educational Administration Quarterly, 50(3), 466499.
Gansle K. A., Noell G. H., Burns J. M. (2012). Do student achievement outcomes differ across
teacher preparation programs? An analysis of teacher education in Louisiana. Journal
of Teacher Education, 63(5), 304317.
Goe L., Holdheide L. (2011). Measuring teachers contribution to student learning growth for
nontested grades and subjects (Research & Policy Brief). Washington, DC:National
Comprehensive Center for Teacher Quality.
Goldhaber D. (2013). What do value-added measures of teacher preparation programs tell
us? Palo Alto, CA: Carnegie Foundation for the Advancement of Teaching. Retrieved
fromhttp://www.carnegieknowledgenetwork.org/briefs/teacher_prep/
Goldring E., Grissom J. A., Rubin M., Neumerski C. M., Cannata M., Drake T.,Schuermann P.
(2015). Make room value added: Principals human capital decisions and the emergence of
teacher observation data. Educational Researcher, 44(2),96104.
Goldstein J. (2010). Peer review and teacher leadership: Linking professionalism and
accountability. New York: Teachers College Press.
Grissom J. A., Kalogrides D., Loeb S. (2012). Using student test scores to measure principal
performance. Nashville, TN: Vanderbilt University.
Harris H. N., Herrington C. D. (Eds.). (2015). Value added meets the schools: The effects of
using test-based teacher evaluation on the work of teachers and leaders [Special
issue]. Educational Researcher, 44(2).
Henry G. T., Kershaw D., Zulli R., Smith A. (2012). Incorporating teacher effectiveness into
teacher preparation program evaluation. Journal of Teacher Education, 63(5), 335355.
Knight S. L., Edmonson J., Lloyd G., Arbaugh F., Nolan J., Whitney E.,McDonald P.
(2012). Examining the complexity of assessment and accountability in teacher
education. Journal of Teacher Education, 63(5), 301303.
Lockwood J., McCaffrey D. (2007). Controlling for individual heterogeneity in longitudinal models,
with applications to student achievement. Electronic Journal of Statistics, 1, 223252.
Retrieved
fromhttp://www.rand.org/content/dam/rand/pubs/reprints/2007/RAND_RP1266.pdf
Lockwood J. R., McCaffrey D., Hamilton L., Stecher B., Le V., Martinez J. (2007).The sensitivity
of value-added teacher effect estimates to different mathematics achievement
measures. Journal of Educational Measurement, 44(1), 4767.
Newton X., Darling-Hammond L., Haertel E., Thomas E. (2010). Value-added modeling of teacher
effectiveness: An exploration of stability across models and contexts. Educational Policy
Analysis Archives, 18(23).
Papey J. P., Moore Johnson S. (2012). Is PAR a good investment? Understanding the costs and
benefits of teacher Peer Assistance and Review programs. Educational
Policy, 26(5), 696729.
Rothstein J. (2009). Student sorting and bias in value-added estimation: Selection on
observables and unobservables. Education Finance and Policy, 4(4), 537571.
Notas
1
programas de preparacin de educadores. La presente declaracin se refiere a todos los modelos como MVA y no
aborda las distinciones entre los diferentes modelos. Estos modelos incluyen (a) Modelos basados en Ganancia de
Puntaje (por ejemplo, incremento) o Ganancia Promedio, que simplemente agregan la diferencia en puntajes restando
los puntajes previos de los puntajes actuales en las pruebas; b) Modelos basados en Transicin (o Modelos
Categricos), que calculan los cambios agregados en las categoras de rendimiento durante un perodo de 2 o ms
aos; (c) Modelos basados en Percentiles del Crecimiento de los Estudiantes (SGPs), que responden a la pregunta
"Cul es el rango percentil de la puntuacin de una prueba actual de un estudiante, frente a estudiantes con historia
de puntuacin similares?" y, a continuacin, evalan a los docentes sobre la base de la mediana o promedio de los
percentiles agregados de sus estudiantes; y (d) Modelos de Valor Agregado y de Medidas Agregadas (MVA), que
establecen una puntuacin esperada de la prueba actual para los estudiantes basndose en los resultados de
exmenes de aos anteriores, junto con (posiblemente) otras caractersticas demogrficas de los estudiantes, el aula y
la escuela para intentar dar cuenta del impacto de otros factores ms all de los logros estudiantiles para aislar el
impacto del maestro. Cada uno de estos modelos tiene diferentes ventajas e inconvenientes que deben tenerse en
cuenta al interpretar sus resultados, pero el debate est ms all del alcance de esta declaracin (vas e Braun et al.,
2010).
5
Consultar American Statistical Association, 2014.
6
Vase Chiang, Lipscomb, & Gill, 2012; Grissom, Kalogrides, & Loeb, 2012.
7
Vase Gansle, Noell, & Burns, 2012.
8
Ver Henry, Kershaw, Zulli, & Smith, 2012; Knight et al., 2012
9
Esta declaracin de condiciones, iguala y es consistente con la declaracin de posicin de la American Educational
Research Association sobre pruebas High-Stakes en la educacin Pre-K-12, aprobada en 2000.
10
El desarrollo y uso de resultados de valor agregado (o de crecimiento) para maes tros, directivos y programas de
formacin de profesores, a menudo requiere diferentes medidas y mtodos de agregacin de datos y atencin a los
errores de medicin. Diferentes MVA pueden basarse en supuestos diferentes, y el grado en que los errores de
medicin son contabilizados debe ser explcitado. (Lockwood et al., 2007; Newton, Darling-Hammond, Haertel, & Ewart,
2010; Braun, Chudowsky, & Koenig, 2010).
11
Vase Fuller & Hollingworth, 2014; Goe & Holdheide, 2011.
12
Fuera de los Estados Unidos, existen enfoques alternativos para garantizar altos niveles de calidad de los
directivos y maestros, que no utilizan pruebas estandarizadas (por ejemplo, Finlandia, Singapur).
13
Vase el Goldring et al., 2015.
14
Vase Goldstein, 2010; Papey & Moore Johnson, 2012.
15
Vase Baker, Oluwole, & Green, 2013.
16
Darling-Hammond, Meyerson, LaPointe, & Orr, 2010; Goldhaber, 2013.