en lnea
Anestesiologa
E A N ES
NO D T ES
Mexicana de M
EX
ICA IO
L
Revista
O
IO
G
C
EG
AA
COL
.C.
ANT
GA
ES
LO
SO
IO
CI
ED ES
AD ST
MEXI NE
CANA DE A
ARTCULO DE REVISIN
Vol. 30. No. 3 Julio-Septiembre 2007
pp 158-164
Instrumentos de evaluacin
Dr. Alberto Javier Garca-Garro,* Cit. Gregorio Ramos-Ortega,**
Dr. Manuel Antonio Daz de Len-Ponce,*** T.R. Alfredo Olvera-Chvez****
SUMMARY
Two factors are important in the development of good tests: reliability and
validity. Generally speaking, more extensive tests are more reliable than
others, i.e., reliable tests will go on using scores as long as non reliable
tests exist. This way, the test is reliable. All tests are less-than-perfect
medigraphic.com
indicators of the qualities or abilities being measured. Errors may occur in all
test settings. Thus, a reliable test may also be defined as a test with a small
measurement standard error. Furthermore, test items are not easy to elab-
orate. Interdependent questions decrease the accuracy of a test, and hence
its validity. Most smart testers are aware that categorical answers are usu-
ally wrong. If only one answer is right and two others are equal, then these
two should be wrong; such items are relatively easy to elaborate, since they
are mere declarative statements. Concurrent and predictive validity: If a
new test is validated by comparison with an existing parameter, it has con-
current validity. Tests designed to predict their own results have predictive
validity. Total validity = content validity + criterion validity + construct validity.
Thus, the validity of a instrument for measurement is assessed based on
three types of evidence. Validity and reliability both measure a degree, not
an absolute value, i.e., a test may have a higher or lower degree of reliability
or validity.
Los instrumentos, como herramientas utilizadas para reco- Los debates de grupos focales son una tcnica de investiga-
lectar informacin nos ayudan a la medicin, la cual consti- cin cualitativa privilegiada en la investigacin de cien-
tuye una actividad presente en la prctica docente, sta a su cias sociohumanas. En grupos pequeos, puede ser domina-
vez nos aproxima al monitoreo y evaluacin del proceso do por una o dos personas, pero si el grupo es de ms de 10
educativo. Qu instrumentos y cules son las caractersti- 12 personas, su desarrollo puede ser difcil, por lo que es
cas para usarse en la recoleccin de datos con fines ms all recomendable efectuarse al menos dos debates de grupos
de la medicin, dando cuenta del monitoreo y la evalua- focales entre cada grupo participante(5).
cin?, Son las encuestas buenos instrumentos para tal fin?,
Sern mejor los debates de grupos focales? UBICACIN
EXAMEN
OTROS PUNTOS PARA DESARROLLAR
ENCUESTAS EFECTIVAS Por otra parte y particularizando la evaluacin, en este
caso del aprendizaje, entraremos en una dimensin esen-
Mantenerla bien centrada, corta, sencilla, clara, efectuar una cial del proceso de enseanza, aspecto de los ms polmi-
prueba preliminar y abordar la confidencialidad. cos y de mayor inters en la prctica educativa por su pa-
pel fundamental dirigido a mejorar la enseanza sin perder Proporcionan poca retroalimentacin cualitativa sobre
de vista que esta dimensin nos centra en el poder y el la situacin de enseanza.
control que el docente ejerce sobre el alumno al valorar Generan ansiedad en los alumnos (ansiedad de prue-
los conocimientos de habilidades y destrezas a los que han ba).
llegado como resultado del proceso docente, as como el La capacidad de lectura y adivinar son factores que dis-
proceso mismo de la construccin. El instrumento por ex- torsionan las calificaciones.
celencia empleado es sin duda el examen, el cual es resul- Es preciso determinar la complejidad de los objetivos a
tado de diversas concepciones sobre el aprendizaje y no el evaluar (a mayor cantidad y complejidad de objetivos
motor que lo transforma(6). ms reactivos).
Elaborar exmenes entraa una slida formacin docen- Es menester identificar el tiempo disponible para su res-
te-investigador expresados en su propuesta tcnica, que d puesta, por lo general se dispone de un tiempo predeter-
cuenta de cmo elaborar exmenes, su manejo estadstico minado para la aplicacin de la prueba.
de datos, su construccin de reactivos objetivos, entre otros.
Aun as hemos de considerar que dentro de las tcnicas for- A continuacin se presentan los conceptos, usos y apli-
males de la evaluacin, estos son los instrumentos de uso cacin, as como las recomendaciones especficas para la
ms generalizado, por lo que es preciso considerar al menos elaboracin de diferentes tipos de reactivos a incluir en una
que su intencin es lograr una evaluacin objetiva, libre de prueba objetiva.
interpretaciones idiosincrsicas al establecer juicios sobre
los aprendizajes de los alumnos. REACTIVOS DE OPCIN MLTIPLE
Las pruebas objetivas se caracterizan por estar cons-
truidas a base de reactivos cuya respuesta no deja lugar a Los reactivos de opcin mltiple estn constituidos en su
dudas respecto a su correccin o incorreccin, trabajan- forma clsica, por un enunciado incompleto o una pregunta
do el estudiante sobre una situacin estructurada a la que (encabezado, tallo, tronco o base) en el que se plantea el
no aporta ms que respuestas concretas; este tipo de prue- problema a resolver y varias posibles respuestas (opciones o
ba es posible emplearla con fines selectivos, diagnsti- alternativas) una de las cuales es la correcta y las otras inco-
cos, formativos, sumativos o de certificacin, lo cual ya rrectas (distractores).
impone ciertas modalidades segn el propsito para el Los aprendizajes que se pueden medir con los reactivos
que va a ser empleada. de opcin mltiple se relacionan con contenidos declarati-
El nivel de estructuracin de los reactivos influye de vos (datos, hechos, conceptos y principios) en las catego-
manera importante en el tipo de procesos cognoscitivos y ras de conocimiento, comprensin, aplicacin y anlisis de
de aprendizaje significativo que logran los alumnos. la taxonoma de Bloom.
Un reactivo til y valioso, combina su correcta construc- Los reactivos no son fciles de estructurar. La habilidad
cin, la relacin con los logros que se busca medir y su y experiencia en la redaccin son importantes. Cuando se
integracin equilibrada al resto de reactivos incluidos en emplea un nmero reducido de opciones; el reactivo dismi-
una prueba. Un buen reactivo se caracteriza por su validez nuye su valor de medicin.
de contenido; es decir su contenido corresponde al objetivo
de aprendizaje para el cual fue elaborado(7). Cada reactivo debe ser independiente de los otros. Los
En general este tipo de pruebas objetivas tienen alguna reactivos interdependientes disminuyen la exactitud de
caracterstica que no necesariamente se traducen en fortale- una prueba y por tanto su validez.
zas del mismo, a pesar de ello sealamos a continuacin: Si todas las opciones son homogneas respecto al tpico
(tema) abordado en el tallo, sern ms razonables.
Son ms fciles de contestar que los de tipo ensayo. La longitud de las opciones no debe dar la clave de la
Los de opcin mltiple permiten la medicin en grandes respuesta.
grupos, ya que son relativamente fciles de calificar al Al construir la prueba, se debe evitar que un reactivo
medigraphic.com
cotejar con la respuesta tipo (plantilla de respuestas).
Gran parte de los reactivos pueden responderse por me-
contenga la respuesta de otros.
El tallo debe ser claro, simple y presentar slo un pro-
dio de aprendizajes memorsticos o aprendizajes poco blema.
significativos. La mayora de los aplicadores inteligentes de pruebas
Adecuados para medir los resultados en los niveles de saben que las respuestas categricas por lo general son
aprendizaje de conocimiento, comprensin y aplicacin; errneas.
inadecuados para organizar y expresar ideas. Si slo una respuesta puede ser correcta y dos son igua-
No son vlidos para explorar destrezas y actitudes. les, entonces estas dos deben ser incorrectas.
Se deben evitar asociaciones verbales entre la base y la de una persona; una prueba slo es una muestra pequea de la
respuesta correcta. conducta. En el desarrollo de buenas pruebas son importan-
tes dos factores: la confiabilidad y la validez, atributos del
REACTIVOS DE RESPUESTA ALTERNA instrumento a considerar antes de interpretar las calificacio-
(ALTERNATIVAS CONSTANTES) nes obtenidas tras la aplicacin de los instrumentos(8,9).
A fin de perfeccionar la evaluacin de test psicolgicos,
Este tipo de reactivos se caracterizan por limitar la respuesta Cronbach (1951) introdujo en la evaluacin dos elementos
a una de dos opciones o alternativas (verdadero falso; s a considerar en la confiabilidad de los instrumentos: 1) equi-
no; nunca siempre; correcto incorrecto; o respues- valencia confiabilidad interna o consistencia interna) y 2)
tas similares) para calificar una aseveracin o enunciado. estabilidad (confiabilidad externa).
Son reactivos relativamente fciles de construir, pues son Ambos elementos confieren cierto grado de precisin de
simples enunciados declarativos. la prueba.
El nmero de respuestas calificables por cada mil pala-
bras de examen o por cada minuto que ste dure es conside- MTODOS Y CLCULO DE LA CONFIABILIDAD
rablemente superior al nmero de respuestas calificables en
un examen de seleccin mltiple y probablemente muy su- Existen diversos mtodos y procedimientos para medir la
perior a muchos otros tipos de examen. confiabilidad de los instrumentos. En general los coeficien-
Los reactivos buscan comprobar el conocimiento, por lo tes de confiabilidad aceptables para pruebas de rendimien-
que se debe: to escolar se encuentran entre .60 y .80.
Procurar construir reactivos que requieran slo una res- CONFIABILIDAD INTERNA
puesta correcta.
Evitar la utilizacin de palabras que descubran la res- 1) Mtodo de la divisin por pares o mtodo de mitades
puesta. partidas (split-halves).
Omitir ms de tres palabras en un solo enunciado, omita En este mtodo se requiere slo una aplicacin de la
slo palabras o datos claves. medicin. Especficamente la prueba se aplica a un grupo
Si la respuesta es numrica, indicar las unidades en que de sujetos y ms tarde el conjunto total de reactivos es divi-
debe ser expresada. dido en dos mitades. Si la prueba es confiable, entonces las
Proporcionar instrucciones claras y especficas sobre la puntuaciones de las personas en cada mitad deberan ser
forma de responder(7). similares y el grado de similitud se evala utilizando la
correlacin. La forma ms efectiva para mejorar la confiabi-
REACTIVOS DE RESPUESTA BREVE O SIMPLE lidad es agregar ms conceptos a una prueba. Si hablamos
en forma general, las pruebas ms extensas son ms confia-
Son enunciados interrogativos que deben ser respondidos a bles que otras.
travs de una palabra, frase o enunciado corto. Consiste en tomar a cada uno de los reactivos como uni-
Este tipo de reactivos se recomienda para medir conoci- dad y compararlo con el resto de los reactivos que integran
mientos de asociaciones. No son adecuados para medir re- la prueba, esto nos va a proporcionar informacin sobre la
sultados complejos como comprensin, aplicacin, anlisis consistencia interna de la prueba(10,11).
y organizacin.
ANLISIS DE REACTIVO
RECOMENDAMOS PARA SU ELABORACIN
Los reactivos producirn mayor confiabilidad en un cues-
Asegurarse que la pregunta plantea un problema concreto. tionario si discriminan bien entre los individuos. Hay dos
Los grupos de respuestas y sus relaciones deben ser del mtodos comunes para verificar el poder de discriminacin
mismo tipo y naturaleza.
Elaborar columnas claras y ordenadas.
medigraphic.com de los reactivos. Para cada reactivo en la prueba o cuestio-
nario, se calcula la correlacin entre la puntuacin de cada
persona en el reactivo y su puntuacin en la prueba como
VALIDACIN DE LOS INSTRUMENTOS un todo.
Despus se totalizan las puntuaciones de estos dos gru-
Uno de los problemas ms comunes con el uso de las pruebas pos de personas para cada reactivo en la prueba. Esto es, la
es la interpretacin errnea de las calificaciones. Ninguna prueba de confiabilidad contina utilizando puntuaciones
prueba proporciona una imagen perfecta de las habilidades en tanto existan pruebas no confiables.
Si una prueba es lo suficientemente confiable, la pregunta Validez total = validez de contenido + validez de crite-
siguiente es qu tan vlida es?, o en forma ms exacta, si los rio + validez de constructo;
juicios y decisiones que se basan en la prueba son vlidos.
Para tener validez, las decisiones e inferencias que se ba- as, la validez de un instrumento de medicin se evala
san en la prueba deben tener respaldo por evidencia. Se habla sobre la base de tres tipos de evidencia. Entre mayor evidencia
de validez de una prueba al grado en que mide el atributo o de validez de contenido, validez de criterio y validez de cons-
caracterstica para la cual fue elaborada; as una prueba es tructo tenga un instrumento de medicin ste se acerca ms a
vlida si realmente mide lo que se supone debe medir(13,14,18). representar lo que pretende medir; y an surgen nuevas pre-
Una prueba sobre conocimientos de historia debe medir guntas acerca de la validez. Cules son las consecuencias de
medigraphic.com
esto y no conocimientos de literatura histrica. utilizar un planteamiento de evaluacin particular para la en-
seanza y el aprendizaje? Sam Messic (1975) formul dos pre-
EVIDENCIAS RELACIONADAS CON LA VALIDEZ guntas importantes que deben considerarse al tomar cualquier
DE CONTENIDO decisin sobre el uso de una prueba: La prueba es una buena
medida de la caracterstica que se supone debe evaluar? Se
Una prueba tiene validez de contenido si est hecha con debe utilizar la prueba para los fines propuestos? La primera
una muestra representativa de los objetivos y contenidos pregunta se asocia con la validez del constructo; la segunda se
abordados. refiere a la tica y los valores (Moss, 1992).
Algunos factores pueden interferir en la validez de las Asegrese de que sus alumnos sepan cmo utilizar todos
pruebas que se aplican en las situaciones de un saln de los materiales de la prueba
clases, las pruebas de rendimiento estandarizadas deben se- Ejemplos:
leccionarse de modo que los incisos en la prueba midan los
conocimientos adquiridos en las clases; as mismo, los estu- 1. Siga las instrucciones para administrar la prueba con exac-
diantes deben contar con las habilidades necesarias para titud.
presentar la prueba. Si los estudiantes obtienen calificacio- 2. Asegrese de que los estudiantes estn tan cmodos como
nes bajas en una prueba de ciencias no por su falta de cono- sea posible durante la prueba.
cimientos sobre las ciencias, sino porque tienen dificulta- 3. Recuerde que ninguna calificacin en las pruebas es per-
des para leer las preguntas, no comprenden las instrucciones fecta.
o no tienen tiempo suficiente para terminar, entonces la prue-
ba no es una medida vlida del rendimiento en ciencias de EVALUACIN POR NORMAS O POR CRITERIOS
esos estudiantes.
Las pruebas, cuestionarios, guas de observacin, listas Los mtodos de evaluacin deben ser los ms adecuados
de cotejo y escalas evaluativas son slo algunos ejemplos para evaluar integralmente. De lo antes dicho, debe ser evi-
de instrumentos de medicin, los cuales requieren de un dente el contraste entre evaluacin basada en competencias
procedimiento especfico para su elaboracin. y la evaluacin tradicional por norma. Mientras que la eva-
La validez y la confiabilidad son medidas de grado, por luacin basada en competencias evala el desempeo de un
lo cual se entiende que una prueba puede tener mayor o individuo a partir de criterios preestablecidos, la evalua-
menor grado de confiabilidad o validez. cin por norma se encarga de comparar el desempeo de un
Una prueba debe ser confiable a fin de ser vlida. Sin individuo con el desempeo del grupo; no obstante, los
embargo, la confiabilidad no garantizar validez; una prue- mtodos que se utilizan para realizar una evaluacin basada
ba puede ser confiable pero no vlida; mas una prueba que en normas son similares a los mtodos tradicionales.
es vlida necesariamente tiene que ser confiable. Los si- Los enfoques integrados buscan combinar conocimien-
guientes lineamientos podran ayudarle a incrementar la to, comprensin solucin de problemas, habilidades tcni-
confiabilidad y validez de las pruebas estandarizadas. cas, actitudes y valores en la evaluacin:
Asegrese de que la prueba en realidad cubra el conteni-
do de la unidad de estudio: Estar orientada al problema.
Ser interdisciplinaria.
1. Compare las preguntas de la prueba con los objetivos del Considerar la prctica.
curso. Cubrir grupos de competencias.
2. Una matriz de contenido de la conducta podra ser til en Demandar habilidades analticas.
este caso. Combinar la teora y la prctica.
3. Utilice las pruebas de rendimiento y normas locales siem-
pre que sea posible. En el contexto de medicina, los mtodos que incluyen
4. Sus alumnos experimentan alguna dificultad con la prue- ms niveles de evaluacin integrada que los exmenes for-
ba como no tener tiempo suficiente, el nivel de lectura y males son: Problemas con el manejo del paciente por ejem-
dems? De ser as, analice estos problemas con personal plo: simulaciones escritas sobre problemas del paciente (caso
idneo de la escuela. clnico).
REFERENCIAS
1.
medigraphic.com
Almeida N. Desarrollo de instrumentos en la investigacin epide-
miolgica. En: Epidemiologa sin nmeros. Washington, D.C.:
5. Garca CF. La medicin y evaluacin educativa. En: Lifshitz A,
Editor. Educacin Mdica. Enseanza y aprendizaje de la clni-
Organizacin Panamericana de la Salud; 1992:43-57. ca. Mxico: Auroch; 1997:168-9.
2. Bedolla G. Cmo estimar e interpretar y mejorar la confiabilidad 6. Daz BA. El problema de la teora de la evaluacin y cuantifica-
de una evaluacin. Monterrey, Mxico: UDME; 1983:9-10. cin del aprendizaje. En: Daz Barriga, A. (compilador) El exa-
3. Davey DD, McGoogan E, Somrak MT, et al. Competency asses- men. Textos para su historia y debate. Mxico, CESU/UNAM/
sment and proficiency testing. Act Cytol 2000;44:939-43. Plaza y Valds Editores 2000:304-314.
4. Donaj RC, Espinosa AP. Competencia clnica en hipertensin 7. Rojas MI. La educacin basada en normas de competencia
arterial sistmica de alumnos de pregrado de dos escuelas de (EBNC) como nuevo modelo de formacin profesional en
medicina. Rev Invest Clin 2000;52:132-9. Mxico. En: Valle Flores, MA (Coordinadora). Formacin en
medigraphic.com