Notas de autor:
1
Elaborar una síntesis detallada del capítulo 5, donde además incluya un mapa conceptual
del mismo
CONFIABILIDAD Y VALIDEZ
Una estadística útil para describir fuentes de variabilidad es las puntuaciones de una prueba
es la varianza, y la desviación estándar al cuadrado. La varianza puede ser fragmentada en
componentes, por lo tanto existen la varianza verdadera y la varianza de fuentes aleatorias
irrelevantes de decir, la varianza de error.
2
crédito y a cuales no, lo que deja un margen bastante amplio en la varianza de error y la
confiabilidad de los reactivos respecto a la percepción o decisión del evaluador. Ya que las
personas que califican y los sistemas de calificación son fuentes potenciales de la varianza
de error.
Se puede obtener un estimado de la confiabilidad de una prueba sin elaborar una forma
alterna de la misma y sin tener que administrarla dos veces a las mismas personas. La
derivación de este tipo de estimado implica una evaluación de la consistía interna de las
preguntas de la prueba. De manera lógica, se le conoce como una estimación de la
confiabilidad de la consistencia interna o como una estimación de la consiste entre reactivos.
Validez de contenido
Se refiere a que tan representativas son las preguntas de una prueba con respecto al universo
de preguntas que podrían hacerse sobre el tema. La v. de c. se basa necesariamente en el
criterio
Validez de contenido: juicio lógico sobre la correspondencia que existe entre el rasgo del
aprendizaje del evaluado y lo que se incluye en la prueba, recurriendo a expertos para valorar
la adecuación de cada ítem al rasgo a evaluar.
b. Validez de criterio: eficacia de la prueba para comparar un rasgo en cuestión con alguna o
algunas variables externas, midiéndola a través de análisis correlacional o de regresión entre
las puntuaciones obtenidas en la prueba y en otras basadas en el criterio.
3
c. Validez de constructor: basada en la integración de cualquier evidencia que fundamenta la
interpretación o significado de las puntuaciones de la prueba o test, medida a través del
análisis correlacional y de covarianza interítem.
Estas categorías, establecidas por la APA, fueron resumidas en 1985 a partir de cinco tipos
de validez señalados por esta misma Asociación en 1954 (validez de contenido, validez de
criterio, validez predictiva, validez concurrente y validez de constructor); apuntando hacia la
concepción única de validez, referida a la pertinencia, significado y utilidad de las inferencias
específicas derivadas de las pruebas o tests, coincidiendo, desde este punto vista, con
Anastasi en 1982 y con Cronbach en 1984. Cronbach (1988), con la idea de que el argumento
debe unir la evidencia de los conceptos, las consecuencias sociales y personales, y los valores,
añade:
El fondo del asunto es que los que validan tienen la obligación de revisar cuándo una práctica
tiene consecuencias apropiadas para los individuos y las instituciones, y especialmente
prevenir las consecuencias adversas. Usted (….) pudiera excluir la reflexión sobre las
consecuencias a partir de los significados de la palabra validación, pero no puede negar la
obligación de hacerlo.
Ahora, al tomar en consideración la pertinencia, el significado y la utilidad de las inferencias
específicas derivadas de las pruebas o tests, conjuntamente con las consecuencias sociales y
personales, y los valores, se pudiera pensar más bien en unificar las tres categorías de validez
en una sola: la de constructor; debido a que las otras dos categorías también contribuyen al
significado de las puntuaciones de la prueba o reconociéndolas así como aspectos de la
validez de constructor (Messick, 1989: 20). De esta manera, la validez de constructor estaría
conformada por tres componentes: (a) componente sustantivo (confrontación entre la
relevancia del juicio de contenido y la representatividad, por un lado, y la consistencia de la
respuesta empírica, por el otro); (b) componente estructural (conjugación de la fidelidad del
modelo para calificar las características estructurales de las manifestaciones del constructor
y el grado de la estructura interítem); y (c) componente externo (grado de la relación empírica
entre la prueba o test con otras pruebas que reflejen las esperadas relaciones implícitas en la
teoría del constructor que se evalúa).
La validez de constructor, sin embargo, debe tomar en consideración el uso contextual de la
prueba o test y cómo se generan las puntuaciones de la misma. Cronbach (1988) señala que
"los argumentos para usar la prueba deben estar claros para extender, de manera persuasiva
y posible, la construcción de la realidad y el peso valorativo implícito, y sus aplicaciones".
Para recoger información de la validez de constructor, necesaria para justificar la
interpretación de la prueba, los datos deben surgir, inicialmente, de la administración y
desarrollo de la prueba, para continuar con aquéllos obtenidos más allá del análisis de las
puntuaciones, estableciendo así un proceso de búsqueda amplia y minuciosa.
Por su parte, las puntuaciones de la prueba pudieran llevar a emitir juicios erróneos del
evaluador sobre el evaluado, al no considerar otros aspectos de tipo humano, social o cultural
referidos al evaluado y, además, la información susceptible de ser medida limita su
existencia, dejando afuera otros aspectos que pudieran ser de significativa importancia para
validar el juicio. Al respecto Messick (1989) señala lo siguiente:
Validez interna: concebida como la mínima imprescindible sin la cual es imposible
interpretar alguna evaluación. Algunas variables externas que pueden generar efectos que se
confundirían con el del estímulo del aprendizaje son: (a) la historia (acontecimientos
específicos ocurridos entre mediciones sucesivas para evaluar el logro de un objetivo
instruccional); (b) la maduración (procesos internos del evaluado como cansancio,
4
desmotivación, desinterés, etcétera); (c) la administración de tests (influjo que la
administración de una prueba o test ejerce sobre los resultados de otro posterior); (d) la
instrumentación (cambios en los instrumentos de medición o en los evaluadores que pueden
producir variaciones en las mediciones que se obtengan); (e) la mortalidad (diferencia en la
pérdida de evaluadores).
b. Validez externa: la cual plantea la interrogante sobre la posibilidad de generalización. Los
factores que amenazan esta validez son: (a) el efecto reactivo o de interacción de las pruebas
o tests (aumento o disminución de la sensibilidad o la calidad de la reacción del evaluado al
estímulo de un aprendizaje); (b) el efecto de interacción (sesgo de selección de técnicas e
instrumentos de evaluación y el tipo específico de aprendizaje); (c) efectos reactivos de la
evaluación (impedimentos para hacer extensiva las técnicas e instrumentos para evaluar un
aprendizaje en otros aprendizajes); y (d) las interferencias de las evaluaciones múltiples
(efectos que se producen cuando al evaluado le aplican evaluaciones múltiples y sucesivas,
persistiendo aquéllos de procesos y resultados de evaluaciones anteriores).
Validez Cualitativa
La validez, bajo el enfoque cualitativo, concierne a la exactitud con que las conclusiones
representen efectivamente la realidad empírica y si los constructor diseñados representan
categorías reales de la experiencia humana (Hansen, citado en Pérez, 1994: 80).
CONFIABILIDAD Y
VALIDEZ
7* Describa tres tipos de confiabilidad y tres tipos de validez. ¿Para qué tipos de pruebas y
situaciones es más apropiado cada tipo de validez y confiabilidad
1. Validez de constructo
Este tipo de validez se refiere a la exactitud con la que el instrumento de medida mide lo
que en principio se propone medir. Dicho de otro modo, valora en qué medida las
respuestas o resultados del método de evaluación empleado tienen un significado concreto,
existiendo relación entre lo observado y el constructo de interés.
2. Validez de contenido
Es el grado en que un instrumento de medida contiene ítems representativos del constructo
o contenido que pretende evaluarse. Se valoran que se incluyan en los elementos que
forman parte de la medición aspectos de interés que representen el atributo a evaluar.
Dentro de ella pueden valorarse dos grandes tipos de validez.
3. Validez aparente
Aunque no es verdaderamente un tipo de validez, hace referencia al grado en que un test
aparenta valorar un determinado atributo. Dicho de otro modo, es la apariencia de validez
que puede dar un instrumento a quien lo mire, sin ningún tipo de análisis. No tiene
significación real.
Confiabilidad
a. Estabilidad temporal o coeficiente de estabilidad
Cada una de ellas se calcula teniendo un objetivo en mente. Por ejemplo, la estabilidad
temporal indica el grado en el que las calificaciones de una prueba se ven modificadas por
fluctuaciones aleatorias diarias en la condición del sujeto o en el ambiente de prueba. Esta
estabilidad depende en parte de la longitud del intervalo en el que se mantiene, y es
indispensable establecerla, si el objetivo del investigador es medir cambios a lo largo del
tiempo. Es decir, asegurar que, si se presentan cambios en la variable de interés, se debieron
6
al paso del tiempo (por ejemplo, la hora del día o debido al desarrollo) y no al instrumento
de medición. En este caso, los mismos sujetos responden a dos administraciones diferentes
de la misma prueba, y se espera que la variable no cambie con el transcurso del tiempo, la
correlación entre los puntajes obtenidos tendrá que ser alta.
Las formas paralelas o equivalentes, representan otro tipo de confiabilidad que se requiere
cuando se espera que una situación (experimental o cotidiana), modifique la variable de
interés, en un lapso muy corto, que no permitiría aplicar el mismo instrumento, pues los
sujetos podrían recordar las respuestas dadas con anterioridad y/o contestar diferente por
creer que es lo que se espera de ellos, o contestar de manera muy semejante a como lo
hicieron con anterioridad, porque recuerdan las respuestas dadas en la primera ocasión. En
este caso, se necesitan dos versiones del instrumento, que midan lo mismo, pero con
diferentes reactivos, estímulos o preguntas. Al coeficiente que se calcula para determinar la
medida en que se mide los mismo con ambas versiones, se denomina coeficiente de
equivalencia.
7
BIBLIOGRAFIA
https://201915.aulasuniminuto.edu.co/pluginfile.php/1542732/mod_resource/content/1/tests
_psicologicos_y_evaluacion1.pdf
Capitulo 5 viabilidad y validez