CONFIABILIDAD Y VALIDEZ
Jorge Manzi
2013
LA EDUMETRA VS LA PSICOMETRA
Normal
Esperada
0.03
0.02
0.01
0
Interpretacin de resultados
con respecto a un grupo de
referencia.
Interpretacin de resultados
con respecto a criterios o
estndares.
Congruencia y cobertura
curricular difusa, rango de
conocimientos, destrezas
amplio.
Congruencia y cobertura
curricular alta, rango de
conocimientos, destrezas
claramente especificado.
6
Sobre omisin:
Las omisiones deben ser mayores en el grupo no instruido (o pretest)
que en el grupo instruido o (postest).
11
1.
2.
3.
4.
5.
Sector de aprendizaje.
Subsector: subconjunto del sector.
Objetivo o aprendizaje esperado.
Tipo de item.
Atributos del enunciado y de los
distractores.
6. Ejemplo de item.
12
13
Conocimiento
factual
Conocimiento
conceptual
Conocimiento
procedimental
Conocimiento
Metacognitivo
14
15
17
19
21
Conocimiento
factual
Conocimiento
conceptual
Conocimiento
procedimental
Conocimiento
Metacognitivo
X
25
Tipos de modelos
Modelos continuos
Modelos de estado
26
Modelos continuos
Conjunto (relativamente homogneo) de
destrezas, habilidades referidas a un mismo
dominio de aprendizaje, distribuido en forma
continua.
No dominio
Dominio
27
Modelos continuos
En el extremo superior de este continuo se
identifica un segmento en el que se ubican los
individuos que poseen dominio y que
constituye una categora de logros de
aprendizaje. El puntaje de corte delimita a
este segmento.
No dominio
Dominio
Puntaje de corte
28
Modelos continuos
En algunos modelos es posible identificar una zona
intermedia de dominio parcial.
El objetivo de la medicin es obtener informacin
para tomar decisiones educacionales; en particular,
sobre las acciones que siguen a la medicin.
El puntaje de corte representa un criterio para
interpretar el logro de aprendizajes de un alumno.
29
Modelos de estado
Consideran el dominio o logro de aprendizaje
como un estado dicotmico.
El puntaje de corte debiera proporcionar una
clasificacin con un mnimo de error.
Por lo tanto, en ambas familias de modelos la
determinacin del puntaje de corte es
fundamental.
30
Determinacin de estndares
Estndares de Desempeo
y Puntos de Corte
Estndares de Desempeo: Descripcin escrita del nivel de
conocimientos, habilidades o actitudes que los estudiantes
deben mostrar para cumplir con un determinado nivel de
rendimiento (p.ej., insatisfactorio, bsico, competente,
destacado).
Advertencias
Los Estndares (normas, puntos de corte) son
siempre parcialmente subjetivos.
En consecuencia: Diferentes jueces pueden
establecer distintos puntos de corte empleando el
mismo mtodo.
Se debe poner cuidado en basar los puntos de
corten en mtodos acadmica y profesionalmente
establecidos, de manera de acotar el grado de
subjetividad.
Consistencia
Robustez
Invarianza cuando hay cambios en el las condiciones o materiales
usados, etc. (p. ej.: seleccin de itemes)
Factibilidad
Puntajes de corte
Cualquiera sea el mtodo para determinar
el puntaje de corte, existe la posibilidad de
dos tipos de decisiones errneas:
Un alumno que no haya logrado los
aprendizaje puede obtener un puntaje
superior al de corte y,
un alumno que haya logrado los aprendizajes
puede obtener un puntaje inferior al del
puntaje de corte
35
Por debajo
Por encima
No Domina
Decisin
correcta
Error
(Falso
positivo)
Domina
Error
(falso
negativo)
Decisin
correcta
36
Definicin de propsitos
Seleccin de participantes
Entrenamiento de participantes
Definicin de Estndares de Rendimiento
Procedimientos de Recoleccin de Datos
Procedimientos para validacin (interna
externa)
Principales Mtodos
Mtodos basados en Tests
basados en el contenido de los indicadores (suponen el
juicio de expertos. Ej.: Angoff, Nedelsky, Jaeger, y Ebel);
Generalmente son ms apropiados para pruebas breves y
de seleccin mltiple.
Estudiante limtrofe
Muchos mtodos de Estndar Setting emplean el
concepto de estudiante/examinado/candidato
limtrofe, tambin denominado:
Candidato Mnimamente Competente
Candidato Apenas Certificado
Mtodos Clsicos
Desarrollados principalmente para pruebas que miden
conocimiento.
Rbricas de puntuacin dicotmicas (p.ej.: seleccin
mltiple)
Pruebas tpicamente unidimensionales.
Itemes independientes.
Alta generalizabilidad de los puntajes (buen rendimiento
en algunos itemes implica buen rendimiento en otros).
Ebel
Mtodo de Angoff
.%
.%
.%
.%
.%
.%
.%
.%
.%
S u m: .
s
i
Mtodo de Angoff
Item
1
2
3
4
5
Punto de corte
1
0.70
0.90
0.80
0.70
0.80
3.90
Juez
2
0.60
0.50
0.50
0.80
0.80
3.20
3
0.70
0.80
0.60
0.60
0.70
3.40
Promedio
0.67
0.73
0.63
0.70
0.77
3.50
Mtodos Modernos
Evaluaciones de rendimiento complejas.
I34
I15
I4
I21
I19
I11
I9
I18
I25
Ms Fciles
I30
Bookmark: Ronda 1
Los participantes revisan, en forma personal, el cuadernillo con los
itemes previamente ordenados segn su grado de dificultad. Se les
pide que al analizar cada item respondan dos preguntas:
qu conocimientos, habilidades y destrezas deben ser aplicados
correctamente para responder un item dado?
qu hace a cada item progresivamente ms difcil que el anterior?
En esta etapa se evita que los participantes discutan los itemes en
trminos de qu contenido debe ser dominado en cada nivel de
desempeo (esto es propio de la 2 y 3 ronda). Con ello se pretende
evitar que los juicios personales se contaminen con las opiniones de
los otros o con la de algn miembro del grupo cuya opinin sea
dominante.
Al trmino de esta fase, los participantes expresan su juicio sobre los
puntos de corte, poniendo una seal o marca entre los temes que
representan el punto de corte
Bookmark: Ronda 2
En esta fase, se realiza la discusin en grupos pequeos. En esta fase,
el encargado de grupo solicita a cada participante que exponga y
justifique los puntos de corte establecidos en la primera ronda.
Mientras, el encargado del grupo anota esta informacin en una
pizarra, de manera que todos puedan ver los puntos de corte de los
otros. En este momento se discute qu tipo de contenidos debe
dominar un profesor en cada una de las categoras de desempeo,
identificando as, qu preguntas resultan crticas para situar a un sujeto
dentro de un determinado nivel de logro.
Luego de esta discusin, se les pide a los participantes que vuelvan a
establecer sus puntos de corte, y si luego de esta segunda ronda no
hay consenso, se calcula la mediana entre los puntos de corte
propuestos (analizando el rango entre el cul se sita el punto de
corte).
Bookmark: Ronda 3
Se inicia con la presentacin de los resultados de la ronda
anterior en plenario. Las personas a cargo del proceso
muestran los porcentajes de docentes que clasifican en
cada categora de desempeo, segn los puntos de corte
sugeridos en la ronda anterior. En esta etapa se intenta
promover el consenso del plenario, pidiendo a un
representante de cada grupo que explique y justifique las
decisiones del grupo. Si el consenso no se produce, se
hace una votacin final de los panelistas. Finalmente, se
tabulaban los juicios, se calculan las medianas y se
presentan los puntos de corte finales y el impacto
estimado.
10/8/2013
Grado de Dificultad
Capacidad Discriminativa
Omisin
Distractores
Sesgo de itemes / DIF
10/8/2013
Grado de Dificultad
Porcentaje de respuesta correcta
Porcentaje ajustado de respuestas correctas
(considerando respuestas correctas al azar)
El rango de grado de dificultad deseable depende de la
naturaleza y uso de la prueba (por ejemplo, temes de
mayor grado de dificultad son deseables en pruebas de
seleccin).
Lo usual es, en todo caso, excluir temes muy fciles o
muy difciles.
El grado de dificultad es dependiente de la distribucin
de habilidades de la muestra en que se estima.
10/8/2013
Capacidad discriminativa
Corresponde al grado en que cada pregunta del
test permite diferenciar (discriminar) entre
examinados con mayor o menor grado de
habilidad.
Se puede establecer con respecto a un criterio
externo (otro instrumento) o interno (puntaje
total en el test)
El primer caso maximiza la validez del instrumento
El segundo maximiza la consistencia interna
Tcnicas
Correlacin biserial
Correlacin biserial-puntual (cuyo valor mximo depende del
grado de dificultad)
10/8/2013
Omisin
Se analiza el porcentaje de casos que deja la pregunta sin
responder, tratando de establecer las razones de la omisin.
Considerar las instrucciones antes de resolver el grado de omisin
tolerable. Mayor grado de omisin es esperable cuando se
penalizan respuestas incorrectas.
Comparar el patrn de omisiones entre grupos de alta y baja
habilidad.
Si la omisin es equivale entre ambos grupos, se puede sospechar
ambigedad en el item (descartar)
Si la omisin es mayor en el grupo de menor habilidad, la omisin
reflejara el grado de dificultad del item (conservar el item)
Distractores
Se refiere a la distribucin de las respuestas entre las
opciones incorrectas.
Criterios para seleccionar itemes segn la
distribucin de respuestas entre los distractores:
Que ningn distractor presente proporciones demasiado
bajas de frecuencia (salvo en itemes muy fciles).
Que presenten una distribucin relativamente
homognea
Que todos presenten una correlacin nula o negativa
con el puntaje total
Que la media de quienes los eligen sea inferior a la
media de quienes eligen la opcin correcta
Sesgo de item
Un item es sesgado cuando antecedentes
ajenos a la habilidad de los examinados
inciden en el desempeo en los itemes.
Los antecedentes ms estudiados han sido la
pertenencia a grupos (segn gnero, origen
social o tnico).
rbis
> 0.4
0.3 a o.4
0.2 a 0.3
0.1 a 0.2
0 a 0.1
10/8/2013
0a
0.1
0.1 a
0.2
0.2 a
0.4
0.4 a
0.6
0.6 a
0.8
0.8 a
0.9
0.9 a
1.0
i12
12: * is keyed
A*
Responses
34.5%
10.3%
17.0%
7.5%
6.3%
24.4%
0.0%
Upper 27%
56.7%
5.5%
15.6%
2.3%
4.5%
15.3%
0.0%
Lower 27%
15.3%
12.5%
15.4%
11.9%
9.8%
34.9%
0.0%
35.074
38.773
32.016
34.496
Point Bis
0.345
-0.091
-0.002
-0.139
-0.080
Biserial
0.445
-0.154
-0.003
-0.259
-0.158
Item-Total:
Omit Invalid
0.8
0.6
0.4
0.2
0
0
0.1
0.2
0.3
0.4
0.5
0.6
-0.2
Grado de Dificultad
0.7
0.8
0.9
i6
7
i7
0
i7
3
i7
6
i7
9
i3
7
i4
0
i4
3
i4
6
i4
9
i5
2
i5
5
i5
8
i6
1
i6
4
i2
2
i2
5
i2
8
i3
1
i3
4
i19
i16
i13
i10
i7
i4
i1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.8
0.7
Tasa de Omisin
0.6
0.5
0.4
0.3
0.2
0.1
0
0
0.1
0.2
0.3
0.4
0.5
0.6
Grado de Dificultad
0.7
0.8
0.9
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
Validez
Consistente (Confiable)
La visin de Messick:
Validity is not a property of the test or assessment
as such, but rather of the meaning of the test scores.
These scores are a function not only of the items or
stimulus conditions, but also of the persons
responding as well as the context of the assessment.
In particular, what needs to be valid is the meaning
or interpretation of the score; as well as any
implications for action that this meaning entails.
Messick, 1995
La revolucin en la validez:
la Validez de Constructo
La aparicin del concepto de Validez de Constructo en los
aos 50 transform radicalmente la visin tradicional.
La validez comenz a ser comprendida como un proceso de
acumulacin de evidencias en torno al significado de los puntajes de
un test.
La validacin debiera fundarse en los avances del conocimiento y las
teoras en torno a los constructos medidos
La validacin debiera entenderse como un proceso de contrastacin
de hiptesis
La validacin debiera recurrir a todas las metodologas cientficas
pertinentes (no experimentales y experimentales)
Los cambios de la
conceptualizacin de 1999
Desaparecen los tipos de validez
Se promueve la acumulacin de distinto tipo de
evidencias acerca de un test
Validity is the degree to which all of the accumulated evidence
supports the intended interpretation of the test scores for the
intended purposes.
AERA, APA, & NCME, 1999, p. 11
En consecuencia:
No validamos un test
Validamos el uso que se da a un test
La Validez depende del test, personas
evaluadas y las circunstancias en que se lleva a
cabo la medicin.
Por tanto, un test puede ser vlido para un grupo
o para un contexto determinado, pero invlido en
otros grupos o contextos.
Evidencia basada en
el contenido del test
Anlisis lgico y evaluacin experta acerca del contenido del
test. El juicio apunta a establecer si el contenido del test es
representativo del dominio al que apunta
temes
Tareas
Formatos
Fraseo
Procedimientos requeridos
Juicio basado en
Revisin de la literatura
Opinin de expertos
Evidencia basada en
procesos de respuesta
En qu medida las tareas o tipos de respuesta requeridas
activan procesos psicolgicos relacionados con el constructo
que se pretende medir
Evidencia:
Entrevista o cuestionarios a participantes, indagando su comprensin
de las preguntas estrategias empleadas, etc.
Observacin de examinados
Anlisis del sesgo de medicin
Evidencia basada en
la estructura interna del test
En qu medida los componentes de un test (itemes, tareas,
etc.) se relacionan en la forma esperada para el constructo
medido.
Por ejemplo, si una teora afirma que un constructo es
unidimensional, ello debiera verificarse en las interrelaciones
entre los componentes del test
Evidencias principales:
Anlisis factorial exploratorio de los itemes
Anlisis factorial confirmatorio de los itemes
Anlisis de la invarianza factorial entre grupos
Evidencia basada en
la relacin con otras variables
El grado en que un test se relaciona con diversas variables
aporta evidencia crucial para su validez
Evidencias principales:
Validez concurrente: correlacin con otros tests que miden el mismo
constructo
Validez convergente y discriminante: para verificar si correlaciona
segn lo esperado con constructos similares, y para demostrar que el
test no se asocia con constructos diferentes (evaluada principalmente
mediante matrices multirasgo-multimtodo)
Validez predictiva
Comparacin entre grupos
Estudios experimentales
Evidencia basada en
las consecuencias de un test
Anlisis de las consecuencias esperadas y no esperadas de las
mediciones. Esto es especialmente til para informar la validez
de las decisiones basadas en un test.
Especialmente til cuando se pueden identificar diferentes
consecuencias para diversos tipos de usuarios.
Esta evidencia sirve para verificar si se producen las
consecuencias positivas que normalmente han motivado la
creacin o aplicacin de un test
Evidencia:
Estudio de las consecuencias a partir de entrevistas, observaciones o registros
disponibles en bases de datos
Ao Ingreso
N carreras
Lenguaje
Matemtica
NEM
PSEL
2003 (PAA)
766
0.02
0.13
0.25
0.30
2004
777
0.08
0.29
0.27
0.39
2005
824
0.11
0.25
0.26
0.38
2006
851
0.10
0.24
0.24
0.36
2007
918
0.10
0.25
0.25
0.36
Resumen de Correlaciones
Factores Optativos
Carreras
Ciencias
Ciencias
Carreras
Historia
Historia
2003 (PCE)
93*
0,09
29**
0,01
2004
475
0,26
342
0,08
2005
508
0,27
430
0,08
2006
554
0,24
447
0,06
* PCE Biologa
** PCE Ciencias Sociales
SESGO DE MEDICIN
Caso 1:
Diferencias entre grupos, pero test no sesgado
alto
Criterio
Grupo de referencia
Grupo focal
bajo
bajo
alto
Predictor
Caso 2:
Diferencias entre grupos, test sesgado
Lnea de regresin comn
alto
Grupo focal
Criterio
Grupo de referencia
bajo
bajo
alto
Predictor
SAT-CR
SAT-M
SAT-W
NEM
Hombres
-.14
-.20
-.11
-.08
Mujeres
.12
.17
.10
.07
Blancos
.04
.05
.04
.06
Negros
-.30
-.26
-.26
-.32
Hispnicos
-.17
-.16
-.16
-.27
PSUM
0.15
0.11
0.10
0.10
0.10
0.09
0.10
0.05
0.00
2003
2004
2005
2006
2007
-0.05
-0.10
-0.09
-0.09
-0.09
-0.10
-0.15
Hombre
Mujer
-0.10
PSUL
0.15
0.10
0.09
0.06
0.07
0.07
0.07
0.05
0.00
2003
2004
2005
2006
2007
-0.05
-0.06
-0.10
-0.06
-0.08
-0.07
-0.15
Hombre
Mujer
-0.07
NEM
0.15
0.10
0.05
0.02
0.01
0.00 0.00
0.00
-0.01
-0.02
0.02
0.02
-0.02
-0.02
-0.05
2003
2004
2005
2006
-0.10
-0.15
Hombre
Mujer
2007
ESTNDARES DE MEDICIN