Anda di halaman 1dari 20

Confiabilidad

Es un atributo o propiedad de una prueba



Cuando hablando de confiabilidad nos referimos a:
Consistencia en la medicin
Replicabilidad
Fiabilidad

Se saca un coeficiente de confiabilidad/ndice de confianza Indica qu tanto
puede esperarse que varen las calificaciones, NO las razones de su variacin!

Vara entre 0 y 1, donde cero es que no hay confiabilidad. Es imposible obtener
confiabilidad de 1. Lo ideal es 1, o elevado mayor o igual a 0.70.
Niveles de confiabilidad
0 a 0.59 muy bajo o muy deficiente
0.6 a 0.69 baja a deficiente
0.7 a 0.79 moderada, adecuada
0.8 a 0.89 moderadamente alta o buena
0.9 a 0.99 alta o excelente
1 ideal
Coeficientes elevados a veces se pueden mejorar. Si mi instrumento tiene un
coeficiente de confiabilidad de 0.70, y otros instrumentos que miden lo mismo
tienen un ndice mayor a 0.80, el mo puede mejorar.
Ecuacin bsica
O = V + E
X = T + E
O (X) = Calificacin obtenida. Por ejemplo, 30 preguntas
correctas de 40.
V (T) = Calificacin real hipottica, es decir la puntuacin que
obtendra si se eliminaran todas las fuentes de inestabilidad.
E = Error de medicin, es decir la suma de todas las fuentes de
inestabilidad
Lo anterior es igual a
Sx
2
= St
2
+ Se
2
Sx = Varianza calificacin obtenida
St = Varianza calificacin real hipottica
Se = error de medicin
Lo que queremos es MAXIMIZAR la proporcin de la varianza total
que es varianza verdadera (St) y MINIMIZAR la proporcin de la
varianza total que es varianza de error (Se). Se maximiza
controlando fuentes de error.


Entonces
Rxx = (Sx
2
Se
2
)/Sx
2
Es decir: Rxx = St
2
/Sx
2
Donde Rxx es la confiabilidad de la prueba
Sabemos que Sx es la varianza de la calificacin obtenida. Si esa
varianza es muy grande, la confiabilidad va a disminuir. Por el
contrario, si la varianza es muy pequea, la confiabilidad
aumenta.

Tipos de errores
Sistemticos o constantes: Componente de la
puntuacin observada en la prueba que NO tiene
que ver con la capacidad, actitud o rasgo de quien
responde la prueba.
Ej. Una bscula mal calibrada siempre va a arrojar un
peso errado


Tipos de errores
No sistemticos: Tendencias que desplazan las puntuaciones en cierta direccin.
Ejemplos:
Diferencias en las puntuaciones o interpretaciones de un calificador a otro
Contenido de la prueba: 2 versiones de un exmen, la primera tiene 2 preguntas
sobre el teorma de Pitgoras y la otra solo una. Un alumno particularmente
sobresaliente en dicha teora probablemente punte ms alto en la primera versin
Variaciones en la forma de aplicacin, por ejemplo el tiempo, intrucciones la
temperatura del lugar, etc.
Condiciones personales, por ejemplo si la persona estaba enferma ese da, no
durmi, etc.

Error estndar de medicin EEM
Indice del grado en que las puntuaciones individuales varan a lo
largo de pruebas que se suponen paralelas
EEM=DE(1-r) donde r es el ndice de confiabilidad
Ejemplo: EEM=10(1-0.87) (Ya tengo desde antes el ndice
confiabilidad)
EEM=10*0.36=3.6 Error de medicin que se puede presentar
en donde la prueba sigue siendo confiable. Ese valor se suma y
se resta a la media de todos los datos y esto da el rango en que
pueden fluctuar los valores y la prueba sigue siendo confiable.

Error estndar de medicin EEM
Cuando la confiabilidad es igual a 1, el EEM tendr un valor
correspondiente a cero, no hay error.
Cuando la confiabilidad del test es igual a 0, el EEM equivale a la
desviacin estndar de las puntuaciones observadas, o sea toda
la variabilidad observada en las puntuaciones corresponder al
error. Lo ideal es que el EEM sea estrecho, no muy amplio.
El EEM tiene una relacin inversa con la confiabilidad. A mayor
nivel de confiabilidad, el EEM es menor, y viceversa.

Tipo de
confiabilidad
#
aplicaciones
# de
pruebas
Coeficiente
confiabilidad
Procedimiento
estadstico
Fuente de error
probable
Test re-test 2 1 Estabilidad Pearson Paso del tiempo
Formas
alternas
2 o 1 2 Equivalencia Pearson
Spearman-
Brown
Muestreo de
reactivos
Motivacin,
fatiga
Consistencia
interna
1 1 Homogeneidad Alpha de
Cronbach
Kuder
Richardson
(KR-20)
Muestreo de
reactivos
Heterogeneidad
del rea de
contenido
Por mitades 1 1 Homogeneidad Spearman-
Brown
Muestreo (Forma
en la que se
dividen los
reactivos)
Entre
evaluadores
1 1 Intraclase Pearson
Kappa
Yule
No acuerdo en el
criterio de
evaluacin
Confiabilidad TEST - RETEST
Medir lo mismo en dos puntos en el tiempo
Usar el mismo instrumento
Correlacionar pares de puntuaciones de las mismas personas en
dos aplicaciones diferentes de la misma prueba
Determina si una prueba mide de manera consistente de una
ocasin a otra.
Mientras ms alta la confiabilidad, los puntajes son menos
susceptibles a cambios en el ambiente

Confiabilidad TEST - RETEST
Apropiada cuando: pretende medir algo que es relativamente
estable a lo largo del tiempo. Existe efecto de olvido o practica
COEFICIENTE DE ESTABILIDAD
Influyen: el paso de tiempo (ojal ms o menos 2 semanas),
efecto de olvido o prctica, y la estabilidad de lo que estamos
midiendo
Confabilidad ENTRE EVALUADORES
Grado de acuerdo o consistencia que existe entre dos o mas
evaluadores (jueces o calificadores)
COEFICIENTE DE CORRELACION INTRACLASE CCI
Pearson / Kappa / Yule (los dos ltimos son ms tcnicos)
Influyen: los criterios de evaluacin de los calificadores
Confiabilidad FORMAS ALTERNAS
Se aplican al mismo grupo.
Dos versiones de una prueba (aplicacin de dos pruebas que
deben ser similares y en teora miden lo mismo).
Orden de aplicacin puede influir en la fatiga o motivacin.
Mide el grado de relacin entre varias formas de una prueba.
COEFICIENTE DE EQUIVALENCIA
Influyen: el muestreo de reactivos & motivacin y fatiga
Confiabilidad CONSISTENCIA
INTERNA POR MITADES
Correlacionar dos pares de puntuaciones objetivas de mitades
equivalentes de una sola prueba, aplicada una sola vez.
Puede dividirse por pares o impares, o al azar.
Se divide la prueba por mitades equivalentes, se calcula una
correlacin Pearson, se ajusta la confiabilidad de la mitad de la
prueba usando Spearman-Brown.
El tamao de la muestra (nmero de reactivos) puede afectar el
coeficiente de confiabilidad. Entre ms grande es mejor!
SPEARMAN-BROWN
Estima cmo se afecta la confiabilidad de la prueba si esta se
acorta.
Tambin se puede usar para determinar cuntos reactivos se
necesitan para alcanzar un nivel deseado de confiabilidad.
No se utiliza en pruebas heterogneas (miden ms de un
constructo, o si sub- o sper-representacin del constructo) o
en pruebas de velocidad
Confiabilidad CONSITENCIA INTERNA
entre reactivos
Es el grado de correlacin entre todos los reactivos de la escala
Para reactivos dicotmicos Kuder Richardson KR 20
Para cualquier otra clase de reactivos Alpha de Cronbach
(depende de la correlacin promedio entre los reactivos)
Si se mira uno por uno, cuando miramos el resultado final
sabramos qu pasa si se elimina alguno, si se afecta la
consistencia interna o no. Garantiza que todos midan lo mismo
comparando todos con todos.
Una sola aplicacin de una forma nica de prueba
COEFICIENTE DE HOMOGENEIDAD
Influyen: el muestreo de reactivos (> cantidad de reactivos, >
confiabilidad) y si hay heterogeneidad en el rea de contenido
(si hay sub-representacin o sper-representacin del
constructo.

Confiabilidad CONSITENCIA INTERNA
entre reactivos
Factores que influyen en la confiabilidad
El rango de distribucin de las calificaciones: al incrementar la variabilidad,
el coeficiente de correlacin aumenta Recuerden la frmula de
confiabilidad de Rxx
Longitud de la prueba: al agregar ms reactivos, se incrementar la
confiabilidad de la prueba (si son buenos). Tener la correlacin entre tems.
Entre ms homognea sea la muestra, la confiabilidad disminuye. Un grupo
heterogneo genera correlacin alta, un grupo muy homogneo genera
correlacin baja) Entre ms heterognea la muestra, aumenta confiabilidad.
(Ej. figura 4-1, pg. 93 Hogan observen los puntajes si la muestra fuera el
cuadrado C, vs el cuadrado A)
Dificultad de la prueba: si la prueba es muy difcil o muy fcil, se estrecha el
rango de calificaciones y se reduce la confiabilidad.
Velocidad: elegir adecuadamente el coeficiente a utilizar.
Fortaleza de una correlacin
0.20 a 0.29 baja
0.30 a 0.49 moderadamente baja
0.50 a 0.69 moderada
0.70 a 0.79 moderadamente alta
0.80 a 0.99 alta
(direccin tanto positiva como negativa)

Anda mungkin juga menyukai