Anda di halaman 1dari 6

Confiabilidad y error de medicin

La elaboracin de una tcnica psicometra implica, seleccionar adecuadamente el tipo de puntuaciones que el
instrumento ha de brindar, y de proveer evidencia emprica sobre la calidad de las mismas, lo cual se lleva a cabo
poniendo a prueba la consistencia y prediccin de los puntajes confiabilidad-, y analizando la bondad de dichos
puntajes para aportar informacin pertinente de la variable q se intenta medir validez-.
La medicin en psicologa se analiza desde la ptica de la llamada teora clsica de los tests (TCT). Esta teora es
til para describir la influencia de los errores de medida en las puntuaciones observadas u obtenidas a travs de
instrumentos, y sus relaciones con las puntuaciones verdaderas.
Esta teora tiene dos supuestos:
Existen puntuaciones verdaderas, q reflejan puntualmente la realidad, q miden de un modo exacto, sin error.
Siempre q se realizan mediciones pueden cometerse errores.
Uno de los objetivos ms grandes de la psicometra es determinar el valor real o puntuacin verdadera. Esta
puntuacin se define como lo que queda de la puntuacin observada, una vez eliminados los errores de media. Se
enuncia a travs de la siguiente formula:
X: xv + xe donde despejado
Xv: X Xe
Tipos de error
Una medicin puede estar influida por fuentes de error variadas. Se las puede dividir en dos categoras segn el tipo
de error q generan: sistemticos o asistemticos.
Errores sistemticos:
Las fuentes de errores sistemticos son aquellas q desplazan las puntuaciones en cierta direccin, generando una
puntuacin sistemticamente elevada o baja. Suelen denominarse tambin errores constantes.
Ej.: si se trata de una balanza q en todas las ocasiones, indica 1, 5kg mas (o menos), a todos los sujetos q se pesan en
ella, obviamente no pesa bien, no indica el peso verdadero. Esta balanza llevara a errores de clculos. Los errores
sistemticos sobreestiman (o subestiman) el atributo evaluado.
Los errores sistemticos pueden ser detectados a travs de la validez del instrumento. Los estudios sobre la
confiabilidad se ocupan de los errores asistemticos.
Errores asistemticos:
Los errores asistemticos, son aquellos sin posibilidad de ser controlados, impredecibles o aleatorios, ya q son
generados por las variaciones cuya causa es el azar.
Los instrumentos psicomtricos son estandarizados, lo cual implica, uniformidad en el proceso de administracin y
de evaluacin, ya q variaciones en los procedimientos daran lugar a variaciones en las respuestas. Aunque las
pautas de aplicacin y de evaluacin sean adecuadas, al llevar a cabo una medicin siempre existen factores o
condiciones azarosas q pueden generar errores.
Errores en la etapa de construccin de un instrumento: puede ser la del muestreo de contenido, q se refiere a la
variacin de los resultados obtenidos dependiendo de los tems incluidos en la tcnica. Un test de vocabulario
infantil, por ejemplo, por efecto del azar, algn nio puede tener cierta familiaridad con una de las palabras a definir
y resultarle ms fcil que a otros. Por lo tanto el contenido de los tems para cualquier test deben ser seleccionados
cuidadosamente, sin embargo, pueden verse afectados en mayor o menor medida por incidencia del azar, y no del
sesgo de los tems o falta de equidad en distintos grupos de sujetos.
Las fuentes de errores q pueden ocurrir durante la administracin de la tcnico son aquellas q tienen cierta
influencia en cambios azarosos en la atencin o motivacin del sujeto examinado (ansiedad, desgano, experiencias
anteriores), las variables ambientales y las variables relacionadas al examinador.
Lo que se valora aqu es cmo influye la suerte de sorteo, en las condiciones q estn en juego al momento de
administracin.
La subjetividad del evaluador no debe estar implicada en la puntuacin, ya q puede ser fuente de error.

Confiabilidad de las puntuaciones


Anstasi y Urbina seala q el trmino confiabilidad se refiere a la consistencia de las puntuaciones obtenidas por las
mismas personas cuando se las examina en distintas ocasiones con el mismo test, con conjuntos equivalentes de
tems o en otras ocasiones de administracin. El concepto, fundamenta el clculo del error de medicin de un solo
resultado con el que podemos predecir la probable fluctuacin en la calificacin de un solo individuo debida a
factores aleatorios irrelevantes o desconocidos.
La confiabilidad rara voz es una cuestin de todo o nada; hay diferentes tipos y grados de confiabilidad. Uno de los
procedimientos empricos q permite calcular el ndice de confianza en las puntuaciones, es el denominado
coeficiente de confiabilidad, q informa el grado de precisin del instrumento.
Para esto es necesario saber conceptos estadsticos como varianza y desvi estndar.
Coeficiente de correlacin
Un coeficiente de correlacin, (r) expresa el grado de correspondencia o relacin, entre dos conjuntos de
puntuaciones. Permite establecer el grado de asociacin entre dos variables o entre una variable y un conjunto de
otras variables. Es una prueba estadstica q mide la relacin entre dos variables siempre y cuando las mismas sean
medidas en un nivel de intervalos o de razn.
Cuando la correlacin entre dos variables es perfecta, el coeficiente de correlacin es igual a 1 y cuando no existe
asociacin es igual a 0.
Hay varios coeficientes de correlacin, la q se utiliza con ms frecuencia en psicologa, es el coeficiente de
correlacin lineal de Pearson, a la q se expresa como rXY.
El coeficiente de confiabilidad
Se trata de un numero q indica en q medida una tcnica es confiable. Esa forma tcnica de expresin es el
coeficiente de confiabilidad, y la forma natural de obtenerlo es calculando la proporcin (razn) entre la varianza de
la puntuacin verdadera en una prueba y la varianza total.
Cuanto ms cercano a uno sea el valor del coeficiente de confiabilidad Cxx, ms confiable ser el instrumento del
cual se obtuvieron las puntuaciones, por el contrario cuanto ms cercano al o a dicho coeficiente, menos confiable
ser el mismo.
Procedimientos empricos para estimar el coeficiente de confiabilidad. Tipos de confiabilidad
Se han diseado varios mtodos q permiten calcular el coeficiente de confiabilidad, q toman en consideracin las
discrepancias entre el primer conjunto de datos, producto de una medida, y un segundo conjunto de datos, producto
de otra medicin, ambas realizadas a los mismos sujetos. Dichas discrepancias guardan proporcin con la varianza
de error.
Los mtodos seleccionados pueden ser clasificados en dos grupos, por un lado, aquellos en los q es necesario solo
aplicacin del instrumento a la muestra de sujetos, y por el otro, el grupo q requiere repetidas aplicaciones a la
misma muestra.
Mtodo q requieren una sola aplicacin:
Divisin por mitades
Formas paralelas
Formulas Kunder-Richardson
Coeficiente alfa de Cronbach
Confiabilidad entre evaluadores
Mtodo que requieren repetidas aplicaciones:
Test-retest
Formas paralelas (con intervalo)
Para hallar el coeficiente de confiabilidad es necesario disponer de al menos dos conjuntos de medidas paralelas de
los mismos sujetos. El objetivo de estos estudios es analizar la dispersin de los puntajes q arroja la tcnica
administrada a un grupo de personas.
2

El coeficiente de correlacin indica la consistencia entre los puntajes obtenidos en ambas medidas, esto es
justamente lo necesario para analizar la confiabilidad de las puntuaciones.
Cuanto ms cercano a 1 sea el coeficiente hallado, indicara que el premier conjunto de medidas es parecido, similar,
al segundo; cuanto ms cerca de 0 sea ese valor indicara mas discrepancia ( presencia de errores) entre dos
mediciones, es decir, menos confiabilidad el instrumento.
La confiabilidad, desde el punto de vista prctico, se calcula con el coeficiente de correlacin de Pearson: en este se
utilizan una sola variable, es normal cambiar sus subndices xy, por xx, existe una sola variable x, entonces queda la
anotacin r xx, el coeficiente de confiabilidad tambin se la denomina con los mismos subndices xx expresndose
en Cxx.
Cxx: Rxx
Mientras q el coeficiente de correlacin de Pearson puede asumir valores entre -1 y +1, el coeficiente de
confiabilidad solo asume valores entre 0 y +1.
Mtodos basados en medidas repetidas
Es importante q un instrumento arroje mediciones estables en el tiempo.
Una forma de estimar la confiabilidad de un instrumento de medicin consiste, en usar el mismo instrumento en una
muestra de sujetos, en dos momentos, con un lapso de tiempo entre ambas administraciones. Con estos mtodos
permiten medir la estabilidad de las puntuaciones obtenidas. En esta categora encontramos el mtodo test-retest y el
de formas paralelas, aplicadas con un intervalo de tiempo.
Test-retest
El objetivo de este mtodo es medir la estabilidad de las puntuaciones sabiendo q conforme transcurre el tiempo las
personas cambian.
La fuente de la falta de confiabilidad q identifica este mtodo son las fluctuaciones temporales aleatorias, q influyen
tanto en las condiciones de administracin como en las condiciones de los examinados.
Es fundamental en este procedimiento, determinar la extensin del intervalo del tiempo entre una administracin y
otra, ambas realizadas en una misma muestra de sujetos.
Una complicacin inherente, es q el instrumento no evala lo mismo en dos puntos diferentes de tiempo, cuando el
intervalo es breve puede intervenir factores como la experiencia previa con los tems del test, la falta de novedad, la
memoria, la fatiga o falta de motivacin, y por lo tanto la segunda aplicacin ya no conserva las caractersticas de la
primera.
Puede ser q por mltiples factores se incrementa el intervalo de tiempo entre las aplicaciones del mismo test, las
correlaciones de las puntuaciones obtenidas en cada administracin tiende a disminuir.
Por lo tanto el autor de las tcnicas psicometras, debe explicitar claramente los criterios de seleccin del intervalo
de tiempo entre ambas administraciones, ya q solo as podr ser interpretado de modo adecuado el valor del
coeficiente de confiabilidad. Cuanto ms tiempo pase entre la primera administracin y la segunda, el coefiente de
correlacin ser menor, y cuanto ms breve sea el intervalo la estabilidad temporal de los puntajes ser de menor
alcance.
En sntesis:
Etapas mtodo test-retest
1. aplicar y evaluar la tcnica a una muestra de sujetos
2. lapso de tiempo ( justificado)
3. aplicar y evaluar la tcnica a la misma muestra de sujetos
4. calcular la correlacin (r) entre las puntuaciones obtenidas en ambas ocasiones
5. interpretar el coeficiente hallado (estabilidad temporal de las puntuaciones)
Este mtodo se utiliza para captar las diferencias entre una administracin y otra. Por el contrario, en los estudios de
confiabilidad, se calcula, la estabilidad temporal de las puntuaciones de la tcnica, su permeabilidad a cambios
sutiles y por lo tanto se espera q la intervencin de los cambios fortuitos o aleatorios(aprendizaje, olvidos, cambios
emocionales espordicos)entre la 1ra aplicacin y la 2da influyan lo menos posible en las puntuaciones del
instrumento.
3

Formas paralelas o alternativas (con intervalo)


El procedimiento de las formas paralelas con intervalo de tiempo es utilizado cuando se necesita minibar el efecto
de la memoria del contenido de otra prueba aplicada con anterioridad, se procede entonces a elaborar formas
equivalentes y se las aplica a los mismos sujetos en dos oportunidades, con un intervalo de tiempo entre ambas
administraciones. En este mtodo es tan importante, justificar el lapso de tiempo, la magnitud del intervalo.
Al aplicar este procedimiento emprico se administra distintos instrumentos en dos formas equivalentes, una en cada
sesin. El autor del test debe elaborar una tcnica y otra equivalente. Su tarea es similar a la de un profesor q
prepara el tema a y b para un examen parcial.
Las formas paralelas de una tcnica deben ser similares en contenido, instrucciones y duracin, como tambin ser
equivalentes, tanto en las medidas y las varianzas de las puntuaciones q arrojan, como en los ndices de dificultad y
discriminacin de los tems.
Este procedimiento controla dos fuentes de falta de confiabilidad, las fluctuaciones temporales aleatorias y la
inconsistencia de las respuestas a diferentes muestras de tems.
En sntesis:
1) administrar una forma de test a una muestra de sujetos
2) lapso de tiempo justificado
3) administrar la forma paralela del test a los mismos sujetos
4) calcular la correlacin (r) entre las puntuaciones obtenidas con una forma y con otra.
5) Interpretar el coeficiente hallado (estabilidad temporal de las puntuaciones y muestreo de contenido)
Al interpretar el coefiente hallado se deben tener en cuenta la influencia tanto de la estabilidad temporal de los
puntajes como el muestreo de contenido.
Mtodos basados en una sola aplicacin
Este tipo es el ms utilizado, son 5 mtodos: divisin de mitades; formas paralelas (sin intervalo de tiempo); las
formulas Kunder Richardson; el coeficiente alfa de Cronbach y la confiabilidad entre evaluadores.
Divisin por mitades
Este procedimiento emprico aporta informacin para estimar el grado de consistencia interna del instrumento, es
decir, controla la inconsistencia de la muestra de tems, el muestreo de contenidos.
Requiere solo una aplicacin de test a una muestra de sujetos, luego se procede a dividir la prueba en mitades
homogneas. Una forma aceptable es asignar cada tem, a una mitad o a la otra, al azar. Otra modalidad, consiste en
dividirlos en nmeros pares e impares, de modo q los tems quedan ordenados segn su dificultad creciente. Otra
alternativa es dividir la prueba por contenidos, de modo q cada mitad del test contenga tems y estadsticos, es decir
ser homogneas.
En sntesis:
1. aplicar la tcnica a una muestra de sujetos
2. dividir el conjunto de tems en dos mitades homogneas
3. calcular la correlacin entre las puntuaciones obtenidas en las dos mitades en las que ha quedado dividida la
tcnica.
4. ajustar la confiabilidad a la mitad de la prueba usando la formula SpearmanBrown.
5. interpretar el coeficiente hallado(consistencia de las respuestas a lo largo del test)
En la tercera etapa se calcula la correlacin entre los puntajes de cada una de las mitades q han sido aplicadas a
la misma muestra.
La cuarta consiste en aplica la formula de SpearmanBrown q se utiliza para estimar la confiabilidad de un
instrumento cuando este se ha alargado o acortado en cualquier cantidad de tems.
Formas paralelas o alternativas (sin intervalo)

Este mtodo es similar al de formas paralelas o alternativas, pero la diferencia es q no hay un lapso de tiempo q
separe ambas administraciones. Se aplican ambas formas, q deben ser equivalentes, en la misma sesin, a la
misma muestra de sujetos, una despus de la otra.
Este procedimiento controla si razones azarosas den la seleccin de los tems de cada una de las formas han
influido en la muestra de sujetos de tal manera q los mismos contestan mejor en una forma especfica del test q
en la otra, esto no en funcin de variaciones verdaderas en el contracto a evaluar, sino debido a q los tems
particulares q le tocan en suerte, por el azar, por la influencia de errores aleatorios. Es decir, identifica la
presencia de inconsistencias en las respuestas a diferentes muestras de tems.
En sntesis:
1. aplicar las dos formas a una muestra de sujetos (sin intervalo de tiempo entre ambas)
2. calcular la correlacin entre las puntuaciones obtenidas por las mismas muestras en una y otra forma.
3. interpretar el coeficiente hallado(consistencia de las puntuaciones)
Se debe tener en cuenta q las aplicaciones de ambas, pueden ser afectadas por la fatiga y7o falta de motivacin
por parte de los sujetos. Se deben tener en cuenta las diferencias q pueden deberse al orden de aparicin de cada
una de las formas en la aplicacin, si la forma a o la b han ocupado la primera posicin o la segunda.
Formula Kuder-Richardson
Se trata de ndices tiles para evaluar la homogeneidad del test. Esta frmula permite calcular el grado de
correlacin entre todos los tems de cada escala. Mencionaremos el coeficiente KR-20. Se trata de variantes del
coeficiente de correlacin de Pearson, para ser utilizadas en casos especiales.
Cuando los tems de un test son muy homogneos, las estimaciones de confiabilidad KR-20 y de divisin por
mitades son similares. Pero la KR-20 es la estadstica seleccionada cuando se desea determinar la consistencia
entre los tems dicotmicos, sobre todos aquellos q pueden ser clasificados como correctos o incorrectos. En
estos casos, este mtodo identifica la inconsistencia entre los tems, la cual puede estar influida por el muestreo
de contenido o por la heterogeneidad del atributo evaluado.
En sntesis:
1. aplicar y evaluar la tcnica a una muestra de sujetos
2. calcular el coeficiente KR-20 entre los tems.
3. interpretar el coeficiente hallado (consistencia y homogeneidad)
Coeficiente alfa de Cronbach
Este coeficiente puede ser utilizado en reactivos no dicotmicos, en tems q influyen un rango de alternativas
posibles para q el sujeto los responda, y en los q suelen incluir crditos parciales.
En la actualidad es el estadstico preferido para obtener una estimacin de la confiabilidad de la consistencia interna.
Es considerado como la media de todas las correlaciones de divisin por mitades posibles.
En sntesis:
1. aplicar la tcnica a una muestra de sujetos
2. calcular el coeficiente alfa entre las puntuaciones obtenidas en los distintos tems.
3. interpretar el coeficiente hallado.
Confiabilidad entre evaluadores
El autor debe analizar si la tcnica cumple con este requisito de objetividad (o de la incidencia mnima de la
subjetividad del evaluador). Este mtodo identifica las fluctuaciones en las puntuaciones segn el evaluador.
En sntesis:
1. administrar la tcnica a una muestra de sujetos
2. evaluar las tcnicas administradas (evaluador A)
3. evaluar las tcnicas administradas (evaluador B)
4. calcular la correlacin entre los puntajes asignados por evaluador A y por evaluador B.
5. interpretar el coeficiente hallado.
5

En este mtodo se analiza la concordancia entre los evaluadores, y el autor de una tcnica psicometra lo selecciona
cuando la puntuacin de los tems del test en cuestin es compleja y/o requiere cierto grado de elaboracin del
evaluador.
Informa al usuario de la tcnica q las puntuaciones pueden derivarse en forma consistente y sistematiza cuando
distintos evaluadores siguen las instrucciones dadas en el manual.
La utilidad del coeficiente de confiabilidad es conocer ciertas propiedades psicometras de una tcnica, para
valorarla, para tener criterios de seleccin entre instrumentos.
Error tpico de medida. Su utilidad
El administrador de un test debe reconocer el error q comete al realizar una medida, y es el coeficiente de
confiabilidad el q permite su clculo.
Es poco frecuente q la medicin sea perfecta, suele tener errores, pero siempre se trata q sean lo menos posibles, ya
q cuanto mayor sea el error al medir, el valor obtenido a travs de la tcnica se alejara mas del valor real o
verdadero.
La puntuaciones verdaderas de un sujeto rara vez, puede determinarse exactamente, lo ms probable es q pueda ser
estimada a partir de las puntuaciones obtenidas.
El error se refiere al componente de la puntuacin obtenida por el sujeto en una tcnica psicomtrica, que no est en
relacin con la evaluacin del atributo en cuestin.
Niveles de significacin e intervalo de confianza
No es posible calcular el error de una determinada medicin ya q no se conoce el valor verdadero, pero calculando
el desvi estndar de los errores se puede conocer la posibilidad de que el error se encuentre entre dos determinados
valores. A estos dos valores, con su correspondiente probabilidad, se los conoce como intervalo de confianza.
Si bien el desvi estndar del error, no determina cual es el error, permite sin embargo calcular los valores de los
intervalos de confianza, es decir, estimar con una determinada probabilidad entre que puntajes estara el verdadero.
Al desvi estndar de error se lo denomina como error estndar o error tpico.
Confiabilidad de las diferencias
En la prctica profesional, es necesario considerar dos tipos de diferencias, las interpersonales, cuando se comparan
las puntuaciones obtenidas por dos sujetos diferentes y las intrapersonales, cuando se comparan los puntajes
obtenidos por un mismo sujeto en dos o ms variables psicolgicas.
Es necesario analizar si las diferencias existentes entre distintas puntuaciones se deben al azar o a caractersticas del
sujeto en la/s variable/s de inters.
El error tpico de la diferencia entre dos puntuaciones es mayor q el error de medida de cualquier de las dos, esta
diferencia se halla afectada por los errores aleatorios presentes en ambas puntuaciones.
El error tpico de la diferencia entre don puntuaciones, puede hallarse partiendo de los errores tpicos de medida de
las dos puntuaciones a comparar, mediante la SIG formula.
Sdlf : Se (al cuadrado) med1 + Se(al cuadrado) med2
(Desde el igual la formula va en raz cuadrada)
Donde Sdlf es el error tpico de la diferencia entre dos puntuaciones; Se (al cuadrado) med1 , es el error tpico de
medicin al cuadrado del test 1 y Se(al cuadrado) med2 , es el error tpico de medicin al cuadrado del test 2.