Anda di halaman 1dari 11

VALIDEZ Y CONFIABILIDAD DE UN TEST

La psicometra, engloba la teora y la construccin de pruebas, test y otros procedimientos


de medicin vlidos y confiables o fiables. Incluye, por tanto, la elaboracin y aplicacin
de procedimientos estadsticos que permitan determinar si una prueba o test es vlido o no
para la medicin de una variable o conducta psicolgica previamente definida.

Sin embargo, la medida de estos aspectos no directamente observables es difcil, y gran


parte de la investigacin y tcnicas acumuladas en esta disciplina estn diseadas para
definirlos de manera fiable antes de cuantificarlos.
Los primeros trabajos de psicometra se desarrollaron para medir la inteligencia.
Posteriormente, la teora psicomtrica se ha aplicado a la medida de otros aspectos como
los rasgos de personalidad, actitudes y creencias, rendimiento acadmico, y en campos
relacionados con la salud y la calidad de vida.
No debe confundirse con psicrometra que es la encargada del estudio de las propiedades
termodinmicas del aire hmedo y del efecto que ejerce sobre los materiales y sobre el
confort humano.

Enfoques tericos
Los contenidos de la psicometra se articulan, fundamentalmente, en dos grandes bloques:
Teora de los test, que hace referencia a la construccin, validacin y aplicacin de los test,
Escalamiento, que incluye los mtodos para la elaboracin de escalas psicofsicas y
psicolgicas.
A su vez, la teora de los test se divide en dos ramas:
la teora clsica de los test y la ms reciente teora de respuesta al tem.
Los conceptos clave de la teora clsica de los test son: confiabilidad (o fiabilidad)
y validez. Un test es vlido si mide realmente el atributo que pretende medir; mientras
que es confiable si lo mide siempre de igual manera, es decir, si la aplicacin del
instrumento da medidas estables y consistentes.
Ambas propiedades, validez y confiabilidad, admiten un tratamiento matemtico.
La consistencia interna puede calcularse por correlacin entre distintos test.
Los mtodos ms conocidos se denominan:
mtodo de las formas paralelas, mtodo del test-re test y mtodo.
La validez puede calcularse correlacionando las mediciones con las de una medida patrn
aceptado como vlida. Se distinguen los siguientes aspectos: contenido, validez y validez
de constructo.
La confiabilidad (o fiabilidad) tiene tambin relacin con la precisin del instrumento que se
utiliza para medir.
Por ejemplo, si se compara un termmetro con la mano de una madre para determinar si
un nio tiene fiebre, se puede afirmar que el termmetro es ms confiable, puesto que es
ms preciso.

Fiabilidad (psicometra)
En el campo de la psicologa, la educacin y la investigacin social, la fiabilidad (tambin
llamada tcnicamente confiabilidad) es una propiedad psicomtrica que hace referencia a
la ausencia de errores de medida, o lo que es lo mismo, al grado de consistencia y
estabilidad de las puntuaciones obtenidas a lo largo de sucesivos procesos de medicin
con un mismo instrumento.

Consideraciones generales

Es necesario aclarar que la fiabilidad no es una propiedad de los test en s mismos, sino
de las interpretaciones, inferencias o usos especficos que se hagan a partir de los datos y
medidas que estos proporcionan
. Asimismo, no puede hablarse de la fiabilidad en trminos absolutos; s cabra hablar
del grado de fiabilidad que puedan presentar los instrumentos de medida en un contexto
de aplicacin determinado.
A partir de la variabilidad en las puntuaciones encontradas tras una serie de mediciones
repetidas puede determinarse el ndice de precisin, consistencia y estabilidad de un
instrumento.
En el supuesto de que el resto de condiciones se mantengan inalteradas, puede concluirse
que, a mayor variabilidad de resultados, menor fiabilidad del instrumento de medicin
No obstante, uno de los principales problemas que se presentan en el campo de la
investigacin en ciencias sociales tiene que ver con la dificultad de conseguir que las
distintas medidas se realicen exactamente en las mismas condiciones.
Las condiciones personales de los sujetos, como la motivacin, la maduracin o el grado
de atencin, pueden variar de una medicin a otra, por lo que resulta imprescindible
establecer un procedimiento estandarizado de medicin que permita reducir al mnimo
las variables extraas que puedan influir en los resultados finales.
Por lo tanto, la fiabilidad hace referencia a la estabilidad y consistencia de las mediciones
en aquellos casos en los que no existen razones tericas o empricas que nos hagan
suponer que la variable que se mide se haya visto modificada de forma significativa por los
sujetos, por lo que se asume su estabilidad

La teora clsica de los test


En el marco de la teora clsica de los test, segn el modelo lineal clsico propuesto
por Charles Spearman (1904, 1907, 1913); la puntuacin emprica (X) que obtiene un
sujeto en un test, es la suma de dos componentes: la puntuacin verdadera (V) y el
inevitable error de medida asociado al instrumento.
Es decir, si a la puntuacin emprica (obtenida en la prueba) se le elimina el error de
medida, se obtendr la puntuacin verdadera. En este contexto, la fiabilidad hace
referencia a la proporcin de la varianza verdadera, es decir, la parte de la varianza total
que los tems discriminan por lo que tienen en comn Siguiendo este razonamiento,
obtendramos:

Donde

es el smbolo de la fiabilidad de las puntuaciones observadas (X); y

son las varianzas de las puntuaciones empricas, verdaderas y de error,

, y

respectivamente. Dado que no existe modo alguno de determinar la puntuacin


verdadera directamente, existe una serie de mtodos para realizar una estimacin de
la fiabilidad.

Coeficiente de fiabilidad
El coeficiente de fiabilidad (

) es la correlacin entre las puntuaciones obtenidas

por los sujetos en dos formas paralelas de un test (X y X'). Suponiendo que las dos
formas del test sean realmente paralelas (es decir, midan realmente lo mismo), las
puntuaciones de los sujetos deberan ser iguales en ambas aplicaciones. As, cuando
la correlacin es igual a 1, la fiabilidad es mxima.
El grado en que el coeficiente de fiabilidad se aleje de 1 ser un indicador del grado
de error aleatorio de medida que estaremos cometiendo en la aplicacin de las
pruebas.
El coeficiente de fiabilidad no debe confundirse con el ndice de fiabilidad, que es la
correlacin entre las puntuaciones verdaderas y las empricas (

), y se obtiene a

partir de la raz cuadrada del coeficiente.

Estimacin emprica del coeficiente de fiabilidad


Desde la Teora Clsica de los Test (TCT) se han propuesto diferentes procedimientos
para calcular la fiabilidad. Algunos de ellos son los siguientes:

Formas paralelas
Este procedimiento es el que se deriva naturalmente del modelo. Requiere que se
utilicen dos pruebas o instrumentos paralelos, esto es, que midan lo mismo de forma
diferente.
Por ejemplo: dos test que con diferentes preguntas midan un determinado rasgo.
Despus se comparan los dos test, calculando el coeficiente de correlacin de
Pearson. Esta correlacin ser, como hemos visto en el apartado anterior, el
coeficiente de fiabilidad. Si la correlacin es alta, se considera que hay una buena
fiabilidad. Al valor obtenido tambin se le conoce como coeficiente de equivalencia,
en la medida en que supone un indicador del grado de equivalencia entre las dos
formas paralelas de un test.
La dificultad de este procedimiento radica en conseguir que dos instrumentos sean
realmente "paralelos", dada la dificultad que supone realizar dos pruebas que midan

exactamente lo mismo, pero con diferentes tems. No obstante, en condiciones ideales


en las que se pueda garantizar el paralelismo de ambas formas, este es el mtodo
ms recomendable.

Test-re test
Con este mtodo el coeficiente de fiabilidad se calcula pasando mismo test dos veces
a los mismos sujetos. Se pueden pasar inmediatamente, o dejando un intervalo de
tiempo entre el test y el re test. Despus se calcula la correlacin de Pearson entre las
puntuaciones de ambas aplicaciones, y el resultado obtenido ser el coeficiente de
fiabilidad.
Se considera un caso especfico de formas paralelas, dado que evidentemente un
testes paralelo a s mismo. Al resultado obtenido se le

denomina coeficiente

estabilidad, al servir de indicador de hasta qu punto son estables las mediciones


realizadas durante la primera aplicacin del test.
Las diferencias en los resultados se atribuyen al grado de consistencia interna o
muestreo de los tems de la prueba en el caso de pasar el retes de forma inmediata, y
se le suman las fluctuaciones en el tiempo en el caso del intervalo temporal.
Dejar transcurrir un espacio de tiempo excesivo entre ambas aplicaciones puede
suponer una amenaza a la validez interna por las posibles influencias externas a la
que pueden estar expuestos los sujetos durante el intervalo, y que pueden afectar a su
desempeo en la segunda aplicacin.
En el extremo opuesto, una aplicacin demasiado apresurada del re test podra
afectar igualmente a la validez interna, en este caso por los posibles efectos del
recuerdo reciente de la primera aplicacin.
La eleccin del intervalo de tiempo adecuado entre ambas aplicaciones depender en
gran medida del tipo de test, ya que en funcin de su formato puede ser ms sensible
al efecto de una u otra amenaza

Dos mitades
A diferencia de los anteriores, este mtodo slo requiere una aplicacin del test.
Tras obtener las puntuaciones obtenidas por los sujetos en cada una de las dos
mitades en que se habr dividido, se procede a calcular la correlacin entre las dos
puntuaciones.
El resultado obtenido ser un indicador de la covariacin entre ambas mitades, es
decir, de la consistencia interna del test.

La principal dificultad de este sistema es asegurarse de que ambas mitades sean


efectivamente paralelas.
Un sistema habitual es dividir el test entre los tems pares y los impares; no es
recomendable dividirlo sin ms por la mitad, dado que muchos test muestran un
incremento gradual de la dificultad de sus tems

Otros mtodos basados en la consistencia interna


Alfa de Cron Bach (1951): El coeficiente alfa () es un indicador de la fiabilidad de un
test basado en su grado de consistencia interna. Indica el grado en que los tems de
un test covaran.

Coeficientes de Kuder-Richardson (1937): Se trata de dos frmulas aplicables a


sendos casos particulares de alfa. KR se aplica en el caso en que los tems del
test sean dicotmicos, y KR, en el caso de que adems de ser dicotmicos,
tengan la misma dificultad.

Mtodo de Rulon (1939): Una estimacin de la fiabilidad de un test a partir de las


puntuaciones obtenidas en sus dos mitades. Considera que la diferencia entre las
dos mitades se debe slo al error aleatorio.

Mtodo

de

Guttman/Flanagan (1945/1937):

Otra

frmula

basada

en

la

consistencia interna, equivalente a la de Rulon.

Coeficiente beta (): Propuesto por Raju (1977) para calcular la fiabilidad de una
batera compuesta por diversos subtests. En los casos en los que se desea
calcular la fiabilidad de una batera, se trata a los distintos subtests como si fueran
los tems de un nico test y se calcula el coeficiente alfa global.

El problema surge en los casos en los que los distintos subtests no tienen el
mismo nmero de tems, lo que suele ser lo ms frecuente, y que repercute en
una infraestimacin del alfa global.

El coeficiente beta permite sortear esta infraestimacin.

Coeficientes theta () y omega (): Basados en el anlisis factorial de los tems,


son indicadores de la consistencia interna similares al coeficiente alfa.

El coeficiente theta fue desarrollado por Carmines y Zeller (1979)

El coeficiente omega fue desarrollado por Heise y Bohrnstedt (1970).

Relaciones entre fiabilidad y otros factores


Hay dos factores que afectan al grado de fiabilidad de un test: la variabilidad y la
longitud.

Fiabilidad y variabilidad: El tipo de muestra de sujetos que se haya escogido


para calcular la fiabilidad de un test puede influir en el resultado obtenido.
Esto significa que la fiabilidad ya no depende nicamente de las caractersticas
del test, sino tambin de la muestra de sujetos a los que se aplique, por lo que no
se puede decir que un mismo test tenga un coeficiente de fiabilidad fijo.
En suma, puede afirmarse que la fiabilidad de un test ser mayor cuanta mayor
variabilidad exista en la muestra de sujetos seleccionada.

Fiabilidad y longitud: En trminos generales, puede decirse que la fiabilidad de


un test aumenta a medida que aumenta su longitud, es decir, su nmero de tems.
Ello no significa que resulte recomendable alargar innecesariamente un test en pro
de aumentar su fiabilidad, ni que cualquier test pueda convertirse en un
instrumento fiable por el nico medio de aumentar indefinidamente su longitud.
La frmula de Spearman-Brown permite pronosticar el aumento de fiabilidad
obtenida tras el incremento de la longitud de un test, siempre y cuando los tems
aadidos sean paralelos a los ya existentes

Validez (psicometra)
En el campo de la metrologa, psicometra y estadstica, la validez es un concepto que
hace referencia a la capacidad de un instrumento de medicin para cuantificar de forma
significativa y adecuada el rasgo para cuya medicin ha sido diseado.
De esta forma, un instrumento de medida es vlido en la medida en que las evidencias
empricas legitiman la interpretacin de las puntuaciones arrojadas por el test.

Consideraciones generales
La constatacin de la validez de un instrumento de medida no ofrece mayores problemas
cuando se trata de cuantificar variables objetivas, como el peso, la estatura o el volumen.
Pero en el caso de variables psicolgicas es necesario probar de forma emprica que el
instrumento es vlido para aquello que dice evaluar.
No obstante, ms que el test en s mismo, lo que se somete a validacin son las
posibles inferencias que se vayan a realizar a partir de los resultados obtenidos.

Tanto la fiabilidad como la validez son dos propiedades psicomtricas que deben cumplir
las interpretaciones e inferencias que se hagan de los resultados obtenidos por los test
psicolgicos.
La validez, pues, no debe ser una caracterstica propia del test, sino de las
generalizaciones y usos especficos de las medidas que el test proporciona
Es importante sealar que un instrumento de medicin no tiene un coeficiente fijo de
validez que vaya a servir para cualquier propsito o para cualquier grupo de individuos,
sino que siempre depender de la correcta eleccin del criterio a valorar (variable criterio)
y la muestra seleccionada
Existen diversos tipos de validez, pero estas subdivisiones no constituyen conceptos que
deban ser asumidos como independientes entre s. Los tipos de validez mantienen una
relacin de influencia recproca y conforman las diversas partes de un todo, que es lo que
conocemos de forma genrica como "validez"

Definiciones de validez

Desde el punto de vista estadstico, la validez es la proporcin de la varianza


verdadera que es relevante para los fines de la prueba; es decir, que es atribuible a la
variable, caractersticas o dimensin que mide la prueba.

Desde el punto de vista psicomtrico, la validez es el resultado de un proceso de


recopilacin de evidencias empricas sustentado en supuestos tericos que, en suma,
permiten emitir un juicio valorativo que afirme la pertinencia y la suficiencia de las
interpretaciones basadas en los resultados de una prueba.

Este juicio no depende nicamente de los tems de la prueba, sino tambin de la


muestra sobre la que se efecte el test, y del contexto de aplicacin

As, para Messick (1984, pp. 741), la validez unificada integra consideraciones de
contenido, criterio y consecuencias en un marco de referencia de constructo para la
evaluacin emprica de hiptesis racionales acerca del significado de las puntuaciones y
de relaciones relevantes desde el punto de vista terico, incluyendo las de naturaleza
cientfica y aplicada

Tipos de validez.
Validez de contenido.
Se dice que una prueba o test cumple con las condiciones de validez de contenido si
constituye una muestra adecuada y representativa de los contenidos y alcance
del constructo o dimensin a evaluar. En los casos en los que la materia objeto de
medicin se puede precisar con facilidad, la poblacin de contenidos que se pretende
evaluar est bien definida, por lo que la seleccin de los tems del test no ofrece mayores
dificultades, pudindose recurrir a mtodos estadsticos de muestreo aleatorio para
obtener una muestra representativa de tems

. No obstante, en el campo de la psicologa no siempre es posible disponer de poblaciones


de contenidos bien definidas.
Por ejemplo: si se pretenden medir variables psicolgicas clsicas, como la extraversin,
la inteligencia o el liderazgo). En estos casos suele recurrirse a un anlisis racional de
tems, consistente en la evaluacin de los contenidos del test por parte de un grupo de
expertos en el rea a tratar.
La validez de contenido es esencial a la hora de realizar inferencias o generalizaciones a
partir de los resultados del test.
Un caso particular de la validez de contenido es la denominada validez aparente.
Una prueba posee una validez aparente adecuada cuando produce en los sujetos a los
que se aplica la impresin de que efectivamente es una prueba adecuada.
Es un tipo peculiar de validez de contenido, pero que tiene su parte de importancia al
poder influir sobre la motivacin de los participantes, que pueden mostrar una actitud
negativa ante la prueba si no perciben que sta tenga el sentido que se le supone.

Validez predictiva.
Tambin conocida como validez criterial, validez relativa al criterio o validez de pronstico,
se refiere al grado de eficacia con que se puede predecir o pronosticar una variable de
inters (criterio) a partir de las puntuaciones en un test.
Es frecuente que en los procesos de seleccin de personal se utilicen instrumentos que
pretendan determinar o predecir el rendimiento futuro de los candidatos al puesto de
trabajo basndose en las respuestas obtenidas.
Para ello es necesario que se haya obtenido una evidencia emprica de que los resultados
obtenidos en la prueba correlacionen efectivamente con el rendimiento futuro en el puesto
de trabajo.
As pues, la operacionalizacin del concepto se realiza a partir del
denominado coeficiente de validez, que es la correlacin entre el test y el criterio. A
mayor correlacin, mayor capacidad predictiva del test.
Existen distintos diseos experimentales que permiten determinar esta correlacin.
La eleccin de un diseo u otro depender de las necesidades y circunstancias
especficas de cada caso:

Validez concurrente o simultnea: El test y el criterio se miden al mismo tiempo


(concurrentemente). Puede utilizarse para validar un nuevo test por comparacin con
otro ya validado previamente.

Validez de pronstico: El criterio se mide pasado un periodo de tiempo tras la


aplicacin del test.

Es el tipo ms habitual en los procesos de seleccin de personal, en los que se


pretende predecir el rendimiento futuro de los sujetos.

Validez retrospectiva: El test se aplica un tiempo despus del criterio que se


pretende evaluar. til cuando se pretende dilucidar mediante una prueba algn
aspecto del pasado que actualmente no es accesible.

La frmula general del coeficiente de validez es:

Donde "x" hace referencia a las puntuaciones obtenidas en el test, e "y" hace referencia a
las puntuaciones obtenidas en la variable criterio.

Validez de constructo.
A diferencia de lo que ocurre en otros campos, muchos de los conceptos manejados en el
mbito de la psicologa no son directamente observables, por lo que requieren del apoyo
de medidas indirectas.
Los conceptos de peso o volumen son suficientemente tangibles como para no resultar
susceptibles de interpretaciones subjetivas al respecto de su significado, pero no ocurre lo
mismo en el caso de variables psicolgicas como el neuroticismo o la introversin.
Estos conceptos precisan del acuerdo o consenso sobre sus significados para poder ser
catalogados como tiles y vlidos desde un punto de vista cientfico.
La validez de constructo, pues, hace referencia a la recogida de evidencias empricas que
garanticen la existencia de un constructo psicolgico en las condiciones exigibles a
cualquier otro modelo o teora cientfica.
Por todo ello, la validez de constructo se presenta como una condicin indispensable a la
hora de valorar la eficacia de un instrumento de evaluacin sobre una variable psicolgica
determinada.
Para Messick (1980; p.1015) la validez de constructo es el concepto unificador que integra
las consideraciones de validez de contenido y de criterio en un marco comn para probar
hiptesis acerca de relaciones tericamente relevantes
. Asimismo, Cron Bach (1984; p.126) refiere que la meta final de la validacin es la
explicacin y comprensin, y por tanto, esto nos lleva a considerar que toda validacin es
validacin de constructo.
Los procedimientos metodolgicos ms utilizados para la obtencin de datos referentes a
la validez de constructos psicolgicos han sido el anlisis factorial y la matriz
multirrasgo-multimtodo. Ambos sistemas son indicadores respectivos de las
denominadas "validez factorial" y "validez convergente-discriminante"
Validez factorial] El anlisis factorial es una tcnica del anlisis multivariado que permite
realizar una estimacin de los factores que dan cuenta de una serie de variables.
Se trata de una tcnica de reduccin de datos que permite encontrar grupos homogneos
de variables a partir de un grupo de variables mucho ms numeroso.
Los criterios de formacin de grupos se basan en la necesidad de que las variables a
agrupar correlacionen entre s, y cumplan el requisito de ser independientes.
Es decir, formarn un grupo aquellas variables que, siendo independientes entre s,
muestren un ndice de correlacin elevado.
As, podremos hablar de validez factorial de un constructo en aquellos casos en los que
todas las medidas que se hayan diseado para evaluarlo arrojen resultados similares al
ser sometidas a un anlisis factorial.

Este anlisis puede ser evaluatorio, si se realiza con la intencin de descubrir la posible
estructura subyacente factorial de un conjunto de datos cualesquiera; o confirmatorio, si se
realiza con base en unas expectativas y teoras previas al respecto de esa estructura.
Validez convergente-discriminante
Este tipo de validez se determina a partir de los resultados arrojados por la matriz
multirrasgo-multimtodo (diseo MRMM, sistematizado por Campbell y Fiske en 1959). El
sistema consiste en realizar mediciones de varios rasgos con distintos mtodos de
medicin. De este modo podemos encontrarnos con varios resultados.

Validez convergente: existe validez convergente cuando las mediciones del


mismo rasgo realizadas con distintos mtodos correlacionan entre s.

El hecho de que un mismo rasgo sea detectado por igual con varias metodologas
diferentes, es un indicador fiable de la existencia real de ese rasgo.

Se dice que en este caso, las medidas convergen.

Validez discriminante: se refiere al grado de diferenciacin entre distintos


constructos a partir de un nico sistema de medicin.

Es decir, las medidas de distintos rasgos por el mismo mtodo muestran una baja
correlacin en comparacin con la que muestran las medidas del mismo rasgo con
diferentes mtodos, seal de que los rasgos son independientes entre s, e
independientes al sistema de medicin empleado.

Anda mungkin juga menyukai