Anda di halaman 1dari 27

CAPÍTULO 3

PRUEBAS EN PSICOLOGÍA CLÍNICA


Robert J. Gregory
La profesión de la psicología clínica adquirió su respetabilidad primero a través de la
aplicación exitosa de las pruebas psicológicas en asuntos sociales apremiantes. Un
ejemplo clásico es la prueba de inteligencia individual inventada por Alfred Binet en 1905
y usada para identificar a los niños que tienen necesidad de escuelas especiales. Un
ejemplo menos conocido es la Hoja de datos personales diseñada por Robert Woodworth
en 1917 y usada para filtrar reclutas de la armada que eran susceptibles de padecer
trastornos emocionales. Se podrían citar muchos ejemplos más para ilustrar este punto
esencial: al inicio de 1900 la psicología clí- nica era sinónimo de psicometría aplicada.
Sólo más tarde la profesión se ramificó en otras áreas tales como la terapia individual, la
terapia de grupo, la psicología comunitaria y las aplicaciones forenses. Por supuesto, en
la actualidad los psicólogos practicantes realizan muchas funciones además de las pruebas
psicológicas. No obstante, las pruebas siguen siendo centrales en la profesión y siguen
siendo clasificadas como uno de sus más grandes logros. Las pruebas psicológicas ayudan
en la planeación del tratamiento y proporcionan una base para la evaluación de la
eficiencia terapéutica, por citar sólo algunas de sus diversas aplicaciones. Aquí
consideramos la naturaleza de las pruebas psicológicas, sus usos y sus abusos ocasionales,
los métodos para la construcción de pruebas y el valor de las pruebas en la práctica de la
psicología clínica. El punto de inicio es una breve revisión histórica.
ORÍGENES DE LAS PRUEBAS PSICOLÓGICAS El término prueba mental fue
utilizado por primera vez por James McKeen Cattell (1890), un prominente psicólogo
estadounidense que estudió con Wilhelm Wundt en Alemania y con Francis Galton en
Gran Bretaña. Cattell fue exitoso en lo que ahora se conoce como el método "de
instrumentos de bronce" para las pruebas psicológicas, llamados así debido a su confianza
en el uso del equipo de bronce para medir los umbrales sensoriales y los tiempos de
reacción. Este método se basó en suposiciones razonables (pero incompletas) de que las
habilidades sensoriales eran esenciales para la inteligencia. En 1901, Clark Wissler, un
estudiante de Cattell, demostró que los resultados de las pruebas sensoriales (por ejemplo,
el tiempo de reacción, el nombramiento de los colores) no conllevan relación con las
calificaciones universitarias. Con estos resultados desalentadores, los psicólogos
abandonaron el uso del tiempo de reacción y las medidas sensoriales como indicadores
de la inteligencia. La primera prueba moderna de inteligencia fue inventada por Alfred
Binet (1857-1911) en 1905. La escala Binet-Simon de 1905 (Binet y Simon, 1905)
desarrollada en colaboración con Theophile Simon, fue altamente exitosa en la
identificación de niños que no se beneficiaban de una instrucción regular en el sistema
escolar de París. Más que confiar en los procesos sensoriales elementales, su escala simple
consistía en 30 reactivos de dificultad creciente que probaban los más altos procesos
mentales, tales como la abstracción y la comprensión. La escala Binet-Simon fue revisada
por primera vez en 1908 y, otra vez, en 1911. Una nota intrigante para la historia es que
la escala original Binet-Simon no producía una puntuación formal y ciertamente no
proveía una puntuación del CI. El concepto de CI fue un producto conjunto del psicólogo
alemán Wilhelm Stern (1912/1914) y del psicólogo estadounidense Lewis Terman
(1916). Terman era profesor en la Universidad de Stanford, lugar donde se tradujo, revisó
y volvió a normar la escala Binet-Simon para aplicarse con sujetos estadounidenses. Esta
prueba ha sobrevivido hasta la actualidad como la StanfordBinet, que ahora se encuentra
en su cuarta edición (Thorndike, Hagen y Sattler, 1986). Además de la Binet-Simon, la
otra gran influencia sobre las pruebas modernas de inteligencia fue el programa de
pruebas de la armada encabezado por Robert Yerkes (1919). Él y otros psicólogos
reconocidos diseñaron dos grupos de pruebas de habilidad para filtrar y colocar a los
reclutas de la armada durante la Primera guerra mundial. La prueba Army alfa consistía
en ocho pruebas de contenido verbal para los reclutas promedio y los de alto rendimiento.
La prueba Army beta consistía en un grupo de pruebas no verbales diseñadas para usarse
con las personas con menos educación, los analfabetas, y los reclutas cuya lengua materna
no era el inglés. Sería difícil sobreestimar la influencia de la escala Binet-Simon y de las
pruebas de la armada con respecto a pruebas posteriores de inteligencia. Los reactivos en
estas pruebas inspiraron el desarrollo de prácticamente cada prueba de inteligencia que
existe en la actualidad. En particular, las pruebas de inteligencia Wechsler (de las que
hablaremos posteriormente), tienen una gran deuda con estos predecesores. David
Wechsler no sólo adoptó el formato, sino que también tomó muchos reactivos
directamente de estas primeras aportaciones. Las pruebas contemporáneas en la
psicología clínica también tienen sus raíces en las primeras pruebas de la personalidad,
tales como la Hoja de datos personales desarrollada por Robert Woodworth para evaluar
a los reclutas de la armada en la Primera guerra mundial, los cuales podían ser propensos
a padecer problemas emocionales. Esta prueba consistía en 116 preguntas de respuesta
"sí"—"no", que investigaban psicopatologías serias (por ejemplo, "¿le molesta el sentir
que las cosas no son reales?"). El método sí-no para la medición de la personalidad aún
se aplica en muchos inventarios populares de respuesta de verdadero-falso, incluyendo la
prueba más ampliamente usada de todos los tiempos: el Inventario multifásico de
personalidad de Minnesota, ahora en su segunda versión (MMPI-2, por sus siglas en
inglés). Por supuesto, muchas pruebas que se usan en la actualidad también se originaron
en la profunda tradición psicológica contenida en la técnica de la mancha de tinta
inventada después de la Primera guerra mundial por Hermann Rorschach (1921). La
historia del inicio de las pruebas es un tema fascinante que sigue siendo relevante para la
práctica actual. Es importante saber que es necesario ser cauteloso con las aplicaciones
excesivas de las pruebas. Por ejemplo, en un triste y lamentable capítulo de la psicología
estadounidense, uno de los pioneros de las pruebas, Henry H. Goddard, fue exitoso en el
uso de las pruebas individuales de inteligencia para la evaluación de inmigrantes (Gelb,
1986). Goddard y sus asistentes usaron traductores para administrar las pruebas originales
Binet-Simon poco después de que los inmigrantes habían llegado a tierra firme: De este
modo, una prueba diseñada en francés, luego traducida al inglés, fue traducida más tarde
al yiddish, húngaro, italiano y al ruso; se administró a desconcertados agricultores y
trabajadores que acababan de padecer el viaje a través del Atlántico; y se interpretaba de
acuerdo con las normas francesas originales. (Gregory, 1996.) Seguramente éste deberá
clasificarse como uno de los usos más inadecuados de las pruebas psicológicas registradas
en toda la historia.
NATURALEZA Y USOS DE LAS PRUEBAS PSICOLÓGICAS Definición de una
prueba Una prueba o test psicológico es un procedimiento estandarizado para obtener
muestras del comportamiento y describirlo con puntuaciones o categorías. En la mayor
parte de los casos, una prueba es percibida como una evaluación, esto es, el examinado
sabe que está siendo probado. Esto hace surgir importantes asuntos con respecto a la
validez de las pruebas, en particular para la evaluación de la personalidad, actitudes,
aspiraciones y aspectos similares. El problema esencial es el de su conveniencia social,
la tendencia natural de las personas a contestar las preguntas en una forma socialmente
deseable, más que ser completamente veraces. Como se explica a continuación, muchas
pruebas utilizan escalas de validez para determinar tales tendencias en la persona
sometida a las pruebas. La particularidad crucial de las pruebas psicológicas incluye las
siguientes características:
• El uso de procedimientos estandarizados
• El muestreo del comportamiento
• La producción de puntuaciones o categorías
• La interpretación por medio de normas o estándares
• La predicción del comportamiento no puesto a prueba
A continuación se revisan estas características. Los procedimientos estandarizados son
esenciales para asegurar que los procedimientos de prueba permanezcan uniformes para
los diferentes examinadores en las diversas situaciones. La falta de estandarización en
tales elementos como la lectura de las instrucciones o los estímulos presentados, pueden
cambiar no sólo el carácter de la prueba sino también su nivel de dificultad, situación que
reduce la validez de la prueba. Por ejemplo, es mucho más fácil recordar dígitos cuando
se presentan en forma oral y se dicen rápidamente. Esta es la razón por la cual los
manuales especifican que los dígitos deben expresarse precisamente en un promedio de
uno por segundo. Una prueba psicológica también está basada en una muestra limitada
del comportamiento. Por ejemplo, cuando se prueba el vocabulario, no es realista
determinar la totalidad del conocimiento que tiene una persona sobre las palabras. El
examinador deberá establecer una muestra de 30 o 40 palabras y predecir el promedio
general de palabras que conoce la persona a partir de esta pequeña (muy pequeña)
muestra. La implicación más importante del concepto prueba-muestra es que los
resultados de la prueba invariablemente contienen un grado de error. Por ejemplo, la
totalidad del conocimiento de palabras que una persona tiene puede ser mayor o menor
de lo comunicado por una prueba de vocabulario que consta de 30 palabras. Un individuo
con una habilidad por debajo del promedio puede obtener una puntuación muy alta como
resultado de adivinar o, por el contrario, una persona con una habilidad superior puede
recibir una puntuación baja debido a que la prueba incluía un número desproporcionado
de términos coloquiales. Aunque se puede minimizar el error de medición por medio de
un diseño cuidadoso de la prueba, nunca podrá eliminarse del todo. Las pruebas
comúnmente proporcionan puntuaciones o categorías que son interpretadas con
referencia a una muestra estandarizada. La muestra de estandarización (también llamada
grupo normativo) debe ser representativa de la población a quien se dirige la prueba, de
forma que sea posible evaluar los resultados de la prueba de cada persona en comparación
con el grupo de referencia. Por ejemplo, el conocer la puntuación 137 de un examinado
en las pruebas de razonamiento abstracto ofrece poca información. Pero si sabemos que
la puntuación promedio de los estudiantes universitarios en su último año es de 103 y que
únicamente el 1% de estos estudiantes tiene puntuaciones de 135 o mayores, tenemos una
base para hacer una predicción no basada en la prueba, de que el examinado es un buen
candidato para tener éxito en la universidad. Este último punto indica que no es el
resultado per se lo que es valioso, sino más bien, lo que significa el resultado de la prueba
en relación a las conductas no basadas en pruebas. La gran mayoría de las pruebas se
realizan con referencia a las normas, lo que significa que sus resultados se interpretan en
referencia a la muestra de estandarización. Pero no todas las pruebas siguen este modelo.
En particular, las pruebas realizadas con referencia al criterio son usadas para determinar
dónde está colocado un individuo con respecto a objetivos educativos definidos rí-
gidamente. Para estos instrumentos, las comparaciones son con respecto a un estándar
objetivo más que con respecto al desempeño de otros examinados. Los resultados de una
prueba aritmética con referencia al criterio podrían reportar que un estudiante suma
números de tres dígitos con 78% de exactitud, mientras que la meta para los sistemas
educativos es de 95%. Debe notarse aquí que el desempeño de otros estudiantes es
irrelevante, lo que importa es si el estudiante corresponde a un criterio aceptado. Otra
distinción importante está entre las pruebas de grupo y las pruebas individuales. Se puede
administrar una prueba de grupo a muchos examinados al mismo tiempo, lo que la hace
económica. La desventaja es que la persona que proporciona la prueba no tiene idea de si
cada persona que toma la prueba se está esforzando, y si responde en las columnas
adecuadas, etc. Una prueba individual tiene la ventaja de que la persona que la aplica
puede estar cerca del examinado y observar las respuestas correctas e incorrectas y otros
detalles clínicos de la aplicación de la prueba. Asimismo, una prueba individual permite
tener una amplia libertad en cuanto al tipo de estímulos que se pueden presentar (por
ejemplo, manipulación de cubos o armado de rompecabezas). Por último, debemos
distinguir entre la aplicación de pruebas o test y la evaluación. La aplicación de pruebas
o tests representa una tarea muy limitada, la cual consiste en la administración, la
calificación y la interpretación de pruebas individuales. En cambio la evaluación es un
término más amplio que se refiere a todo el proceso de recopilación de información y su
síntesis para hacer predicciones acerca de la persona. La evaluación se estudió en el
capítulo anterior. Aquí, en este capítulo, restringimos el análisis a esa resolución limitada
que son las pruebas. Tipos de pruebas Los psicólogos practicantes tienen acceso
literalmente a miles de diferentes pruebas y el número de instrumentos útiles continúa
creciendo cada año. Por ejemplo, una reciente publicación del Mental Measurements
Yearbook contiene información descriptiva y revisiones críticas sobre 418 pruebas
nuevas o revisadas (Conoley e Impara, 1995). Este libro se publica cada cierto número de
años; cada publicación inspecciona sólo una pequeña parte de los instrumentos
disponibles. Aunque podría parecer que por la diversidad de las pruebas es difícil hacer
una clasificación simple, la mayoría de las pruebas se ajusta dentro de unas cuantas
categorías. Las pruebas más ampliamente usadas son aquellas que evalúan la inteligencia,
el funcionamiento neuropsicológico, la personalidad y los intereses o valores
individuales. Los instrumentos para propósitos especializados también reciben un uso
significativo por parte de los psicólogos practicantes. A continuación se revisarán estas
categorías. Pruebas de inteligencia y pruebas relacionadas Las pruebas de inteligencia
muestran generalmente una amplia serie de habilidades para evaluar el nivel general de
la habilidad mental del examinado. A menudo estos resultados también proporcionan un
perfil de las puntuaciones de las subescalas, pero generalmente la puntuación general es
la que tiene mayor utilidad. Las pruebas de inteligencia también pueden llamarse pruebas
de habilidad puesto que avalan la habilidad actual. En este contexto es importante la
distinción entre las pruebas de habilidad, aptitud y logro. En realidad, las correlaciones
entre las puntuaciones de estos tres tipos de pruebas pueden ser sustanciales y los
reactivos de todas ellas pueden ser altamente similares en estilo y contenido. La diferencia
entre ellas resulta en su mayor parte de la forma en cómo se usan. Las pruebas de habilidad
o inteligencia se usan para evaluar el nivel intelectual general de un individuo para
propósitos tales como la identificación del origen de los problemas académicos; una
prueba de inteligencia deberá ser un componente esencial en el diagnóstico de un
problema de aprendizaje. En contraste, las pruebas de aptitud se usan para pronosticar el
éxito futuro en la escuela, la capacitación o la carrera profesional. Estas pruebas cor
frecuencia realizan una función de guardián, incluyendo la admisión a las escuelas, la
entrada a la milicia y a los empleos corporativos. Finalmente, las pruebas de logro miden
las habilidades actuales con relación a las metas educativas identificadas de un programa
escolar o de capacitación. Su función no es valorar únicamente el desempeño de los
examinados, sino que también evalúa el éxito de los programas educativos. Pruebas y
baterías de pruebas neuropsicológicas Las pruebas y baterías (o series) de pruebas
neuropsicológicas se usan para la evaluación de personas de quienes se sospecha o se
sabe que sufren de daño cerebral causado por lesiones en la cabeza, embolias o trastornos
neurológicos. Estos procedimientos incluyen un amplio espectro de métodos, que van
desde pruebas de monitoreo de 10 minutos hasta baterías detalladas de seis horas. Algo
común para todas las formas de evaluación neuropsicológica es el uso de instrumentos
especializados sensibles a los efectos del daño cerebral. Estas pruebas evalúan las
fortalezas y debilidades sensoriales, motoras, cognoscitivas y conductuales para
propósitos de planeación del tratamiento y documentación sobre la mejoría. Pruebas de
personalidad Las pruebas de personalidad miden los rasgos, las cualidades o los
comportamientos que determinan la individualidad de una persona. Estos instrumentos
incluyen listados, inventarios de reporte personal y métodos proyectivos, tales como las
técnicas para completar frases y pruebas de manchas de tinta. Las pruebas de personalidad
se usan para determinar el funcionamiento dentro de un margen de comportamiento
normal (por ejemplo, clasificar la asertividad de un candidato a ventas) y también para
evaluar comportamientos anormales (por ejemplo, evaluar el grado de depresión de un
paciente hospitalizado). En la mayoría de los casos, la evaluación de la personalidad
ayuda en la predicción del comportamiento. Pruebas de intereses y valores Las pruebas
de intereses y valores evalúan la preferencia de un individuo por ciertas actividades o
valores. Estas pruebas están basadas en la suposición explícita de que los patrones de
intereses y de los valores personales pueden usarse para predecir la satisfacción dentro de
ocupaciones específicas. Este tipo de información tiene muchos usos, pero una aplicación
que destaca es la de ayudar a las personas examinadas a encontrar una ocupación
adecuada. Por ejemplo, la encuesta Campbell sobre las habilidades e intereses (CISS, por
sus siglas en inglés); Campbell, Hyne y Nilson, 1992) consiste en 200 reactivos sobre
diversas actividades que el examinado clasifica en una escala de seis puntos; dichos
reactivos van desde "fuerte agrado" hasta "fuerte desagrado". Algunas de las actividades
son semejantes a las siguientes: Un piloto que pilotea aviones comerciales Un biólogo
que trabaja en un laboratorio de investigación Un detective policiaco que resuelve
crímenes La prueba también incluye 120 reactivos de habilidades que se clasifican en una
escala de seis puntos y van desde "experto" (reconocido ampliamente como excelente en
esta área) hasta "ninguno" (no tiene habilidades en esta área). Algunas de las habilidades
son semejantes a las siguientes: Ayudar a una familia a resolver sus conflictos Hacer
muebles usando herramientas de carpintería Escribir un artículo para una revista Las
respuestas para los reactivos de habilidades e intereses se comparan con aquellas que
sirven para emplear personal exitosamente dentro de ocupaciones específicas y
determinar su capacidad en varios campos de trabajo. Pruebas especializadas Muchas
pruebas están diseñadas para aplicaciones altamente especializadas o que pretenden
usarse dentro de subpoblaciones específicas. Los psicólogos clínicos estudiosos pueden
entonces reconocer una aplicación apropiada para pruebas como las siguientes, las cuales
fueron seleccionadas al azar por parte de Conoley e Impara(1995): Batería de pruebas de
Arizona para los trastornos de la comunicación durante la demencia Escala de depresión
para los niños Cuestionario multifactorial de liderazgo Cuestionario sobre el abuso de
sustancias (prueba para adultos) Prueba sobre la capacidad temprana para leer (en el caso
de personas sordas o parcialmente sordas) Prueba sobre la exploración y atención visual
Esta lista es únicamente un ejemplo para ilustrar el increíble margen y diversidad de las
pruebas o tests disponibles dentro del campo de la psicología clínica. La existencia de
éstas y miles de otras pruebas hace surgir un punto importante acerca de la práctica de las
pruebas dentro de la psicología clínica: ¿cómo sabrá el psicólogo si una nueva prueba es
buena? Como se discutirá en la siguiente sección, el examinador psicológico deberá ser
experto en los estándares de construcción y evaluación de las pruebas. Construcción y
evaluación de pruebas Las pruebas son inventadas y elaboradas por psicólogos y otros
especialistas con base en una o más técnicas para crear pruebas. Las técnicas más
comunes para la construcción de pruebas incluyen los métodos guiados por la teoría, los
procedimientos empíricos y la aplicación del análisis factorial para los datos preliminares.
A continuación se describe cada uno de estos métodos. Por supuesto, algunas pruebas se
construyen por medio de la interacción de dos o tres métodos. Pruebas guiadas por la
teoría El método guiado por la teoría inicia con un listado de las cualidades que el
especialista en pruebas busca medir. Supongamos que el diseñador de pruebas desea
construir una nueva escala de reporte personal para medir el potencial de liderazgo. La
construcción de la prueba se iniciaría con una revisión de la teoría más importante, que
podría revelar que el potencial para el liderazgo está caracterizado por la confianza en
uno mismo, la resistencia ante la presión, la inteligencia a un gran nivel, la persuasión, la
asertividad y la habilidad para sentir lo que otros están pensando y sintiendo. Basándose
en esta lista derivada de la teoría, el que crea la prueba podría hacer una serie de preguntas
cuya respuesta fuera verdadero-falso, la cual en una base razonable podría cubrir las
siguientes cualidades (Gough y Bradley, 1992): • Por lo general me siento seguro de mí
mismo y con confianza. (V) • Cuando otros están en desacuerdo conmigo, usualmente me
mantengo tranquilo o cedo ante sus puntos de vista. (F) *Creo que estoy claramente por
encima del promedio en cuanto a la capacidad intelectual. (V) • Con frecuencia siento
que no me doy cuenta de cómo reaccionan los demás ante las cosas. (F) • Mis amigos
probablemente me describen como una persona fuerte, vigorosa. (V) La V o la F después
de cada afirmación muestra la dirección hacia el potencial de liderazgo. Por obvias
razones, este método para el desarrollo de pruebas también es conocido como el método
de escala racional. Una característica importante de las pruebas guiadas por la teoría es
que las escalas deben poseer consistencia interna. La consistencia interna se refiere a la
calidad por la cual los reactivos de una escala individual se correlacionan positivamente
entre sí y también con la puntuación total de la escala. De hecho, esta característica
necesaria puede servir para seleccionar los reactivos adecuados y para eliminar los
reactivos pobres al inicio del desarrollo de la prueba. Se usa el estadístico conocido como
coeficiente alfa para evaluar la consistencia interna. El coeficiente alfa se calcula a partir
de los datos de pruebas de cientos de examinados y puede variar de casi cero a un perfecto
1.0 (nunca logrado). Entre más cercana sea la puntuación a 1.0, mayor será la consistencia
interna de la escala. Para las pruebas construidas por medio del método guiado por la
teoría descrito aquí, el coeficiente alfa es por lo general de 0.8 a 0.9 o mayor. Un buen
ejemplo de una prueba guiada por la teoría es el Inventario multiaxial y clínico de Millón
(tercera edición), discutido más adelante. Pruebas de criterio empírico En el método
empírico, los reactivos de la prueba son seleccionados para su inclusión basándose casi
enteramente en su capacidad para separar cierto criterio de una muestra normativa. Por
consiguiente, este método es menos dependiente de consideraciones teóricas, juicio
racional y de la orientación de expertos. Lo que importa es el desempeño en el mundo
real de los reactivos individuales. El método del criterio empírico se ilustra mejor a través
del ejemplo. Supóngase que el diseñador de una prueba desea derivar una nueva escala
sobre la depresión basada en un gran banco preexistente de reactivos sobre personalidad,
y que tiene una estructura de respuesta verdadero-falso. Se podrían usar los siguientes
procedimientos (Gregory, 1996): 1. Se selecciona cuidadosamente un grupo homogé- neo
de personas que experimenten una depresión mayor para que contesten los cuestionarios
de respuesta verdadero-falso. 2. Para cada reactivo, se compara la frecuencia del grupo
de depresión con la frecuencia de la muestra normativa. 3. Los reactivos que muestren
una diferencia grande en su frecuencia entre las muestras de depresión y las muestras
normativas serán seleccionados para la escala de depresión, tendentes a la dirección
favorecida por los sujetos deprimidos (verdadero o falso, según corresponda). 4. Entonces
las puntuaciones en bruto de la escala de depresión serán simplemente el número de
reactivos contestados en la dirección específica. El ejemplo más prominente de una
prueba desarrollada por medio del método del criterio empírico es el MMPI-2. Para la
mayor parte de las escalas clínicas, la afiliación de los reactivos fue determinada al
contrastar las frecuencias de apoyo de los grupos clínicos seleccionados (por ejemplo,
hipocondriasis, depresión, personalidad antisocial, esquizofrenia) contra una muestra
normativa de adultos. Una consecuencia inevitable de este método de construcción de
escalas es que muchos reactivos de las pruebas sirven en más de una escala. Por ejemplo,
un reactivo que discrimina a las personas con depresión de los sujetos normales también
podría discriminar a las personas con hipocondria de los sujetos normales y, en
consecuencia, finalizará siendo asignado a ambas escalas. El traslape del reactivo entre
las escalas es una consecuencia inevitable de esta estrategia para desarrollar pruebas.
Pruebas de análisis factorial El análisis factorial es una técnica estadística que es útil para
resumir la interrelación entre un gran número de reactivos de prueba en una forma concisa
y exacta como preludio para el desarrollo de la escala. Está más allá del alcance de este
libro ahondar en los detalles del análisis factorial, pero se pueden usar unas pocas notas
y un ejemplo para ilustrar este método. Por ejemplo, el análisis factorial puede ayudar a
un diseñador de pruebas a descubrir que la recolección de 200 preguntas de respuesta
verdadero-falso representa únicamente cinco variables fundamentales, llamadas factores.
El análisis factorial también puede identificar los reactivos especí- ficos que representan
mejor a cada una de las cinco variables; información que puede usarse en la construcción
de la escala. A partir de este punto, el contenido de los reactivos en cada escala podría
usarse para identificar lo que se mide. El ejemplo destacado de una prueba desarrollado
por medio de un análisis factorial es la Prueba sobre los 16 factores de la personalidad
(16PF, por sus siglas en inglés), que será estudiado más adelante. Por supuesto, con todas
las técnicas descritas aquí, la investigación que está en proceso necesita identificar las
propiedades psicométricas de una prueba. En particular, independientemente de la forma
en que se haya desarrollado una prueba, se necesitará más investigación para probar su
confiabilidad y validez. Trataremos la evaluación de las pruebas psicológicas en la
siguiente sección.
EVALUACIÓN DE LAS PRUEBAS PSICOLÓGICAS
Confiabilidad de las pruebas Confiabilidad se refiere a los atributos de consistencia con
los que una prueba se mide. Cuando todos los otros factores se mantienen constantes, una
prueba confiable es aquella que produce resultados idénticos (o al menos altamente
similares) en un examinado, de una ocasión a la siguiente. Los expertos en psicometría
han inventado varias formas para evaluar la confiabilidad de las pruebas, mismas que
revisaremos aquí. El método más directo para medir la confiabilidad es administrar una
prueba dos veces al mismo grupo de sujetos y luego calcular el coeficiente de correlación
entre los dos grupos de puntuaciones. Esto es conocido como confiabilidad test-retest, y
los resultados pueden variar desde un sombrío 0.0 (con ninguna confiabilidad) a un
teóricamente posible 1.0 (confiabilidad perfecta). Cuando se usan los resultados de una
prueba para tomar decisiones acerca de los individuos, un lineamiento aceptado es que su
confiabilidad deberá ser de 0.90 o mayor. Guilford y Fruchter (1978) ofrecen el siguiente
consejo: Existe cierto consenso en que para ser muy exacto en una medición de las
diferencias de un individuo en algunas características, la confiabilidad deberá estar por
encima de 0.90. Sin embargo, lo cierto es que muchas pruebas estandarizadas con
confiabilidad tan baja como 0.70 han probado ser muy útiles. Y pruebas con
confiabilidades más bajas pueden ser útiles en investigación (p. 87). Se pueden usar
muchos otros métodos para evaluar la confiabilidad de una prueba o escala. Un método
popular es administrar el instrumento una sola vez a un grupo grande de sujetos y luego
correlacionar las puntuaciones de una mitad de la escala (por ejemplo, los reactivos pares)
con las puntuaciones de la otra mitad de la escala (por ejemplo, los reactivos nones). Esto
es conocido como el método por mitades. Dado que la correlación inicial es derivada
únicamente sobre una mitad del número total de reactivos, se necesita un ajuste estadístico
menor (la fórmula Spearman-Brown) para estimar la confiabilidad de toda la escala. Un
método relacionado que se mencionó antes es el método de la consistencia interna, en el
que se calcula un índice especializado de confiabilidad del coeficiente alfa. El método por
mitades y el coeficiente alfa están relacionados; de hecho, se puede mostrar que el
coeficiente alfa es el promedio de todos los coeficientes de confiabilidad posibles del
método por mitades. Para las pruebas en las que se necesita el juicio del examinador para
obtener las puntuaciones, también es necesario el cálculo de la confiabilidad entre
estimadores. Este es un procedimiento directo en el que una gran muestra de pruebas es
calificada independientemente por dos o más examinadores y luego se correlacionan las
puntuaciones de los pares de examinadores. La confiabilidad entre estimadores
complementa otros estimados de confiabilidad, pero no los reemplaza. Se necesitan
observar algunas precauciones al evaluar la confiabilidad de las pruebas psicológicas. La
confiabilidad test-retest será falsamente baja si está basada en una muestra de sujetos para
los que hay una restricción del margen sobre las características a medir. Así, sería
insensato evaluar la confiabilidad test-retest de una prueba de inteligencia basándose en
los resultados de estudiantes en un programa para niños superdotados y talentosos. Otra
situación que llama la atención a ser cautos es la evaluación de las pruebas de velocidad,
ya que en ellas la puntuación está basada principalmente en el número de reactivos
completados. En este caso, el método par-impar para la confiabilidad del mé- todo por
mitades producirá un resultado bastante falso para la confiabilidad de la prueba.
Evaluación de la validez de la prueba La validez de una prueba se refiere a qué tanto mide
ésta lo que se desea medir. Aunque hasta cierto punto la validez puede evaluarse por
medio de criterios estadísticos, la validez de una prueba recae finalmente sobre la
acumulación de los hallazgos de las investigaciones. Como lo expresó Anastasi (1986),
"la validez es una cosa viviente; no se muere ni se embalsama cuando la prueba es
publicada". Por consiguiente, la validación de una prueba es un proceso en desarrollo que
inicia con la construcción de la prueba y continúa a través de la vida de la misma.
Tradicionahnente, los diferentes modos para acumular la evidencia de la validez han sido
catalogados en las "tres V": • Validez de contenido • Validez relacionada con el criterio •
Validez de constructo Otro concepto que requiere una breve mención es la validez
nominal, que no es en realidad una forma técnica de validez pero es, no obstante, un
asunto esencial de las relaciones públicas. Una prueba posee validez nominal si les parece
válida a los usuarios (es decir, a los que utilizan la prueba para conseguir datos sobre los
resultados), a quienes la aplican, y especialmente para los que la toman o la responden.
La validez nominal es importante debido a que ayuda a asegurar que una prueba sea
aceptada y usada. La validez de contenido se refiere al grado en que las preguntas,
reactivos o tareas que hay en una prueba son representativos de la clase de
comportamientos que el diseño de dicha prueba permite muestrear. Un método para la
validez de contenido es la construcción anticipada de una tabla de especificación de
dominio que identifique claramente las subáreas de contenido que el diseñador de la
prueba espera medir. Por ejemplo, en el diseño de una prueba de logro sobre la historia
antigua estadounidense, el diseñador podría especificar cuatro dominios: el periodo
colonial, la revolución estadounidense, la expansión occidental y la guerra civil. La
validez de contenido podría asegurarse diseñando preguntas que toquen estos cuatro
dominios. Dicha validez es sobre todo un llamado al juicio del diseñador de la prueba y
por lo regular no se reduce a un solo nú- mero. Frecuentemente se establece un panel de
expertos para confirmar que los reactivos en efecto pertenezcan a los dominios
predeterminados. La validez relacionada con el criterio es demostrada cuando una prueba
es efectiva para estimar el desempeño de un sujeto sobre la medición de un resultado
relevante. En un método para la validez relacionada con el criterio conocido como validez
concurrente, las puntuaciones de las pruebas son comparadas con un criterio relevante
externo. Por ejemplo, los resultados de una prueba de diagnóstico psiquiátrico resuelta
con lápiz y papel se puede comparar con el diagnóstico real recibido de los psicólogos.
Por supuesto, estos profesionales no deberán tener acceso a los resultados de la prueba;
de otro modo se comete un error conocido como "contaminación del criterio". Otro
ejemplo de la validez concurrente es correlacionar los resultados de una prueba nueva con
una prueba existente administrada al mismo tiempo. En este caso, la relación deberá ser
sustancial, en el orden de r = 0.7 o más alto, para establecer la validez concurrente del
nuevo instrumento. Otro método para la validez relacionada con el criterio es la validez
predictiva. En este caso se obtienen los criterios de medición en el futuro; frecuentemente
meses o años después de que fueron obtenidas las puntuaciones de las pruebas originales.
Muchas pruebas de admisión a la universidad siguen este modelo, en el que las
puntuaciones obtenidas de las pruebas en la preparatoria se correlacionan tiempo después
con el punto promedio del grado universitario con el propósito de validar los
instrumentos. Los resultados confirmatorios para la validez predictiva con frecuencia son
más bajos que para la validez concurrente, en un rango de 0.3 a 0.7. El último tipo de
validez es la validez de constructo. Un constructo es una cualidad o rasgo teórico,
intangible, en el que las personas difieren (Messick, 1989). La mayoría de las pruebas
psicológicas están diseñadas para medir constructos, los ejemplos incluyen depresión,
inteligencia, capacidad de liderazgo y hostilidad sobrecontrolada. La validez de
constructo se refiere a si los resultados de las pruebas de varias fuentes obedecen a un
patrón teóricamente sensible. No hay un método único para evaluar la validez de
constructo. En lugar de eso, la evidencia de este tipo de validez siempre descansa en un
programa de investigación. Aquí están algunos ejemplos de los tipos de hallazgos que
podrían indicar que una nueva escala posee validez de constructo (Gregory, 1996): • La
escala parece ser homogénea y, por consiguiente, mide un constructo único. • Los
cambios en el desarrollo a través del tiempo o a través de sujetos de diferentes edades son
consistentes con la teoría del constructo que será medido. • Las diferencias entre los
grupos bien definidos sobre la prueba son consistentes con la teoría. • Los efectos de la
intervención producen cambios en las puntuaciones de la prueba que son consistentes con
la teoría. • La escala se correlaciona más fuertemente con los instrumentos relacionados
que con los instrumentos no relacionados. • El análisis factorial de las puntuaciones de la
prueba produce resultados que son sensibles a la luz de la teoría para la que la escala fue
producida. Usted notará que alguno de los criterios presentados aquí también pueden ser
discutidos bajo la validez de contenido y la validez relacionada con el criterio. Esto se
debe a que la validez de constructo abarca estos otros tipos de validez. Dicha validez es
el concepto unificado por el que se muestra que los resultados de las pruebas son
significativos y, por tanto, es considerado el más importante de los métodos para la
validación de las pruebas.
PRUEBAS DE INTELIGENCIA
Aunque existen cientos de pruebas de aplicación grupal de inteligencia disponibles para
la práctica clínica, el número de pruebas individuales es mucho más pequeña (actualmente
se cuenta con menos de una docena [véase la tabla 3.1]). De este número, los psicólogos
prefieren principalmente las escalas de Wechsler y de Stanford-Binet en su cuarta edición.
Nos enfocaremos a estos instrumentos, pero también se mencionarán otras pruebas de
inteligencia que son innovadoras y útiles. Escalas Wechsler: WPPSI-R, WISC-lll, y
WAIS-R/lll Aunque David Wechsler no fue el primer estadounidense creador de una
escala para medir la inteligencia, la familia de escalas relacionadas que creó ha dominado
el campo de las pruebas clínicas desde los años cincuenta. Cuando comenzó a trabajar en
su primer instrumento en 1932, concibió una metodología elegantemente simple que
consistía en casi una docena de subescalas divididas en secciones verbales y de ejecución.
Dentro de una subescala individual, el examinador inicia con reactivos sencillos y procede
hasta un número predeterminado de fallas y luego continúa con la siguiente subescala. Al
terminar, cada prueba Wechsler ofrece una serie de puntuaciones para las subescalas,
normadas para una media de 10 y una desviación estándar de 3, CI verbal, CI de ejecución
y CI de escala completa, cada una con la conocida media de 100 y la desviación estándar
de 15. Estas características han permanecido constantes en varias ediciones de estos tres
instrumentos (una sagaz decisión de mercadotecnia que ayuda a explicar su enorme
popularidad). Las versiones actuales incluyen la Escala Wechsler de inteligencia para
niveles preescolar y primaria (versión revisada) (WPPSIR, por sus siglas en inglés); la
escala Wechsler de inteligencia para niños (tercera edición) (WISC-III, por sus siglas en
inglés), y la escala Wechsler de inteligencia para adultos (versión revisada) (WAIS-R,
por sus siglas en inglés), que fue publicada en una nueva Tabla 3.1 Resumen de las
pruebas de inteligencia individuales que actualmente están en uso WAIS-III 1997 Escala
Wechsler de inteligencia para adultos-III; edades de 16 a 89 años; una ligera revisión y
extensión de la altamente popular WAIS-R (1981). KAIT 1992 Prueba Kaufman de
inteligencia para adolescentes y adultos; edades de entre 11 años y mayores; basada en el
modelo Cattell-Hom de inteligencia fluida/cristalizada. WISC-III 1991 Escala Wechsler
de inteligencia para niños (tercera edición); edades de 6 a 16.5 años, estandarizada junto
con la prueba Wechsler de logro individual (WIAT,). DTLA-3 1991 Pruebas Detroit
sobre las aptitudes para el aprendizaje, tercera edición; edades de 6 a 17 años; el número
de calificaciones compuestas (16) excede el número de subescalas (11). DAS 1990
Escalas sobre la habilidad diferencial; edades de 2.5 a 18 años; las subescalas poseen un
alto grado de especificidad, el cual es inusual. K-BIT 1990 Prueba breve de inteligencia
de Kaufman; edades de 4 a 90 años; esta breve prueba de filtración (de 15 a 30 minutos)
tiene una excelente confiabilidad y validez. WPPSI-R 1989 Escala Wechsler de
inteligencia para niveles preescolar y primaria, edición revisada; edades de 3 a 7 años 3
meses; es un excelente pronosticador a largo plazo de la inteligencia y del desempeño
escolar. SB:FE 1986 Stanford-Binet, cuarta edición; edades de los 2 años a la edad adulta;
una medida excelente de la inteligencia general, pero su estructura factorial continúa en
debate. K-ABC 1983 Batería de pruebas Kaufman de evaluación para niños; edades de
los 2.5 a los 12.5 años; una prueba intrigante basada en la distinción entre el
procesamiento simultáneo y el sucesivo. SIT 1983 Prueba Slosson de inteligencia; edades
de los 2 años a la edad adulta; una breve prueba basada en los programas de Stanford-
Binet y Gesell. WAIS-R 1981 Escala Wechsler de inteligencia para adultos, edición
revisada; edades de los 16 años a la edad adulta; una prueba excelente de la inteligencia
de los adultos que ha sido reemplazada por la WAIS-III (1997). MSCA 1972 Escalas
McCarthy de habilidades para niños: edades de los 2.5 a los 8.5 años; una buena medida
de la inteligencia general que necesita revisarse y volverse a estandarizar. a finales de
1997. Estas pruebas fueron diseñadas para poblaciones preescolares y de primaria; y para
poblaciones de adolescentes/adultos, respectivamente, con cierto traslape en los rangos
de edad entre las pruebas adyacentes. Aquí enfocamos nuestra atención en la WAIS-R y
WAIS-III; y le recordamos que la WPPSI-R y la WISC-III son similares en el método
(con un nivel de dificultad apropiado a la edad y pocas modificaciones en las subescalas).
La WAIS-R consiste en 11 subescalas, que alternan entre seis subescalas verbales y cinco
subescalas de ejecución (véase la tabla 3.2). La WAIS-III incluye algunas subescalas
adicionales desarrolladas para evaluar las habilidades sobre un tercer factor hipotético
(atención/memoria de trabajo) y un cuarto factor (velocidad del procesamiento de la
información). Ambas pruebas están diseñadas para edades de 16 años y más. Además de
las puntuaciones en las 11 subescalas, la WAIS-R proporciona tres puntuaciones
resumidas: CI verbal, CI de ejecución y CI de escala completa. La WAIS-III permite un
modelo alternativo en el que cuatro puntuaciones compuestas también son informadas:
comprensión verbal, organización perceptual, memoria de trabajo y velocidad de
procesamiento. Las tres puntuaciones de CI tradicionales (verbal, de ejecución, escala
completa) demuestran una confiabilidad excepcionalmente fuerte, con coeficientes de
test-retest tan altos como 0.97 para el CI verbal y el CI de escala completa. Desde un
punto de vista práctico, esto significa que las calificaciones de CI verbal y de escala
completa se pueden considerar precisas dentro de un rango de más o menos 5 puntos. La
confiabilidad del CI de ejecución es un poco más baja, aproximadamente de 0.90, pero
sigue siendo alta. De hecho, por medio del criterio psicométrico tradicional (consistencia
interna test-retest), la confiabilidad de los CI de la WAIS-R y la WAIS-III es tan buena
como podría esperarse de un instrumento que toma menos de 90 minutos para
administrarse. La validez de la WAIS-R/III está fuertemente apoyada por su correlación
sustancial con otras pruebas de inteligencia (de 0.8 a 0.9 en muchos estudios) y por su
capacidad para predecir criterios relacionados con la inteligencia, tales como la
clasificación en preparatoria y las calificaciones universitarias. Las puntuaciones de las
pruebas y subescalas en varios grupos de personas Tabla 3.2 Subescalas y reactivos
típicos en la WAIS-R y la WAIS-I SUBESCALA REACTIVOS TÍPICOS Vocabulario
Información Comprensión Aritmética Semejanzas Retención de dígitos Diseño con cubos
Ensamble de objetos Cómo ordenar dibujos Figuras incompletas Dígito-símbolo Defina:
verano, circunferencia, histriónico, sinónimos, ruidoso. ¿Cuál es el elemento más común
en el aire? ¿Cuál es la población del mundo? ¿Cómo se convierte el jugo de las frutas en
vino? ¿Quién escribió Madame Bovary? ¿Por qué la gente utiliza ropa? ¿A qué se refiere
el refrán: "más vale pájaro en mano, que un ciento volando"? ¿Por qué se nombra en
forma vitalicia a los jueces de la Suprema Corte? Si tiene quince manzanas y regala siete,
¿cuántas le quedan? John compró un estéreo con un descuento del 15 por ciento de su
precio de venta original, que era de $600. ¿Cuánto pagó John por el estéreo? ¿En qué se
parecen las camisas y los calcetines? ¿En qué se parecen un libro y un periódico? ¿En que
se parecen una caja y un costal? Repetir de dos a nueve números dígitos hacia delante, y
luego los mismos en orden inverso. Organizar 4 bloques para hacer coincidir patrones de
2 x 2; luego 9 bloques para patrones de 3 x 3. Ensamblar piezas para formar objetos
comunes, por ejemplo, zapatos, bicicletas, gatos, rostros humanos. Organizar de cuatro a
seis dibujos de manera que bosquejen en forma creciente historias complejas. Encontrar
la parte faltante en figuras que van incrementando su complejidad. Copiar diseños
asociados con dígitos del 1 al 9 tan rápido como sea posible. Nota: Además de las
subescalas centrales presentadas aquí, la WAIS-III incluye una matriz de razonamiento y
subescalas opcionales diseñadas para evaluar la atención y la velocidad de procesamiento.
también son consistentes con las teorías predominantes de inteligencia, que apoyan la
construcción de la validez del instrumento. Por ejemplo, las subescalas del WAIS-R que
confían en la recuperación de las respuestas aprendidas revelan bastante menos declive
en edades avanzadas que las subescalas que requieren la solución de problemas
novedosos (Sattler, 1982). Este hallazgo ha sido ampliamente comprobado en las
investigaciones gerontológicas y coincide con la teoría de la inteligencia de Cattel-Horn
(Horn, 1994). La WAIS-R es, con seguridad, una prueba excelente para la evaluación
clínica de la inteligencia de adultos, pero no es un instrumento perfecto. Una de sus
debilidades notables es una anomalía extraña en las puntuaciones de las pruebas para
adolescentes en la muestra de estandarización, que sugiere que estos individuos no pueden
ser representativos de la población total. La estandarización de la WAIS-III, la sucesora
de la WAIS-R, fue planeada cuidadosamente para eliminar las preocupaciones acerca de
la representatividad de la muestra de estandarización. Esta muestra incluyó 2,450
personas que abarcaban edades de los 16 a los 89 años. La muestra fue estratificada en
sexo, nivel educativo, origen étnico y región del país. Para estas variables, los sujetos en
el grupo de estandarización reflejaron estrechamente los censos resultantes para la
población estadounidense. Stanford-Binet (cuarta edición) La prueba Stanford-Binet,
ahora en su cuarta edición, es la prueba de inteligencia individual más antigua que existe
en la actualidad. Basada en una revisión de las escalas originales Binet-Simon, la primera
edición de la prueba fue producida por Lewis Terman en la Universidad de Stanford en
1916. La versión actual es sustancialmente más intrincada, abarca más aspectos que sus
predecesoras. Mientras que la primera, segunda y tercera edición (publicadas en 1916,
1937 y 1960) incluían únicamente una puntuación de CI global, la cuarta edición consiste
en 15 subescalas organizadas en cuatro áreas: verbal, visual/abstracta, cuantitativa, y de
memoria a corto plazo (ver tabla 3.3). La prueba está diseñada para edades de 2.5 años y
mayores. No todas las subescalas son adecuadas para todos los niveles de edad. Como
consecuencia, se le administran al examinado de 8 a 10 subescalas (dependiendo de su
nivel de edad). Esto hace más manejable la prueba, pero también introduce un problema:
la falta de una batería o serie comparable a lo largo de todos los niveles de edad cubiertos
por la prueba. No se les administran las mismas subescalas a los examinados jóvenes que
a los examinados adultos, lo que significa que la prueba mide distintos aspectos de
inteligencia dependiendo las diferentes edades. La prueba Stanford-Binet, cuarta edición
(SB:FE, por sus siglas en inglés) produce hasta 10 puntuaciones de subescalas, 4
puntuaciones de área y una puntuación compuesta (que ya no se llama CI) basadas en la
prueba completa. El instrumento posee cualidades psicomé- tricas muy fuertes, al menos
en lo que se refiere a la puntuación global. La muestra de estandarización es excelente, la
confiabilidad de la puntuación compuesta es sustancial (con coeficientes test-retest en los
0.90 para la mayor parte de los grupos de edades), y la prueba es claramente válida como
una medida de la inteligencia general. Sin embargo, es cuestionable si la inteligencia
puede ser dividida de manera tajante en las cuatro áreas pretendidas por los autores de la
prueba. La mayoría de los investigadores prefieren un modelo de dos factores (verbal, no
verbal) para sujetos de hasta 6 años de edad, y un modelo de tres factores (verbal, no
verbal y memoria) para los niños de 7 años de edad y mayores (Laurent, Swerdlik y
Ryburn, 1992). La SB:FE posee varias ventajas sobre las escalas Wechsler más
ampliamente usadas. Por una parte, la prueba ofrece un buen número de reactivos muy
sencillos en la mayoría de las subescalas, lo cual permite al examinador obtener una
evaluación más precisa del Tabla 3.3 Las cuatro áreas de contenido y las quince
subescalas de la prueba Stanford-Binet, cuarta edición.
RAZONAMIENTO RAZONAMIENTO RAZONAMIENTO MEMORIA A VERBAL
CUANTITATIVO VISUAL/ABSTRACTO CORTO PLAZO Vocabulario Cuantitativo
Análisis de patrones Memoria de cuentas Comprensión Series de números Copiado
Memoria de oraciones Disparates Construcción de ecuaciones Matrices Memoria de
dígitos Relaciones verbales Doblar/cortar papel Memoria de objetos funcionamiento de
bajo nivel en los niños y los jóvenes adultos. Otra ventaja es que la prueba incluye cuatro
subescalas que abarcan los diferentes tipos de memoria a corto plazo. Por consiguiente,
la SB:FE es el instrumento de elección cuando el motivo de la referencia incluye la
sospecha de trastornos de la memoria. Otras pruebas de inteligencia Alan Kaufman ha
diseñado varias pruebas innovadoras de inteligencia que están ganando popularidad. La
batería de pruebas Kaufman de evaluación para niños (K-ABC, por sus siglas en inglés)
fue la primera prueba de inteligencia construida dentro del enfoque de la neuropsicología
moderna (Kaufman y Kaufman, 1983a, 1983b). Muchas de sus subescalas son semejantes
a las pruebas neuropsicológicas. Una subescala llamada reconocimiento facial, que evalúa
la habilidad de reconocer a una persona a través de diferentes fotografías, tiene una
naturaleza explícitamente neuropsicológica. Una prueba muy similar se encuentra en una
reciente batería de pruebas neuropsicológicas (Benton, Hamsher, Varney y Spreen, 1983).
Otra subescala es la conocida como movimientos de mano, en la que los sujetos deben
imitar las secuencias de los movimientos de la mano, que involucran el puño, la palma y
la parte lateral de la mano. La K-ABC incluye una escala de procesamiento secuencial
(los movimientos de la mano ilustran estas subescalas) y una escala de procesamiento
simultáneo (el reconocimiento facial ilustra estas subescalas). Todas las subescalas están
ligadas en cierta forma a conceptos neuropsicológicos de procesamiento secuencial o
simultáneo y, como tales, se piensa que son más relevantes para la planeación educativa
que las subescalas tradicionales verbales y de ejecución. Además, la prueba incluye una
escala de logro con contenido más tradicional, como son las subescalas de vocabulario,
aritmética y lectura. Una característica desconcertante de la K-ABC es que la disparidad
en las puntuaciones globales entre los niños blancos y los niños de grupos minoritarios es
mí- nima, en el orden de los 5 puntos (Kaufman, Kamphaus y Kaufman, 1985). Ésta es
mucho más pequeña que la de pruebas tales como la WISC-III y la Stanford-Binet, cuarta
edición, cuyas diferencias entre puntuaciones son por lo regular del orden de los 15
puntos, en favor de los blancos. Otra característica notable de la prueba es que los niños
la encuentran especialmente atractiva debido a sus motivaciones novedosas. Kaufman
también ha diseñado una breve prueba de inteligencia adecuada para niños y adultos
(Kaufman y Kaufman, 1990; Kaufman y Wang, 1992). Como su nombre lo sugiere, la
Prueba breve de inteligencia de Kaufman (K-BIT, por sus siglas en inglés) es una pequeña
prueba de inteligencia adecuada como medida de evaluación. La prueba incluye una
sección de vocabulario y una de matrices. La prueba de vocabulario consiste en dos
partes: vocabulario (nombrar fotos) y definiciones (decir una palabra basado en una breve
frase y en su pronunciación parcial). La prueba de matrices requiere solucionar analogías
2 x 2 y 3 x 3 usando estímulos abstractos. La K-BIT está normada para sujetos de 4 a 90
años de edad y se puede administrar en un tiempo que va de 15 a 30 minutos. La
confiabilidad de consistencia interna es excelente (.94 para los resultados compuestos en
general), y la validez concurrente con instrumentos establecidos tales como la WAIS-R y
la K-ABC es muy fuerte.
PRUEBAS NEUROPSICOLÓGICAS
La característica distintiva de las pruebas neuropsicoló- gicas es que se conoce que el
desempeño que se tenga en ellas es sensible a los efectos del daño cerebral. De hecho, el
propósito original de estos instrumentos fue ayudar a diagnosticar trastornos
neurológicos. Los expertos, como Ralph Reitan, pueden hacer inferencias muy precisas
como la localización, tipo y causa de las lesiones cerebrales. En el inicio, la evaluación
neuropsicológica brindó información valiosa del diagnóstico para los neurólogos y
neurocirujanos. Con el advenimiento de las técnicas ultrasofisticadas de imagen cerebral
tales como la resonancia magnética (RM) y la tomografía computarizada (TC), el papel
de las pruebas neuropsicológicas ha cambiado de la perspectiva médica de diagnóstico a
la perspectiva psicológica de evaluación y planeación del tratamiento. Ya no tiene sentido
pedirle al neuropsicólogo que localice un tumor cuando la RM puede proporcionar mapas
detallados con alta resolución del cerebro que revelan anormalidades más pequeñas que
la goma de un lápiz. Los resultados de las pruebas neuropsicológicas ahora otorgan una
base para la planeación, rehabilitación y evaluación del tratamiento del paciente (Lezak,
1995). La función más importante de los resultados de las pruebas neuropsicológicas es
que pueden identificar y medir las consecuencias del daño cerebral en el comportamiento.
Esta información, a su vez, proporciona una base para planear las intervenciones y
después evaluar si éstas han surtido el efecto deseado. Pruebas neuropsicológicas
individuales Un método para la evaluación neuropsicológica es hacer baterías o series de
pruebas a la medida de las necesidades específicas del paciente individual. Para este
método, un psicólogo puede elegir entre cinco y diez instrumentos relevantes de cientos
de pruebas disponibles, tales como las que se encuentran en la revisión enciclopédica de
Lezak (1995). De hecho, el número y tipos de pruebas neuropsicológicas es tan vasto que
aquí sólo podemos proporcionar unos pocos ejemplos representativos. Tarea de adición
serial auditiva moderada La tarea de adición serial auditiva moderada (PASAT, por sus
siglas en inglés) fue diseñada originalmente como un medio para seguir la recuperación
de los pacientes que habían sufrido una forma de lesión en la cabeza, relativamente
menor, conocida como contusión. Ésta es una alteración transitoria de la conciencia
debida a un golpe en la cabeza. Las consecuencias temporales con frecuencia incluyen
amnesia, mareos, náuseas, pulso débil y respiración lenta. La mayoría de las personas se
recuperan completamente de las contusiones, pero el tiempo necesario para recuperarse
puede variar de horas a meses.
La PASAT es útil para determinar si las capacidades de atención y concentración de un
paciente han regresado a la normalidad. La prueba requiere un equipo sencillo: cinta de
audio, reproductor de cintas y hoja de respuestas para el examinador. Después de explicar
cuidadosamente las instrucciones, el examinado escucha una serie de dígitos presentados
en la cinta de audio y mentalmente suma cada par de dígitos de manera sucesiva. Por
ejemplo, si los números presentados son "...4...2...8...3...5..." el examinado respondería
"...6...10...11...8...". Después de un periodo de práctica, la prueba inicia con la
presentación de 61 dígitos, uno cada 2.4 segundos. Ésta es la primera de cuatro series,
cada una consiste en 61 estímulos que requieren 60 sumas. La velocidad de presentación
aumenta en cada serie: 2.4, 2.0, 1.6, y 1.2 segundos entre cada dígito. La prueba PASAT
produce cuatro puntuaciones: el porcentaje de respuestas correctas en cada una de las
cuatro velocidades de presentación. Aunque la prueba es conceptualmente simple, los
requerimientos de procesamiento de información son complejos. El examinado debe
mantener dos números en la memoria auditiva de corto plazo, sumarlos, mencionar la
respuesta, retener el último de los dos números, mencionar la respuesta, anexar el
siguiente dígito a la memoria a corto plazo y luego iniciar el ciclo nuevamente. Algunas
de estas actividades mentales deben procesarse en paralelo (simultáneamente) más que
en una secuencia simple. Las personas con funciones cerebrales dañadas encuentran a la
PASAT extremadamente difícil —con frecuencia, imposible. Se utilizan extensas normas
respecto a la edad para determinar si el desempeño es el típico del funcionamiento normal
o es indicativo de daño cerebral prolongado. La prueba PASAT es altamente sensible a
los efectos de la contusión e identifica pacientes con presencia de daño cerebral mucho
mejor que otras medidas neuropsicológicas (Stuss, Stethem, Hugenholtz y Richard,
1989). Debido a que el desempeño declina con la edad y mejora con la práctica, los
psicólogos clí- nicos deben utilizar normas de edad apropiada y ajustar las puntuaciones
de la práctica al interpretar los resultados de la prueba PASAT. Escala de memoria
Wechsler (edición revisada) Los pacientes con daño cerebral frecuentemente se quejan
de problemas de memoria, pero también las personas deprimidas y otros que
supuestamente no deben tener dificultades memorísticas. Una prueba bien validada de la
memoria puede ayudar al clínico a evaluar la realidad sobre las sospechas de daño
cerebral. La Escala de memoria Wechsler, edición revisada (WMS-R, por sus siglas en
inglés, Wechsler, 1987) está entre las mejores pruebas disponibles para tales propósitos
(véase la tabla 3.4). La WMS-R es una medida amplia de la memoria que cubre las
modalidades auditivas y visuales y examina tanto la memoria inmediata como la tardía.
Las 13 subescalas producen puntuaciones de memoria general (que incorporan la
memoria verbal y la memoria visual), atención/concentración, y los recuerdos tardíos de
la memoria general; las puntuaciones de cada una están basadas en la media familiar de
100 y la desviación estándar de 15. La prueba funciona bien en la identificación de déficits
de memoria en el alcoholismo, lesiones de cabeza y otras condiciones que afectan a la
memoria (Reid y Kelly, 1993 Tabla 3.4 Subescalas componente s de la escala de memoria
Wechsler, edición revisada SU B ESCALA CONTENIDO Información y orientación
Preguntas simples que cubren los datos biográficos, orientación e información Memoria
lógica I Recordar dos breves historias leídas al examinado Asociación de pares verbales
I Aprendizaje asociativo de un par de palabras Memoria de figuras Memoria de diseños
abstractos Asociación de pares visuales I Aprender colores asociados con dibujos de
líneas abstractas Reproducción visual Dibujar diseños geométricos simples para la
memoria Control mental Material bien aprendido, como el alfabeto Intervalo de dígitos
Prueba tradicional de intervalos de dígitos Memoria lógica II Recuerdo de memoria lógica
I después de un lapso de 30 minutos Asociación de pares verbales II Recuerdo de la
asociación de pares verbales I después de un lapso de 30 minutos Asociación de pares
visuales II Recuerdo de la asociación de pares visuales I después de un lapso de 30
minutos Reproducción visual II Recuerdo de la reproducción visual I después de un lapso
de 30 minutos La Batería Halstead-Reitan y otras baterías fijas La evaluación
neuropsicológica puede proceder de dos maneras: una batería de pruebas flexible,
centrada en el paciente y ajustada a aspectos específicos de la referencia, o una batería de
pruebas fija que evalúe el mismo amplio rango de capacidades para cada paciente. Cada
método tiene sus fortalezas y debilidades. La batería flexible parece ser más directa y
relevante y evita el uso de pruebas innecesarias e inapropiadas; pero debido a que el
método no es de intervalo amplio, se pueden pasar por alto áreas de debilidades que no
se sospechan. Una ventaja de la batería de pruebas fija es que el examinador se puede
hacer un experto en estas pruebas y no necesita mantenerse actualizado sobre las docenas
de pruebas que pueden constituir a una batería flexible. Las baterías fijas también tienden
a ser de amplio rango, de forma que la evaluación puede ser minuciosa. Sin embargo, la
principal desventaja del método fijo es que se pueden pasar por alto áreas de disfunción
aisladas que no están cubiertas por la batería. La batería de pruebas neuropsicológicas
HalsteadReitan (Reitan y Wolfson, 1993) es tal vez la batería de pruebas fija más
utilizada. Ciertamente hay más evidencia de la validez de este método que para cualquier
otro. Hay tres versiones disponibles que se discuten aquí: niños pequeños (de 5 a 8 años
de edad), niños mayores (de 9 a 14 años de edad) y adultos (15 años y más). La parte
central de la batería de adultos la constituyen cinco pruebas desarrolladas por Ward
Halstead en los años cincuenta y luego modificadas y extendidas por su alumno, Ralph
Reitan, en los años siguientes. La batería completa consiste en estas cinco medidas junto
con varias pruebas auxiliares y unas pocas mediciones tradicionales tales como la WAIS-
R (véase la tabla 3.5). La batería completa toma aproximadamente seis horas para
administrarse. Una desventaja es que los objetos clave de la batería no son portátiles. En
particular, la prueba de categorías consiste en una caja de madera sumamente grande con
un proyector de carrusel unido en la parte trasera. La Halstead-Reitan provee un caudal
de datos que son resumidos en 42 variables calificadas entre 0 (perfectamente normal) y
3 (severamente dañado). La suma de estas calificaciones, es decir, la Escala general de
déficit neurológico, tiene aproximadamente 90% de exactitud en la clasificación de los
examinados como normales en contraste con el daño cerebral. En manos de un
neuropsicólogo bien entrenado, la batería de pruebas también brinda suficiente
información para hacer inferencias razonables acerca de la naturaleza de cualquier
problema neurológico. Por ejemplo, aquí presentamos un comentario de Reitan sobre los
resultados de una batería de pruebas: Para muchos psicólogos, el asunto confuso sobre la
interpretación de los resultados de W. L. podría ser el hecho de realizar una integración
significativa de las bajas y altas puntuaciones. W. L. obviamente respondió muy bien en
muchas de las pruebas, incluyendo algunas de las más sensibles para el daño y las
enfermeda Tabla 3.5 Pruebas y procedimientos de la batería de pruebas neuropsicológicas
Halstead-Reitan a Prueba de categoría a Prueba del desempeño táctil a Prueba de
percepción de los sonidos del lenguaje a Prueba Seashore de ritmo Prueba donde se
observa el golpeteo con los dedos Fuerza de sujeción Trazado de camino, partes A y B.
Reconocimiento de formas por medio del tacto Examen sensoperceptual Prueba de
evaluación para la afasia Complementarias Medición del razonamiento abstracto y la
formación de conceptos que requiere que el examinado encuentre la regla para dar una
categoría a las imágenes de formas geométricas. Medida de las habilidades anestésicas y
sensoriomotoras; el examinado con los ojos vendados coloca con la mano con la que más
fuerza tiene algunos bloques dentro de ciertos huecos en una tabla, luego con la otra mano,
y finalmente con ambas; también prueba la memoria incidental con los bloques. Mide la
atención y la síntesis visual-auditiva; requiere que el examinado seleccione de cuatro
opciones reproducidas en una cinta, la versión escrita de palabras que carecen de sentido
Mide la atención y la percepción auditiva; el examinado escucha una cinta de pares de
ritmos musicales y responde si son "similares" o "diferentes". Medición de la velocidad
motora que requiere que el examinado dé golpecitos a una tecla similar a la de un
telégrafo, tan rápido como sea posible durante 10 segundos. Mide la fuerza de agarre con
un dinamómetro; el examinado aprieta la manija tan fuerte como le sea posible. Se
requieren ensayos separados con cada mano. Mide la habilidad para rastrear, la
flexibilidad mental y la velocidad. Bajo presión de tiempo, el examinado debe conectar
números (parte A) o números con letras en orden alternado (parte B) con una línea hecha
con lápiz. Medición de las habilidades sensoperceptuales que requiere que el examinado
reconozca formas simples (por ejemplo, un triángulo) colocadas en la palma de su mano.
Medición de las habilidades sensoperceptuales que requiere que el examinado responda
a simples tareas sensoriales bilaterales; por ejemplo, detectar qué dedo fue el que se tocó,
con qué oído recibió un breve sonido. También evalúa los campos visuales. Mide las
habilidades de expresión y recepción del lenguaje; las tareas incluyen nombrar la figura
de un objeto (por ejemplo, un tenedor), repetir frases cortas, tareas de copiado (no es una
medida de la afasia) incluidas aquí debido a razones históricas. WAIS-R, WRAT-R,
MMPI-2, pruebas de memoria como la escala Wechsler de memoria o la prueba de
aprendizaje verbal y auditivo de Rey. aMedida s centrales de la batería de pruebas
neuropsicológicas Halstead-Reitan des cerebrales. Sin embargo, en otras pruebas su
desempeño fue definitivamente anormal, y fue característico de las respuestas que se ven
únicamente en personas con una disfunción cerebral. En este caso, este desempeño se
relacionó principalmente con el hemisferio derecho del cerebro, pero el patrón de los
resultados de la prueba no podría sugerir la presencia de una lesión cerebral específica
enfocada del hemisferio derecho. El patrón general de los resultados es característico y
típico de una condición en particular: esclerosis múltiple. (Reitan y Wolfson, 1993.) Otra
batería fija muy usada es la Batería neuropsicológica Luria-Nebraska (LNNB, por sus
siglas en inglés), que tiene la ventaja de requerir únicamente de dos a tres horas para
administrarse (Golden, 1989). Se encuentran disponibles formas separadas de la LNNB
para niños y adultos. La versión de adultos viene sólo en un maletín y consiste en 269
reactivos discretos, calificados con 0, 1 y 2. Aunque es más corta que la batería Halstead-
Reitan y también más portátil, la LNNB no es tan buena en la identificación del tipo,
localización y consecuencias del daño cerebral. PRUEBAS DE PERSONALIDAD El
propósito de las pruebas de personalidad es medir la consistencia y distinción de los
rasgos y patrones de acción que caracterizan a cada individuo. Esta información es útil
para una variedad de propósitos que van desde la predicción del desempeño en el trabajo
hasta el entendimiento de los problemas emocionales. Los psicólogos han sido
inusualmente fructíferos en el diseño de medios para medir la personalidad, así que no es
posible inspeccionar todo el rango de métodos. En vez de ello, nos enfocamos en los más
importantes instrumentos que caracterizan cada uno de las tres principales
aproximaciones teóricas para la evaluación de la personalidad: el reporte personal, las
técnicas proyectivas y los métodos conductuales. Inventarios de reporte personal En un
inventario de reporte personal, el examinado responde a declaraciones relativamente
objetivas haciendo una elección (verdadero-falso), asignándoles una calificación (nunca,
ocasionalmente, frecuentemente) u otras respuestas estructuradas. Por lo común, son
pruebas que se responden con lápiz y papel, y son calificadas e interpretadas por medio
de una computadora. Los inventarios de reporte personal pueden proveer un vistazo
general de muchas dimensiones de la personalidad o enfocarse en un aspecto de la
personalidad, tal como la ansiedad, la autoestima o la depresión. MMPI-2 El Inventario
mutifásico de personalidad de Minnesota, en su segunda edición (MMPI-2, por sus siglas
en inglés) es una revisión y reestandarización realizada en 1989 del MMPI, publicado por
vez primera en 1943 (Butcher y Williams, 1992; Graham, 1993). La última edición es un
inventario de 567 reactivos de respuesta verdadero-falso diseñado para evaluar las
dimensiones clínicas de la personalidad, tales como las preocupaciones de salud,
depresión, comportamiento antisocial, esquizofrenia, inconformidad social, abuso de
drogas/alcohol y muchas otras áreas discutidas más adelante. Aunque fue diseñado
principalmente como una medida de la personalidad anormal, la prueba también provee
información acerca del funcionamiento saludable y normal. Los resultados se interpretan
en relación a la última muestra normativa de 2,600 adultos que representan
aproximadamente a la población general en las variables demográficas principales
(ubicación geográfica, raza, edad, nivel de ocupación e ingresos). Aunque las personas
con altos niveles educativos están ligeramente sobrerrepresentadas, éstos son los
individuos que están con mayor probabilidad de responder el MMPI-2. Esta prueba está
dirigida a personas de 18 años y mayores. Para sujetos menores de 18 años se debe usar
una versión para adolescentes: el MMPI-A. El MMPI-2 puede ser calificado en cuatro
escalas de validez, 10 escalas clínicas estándar y una lista (siempre en expansión) de
escalas complementarias. La información más importante es provista por las escalas de
validez y por las escalas clínicas estándar, aunque los asuntos más específicos (por
ejemplo, acerca del abuso de las drogas) se pueden verificar con una o más de las escalas
suplementarias. La mayor parte de las escalas clínicas fueron diseñadas mediante el
método del criterio empírico, en el que las respuestas de la prueba de grupos clínicos
homogéneos fueron contrastadas con sujetos normales para identificar reactivos
relevantes de la escala. Por ejemplo, la composición de reactivos de la escala de depresión
original de 60 reactivos fue determinada al comparar las frecuencias de respaldo (para
cada reactivo) de 50 casos de una depresión relativamente pura con frecuencias de
respaldo de 724 sujetos normales. Con la revisión y reestandarización del MMPI-2, se
borraron tres de estos reactivos y se cambiaron 2, resultando una escala más corta (de 57
reactivos), pero con un índice más sensible de la depresión. La tabla 3.6 describe las
escalas tradicionales y muestra reactivos similares a los que se encuentran en el MMPI-
2. Las puntuaciones en bruto de cada escala se convierten en puntuaciones T con una
media de 50 y una desviación estándar de 10. Las puntuaciones que exceden una T de 65
son consideradas clínicamente interesantes debido a que frecuentemente significan la
presencia de sintomatología psiquiátrica. En la figura 3.1 se reproduce un perfil del
MMPI-2. Esta paciente era una mujer soltera de 37 años con una historia de enfermedades
mentales, incluyendo tres hospitalizaciones por depresión (Butcher, 1990). La paciente
exhibió un grado serio de depresión junto con los estados de confusión y desorganización.
Experimentaba alucinaciones auditivas y mostraba alguna preocupación suicida. Todos
estos problemas son evidentes en su perfil, que muestra elevaciones importantes en la
escala 2 (indicando una seria depresión) y en la escala 8 (señalando confusión y
desorganización). El perfil también revela elevaciones secundarias en la escala 6
(sugiriendo la probabilidad de rasgos paranoides, que incluyen alucinaciones auditivas) y
la escala 0 (indicando un grado disfuncional de introversión social). De forma creciente,
el MMPI-2 y otros inventarios de reporte personal se están interpretando por medio de
computadora. Aunque siempre es posible que el psicó- logo clínico escriba un reporte
individualizado, los reportes presentados por computadora se han hecho tan sofisticados
que muchos clínicos están satisfechos de que la computadora haga el trabajo y luego
verifican la posibilidad de interpretaciones erróneas. Ésta es una práctica que ocasiona
controversia y que también discutiremos más adelante. NEO PI-R El MMPI-2 sobresale
en la identificación de características psicológicas, pero es menos útil al delinear
variaciones en la personalidad normal. El inventario de Tabla 3.6 Escalas clínicas y de
validez y reactivos simulados del MMPI-2 Escala s d e valide z ¿? (No puede decirlo) M
(Mentira) F (Frecuencia) C (Corrección) Escalas clínicas Hi o 1 (Hipocondriasis) D o 2
(Depresión) Ht o 3 (Histeria) Dp o 4 (Desviación psicopática) Mf o 5 (Masculinidad-
feminidad) Pa o 6 (Paranoia) Ps o 7 (Psicastenia) Es u 8 (Esquizofrenia) Hm o 9
(Hipomanía) Is o 0 (Introversión social) Número de reactivos sin responder. 15 reactivos
que indican virtudes poco probables en el sujeto tales como "nunca me enojo con los
demás" (verdadero). 60 reactivos avalados menos de 10% de las ocasiones por sujetos
normales, como "escucho voces que me dicen qué hacer" (verdadero). 30 reactivos que
reflejan una sutil actitud de defensa y renuencia a admitir problemas, como
"ocasionalmente me siento con ganas de arrojar cosas" (falso). 32 reactivos que indican
preocupaciones anormales respecto a la propia salud y a las funciones corporales, como
"rara vez me preocupo por mi salud" (falso). 57 reactivos que reflejan pesimismo, disforia
y sentimientos de desesperanza, como "me siento triste y melancólico la mayor parte del
tiempo" (verdadero). 60 reactivos que sugieren represión, negación y síntomas que
pretenden evitar los conflictos interpersonales o las responsabilidades personales, tales
como "trato de ser amistoso con aquellos que me agredieron" (verdadero). 50 reactivos
que indican conflictos familiares, emociones superficiales, poca atención de las
costumbres sociales y fricciones con la ley, como "rara vez he tenido conflictos con las
autoridades" (falso). 56 reactivos que diferencian a los hombres y a las mujeres, como
"me agrada reparar cosas" (verdadero, para la masculinidad). 40 reactivos que reflejan la
sensibilidad excesiva, suspicacia o delirios de persecución, como "creo que la gente me
persigue" (verdadero). 48 reactivos que muestran temores inusuales, meditación, culpa e
indecisión, como "rara vez me descubro preocupándome acerca de las cosas" (falso). 78
reactivos que indican delirios, alucinaciones, enajenación y pensamientos o conductas
inusuales, como "me siento solo la mayor parte del tiempo" (verdadero). 46 reactivos que
indican hiperactividad, excitación emocional y fuga de ideas, como "mi conversación es
más rápida de lo que solía ser" (verdadero). 69 reactivos que reflejan si existe o no timidez
e introversión, como "me agrada ir a fiestas" (falso). personalidad NEO (edición revisada)
(NEO PI-R, por sus siglas en inglés) podría ser la mejor opción. Esta prueba incorpora
décadas de investigación sobre los análisis de factores que tienen que ver tanto con
poblaciones de adultos normales como atendidos psicoló- gicamente. El NEO PI-R está
basado en un modelo de cinco factores de personalidad que emergen a partir de varias
líneas de investigación (Costa y McCrae, 1992). Está disponible en dos formatos paralelos
de 240 reactivos cada uno. A diferencia de la mayor parte de los inventarios de reporte
personal, que usan un formato de respuesta verdadero-falso, el NEO PI-R emplea una
escala de calificación de cinco puntos para los reactivos: fuerte desacuerdo, desacuerdo,
neutral, de acuerdo, fuertemente de acuerdo. Los reactivos evalúan variables
emocionales, interpersonales, de experiencias, de actitudes y de motivación. Cada una de
las cinco escalas del NEO PI-R está basada en seis subescalas de rasgos (ver tabla 3.7).
Esta prueba exhibe propiedades psicométricas excelentes, con confiabilidades de
consistencia interna de 0.86 a 0.95 para las escalas y coeficientes de estabilidad testretest
de 0.51 a 0.83 en estudios longitudinales de tres a siete años. La validez del NEO PI-R es
también muy fuerte y está basada en las correlaciones con otras medidas, la
correspondencia de las calificaciones entre la del sujeto y la de su cónyuge, y la
concurrencia del modelo de cinco factores con otras líneas de investigación (Costa y
McCrae, 1992; Piedmont y Weinstein, 1993). Una de sus características más atractivas es
que las subescalas de rasgos capturan aspectos de la personalidad que son fácilmente
entendidos por los psicólogos y personas comunes. 68 FUNDAMENTOS DE
PSICOLOGÍA CLÍNICA Figura 3.1. Perfil clínico del MMPI-2 de una mujer de 37 años
con un historial clínico que manifiesta enfermedad mental. Fuente: Reproducido con
permiso de Butcher, J. N. (1990). The MMPI-2 in Psychological treatment. Nueva York:
Oxford University Press. Derechos reservados en ©1989 por los miembros del directorio
de la Universidad de Minnesota. "MMPI-2" y "Minnesota multiphasic personality
inventory-2" son marcas propiedad de la Universidad de Minnesota. Otros inventarios de
reporte personal Millón desarrolló el Inventario clínico multiaxial, ahora en su tercera
edición (MCMI-III, por sus siglas en inglés), para ayudar en la clasificación de los
trastornos de la personalidad, tales como el de la personalidad esquizoide, la personalidad
limítrofe, la personalidad narcisista y otros (Millon, 1994). Los trastornos de la
personalidad no son evaluados explícitamente por los principales inventarios como el
MMPI-2, y esta omisión es la que Millon buscó solucionar con su inventario de 175
reactivos de respuesta verdadero-falso. Muchos clínicos consideran al MCMI-III como
un suplemento útil para el MMPI-2 debido a su capacidad para evaluar las influencias
que a través de la vida dan forma a los trastornos de la personalidad. Otra prueba
ampliamente usada es el cuestionario de los 16 factores de la personalidad (16PF, por sus
Tabla 3.7 Escalas y subescalas de rasgos del NEO PI-R ESCALAS SUBESCALAS DE
RASGOS Neurosis Ansiedad Timidez Hostilidad Impulsividad Depresión
Vulnerabilidad Extroversión Calidez Actividad Aislamiento Búsqueda de emociones
Asertividad Emociones positivas Apertura a la experiencia Fantasía Acciones Estética
Ideas Sentimientos Valores Conformidad Confianza Obediencia Sinceridad Modestia
Altruismo Inclinación a la ternura Escrupulosidad Competencia Lucha por logros Orden
Autodisciplina Obligación Deliberación siglas en inglés), un inventario de respuesta
verdaderofalso afirmado en una concepción analítica de factores de la personalidad
(Cattell, Eber y Tatsuoka, 1970). Esta prueba emplea un formato inusual de reactivos de
elección forzada del siguiente tipo: Tomo las decisiones basado en: a. Los sentimientos
b. Los sentimientos y la razón, de manera equitativa c. La razón En una serie de estudios,
Cattell determinó que son necesarias 16 dimensiones de la personalidad para explicar la
estructura de las respuestas de la prueba, de allí el nombre de esta prueba. Además de las
16 escalas bipolares que miden atributos como calidez, imposición, impulsividad,
sensibilidad e inseguridad, la prueba también proporciona cuatro índices resumidos de
extroversión, ansiedad, serenidad e independencia. Dos usos importantes del 16PF se dan
en la selección de personal y en la orientación vocacional. Técnicas y pruebas proyectivas
El término método proyectivo fue inventado por Frank (1939) para describir una categoría
de pruebas que sirven para estudiar la personalidad con estímulos determinantes no
estructurados. La suposición central de este método es que los examinados sin saberlo
revelarán fundamentales aspectos de la personalidad (necesidades, motivaciones y
conflictos) al pedirles que respondan a estímulos vagos y ambiguos. Los que proponen el
método proyectivo, generalmente creen que las respuestas a tales estímulos representan
proyecciones de los procesos mentales y emocionales inconscientes más profundos del
examinado. Rorschach La prueba proyectiva más usada, en efecto, una de las pruebas
más ampliamente usadas de cualquier tipo, es la técnica de la mancha de tinta de
Rorschach, diseñada al inicio del siglo XX por Hermann Rorschach (1921). Esta prueba
consiste en 10 manchas de tinta diseñadas al dejar caer tinta sobre una hoja de papel y
plegando el papel por la mitad para producir diseños más o menos simétricos. Cinco de
las manchas de tinta son negras o con tonos de grises, y cinco contienen color. La
Rorschach se puede administrar a niños desde 5 años, pero se usa más comúnmente en
adultos. En la figura 3.2 se muestra una mancha de tinta similar a las que se encuentran
en el Rorschach. La administración de la Rorschach consiste en dos fases. En la fase de
asociación libre, el examinador presenta las manchas una a la vez y pregunta, "¿qué podría
ser esto?" Se puede dar más de una respuesta. Esta fase es seguida por otra de preguntas,
en la que el examinador determina la localización de la percepción Figura 3.2 Una mancha
de tinta similar a la utilizada en la prueba de Rorschach. del individuo y busca identificar
aquellos aspectos de la mancha (tales como forma, color y matiz) que tomaron parte en
la creación de la respuesta. Aunque la interpretación del Rorschach puede proceder sobre
líneas clínicas ("basado en mi entendimiento sobre el proceso del inconsciente, la
respuesta 'un gato mostrando sus colmillos' para la lámina podría indicar..."), el método
preferible es usar una puntuación formal y un sistema interpretativo como el provisto por
John Exner (1991, 1993). En el Sistema amplio de calificación de Exner, cada respuesta
del individuo es calificada según su localización, sus determinantes, su contenido, su
originalidad y otras variables (véase la tabla 3.8). Después se cotejan las calificaciones
individuales para formar varios índices resumidos tales como el porcentaje F+, que es la
proporción del total de las respuestas que usan únicamente la forma como determinante.
Entonces se usan estos índices para crear hipó- tesis con una base empírica y razonable
acerca del funcionamiento de la personalidad. Por ejemplo, cuando el porcentaje F+ cae
por debajo de 70% el examinador debe considerar la posibilidad de una psicopatología
severa, daño cerebral o déficit intelectual en el examinado (Exner, 1993). Prueba de
apercepción temática La Prueba de apercepción temática (TAT, por sus siglas en inglés)
consta de 30 figuras que ilustran una variedad de temas y tópicos en fotografías y dibujos
en blanco y negro; una lámina es blanca. La mayor parte de las Tabla 3.8 Resumen de los
principales criterios de calificación de la prueba de Rorschach. I. Localización: ¿en qué
parte de la mancha está el concepto percibido? T Todo Usa toda la mancha de tinta D
Detalles comunes Usa una parte bien definida Dpu Un detalle poco usual Usa una parte
poco usual E Espacio Lo que percibe está definido por el espacio en blanco II.
Determinantes: ¿qué característica de la mancha determinó la respuesta? F Forma Forma
o contorno usado F+ Forma+ Una excelente coincidencia de lo percibido y la mancha de
tinta F- Forma- Una pobre coincidencia de lo percibido y la mancha de tinta M
Movimiento Se ve o está implícito el movimiento en lo percibido C Color El color ayudó
a determinar la respuesta T Textura El matiz involucrado en la respuesta III. Contenido:
¿qué fue lo percibido? H Humano Se percibe una forma humana completa Dh Detalle
humano Una forma humana incompleta de cualquier modo Ex Explosión Se percibe una
explosión Rx Rayos X Rayos X de cualquier parte humana: involucra matices IV. Popular
en contraste con original P Popular Respuesta dada por 33% o más de los sujetos normales
O Original Una respuesta rara y creativa Nota: Esta tabla representa un consenso de varios
de los principales sistemas de calificación. La lista está incompleta y sólo es ilustrativa.
figuras bosquejan una o más personas realizando diversas actividades ambiguas. Algunas
láminas son adecuadas únicamente para adultos hombres (H) y adultos mujeres (M),
niños (N) o niñas (G); de tal forma que exactamente 20 láminas son utilizadas para cada
sujeto. En la figura 3.3 se muestra una imagen similar a las que conforman la TAT. Para
cada lámina, el examinador instruye al sujeto para que invente una historia dramática,
explicando qué provocó la escena actual, qué está sucediendo en ese momento, qué están
sintiendo y pensando los personajes y cómo finalizará la historia. Las respuestas se graban
al pie de la letra para su calificación y análisis posteriores. Aunque se han propuesto
muchos sistemas de calificación para la TAT, el método más común de interpretación es
el clínico-cualitativo, en el que el examinador infiere las motivaciones, necesidades y
luchas del sujeto sobre la base del contenido de las historias. Un postulado central de este
método es la suposición del "hé- roe", en la que se piensa que el sujeto proyecta sus
propias necesidades, luchas y sentimientos sobre el personaje central de cada lámina.
Wade y Baker (1977) reportaron que 82% de los usuarios de las pruebas emplean este
tipo de procedimiento "personalizado" para la interpretación de la TAT.
Desafortunadamente, no hay modo de evaluar la validez de este método debido a que es
idiosincrásico para cada examinador y no está abierto para la investigación empírica.
Aunque nuevos Figura 3.3 Una imagen similar a las de la Prueba de apercepción temática.
Fuente: Reproducido con permiso de Gregory, R. J. (1996). Psychologkal testing:
History, principies, and applications (2a. ed.). Boston: Allyn and Bacon. métodos de
calificación de la TAT se muestran prometedores, este instrumento necesita una
reestandarización tanto en lo que respecta a su forma de aplicación como a su calificación.
Otra preocupación acerca de la TAT es que muchas de las imágenes bosquejan temas
oscuros y tristes, de modo que la prueba tiende a "empujar" hacia historias infelices. Tal
vez sea tiempo de que alguien proponga una versión completamente nueva de la TAT.
Otros métodos proyectivos Las pruebas de oraciones incompletas son populares debido a
que frecuentemente ofrecen información útil con una mínima inversión de tiempo de
prueba. En una prueba de oraciones incompletas, al examinado se le dan varias oraciones
que consisten en unas primeras pocas palabras y se le pide que las complete con un final.
Algunos ejemplos incluyen "Mi madre " y "Yo sólo deseo ". La suposición fundamental
de esta técnica es que el examinado revelará motivaciones, actitudes, conflictos y temores
subyacentes en sus respuestas. La interpretación puede proceder a través de líneas
subjetivas-intuitivas o el examinador puede asignar puntuaciones a cada oración
completada de acuerdo con un manual de la prueba. La Prueba de frases incompletas de
Rotter (RISB, por sus siglas en inglés) es una técnica para completar oraciones muy
popular y ampliamente usada, ofrece un sistema de calificación objetivo por medio del
cual cada oración completada recibe una puntuación ajustada de cero (buen ajuste) a 6
(ajuste muy pobre). La suma de todas las puntuaciones para las 40 oraciones brindan un
índice de desajuste (Lah, 1986; Rotter y Rafferty, 1950). Este sistema de calificación es
altamente confiable, pero su validez como un índice de desajuste es más cuestionable
como resultado de los altos porcentajes de errores de clasificación. Por ejemplo, el índice
de desajuste clasificó correctamente a jóvenes delincuentes en sólo 60% de las veces,
mientras que identificó correctamente a 73% de los jóvenes no delincuentes (Fuller,
Parmelee y Carroll, 1982). Estos porcentajes son mucho más bajos para la toma de
decisiones individuales o un monitoreo efectivo. Las técnicas expresivas tales como el
dibujar una figura humana constituyen otra familia de pruebas proyectivas ampliamente
usadas. En las técnicas más comunes de este tipo se le da al examinado una hoja en blanco
de papel y se le pide que "dibuje a una persona". La pionera de este método fue Karen
Machover; su prueba, el Dibujo de la figura humana (DAP, por sus siglas en inglés), sigue
siendo popular. Su interpretación es enteramente clínica-intuitiva, con fuentes relevantes
que proveen numerosas hipótesis basadas psicodinámicamente (Machover, 1949). Por
ejemplo, se piensa que la omisión de rasgos faciales indica evasión de las relaciones
interpersonales altamente conflictivas; un énfasis gráfico del cuello sugiere ansiedad
acerca de la falta de control sobre los impulsos; la boca trazada con una pesada línea
cortada indica agresividad verbal y una persona demasiado crítica. Un problema
consistente en las técnicas de dibujo expresivo como el DAP es que se considera
virtualmente inexistente un apoyo empírico para las interpretaciones coloridas y
plausibles. Cada psicólogo puede citar apoyo anecdótico para las hipótesis específicas,
pero éstas pueden ser sólo una validación ilusoria. La validación ilusoria es el fenómeno
empíricamente demostrado en el que se toman en cuenta los aspectos que confirman lo
esperado, pero son ignorados los numerosos hallazgos que contradicen las expectativas
(Chapman y Chapman, 1967). No obstante, es posible que la técnica de dibujo de la figura
humana posea un fundamento empírico, como lo demostró la exitosa aplicación de este
método en la evaluación de trastornos de conducta y trastornos emocionales en niños
(Naglieri y Pfeiffer, 1992). Como sucede con todas las técnicas descriptivas, la clave para
justificar su uso reside en el desarrollo y validación de un método objetivo de calificación.
Métodos conductuales Las pruebas conductuales incluyen una variedad de métodos
directos para la evaluación de la personalidad. A diferencia de las técnicas de reporte
personal y proyectivas, que se enfocan en los rasgos subyacentes, las causas hipotéticas
y las dimensiones supuestas de la personalidad, las pruebas conductuales se concentran
directamente en el comportamiento. Se puede encontrar una buena revisión de las técnicas
conductuales en el Dictionary of Behavioral Assessment Techniques (Hersen y Bellak,
1988). Ilustraremos esta familia de métodos describiendo la Prueba sobre la conducta de
evitación (BAT, por sus siglas en inglés), un método altamente útil para medir el progreso
de un paciente en la superación de miedos, tales como el temor incapacitante a los
espacios abiertos conocido como agorafobia. Hoffart, Friis, Strand y Olsen (1994)
diseñaron una BAT estandarizada para pacientes con agorafobia, que es magnífico en su
simplicidad: Se les pidió a los pacientes que caminaran solos tan lejos del hospital como
pudieran, a lo largo de un camino poco concurrido de 2 km de largo. La ruta fue dividida
en ocho intervalos de igual longitud, y los pacientes calificaron su nivel de ansiedad en
una escala del 0-10 al final de cada intervalo. A los intervalos incompletos se les dio una
puntuación de 10. Se calculó una puntuación de evitación-ansiedad sumando las
puntuaciones de la ansiedad de todos los intervalos. Usted notará la relación directa entre
la meta principal de la terapia (incrementar la capacidad del paciente para aventurarse
solo en lugares abiertos) y el desempeño en la prueba. Es característico de las pruebas
conductuales incluir, muy directamente, las características deseadas de un resultado
terapéutico exitoso.
PRUEBAS PARA POBLACIONES ESPECIALES
Pruebas para personas con discapacidades Las personas con discapacidades representan
un reto especial en las pruebas psicológicas debido a que el deterioro en la audición, la
visión, el lenguaje o el control motor pueden invalidar los resultados tradicionales de las
pruebas. Se ha desarrollado cierto número de pruebas especializadas para individuos
discapacitados, y aquí discutiremos algunas de ellas. Sin embargo, como primer punto, el
examinador debe reconocer que un sujeto prospecto tiene una incapacidad (lo que no
siempre se nota en forma directa). Particularmente cuando se aplican pruebas en niños,
puede necesitarse remitirlos para un examen de la vista o del oído y poder identificar una
incapacidad ligera, tal como una pérdida parcial del oído debido a la acumulación
periódica de fluidos en esa parte del cuerpo durante los periodos de enfermedad. En otros
casos, se puede necesitar un trabajo considerable para confirmar que un adolescente
presenta parálisis cerebral leve, que podría invalidar el resultado de pruebas basadas en
el desempeño y que requieren destreza y velocidad motora. Hay varias pruebas
disponibles cuando la incapacidad del examinado puede invalidar las medidas
tradicionales. No podemos revisar todos los instrumentos relevantes, pero unos pocos
ejemplos ilustran su variedad. Para niños de 3 a 17 años con deterioro en el oído, la Prueba
Hiskey-Nebraska de aptitudes para el aprendizaje (H-NTLA, por sus siglas en inglés)
sirve como medida de la habilidad que se puede tener sin utilizar el lenguaje oral. Esta
prueba es única, ya que puede administrarse enteramente a través de mímica y no requiere
respuestas verbales por parte del examinado. La H-NTLA consiste en 12 subescalas:
Patrones de cuentas Memoria de colores Identificación de imágenes Asociación de
imágenes Plegar papel Intervalos de atención visual Patrones de bloques Completar
figuras Retención de dígitos Bloques de rompecabezas Analogía de imágenes
Razonamiento espacial La correlación de las puntuaciones globales con el CI de ejecución
de la WISC-R es alta (r = 0.85), lo que indica que la H-NTLA es una medida excelente
de la inteligencia basada en la ejecución o funcionamiento (Hiskey, 1966; Phelps y Ensor,
1986). Una prueba que no requiere lectura y que sólo utiliza movimientos reducidos es la
Prueba Peabody de vocabulario con imágenes, edición revisada (PPVT-R, por sus siglas
en inglés; Dunn y Dunn, 1981). La PPVT-R puede usarse para obtener una medición
rápida del vocabulario con personas que presentan deterioro del lenguaje, individuos
sordos y personas con problemas de control motor (por ejemplo, parálisis cerebral) en
edades de entre 2.5 y 18 años. La prueba consiste en una serie de 175 placas, cada una
con cuatro líneas de dibujos de objetos con escenas cotidianas. El examinador despliega
una placa, dice una palabraestímulo, y le pide al examinado que señale la imagen que
mejor describe dicha palabra. La puntuación global está normada con una media de 100
y una desviación estándar de 15. Se debe tener cuidado con las minorías étnicas
(especialmente con los estadounidenses nativos) y con las personas con retraso mental,
para quienes las puntuaciones PPVT-R pueden ser mucho más bajas que las puntuaciones
CI en los instrumentos estándar, tales como las escalas Wechsler. Aunque no es un
sustituto para una prueba de inteligencia general, la PPVT-R es una medida útil sobre el
vocabulario escuchado. Pruebas para retraso mental El retraso mental se refiere a
limitaciones importantes en el funcionamiento presente, como consecuencia de un
funcionamiento intelectual significativamente por debajo del promedio (CI de 70 a 75 o
más bajo) y las limitaciones relacionadas en dos o más áreas de habilidad adaptativa. El
inicio debe ser antes de los 18 años (Asociación estadounidense para el retraso mental,
1992). Con respecto a las pruebas psicológicas, el punto más importante a enfatizar es
que un CI bajo es una base insuficiente para el diagnóstico de retraso mental. Además, el
examinado debe manifestar limitaciones en dos o más de estas diez áreas de habilidades
adaptativas. • Comunicación • Autocuidado • Vida hogareña • Habilidades sociales • Uso
comunitario • Autodirección • Salud y seguridad • Funcionamiento académico • Tiempo
libre • Trabajo Son más difíciles de evaluar las limitaciones en las habilidades adaptativas
que un CI bajo, pero hay varios instrumentos que pueden ayudar en este proceso. Las
escalas Vineland de conducta adaptativa (Sparrow, Balla y Cicchetti, 1984) son una
revisión y extensión de la escala Vineland sobre la madurez social (Doll, 1935, 1936), el
primer instrumento estandarizado para evaluar la conducta adaptativa. Otra prueba útil
son las escalas sobre la conducta independiente (SIB, por sus siglas en inglés; Bruininks,
Woodcock, Weatherman y Hill, 1984), que aquí resaltamos. Las SIB consisten en una
serie de 14 subescalas que se completan con la ayuda de un padre, un cuidador o un
maestro. En cada subescala, el examinador lee una serie de reactivos y muestra la ayuda
del padre, del cuidador o del maestro, asignando una puntuación de 0 (nunca o rara vez
realiza la labor) a 3 (realiza la labor muy bien). Las 14 subescalas se clasifican en cuatro
grupos, como los que se bosquejan en la tabla 3.9. Se obtiene una puntuación de amplia
independencia con la media usual de 100 (una puntuación de la función adaptativa
equivalente al CI) del promedio de los cuatro grupos de puntuaciones. Las puntuaciones
de las SIB se correlacionan fuertemente con las puntuaciones de CI (r=0.81 a 0.88) y
proveen una confirmación esencial de que el examinado tiene limitaciones en el
funcionamiento adaptativo y no sólo una puntuación de CI baja. Tabla 3.9 Las 14
subescalas y los cuatro grupos de escalas de conduct a independiente 1. Habilidades
motoras Motoras gruesas Motoras finas 2. Habilidades sociales y de comunicación
Interacción social Comprensión del lenguaje Expresión del lenguaje 3. Habilidades en la
vida personal Preparación de alimentos Vestimenta Autocuidado Habilidades domésticas
4. Habilidades de la vida en comunidad Tiempo y puntualidad Dinero y valor Habilidades
en el trabajo Orientación casa-comunidad
INTERPRETACIÓN DE LAS PRUEBAS POR COMPUTADORA
Ahora se usan ampliamente las computadoras en las pruebas psicológicas. Los usos más
directos y aceptados incluyen la presentación de estímulos de las pruebas (como los
reactivos individuales en una prueba de la personalidad mediante un reporte personal),
los registros de las respuestas (incluyendo el estado latente de respuesta si es necesario),
la calificación de los resultados de la prueba y la impresión de los datos resumidos y de
los perfiles de la prueba. Por supuesto, es necesario demostrar que la versión
computarizada de una prueba posee las mismas propiedades psicométricas que la versión
original de lápiz y papel; dicha equivalencia no deberá tomarse como un hecho.
Afortunadamente, la mayoría de las pruebas confirman que se miden las mismas
propiedades, ya sea que sean administradas en un cuestionario impreso o en una pantalla
de computadora, de modo que las discrepancias entre los dos métodos raramente son un
asunto que cause controversias. La controversia surge cuando se usa la computadora para
interpretar los resultados de la prueba. Con muchas pruebas, es usual que emerjan de la
impresora largos reportes sin alguna intervención por parte del psicólogo. Esta es una
práctica muy común en las pruebas de personalidad. En la actualidad los editores de los
principales instrumentos computacionales ofrecen reportes como parte de sus servicios.
Los psicólogos no están obligados a usar estos reportes, pero muchos clí- nicos lo hacen.
Es razonable preguntarse si las interpretaciones de las pruebas basadas en computadoras
representa un desarrollo deseable en la práctica de las pruebas psicológicas. Una cuestión
clave para resolver este asunto es si las declaraciones interpretativas en un reporte por
computadora están basadas en investigación cuantitativa (situación deseable) o en la
opinión clínica de expertos (situación menos deseable). Hace años, Meehl (1954)
demostró que el juicio actuarial (en el que para diagnosticar, clasificar o predecir el
comportamiento se usan fórmulas basadas en investigación) casi siempre es superior al
juicio clínico (en el que los psicólogos usan la experiencia y la intuición para diagnosticar,
clasificar o predecir el comportamiento). Esta sencilla verdad ha sido demostrada
repetidamente en los años siguientes (Dawes, Faust y Meehl, 1989; Kleinmuntz, 1990;
Meehl, 1965, 1986). Desafortunadamente, muchas de las interpretaciones de pruebas
hechas por medio de computadora están basadas en juicios clínicos, y de este modo su
validez en gran parte no ha sido probada. Lanyon (1984) señala que los consumidores
profesionales están predispuestos a creer en cualquier cosa que esté impresa y son
incapaces de distinguir entre los sistemas más satisfactorios de interpretación de pruebas
computarizadas (por ejemplo, con base actuarial) y menos satisfactorias (por ejemplo,
con base clínica). Es particularmente inquietante que la falta de validez demostrada de los
programas se haya hecho ahora una norma, y parece no haber revisiones sobre el
desarrollo futuro de esta situación inaceptable. Tal vez ha llegado el tiempo en que es
necesaria la regulación federal de esta industria para la protección del consumidor.
Matarazzo (1986) ha hecho sonar una alarma similar. Ha argumentado, además, que el
uso de reportes narrativos hechos por computadora no debe confundirse con una
evaluación exhaustiva. En una evaluación exhaustiva el psicólogo irá más allá de las
interpretaciones de la prueba para integrar los hallazgos, como una respuesta cohesiva a
los asuntos de referencia alrededor del examinado. El peligro de las interpretaciones por
computadora es que una simple prueba reemplace a la evaluación exhaustiva.
SITUACIÓN ACTUAL Y ASPECTOS DE LAS PRUEBAS PSICOLÓGICAS
La perdurable cuestión del sesgo en las pruebas Una cuestión perdurable en la psicología
moderna es si las pruebas están sesgadas. La mayoría de la gente y aun muchos psicólogos
se apresuran a afirmar que las pruebas individuales (particularmente las pruebas
relacionadas con la habilidad) contienen sesgos culturales o de género y que, por
consiguiente, discriminan injustamente en contra de las minorías raciales y étnicas, a las
mujeres o a los pobres ¿Es esta crítica justificable? Para contestar esta pregunta
necesitamos ser objetivos respecto a qué es lo que se entiende por sesgo de las pruebas,
puesto que un acuerdo sobre este concepto está muy lejos de estar completo. Un punto de
partida importante es enfatizar que las apariencias pueden ser engañosas. El hecho de que
ciertos reactivos de prueba se "vean" como preferenciales para una raza, sexo o clase
social, no comprueba que la prueba esté sesgada. El sesgo de las pruebas debe definirse
en términos objetivos y empíricamente verificables, y no relegarse como asunto de
opinión personal. La noción más ampliamente usada de una prueba sesgada es la validez
diferencial. De acuerdo con este método, una prueba está sesgada si la misma calificación
de una prueba tiene un significado diferente para cualquier subgrupo relevante y definido
de examinados: "el sesgo está presente cuando la puntuación de una prueba tiene
significados o implicaciones para un subgrupo relevante y definido de examinados, pero
dichos significados son diferentes para el resto de los examinados" (Cole y Moss, 1989).
Tal vez un simple ejemplo aclare esta definición. Considérese una prueba relacionada con
la habilidad que se emplea para predecir el desempeño académico de niños en edad
escolar. Esta prueba podría considerarse sesgada si una puntuación baja predice un
desempeño escolar pobre para un subgrupo étnico, pero la misma puntuación baja no
muestra relación con el desempeño escolar en otro subgrupo. Desde un punto de vista
técnico, están disponibles varios métodos para la investigación de las pruebas sesgadas.
Un método consiste en realizar un análisis factorial de las puntuaciones de la prueba
dentro de subgrupos definidos. Una prueba sin sesgo mostrará una estructura factorial
similar a través de los subgrupos. Las ecuaciones de regresión también constituyen una
buena base para la evaluación del sesgo en las pruebas. Cuando las puntuaciones de las
pruebas son usadas para predecir criterios relevantes (por ejemplo, las puntuaciones en
una prueba de aptitudes en la preparatoria se usan para predecir las calificaciones
universitarias) una prueba sin sesgo revelará ecuaciones de predicción similares e igual
poder predictivo para los diferentes subgrupos. Otro método involucra el orden de clase
por categoría de la dificultad de los reactivos dentro de una prueba. Para una prueba que
no presenta sesgo, el nivel relativo de dificultad de los reactivos de las pruebas
individuales (por ejemplo, el orden de clase por categoría) será el mismo a través de
subgrupos definidos. Por medio de éste y otros métodos estadísticos para la detección del
sesgo, las pruebas psicológicas más importantes funcionan bastante bien. De hecho, el
consenso de las principales revisiones es que la investigación disponible ha fallado en
apoyar las hipótesis sobre el sesgo (Gregory, 1996; Reynolds, 1994). No obstante estos
comentarios, es poco probable que desaparezca rápidamente la controversia acerca del
sesgo en las pruebas. La razón de esto es que las pruebas en uso pueden producir
resultados sociales que son percibidos como injustos y con prejuicios. Un caso en este
punto es el uso de pruebas psicológicas para colocar números desproporcionados de niños
que pertenecen a grupos minoritarios en los programas de educación especial,
ostensiblemente para su beneficio, pero en realidad en su detrimento. El problema aquí
no tiene que ver mucho con las pruebas y con su sesgo (o falta de los mismos) como con
las buenas intenciones de las políticas sociales que tienen consecuencias no
intencionadas. En verdad, muchos programas compensatorios de educación son
estigmatizados y minimizados (de otro modo no causaría angustia el que se clasifique a
niños de cualquier edad, sexo o clase, como poseedores de la necesidad de tal colocación).
Tal vez deberíamos referirnos a este gran problema social como imparcialidad en la
prueba, para distinguirlo del problema técnico más restringido sobre el sesgo de las
pruebas. Las pruebas sin sesgo quizás sigan considerándose injustas debido a las
consecuencias de los prejuicios por la forma en que son usadas. Abusos de las pruebas
Casi cualquier cosa que es útil también tiene el potencial de tener consecuencias sociales
dañinas, y esto es verdad para las pruebas psicológicas. Los efectos adversos demostrados
de las pruebas tienden a caer en una de dos categorías. El primer tipo de impacto negativo
deriva de tomar decisiones importantes, basadas en datos limitados de una prueba. Un
caso muy difundido a este respecto es el de Daniel Hoffman, quien fue colocado en una
clase para personas mentalmente retrasadas cuando tema cinco años, debido a que su CI
obtenido en la prueba Stanford-Binet fue únicamente de 74 (Sattler, 1988). Lo que
desconocía el examinador es que la única desventaja de Daniel era un impedimento de
lenguaje. Sin embargo, la evaluación inicial se completó de forma apresurada, de forma
que el examinador nunca supo de esta discapacidad. Para agravar los daños, no se le
volvieron a hacer pruebas a Daniel durante 11 años, después de los cuales recibió un CI
de rango normal de 94 en la escala WISC. ¡Irónicamente los resultados de esa prueba se
utilizaron para después negarle el acceso a un programa de taller especial qué él
disfrutaba! Se cometieron al menos tres errores en el caso de Daniel Hoffman (Gregory,
1987). Primero, las decisiones importantes nunca deben tomarse basándose en la
información limitada de pruebas. Como se señaló previamente, cuando se hacen pruebas
para el retraso mental, siempre es sensato obtener información acerca del funcionamiento
de adaptación además de las puntuaciones en las pruebas de CI. Un segundo error fue no
aplicar pruebas nuevamente a Daniel durante un año o dos, puesto que es bien conocida
la inestabilidad de los resultados del CI —al menos para los psicólogos bien capacitados.
Finalmente, las puntuaciones para conocer los niveles de una prueba nunca debe usarse
en forma rígida para incluir o excluir a alguien de programas especiales. Un segundo
abuso de las pruebas, que se ha resaltado más recientemente, es el uso de pruebas
inadecuadas para la toma de decisiones. Su frecuencia es más probable en la selección de
personal que en algún otro caso, debido a que los empleadores necesitan una forma
eficiente para identificar a "los buenos prospectos" y descartar a los solicitantes
inadecuados. Desafortunadamente, cuando se busca ese objetivo en forma eficiente, es
fácil que se violen los derechos laborales de los solicitantes. Un ejemplo de esto es el
empleo del inventario sobre la personalidad, el cual consta de 704 reactivos de respuesta
verdadero-falso, por parte de una cadena de tiendas de descuento, como una prueba para
la selección de los guardias de seguridad (Gregory, 1996). El problema con el uso de este
instrumento fue que su valor para predecir el desempeño en el trabajo no estaba
demostrado antes de usarlo como una herramienta de filtro. Desde el punto de vista de
los solicitantes, la prueba parecía arbitraria, irrelevante e incluso extraña. Demandaron a
la cadena de tiendas, citando la falta de evidencia de que la prueba ayude a identificar los
altos riesgos de los bajos en el empleo. El caso fue llevado a la corte en Estados Unidos
y los oficiales corporativos acordaron no usar el instrumento por al menos cinco años,
tiempo suficiente para descubrir si la prueba era válida para ese propósito. El futuro de
las pruebas Es difícil predecir el futuro de las pruebas psicológicas debido a que su uso
se ve muy afectado por la opinión pública al traducirse dentro de los mandatos legales (se
les considera como elementos que son notoriamente caprichosos e inestables). Por
ejemplo, en algún punto de los años 80 era ilegal en el estado de California usar las
pruebas tradicionales de inteligencia con el propó- sito de colocar individuos en
programas, excepto bajo condiciones especiales y restringidas. Otro ejemplo es que
muchos estados de la Unión Americana en la actualidad especifican exactamente qué
pruebas se deberán usar para determinar quiénes son candidatos para programas tales
como el Ingreso complementario de seguridad (SSI, por sus siglas en inglés), en lugar de
permitir que los psicólogos con licencia seleccionen los instrumentos más adecuados.
Otro ejemplo es la legislación federal que declara fuera de la ley el uso de las pruebas del
polígrafo para la mayoría de los empleados (probablemente una buena idea). De manera
creciente, la aplicación de las pruebas psicológicas está gobernada por influencias legales
y sociales, que hacen difícil predecir el futuro de las pruebas. Sin embargo, si continúa la
tendencia actual, parecen ser seguras unas pocas predicciones generales. La primera tiene
que ver con el incremento del uso de las computadoras para las pruebas psicológicas. No
sólo se están adaptando las pruebas actuales al uso de las computadoras, sino que surgirán
nuevas pruebas, antes imposibles, a consecuencia de las mejoras dramáticas en la
tecnología informática. Considérese la prueba multimedia que está siendo desarrollada en
IBM para evaluar a los candidatos a puestos de manufactura. Mientras que las pruebas
anteriores que tan sólo implicaban lápiz y papel describían situaciones de trabajo y luego
preguntaban a los examinados cómo responderían a tal situación, ahora es posible con las
computadoras mostrar situaciones reales de trabajo, incluyendo aquellas que involucran
interacciones entre los trabajadores. Mientras el candidato observa breves escenas de
trabajo, la pantalla se congela en puntos cruciales y la computadora pregunta qué es lo
que el candidato haría en esa situación. Las escenas de trabajo tienen una apariencia
altamente realista que mejora la validez normativa de la prueba. Debido al realismo
inherente a las imágenes de video, las pruebas por computadora pueden proporcionar una
evaluación más válida que las pruebas hechas con lápiz y papel sobre cómo un candidato
desempeñará su trabajo (Gregory, 1996). Otra tendencia probable es que cada vez menos
instrumentos de amplio espectro, inventarios exhaustivos sobre la personalidad y pruebas
generales de habilidades, serán publicados por los editores de pruebas. En su lugar, los
editores se enfocarán en las pruebas diseñadas para evaluar áreas circunscritas de
funcionamiento para poblaciones muy específicas. La razón de estas tendencias
complementarias tiene que ver con lo económico. La publicación de pruebas es un gran
negocio, un medio respetable por el cual las grandes corporaciones obtienen ganancias.
Los editores estarán renuentes a realizar las grandes inversiones necesarias para
desarrollar nuevos instrumentos que tengan la gran ambición de evaluar muchos aspectos
de la personalidad o la inteligencia para un amplio número de sujetos. El costo es muy
alto, y dada la competencia, el riesgo también es grande. En lugar de esto, los diseñadores
y editores de las pruebas se enfocarán en formas para desarrollar pruebas menos costosas
y riesgosas. Estas podrían ser instrumentos que incorporen especificidad de constructo
(que midan aspectos altamente específicos del funcionamiento tales como distorsiones
cognoscitivas en personas deprimidas o conductas riesgosas en adolescentes, o incluso el
deterioro mental en la gente de edad avanzada) y poblaciones específicas objetivas
(diseños de pruebas para grupos de pacientes bien demarcados tales como parejas con
problemas matrimoniales, pacientes que sufren de dolor o personas con tendencias
aparentemente suicidas). En pocas palabras, se prevé un estancamiento en la publicación
de las pruebas de inteligencia, personalidad, intereses y similares de amplio espectro (con
instrumentos establecidos revisados y reciclados periódicamente) aunado a una explosión
de pruebas menores con constructos altamente enfocados para usarse con subgrupos de
examinados bien definidos.

Anda mungkin juga menyukai