Anda di halaman 1dari 25

Prof.

René Castro Psicometría 1 UBA

Unidad III. TEORÍA DE LOS TEST.


Contenido: Orígenes y desarrollo de la Teoría Clásica De Tests (TCT), Teoría de la Respuesta al Ítem
(TRI/TRL). Modelos de la TRI/TRL. Curva característica del ítem (CCI).
Introducción
¿Por qué y para qué tienen los psicólogos en su carrera la asignatura de Psicometría dedicada fundamentalmente a
exponer las teorías en las que se basan los test psicológicos?. La razón es bien sencilla, los tests son instrumentos de
medida sofisticados mediante los cuales los psicólogos llevan a cabo inferencias y toman decisiones sobre aspectos
importantes de las personas. Por tanto hay que asegurarse de que esas inferencias son adecuadas y pertinentes, de lo
contrario se puede perjudicar notablemente a las personas que acuden a los psicólogos por la razón que sea. Las teorías
estadísticas de los tests van a permitir la estimación de las propiedades psicométricas de los tests para de ese modo
garantizar que las decisiones tomadas a partir de ellos son las adecuadas. Sin esas teorías no podríamos estimar la
fiabilidad y la validez de los tests, lo cual es imprescindible para poder usar los tests de forma rigurosa y científica.
Hay dos grandes enfoques o teorías a la hora de construir y analizar los tests, son la Teoría Clásica de los Tests (TCT)
y el enfoque de la Teoría de Respuesta a los Ítems (TRI) o la Teoría del rasgo Latente (TRL). No se trata aquí de llevar a
cabo exposiciones detalladas de estas teorías, sino de subrayar los aspectos claves, para que así los usuarios de los tests
tengan una idea más cabal y comprendan en profundidad el alcance de las propiedades psicométricas de los tests que están
utilizando.
TEORÍA CLÁSICA DE TESTS (TCT)
El enfoque clásico (TCT) es el predominante en la construcción y análisis de los tests, así, por ejemplo, los diez tests
más utilizados por los psicólogos (16PF, WISC, WAIS, MMPI, Beck, STAI, Rorschach, Raven, Bender e ISRA) han sido
desarrollados bajo la óptica clásica. Sólo este dato ya deja bien patente la necesidad de que los profesionales entiendan
perfectamente la lógica clásica, sus posibilidades y sus limitaciones.
El psicólogo, como cualquier otro profesional de otro campo, tiene que asegurarse de que el instrumento que utiliza
mide con precisión, con poco error.
Todos esos instrumentos han de estar homologados, estandarizado o tipificados, y requieren algún indicador del grado
de precisión con el que miden, máxime los tests, ya que apoyados en ellos se toman decisiones muy importantes para las
vidas de las personas. Cuando un psicólogo aplica un test a una persona, o a varias, lo que obtiene son las puntuaciones
empíricas que esa persona o personas obtienen en el test, pero eso nada nos dice sobre el grado de precisión de esas
puntuaciones, no sabemos si esas puntuaciones empíricas obtenidas se corresponden o no con las puntuaciones que
verdaderamente le corresponden a esa persona en la prueba. Bien podría ocurrir que las puntuaciones estuviesen, por
ejemplo, algo rebajadas debido a que ese día la persona no está en sus mejores condiciones, o porque las condiciones
físicas en las que se desarrolló la aplicación de la prueba no eran las más adecuadas, o porque las relaciones establecidas
entre los aplicadores de las pruebas y las personas evaluadas dejaron mucho que desear. Los psicólogos, estamos
obligados a garantizar que las puntuaciones de nuestros tests sean precisas, tengan poco error, el problema es que esto no
se sabe escrutando directamente las puntuaciones que obtienen las personas en los tests, esas puntuaciones vistas así de
frente no nos dicen nada acerca de su grado de precisión. Como no lo podemos hacer así de frente, es por lo que tenemos
que dar algunos rodeos, es decir, es por lo que tenemos que plantear algunos modelos que subyacen a las puntuaciones a
fin de ser capaces de estimar el grado de precisión de éstas. El error está mezclado con la verdadera puntuación, y para
separarlos necesitamos llevar a cabo algunos procesos y ahí es donde entran las teorías o modelos estadísticos. Modelos
para esto ha habido muchos, pero uno de los que se ha mostrado más eficaz y parsimonioso es el modelo lineal clásico
propuesto originalmente por Spearman. Se caracteriza porque su énfasis está orientado por la cantidad de respuestas
correctas. Es la principal información que se obtiene de la TCT.

Psicología Página 1
Prof. René Castro Psicometría 1 UBA

Modelo Lineal Clásico


Spearman propone un modelo muy simple, de sentido común, para las puntuaciones de las personas en los tests, y que
ha dado en llamarse modelo lineal clásico. Consiste en asumir que la puntuación que una persona obtiene en un test, que
denominamos su puntuación empírica, y que suele designarse con la letra X, está formada por dos componentes, por un
lado la puntuación verdadera de esa persona en ese test (V), sea la que sea, y por otro un error (e), que puede ser debido a
muchas causas que se nos escapan y que no controlamos. Lo dicho puede expresarse formalmente así: X = V + e. Este
tipo de modelo define relaciones lineales entre las variables en estudio, hecho que lo diferencia respecto a la Teoría de la
Respuesta al Item, que define una relación curva entre las variables en estudio.
ORÍGENES Y DESARROLLO DE LA TEORÍA CLÁSICA DE TESTS (TCT)
Como consecuencia del auge, uso y aplicación logrados u obtenidos por los tests psicológicos, surge la necesidad de
desarrollar un marco teórico que sirva de fundamento a las puntuaciones obtenidas por los sujetos cuando a estos se les
aplican estas pruebas, posibiliten la validación de las interpretaciones e inferencias realizadas a partir de ella, y permita la
estimación de los errores de medida inherentes a todo proceso de medición a través del desarrollo de una serie de
modelos.
Así, se desarrolló un marco teórico general, la Teoría de los Tests, que va a permitir establecer una relación funcional
entre las variables observables a partir de las puntuaciones empíricas obtenidas por los sujetos en los tests o en los ítems
que los componen y las variables inobservables definidas como los constructos.
La Teoría Clásica de los Test (TCT) se desarrolló, fundamentalmente, a partir de las aportaciones de Francis Galton,
Pearson y Spearman que giran en torno a tres conceptos básicos:
 las puntuaciones/medidas empíricas u observadas (X)
 las puntuaciones/medidas verdaderas (V)
 y las puntuaciones debidas al error (e)
El objetivo central era encontrar un modelo estadístico que fundamentase adecuadamente las puntuaciones de los tests
y permitiera la estimación de los errores de medida asociados a todo proceso de medición realizado en el campo
psicológico o educativo para inferir (estimar) el nivel real de los sujetos en el rasgo que mide el test. Estos errores son
aleatorios y pueden venir de distintas fuentes. Mientras menor sea el error cometido, mayores sean las
puntuaciones/medidas verdaderas (V), mayor será la confiabilidad del test empleado.
El modelo lineal de Spearman, es un modelo aditivo en el que la puntuación observada (variable dependiente) de un
sujeto en un test (X) es el resultado de la suma de dos componentes: su puntuación verdadera (variable independiente) en
el test (V) y el error (e) (variable interviniente, interfiriente o extraña).
X=V+e
Donde:
X= Puntuación observada (variable dependiente) de un sujeto en un test
V= Puntuación verdadera (variable independiente) de esa persona en el test
E=error que puede ser debido a muchas causas que se nos escapan y que no controlamos (variable interfiriente)
A partir de este modelo y unas asunciones mínimas, la TCT desarrollará todo un conjunto de deducciones encaminadas
a estimar la cuantía del error que afecta a las puntuaciones de los tests.
Supuestos:
1. El primer supuesto es definir la puntuación (V) como la esperanza matemática de la puntuación empírica (X), que
formalmente se escribe así:
V = E(X)
Lo que esto significa conceptualmente es que se define la puntuación verdadera (V) de una persona en un test como
aquella puntuación que obtendría como media si se le aplicara infinitas veces el test. Se trata de una definición teórica,

Psicología Página 2
Prof. René Castro Psicometría 1 UBA

nadie va a pasar infinitas veces un test a nadie, por razones obvias, pero parece plausible pensar que si esto se hiciese,
la puntuación media que esa persona sacase en el test sería su verdadera puntuación.
2. En el segundo supuesto, Spearman asume que la correlación existente entre las puntuaciones verdaderas de "n" sujetos
en un test y los errores de medida es igual a cero, o lo que es igual, que no existe relación entre la cuantía de las
puntuaciones verdaderas de las personas y el tamaño de los errores que afectan a esas puntuaciones. En otras palabras,
que el valor de la puntuación verdadera de una persona no tiene nada que ver con el error que afecta esa puntuación, es
decir, puede haber puntuaciones verdaderas altas con errores bajos, o altos, no hay conexión entre el tamaño de la
puntuación verdadera y el tamaño de los errores. De nuevo se trata de un supuesto en principio razonable, que
formalmente puede expresarse así:
r(v,e) = 0
3. El tercer supuesto establece que los errores de medida de las personas en un test no están relacionados con los errores
de medida de las personas en otro test distinto. Dicho de otro modo, la correlación entre los errores de medida (re1e2)
que afectan a las puntuaciones de los sujetos en dos test diferentes es igual a cero. Es decir, no hay ninguna razón para
pensar que los errores cometidos en una ocasión vayan a covariar sistemáticamente con los cometidos en otra ocasión.
Formalmente se escribe así:
r(e1,e2) = 0 o también r(ej, ek) = 0.

Partiendo de esos tres supuestos del modelo, se establecen las siguientes deducciones:
a) El error de medida (e) es la diferencia entre la puntuación empírica (X) y la verdadera (V).
e = X-V
b) La esperanza matemática de los errores de medida es cero, luego son errores insesgados.
E(e) = 0
c) Las puntuaciones verdaderas no covarían con los errores.
Cov(V,e) = 0
d) La covarianza entre las puntuaciones empíricas y las verdaderas es igual a la varianza de las verdaderas:
cov(X,V) = S2(V)
e) La covarianza entre las puntuaciones empíricas de dos test es igual a la covarianza entre las verdaderas:
cov(Xj,Xk) = cov(Vj,Vk)
f) La varianza de las puntuaciones empíricas es igual a la varianza de las verdaderas más los errores:
S2(X) = S2(V) + S2(e)
g) La correlación entre las puntuaciones empíricas y los errores es igual al cociente entre la desviación típica de los
errores y la de las empíricas.
rxe = Se/S
Estas asunciones parecen razonables y sensatas, pero no se pueden comprobar empíricamente de forma directa, serán
las deducciones que luego se hagan a partir de ellas las que permitan confirmarlas o falsearlas. Tras cien años de
formuladas y con muchos resultados empíricos detrás, bien podemos decir hoy que las ideas de Spearman han sido de
gran utilidad para la psicología.
Además del modelo y de estos tres supuestos, se formula una definición de lo que son Tests Paralelos, entendiendo por
ello aquellos tests que miden lo mismo exactamente pero con distintos ítems. Las puntuaciones verdaderas de las personas
en los tests paralelos serían las mismas, y también serían iguales las varianzas de los errores de medida.

Psicología Página 3
Prof. René Castro Psicometría 1 UBA

El modelo lineal, junto con los tres supuestos enunciados, y la definición de tests paralelos propuesta, constituyen el
conjunto central de la Teoría Clásica de los Tests.
Tradicionalmente, los métodos basados en la llamada Teoría Clásica de los Tests han sido utilizados para el análisis de
calidad técnica de instrumentos de medición psicométricos. Uno de los resultados más importantes que se deriva a partir
de los postulados de la Teoría Clásica es el conocido coeficiente de confiabilidad α de Cronbach, medida que se usa para
juzgar la confiabilidad de un instrumento desde el punto de vista de su consistencia interna.
En algunos países de Latinoamérica, la Teoría Clásica de los Tests se ha aplicado rutinariamente para el análisis y la
construcción del banco de ítems de las pruebas de aptitud académica de las principales universidades estatales, como las
Universidades de Costa Rica y el Instituto Tecnológico en Costa Rica. Más recientemente, también se ha incorporado a
las pruebas sumativas que deben presentarse al termino de la educación secundaria (llamadas pruebas de bachillerato).

Limitaciones del enfoque clásico.

Veamos la primera: dentro del marco clásico, las mediciones no resultan invariantes respecto al instrumento utilizado.
Esto significa que si un psicólogo evalúa la inteligencia de tres personas distintas con un test diferente para cada persona,
los resultados no son comparables, no podemos decir en sentido estricto qué persona es más inteligente.
Esto es así porque los resultados de los tres tests no están en la misma escala, cada test tiene la suya propia, por lo que
no es conveniente comparar la inteligencia de personas que han sido evaluadas con distintos tests de inteligencia. Para
hacerlo se transforman las puntuaciones directas de los tests en otras baremadas, por ejemplo en percentiles, con lo que se
considera que se pueden ya comparar, y de hecho así se hace. Este proceder clásico asume que los grupos normativos en
los que se elaboraron los baremos de los distintos tests son equiparables, lo cual es difícil de garantizar en la práctica.
No hay duda que lo más deseable científicamente sería que los resultados obtenidos al utilizar distintos instrumentos
estuviesen en la misma escala. Eso es precisamente lo que va a conseguir el enfoque de la TRI. Este nuevo enfoque de la
TRI va a suponer un gran avance para la medición psicológica, propiciando un gran desarrollo de nuevos conceptos y
herramientas psicométricas.
La segunda gran cuestión no bien resuelta dentro del marco clásico era la ausencia de invarianza de las propiedades de
los tests respecto de las personas utilizadas para estimarlas. En otras palabras, propiedades psicométricas importantes de
los tests, tales como la dificultad de los ítems, o la fiabilidad del test, estaban en función del tipo de personas utilizadas
para calcularlas, lo cual resulta inadmisible desde el punto de vista de una medición rigurosa. Por ejemplo, la dificultad de
los ítems, o los coeficientes de fiabilidad dependen en gran medida del tipo de muestra utilizada para calcularlos. Este
problema también encontrará una solución adecuada dentro del marco de la TRI.

Teoría de la Respuesta al Item (TRI/TRL)

Dentro del campo de la Teoría de los Tests Psicométricos han aparecido distintas denominaciones que en la actualidad
toman el nombre de "Teoría de la Respuesta al Item (TRI)" (Teoría del Rasgo Latente (TRL) o Teoría de Respuesta
al Reactivo (TRR)) cuyo principal autor fue Frederic M. Lord (12/1112 -05/02/2000), psicometrista del Servicio de
Pruebas Educacionales quién aportó dos libros importantes: Statistical Theories of Mental Test Scores o Teorías
Estadísticas de las Puntuaciones Mentales (con Melvin R. Novick y dos capítulos por Allen Birnbaum, 1968) y
Applications of Item Response Theory to Practical Testing Problem (1980) o Aplicaciones de la Teoría de la Respuesta al
Item a los problemas prácticos de la prueba. Además, G. Rasch aportó el desarrollo del primer modelo logístico
probabilístico basado en el índice de dificultad de la TRI/TRL. En este caso, puede observarse que ítem, reactivo,
pregunta o afirmación tienen significados similares.
Esta denominación presenta unas diferencias respecto al modelo clásico:
1) la relación entre el valor esperado de las puntuaciones del sujeto y el rasgo (característica responsable de los
valores), no suele ser de tipo lineal, la TRI postula que esta relación es de tipo probabilística, no lineal (curva) y
abstracta.

Psicología Página 4
Prof. René Castro Psicometría 1 UBA

2) pretende hacer predicciones individuales sin necesidad de hacer referencia a las características del grupo normativo.
Vemos, pues, que esta Teoría de la Respuesta al Item proporciona la posibilidad de describir de forma separada tanto a
los items como a los individuos; además considera que la respuesta que da el sujeto depende del nivel de habilidad que
tenga en el rango considerado.
El origen de estos modelos se deben a Lazarsfeld, 1950, el cual introdujo el término "rasgo latente”. Desde aquí se
considera que cada individuo tiene un parámetro individual el cual es el responsable de las características del sujeto,
denominadas también "rasgo".
Este rasgo no es medible directamente, solo indirectamente, de ahí que el parámetro individual reciba el nombre de
variable latente.
A la hora de aplicar los tests se pueden obtener dos cosas distintas, la puntuación verdadera y la escala de aptitud; esto
se consigue si pasamos dos tests acerca de la misma aptitud a un mismo grupo.
En la Teoría del Rasgo Latente o Teoría de la Respuesta al Item, la puntuación verdadera es aquel valor que se espera
de la puntuación observada. Según Lord, la puntuación verdadera y la aptitud son la misma cosa pero expresadas en
diferentes escalas de medición.
La Teoría de la Respuesta al Item (TRI) o Teoría del Rasgo Latente (TRL) asume que entre la respuesta que una
persona ofrece a una pregunta o prueba, y el rasgo o habilidad (puede entenderse también como la competencia, actitud,
actitud, etc.) de la persona, existe una relación no lineal (curva), que se puede expresar en términos probabilísticos.
El conjunto de cálculos que se aplican para ello determina los distintos modelos y resultados de la TRI.
En cuanto al cálculo estadístico, la TRI utiliza un modelo matemático logístico para describir la relación entre el nivel
de habilidad del examinado y la probabilidad que éste dé una respuesta correcta a un ítem del test. Algunas aplicaciones
de la TRI han consistido en la creación de bancos de ítems y los diseños de tests a la medida del sujeto o test adaptativos
computadorizados (TAC). Los test de medida consisten en la selección de informatizada de los ítems que puedan medir
mejor la habilidad de un individuo. Otros conceptos fundamentales en la TRI son la Función de Información y el Error
Estándar de Medición.
La Teoría de la Respuesta al Ítem (TRI) tiene algunas ventajas sobre la TCT, ya que permite obtener más información
sobre los ítems de la prueba y sobre la variable psicológica, el constructo o variable latente que interesa medir en los
examinados. Además, con la TRI se pueden generar pruebas adaptadas al nivel de los individuos. También se logran
indicadores de las propiedades psicométricas del instrumento, y de los ítems que lo componen, según los diferentes
valores del constructo de interés. Permite establecer comparaciones entre escala de distintos test que evalúan un mismo
constructo, mediante transformaciones lineales o escalares. Estas características de la TRI le dan ventajas esenciales en
relación con la Teoría Clásica.
Modelos de la TRI/TRL.
Los modelos de la TRI centran su interés en las preguntas.
En la TRI se suelen distinguir tres modelos distintos (teoría triparamétrica) en función del número de parámetros que
estiman:
a) Modelo de un parámetro, también llamado modelo de Rash (1PL). Se estima la dificultad del item (b).
b) Modelo de dos parámetros (modelo de Lord y Novick) se estima la dificultad (b) y la discriminación del item (a)
(2PL).
c) Modelo de tres parámetros, o modelo de Birnbaum (3PL). Este modelo se incluye en la TRI, aunque en esencia puede
considerarse como un enfoque alternativo de la TRI. El modelo de Birnbaum estima la dificultad (b), la discriminación
(a) y el pseudoazar o adivinación (c).
Parámetros del ítem
Como se ha indicado, los parámetros son tres: dificultad (b), discriminación (a) y pseudo-azar (c).
El índice de dificultad se suele indicar con la letra “b” y se define como:

Psicología Página 5
Prof. René Castro Psicometría 1 UBA

 es la proporción de sujetos examinados que responden correctamente a ese ítem, sirve para identificar y establecer
cuantitativamente el nivel o grado de dificultad de un ítem o pregunta.

 el punto de la escala de habilidad donde la probabilidad de responder correctamente el ítem es igual a 0,5. Es decir,
que coincide con el grado de habilidad donde la curva “señala” una proporción de 50% o una probabilidad de 0,5.
Dicho de otra forma, con ese nivel de habilidad, la persona tienen una proporción del 50% o una probabilidad del 0,50
de contestar correctamente al ítem.

El índice de discriminación se suele indicar con la letra “a” y se define como:

 Un ítem tiene elevado poder discriminativo si contribuye a la distinción, separación y diferenciación, de los sujetos
que puntúan alto en el test de los que puntúan bajo en el mismo. Es decir, si contribuye a diferenciar individuos que
exhiben el constructo o rasgo de aquellos que no lo exhiben.

 hasta que punto la pregunta puede discriminar entre sujetos que tienen un nivel alto de habilidad de aquellos que
tienen un nivel bajo. El índice de discriminación se suele representar con la letra “a”. Esta propiedad se refleja en la
pendiente de la curva, así, una mayor pendiente de la curva CCI del ítem indicará una mayor separación o
discriminación según su habilidad y viceversa.

El coeficiente de azar, pseudoazar o adivinación, se representa con la letra “c” y se define como:

 la probabilidad de contestar correctamente un ítem sin tener el nivel de habilidad exigido o la probabilidad que hay de
acertar el ítem al azar. Este parámetro trata de representar el efecto del azar.
 la probabilidad en los ítems de opción múltiple de que un sujeto de poca habilidad/aptitud conteste un ítem
relativamente difícil de manera correcta, lo que hace suponer que lo hizo por azar, es decir adivinando. En este caso
el menor/inferior valor de la curva asintótica representa el mayor valor de probabilidad de responder correctamente en
la sección negativa o baja de los datos normalizados o tipificados (de 0 a -4, -5, o valores inferiores) que representa
los sujetos de escasa habilidad en el constructo evaluado.

La TRI genera una serie de resultados de especial interés:

a. Parámetros específicos de los ítems:

 Índice de dificultad (b)  Probabilidad de acierto al azar (c)

 Índice de discriminación(a)  Error por descuido.

También se estudia el Parámetro θ (tita), es la habilidad o nivel de habilidad del sujeto en el rasgo latente/variable
estudiada:

b. Curva característica del ítem (CCI): es un elemento fundamental de la TRI porque, por un lado, ofrece una
representación gráfica de las características del ítem, y por otra muestra la relación entre la habilidad y la respuesta
al ítem, en términos probabilísticos (ver ecuaciones sobre los 3 modelos en la página siguiente y las guías sobre
conceptos y problemas de CCI en pdf y Excel).

c. Puntuación verdadera en el test: se identifica con la suma de las probabilidades estimadas con relación al nivel de
habilidad para el total de ítems del test.

d. Curva característica del test: permite ver de manera gráfica, la relación entre la puntuación verdadera y
habilidades. La Curva Característica del Test (CCT) muestra la relación existente entre la puntuación total en un
test (no solamente en un ítem como sucede con la CCI) y el nivel de habilidad de una persona.

Psicología Página 6
Prof. René Castro Psicometría 1 UBA

e. Nivel de información: es un indicador de la precisión de la estimación.

COMPARACIÓN DE LA TEORÍA CLÁSICA CON LA TRI

En la siguiente tabla, tomada de Muñiz (1997a), se sintetizan las principales diferencias y similitudes entre el enfoque
clásico o Teoría Clásica de los Test TCT) y la Teoría de la Respuesta al Ítem (TRI).

Aspectos Teoría Clásica (TCT) Teoría de Respuesta a los Items (TRI)


Modelo Lineal No lineal (curva)
Asunciones Débiles (fáciles de cumplir por los Fuertes (difíciles de cumplir por los
datos) datos)
Invarianza de las mediciones No Si
Invarianza de las propiedades del No Si
test
Escala de las puntuaciones Entre 0 y la puntuación máxima del Entre -∞ y +∞
test
Énfasis Test Ítem
Relación Ítem-Test Sin especificar Curva Característica del Ítem
Descripción de los ítems Índices de Dificultad y de Parámetros a, b, c
Discriminación
Errores de medida Error típico de medida común para Función de Información (varía según
toda la muestra el nivel de aptitud)
Tamaño Muestral Puede funcionar bien con muestras Se recomiendan más de 500 sujetos,
entre 200 y 500 sujetos aunque depende del modelo
aproximadamente

TEORÍA DE LA RESPUESTA AL ÍTEM/REACTIVO (TRI/R).


La Teoría de la Respuesta al Item (TRI) o Teoría del Rasgo Latente (TRL) asume que entre la respuesta que
una persona ofrece a una pregunta o prueba, y el rasgo o habilidad (puede entenderse también como la
competencia, actitud, actitud, etc.) de la persona, existe una relación no lineal (curva), que se puede expresar en
términos probabilísticos, y que se representa mediante un diagrama de regresión ítem – test, el cual presenta, en
el eje x, la puntuación o calificación obtenida en el test y en el eje y, la proporción de respuestas correctas
obtenidas por los sujetos/participantes/respondientes para cada ítem/reactivo. Tanto la dificultad (b), la
capacidad discriminatoria (a) como el pseudoazar (c) se pueden representarse simultáneamente, en forma
gráfica, en este tipo de diagrama.
En un primer ejemplo tomaremos un test de inteligencia aplicado a muchas personas. La mayor puntuación
fue 135 y la menor 60. El rendimiento de un ítem concreto sería: 132 personas obtuvieron 60 en el test, de estas
solo 2 lo contestaron bien, se entonces calcula la proporción 2/132, que es 0,02, hacemos lo mismo con los que
obtuvieron 75,85, 100, 115, 125 y 135. La siguiente tabla y gráfica muestra la proporción de acertar el ítem
dentro de cada grupo de personas.
En la siguiente tabla se presentan:
 las calificaciones posibles u obtenidas en el test (de 60 a 135, denominadas Xi)
 su correspondiente puntuación Z obtenida de la media ( = 99,28) y de la desviación estándar (σ =
25,41) de esas calificaciones mediante la fórmula Z = (Xi - σ
 el número de sujetos que obtuvieron cada una de esas calificaciones

Psicología Página 7
Prof. René Castro Psicometría 1 UBA

 para cada calificación, el número de sujetos que acertaron o respondieron correctamente el ítem
 la proporción de sujetos/personas en cada nivel de puntuación/calificación/nota total del test que
contestó correctamente al reactivo.
Tabla con datos de la regresión ítem-test para el reactivo/ítem 4.

Reactivo/ítem 7
Calificación en el
Puntuación Z # sujetos con esa # sujetos que Proporción de acertar
test
calificación acertaron el item (P)
-1,55 60 132 2 0,02
-0,96 75 204 17 0,08
-0,56 85 276 49 0,18
0,03 100 171 86 0,50
0,62 115 317 289 0,91
1,01 125 357 354 0,99
1,41 135 401 398 0,99
99,2857
σ 25,4149

Regresión ítem-test: proporción de acertar el ítem dentro de cada grupo de personas.


1,20

1,00 0,99 0,99


0,91
Proporción de acertar (P)

0,80
P(O)
0,60
0,50
0,40

0,20 0,18
0,08
0,00 0,02
55 65 75 85 95 105 115 125 135
Calificación (CI)

Gráfica de la regresión ítem-test para el reactivo/ítem 4 con base a escala decimal (calificación CI).

Podemos ver que a mayor CI de la persona, mayor es la probabilidad de acertar el ítem. A un CI de 100 le
corresponde una probabilidad de acertar de 0,5, y a un CI de 120 le corresponde una probabilidad de 0,99.
El nivel de habilidad del sujeto (θ) puede definirse en cualquier escala, en la gráfica anterior se empleó la
escala del cociente intelectual, (CI) aunque en la práctica suele emplearse una escala normalizada/tipificada, con
media cero, varianza 1 y un rango de valores de 3 a -3.
Psicología Página 8
Prof. René Castro Psicometría 1 UBA

θ (NHS) Equiv. en CI (aprox.) CI Clasificación


deficiente mental
-3 60 50-69
superficial
limítrofe (borderline o
θ (NHS) como -2 75 70-79
fronterizo )
puntos Z o
-1 85 80-89 subnormal
valores
0 100 90-109 normal
tipificados (Z)
1 115 110-119 normal brillante
2 125 120-129 superior
3 135 130 o más muy superior

Proporción de acertar el ítem dentro de cada grupo de personas.


1,20

1,00 0,99 0,99


0,91
Proporción de acertar (P)

0,80
P(O)
0,60
0,50
0,40

0,180,20
0,08
0,02 0,00
-4 -3 -2 -1 0 1 2 3 4
Calificación normalizada o tipificada del CI

Gráfica de la regresión ítem-test para el reactivo/ítem 4 con base en la escala Z (CI).


Como segundo ejemplo, consideremos un test o prueba hipotética de 12 ítems/reactivos que requieren
respuestas cortas del tipo de respuesta abierta o libre, como las pruebas de vocabulario de las escalas de
inteligencia de aplicación individual. En la siguiente tabla se presentan:
 las calificaciones posibles en el test (de 12 a 1)
 su correspondiente puntuación Z obtenida de la media ( = 6,5) y de la desviación estándar (σ =
3,4520) de esas calificaciones mediante la fórmula Z = (Xi - σ
 el número de sujetos que obtuvieron cada una de esas calificaciones
 para cada calificación, el número de sujetos que acertaron o respondieron correctamente los ítems en
estudio (7 y 13)
 la proporción de sujetos/personas en cada nivel de puntuación/calificación/nota total del test que
contestó correctamente a cada uno de los dos reactivos (7 y 13).
Psicología Página 9
Prof. René Castro Psicometría 1 UBA

Tabla con datos de la regresión ítem-test para los reactivos/ítem 7 y 13.

Reactivo/ítem 7 Reactivo/ítem 13
Puntuación Calificación # sujetos # sujetos
# sujetos Proporción # sujetos Proporción
Z en el test que que
con esa de acertar con esa de acertar
acertaron el acertaron el
calificación (P) calificación (P)
item item
1,59 12 415 415 1 415 394 0,95
1,30 11 350 287 0,82 350 217 0,62
1,01 10 330 287 0,87 330 287 0,53
0,72 9 293 205 0,7 293 205 0,16
0,43 8 285 139 0,49 285 139 0,05
0,14 7 260 60 0,23 260 60 0
-0,14 6 210 21 0,1 210 0 0
-0,43 5 200 12 0,06 200 0 0
-0,72 4 167 5 0,03 167 5 0
-1,01 3 79 0 0 79 0 0
-1,30 2 46 0 0 46 0 0
-1,59 1 32 0 0 32 0 0
6,5
σ 3,45205

Regresión item-test: proporción de acertar P(θ) Reactivos 7 y 13


1,1
1 Reactivo 7
y = -0,0004x4 + 0,0091x3 - 0,0503x2 + 0,0957x - 0,0517
0,9
Proporcuón de respuestas correctas

R² = 0,9832
0,8
Reactivo 7
0,7
0,6 Reactivo 13
0,5
0,4 Polinómica (Reactivo 7)

0,3 Reactivo 13
Polinómica (Reactivo 13)
0,2 y = -0,0002x4 + 0,0059x3 - 0,0534x2 + 0,1601x - 0,1282
R² = 0,9797
0,1
0
0 2 4 6 8 10 12 14
-0,1
Puntuación total

Gráfica de la regresión ítem-test para los reactivos/ítem 7 y 13 con base a escala decimal (nota total).
Esta gráfica de la regresión ítem-test también se puede representar empleando la escala de puntuaciones Z
para el eje X, como se presenta a continuación:

Psicología Página 10
Prof. René Castro Psicometría 1 UBA

Regresión ítem-test: proporción de acertar P(θ) Reactivos 7 y 13


1,1
Proporción de respuestas correctas P(θ)

Reactivo 7 1
y = -0,0595x4 - 0,0722x3 + 0,2579x2
0,9+ 0,4817x + 0,2065
R² = 0,9832
0,8
Reactivo 7 0,7
0,6
Reactivo 13
0,5
Polinómica (Reactivo 7) 0,4
0,3
Polinómica (Reactivo 13)
0,2 Reactivo 13
y = -0,0226x4 + 0,0714x3 + 0,2474x2 + 0,1223x - 0,0147
0,1 R² = 0,9797
0
-2 -1,5 -1 -0,5 -0,1 0 0,5 1 1,5 2

Puntuación total (escala Z)


Gráfica de la regresión ítem-test para los reactivos/ítem 7 y 13 con base en la escala Z (nota total).
En estas gráficas puede observarse que el grado de dificultad de cada reactivo puede definirse como su
umbral del 50% o proporción de respuestas correctas 0,5. Esto se ha usado en las figuras anteriores al trazar
líneas perpendiculares desde los puntos en los que las curvas de ambos reactivos cruzan la línea del 50% (o 0,5)
en el eje horizontal, sobre el que se localizan las puntuaciones totales correspondientes, ya sea en escala decimal
o escala Z. se demuestra así que las personas con una calificación aproximada de 8 (en escala decimal, en escala
Z es aproximadamente 0,5) tienen una oportunidad de 50-50 (50% o 0,5) de aprobar el reactivo 7, al igual que
las personas con una calificación aproximada de 10 (en escala decimal, en escala Z es aproximadamente 1,0) en
el caso del reactivo 13, esto implicaría que el reactivo 7 es “más fácil” de responder bien que el reactivo 13.
Pudiera decirse que al aumentar el nivel de dificultad de los items (línea: azul más fácil, línea rojo, más
difícil), disminuye la probabilidad del sujeto para responder correctamente y aumenta la probabilidad de
responder incorrectamente. Para decirlo de otra forma, al aumentar la dificultad del ítem, el respondiente
necesita una mayor habilidad o destreza para poder responder correctamente el 50% de las veces que conteste el
ítem. Puede observarse en la gráfica que al aumentar la dificultad de los ítems, las curvas tienden a desplazarse
hacia la derecha, mientras que al disminuir el nivel de dificultad de la pregunta, la curva tiende a moverse hacia
la izquierda de la gráfica.
La pendiente de la curva indica la capacidad discriminativa de cada reactivo, entre mayor sea la pendiente o
grado de “inclinación positiva, alza o levantamiento” de la curva, mayor será la relación entre la ejecución o
desempeño correcto con la puntuación total y mayor el índice discriminativo. También puede observarse que los
trazados de las pendientes centrales de las gráficas son similares entre sí, por lo que la capacidad discriminativa
es aproximadamente similar en las 2 gráficas.

Psicología Página 11
Prof. René Castro Psicometría 1 UBA

PROBABILIDAD DE ACERTAR AL ÍTEM / REACTIVO O DAR UNA RESPUESTA


ACERTADA/CORRECTA SEGÚN MODELO LOGISTICO.
En la TRI, el cálculo de la probabilidad de acertar al ítem o dar una respuesta acertada/correcta se calcula
principalmente empleando funciones logísticas, o sea, aquellas funciones que generan curvas sigmoideas con
crecimiento entre dos asíntotas horizontales (ver gráfica anexa), según la siguiente ecuación general:

-z
En este tipo de función logística, mientras Z toma valores hacia el más infinito (+1, +2, +3, +4, +∞), e
genera valores hacia 0 y P(y) produce valores hacia 1 pero sin exceder este valor. En el caso contrario, mientras
-z
Z toma valores hacia el menos infinito (-1, -2, -3, -4, -∞), e genera valores hacia infinito y P(y) produce
valores hacia 0 pero sin exceder este valor, la cual genera gráficas como la siguiente:

Curva del Modelo Logístico (asíntotas y=0,1 y y=1)


1,20

Asíntota y=1
P(y) Prob. Resp. Correcta.

1,00

0,80

0,60

0,40

0,20
Asíntota y=0,1

0,00
-3 -2 -1 0 1 2 3

Valores tipificados (Z)

En este caso, las dos asíntotas serían y = 1 y y = 0,1.

Psicología Página 12
Prof. René Castro Psicometría 1 UBA

TEORÍA DE RESPUESTA AL ÍTEM. PROBABILIDAD DE RESPONDER CORRECTAMENTE AL ITEM


(P(θ)) SEGÚN MODELO LOGISTICO (modelo de Rasch, 1960). 1er PARÁMETRO (b índice de dificultad).

Ecuación o fórmula: Ecuación equivalente

Para este primer parámetro, se estudia el índice de dificultad del ítem.


El modelo logístico de un parámetro es más conocido como modelo de Rasch (1963). Este es el modelo más
simple de todos. La probabilidad de acertar un ítem depende solamente del nivel de dificultad de dicho ítem y
del nivel del sujeto en la variable medida (habilidad del sujeto en la característica estudiada, como inteligencia,
capacidad motora, etc.). La distribución logística se define como una función tal que:

Su función logística (figura anterior) es muy similar a la función de una curva sigmoide o curva normal
acumulada. La curva característica del ítem (CCI) para el modelo de Rasch está dada por la ecuación siguiente:

en donde:
Pi(θ)= es la probabilidad de que un examinado b = parámetro o índice de la dificultad del ítem i
elegido al azar con aptitud θ conteste D = constante de la ecuación (D=1,7).
correctamente el ítem i. e = base de los logaritmos neperianos o naturales=
θ = nivel de habilidad del sujeto. 2,718
El nivel de habilidad del sujeto (θ) puede definirse en cualquier escala, en este caso se ha utilizado una
escala típica, con media 0, varianza 1 y un rango de valores de -4 a +4.
La función forma una curva en forma de S inclinada con valores de 0 a 1 en la ordenada (eje Y, expresa
probabilidad) y valores correspondientes a la aptitud o habilidad θ en la abscisa (eje X, expresa los niveles de
habilidad del sujeto o respondiente, presentados en este caso como valores Z tipificados como -4σ, -3σ, -2σ, -
1σ, 0σ, 1σ, 2σ, 3σ, 4σ).
El parámetro b de dificultad es el punto en la escala de aptitud θ cuya probabilidad de respuesta correcta es
0,5 o dicho de otra forma, es aquel valor de θ para el cual P(θ)=0,5. Dicho de otra manera, la dificultad del
reactivo define un punto en la escala de habilidad justo en que la probabilidad de éxito P(θ) es igual a la
probabilidad de fracaso 1 – P(θ), esto es, un sujeto con un nivel de habilidad θ igual a la dificultad del reactivo i
(bi), tendrá una probabilidad de 0.5 de contestar correctamente este reactivo y, por lo tanto, una probabilidad de
0.5 de responderlo de manera incorrecta.
El parámetro b de dificultad indica la posición del ítem en la escala de aptitud. Cuando más grande es el
valor de b, mayor es la dificultad para responder correctamente el ítem y también mayor la aptitud requerida
para que el examinado tenga una P(θ) = 0,5 de resolver correctamente el ítem.

Psicología Página 13
Prof. René Castro Psicometría 1 UBA

Nótese que las curvas difieren sólo en su localización a lo largo de la escala de habilidad y que la línea de las
curvas nunca se cruza entre sí. Por esto puede observarse en la gráfica anterior que las curvas de los distintos
ítems se corren o desplazan hacia la derecha a medida que incrementa el nivel o índice de dificultad, y se
mueven hacia la izquierda a medida que disminuye este mismo índice.
Como se mencionó anteriormente, la habilidad o aptitud θ suele transformarse en una escala tipificada Z de
modo que la = 0 y la s = 1 y los valores de b suelen ir de -2 a + 2.
Los ítem con b = -2 son muy fáciles, los ítem con b = +2 muy difíciles. En la figura anterior se han
representado 4 CCI de 4 items diferentes, por lo que el gráfico representa estos 4 ítems, tales que para el ítem 1,
b=1; para el item 2, b = 2; para el ítem 3, b= -1 y para el item 4, b = 0.

Curva Característica del Item (CCI), 1er parámetro b


1,00 0,9939 0,9989
0,9939 0,9998
0,9989
0,9939
0,9677 0,9677 0,9677 0,9677
P(O) Prob.Resp.Corr. b=-1 0,90
(fácil) 0,8455 0,8455 0,8455 0,8455
0,80
P(O) Prob. Resp. Corrcta.

P(O) Prob. Resp. Corr. b=0


0,70
(medio)
0,60
P(O) Prob.Resp.Corr. b=1
(medio difícil) 0,50
0,5000 0,5000 0,5000 0,5000

P(0) 0,40
Prob.Resp.Corr.b=2(difícil)
0,30

0,20
0,1545 0,1545 0,1545 0,1545
0,10
0,0323 0,0323 0,0323 0,0323
0,0061
0,0011
0,0002
0,0000 0,0061
0,0011
0,0002 0,0061
0,0011 0,0061
0,00
-5 -4 -3 -2 -1 0 1 2 3 4 5
Nivel Habilidad del sujeto (θ NHS) tipificado (Z)

Algunas observaciones que pueden obtenerse de esta gráfica son:


1- Al aumentar el nivel de habilidad del sujeto, aumenta su probabilidad de responder correctamente.
2- Al aumentar el nivel de dificultad de los items (línea: rojo, fácil/azul, medio/verde, medio difícil, morado,
difícil), disminuye la probabilidad del sujeto para responder correctamente y aumenta la probabilidad de
responder incorrectamente. Puede observarse en la gráfica que al aumentar la dificultad de los ítems, las curvas
tienden a desplazarse hacia la derecha, mientras que al disminuir el nivel de dificultad de la pregunta, la curva
tiende a moverse hacia la izquierda de la gráfica. También puede observarse que el trazado de las gráficas es
igual entre sí, la curva inicial, la pendiente central y la inclinación final son iguales entre todas las 4 gráficas.
3- Para sujetos muy inteligentes (o muy deficientes), no influye el nivel de dificultad de la pregunta, los
primeros (muy inteligentes) tienen una alta probabilidad de responder bien una pregunta fácil, media o difícil,
mientras que los muy deficientes tienen una baja probabilidad de responder correctamente una pregunta fácil,
media o difícil.

Psicología Página 14
Prof. René Castro Psicometría 1 UBA

Para calcular P(θ) se procede como a continuación, para D = 1,7, θ = -4 y b= -1:

En este caso, como se dijo anteriormente, mientras θ toma valores bajos o hacia el menos infinito (-1, -2, -3,
-4, -∞), el término e-D*(θ-b) genera valores altos (164,0219) o hacia más infinito y P(θ) produce valores bajos (en
este caso P(θ)=0,0061) o hacia 0 pero sin exceder este valor.

Este bajo valor de la probabilidad de responder correctamente al ítem por parte del sujeto es fácil de
entender, ya que una persona de muy baja habilidad en la variable estudiada (θ=-4) se enfrenta a una pregunta
fácil (b=-1). Si la habilidad estudiada o medida es inteligencia, para este tipo de persona, de escasos recursos
intelectuales, toda pregunta será difícil y tiene una alta probabilidad de contestarla mal y una baja probabilidad
de contestarla correctamente (en este caso P(θ)=0,0061).

El caso contrario también es cierto. Si deseamos estimar la probabilidad de contestar correctamente (P(θ)) un
ítem/pregunta muy difícil (b=2) por parte de una persona nivel genio (θ=4), procedemos de la siguiente manera:
(para D = 1,7, θ = 4 y b= 2).

En este caso, como se dijo anteriormente, mientras θ toma valores altos o hacia el mas infinito (+1, +2, +3,
+4, +∞), el término e-D*(θ-b) genera valores bajos (0,0333) y P(θ) produce valores altos (en este caso
P(θ)=0,9677) o hacia 1 pero sin exceder este valor.

Como ya dijimos, este alto valor de la probabilidad de responder correctamente al ítem (P(θ)) por parte del
sujeto es fácil de entender, ya que si una persona de muy elevada habilidad en la variable estudiada (θ=+4) se
enfrenta a una pregunta muy difícil (b=+2) le resulta fácil responderla o superarla exitosamente. Como un
ejemplo, si la habilidad estudiada o medida es inteligencia, para este tipo de persona, de muy altos recursos
intelectuales (tipo Einstein o Stephen Hawking), toda pregunta será fácil y tiene una alta probabilidad de
contestarla bien (en este caso P(θ)=0,9677) y una baja probabilidad de contestarla incorrectamente.

Para realizar estos cálculos en su calculadora CASIO, puede introducir la siguiente fórmula:

a) (1/(1+e^(-1.7*(-4-(-1))))) cuyo resultado será 0,0061 y

b) (1/(1+e^(-1.7*(4-(2))))) cuyo resultado será 0,9677.

En las calculadoras CASIO tipo ES puede introducir la fórmula directamente y le dará el resultado, aunque
debe introducir los datos con cuidado, pues en algunos casos es fácil equivocarse introduciendo el orden de los

Psicología Página 15
Prof. René Castro Psicometría 1 UBA

elementos de la ecuación y por tanto obtener un valor incorrecto de probabilidad:

Ejemplo 1: Ejemplo 2:

En el programa EXCEL, usted puede usar la siguiente ecuación: =(1/(1+EXP((-1*F143)*(B143-D143))))


siendo F143 la constante D (D=1.7), B143 el factor θ y D143 el parámetro b.

Los datos con los cuales se realizó la curva anterior fueron los siguientes:

4 -1 1,7 P(θ)(4/-1/1,7)= 0,9998


3 -1 1,7 P(θ)(3/-1/1,7)= 0,9989
θ (NHS) 2 -1 1,7 P(θ)(2/-1/1,7)= 0,9939
como 1 -1 1,7 P(θ)(1/-1/1,7)= 0,9677
puntos Z o
0 b= -1 D(cte)= 1,7 P(θ)(0/-1/1,7)= 0,8455
valores
tipificados -1 -1 1,7 P(θ)(-1/-1/1,7)= 0,5000
(Z) -2 -1 1,7 P(θ)(-2/-1/1,7)= 0,1545
-3 -1 1,7 P(θ)(-3/-1/1,7)= 0,0323
-4 -1 1,7 P(θ)(-4/-1/1,7)= 0,0061
4 0 1,7 P(θ)(4/0/1,7)= 0,9989
3 0 1,7 P(θ)(3/0/1,7)= 0,9939
θ (NHS) 2 0 1,7 P(θ)(2/0/1,7)= 0,9677
como 1 0 1,7 P(θ)(1/0/1,7)= 0,8455
puntos Z o
0 b= 0 D(cte)= 1,7 P(θ)(0/0/1,7)= 0,5000
valores
tipificados -1 0 1,7 P(θ)(0/0/1,7)= 0,1545
(Z) -2 0 1,7 P(θ)(-2/0/1,7)= 0,0323
-3 0 1,7 P(θ)(-3/0/1,7)= 0,0061
-4 0 1,7 P(θ)(-4/0/1,7)= 0,0011
4 1 1,7 P(θ)(4/1/1,7)= 0,9939
3 1 1,7 P(θ)(3/1/1,7)= 0,9677
θ (NHS) 2 1 1,7 P(θ)(2/1/1,7)= 0,8455
como 1 1 1,7 P(θ)(1/1/1,7)= 0,5000
puntos Z o
0 b= 1 D(cte)= 1,7 P(θ)(0/1/1,7)= 0,1545
valores
tipificados -1 1 1,7 P(θ)(-1/1/1,7)= 0,0323
(Z) -2 1 1,7 P(θ)(-2/1/1,7)= 0,0061
-3 1 1,7 P(θ)(-3/1/1,7)= 0,0011
-4 1 1,7 P(θ)(-4/1/1,7)= 0,0002
θ (NHS) 4 2 1,7 P(θ)(4/2/1,7)= 0,9677
b= D(cte)=
como 3 2 1,7 P(θ)(3/2/1,7)= 0,8455

Psicología Página 16
Prof. René Castro Psicometría 1 UBA

puntos Z o 2 2 1,7 P(θ)(2/2/1,7)= 0,5000


valores 1 2 1,7 P(θ)(1/2/1,7)= 0,1545
tipificados
0 2 1,7 P(θ)(0/2/1,7)= 0,0323
(Z)
-1 2 1,7 P(θ)(-1/2/1,7)= 0,0061
-2 2 1,7 P(θ)(-2/2/1,7)= 0,0011
-3 2 1,7 P(θ)(-3/2/1,7)= 0,0002
-4 2 1,7 P(θ)(-4/2/1,7)= 0,0000

Para ver aplicaciones y problemas de este 1er modelo logístico, leer y consultar las guías en formato pdf y Excel
enviadas a su correo.

TEORÍA DE RESPUESTA AL ÍTEM. PROBABILIDAD DE RESPONDER CORRECTAMENTE AL ITEM


(P(θ)) SEGÚN MODELO LOGISTICO (modelo de Lord). 2do PARÁMETRO (b índice de dificultad y a índice
de discriminación).
Lord (1968,1980) fue el primero en elaborarlo, pero lo hizo basándose en una distribución normal.
Actualmente este modelo es poco usado por su complicación matemática. En se sustituyó el modelo de dos
parámetros de la ojiva normal por una función logística que tiene la ventaja de ser más conveniente para
manejar. El modelo de la ojiva normal supone integración mientras que el modelo logístico no. Este modelo
modificado está dado por la siguiente ecuación:

Ecuación o fórmula: Ecuación equivalente

Aquí b es, igualmente que en el modelo anterior, el parámetro de posición o dificultad. El factor D = 1,7 es
un valor arbitrario introducido para que la función logística sea ajustada a la ojiva normal con una exactitud de
0,01. Además hay un segundo parámetro a que es el de discriminación que es la pendiente de la CCI en el punto
b. Los ítems con pendiente mayor son más útiles para separar a los examinados en distintos niveles de aptitud,
que los ítems de menor pendiente. El modelo de dos parámetros es pues, una generalización del modelo de un
parámetro.
En este segundo parámetro, se estudia el índice de discriminación del ítem, el cual se suele indicar con la
letra “a” y se define como la capacidad de diferenciar, distinguir, separar y discriminar a los sujetos que puntúan
alto en el test de los que puntúan bajo en el mismo. Es decir, si contribuye a diferenciar individuos que exhiben
el constructo o rasgo de aquellos que no lo exhiben, o si el ítem discrimina aquellos sujetos que tienen un nivel
alto de habilidad de aquellos que tienen un nivel bajo. Esta propiedad se refleja en la pendiente de la curva, así,
una mayor pendiente de la curva CCI del ítem para este segundo parámetro indicará una mayor separación o
discriminación según su habilidad y viceversa.
El modelo logístico de dos parámetros es más conocido como modelo de Lord. La probabilidad de acertar un
ítem depende tanto del nivel de dificultad como del índice de discriminación de dicho ítem y del nivel del sujeto
en la variable medida (habilidad del sujeto en la característica estudiada, como inteligencia, capacidad motora,
etc.).
La curva característica del ítem (CCI) para el modelo de Lord está dada por la ecuación siguiente:
Psicología Página 17
Prof. René Castro Psicometría 1 UBA

en donde:
Pi(θ)= es la probabilidad de que un examinado elegido b = parámetro o índice de la dificultad del ítem i
al azar con aptitud θ conteste correctamente el ítem i. D = constante de la ecuación (D=1,7).
θ = nivel de habilidad del sujeto. e = base de los logaritmos neperianos o naturales=
a = índice de discriminación del ítem i. 2,718
El nivel de habilidad del sujeto (θ) puede definirse en cualquier escala, en este caso se ha utilizado una
escala típica, con media 0, varianza 1 y un rango de valores de -4 a +4.
La función forma una curva en forma de S inclinada con valores de 0 a 1 en la ordenada (eje Y, expresa
probabilidad) y valores correspondientes a la aptitud o habilidad θ en la abscisa (eje X, expresa los niveles de
habilidad del sujeto o respondiente, presentados en este caso como valores Z tipificados como -4σ, -3σ, -2σ, -
1σ, 0σ, 1σ, 2σ, 3σ, 4σ).

Curva Característica del Item (CCI) 2do parámetro a


1,00 9,915E-01 9,999E-01
9,998E-01
9,986E-01 1,000E+00
0,99830
0,97865
9,514E-01
P(O)1 a=1,5 Item 21 (menor 9,153E-01
P(O) Prob. Resp. Corrcta.

pendiente menos
discriminante) 0,80
0,7815
P(O)3 a=3,5 Item 43 (mayor
pendiente más discriminante) 0,99986
0,60

P(O)2 a=2,5 Item 32 (pendiente


intermedia, media
discriminación) 0,40

0,9514
0,2184
0,20

0,0485
0,00170 0,02135 0,00
0,00013
9,033E-10 3,466E-07 1,330E-04
-3 -2 -1 0 1 2 3
Nivel Habilidad del sujeto (NHS) tipificado (Z)

A mayor grado de inclinación o menor pendiente de la curva, el ítem es menos discriminativo (curva azul) y
separa en menor grado a los sujetos que poseen la habilidad de los que no la tienen. A mayor pendiente o menor
grado de inclinación de la curva, (curva roja) el ítem es más discriminativo y separa en mayor grado a los
sujetos que poseen la habilidad de los que no la tienen.

Psicología Página 18
Prof. René Castro Psicometría 1 UBA

El parámetro “a” de discriminación separa/desglosa/distingue/diferencia a los sujetos que tienen un nivel alto
de habilidad en el constructo o rasgo medido en el ítem de aquellos que tienen un nivel bajo de habilidad en el
constructo evaluado y se refleja o representa en el grado o nivel de la pendiente de la curva, así, una mayor
pendiente de la curva CCI del ítem indicará una mayor separación o discriminación según su habilidad y
viceversa. Debido a esto puede observarse en la gráfica anterior que las curvas de los distintos ítems con
diferentes índices de discriminación presentan disímiles pendientes o inclinaciones en la sección central de sus
curvas, hecho que se traduce en a) un mayor incremento y demanda de habilidades en el constructo evaluado
por parte del sujeto para responder correctamente al ítem y por ende, b) una mayor separación de las personas o
sujetos que son capaces de responder acertadamente por poseer el constructo evaluado de los que no lo poseen
ni manifiestan.
Es interesante el observar que todas las curvas convergen en un punto central que representa el valor b o
índice de dificultad, (b = 0,5 en este caso). Esto confirma el hecho de que si el índice b tuviese un valor de 1, la
ecuación completa se transformaría en la ecuación del primer parámetro b, y, basados en esto, observar el efecto
que tiene sobre la pendiente de las distintas gráficas los diferentes valores del segundo parámetro “a”.
Como se mencionó anteriormente, la habilidad o aptitud θ suele transformarse en una escala tipificada Z de
modo que la = 0 y la s = 1 y los valores de b suelen ir de 1 a 4.
Los ítem con a = 1,5 son poco discriminantes, los ítem con a = 3,5 son muy discriminantes. En la figura
anterior se han representado 3 CCI de 3 ítems diferentes, por lo que el gráfico representa estos 3 ítems, tales que
para el ítem 21, a=1,5; para el ítem 32, a = 2,5; para el ítem 43, a= 3,5.
A fin de ejercitarnos en el cálculo de la CCI empleando lo ecuación equivalente, supongamos que tenemos
un ítem (55) para el que hemos obtenido los parámetros a y b y queremos saber la probabilidad en distintos
puntos para trazar la curva CCI. El proceso en este caso sería el siguiente:
Item 55: D = 1,7; a = 1,8; b = 1 ¿Cuál es la probabilidad del ítem en los valores de θ = -3, - 2, -1 0, 1, 2, 3,?
Aplicando nuestros valores a la ecuación anterior, vale decir para θ = 3, tenemos:

Repetimos esta operación para los distintos puntos de θ y podríamos dibujar la curva característica del ítem
55 (CCI) con los valores correspondientes a P(θ) +3 = 0,9978, P(θ) + 2 = 0,9552, P(θ) + 1 = 0,500, P(θ) 0 =
0,04479, P(θ) -1 = 0,002194, P(θ) -2 = 1,031x10-4, P(θ) -3 = 4,833x10-6.
Algunas observaciones que pueden obtenerse de la gráfica anterior son:
1- Al aumentar el nivel de habilidad del sujeto, aumenta su probabilidad de responder correctamente.
2- Al aumentar el nivel de discriminación de los ítems (línea: azul, menos discriminante/rojo, más
discriminante), disminuye la probabilidad de responder correctamente para los sujetos de baja habilidad pero
aumenta para los de alta habilidad o constructo a medir.
3- Para sujetos muy inteligentes (> de 2σ), o muy deficientes (< de -1,5σ), no influye el nivel de discriminación
de la pregunta, los primeros (muy inteligentes) responderán bien una pregunta discriminante o nó, mientras
que los muy deficientes responderán incorrectamente una pregunta discriminante o nó.
4- Los sujetos de baja habilidad en el constructo medido (-1 a 0 NHS) tienen más probabilidad de responder
correctamente una pregunta de baja discriminación que una más discriminante, mientras que los elevada

Psicología Página 19
Prof. René Castro Psicometría 1 UBA

habilidad tienen más probabilidad de responder correctamente una pregunta de alta discriminación que una
de bajo poder discriminante (paradoja de Lord). Dicho de otra forma, un reactivo supuestamente
discriminante (línea roja) es más efectivo en dificultad para aquellas personas de habilidad alta y más fácil
para personas de habilidad baja.
5- Al incrementar la pendiente de la línea curva, incrementa el nivel discriminante del ítem que representa.
6- El punto en el cual se encuentran las tres (3) curvas representa a (b=0,5) el nivel de dificultad de estas tres
gráficas.
La paradoja de Lord puede observarse mejor si incrementamos ligeramente la separación entre los distintos
valores de a, como se muestra en la siguiente gráfica:

Curva Característica del Item (CCI)


1,00 0,9999
0,9994
0,9957 0,99996283 0,99999996
0,98594
0,9677
P(O) Prob. Resp. Correcta.

0,9382 0,92757
P(O)1 a=0,5 Item 21 0,91529 0,89331
0,86646
(menor pendiente menos
discriminante) 0,80 0,79576 0,78160
0,70057
P(O)3 a=4 Item 43 (mayor 0,66374
pendiente más 0,60 0,7815
discriminante)
0,99986
0,50000
P(O)2 a=1 Item 32
0,40 0,41581
0,2184
(pendiente intermedia,
media discriminación)
0,29943
0,21840 0,20 0,9514

0,10669
0,07243
0,04857 0,0485
0,00260
4,611E-11 0,01406
4,140E-08 3,717E-050,00
-3 -2 -1 0 1 2 3
Nivel Habilidad del sujeto (NHS) tipificado (Z)

Para calcular P(θ) se procede como a continuación, para D = 1,7, θ = -4 (bajo nivel de habilidad), b= -1
(preguntas fáciles), a = 1,5 (escasamente discriminante):

En este caso, como se dijo anteriormente, mientras θ toma valores bajos o hacia el menos infinito (-1, -2, -3,
-4, -∞), el término e-D*a*(θ-b) genera valores altos (2100,6456) o hacia más infinito y P(θ) produce valores bajos

Psicología Página 20
Prof. René Castro Psicometría 1 UBA

(en este caso P(θ)=0,0004758) o hacia 0 pero sin exceder este valor.

Este bajo valor de la probabilidad de responder correctamente al ítem por parte del sujeto es fácil de
entender, ya que una persona de muy baja habilidad en la variable estudiada (θ=-4) se enfrenta a una pregunta
fácil (b=-1) y escasamente discriminante (a = 1,5). Si la habilidad estudiada o medida es inteligencia, para este
tipo de persona, de escasos recursos intelectuales, toda pregunta será difícil y tiene una alta probabilidad de
contestarla mal y una baja probabilidad de contestarla correctamente (en este caso P(θ)=0,00047).

El caso contrario también es cierto. Si deseamos estimar la probabilidad de contestar correctamente (P(θ)) un
ítem/pregunta muy difícil (b=2) y escasamente discriminante (a = 1,5) por parte de una persona nivel genio
(θ=4), procedemos de la siguiente manera: (para D = 1,7, θ = 4, b= 2 y a = 1,5).

En este caso, como se dijo anteriormente, mientras θ toma valores altos o hacia el mas infinito (+1, +2, +3,
+4, +∞), el término e-D*a*(θ-b) genera valores bajos (0,0061) y P(θ) produce valores altos (en este caso
P(θ)=0,9939) o hacia 1 pero sin exceder este valor.

Como ya dijimos, este alto valor de la probabilidad de responder correctamente al ítem (P(θ)) por parte del
sujeto es fácil de entender, ya que si una persona de muy elevada habilidad en la variable estudiada (θ=+4) se
enfrenta a una pregunta muy difícil (b=+2) y escasamente discriminante (a = 1,5) le resulta fácil responderla o
superarla exitosamente. Como un ejemplo, si la habilidad estudiada o medida es inteligencia, para este tipo de
persona, de muy altos recursos intelectuales (tipo Einstein o Stephen Hawking), toda pregunta será fácil y tiene
una alta probabilidad de contestarla bien (en este caso P(θ)=0,9939) y una baja probabilidad de contestarla
incorrectamente.

Para realizar estos cálculos en su calculadora CASIO, puede introducir la siguiente fórmula:

a) (1/(1+e^(-1.7*1.5*(-4-(-1))))) cuyo resultado será 0,00047 y

b) (1/(1+e^(-1.7*1.5*(4-(2))))) cuyo resultado será 0,9939.

En las calculadoras CASIO tipo ES puede introducir la fórmula directamente y le dará el resultado, aunque
debe introducir los datos con cuidado, pues en algunos casos es fácil equivocarse introduciendo el orden de los
elementos de la ecuación:

Ejemplo 1: Ejemplo 2:

En el programa EXCEL, usted puede usar la siguiente ecuación: =(1/(1+EXP((-1*$B$118*$B$116)*(B136-


$B$117)))) siendo $B$118 la constante D (D=1.7), $B$116 el parámetro a, B136 el factor θ y $B$117 el
Psicología Página 21
Prof. René Castro Psicometría 1 UBA

parámetro b.

TEORÍA DE RESPUESTA AL ÍTEM. PROBABILIDAD DE RESPONDER CORRECTAMENTE AL ITEM


(P(θ)) SEGÚN MODELO LOGISTICO (modelo de Birnbaum). 3er PARÁMETRO (c coeficiente de azar,
pseudoazar o adivinación, b índice de dificultad y a índice de discriminación).

Este modelo de tres parámetros es el más general y el más realista desde el punto de vista empírico de los
tres, en realidad los otros dos son casos particulares, así cuando el parámetro c (pseudoazar) es cero la ecuación
de este modelo se transforma en el modelo de dos parámetros o de Lord, y cuando además el parámetro a
(discriminación) es igual para todos los ítems (caso típico, a=1), se convierte en el modelo de Rasch. Véase a
continuación las fórmulas equivalentes del modelo logístico de tres parámetros, donde P(θ) es la probabilidad
de acertar el ítem, θ es la puntuación en la variable medida, a, b y c son los tres parámetros descritos, e es la
base de los logaritmos neperianos (2,72) y D es una constante que vale 1,7.
Ecuación o fórmula: Ecuación equivalente

Donde:
Pi(θ)= es la probabilidad de que un examinado en cada examinado.
elegido al azar con aptitud θ conteste a = índice de discriminación del ítem i.
correctamente el ítem i. b = parámetro o índice de la dificultad del ítem i
θ = nivel de habilidad del sujeto o valor del c = coeficiente de azar, pseudoazar o adivinación
constructo o variable latente que se desea estimar D = constante de la ecuación (D=1,7).
El nivel de habilidad del sujeto (θ) puede definirse en cualquier escala, en este caso se ha utilizado una
escala típica, con media 0, varianza 1 y un rango de valores de -4 a +4.
En este caso, la función forma una curva en forma de “S” inclinada y alargada (dependiendo del valor de
“c”) con valores de 0 a 1 en la ordenada (eje Y, expresa probabilidad) y valores correspondientes a la aptitud o
habilidad θ en la abscisa (eje X, expresa los niveles de habilidad del sujeto o respondiente, presentados en este
caso como valores Z tipificados como -4σ, -3σ, -2σ, -1σ, 0σ, 1σ, 2σ, 3σ, 4σ).
Ya que el coeficiente de azar, pseudoazar o adivinación “c” representa la probabilidad de acertar un ítem
cuando el examinado contesta al azar o dicho de otro modo, la probabilidad de contestar correctamente un ítem
por azar sin tener el nivel de habilidad exigido, mientras mayor sea el número de veces que el sujeto usa el azar
para responder correctamente el ítem estudiado, mayor será el nivel o “altura” de la sección inicial de la curva,
ya que los respondientes que carecen del constructo o rasgo requerido serán los que empleen esta estrategia a
fin de contesta correctamente el ítem evaluado, mientras que los que posean la habilidad requerida no usarán
este método aleatorio para responder adecuadamente el reactivo estudiado.
Es interesante el observar que mientras menor es el uso del azar por parte del sujeto, las curvas obtenidas se
parecen mucho a las representadas por el segundo parámetro “a”. Esto confirma el hecho de que si el índice c
tuviese un valor de 0, la ecuación completa se transformaría en la ecuación del primer parámetro b, y, basados
en esto, observar el efecto que tiene sobre la pendiente de las distintas gráficas los diferentes valores del
segundo parámetro “a” y el parámetro “b”.

Psicología Página 22
Prof. René Castro Psicometría 1 UBA

Curva Característica del Item (3er parámetro c)


1,00 3, 0,9985
2, 0,9808

0,90

0,80 1, 0,8034
P(O) Prob. Resp. Corrcta.

0,70

0,60

0,50
P(0) a=1.5 b=0.5 c=0.1
0,40
P(0) a=1.5 b=0.5 c=0.25
0,30 0, 0,2966

0,20 P(0) a=1.5 b=0.5 c=0.4

-3, 0,1001 -2, 0,1015 -1, 0,1192


0,10

0,00
-3 -2 -1 0 1 2 3

Nivel Habilidad del sujeto (NHS) tipificado (Z)


Como se mencionó anteriormente, la habilidad o aptitud θ suele transformarse en una escala tipificada Z de
modo que la = 0 y la s = 1 y los valores de c suelen ir de 0 a 0,5.
Los ítem con c = 0 representa a sujetos que emplean poco el azar para responder acertadamente, los ítems
con b = 0,5 representan sujetos que emplean frecuentemente el azar para responder adecuadamente. En la figura
anterior se han representado 3 CCI de 3 ítems diferentes, por lo que el gráfico representa estos 3 ítems, tales que
para el ítem azul, c=0,1; para el ítem rojo, c = 0,25; y para el ítem verde, c= 0,4.
Algunas observaciones que pueden obtenerse de esta gráfica son:
1- Al aumentar el nivel de habilidad del sujeto, aumenta su probabilidad de responder correctamente.
2- Al aumentar el uso del azar para responde adecuadamente el ítems (línea: azul, menor uso azar/rojo, mediano
uso del azar/ línea: verde, mayor uso azar), incrementa la probabilidad de responder correctamente para los
sujetos de baja habilidad y varía poco o nada la probabilidad de los que poseen una alta habilidad o
constructo a medir.
3- Para sujetos muy inteligentes (> de 2σ), prácticamente no influye o varía la probabilidad de responder
adecuadamente el ítem, ya que los primeros (muy inteligentes) responderán bien una pregunta por sus
propias condiciones, en cambio, en los muy deficientes (< de -0,5σ), influye notablemente el nivel de
respuesta correcta de la pregunta.
Para calcular P(θ) se procede como a continuación, para D = 1,7, θ = -4 (bajo nivel de habilidad), b= -1
(preguntas fáciles), a = 1,5 (escasamente discriminante) y c = 0,4 (elevado uso del azar):

Psicología Página 23
Prof. René Castro Psicometría 1 UBA

En este caso, como se dijo anteriormente, mientras θ toma valores bajos o hacia el menos infinito (-1, -2, -3,
-4, -∞), el término e-D*a*(θ-b) genera valores altos (2100,6456) o hacia más infinito y P(θ) produce valores
medianos (en este caso P(θ)=0,40028) o cercanos a 0 pero sin exceder este valor.

Este mediano valor de la probabilidad de responder correctamente al ítem por parte del sujeto es fácil de
entender, ya que una persona de muy baja habilidad en la variable estudiada (θ=-4) se enfrenta a una pregunta
fácil (b=-1), escasamente discriminante (a = 1,5) y que emplea frecuentemente el azar tiene una mediana
probabilidad de responder correctamente el ítem. Si la habilidad estudiada o medida es inteligencia, para este
tipo de persona, de escasos recursos intelectuales, toda pregunta será difícil y tiene una alta probabilidad de
contestarla mal, por lo que recurre al azar para incrementarla (en este caso P(θ)=0,400285).

El caso contrario también es cierto. Si deseamos estimar la probabilidad de contestar correctamente (P(θ)) un
ítem/pregunta muy difícil (b=2), escasamente discriminante (a = 1,5) por parte de una persona nivel genio (θ=4)
que casi no usa el azar (c=0), procedemos de la siguiente manera: (para D = 1,7, θ = 4, b= 2, a = 1,5 y c = 0).

En este caso, como se dijo anteriormente, mientras θ toma valores altos o hacia el mas infinito (+1, +2, +3,
+4, +∞), el término e-D*a*(θ-b) genera valores bajos (0,0061) y P(θ) produce valores altos (en este caso
P(θ)=0,9939) o hacia 1 pero sin exceder este valor.

Como ya dijimos, este alto valor de la probabilidad de responder correctamente al ítem (P(θ)) por parte del
sujeto es fácil de entender, ya que si una persona de muy elevada habilidad en la variable estudiada (θ=+4) se
enfrenta a una pregunta muy difícil (b=+2) y escasamente discriminante (a = 1,5) le resulta fácil responderla o
superarla exitosamente sin emplear el azar. Como un ejemplo, si la habilidad estudiada o medida es inteligencia,
para este tipo de persona, de muy altos recursos intelectuales (tipo Einstein o Stephen Hawking), toda pregunta
Psicología Página 24
Prof. René Castro Psicometría 1 UBA

será fácil y tiene una alta probabilidad de contestarla bien sin necesidad de ponerse a adivinar nada (en este caso
P(θ)=0,9939) y una muy baja probabilidad de contestarla incorrectamente.
Debe recalcarse la idea de que cuando se asume que el parámetro de azar, c, (modelo de 3 parámetros o de
Birnbaum) es igual a cero se obtiene el modelo de dos parámetros, (modelo de 2 parámetros o de Lord y
Novick)en el que las CCI difieren en términos de su dificultad y de su discriminación (parámetros b y a
respectivamente). Si además de asumir c = 0 se supone también que el parámetro de discriminación, a, es
constante para todos los ítems, se obtiene el modelo de un parámetro o modelo de Rasch, en el que las CCI se
diferencian ´únicamente en términos de sus niveles de dificultad (parámetro b).
Es importante en este punto también mencionar que en los modelos de dos y tres parámetros pueden existir
diferentes estimaciones de θ, el constructo, para individuos con la misma puntuación empírica en la prueba. Por
ejemplo, dos personas pueden lograr el mismo número de respuestas correctas en la prueba, pero aún así
obtener estimaciones muy diferentes para su nivel en el constructo θ, probado que hayan tenido un patrón
diferencial de respuesta, es decir, que no hayan respondido correctamente los mismos ítems. Esto sucede así
porque el procedimiento para estimar θ en los modelos de dos y tres parámetros le da mayor ponderación a
aquellos ítems que tienen mayor discriminación. Por tanto, dado el mismo número de respuestas correctas,
examinados que han respondido correctamente ítems de mayor poder discriminatorio obtendrán estimaciones de
θ superiores a las estimaciones obtenidas para examinados que contestaron correctamente ítems de menor
calidad técnica. La Teoría Clásica de los Tests no disfruta de esta propiedad y en ella no es posible diferenciar
las puntuaciones de individuos que hayan obtenido el mismo número de respuestas correctas en el instrumento.

Para realizar estos cálculos en su calculadora CASIO, puede introducir la siguiente fórmula:

a) 0,4+(1-0,4)*(1/(1+e^(-1.7*1.5*(-4-(-1))))) cuyo resultado será 0,400285 y

b) 0+(1-0)*(1/(1+e^(-1.7*1.5*(4-(2))))) cuyo resultado será 0,9939.

En el programa EXCEL, usted puede usar la siguiente ecuación: =$B$120+(1-$B$120)*(1/(1+EXP((-


1*$B$118*$B$116)*(B136-$B$117)))) siendo =$B$120 el parámetro c, $B$118 la constante D (D=1.7),
$B$116 el parámetro a, B136 el factor θ y -$B$117 el parámetro b.
Para ver aplicaciones y problemas de estos 3 modelos logísticos, leer guías en formato pdf y Excel enviadas
a su correo.

Leer:

Eiliana Montero (2000). La teoría de respuesta a los items: una moderna alternativa para el análisis
psicométrico de instrumentos de medición. Revista de matemática: teoría y aplicaciones 2000 7(1-2): 217-228.
CIMPA-UCR-CCS.

Psicología Página 25