Construccion de Pruebas Psicologicas Upao

UNIVERSIDAD PRIVADA ANTENOR ORREGO
FACULTAD DE MEDICINA HUMANA

ESCUELA PROFESIONAL DE PSICOLOGÍA
CONSTRUCCIÓN DE PRUEBAS
PSICOLÓGICAS
V CICLO
DR. EDMUNDO ARÉVALO LUNA

PROFESOR DEL CURSO
TRUJILLO - PERU
PSICOLÓGICAS
VI CICLO
PSICOLOGÍA
REFERENCIAS
DR. EDMUNDO ARÉVALO LUNA
Psicólogo Colegiado y miembro del Colegio de Psicólogos del Perú
Miembro del Consejo Regional VII, del Colegio de Psicólogos de la Libertad
Doctor en Educación por la UPAO
Magíster en Psicología mención Psicología Educativa UNMSM
Posgraduado en Neuropsicología Clínica UNFV
Posgraduado en Detección, prevención y Tratamiento de Disfunciones sexuales UIGV
Profesor de la Sección de Post Grado en la UCV-UPAO- UNT
Profesor de Pre Grado en las Escuelas de Psicología y Educación de la UPAO
Profesor de la Facultad de Ciencias Médicas de la UCV- Trujillo
Profesor de la Escuela de Psicología de la USS - Chiclayo
Profesor Investigador de la Facultad de Medicina Humana de la UPAO.
Director de la Escuela Profesional de Psicología de la UPAO
Director de PSICARE, institución dedicada al desarrollo humano y la familia
PSICOLÓGICAS
CONTENIDO
Pág.
Carátula
Contenido
Ruta de estudio
Ruta de trabajo
PRIMERA UNIDAD: Planeamiento y medición para la construcción o

Adaptación de una prueba psicológica
1.1. Definiciones
1.2. Ciencia y medición
1.3. La ciencia en la medición psicológica
1.4. Escalas de medición
1.5. Diseño y elaboración de una prueba psicológica
1.6. Introducción y generalidades
1.7. Finalidad de la prueba
Actividades
SEGUNDA UNIDAD: Construcción o adaptación de una prueba psicológica

3.1. Los reactivos
3.2. Análisis de los reactivos
3.3. Ensamblaje de la prueba
Anexo
Actividades
TERCERA UNIDAD: Justificación estadística de la prueba psicológica

3.1. Validez
3.2. Confiabilidad
Anexo
Actividades
CUARTA UNIDAD: Normalización y tipificación de la prueba psicológica

4.1. Aspectos básicos
4.2. Normalización y estandarización de la prueba
4.3. Clasificación de los puntajes derivados
Actividades
4.4. El Manual de un Test
4.5. Partes principales de un test
Propuesta del manual de la prueba construida en el curso
BIBLIOGRAFÍA
DR. EDMUNDO ARÉVALO LUNA CONSTRUCCIÓN DE PRUEBAS PSICOLÓGICAS 4

ALGUNAS RECOMENDACIONES PREVIAS……..
Para estudiar este curso, necesitamos tener una actitud abierta y colaborativo,
porque vas a construir o adaptar un aprueba psicológica, que debes sustentar al finalizar
el curso. Para ello considera un horario especial, para trabajar en equipos, por lo tanto
ORGANIZA TU TIEMPO, para incluir horas de lectura independiente, pero
fundamentalmente organízate para hacer trabajos en equipo. Para que aprendas y logres
las competencias del curso, considera las recomendaciones que te hacemos llegar:
1. Revisa atentamente el contenido de éste módulo. Es importante que revises cada

tópico, con el fin de que organices de manera efectiva el tiempo dedicado al
estudio. Revisa contenidos de cada punto y los anexos que se adjuntan al final.
2. Estudia individualmente las lecturas y temas asignados dentro de la semana y
desarrolla las actividades según la ruta de trabajo; para que luego integres tu
aporte al equipo con que trabajas.
3. En efecto, este es un curso colaborativo, que tiene un producto terminal; por lo
tanto, integrarás uno tanto en la teoría como en la práctica. Para ello, deben
programar un espacio y tiempo de trabajo, independientemente del curso
presencial para sus reuniones de discusión, coordinación, elaboración de las
actividades, y presentación de los avances del trabajo. Para ello piensa bien con
qué personas te sientes más afín, y puedan consolidar juntos el trabajo serio y
responsable, que concluye con la presentación final del manual de la prueba.
4. Revisa individualmente y en equipo la RUTA DE TRABAJO, te indica lo que tienes que
realizar cada semana, para que no te sientas abrumado al final. Recuerda que la
nota es importante, pero aprender y estar bien informado es mucho más
importante, para la profesión que estudias; para ello hay que prepararse bien.
5. Si tuvieras alguna dificultad con el curso, no te quedes con la duda, pregunta o
consulta con toda libertad al profesor, para él significa interés, preocupación y
responsabilidad, y con todo gusto te apoyará.
ESPERAMOS APOYARTE EN ESTE PROPÓSITO

RUTA DE TRABAJO
¡ATENCIÓN!
LA PRESENTE RUTA DE TRABAJO, TE AYUDARÁ A PLANIFICAR CON ANTICIPACIÓN TUS TAREAS Y
RESPONSABILIDADES EN LA ASIGNATURA, LA IDEA ES QUE TRABAJES CON ANTICIPACIÓN, PARA
EVITAR DIFICULTADES Y ASÍ PRESENTAR A TIEMPO TU TRABAJO
Semana Denominación de las actividades FECHAS

1º Orientaciones generales para trabajo en las prácticas del curso/
Revisión y análisis de una prueba psicológica, (de cualquier área)
para familiarizarse con la construcción de un test.
2º Exposición de las pruebas analizadas en equipo
3º Elaboración de la tabla de especificaciones de la prueba a construir/
responder el cuestionario preliminar para construir la prueba
psicológica
4º Presentación de la tabla de especificaciones y el cuestionario
preliminar
5º Revisión bibliográfica y elaboración de los reactivos de la prueba a
construir.
6º Presentación de los fundamentos teóricos y elaboración o
adaptación los ítems de la prueba /asesoría y revisión del trabajo
7º Aplicación del estudio piloto y criterio de jueces
8º Evaluación de la primera parte del curso
9º Ensamblaje de la prueba y muestreo para determinar la validez y
confiabilidad
10º Aplicación de la prueba para la justificación estadística
11º Análisis estadístico para la validez de la prueba
12º Análisis estadístico para establecer la consistencia
13º Especificación de las normas y diferenciación según los tipos
existentes.
14º Elaboración del manual de la prueba
15º Presentación y exposición de la prueba construida
16º Evaluación de la parte final del curso
17° Evaluación de aplazados

CONSTRUCCIÓN DE PRUEBAS PSICOLÓGICAS
PRIMERA UNIDAD
PLANEAMIENTO Y MEDICIÓN PARA LA

CONSTRUCCIÓN O ADAPTACIÓN DE UNA
PRUEBA PSICOLÓGICA
1. CAPACIDADES
• Explica críticamente los fundamentos básicos de las escalas de medición

psicológicay explica la importancia de la medición y su relación con las ciencias
matemáticas y estadísticas
• Organiza los pasos a seguir en la construcción de una prueba psicológica y
Realiza la revisión bibliográfica de la variable a medir
• Elabora la tabla de especificaciones, así como los indicadores, sub-indicadores
y define operacionalmente la variable a medir
• Esquematiza el formato de la prueba, identificando las restricciones que tiene.
2. CONTENIDOS
• Medición psicológica.
• La medición en la ciencia: Escalas de medición.
• Diseño y elaboración de una prueba psicológica
• Introducción y generalidades
• Finalidad de la prueba

1.1. Definiciones
a. La medición
La medición es el acto de asignar números o símbolos a características de los objetos

(personas, eventos o lo que sea) de acuerdo con reglas. Las reglas usadas al asignar
números son lineamientos para representar la magnitud (o alguna característica) del
objeto que se está midiendo.
Medir hace explicito un proceso mediante el cual se abstraen a partir del objeto o del
acontecimiento, un atributo o dimensión determinado a los que se aplican los números
asignados (Nunnally, 1995). Tiene una connotación más amplia que prueba, ya que esta se
puede realizar también por medio de observaciones, escala de evaluación, o cualquier
otro instrumento, que nos permita obtener información cuantitativa.
La medición puede referirse a la puntuación obtenida en el proceso utilizado, de acuerdo

con ciertas reglas cuya validez puede probarse (Magnusson, 1995). Su propósito es
brindar base objetiva, exacta y comunicable para describir, diferenciar y clasificar las
características y conductas de las personas.
Es importante y necesario hacer una diferencia de los términos de prueba y evaluación;

sin embargo, en el proceso del curso se empleara indiscriminadamente, para referirnos al
proceso de evaluación psicométrica.
b. Prueba
Es el más limitado de los términos, en el significado más aproximado connota la
presentación de un conjunto de preguntas que se han de contestar y como resultado de
esa aplicación se otorga un valor numérico, el mismo que se asigna a una característica de
la persona. (Cerda, 1995)
c. Evaluación
Stufflebean y Cols. (1971), conceptuaban a la evolución como un proceso que permite
definir, obtener y proporcionar información indispensable para juzgar alternativas en una
decisión. Tal vez será esta definición una de las más amplias. Así usada, abarca y rebasa el
significado de los conceptos de prueba y medición.
1.2."NoCIENCIA
medimosY MEDICÍON
ni evaluamos a las personas, sino sus características o propiedades"
1.2.1. Ciencia:
La ciencia constituye un modo particular de “saber”, sin duda el más valido y riguroso,
integrado por conocimientos denominados científicos.
Estos conocimientos se distinguen de otros que también nos informan sobre el mundo y
el hombre, como son el conocimiento común y el conocimiento filosófico.
Es el conjunto de conocimientos racionales, ciertos o probables, que son obtenidas de

manera metódica y verificados en su contrastación con la realidad, sistematizados

orgánicamente haciendo referencia a objetos de una misma naturaleza, cuyos contenidos
son susceptibles de ser transmitidos.
La ciencia, realiza el estudio de realidades empíricamente demostrables. Es decir la

creación de conocimiento a partir de realidades objetivas y objetables por la experiencia.
Para comprender mejor esta definición, es necesario conocer los conceptos particulares
que la integran:
• Conocimiento Racional: Porque está basado en la razón, es decir en una
sistematización coherente de enunciados fundados y contrastables.
• Cierto o Probable: Es decir son verdades parciales sujetos a corrección.
• Metódica: Porque se adquieren mediante el método científico.
• Verificable en su Contrastación con la Realidad: Se ocupa sólo de fenómenos
susceptibles de ser contrastado empíricamente.
• Sistematizados Orgánicamente: Porque deben estar ordenados lógicamente,
construyendo un sistema de generalizaciones y principios que relacionan los
hechos entre sí, deduciendo leyes.
• Relativos a Objetos de una Misma Naturaleza: O sea objetos pertenecientes a un
mismo aspecto de la realidad que guardan entre sí ciertos caracteres de
homogeneidad, acerca de los cuales afirman algo de sus propiedades estructurales
y relacionales.
1.2.2. Objetivos principales de la ciencia:

• Describir la Realidad.- Conocer como es, que elementos la conforman y cuáles son
sus características.
• Explicar la Realidad.- Es decir, establecer cómo se relacionan las distintas partes o
elementos y porque es así la realidad.
Sobre la base de estos dos objetivos básicos, la ciencia luego de saber cómo es un sector
de la realidad (objeto) y los factores que lo explican, están en condiciones de alcanzar
otros objetivos, los cuales son derivados o aplicados, puesto que puede:
• Prever o Predecir.- De acuerdo a sus leyes puede prever acontecimientos que

tendrán lugar en dicho sector o objeto de la realidad.
• Actuar o Aplicar.- Los conocimientos adquiridos para transformar la realidad, e

influir en ella, en mayor o menor grado de acuerdo a las necesidades del hombre y
la sociedad.
1.2.3. Características de la investigación científica

- La investigación es sistemática y controlada; se realiza siguiendo pausas rigurosas, que
también sirven como criterios para juzgar el trabajo científico. En la investigación se
mantienen bajo control las variables que pueden interferir los resultados.
- La investigación es lógica y objetiva; lo que supone, dejar de lado creencias, perjuicios
y sentimientos, que puedan empañar los resultados.
- La investigación científica es empírica, parte de la observación de los hechos, se
fundamenta en ellos y está circunscrita por los límites de la experiencia.

- La investigación científica utiliza instrumentos de medición y busca cuantificar sus
hallazgos.
- La investigación es paciente. El investigador debe estar dispuesto a realizar esfuerzos
largos y mantenidos hasta lograr su cometido; poseer una sólida formación
especializada y mejor aún interdisciplinaria.
1.3. LA CIENCIA EN LA MEDICIÓN PSICOLÓGICA
Los propósitos de la medición psicológica son: proporcionar datos objetivos y exactos

para describir, explicar predecir y modificar el comportamiento, describir las
características psicológicas tales como el carácter, las actitudes, la inteligencia, los rasgos
de personalidad, la autoestima, etc.
En consecuencia la medición psicológica está vinculada al rol del psicólogo, en el

desempeño de sus funciones en diferentes áreas, incluyendo la investigación; del mismo
modo, la medición es un componente fundamental en las matemáticas y estadística, en la
medida que ambas emplean el número para representar atributos. Así, la medición se
ocupa de los aspectos puramente reales que son perceptivos a nosotros. La matemática
es una actividad puramente práctica que aún cuando no siempre se basa en el mundo
real, aparecen como algo abstracto (es algo que pensamos pero que no se da en nuestro
mundo). En ambos se emplean números (implican cuantificaciones).
Con la estadística, se relaciona la medición en la medida que se realizan operaciones con

elementos estadísticos, en cierto modo se ayuda de ella por medio de sus fórmulas,
describimos y diferenciamos gracias a su ayuda; así mismo, correlacionamos y
estandarizamos las pruebas psicológicas.
MEDICIÓN MUNDO REAL
Y CUANTIFICACIÓN
ACTIVIDAD (Números)
MATEMÁTICA ABSTRACTA
MEDICIÓN * Estadística inferencial

* Estadística descriptiva
Y * Correlación de variables
* Estandarización
ESTADÍSTICA * Muestreo

1.4. ESCALAS DE MEDICIÓN
Una escala es un conjunto de números (u otros símbolos) cuyas propiedades modelan

propiedades empíricas de los objetos a los que se asignan los números. Existen varios
tipos de escalas. Una forma de clasificar una escala es denominarla con referencia al tipo
de variable que se está midiendo. Por tanto podría hacerse referencia a una escala usada
para medir una variable continua como “escala continua”, mientras una escala usada para
medir una variable discreta podría denominarse “escala discreta” (hombre o mujer). La
mayor parte de las escalas usadas en las pruebas psicológicas son de naturaleza continua
y estas son muy susceptibles a contener error.
El error surgirá con el simple uso de una escala continua; el número o puntuación usada
para caracterizar el rasgo que se está midiendo en una escala continua debería
considerarse como una aproximación al número “real”. Una puntuación X en alguna
prueba no debería considerarse como una medida precisa de la variable sino más bien
como una aproximación a la puntuación real de esta. En contraste con los números o
puntuaciones usados para caracterizar rasgos en escalas continuas, los números o
puntuaciones usados en escalas discretas se supone que son exactos.
La medición puede clasificarse además con respecto a la cantidad de información

cuantitativa que posee el número asignado. Se está de acuerdo en general en que hay
cuatro niveles diferentes o escalas de medición. Los números en diferentes niveles o
escalas de medición transmiten diferentes clases de información. En las pruebas y en la
investigación en general, es importante saber cuáles escalas de medición se están
empleando, ya que la clase de escala será un factor en la determinación de cuáles
manipulaciones estadísticas de los datos serán apropiadas o no.
La palabra francesa para negro es noir (pronunciada “nuar”). Dicha palabra es útil para
recordar los cuatro niveles o escalas de medición; cada letra en noir es la primera letra de
cada uno de los niveles más riguroso en forma sucesiva. La n significa escala “nominal”, la
o “ordinal”, la i de “intervalo” y la r de “razón”.
Las escalas son las reglas de medición, y la elaboración de las mismas se define como el
proceso de establecimiento de reglas para la asignación numérica en la medición.
Las escalas son instrumentos utilizados para medir algo, siendo ese “algo”, generalmente,
un rasgo, característica o atributo psicológico.
Con el fin de tener una precisión de las mediciones psicológicas, es necesario tener en
consideración la naturaleza de las escalas utilizadas. Dependiendo de las suposiciones
matemáticas y lógicas que se hagan, resultan posible varios tipos de escalas. Estos niveles
de escalas resultan jerárquicos y nos sirven para ordenar los trabajos psicológicos.
Los datos difieren de acuerdo con las propiedades de la serie de números reales (orden,
distancia u origen) que podemos atribuir a las puntuaciones.
La clasificación más común (aunque no la más refinada) es la sugerida por Stevens (1984),
quien clasifica las escalas en:

1.4.1. Escalas Nominales
Las escalas nominales son la forma más simple de medición. Estas escalas implican la
clasificación o asignaciones de categorías basada en una o más características distintivas
donde deben colocarse todos los objetos en categorías mutuamente excluyentes y
exhaustivas. Por ejemplo, las personas pueden caracterizarse por género en un estudio
(hombre 1 ó A y mujer 2 ó B). en el área de la especialidad de la psicología clínica, una
escala nominal usada a menudo es el Manual Diagnóstico y Estadístico de Trastornos
Mentales IV (DSM-IV). A cada trastorno enumerado en el manual se le asigna su propio
número, pero estos números se usan de manera exclusiva con propósitos de clasificación
y no pueden sumarse, restarse, jerarquizarse o promediarse de manera significativa.
Las operaciones aritméticas que se pueden realizar en forma legítima con datos
nominales incluyen contar con el propósito de determinar cuántos casos en cada
categoría y alguna determinación consecuente de proporción o porcentajes.
1.4.2. Escalas Ordinales:
Como las escalas nominales, las escalas ordinales permiten la clasificación. Sin embargo,
además de la clasificación, con las escalas ordinales también es permisible un
ordenamiento en rangos de alguna característica. Los individuos son comparados con
otros y se les asigna un rango.
Los instrumentos de evaluación aplicados al sujeto individual también pueden usar una
forma ordinal de medición.
Las escalas ordinales no implican nada respecto a cuánto más grande es una categoría
que otra. Aun cuando las escalas ordinales generalmente emplean números para
representar el ordenamiento del as categorías, los números no indican unidades de
medición. Las escalas ordinales no tienen un punto cero absoluto; sin unidades, el cero
carece de significado.
Debido a que pueden existir unidades de medición desiguales en las escalas ordinales, y a
que no hay un punto cero, las formas en que pueden tratarse los datos de estas escalas
desde el punto de vista estadístico son limitadas.
1.4.3. Escalas de Intervalos:
Además de las características de las escalas nominales y ordinales, las escalas de intervalo
contienen iguales intervalos iguales entre números; cada unidad en la escala es
exactamente igual a cualquier otra unidad en la escala. Pero, como sucede en las escalas
ordinales, las escalas de intervalo no contienen un punto cero absoluto. Con las escalas de
intervalo hemos llegado a un nivel de medición en el que es posible sacar el promedio de
un conjunto de mediciones y obtener un resultado significativo.
Las puntuaciones en las escalas de inteligencia a menudo son obtenidas en un nivel de

medición de intervalo. La diferencia en la capacidad intelectual representada por unos CI
de 80 y 100, por ejemplo, se considera parecida a la existente entre los CI de 100 y 120.

Sin embargo, si un individuo obtuviera un CI de 0 (algo que ni siquiera es posible en
muchas escalas de inteligencia), esto no significaría una ausencia de inteligencia, lo mismo
sucede con las escalas que miden la inteligencia emocional.
1.4.4. Escalas de Razón:
Las escalas de Razón; además de tener todas las propiedades de las escalas nominales,
ordinales y de intervalo, una razón tiene un punto cero verdadero. Todas las operaciones
matemáticas pueden realizarse de manera significativa en las escalas de razón porque
existen intervalos iguales entre los números en la escala al igual que un punto cero
verdadero o absoluto. La diferencia entre escalas de intervalo y de razón parece
relacionarse de manera más estrecha con consideraciones teóricas relacionadas con el
atributo que se está midiendo.
El nivel ordinal de medición es el que se usa con mayor frecuencia en psicología. Como lo
señalo Kerlinger: “Las puntuaciones de las pruebas de inteligencia, aptitud y personalidad
son, hablando en forma básica y estricta, ordinales. Indican con más o menos precisión no
la cantidad de inteligencia, aptitud y rasgos de personalidad de los individuos, sino más
bien las posiciones ordenadas en categorías de los individuos… la mayor parte de las
escalas psicológicas y educativas se aproximaran bastante bien a una igualdad de
intervalo”.
1.5. DISEÑO Y ELABORACIÓN DE UNA PRUEBA PSICOLÓGICA
No todas las pruebas se crean igual. La creación de una buena prueba no es una cuestión
fortuita; es el producto de una aplicación meditada y sólida de principios establecidos de
elaboración de pruebas. Los procedimientos empleados varían de acuerdo con el tipo de
test y objetivos de los usuarios, pero cualquiera que sea el tipo de instrumento o los
objetivos de los usuarios, es necesaria cierta planeación del contenido antes de redactar
los reactivos que ésta comprende.
1.5.1. Planeamiento para la elaboración de una prueba psicológica
La elaboración de un instrumento exige que se tomen en cuenta, detalladamente, los

propósitos específicos: funciones, procedimientos de preparación o elaboración del test;
además, la definición del constructo que se va a medir. Al construir un instrumento de
medición el investigador debe conocer el tema, tipo de pregunta y reactivos, esquemas
de la prueba y también debe tener en cuenta, cuándo, dónde y cómo se aplicará el
instrumento, el sistema de clasificación y evaluación que se adoptará. En el proceso de
elaboración de una prueba ocurre en cinco etapas a decir de Cohen (2001)

(CUADRO 1)
PROCESO EN LA ELABORACIÓN DE UNA PRUEBA PSICOLÓGICA
(Tomado de Ronald Cohen, R. 2001: 225)
Existen otros autores que señalan que no existe un procedimiento determinado para la
construcción de pruebas psicológicas, por lo que mucho dependerá de la habilidad del
constructor. En nuestra experiencia consideramos proponer el esquema del cuadro 2:
Los test que se pueden construir están agrupados en:

- Test de Observación: Mide la aptitud y capacidad de respuesta a situaciones
improvistas.
- Test de Inteligencia: Mide el coeficiente intelectual.
- Escalas e Inventarios de personalidad: busca conocer las características personales.
- Test de Rendimiento: Mide la cantidad de conocimiento adquirido de una
determinada área, es decir mide el logro objetivo de enseñanza aprendizaje.
1.6. INTRODUCCIÓN Y GENERALIDADES
Los procedimientos utilizados para construir pruebas psicológicas tienen como fin
asegurar que estas alcancen sus finalidades y metas deseadas. Esto se logra mediante la
aplicación de los principios de la medición. Aun cuando el proceso exacto varía
dependiendo del tipo de pruebas psicológicas, se puede establecer una secuencia general
de los pasos de los construcción de pruebas psicológicas, que incluye la especificación de
su finalidad, la construcción y especificación de los reactivos, el ensamblaje de la forma
final de la prueba, el análisis y estandarización de las calificaciones de prueba psicológica.
En la construcción de cualquier prueba específica, se puede omitir algunas de las etapas.
Puede variar su orden o se puede llevar a cabo varias etapas de manera simultánea.
Antes de iniciar el análisis de la construcción de pruebas psicológicas, es preciso hacer

hincapié en dos puntos evidentes, que se pasan por lo alto con demasiada frecuencia. En
primer lugar, en muchas situaciones, una prueba es sólo uno entre varios métodos
posibles de obtención de información deseada. Por ejemplo si deseamos medir los

conocimientos de matemática de un estudiante de secundaria, le podemos aplicar un
examen.
(CUADRO 2)
Fases en la construcción de una prueba Psicológica
FASE 1: DELIMITACIÓN DE LA VARIABLE DE ESTUDIO

1. Delimitación de la variable de estudio: Significa delimitar de manera
operacional el constructo psicológico, materia de estudio. Por ejemplo:
Actitudes hacia la promiscuidad., la variable es la promiscuidad. Qué
significa promiscuidad.
2. Objetivos de la prueba: en términos conductuales y de contenido
3. Los indicadores: Establecer cuáles son los indicadores, por ejemplo en el
caso de promiscuidad: la infidelidad, el estilo de vida, inestabilidad afectivo-
emocional.
FASE 2: FUNDAMENTACIÓN TEÓRICA

2.1. Antecedentes: A nivel internacional y nacional.
2.2. Alcances teóricos: Definiciones, fundamentos, teorías, clasificación,
aplicaciones (con precisión bibliográfica)
2.3. Definiciones operacionales (Glosario de términos)
FASE 3: CONSTRUCCIÓN DE LA PRUEBA

3.1. Elaboración de los reactivos
3.2. Criterio de jueces (Opinión de profesionales versados en el área, psicólogos,
sociólogos)
3.3. Análisis de ítems (estudio piloto)
3.4. Ensamblaje de la prueba, viene a ser la depuración de los ítems, en esta
fase, se elaboran los reactivos finales que conformará la prueba.
3.5. Análisis estadístico: Validez, confiabilidad, error típico de estimación y datos
normativos.
FASE 4: PRESENTACIÓN DE LA PRUEBA

3.6. Ficha técnica
3.7. Descripción de la prueba
3.8. Utilidad de la prueba
3.9. Justificación estadística
3.10. Datos normativos
(Edmundo Arévalo Luna, 2000. Construcción de Pruebas Psicológicas, asignatura desarrollada en

las Universidades: UNHEVAL, UCV, UPAO, USS.)
En segundo lugar, existen pruebas publicadas disponibles en la mayoría de los campos de

la actividad psicológica. Así podemos utilizar con frecuencia una prueba existente, en
lugar de construir otra nueva. Por supuesto, las ventajas del uso de una ya existente es el
ahorro de tiempo y esfuerzo de construcción de la prueba y la disponibilidad de la
información previa respecto a la eficacia de la prueba y el significado de sus calificaciones.

El mayor inconveniente es el que puede no haber pruebas publicadas que sean óptimas
para la situación dada.
1.6.1. Lo que representan las pruebas psicológicas:
Otro plan de clasificación que nos ayudará a comprender, que en el proceso de su

construcción establece una distinción entre lo que representan y lo que predicen las
pruebas psicológicas. Desde este punto de vista, una prueba psicológica es una
representación cuando sus reactivos son similares- a las conductas que nos interesa
medir y es predictor, cuando se enfoca en alguna conducta, no considerada en la prueba
que deseamos medir.
1. Pruebas de Representación: Para ilustrar el concepto de la prueba psicológica

como representación, supongamos, por ejemplo, que deseamos medir la capacidad de un
niño para sumar números de problemas la suma de dos números de tres dígitos; sin
embargo, esto daría como resultado una prueba sumamente prolongada. En lugar de ello,
podríamos escoger una muestra de problemas y pedirle al niño que los resolviera. En base
a su ejecución en esos problemas, sería posible inferir hasta que punto podría obtener
buenos resultados en toda la gama de problemas posibles.
Goodenough (1949) hizo otra distinción dentro de la clase de pruebas representativas.

Las clasifico como muestras y como signos. La base primordial de su distinción es la
claridad con la que se puede definir el universo muestreado. En su clasificación, una
prueba es una muestra cuando los reactivos son obtenidos de un universo claramente
definido; es un signo, cuando el universo es abierto y no está definido claramente.
La idea de una prueba como un signo se puede aclarar por medio de dos ejemplos.
Tomemos en consideración la creatividad, que es un concepto muy utilizado, pero que se
define raramente con claridad. Un buen método para abordar el estudio de la creatividad
podría ser el desarrollo de una prueba de aptitudes y de resolución de problemas que
parezcan medir la capacidad creativa.
A continuación, relacionaríamos las calificaciones obtenidas en esas medidas con otros

índices de creatividad, tales como las clasificaciones hechas por jueces expertos. La
obtención de premios por realizaciones creativas o el éxito en ocupaciones que requieren
capacidades de creación. Si esos estudios demuestran que las calificaciones obtenidas en
esa prueba se relacionan con esos resultados, habremos contribuido a definir lo que se
entiende por creatividad. En esencia nuestra prueba psicológica habrá servido como un
“signo” que indique la presencia de capacidades creativas.
O bien, tomemos en consideración la inteligencia. Uno de los modos de definir

inteligencia es mediante los tipos de tareas incluidas en las pruebas de inteligencia. Al
utilizar el concepto de pruebas psicológicas como signos, la consabida frase de
“inteligencia es lo que mide una prueba de inteligencia”, que se cita con frecuencia, no es
simplemente una definición circular. Más bien, indica que la buena ejecución de las tareas
incluidas en una prueba de inteligencia es una indicación de que la persona en cuestión es
inteligente.

En general, el concepto de muestreo es más apropiado para las pruebas de rendimiento,
en las que se especifican, por lo común con claridad, el contenido y las habilidades que se
debe medir.
2. Pruebas predictivas: En muchas situaciones, nos interesa una prueba debido a

que sus clasificaciones nos permiten predecir el modo en que se desempeñará una
persona en una situación cualitativamente diferente. Por ejemplo, aunque una prueba de
admisión a la universidad puede incluir muchos reactivos de vocabulario, no nos interesa
en sí mismo el vocabulario del alumno, en lugar de ello, deseamos conocer la calificación
obtenida por cada estudiante en el vocabulario, debido a que predice su rendimiento en
la universidad. El interés se enfoca en lo que se predice y no en el predictor.
El efecto esencial de una prueba predictiva es que sus calificaciones se relacionan con el
comportamiento de interés (el criterio). Hasta donde la selección de reactivos para esa
prueba se base con la exactitud que predice una conducta externa, se podría incluir en
ella reactivos que parezcan no tener ninguna relación lógica con la conducta que se este
tomando en consideración.
Por ejemplo en un inventario de intereses se puede incluir un reactivo en el que se le

pregunte a la persona si le gusta jugar al golf. Lógicamente este reactivo puede tener muy
poca relación con cualquier elección vocacional, con la excepción posible de la que un
golfista profesional. Sin embargo, si se puede demostrar que el agrado por el golf está
relacionado con los intereses por otras ocupaciones, se podría incluir este reactivo en la
prueba, ya que vaticinaría los intereses en esas ocupaciones.
La distinción entre las pruebas representativas y las de predicción se refiere a si los

reactivos de la prueba y la conducta relevante, no contenida en ella, son similares o
diferentes. Si la prueba y la conducta no contenida en ella son esencialmente similares, se
dice que la prueba representa la conducta relevante, si son diferentes, la prueba es de
predicción.
Cuando la prueba se construye para muestra, se seleccionarán reactivos tomados

sistemáticamente de un universo definido y la evaluación consistirá en determinar lo
adecuado del muestreo. Por otra parte, cuando una prueba es predictora, la etapa crucial
será la de establecer, empíricamente, que existe una relación entre el reactivo y la
conducta que se intenta predecir.
Si la meta principal es la de desarrollar una prueba que mida el rendimiento en

matemáticas, el muestreo representativo del universo de los problemas de matemáticas
será una condición para la selección de reactivos; si la exactitud de la predicción es lo más
importante, la representatividad del muestreo se subordinará al poder predictivo como
base para la selección de los reactivos.
1.7. FINALIDAD DE LA PRUEBA

Desde un punto de vista pragmático, el constructor de pruebas tiene que tomar dos
decisiones importantes: determinar el contenido de la prueba y su formato.

O sea que debe determinar las conductas, los conocimientos o las habilidades que
cubrirán ésta y cómo se presentarán los reactivos. Sin embargo, antes de poder tomar
decisiones, deberán hacerse dos preguntas previas: “¿para qué fines servirá la prueba?” y
“¿qué grupos de sujetos serán sometidos al examen?”. Las respuestas a estas dos
preguntas establecerán límites y sugerirán cómo seguir adelante en el proceso de
construcción de la prueba.
La pregunta relativa a la finalidad es predominante. Comúnmente se desarrolla una

prueba para alguna combinación de usos y finalidades, más que para un solo propósito.
Por ejemplo, la finalidad de la Collage Entrante Examination Board´s Sholastic Aptitude

Test (SAT) Prueba de Aptitudes Escolares del Consejo de Exámenes de Admisión a la
Universidad se describe como sigue:
Puesto que las escuelas secundarias difieren muchos en sus cursos, sus normas
académicas y sus prácticas de calificación, los funcionarios encargados de la admisión a la
universidad necesitan contar con alguna medida estándar de la capacidad para comparar
las solicitudes de los candidatos procedentes de distintas escuelas.
El SAT es una prueba objetiva con duración de tres horas, destinada a proporcionar una
medida estándar de las capacidades verbales y matemáticas de los candidatos a ingresar
a la universidad. Las secciones verbales del SAT pondrán a prueba la capacidad para
comprender las relaciones entre las palabras y las ideas y entender lo que se lee. Las
secciones matemáticas ponen a prueba la capacidad para comprender símbolos
matemáticos y utilizarlos en la resolución de problemas.
Obsérvese que esta declaración no sólo explica la finalidad de la prueba sino que subraya
el contenido.
La otra consideración primordial es la de la composición y las características del grupo al

que se destinan la prueba. En este caso, el constructor de la prueba debe tomar en
consideración variables tales como la edad de quienes lo tomarán, nivel intelectual,
educación, orígenes socioeconómicos y culturales y nivel de lectura.
1.7.1. Contenido de las Pruebas
Para proceder a la elaboración de la prueba psicológica, el constructor deberá traducir sus

propósitos en términos operacionales. Esta especificación cubre una vez más dos grandes
áreas: contenido y formato.
a. Las pruebas representativas: En el caso de las pruebas de rendimiento, la primera

etapa consiste en bosquejar el contenido y las habilidades que cubre la prueba. Una
prueba puede cubrir los sonetos de Shakespeare, las leyes de las permutaciones, los
factores sociales y económicos que estuvieron a la base del auge del partido nazi o los
principios de la construcción de pruebas de rendimiento.
Si la prueba psicológica se desarrolla para medir algún rasgo o alguna característica

psicológica dada, la tarea del constructor será distinta. En primer lugar, deberá definir, de

modo tan explícito como le sea posible, el rasgo que se medirá. A continuación, tendrá
que indicar la conducta a través de las cuales se manifestará el rasgo. Es decir, que
describirá las conductas observables, las habilidades o las aptitudes que sean indicadoras
del rasgo que se medirá.
b. Pruebas de predicción: Cuando se desarrolla una prueba psicológica con fines

predictivos, la primera etapa consiste en efectuar un análisis sistemático de la ejecución
que se trata de predecir. En otras palabras, se lleva a cabo un análisis de “puestos”. Los
resultados de ese análisis deben indicar una medida apropiada de criterio e identificar los
rasgos y las conductas que se necesitan para que la ejecución sea satisfactoria.
Un criterio es una medida del éxito, o sea, la conducta que debe predecir la prueba. Se
debe definir lo que constituye una ejecución apropiada, especificándose un índice de
éxito. Por ejemplo, el éxito como ensamblador de reguladores se puede definir como el
número de unidades de ensambladas por hora, el éxito de un vendedor por su volumen
de ventas, el de un alumno por el promedio de sus calificaciones, etc.
En conclusión en esta etapa de la construcción de pruebas psicológicas, se delinea el

contenido y las habilidades, se define el rasgo a medir. Creemos por situaciones prácticas
en esta área debemos desarrollar los siguientes puntos, basados en las generalidades
anteriores:
1. Variable de estudio: Significa delimitar de manera operacional el constructo

psicológico, materia de estudio.
2. Objetivos de estudio: Estos deben ser especificados, en términos conductuales,
con la finalidad que explique lo que pretende medir.
3. Los indicadores: Establecer los indicadores de la variable de estudio. Pudiendo
estos ser modificados más adelante, con el estudio que se haga del marco teórico.
4. Tabla de especificaciones: El objetivo principal en la planeación de un
instrumento es la preparación de un perfil detallado como una tabla de
especificaciones que sirve como guía al elaborar los reactivos que van a evaluar o
predecir ciertos objetivos.
En la planeación de un instrumento es útil elaborar una tabla de especificaciones en dos

direcciones. En la preparación de esa tabla, los objetivos conductuales a evaluar se
anotan como encabezados de reglón y los objetivos del contenido (temáticos) como
encabezados de columna. Después, las descripciones de los conceptos específicos
correspondientes a los encabezados de reglón y columna apropiados se describen en el
cuerpo (celdas) del cuadro.
Una tabla de especificaciones debe ser bastante detallada en los términos del
conocimiento y las habilidades que se espera demuestren los sujetos, pero es importante
no enfatizar demasiado un objetivo en particular. Quizá sea más fácil elaborar los
reactivos que evalúan el conocimiento en términos y hechos que aquellos que miden la
capacidad para analizar y evaluar; pero también deben incluirse en el instrumento los
reactivos en las últimas dos categorías. (Ver los ejemplos del cuadro 3)

(CUADRO 3)
Tabla de Especificaciones
Para una escala de Actitudes Hacia el Aborto en Adolescentes
CONTENIDO (Tema)
Indicadores
OBJETIVO
CONDUCTUAL Evitación a la Aferrarse al estilo Influencia social Desequilibrio
maternidad (25%) de vida habitual abortiva (25%) emocional (25%)
(25%)
Actitudes de los Renunciar a las Provocar el aborto Ideas adquiridas Desajuste en el
adolescentes obligaciones de con la intención por parte de los ámbito afectivo y
hacia el aborto la relación de seguir con su padres, amigos, emotivo
vida habitual etc.
madre-hijo
Total Ítems 10 10 10 10
Edmundo Arévalo, (2005) Curso de Construcción de Pruebas Psicológicas UPAO.
5. Matriz de Consistencia de la Prueba Psicológica: Lamatrizde consistencia nos

permite tener un panorama general de la prueba Psicológica que queremos construir,
para lo cual es necesario tener en claro la variable, los indicadores de la variable,
definiciones operacionales de estas, el esquema del marco teórico, la finalidad de la
prueba.
(CUADRO N 4)
Modelo de una Matriz de Consistencia para la Construcción de una Prueba Psicológica
Título:
Variable Marco Teórico Objetivos Indicadores Definiciones

Operacionales
Edmundo Arévalo, (2005) Curso de Construcción de Pruebas Psicológicas, UPAO
1.7.2. Formato de la Prueba

El constructor de una prueba debe determinar también el modo en qué se presentarán
los reactivos. ¿Utilizará una prueba de papel o lápiz o se requerirá algún tipo de aparato?
¿Tendrán que reconocer simplemente los sujetos la respuesta correcta por sí mismos?
¿Qué importancia se concederá a la velocidad de respuesta? A continuación se dan
algunos de los formatos de pruebas más comunes. Más adelante encontramos algunas
interrogantes necesarios que deben responderse antes de iniciar la construcción de una
prueba. (Ver cuadro Nº 5). Algunas dimensiones comunes de formatos de pruebas.
1. Respuesta alternativas vs. Libre: en un reactivo de respuesta alternativa, el

examinado escoge la respuesta apropiada de entre varias alternativas, como en los
reactivos de comparación, elección múltiple o verdadera y falsa. En los reactivos de
respuesta libre, el sujeto proporciona una respuesta, como en completamiento de
frases, respuestas cortas o preguntas de ensayo.

(CUADRO N 5)
Interrogantes que deben responderse previamente al Construir una Prueba Psicológica
Al delimitar la variable de estudio o el constructo psicológico el elaborador de una

prueba, debe plantearse algunas interrogantes que debe contestar, como:
• ¿Qué es lo que la prueba medirá?;
• ¿Cuál es el objetivo de la prueba?;
• ¿Existe una necesidad de esta prueba?
• ¿Quiénes serán los usuarios?;
• ¿Qué contenido abarcará la prueba?;
• ¿Cómo se aplicará la prueba?
• ¿Cuál será el formato ideal?
• ¿Qué capacitación se requerirá de los administradores de la prueba usarla?
• ¿Qué clase de respuestas se requerirán de quienes respondan la prueba?
• ¿Quién se beneficia como resultado de una aplicación de esta prueba?
• ¿Hay algún potencial de daño como resultado de una aplicación de esta prueba?
• ¿Qué tipo de puntuaciones se conferirá a la prueba?
(Tomado de Ronald Cohen (2001) Pruebas y evaluación Psicológica)
2. Pruebas de velocidad vs. Pruebas de poder: en una prueba de velocidad los reactivos
suelen ser muy sencillos; pero existe un tiempo límite estricto; así, la calificación es
un índice de la velocidad de las respuestas. Una prueba
de poder se compone de reactivos de dificultad variable y tiene un límite de tiempo
que permite dar respuesta a todos ellos. En esa forma, la calificación refleja el nivel
de dificultad de los reactivos a los que puede responder el sujeto.
3. Ejecución máxima vs. Ejecución típica: en las pruebas de ejecución máxima, el sujeto
recibe instrucciones de tratar de obtener la mejor calificación que pueda. En las
pruebas de ejecución típica, nos interesa conocer su comportamiento habitual o
normal. En general, las pruebas de rendimiento y aptitudes son medidas de ejecución
máxima en tanto que las de personalidad, son medidas de ejecución típica.
4. Papel y lápiz vs. Ejecución: esta distinción se refiere al modo en que se presentan los
reactivos de una prueba y cómo se dan las respuestas. Las pruebas de ejecución
implican, con frecuencia, la manipulación de algún aparato u objeto.
5. Aplicación colectiva vs. Individual: las pruebas colectivas se pueden aplicar a más de
un solo individuo a la vez, por lo que suelen ser de papel y lápiz. Las pruebas
individuales se pueden aplicar sólo a una persona cada vez y pueden ser de ejecución
o verbales.
6. Pruebas estructuradas vs. Proyectivas: en una prueba estructura; se especifican con

claridad los estímulos y las tareas del sujeto; en una prueba proyectiva; los estímulos
y las tareas son ambiguos. Las pruebas estructuradas frecuentemente se les llaman

objetivas, aun cuando esta distinción se refiere, de manera más adecuada a los
procedimientos de calificación.
Cualquier prueba combinará varias de esas dimensiones; es decir, puede ser una prueba
de velocidad, de papel y lápiz, utilizando reactivos de reconocimiento. Además, una
prueba puede incluir varios tipos de reactivos; por ejemplo, los exámenes de clase
incluyen con frecuencia tanto preguntas de elección alternativa (como las de elección
múltiple o las de verdadero y falso) como la de respuesta libre (tales como las de ensayo
o respuestas cortas).
Como en la mayoría de los casos, cualquier reactivo puede presentarse en varios

formatos; el problema es elegir el “mejor”. Hay dos consideraciones que ayudan a tomar
una decisión entre formatos posibles: las características de sujetos que han de tomar una
prueba y ciertos factores prácticos.
El papel de la composición del grupo examinado se puede ilustrar mediante la práctica de

administrar exámenes orales a los niños pequeños y a personas con capacidades limitadas
para la lectura, y el uso de pruebas con un contenido verbal mínimo para las personas con
deficiencias de lenguaje.

ACTIVIDADES PARA LA PRIMERA UNIDAD
ANÁLISIS DE UNA PRUEBA PSICOLÓGICA
Objetivos:
• Que los alumnos analicen una prueba psicológica (sea de aptitudes, inteligencia,
inventarios de personalidad, escalas, entre otros) a fin de conocer y comprender
cada una de las fases de su construcción
• A partir de este análisis comprender los procedimientos que se han seguido para
su construcción, la misma que les servirá de referencia, para elaborar una prueba
psicológica.
Duración: 2 Semanas
Actividad:
1º. Formar equipos de trabajo para realizar la actividad, de acuerdo al número de
alumnos en las prácticas.
2º. Realizar el análisis crítico considerando el esquema que se presenta
3° Exponer en diapositivas
ESQUEMA
I. FICHA TÉCNICA
1.1. Nombre de la prueba
1.2. Autor o autores
1.3. Año de publicación
1.4. Procedencia (se refiere al lugar donde se elaboró la prueba inicial)
1.5. Adaptación española (generalmente se denomina el instituto o lugar donde se
adaptó al idioma español, si es posible el autor de la misma)
1.6. Ámbito de aplicación (Se refiere a las edades, niveles educativos o población en
que se administra la prueba)
1.7. Tiempo de duración (Se refiere a la administración de la prueba, si es por áreas o
el total del examen)
1.8. Significación u objetivos de la prueba (Aquí se plantea, en general los propósitos
que tiene la prueba que se analiza)
1.9. Áreas que evalúa la prueba (Se detallan las áreas, describiendo cada una de ellas)
1.10. Datos normativos (Señalar que tipos de puntuaciones y datos normativos presenta
la prueba)
II. DESCRIPCIÓN DE LA PRUEBA

En este rubro se señalan los orígenes de la prueba, las razones o motivaciones que
expresa(n) el autor(es) para su elaboración, la fundamentación teórica en las que se basó
el autor, se hace una descripción general de la prueba, aquí se especifican con detalle las
diferentes áreas, rasgos o escalas que mide la prueba. Cómo se elaboró la prueba, el
procedimiento, la población con la que se elaboró; igualmente, cómo fue la adaptación o
estandarización al castellano, se describe las aplicaciones que tiene en su uso
(administración, calificación e interpretación)
III. JUSTIFICACIÓN ESTADÍSTICA

Aquí se realiza el análisis acerca de la confiabilidad y validez de la prueba, señalando los
métodos utilizados tanto en al validez como en la confiabilidad, se señalan los índices de
validez y confiabilidad alcanzados en su versión original así como en posteriores estudios
de adaptación y/o estandarización, igualmente con sus métodos y procedimientos.
IV. DATOS NORMATIVOS

Se realiza un análisis de las diferentes normas interpretativas, de acuerdo a las
poblaciones y muestras, según se ha presentado en la prueba.
V. ANÁLISIS CRÍTICO O APRECIACIÓN DE LA PRUEBA

Es la opinión personal o del grupo respecto al valor que tiene la prueba, si tiene las
condiciones y cualidades que deben caracterizar a un instrumento psicológico; así mismo
se comenta sobre la experiencia del trabajo
ANEXOS:
Se adjunta el cuestionario, el protocolo de respuestas y la información bibliográfica se
hace referencia, en versión Word y Power Point, en físico y CD.
NOTA:
Este trabajo al ser producto de un análisis pormenorizado de un equipo, se debe
presentar con una redacción impecable y manteniendo las normas APA.
EAL/
ACTIVIDADES DE RETROALIMENTACIÓN
1. Delimitar la variable de estudio de la prueba que va a construir

2. Seguir las pautas en la planificación para la construcción de una prueba
psicológica, HASTA DETERMINAR LA TABLA DE ESPECIFICACIONES Y MATRIZ DE
CONSISTENCIA.

SEGUNDA UNIDAD
CONSTRUCCIÓN O ADAPTACIÓN DE UNA

PRUEBA PSICOLÓGICA
1. CAPACIDADES
• Identifica y aplica los diversos criterios para la elaboración de reactivos.

▪ Selecciona los ítems a incluirse dentro de la prueba.
▪ Formula procedimientos para la estandarización de la prueba
▪ Fija los procedimientos para la aplicación y calificación de la prueba.
2. CONTENIDOS
▪ Los reactivos
▪ Análisis de reactivos
▪ Ensamblaje de la prueba

2. 1. LOS REACTIVOS:
2.1.1. Elaboración de los reactivos
Después de tomar esas decisiones preliminares, quien desarrolla la prueba estará listo
para comenzar a redactar los reactivos. Una vez más tendrá varias opciones para actuar.
Tomemos en consideración las fuentes que podrían utilizarse para desarrollar reactivos
individuales. Para un examen en clase, el maestro puede utilizar libros de texto, tareas de
lectura, exposiciones y debates en clase, como fuentes para las preguntas. En contraste,
en las pruebas de rendimiento desarrolladas para usarse en diversas escuelas, los
redactores de los reactivos no toman solamente en consideración un texto, sino las de
gran variedad de maestros y expertos en planes de estudios.
Las preguntas o reactivos de los inventarios de personalidad los sugieren por lo común las
teorías de personalidad, los vocablos y las fases que se utilizan para describir la
personalidad, las declaraciones que se encuentran en los historiales clínicos, las palabras
que usan las personas para describirse a sí misma e incluso las preguntas o los reactivos
de otros inventarios de personalidad.
El proceso de desarrollo de buenos reactivos es la redacción, corrección, prueba y

revisión. A continuación, se repiten estas etapas hasta desarrollar reactivos satisfactorios.
Por ejemplo, tomemos en consideración las pruebas desarrolladas por los editores de las
pruebas comerciales. Hay grupos de especialistas, que trabajan a partir del plan de la
prueba, para escribir reactivos que cubran las áreas de contenido habilidades que se
requieran. Al principio, se escriben muchos más reactivos de los que se necesitarán,
debido a que serán numerosos los que eliminen mediante los análisis sucesivos.
A continuación, se revisan y corrigen las primeras redacciones de las preguntas, tanto por
parte de los escritores originales como con otras personas. La corrección implica la
eliminación de la redacción ambigua, el fortalecimiento de las alternativas débiles y la
exclusión de reactivos duplicados y, por ende, inútiles.
2.1.2. Preparación de los Reactivos del Instrumento: Al preparar los reactivos o ítems
reales de un instrumento es recomendable que se redacten alrededor del 20% más de los
reactivos necesarios, de modo que se cuente con una cantidad adecuada para la versión
final del instrumento. Dichos reactivos deben de ser redactados por personas que tengan
conocimientos sobre el instrumento que se quiere construir. Todos los ítems presentan
procedimientos para obtener información de los sujetos pero ésta información en cuanto
a la cantidad y clase varía de acuerdo con la naturaleza de la tarea que implica el ítem.
2.1.3. Normas para la elaboración de reactivos

1. Intentar no tener frases que puedan ser interpretadas en más de un sentido.
2. Seleccionar todos aquellos reactivos que se creen que van a cubrir toda la gama de
interés.
3. Cada reactivo debe contener una sola idea.
4. Los ítems o reactivos deben ser iguales para todos.
5. Las frases deben ser sencillas.

6. Las frases deben estar en presente más no en pasado.
7. Usar frases que tengan relación con el objeto de estudio.
8. Los reactivos deben ser cortos no más de 20 palabras.
9. Las frases deben ser sencillas sin cláusulas dependientes (y/o).
10. Evitar las frases que indiquen universalidad, tales como: todos, ninguno, siempre.
11. Debe utilizarse un lenguaje fácil.
12. Evitar el empleo de frases negativas (no utilizar la palabra no).
13. Los sujetos no deben darse cuenta de lo que van a medir.
2.1.4. Clasificación de los Ítems:
Se han sugerido distintos métodos para clasificar los reactivos de acuerdo con el formato,
o la forma en que se requiere la respuesta. Completamiento o llenado contra selección,
recuerdo contra conocimiento y construcción de respuesta contra identificación. Otro
método para clasificar son los reactivos de ensayo contra objetivo. Los reactivos pueden
ser de tipo de llenado, completamiento de selección, dependiendo de si los sujetos deben
elaborar una respuesta o sólo seleccionar la mejor respuesta de una serie de alternativas.
2.1.5. Características de los Reactivos de Ensayo: Ventajas y Desventajas:

• Miden la capacidad de organizar, relacionar y comunicar comportamientos.
• Menor tiempo para su preparación.
• Menor probabilidad de adivinación.
• No ofrece una muestra total de la materia examinada.
• Presenta una calificación subjetiva.
• Requiere de mayor tiempo para calificarla.
• Tan sólo se pueden formular de 5 a 6 ítems en un tiempo igual de respuesta a 50
minutos.
Sugerencias: Los reactivos de ensayo deben redactarse a través de preguntas objetivas y

esto sólo se puede hacer si:
A. Se define la tarea y se redacta los reactivos en forma clara.
B. Utilizar una cantidad reducida de reactivos, que deberán responder todas las
personas.
C. Estructurar los reactivos de manera que los expertos en la materia estén de
acuerdo en que una respuesta es mejor que otra de forma demostrable.
D. Pedir a las personas que respondan cada reactivo en una hoja o papel separada.
Cuando se elaboran escalas, por ejemplo de actitudes, se deben tener en cuenta ciertas
consideraciones, como las que se presentan en el cuadro 6 (Ver cuadro 6)
2.1.6. Reactivos objetivos:

Características de los Reactivos Objetivos:
• La variedad en su forma.
• Se califican con facilidad y objetividad.
• Permite un muestreo más extenso del material examinado en los sujetos.
• Menor tiempo para responder los reactivos.
• Ofrece mayor importancia al aprendizaje memorístico (desventaja).

Sugerencias: poner especial cuidado en los reactivos, pues deben estar claros, precisos y
correctos (gramaticalmente hablando). Se deben considerar el nivel de lectura del grupo
examinado. El reactivo debe incluir todos los datos y requerimientos para la selección de
la respuesta correcta. Evitar reactivos que se interrelacionan y entrelazan así como de
claves irrelevantes.
(Cuadro 6)
NORMAS PARA LA ELABORACIÓN DE REACTIVOS
(Tomado de: Gerardo Marín “Manual de Investigación en Psicología Social”, México:
Trillas)
Los reactivos de una escala de actitudes, en especial si son seleccionados de acuerdo con el
método de Likert, deben ser redactados por un grupo de personas que conozcan lo suficiente
acerca del estímulo como para poder incluir todas las dimensiones posibles de la actitud
respectiva. Los reactivos deben redactarse en un lenguaje claro y sencillo, de al forma que
sean comprensibles para los evaluados.
A continuación se señalan las siguientes normas para la elaboración de reactivos:
1. Evite frases que se refieran al pasado en vez de al presente

2. Evite frases que puedan ser interpretados como hechos
3. Evite frases que puedan ser interpretadas en más de un sentido
4. Evite frases que no tengan relación con el objeto psicológico en estudio
5. Evite frases con las cuales la mayoría o casi nadie estaría de acuerdo
6. Seleccione aquellos reactivos que se cree cubre toda la gama afectiva de interés.
7. Utilice un lenguaje claro, simple y directo.
8. Los reactivos deben ser cortos, de no más de 20 palabras
9. Cada reactivo debe contener una sola idea
10. Evite palabras que implican universalidad como: todos, siempre, ninguno, nunca.
11. Se deben utilizar cuidadosamente palabras como: simplemente, etc.
12. Las frases deben ser siempre sencillas, sin cláusulas dependientes
13. Evite el empleo de palabras que puedan provocar equívocos.
14. Evite el empleo de frases negativas complejas.
2.1.7. Tipos de Reactivos Objetivos:
A. Reactivos de Respuesta Corta: El reactivo de respuesta corta es de tipo de

completamiento, también de ensayo y de conocimiento. Se elaboran con gran facilidad,
buscan que las personas den la respuesta correcta. Generalmente se utilizan para evaluar
el conocimiento de terminología, por lo que no se recomienda para la evaluación de
objetivos de enseñanza complejos.
B. Reactivos de Falso y Verdadero: Estos reactivos son fáciles de elaborar y de leer

con rapidez. Razón por la que permite un amplio muestreo de la materia. Generalmente
alienta el aprendizaje de memoria y son ambiguos su sistema de calificación se ve
afectada por la adivinación en un 50%. Un buen reactivo de este tipo contiene una sola
idea, no es largo en exceso y no está sujeto a debate, en efecto es verdadero o falso.
(Reactivos de aparejamiento).

C. Reactivos de Aparejamiento: Estos reactivos se caracterizan por tener varias
opciones de estímulo. La tarea en este reactivo es indicar que respuesta o respuestas
corresponde a cuales opciones de estímulo. Estos reactivos son fáciles de elaborar y
cubren el material con más eficacia que otros tipos de reactivos, pero por lo regular
miden sólo el aprendizaje de memoria de los hechos. Un tipo especial de reactivo de
aparejamiento es el reactivo de reordenamiento o jerarquización, en el cual se pide a las
personas que clasifiquen un grupo de opciones en una cantidad fija de categorías
determinadas previamente.
E. Reactivos de Opción Múltiple: Pueden utilizarse para medir los objetivos de

aprendizajes, complejos y sencillos en todos los niveles y en cualquier materia. Responder
en forma correcta un reactivo de opción múltiple requiere de gran capacidad para la
discriminación y no sólo para reconocer o recordar la respuesta adecuada, por lo tanto se
ven menos afectadas por la adivinación. Además, puede obtenerse información de
diagnostico útil a partir de un análisis de las opciones incorrectas (distractores) que eligen
las personas.
Dentro de las desventajas de los reactivos de opción múltiple tenemos:

1. es difícil elaborar los reactivos adecuados en especial aquellos donde todas las
opciones tengan el mismo atractivo para los sujetos que no conocen la respuesta
correcta;
2. enfatizan el reconocimiento más que el recuerdo y organización de la información; y
3. requieren de más tiempo para contestarse y quizás ofrecen una muestra menos
adecuada del área de la materia que los reactivos de falso y verdadero.
2.1.8. Elaboración de Distractores: Un proceso crucial para determinar la efectividad de

los reactivos de opción múltiple es la selección o elaboración de distractores (opciones
incorrectas).
2.2. ANÁLISIS DE LOS REACTIVOS
2.2.1. Análisis y Comprobación de Reactivos:

Los reactivos que sobreviven a esta elección inicial se combinan, a continuación, en una o
más formas de prueba previa. Estas pruebas previas se aplican a una muestra de personas
similares a las que se examinará con la prueba terminada. Por ejemplo, para una prueba
de rendimiento, las pruebas previas se aplicarán a los alumnos del mismo nivel escolar y
que tengan los mismos antecedentes de información que requiera la prueba. La meta de
la comprobación previa es obtener información sobre cómo reaccionan los alumnos ante
los reactivos. Esta prueba consistirá en comentarios cualitativos, tales como los de
ambigüedad percibida en los reactivos, e índices cuantitativos de la dificultad y el poder
de discriminación de los reactivos.
La dificultad de los reactivos es el porcentaje de personas que responden a ellos

correctamente. El conocer la dificultad de ellos es importante para que el constructor de
la prueba pueda estructurar un examen de cierto nivel de dificultad. Por ejemplo, se
puede desear una prueba difícil si se destina a seleccionar estudiantes para una
educación o un adiestramiento avanzado. Aunque el concepto de dificultad tiene sentido
en el caso de que los reactivos tengan respuestas correctas (pruebas de ejecución

máxima), su significado puede no ser tan claro en reactivos en que no haya respuestas
“correctas”, tales como en la pruebas de personalidad. Sin embargo, en el caso de los
reactivos de ejecución típica, podemos desear cierto patrón de respuestas (por ejemplo,
el porcentaje de acuerdo con una afirmación).
El índice más importante es el del poder discriminativo de los reactivos. Este análisis
estadístico indica la amplitud con la que el reactivo mide lo que debe de medir.
Idealmente deberá disponer de un criterio externo de medida, con el fin de que se pueda
determinar empíricamente si las personas que respondieron correctamente a un reactivo
obtuvieron también calificaciones elevadas en el criterio. En la práctica, esas medidas
externas frecuentemente no se encuentran disponibles. Como substituto de ellas, se
utiliza la calificación total en la prueba como medida de criterio y se comparan las
respuestas a los reactivos individuales con las calificaciones totales, con el fin de
determinar si las personas que obtuvieron calificaciones elevadas en la prueba
respondieron a un reactivo en una forma correcta con mayor frecuencia que las que
obtuvieron calificaciones más bajas. Cuando esto ocurre, se dice que el reactivo
discrimina. Obsérvese que, en esta situación, la discriminación se refiere al hecho de
efectuar distinciones entre personas que tengan conocimiento o habilidades mayores o
menores en el área medida por la prueba.
En las medidas de ejecución típica, el procedimiento análogo determina si las respuestas

están de acuerdo con las respuestas del grupo designado como criterio. Por ejemplo, los
reactivos en una medida de “dominancia” se compararán con las respuestas de personas
que, por algún método independiente, han sido identificadas como dominantes.
El tercer tipo de información obtenida mediante un análisis de reactivos es el del número

de personas que seleccionan cada una de las respuestas alternativas para un reactivo. Las
alternativas que son muy pocos frecuentes o que no se escogen nunca se deberán revisar,
ya que no contribuyen en nada a la eficiencia el reactivo.
En situaciones específicas, se pueden realizar otros análisis. Si la prueba tiene como fin
medir sólo un rasgo homogéneo, se necesitará alguna medida de las interrelaciones entre
los reactivos. O bien, si es importante la velocidad, se podrá hacer un análisis de los
efectos de diversos límites de tiempo.
Puesto que los análisis estadísticos derivados de diferentes muestras varían debido a los
errores de muestreo, los análisis de reactivos se llevan a cabo con frecuencia en dos
muestras independientes. Este proceso, denominado de validación cruzada, hace que
reduzcan las posibilidades de tomar decisiones basadas en procedimientos estadísticos
que reflejen sólo las fluctuaciones aleatorias, en lugar de las verdaderas diferencias.
2.3. ENSAMBLAJE DE LA PRUEBA
La etapa que sigue es la de preparar la o las formas finales de la prueba. Los resultados de
los análisis de reactivos se utilizan para seleccionar los reactivos que proporcionen la
mejor discriminación, tengan la dificultad apropiada y no posean ambigüedades ni
alternativas deficientes. Esta selección requiere equilibrio y ajuste reciproco, puesto que
quizá sea necesario incluir menos reactivos, discriminativos para asegurar el balance

conveniente en el contenido. Si se construyen formas equivalentes de la prueba, el
constructor tendrá a su cargo la tarea adicional de equipar las formas en términos de
contenido, dificultad y poder de discriminación, así como también la función de otras
dimensiones pertinentes.
Después de efectuar los cambios editoriales finales que se consideren oportunos, se

imprime la prueba. Ahora, por primera vez, la prueba existirá como entidad clara. Hasta
este momento tenemos una colección de buenos reactivos, pero no necesariamente una
buena prueba. El hecho de si la prueba será buena dependerá finalmente de su
estandarización y de los análisis técnicos posteriores. Incluso después que se aplica y
califica una prueba el examinador no puede estar seguro de que ésta haya cumplido su
cometido. Esta es una de las razones por las que las pruebas que se distribuyen en forma
comercial se aplican primero (pruebas piloto) a una muestra de 50 personas más o menos
que son representativas del grupo al que se dirige. Cualquiera que sea el tipo de prueba
un análisis posterior de los resultados es necesario. Entre las preguntas que deben
responderse están: ¿Los límites de tiempo fueron adecuados?, ¿Los sujetos entendieron
las instrucciones?, ¿Las condiciones del entorno fueron apropiadas?, ¿Las emergencias se
manejaron en forma apropiada?
2.3.1. Pruebas de Referencia de Criterio y de Dominio:
El procedimiento que se emplea para evaluar la efectividad de los reactivos en las

pruebas depende hasta cierto punto de los propósito de las pruebas con referencia de
criterios no es descubrir las calificaciones de las personas en relación con las calificaciones
de otros individuos, sino más bien determinar la posición de cada persona con respecto
de ciertos objetivos educativos. Un tipo particular de prueba con referencia de criterios
diseñada para medir el logro de un rango limitado de capacidades cognoscitivas se
conoce como prueba de dominio. Las calificaciones que obtiene una prueba de dominio,
o en cualquier otra con referencia de criterios, se expresa como porcentaje de la cantidad
total de reactivos respondidos correctamente; una calificación perfecta indica un dominio
del 100% del material de la prueba.
2.3.2. Diferencias Individuales y Validez de los Reactivos:
Por lo general es difícil llegar a un acuerdo sobre qué tanto debe saber un individuo
acerca de una materia en particular o qué constituye el dominio de la materia, casi
siempre la clasificación en una prueba psicológica o educativa se interpreta al compararla
con las clasificaciones de otras personas. Las pruebas psicológicas se crearon sobre todo
para evaluar las diferencias individuales con respecto de las características cognoscitivas y
afectivas, dichas diferencias ayudan a tener una alta predicción del comportamiento de
los sujetos.
Para evaluar la utilidad de un reactivo como medida de diferencias individuales en las

características de habilidad o personalidad, quienes aplican las pruebas necesitan cierta
medida de criterio externo. Si una prueba se elabora para predecir el desempeño en un
trabajo, entonces un criterio externo apropiado es una medida de desempeño en el
trabajo (las calificaciones de los supervisores).

La validez de un reactivo para predecir la medida de criterio externo particular puede
determinarse por medio del cálculo de la correlación entre las calificaciones en el reactivo
(0´ y 1´s) y las calificaciones de la medida de criterio. Con este propósito, se han empleado
distintos tipos de coeficientes de correlación, siendo el más común el coeficiente biserial
puntual, cuya fórmula es:
R= Yp – Y MNp
S (N – Np) (N – 1)
Dónde:
M = Cantidad total de sujetos.
Np = Sujetos que pasan el reactivo.
Yp = Media de las calificaciones de criterio de quienes pasan el reactivo.
Y = Media de todas las calificaciones de criterio.
S = Desviación estándar de todas las calificaciones de criterio.
Cuanto más alto sea el índice de validez para un reactivo (correlación de criterios de
reactivos), éste será más útil para predecir el criterio. El hecho de sí un reactivo va a
conservarse o no depende del tamaño de índice de validez. A pesar de que los reactivos
con índices de validez tan bajos como 0.20 pueden contribuir a la predicción del criterio,
se refieren los índices de validez más altos. Desde luego, un reactivo con un índice de
validez cercano a .00 o negativo debe de revisarse o descartarse. La utilidad de un
reactivo para predecir un criterio específico depende no sólo del índice de validez, sino
también de la correlación del reactivo con otros reactivos de la prueba. Los reactivos que
tienen índices de validez altos pero correlaciones bajas son los mejores porque realizan
una contribución independiente a la predicción de las calificaciones de criterio.
2.3.3. Índices de Dificultad y Discriminación de los Reactivos:
El procedimiento estadístico conocido como “índice de dificultad del reactivo” en el

contexto de las pruebas de rendimiento puede ser un “índice de aprobación del reactivo”
en el contexto de las pruebas de rendimiento pueden ser un “índice de aprobación del
reactivo” en otros contextos, como las pruebas de personalidad, aquí, la estadística no
proporciona una medida del porcentaje de personas que aprueban el reactivo sino una
medida del porcentaje de personas que dijeron “si”, que estuvieron de acuerdo o que de
alguna u otra manera aprobaron el reactivo.
Las medidas de discriminación de los reactivos indican qué tan adecuadamente separa o
discrimina un reactivo a quienes obtienen puntuaciones altas y quienes obtienen
puntuaciones bajas en una prueba. Cuanto más alto sea el valor del reactivo es más
efectivo al discriminar entre los individuos con calificaciones altas y bajas en la prueba
como un todo.
Consiste en dividir los sujetos en tres grupos de acuerdo con las calificaciones que
obtienen en la prueba como un todo: un grupo superior que consta de 27% que obtiene

las calificaciones más altas, un grupo inferior del 27% que obtiene las calificaciones más
bajas y el 46% restante en el grupo intermedio. Cuando la cantidad de sujetos es
reducida, pueden emplearse grupos superiores e inferiores del 50% de las calificaciones
totales de la prueba en cualquier caso, los índices estadísticos siguientes se calculan a
partir de las calificaciones de los grupos superior e inferior:
P= Up + L p
_________ d= Up - L p
Y ____________
U +L
U
Dónde:
Up Y Lp = Cantidades de sujetos en los grupos superior e inferior que pasan el reactivo.
U Y L = Cantidad total de sujetos en los grupos superior e inferior.
P = Índice de dificultad del reactivo.
d = Índice de discriminación del reactivo.
El índice de dificultad de los reactivos tiene un rango de 0.00 a 1.00. Un reactivo cuyo p =
.00 es aquel que ningún sujeto contestó correctamente y un reactivo con p = 1.00 es
aquel que todos los sujetos respondieron de manera correcta. El valor óptimo p para un
reactivo depende de varios factores, que incluyen los propósitos de la prueba y la
cantidad de opciones de respuesta. Si el propósito de una prueba es identificar o
seleccionar sólo a un porcentaje reducido de los mejores solicitantes, entonces la prueba
debe ser lo suficiente difícil y tener un valor medio bajo de p. si la prueba está diseñada
para observar sólo a unos cuantos solicitantes inferiores, entonces es mejor un valor
elevado de p.
Cuando el índice de discriminación (d) es 1.00, todos los sujetos en el grupo superior en
las calificaciones totales de la prueba y ninguno del grupo inferior respondieron el
reactivo en forma correcta. Sin embargo, rara vez d es igual a 1.00 y, por lo regular, un
reactivo se considera aceptable si su índice es de .30 o más alto. No obstante, d y p no
son índices independientes y el valor mínimo aceptable de d varía de acuerdo con el valor
de p. Un valor de d que es poco menor que .30 es aceptable conforme p aumenta o
disminuye cada vez más con respecto del valor óptimo, sobre todo cuando el tamaño de
los grupos de comparación superior e inferior es grande. Además, un reactivo que tiene
un índice d bajo no se descarta de manera automática; quizá sea posible conservarlo si se
modifica. La elaboración de reactivos de prueba adecuados es un proceso que lleva
tiempo, de modo que aquellos que son defectuosos deben revisarse siempre que sea
posible.

ANEXO 1:
LECTURA COMPLEMENTARIA
INSTANTÁNEA DE UN ELABORADOR DE PRUEBAS

(Tomado de Ronald Cohen, 2001)
Kenneth W. Merrell, Ph.D.
En mi opinión, el consejo más importante para los futuros elaboradores de pruebas es

poner cualesquiera esfuerzos y recursos que se requieran para hacer bien el trabajo,
incluso si los resultados en el proceso toman más tiempo de lo deseado o anticipado. El
lugar más importante para empezar bien el trabajo es definir el constructo que se va a
medir y proponer una estrategia apropiada y reactiva para medirlo. Es imposible enfatizar
en exceso lo importante que es hacer bien la fase de elaboración de reactivos, y pasar por
un proceso de validación del contenido minucioso y detallado antes de que se haya
recopilado siquiera algún dato de estandarización. Hacer bien el trabajo en las primeras
etapas de planeación y elaboración propiciará que su trabajo sea mucho más fácil
posteriormente y de seguro dará como resultado propiedades psicométricas más sólidas
para su prueba."
CONSTRUCCIÓN DE LA PRUEBA
Elaboración de escalas
Hemos definido con anterioridad medición como la asignación numérica de acuerdo con
reglas y señalamos que las escalas son las reglas de medición. La elaboración de escalas
puede definirse como el proceso de establecimiento de reglas para la asignación
numérica en la medición. Planteado de otra manera, la elaboración de escalas es el
proceso por el que se diseña y calibra un dispositivo de medición, y la forma en que se
asignan números (u otros índices), valores de escala, a diferentes cantidades del rasgo,
atributo o característica que se esté midiendo.
Al prolífico L. L. Thurstone se le acredita desde el punto de vista histórico por estar a la

vanguardia de los esfuerzos para instrumentar métodos de elaboración de escalas que
sean sólidos en el sentido metodológico. Adaptó los métodos de elaboración de escalas
psicofísicas al estudio de variables psicológicas como actitudes y valores (Bock y Jones,
1968; Thurstone, 1959; Thurstone y Chave, 1929). El artículo de Thurstone (1929) "A
Method of ScalingPsychological and EducationalTests" introdujo, entre otras cosas, la
idea de elaboración de escalas absolutas, un procedimiento para obtener una medida de
la dificultad de los reactivos a lo largo de muestras de quienes respondían la prueba y que
variaban en capacidad. Dos años antes se había publicado su influyente artículo sobre la
"ley del juicio comparativo" (Thurstone, 1927). Thurstone dijo en una ocasión a sus
estudiantes que esta ley era su logro del que estaba más orgulloso (Nunnally, 1978, pp.
60-61).

Tipos de escalas En el lenguaje común, las escalas son instrumentos usados para medir
algo. Estos instrumentos pueden clasificarse por tipologías como una función de dife-
rentes características. Por ejemplo, podemos describir una escala usada para pesar como
un tipo de instrumento usado para medir el peso, o un tipo de herramienta empleada
para convertir la presión que ejerce un estímulo en un número que representa gramos
(kilogramos, toneladas o lo que sea), o un instrumento de la variedad que produce una
medición en el nivel de razón. Por supuesto, dichas tipologías no son mutuamente
excluyentes; una escala de peso es un instrumento de medición en el nivel de razón que
convierte un estímulo de presión en un número que representa unidades de peso.
En psicometría, las escalas también pueden concebirse como instrumentos usados para
medir algo; siendo ese "algo" generalmente un rasgo, característica o atributo psi-
cológico. Además, es significativo hablar de diferentes tipos de escalas como una función
de varias características. Hemos visto, por ejemplo, que las escalas pueden clasificarse de
manera significativa a lo largo de un continuo del nivel de medición y denominarse por su
naturaleza como nominal, ordinal, de intervalo o de razón. Pero también podríamos
caracterizar las escalas de otras maneras. Si es de interés crítico el desempeño de quien
responde la prueba como función de la edad, entonces la prueba podría denominarse
"escala de edad". Si es de interés crítico el desempeño de quien responde la prueba como
función del grado, entonces la prueba podría denominarse "escala de grado". Si todas las
puntuaciones crudas en la prueba van a ser transformadas en puntuaciones que puedan
variar del 1 al 9, entonces la prueba podría denominarse "escala estanueve". Una escala
podría describirse en otras formas, como unidimensional en oposición a
multidimensional, y comparativa en oposición a categórica.
Quienes elaboran las pruebas diseñan un método de medición (es decir, hacen la escala
de una prueba) en la forma que creen que se adapta óptimamente a la manera en que
han conceptualizado la medición del rasgo o rasgos que son su objetivo. No hay un
método único para la elaboración de escalas; puede lograrse de varias maneras. Tampoco
hay un tipo mejor de escala; el que una escala sea de naturaleza nominal, ordinal, de
intervalo o de razón dependerá en parte de variables como los objetivos de la escala y la
legitimidad matemática de las manipulaciones y transformaciones de los datos
resultantes.
Métodos para elaborar escalas

En general, se supone que quien responde una prueba posee en mayor o menor cantidad
la característica medida por una prueba (válida) como una función de la puntuación de
prueba; entre mayor o menor es la puntuación, hay que suponer que posee más o menos
de esa característica. Pero, ¿cómo se asignan números a las respuestas de modo que
pueda calcularse una puntuación de prueba? Esto se lleva a cabo por medio de la
elaboración de una escala de los reactivos de la prueba, usando cualquiera de varios
métodos disponibles.
Por ejemplo, considérese una medida de opinión en cuestiones morales llamada Escala de
Comportamientos Moralmente Debatibles-Revisada (Morally Debatable Behaviors Scale-
Revised; MDBS-R; Katzet al., 1994). Elaborada para ser "un medio práctico de evaluación
de lo que creen las personas, la fuerza de sus convicciones, al igual que diferencias
individuales en la tolerancia moral" (p. 15), la MDBS-R contiene 30 reactivos. Cada

reactivo una breve descripción de una cuestión o comportamiento moral sobre quienes
responden la prueba y expresan su opinión por medio de una escala de 10 puntos que va
desde "nunca se justifica" hasta "siempre se justifica". Aquí hay una muestra:
Si se tiene la oportunidad, hacer trampa en la declaración de impuestos:
1 2 3 4 5 6 7 8 9 10
Nunca _________________________________________ siempre
Se justifica se justifica
Éste es un ejemplo de una escala de estimación, la cual puede definirse como un

agrupamiento de palabras, afirmaciones o símbolos en los que juicios relativos a la
intensidad de un rasgo, actitud o emoción particular es indicada por quien responde la
prueba. Las escalas de estimación pueden usarse para registrar juicios de uno mismo, de
otros, de experiencias o de objetos, y adoptar varias formas (figura 7.2).
Reactivo A de escala de evaluación

Creo que me gustaría el trabajo de guardia de un faro.
Verdadero Falso (encierre uno en un círculo)
Reactivo B de escala de evaluación

Por favor evalúe la capacidad del empleado para cooperar y llevarse bien con sus
compañeros de trabajo:
Excelente___/___/___/___/___/___/___/ Insatisfactoria
Reactivo C de escala de evaluación

¿Cómo se siente acerca de lo que vio en televisión?
Figura 7.2
Las muchas caras de las escalas de evaluación: Las escalas de evaluación pueden adoptar
muchas formas. Caras "sonrientes", como las que se ilustran aquí como Reactivo C, se han
usado en la investigación psicológica social con niños pequeños y adultos con habilidades
lingüísticas limitadas. Las caras se emplean en lugar de palabras como positivo, neutral y
negativo.
En la MDBS-R, las estimaciones que hace quien responde la prueba para cada uno de los
30 reactivos se suman para obtener una puntuación final. Las puntuaciones varían desde
una baja de 30 (si quien responde la prueba indica que los 30 comportamientos nunca se

justifican) hasta una alta de 300 (si quien responde la prueba indica que las 30 situaciones
siempre se justifican). Debido a que la puntuación de prueba final se obtiene sumando las
estimaciones de todos los reactivos, se denomina escala sumatoria.
Un tipo de escala de estimación sumatoria, la escala Likert (Likert, 1932), se usa en forma
extensa dentro de la psicología, por lo general en escalas de actitudes. Las escalas Likert
son relativamente fáciles de elaborar. Cada reactivo presenta a quien responde la prueba
cinco respuestas alternativas, por lo general en un tipo de continuo entre acuerdo y
desacuerdo o aprobación y desaprobación. Si Katzet al, hubieran usado una escala Likert,
un reactivo en su prueba podría haber lucido así:
"Si se tiene la oportunidad, hacer trampa en la declaración de impuestos"

(Marque una opción)
Nunca rara vez a veces por lo general Siempre

se justifica se justifica se justifica se justifica se justifica
Las escalas Likert por lo general son confiables, lo cual puede explicar su popularidad
extendida. Likert (1932) experimentó con diferentes ponderaciones de las cinco
categorías pero concluyó que asignar valores de 1 (para la aprobación de reactivos en un
extremo) a 5 (para la aprobación de reactivos en el otro extremo) por lo general
funcionaba mejor.
El uso de escalas de estimación.de cualquier tipo da como resultado datos en el nivel

ordinal. Con referencia al reactivo en la escala Likert, por ejemplo, si a la respuesta
"nunca se justifica" se le asigna el valor de 1, a "rara vez se justifica" el valor de 2 y así en
forma sucesiva, entre mayor es la puntuación, la respuesta será más indicativa de
tolerancia con respecto al engaño en la declaración de impuestos. Quienes responden
incluso podrían clasificarse con respecto a dicha tolerancia. Sin embargo, la diferencia en
tolerancia entre las opiniones de un par de personas que obtuvieron puntuaciones de 2 y
3 en esta escala no necesariamente es igual que la diferencia entre las opiniones de un
par de personas que obtuvieron puntuaciones de 3 y 4.
Las escalas de estimación difieren en el número de dimensiones subyacentes en las

estimaciones que se están haciendo. Algunas escalas de estimación son unidimensionales,
lo que significa que se supone que sólo una dimensión subyace en las estimaciones. Otras
escalas de estimación son multidimensionales, lo que significa que se considera que más
de una de ellas guía las respuestas de quienes responden la prueba. Considérese en este
contexto un reactivo de la MDBS-R respecto al uso de mariguana. Las respuestas a este
reactivo, en particular las respuestas en el rango bajo a medio, pueden interpretarse en
muchas formas diferentes. Tales respuestas pueden reflejar la opinión de que las
personas no deberían realizar actividades ilegales, o que no deben correr riesgos con su
salud, o que deberían evitar actividades que pudieran generar un contacto con una
pandilla indeseable. Las respuestas a este reactivo pueden reflejar otras actitudes y
creencias, como aquellas relacionadas con el uso benéfico de la mariguana como adjunto
en la quimioterapia para pacientes con cáncer. Cuando se está abarcando más de una

dimensión con un reactivo, se usan técnicas de elaboración de escalas multidimensionales
para identificar las dimensiones (véase Green et ai, 1989; Kruskal y Wish, 1978).
Otro método de elaboración de escalas que produce datos ordinales es el método de

comparaciones apareadas. A quienes responden la prueba se les presentan pares de
estímulos (dos fotografías, dos objetos, dos afirmaciones) y se les pide que los comparen.
Luego deben seleccionar uno de los estímulos por medio de alguna regla (están más de
acuerdo con una afirmación, encuentran un estímulo más atractivo que otro, etc.). Si
Katzet ai, hubieran usado el método de comparaciones apareadas, un reactivo de su
escala podría haberse visto como éste:
Seleccione el comportamiento que considere más justificado:
a) hacer trampa en la declaración de impuestos si se tiene la oportunidad

b) que alguien acepte un soborno durante el cumplimiento de sus deberes
Para cada par de opciones, quienes responden la prueba recibirían una puntuación mayor
si seleccionaran la opción que fue considerada más justificable por la mayoría de un
grupo de jueces. A los jueces se les habría pedido que estimaran los pares de opciones
antes de la distribución de la prueba, y se proporcionaría una lista de las opciones selec-
cionadas por los jueces junto con las instrucciones para la calificación como una clave de
respuesta. La puntuación de la prueba reflejaría el número de veces que las elecciones de
quienes responden la prueba están de acuerdo con las de los jueces. Si usamos la muestra
de estandarización de Katzet al. (1994) como jueces, la opción más justificable es hacer
trampa en la declaración de impuestos. Alguien que selecciona esta opción podría recibir
un punto hacia la calificación total del examen si se seleccionó la opción "a", pero ningún
punto si seleccionó la opción "b". Una ventaja del método de comparaciones apareadas
es que obliga a quienes responden la prueba a elegir entre reactivos.
Otra forma de derivar información ordinal por medio de un sistema de elaboración de

escalas implica tareas de clasificación. En estos enfoques generalmente se presentan
tarjetas impresas, dibujos, fotografías objetos u otros estímulos parecidos para que sean
evaluados por quienes responden la prueba. Un método de clasificación, la elaboración
de escalas comparativas, implica juicios de un estímulo en comparación con todos los
demás estímulos en la escala. Una versión del MDBS-R que empleara escalas
comparativas podría presentar cada uno de los 30 reactivos impresos en una tarjeta
separada. A quienes responden la prueba se les pediría que clasificaran las tarjetas desde
la más hasta la menos justificable. También podría lograrse una escala comparativa
proporcionando a quienes responden la prueba una lista de 30 reactivos en una hoja de
papel y pidiéndoles que jerarquicen lo justificable de los reactivos del 1 al 30.
Otro sistema de elaboración de escalas que se basa en la clasificación es la elaboración de

escalas categóricas. Los estímulos se colocan en una de dos o más categorías alternativas
que difieren en forma cuantitativa con respecto a algún continuo. En nuestro ejemplo de
la MDBS-R en curso, podrían dárseles a quienes responden la prueba 30 tarjetas en las
que estén impresos los 30 reactivos. Luego se les pediría que clasificaran las tarjetas en
tres montones: uno para aquellos comportamientos que no se justifican nunca, uno para
los que algunas veces se justifican y uno para los que siempre se justifican.

Una escala Guttman (1944,1947) es otro método de elaboración de escalas que produce
medidas en el nivel ordinal. Los reactivos en ella varían en forma secuencial de
expresiones más débiles a otras más fuertes de la actitud, creencia o sentimiento que se
está midiendo. Una característica de las escalas Guttman es que están diseñadas de modo
que quienes están de acuerdo con las afirmaciones más fuertes de la actitud también es-
tarán de acuerdo con afirmaciones más moderadas. Usando la escala MDBS-R como
ejemplo, considérense las siguientes afirmaciones que reflejan actitudes hacia el suicidio.
Está de acuerdo o en desacuerdo con cada una de las siguientes declaraciones:
a) Todas las personas deberían tener el derecho de decidir si desean terminar con sus
vidas.
b) Las personas con enfermedades terminales y que sufren dolor deberían tener la
opción de que un médico les ayude a terminar con sus vidas.
c) Las personas deberían tener la opción de rechazar el uso de equipo para mantener la
vida en forma artificial antes de enfermarse de gravedad.
d) Las personas tienen el derecho a una vida confortable.
Si ésta fuera una escala Guttman perfecta, todos aquellos que la responden que
estuvieran de acuerdo con el inciso "a" (la postura más extrema) también deberían estar
de acuerdo con "b", "c" y "d". Quienes responden que están en desacuerdo con "a" pero
están de acuerdo con "b" también deberían estar de acuerdo con "c" y "d", y así en forma
sucesiva.
Las escalas Guttman se elaboran por medio de la aplicación de diversos reactivos a un

grupo objetivo. Los datos resultantes se analizan luego por medio de análisis de
escalograma. El propósito es obtener una colección de reactivos en la cual la aprobación
de un reactivo implica de manera automática la aprobación de posturas menos extremas.
Todos los métodos anteriores producen datos ordinales. El método de intervalos

aparentemente iguales, descrito por primera vez por Thurstone (1929), es un método de
elaboración de escalas para obtener datos que se supone son de intervalo. Usando una
vez más el ejemplo de las actitudes sobre lo justificable del suicidio, permítasenos
delinear los pasos requeridos para crear una escala empleando el método de intervalos
aparentemente iguales de Thurstone.
1. Se recopila una cantidad razonablemente grande de afirmaciones que refleja

actitudes positivas y negativas hacia el suicidio, como "La vida es sagrada, asíque las
personas nunca deberían atentar contra sus propias vidas" y "Una persona con una
gran cantidad de dolor físico o emocional puede decidir en forma racional que el
suicidio es la mejor opción disponible para él o ella".
2. Los jueces (o expertos en algunos casos) dictaminan cada afirmación con relación a
qué tanto indican que el suicidio está justificado. Cada juez es instruido para que
evalúe cada afirmación en una escala como si la naturaleza de la escala fuera de
intervalo. Por ejemplo, la escala podría variar de 1 (la afirmación indica que el
suicidio nunca se justifica) a 9 (la afirmación indica que el suicidio siempre se
justifica). A los jueces se les indica que la escala de 1 a 9 se está usando como si
hubiera una distancia igual entre cada uno de los valores; es decir, como si fuera

una escala de intervalo. Se advierte a los jueces que enfoquen sus evaluaciones en
las afirmaciones y no en sus propias opiniones sobre la materia.
3. Se calcula una media y una desviación estándar de las evaluaciones de los jueces
para cada afirmación. Por ejemplo, si 15 jueces evalúan 100 afirmaciones en una
escala de 1 a 9, entonces para cada una de estas 100 afirmaciones, las 15
evaluaciones de los jueces se promediarían. Supóngase que cinco de los jueces
evaluaron un reactivo particular como 1. Otros cinco como 2, y los restantes cinco
jueces como 3. La evaluación promedio sería 2 (con una desviación estándar de
0.816).
4. Los reactivos se seleccionan para su inclusión en la escala final con base en varios
criterios, incluyendo el grado en que el reactivo contribuye a una medición general
de la variable en cuestión, y el grado de confianza que tiene el elaborador de la
prueba en que los reactivos se han clasificado en efecto en intervalos iguales.
También se consideran las medias y las desviaciones estándar de los reactivos. Los
reactivos deberán representar una amplia gama de actitudes reflejadas en una
variedad de medias. Una desviación estándar baja indica un buen reactivo; los
jueces estuvieron de acuerdo en el significado del reactivo con respecto a la forma
en que reflejaba actitudes hacia el suicidio.
5. La escala ahora está lista para su administración. La forma en que se use la escala
depende de los objetivos de la situación de prueba. Normalmente, se les pide a
quienes la responden que seleccionen aquellas afirmaciones que reflejen con
mayor precisión sus propias actitudes. Los valores de los reactivos que seleccionan
quienes responden la prueba (con base en las estimaciones de los jueces) se
promedian, produciendo una puntuación en la prueba.
El método de intervalos aparentemente iguales es un ejemplo de un método de

elaboración de escalas de la variedad de evaluación directa. En contraste con otros
métodos que implican evaluación indirecta, no hay necesidad de transformar las res-
puestas de quienes respondieron la prueba en alguna otra escala.
El método de elaboración de escalas particular empleado en la elaboración de una prueba

nueva dependerá de muchos factores, incluyendo las variables que se van a medir, el
grupo para el que se pretende la prueba (los niños pueden requerir un método de
elaboración de escalas menos complicado que los adultos, por ejemplo) y las preferencias
del elaborador de la prueba.
Redacción de reactivos
En el esquema completo de la elaboración de una prueba, las consideraciones
relacionadas con la redacción real de los reactivos de la prueba van de la mano con las
consideraciones de la elaboración de escalas. Tres cuestiones que el futuro elaborador de
pruebas o redactor de reactivos enfrenta de inmediato son:
• ¿Qué rango de contenido deberán cubrir los reactivos?

• ¿Cuál de los tipos diferentes de formatos de reactivos deberá emplearse?
• ¿Cuántos reactivos deberán redactarse?
Cuando se diseña una prueba estandarizada usando un formato de opción múltiple, por
lo general es aconsejable que el número de reactivos para el primer borrador de una
prueba estandarizada contenga aproximadamente el doble del número de reactivos que
contendrá la versión final de la prueba.2 Si, por ejemplo, una prueba llamada "Historia
Estadounidense: 1940 a 1990" fuera a tener 30 preguntas en su versión final, podría ser
útil tener 60 reactivos, reactivos que de manera general hagan un muestreo del dominio
de la prueba, en la reserva de reactivos. Una reserva de reactivos es el depósito o
provisión de la que se extraerán o descartarán los reactivos para la versión final de la
prueba. Un muestreo general proporciona una base para la validez de contenido de la
versión final de la prueba. Debido a que aproximadamente la mitad de estos reactivos
será eliminado en la versión final de la prueba, el elaborador de la prueba necesita
asegurarse de que la versión final de la prueba también contendrá reactivos que hagan un
muestreo adecuado del dominio. Por tanto, si se determinó que todas las preguntas
sobre la Guerra del Golfo Pérsico de los 60 reactivos originales estaban mal redactadas,
incumbirá a quien elabora la prueba redactar de nuevo los reactivos que hacen un
muestreo de este periodo o crear reactivos nuevos, y luego someter a ensayo también los
reactivos redactados otra vez. Si no se hiciera esto, se pondría en peligro la validez de
contenido de la prueba debido a que algunos aspectos del dominio de la prueba no
estarían representados en la versión final de la prueba. Por supuesto, el número de
formas planeadas de la prueba es otra consideración aquí; multiplique el número de
reactivos requeridos en la reserva para una forma de la prueba por el número de formas
planeadas.
¿Cómo se elaboran los reactivos para colocarlos en la reserva de reactivos? Quien elabora
la prueba puede redactar una gran cantidad de reactivos de su experiencia personal o
conocimiento académico sobre la materia. También puede buscar ayuda de otros,
incluyendo expertos. Para las pruebas psicológicas diseñadas para que sean usadas en
escenarios clínicos, pueden entrevistarse psicólogos clínicos, pacientes, familiares de los
pacientes, personal clínico y otros en busca de ideas que pudieran ayudar en la redacción
de reactivos. Para las pruebas psicológicas diseñadas para ser usadas por psicólogos
laborales, es probable que sean de gran valor las entrevistas con los integrantes de la
industria o empresa a la que se pretende llegar. Para las pruebas psicológicas diseñadas
para ser usadas por psicopedagogos escolares, las entrevistas con maestros, personal
administrativo, psicólogos educativos y otros pueden ser fundamentales. Las búsquedas
en la literatura de investigación pueden ser fuentes fructíferas de información, al igual
que las búsquedas en la literatura que no pertenece a la investigación.
Consideraciones relacionadas con variables como el propósito de la prueba y el número

de examinados a quienes se les va a aplicar la prueba a la vez entran en las decisiones
respecto al formato de ésta. Por tanto, por ejemplo, si el propósito de una prueba es
explorar la capacidad intelectual mínima de grandes cantidades de reclutas militares, un
formato de respuesta construida, como uno que incluya reactivos de ensayo, sería poco
práctico. Sería preferible un formato de prueba en el que los examinados deban
seleccionar una de muchas respuestas alternativas, un formato de selección de respuesta.
Los formatos de selección de respuesta facilitan la calificación automatizada y pueden
aplicarse con facilidad a gran cantidad de examinados. Tanto los formatos de selección de
respuesta como los de construcción respuesta se describen en la siguiente sección.
Preguntas cerradas Como se señaló, el formato de selección de respuesta presenta al exa-

minado una elección de respuestas y requiere la selección de una alternativa. Si la prueba

es de rendimiento, la tarea del examinado es seleccionar la respuesta correcta (es decir,
la codificada). Si la prueba está diseñada para medir la intensidad de un rasgo particular,
la tarea del examinando puede ser seleccionar la alternativa que responda mejor a la
pregunta con respecto a sí mismo. Por simplicidad, limitaremos nuestros ejemplos a las
pruebas de rendimiento. El lector puede desear sustituir de manera mental otros
términos apropiados para palabras como correctos debido a que dichas sustituciones
podrían aplicarse a pruebas de personalidad u otros tipos de pruebas que no sean
pruebas de rendimiento.
Tres tipos distintos de preguntas cerradas de reactivo de selección de respuesta son

reactivos de opción múltiple, reactiva de relación y reactiva cierto/falso. Como se ilustra
con el reactivo A en el ejemplo siguiente, un reactivo de opción múltiple tiene tres
elementos:
1) un tronco,
2) una alternativa u opción correcta y
3) varias alternativas u opciones incorrectas a las que se denomina en forma
variada "distractores" u "hojas":
Reactivo A
Tronco → Una prueba psicológica, una entrevista y un estudio de caso son:
Alternativa correcta → a) herramientas de evaluación psicológica

b) muestras conductuales estandarizadas
Distractores → c) instrumentos de evaluación confiables

d) medidas vinculadas con la teoría
Ahora considérese el reactivo B:

Reactivo B
Un buen reactivo de opción múltiple en una prueba de rendimiento:

a) tiene una alternativa correcta
b) tiene alternativas que son paralelas desde el punto de vista gramatical
c) tiene alternativas de longitud similar
d) tiene alternativas que concuerdan desde el punto de vista gramatical con el tronco
e) incluye tanto como sea posible del reactivo en el tronco para evitar repeticiones
innecesarias
f) evita distractores ridículos
g) no es largo en exceso
h) todos los anteriores
i) ninguno de los anteriores
Si respondió "h" al reactivo B, está en lo correcto. En el proceso de leer la lista de

alternativas, ¡puede habérsele ocurrido que el reactivo B violaba muchas de las reglas
enunciadas!
Un reactivo de relación es una variante de un reactivo de opción múltiple. Al examinado

se le presentan dos columnas de respuestas y la tarea es determinar cuál respuesta de

una columna corresponde a cuál respuesta de la otra. A continuación se presenta un
ejemplo:
Relacione los nombres de los actores (a aifc) con sus personajes (1 a 12) escribiendo el
número apropiado junto a la letra.
___ a) Sylvester Stallone

___ b) Jim Carrey
1. Ace Ventura 7. Luke
___ c) Johnny Depp
2. Ellen Ripley 8. Zorro
___ d) Mike Myers
3. Arthur 9. Profesor Brainard
___ e) Dustín Hoffman
4. Rocky 10. Tootsie
___ f) Antonio Banderas
5. Austin Powers 11. Yentl
___ g) Barbara Streisand
6. Donnie Brasco 12. El chaca
___ h) Robín Williams
___ i) Sigourney Weaver
___ j) Paul Newman
___ k) Dudley Moore
Quizás haya notado que hay diferente cantidad de reactivos en las dos columnas. Si el
número de reactivos en las dos columnas fuera el mismo, entonces una persona insegura
del personaje de uno de los actores podría deducirlo relacionando primero todas las otras
opciones. Entonces resultaría una puntuación perfecta aun cuando quien responde la
prueba no conozca en realidad todo el material. Proporcionando más opciones de las
necesarias está contemplado para minimizar dicha posibilidad.
Un reactivo cierto/falso es otro de la variedad de respuesta seleccionada, éste en forma

de una oración que requiere que el examinando indique si la afirmación es un hecho o no.
Un buen reactivo cierto/falso contiene una sola idea, no es largo en exceso y no está
sujeto a debate; es decir, en efecto es cierto o falso.
Como los reactivos de opción múltiple, los reactivos cierto/falso tienen la ventaja de ser
aplicables con facilidad a una amplia gama de áreas temáticas. Además, como los
reactivos de opción múltiple, pueden lograrse niveles aceptables de confiabilidad de los
reactivos con reactivos cierto/falso. Los reactivos cierto/falso no necesitan contener una
lista de alternativas distractoras. Por consiguiente, tienden a ser más fáciles de redactar
que los reactivos de opción múltiple. Una desventaja de los reactivos cierto/falso es que
la probabilidad de obtener una respuesta correcta sólo con base en el azar (adivinando)
en cualquier reactivo es .5 o 50%.4 Por el contrario, la probabilidad de obtener una
respuesta correcta adivinando en una pregunta de opción múltiple con cuatro
alternativas es 25 o 25%.
Preguntas abiertas Una alternativa al formato de respuesta seleccionada es un formato

de preguntas abiertas, en el que se requiere que el examinando suministre o cree la
respuesta correcta, en oposición a sólo seleccionarla. Tres tipos de reactivos de res-
puestas abiertas son el reactivo de completar, la respuesta breve y el ensayo. Un reactivo
de completar requiere que el examinando proporcione una palabra o frase que complete
una oración, como en el siguiente ejemplo.

La desviación estándar por lo general se considera la medida más útil de______________.
Un buen reactivo de completar deberá redactarse de modo que la respuesta correcta sea
específica. Los reactivos de completar que pueden responderse en forma correcta de
muchas maneras pueden conducir a problemas de calificación. La respuesta de completar
correcta para el reactivo anterior es variabilidad. Una forma alternativa de redactar este
reactivo sería un reactivo de respuesta breve:
¿Qué estadística descriptiva es considerada por lo general como la medida más útil de
variabilidad?______________
Un buen reactivo de respuesta breve es redactado con la suficiente claridad para que
quien responde la prueba pueda hacerlo en forma sucinta, con una respuesta corta. No
hay reglas inflexibles que especifiquen qué tan corta debe ser una respuesta para ser
considerada una respuesta breve; una palabra, un término, una oración o un párrafo
pueden ser suficientes. Más allá de un párrafo o dos, el reactivo podría considerarse en
forma más apropiada como un "reactivo de ensayo". Aquí hay un ejemplo de un reactivo
de ensayo:
Compare y contraste las definiciones y técnicas del condicionamiento clásico y operante.

Incluya ejemplos de la forma en que se han aplicado los principios de cada uno en
escenarios clínicos y educativos.
Un ensayo es un tipo de reactivo útil cuando el elaborador de la prueba desea que el

examinando demuestre una profundidad de conocimiento de un solo tema. En contraste
con los reactivos de respuesta seleccionada y los reactivos de respuesta construida como
el de respuesta breve y el de completar los reactivos, la pregunta de ensayo no sólo
permite el replanteamiento del material aprendido sino también la integración creativa y
la expresión del material en palabras propias del examinando. También puede apreciarse
que las habilidades requeridas por los reactivos tipo ensayo son diferentes de las
requeridas por reactivos del género de cierto/falso y de relación. Mientras que un ensayo
requiere recuerdo, organización, planeación y capacidad de redacción, los otros tipos de
reactivos sólo requieren reconocimiento. Los defectos de los reactivos de ensayo
comparados con los reactivos de respuesta breve pueden incluir un área de cobertura
más limitada con relación a la cantidad de tiempo de prueba y un grado de subjetividad
en la calificación.
2. METODOS PARA LA EVALUACIÓN DE LAS ACTITUDES
Las actitudes se ponen en contacto con las pautas psicométricas para su medición, por
que éstas no son objetos de observación directa; razón por la que se obliga a acceder a
ellas por vía indirecta, a través de la expresión verbal, corporal o motriz que la acompaña.
En cuanto a los métodos, las técnicas y procedimientos más utilizados para medir las
actitudes son: técnicas de respuestas verbales, escalas de actitud. Sin embargo, el campo
más habitual viene siendo el de las escalas de medida, en cuya construcción se utilizan las
posibilidades estadísticas de los intervalos previamente establecidos por jueces

(Thurstone), del grado de acuerdo (Likert); el escalograma (Gutman) o del diferencial
semántico (Osgood).
A. Método de Likert
Es un método presentado por Rensus Likert a principios de los 30; pese a ello es un
enfoque bastante popularizado; que consiste en un conjunto de ítems presentado en
forma de afirmaciones o juicios, ante los cuales se pide la reacción de los sujetos. Es decir
se presenta cada afirmación, y se pide al sujeto que externe su reacción eligiendo uno de
los cinco puntos de la escala. A cada punto se le asigna un valor numérico; así el sujeto
obtiene una puntuación respecto a la afirmación y al final se obtiene la puntuación total
sumando las puntuaciones obtenidas en relación a todas las afirmaciones.
Las afirmaciones califican al objeto de actitud que se está midiendo y deben expresar solo
una relación lógica, además es muy recomendable que no excedan de 20 palabras.
Ejemplo:
Objeto de actitud medido …………………………….. Afirmación
EL VOTO “Votar es una obligación de todo ciudadano responsable”
En este caso la afirmación incluye 8 palabras y expresa una sola relación lógica
(x-y). Las alternativas de respuesta o puntos de la escala son cinco e indican cuánto se
está de acuerdo con la afirmación correspondiente.
Ejemplo:
( ) Muy de acuerdo.
( ) De acuerdo.
( ) Ni de acuerdo, ni en desacuerdo.
( ) En desacuerdo.
( ) Muy en desacuerdo.
O bien utilizamos recuadros en lugar de paréntesis:
Definitivamente sí
Probablemente sí
Indeciso
Probablemente no
Definitivamente No
“Es indispensable señalar que el número de categorías de respuesta debe ser el mismo
para todas las afirmaciones”.

Cuadro de Alternativas:
Alternativa 1:
Afirmación
Muy en
Desacuerdo
Alternativas 2: do
Totalmente de De acuerdo
acuerdo
Alternativa 3:
Alternativa 4:
B. A través del modelo del Diferencial Semántico de Osgood?
El diferencial semántico fue desarrollado originalmente por Osgood, Suci y colaboradores

(1957) para explorar las dimensiones del significado. Pero hoy en día consiste en una serie
de adjetivos bipolares. Entre cada par de adjetivos se presentan varias opciones y el
sujeto selecciona aquella que refleje su actitud en mayor medida.
Ejemplo:
Alumno “A” Justo: ____;____;____;____:____;_____;_____;injusto
“Debe observarse que los adjetivos son “extremos” y que entre ellos hay siete opciones
de respuestas. Cada sujeto califica al candidato A, en términos de esta escala de adjetivos
bipolares. Osgood y colaboradores nos indican que si el respondiente considera que el
objeto de actitud se relaciona muy estrechamente con uno u otro extremo de la escala, la
respuesta se marca así.
Justo: X;,____:____;___;____;____;____ injusto

Justo: _____;,____;____;____;____;_____; X injusto
Si el respondiente considera que el objeto de actitud se relaciona estrechamente con uno

u otro de la escala, la respuesta se marca así dependiendo del extremo en cuestión.
Justo: ___;,__X__:____;___;____;_____;____ injusto
Justo: _____,____;____;____;____;___X_;___ injusto
Si el respondiente considera que el objeto de actitud se relaciona medianamente con

alguno de los extremos, la respuesta se marca así (dependiendo del extremo en cuestión)
Justo: ___;,____:_X___;___;____;_____;____ injusto
Justo: _____,____;____;____;__X ;_____ ;____ injusto
Y si el respondiente considera que el objeto de actitud, ocupa una posición neutral en la

escala la representación es así:
Justo: ___;,____:____;_X__;____;_____;____ injusto
Es decir en el ejemplo, cuanto más justo considere al candidato A, más me acerco al

extremo justo y viceversa. Entre más injusto lo considero más me acerco al extremo
opuesto.
Algunos ejemplos de Codificación de la escala según Osgood:
o Responsable - Irresponsable
o Puntual – Impuntual
o Participa en clases – No participa en clases
o Asiste a clases – No asiste a clases
o Colaborador – No colaborador
o Creativo – Nada creativo
o Analítico – No analítico
o Sintetiza información – No sintetiza información
o Buena presentación de trabajos – mala presentación de trabajos
o Ordenado – Desordenado
o Buena presentación personal – mala presentación personal
o Hábil para resolver problemas – No hábil para resolver problemas
o Habilidad para manejo de instrumentales – Inhabilidad para manejo de instr.
o Buena presentación oral – mala presentación oral
o Asertivo – No asertivo (pasivo o sumiso)
o Usa pensamiento crítico – no usa pensamiento crítico

ACTIVIDADES DE LA SEGUNDA UNIDAD
PRÁCTICA DE COEFICIENTE BISERIAL PUNTUAL
1. Supongamos que el total de las calificaciones de un grupo de 30 personas tiene una

media de 75 y una desviación estándar de 10. también supongamos que la media de
las calificaciones de los 17 sujetos que contestaron cierto reactivo de manera
correcta es de 80. al sustituir tenemos:…………………………………
2. Del total de las clasificaciones de un grupo de 50 personas tiene una media de 84 y
una desviación estándar de 11. también supongamos que la media de las
calificaciones de los 21 sujetos que contestaron cierto reactivo de manera correcta es
de 87. al sustituir tenemos:………………………………………………
3. Pensemos que el total de las calificaciones de un grupo de 35 personas tiene una
media de 70 y una desviación estándar de 9. también supongamos que la media de las
calificaciones de los 15 sujetos que contestaron cierto reactivo de manera correcta es
de 78. al sustituir tenemos:………………………………………………..
PRÁCTICA DE LOS ÍNDICES DE DIFICULTAD Y DISCRIMINACIÓN DE LOS REACTIVOS
1. Supongamos que 50 personas se presentan en la prueba y 14 personas pertenecen al

grupo superior, de las cuales sólo 12 pasan el reactivo A y 14 personas pertenecen al
grupo inferior sólo 7 pasan el reactivo A. entonces cual es el índice de dificultad y
discriminación.
2. Calculemos que 60 personas se presentan en la prueba y 20 personas pertenecen al
grupo superior, de las cuales sólo 18 pasan el reactivo B y 20 personas pertenecen al
grupo inferior sólo 11 pasan el reactivo B. entonces cual es el índice de dificultad y
discriminación.
3. Calculemos que 45 personas se presentan en la prueba y 18 personas pertenecen al
grupo superior, de las cuales sólo 14 pasan el reactivo C y 18 personas pertenecen al
grupo inferior sólo 10 pasan el reactivo C. entonces cual es el índice de dificultad y
discriminación.

TERCERA UNIDAD
JUSTIFICACIÓN ESTADÍSTICA DE LAS

PRUEBAS PSICOLÓGICAS
1. CAPACIDADES
▪ Analiza y determina la consistencia de las calificaciones de la prueba

▪ Establece la validez de la prueba construida
▪ Establece la Confiabilidad de la prueba en construcción
2. CONTENIDOS
▪ Analiza y determina la consistencia de las calificaciones de la prueba

▪ Aspectos básicos en el análisis de la prueba
▪ Validez de la prueba
▪ Confiabilidad de la prueba

3.1. VALIDEZ
3.1.1. DEFINICIÓN:
Viene a ser la demostración de que un test mide lo que dice medir, para tal fin se puede
utilizar los siguientes métodos: de análisis de contenido, concurrente, predictiva y de
constructo.
3.1.2. TIPOS DE VALIDEZ:
A. Validez de Contenido: Consiste en demostrar que los elementos que constituyen el

test pertenecen al mismo universo de contenido, para demostrarlo se puede seguir el
criterio del rigor lógico de pertenencia y también el criterio de expertos llamados
jueces. Este método parte del supuesto que si llegamos a demostrar que los
componentes del test pertenecen a un mismo parámetro de referencia, sin lugar a
duda estamos cumpliendo con medir lo propuesto. Los contenidos y los ítems
seleccionados no deberán discrepar significativamente entre la opinión de los jueces.
Este método es muy utilizado en las pruebas de conocimientos académicos y también
en las pruebas de ejecución típica o de sentimiento.
B. Validez Concurrente: Consiste en determinar otra variable diferente a la medida con

el test, con la que se supone guardan correlación significativa, para establecer este
tipo de validez deberán efectuarse dos mediciones una de ellas corresponde a la del
test elaborado y la otra a la variable con la que se supone guardan correlación.
C. Validez Predictiva: Consiste en determinar si el test elaborado es capaz de pronosticar

una consecuencia o resultado asociado con la variable que hemos medido. Este tipo
de validez es de mucha utilidad en la prevención primaria, ya que permitirá prever los
sujetos que presentarán dificultad, como también la detección de aquellos que
alcanzarán las metas de un programa precozmente, permitiendo en ambos casos
adoptar las medidas necesarias.
D. Validez de Constructo: Este método consiste en demostrar que el test elaborado

confirma los supuestos teóricos. Para lo cual desarrolla modelos experimentales, que
le permita obtener la validez interna y externa de los supuestos teóricos, en la validez
interna deberá demostrarse la coherencia entre los postulados, corolarios y teoremas,
de tal forma que se pueda desprender con facilidad y sin perder el rigor lógico
posibles aplicaciones que soporten la comprobación experimental. En la validez
externa deberá comprobarse que los supuestos teóricos guardan relación explicativa
con las variables asumidas en un modelo empírico.
También se utiliza en la validez de constructo, el análisis factorial que permite

demostrar si los factores asumidos como parte de un fenómeno interactúan o si por lo
contrario no son parte constitutiva del fenómeno que se está estudiando.

PASOS PARA OBTENER LA VALIDEZ ÍTEM-TEST MEDIANTE LA COMPUTADORA
(Microsoft Excel)
1. Ingresar los datos obtenidos en la aplicación de la prueba, mediante un cuadro de

doble entrada (columnas- ítems, filas- sujetos). Asimismo encontrar la sumatoria de cada
sujeto a todos los reactivos y colocar el cursor en una celda libre, donde pueda contener
los resultados de la correlación.
2. En la barra de herramientas o menú, hacer clip en la opción función (fx).Aparece el cuadro

Insertar funciones, con dos ventanas. En categoría funciones (lado izquierdo) seleccionar la
opción estadística (lado derecho).

3. En la parte derecha del cuadro con el título Nombre de la Función, seleccionamos
opción PEARSON y hacer clip en Aceptar.

4. Aquí aparecerán dos ventanas, donde pide ingresar los datos de dos matrices.
5. En la matriz 1 (haciendo clip en la ventanita con la flecha de color rojo) se seleccionan

los datos del reactivo seleccionado, una vez culminado, nuevamente se hace clip en la
ventana con la flecha de color rojo, hasta volver al mensaje del paso 4.

6. En la matriz 2 (haciendo clip en la ventanita con la flecha de color rojo) se seleccionan
los totales de la prueba alcanzados por cada sujeto, una vez culminado, nuevamente se
hace clip en la ventana con la flecha de color rojo, hasta volver al mensaje del paso 4.

7. En la ventana aparecerán los datos seleccionados y en resultado de la prueba se podrá
apreciar la correlación alcanzada, bastando sólo hacer clip en aceptar o pulsar enter
automáticamente dicho resultado aparecerá en la celda deseada para figurar.
8. Para obtener la validez del resto de reactivos se utiliza el mismo proceso cambiando
únicamente la matriz 1, porque la matriz 2 será una constante (∑).

PASOS PARA OBTENER LA VALIDEZ ÍTEM-TEST DE TODOS LOS REACTIVOS EN UN SOLO PROCESO
(Microsoft Excel)
1. Al suponer que tenemos 10 reactivos y las respuestas de ellos de 10 sujetos. Como se

sabe se obtendra la correlación de las columnas correspondientes a cada tecativo con la
sumatoria de los puntajes obtenidos de cada sujeto (∑).
2. Hacemos click en el simbolo de Windows wn la parte superior izquierda, y luego hacemos click
en Opciones de Excel.

3. Hacemos click en Complementos y de ella seleccionamos la opción Análisis de datos.
Luego hacemos click en la opción Aceptar de la parte posterior.
4. Hacemos click en la sección Datos de la barra de menús, y luego de ello hacemos click
en el submenú análisis de Datos situado al extremo izquierdo.

5. Aparecera una nueva ventana donde se aprecian diversas opsciones de analisi, de ella
escogeremos Coeficiente de correlación y hacemos click en aceptar.
6. Aparecerá una nueva ventana. En la parte que nos solicita rango de entrada
seleccionaremos las celdas pertenecientes a las respuestas de los ítems y las sumatorias,
más no los rótulos de los reactivos y sujetos. Obviamente la agrupación se hara por
columnas y las correlaciones aparecerán en una hoja nueva por defecto. Hacemos click en
Aceptar.

7. Finalmente en una nueva hoja de Excel aparecera los coeficientes de correlacion
columna por columna, de las cuales nos interesa unicamente la ultima fila, como se
encuentra señalada en la imagen, a excepcion de la ultima celda. Es asi como se obtiene
la correlación de los 10 reactivos de la prueba a traves de un proceso mas simple y
sencillo.
3.2. CONFIABILIDAD
La Confiabilidad de un instrumento de medición se refiere al grado en que su aplicación

repetida al mismo sujeto u objeto produce iguales resultados. Por ejemplo si evaluamos a
una madre de familia, a través de la escala de actitudes de la relación madre niño de
Roth, indicaría que presenta una actitud de sobreprotección, una hora más tarde se
vuelve a evaluar y nos indica que presenta una actitud de rechazo, al día siguiente se
evalúa y se obtiene que es una madre sobre indulgente; por lo tanto esta prueba no sería
confiable (su aplicación repetida produce resultados distintos)
Igualmente si una prueba de inteligencia se aplica a un grupo de niños y proporciona

ciertos valores de inteligencia; se aplica un mes después y proporciona valores similares,
diríamos que la prueba es confiable.
La Confiabilidad de un instrumento de medición se determina mediante diversos

procedimientos, las mismas que se puede apreciar en el siguiente cuadro:

3.2.1. TIPOS DE CONFIABILIDAD
DENOMINACIÓN PROCEDIMIENTO
VARIANZA DE ERROR
Retest con la misma forma
ESTABLIDAD Fluctuación temporal
en distinta ocasión.
Retest con forma paralela en
EQUIVALENCIA Especificidad del elemento
la misma ocasión
ESTABILIDAD Y Retest con forma paralela en Fluctuación temporal y
EQUIVALENCIA distinta ocasión especificidad del elemento
CONSISTENCIA INTERNA
División por mitades Especificidad del elemento
HOMOGENEIDAD
CONSISTENCIA INTERNA KUDER-RICHARDSON Especificidad del elemento,
HOMOGENEIDAD Kr 20 y Kr 21 heterogeneidad
CONSISTENCIA INTERNA Especificidad del elemento,
Alfa de Crombach
HOMOGENEIDAD heterogeneidad
En su aplicación tenemos los siguientes procedimientos: Split-Half o de las mitades; los

coeficientes de Kuder-Richarson (KR-20, KR-21), el coeficiente alfa de Cronbach. El
método de las mitades es similar al de las pruebas equivalentes, con la diferencia que
aquí se trabaja con una sola prueba, la que, comúnmente, es dividida en base a los ítems
nones e impares y la segunda calificación correspondiente a los ítems pares, luego ambas
puntuaciones se correlacionan y es necesario corregir con la ecuación profética de
Spearman-Brown
PASOS PARA OBTENER LA CONFIABILIDAD DE UNA PRUEBA MEDIANTE LA

COMPUTADORA (Microsoft Exc el)
1. Ingresar los datos obtenidos en la aplicación de la prueba, mediante un cuadro de

doble entrada (columnas-ítems, filas-sujetos). Asimismo se obtienen las sumatorias de
cada uno de los ítems y luego estas se clasifican dependiendo si pertenecen a los ítems
impares o ítems pares. Luego de ello colocar el cursor en la celda libre, donde pueda
contener el resultado de la correlación.(en este caso: r = celda O9)

2. En la barra de herramientas en la opción función (fx). Aparece cuadro Insertar
funciones, con dos ventanas. En categoría funciones (lado izquierdo) seleccionar la opción
estadística (lado derecho)

3. En la parte derecha del cuadro, con el título nombre de la función, seleccionamos
opción Pearson, y hacer clic en aceptar.
4. Aquí aparecerán dos ventanas, donde pide ingresar los datos de dos matrices. En la
matriz 1, (haciendo clic, en la ventanita con la flecha de color rojo), se seleccionan los
datos de la columna IMPAR, una vez culminado, nuevamente se hace clic en la ventana
con la flecha de color rojo.
5. En la Matriz 2, (haciendo clic en la ventanita con la flecha de color rojo), se seleccionan
los datos de la columna PAR, una vez culminado, nuevamente se hace clic en la ventana
con la flecha de color rojo.

6. En la ventana aparecerán los datos seleccionados y el resultado de la correlación
alcanzada, bastando sólo hacer clic en aceptar o pulsar enter, automáticamente dicho
resultado aparecerá en la celda deseada para figurar. (En este caso O9)

7. Una vez encontrado la correlación (r) se puede obtener también la fórmula de
Spearman-Brown utilizando el resultado de r. Siendo la formula: (2*r)/(1+r). en este caso
buscamos que el resultado aparezca en la celda P12 y tomando en cuenta que la
correlación aparece en la celda O9, digitamos: =(2*O9)/(1+O9).

ANEXO 2 :
LECTURA COMPLEMENTARIA
CUALIDADES DE LOS TESTS PSICOLÓGICOS:

VALIDEZ Y CONFIABILIDAD
(Extraído de los textos de Mathe son, Bruc e y Beauchamp : “P sico logía
experimental, Diseños y análisis de inve st igación; y de JumNunnally, Teoría
psicométrica, por Edmundo Aré valo L.)
1. VALIDEZ
La validez de un método es la exactitud con que pueden hacerse medidas significativas y

adecuadas con él; en el sentido que midan realmente los rasgos que se pretenden medir,
por ejemplo si algún rasgo es significativo para el éxito en estudios superiores o para el
desarrollo de alguna enfermedad mental, construimos un test para medir este rasgo y lo
podemos usar en las tareas de orientación y selección o de diagnóstico.
Cuando estimamos la validez de un test, necesitamos saber que rasgo deseamos que
mida. Este rasgo se llama variable de CRITERIO. Nos interesa saber que tan bien
corresponde las posiciones de los individuos en la distribución de los puntajes obtenidos a
sus posiciones en el continuo que representan la variable de criterio.
La validez es tradicionalmente estimada por un coeficiente de correlación, llamado

coeficiente de validez, el cual indica la relación que hay entre los datos obtenidos con el
test y los datos que usamos con un grado conocido de certeza, como índices para los
puntajes de los individuos en la variable de criterio. Así, si construimos un test para
predecir el éxito como vendedor necesitamos un índice del éxito en este campo como
criterio con el cual pueda compararse una predicción.
Podemos examinar con el test a varios solicitantes y luego tomar el monto de las ventas
de cada individuo, después de un cierto periodo de trabajo, como el criterio de éxito de
un vendedor. El coeficiente de correlación para la relación entre los resultados del test y
las cifras de ventas es el coeficiente de validez del test con respecto a su capacidad de
predecir el éxito como vendedor de un determinado tipo.
En todo procedimiento de validación la cuestión esencial es: ¿Para qué y para quién es
válido el test?; se necesita por consiguiente criterios diferentes para diferentes propósitos
de test. Como criterio de exactitud se necesita tener una expresión lo más exacta posible
de las posiciones de los individuos en la distribución del criterio verdadero.
TIPOS DE VALIDEZ
a) Validez Predictiva
Cuando computamos la validez Predictiva deseamos usar el test para predecir las
posiciones de los individuos sobre una distribución de la que sólo podemos disponer más

tarde. El test predice cierto resultado depuse de un tiempo dado. Los datos de criterio
consisten en alguna medida del resultado; por ejemplo, las calificaciones después de un
cierto periodo de empleo. Computado como un coeficiente de validez; la validez
productiva necesita estimarse por el test usado en la orientación vocacional y en la
selección y clasificación de los individuos para propósitos de adiestramiento y trabajo.
b) Validez Concurrente
Se dispone de la medida de la variable de criterio en el momento en que se obtienen los
resultados del test. El diagnóstico clínico de lesión cerebral, sobre el cual estuvieron de
acuerdo varios neurólogos, puede usarse, por ejemplo, como criterio para la validez de un
test de lesión cerebral. La razón para construir un test que mida una variable de la cual ya
se tienen datos es que en la mayoría de los casos, el test ahorra tiempo y esfuerzo y da el
mismo resultado que la medida de criterio. Se expresa también por un coeficiente de
validez.
Esta validez se usa en situaciones de diagnóstico, cuando evaluamos los coeficientes de

validez concurrente debemos recordar que los criterios usados, por ejemplo en
situaciones clínicas, varían grandemente en calidad.
Cuando computamos los coeficientes de validez, es necesario que los datos del test y los
del criterio se determinen en forma independiente. Por ejemplo: El psicólogo tiene una
hipótesis acerca de cómo dos grupos de individuos que difieren en ciertos aspectos,
también difieren con respecto a alguna otra variable la cual es el objeto de su interés.
Conociendo la pertenencia de grupo, él evalúa a los dos miembros de los dos grupos
sobre la segunda variable y computa la correlación entre las evaluaciones y la pertenencia
del grupo, la cual se constituye el criterio. El psicólogo ha sido presa de lo que se conoce
como contaminación de criterio. El conocía los datos del criterio, es decir, la pertenencia
de grupo, cuando hizo las estimaciones cuya validez fue robada usando la pertenencia de
grupo como criterio. Tal procedimiento no está permitido. No importa que el evaluador
intente ignorar su conocimiento previo no puede evitar el ser influido en algún sentido
por sus expectativas.
c) Validez de Contenido
Este tipo de validez es aplicable cuando estimamos el grado en que un test escolar, por
ejemplo, abarcan algún campo de estudio. Los ítems del test pueden considerarse como
una muestra de una población que representa el contenido y las metas del curso. La
validez de contenido se determina entonces por el grado en que la muestra de ítems del
test es representativa de la población total. Antes de que pueda estimarse la validez de
contenido, es necesario distinguir explícitamente las metas del curso, el material que de
los alumnos deberán aprender, la importancia relativa de las diferentes partes del curso,
etc. A diferencia de la validez Predictiva o concurrente, la validez de contenido no puede
expresarse por un coeficiente de validez.
d) Validez de Construcción
El concepto de validez de construcción a los tests que miden rasgos para los cuales no hay
un criterio externo.

El ejemplo siguiente puede ilustrar tal situación. En la psicología de la personalidad a
menudo distinguimos entre agresividad manifiesta y la agresividad latente. Después de
un periodo de observación de un individuo en diferentes situaciones, podemos obtener
estimaciones de agresividad manifiesta. Es difícil obtener tales estimaciones de la
agresividad latente de un individuo, especialmente porque no puede esperar que el
acuerdo entre las posiciones del individuo para las dos variables sea perfecto.
La validez de construcción puede probarse de varias maneras. Aquí sólo daremos los
métodos más comunes:
1. El estudio de las diferencias entre grupos que deberían diferir de acuerdo con la
teoría de la variable.
2. El estudio de cómo los resultados del test son influidos por los cambios en los
individuos o en el medio que de acuerdo a la teoría deberían respectivamente
influir o dejar de influir en las posiciones de los individuos sobre le continuo.
3. La correlación entre los tests diferentes que se supone que miden la misma
variable. Aquí debe procurarse que las correlaciones entre las medidas no surjan
como resultado de semejanzas en el método. Este podría suceder si por ejemplo
las respuestas a los test requieren de alguna aptitud especial diferente de la que
está bajo consideración. Un posible acuerdo entre las medidas podría entonces
ser puramente efecto de las diferencias individuales entre ítems aislados o
diferencias individuales con respecto a esta aptitud especial.
4. La correlación entre ítems aislados o diferentes partes del test que mide una
variable unitaria.
Quizá deberá mencionarse que la introducción del término “validez de construcción” ha

sido ampliamente aceptada aunque también ha provocado discusiones y se han dado
diferentes opiniones acerca de las ventajas de introducir el nuevo término.
2. CONFIABILIDAD
Confiabilidad, significa consistencia u obtención, una y otra vez, de los mismos resultados.
Una técnica de muestreo es confiable cuando varias muestras de una misma población
arrojan datos similares. En la mayor parte de los casos la Confiabilidad de la técnica de
muestreo está en relación directa con el tamaño de la muestra.
Confiabilidad de la Medición
Sin duda alguna, es mejor hacer todo lo posible para prevenir el error de la medición que
tener que evaluar o calcular sus efectos, una vez que éste se ha presentado. Para reducir
el error de medición deben escribirse claramente los reactivos, plantear las instrucciones
de la prueba de tal manera que se comprendan fácilmente y apegarse fielmente a las
condiciones prescritas de administración del instrumento.
Es posible reducir el error de medición que produce la subjetividad de la calificación,

explicitando al máximo las reglas de calificación y enseñando a los evaluadores a
desempeñar su trabajo. En las mejores pruebas de inteligencia individuales, aun cuando
el evaluador es una fuente potencial de error de medición en algunos casos reactivos las
reglas de evaluación son tan explícitas y los evaluadores están tan bien entrenados que el
error de medición es mínimo. Por supuesto el ideal es eliminar por completo la
subjetividad de la calificación; sin embargo, en la práctica esto es difícil de lograr; por

ejemplo, en los estudios de aprendizaje por discriminación, los experimentadores se han
interesado en las respuestas observables de una rata, esto es, la tendencia de la rata a
que en un punto del laberinto tipo “T” mire hacia atrás y hacia delante cierto número de
veces antes de elegir su dirección. Es verdad que el número de respuestas observables de
las diferentes ratas es preferible que quede cierto grado de subjetividad en la calificación
a gastar en tan complicados instrumentos o arriesgar a que se les use torpemente. Sin
embargo, el ideal de la actividad científica es conseguir mediciones que estén exentas de
errores cometidos por el juicio humano.
MEDIDAS DE CONFIABILIDAD Y VALIDEZ
En los estudios que ocurren a jueces o evaluadores para calificar la ejecución de los
sujetos, se desea tener un sistema confiable de evaluación o calificación, de tal manera
que, cualquiera pueda utilizar este sistema de evaluación, y obtener resultados
generalmente consistentes. Una manera de Confiabilidad de un sistema de evaluación es
hacer que utilicen este sistema dos o más evaluadores.
Si la correlación entre las dos series es relativamente alta, se considera que el sistema es
confiable. En su estudio sobre creatividad verbal, MaierJulius y Thurber (1967) obtuvieron
un coeficiente de Confiabilidad inter evaluadores de 80, el cual consideraron bastante
alto.
En su estudio sobre introspección y desensibilización de grupo en el tratamiento de la

ansiedad ante la perspectiva de hablar en público (Meichenbaum, Gilmore y Fedoravicios,
1971), una de las variables dependientes fue una lista de verificación Conductual relativa
a la ejecución de los sujetos en una situación de alocución pública. Dos parejas de
observadores con entrenamiento específico evaluaron la presencia o ausencia de 20
manifestaciones de ansiedad durante los primeros 4 segundos de cada discurso
pronunciado por los sujetos. El rango de las correlaciones entre las evaluaciones hechas
por esas parejas de observadores fue de más de +0.70 a +0.90. La correlación mediana
fue de 85. Los autores consideraron esta cifra como indicadora de alta Confiabilidad y
objetividad de las medidas.
Cuando los psicólogos utilizan pruebas como las de inteligencia, desean que éstas sean
confiables. Si una prueba es confiable, un sujeto recibirá aproximadamente la misma
puntuación cada vez que resuelva dicha prueba o una forma equivalente de ésta. Cuando
un experto en Psicología Aplicada utiliza un instrumento como una prueba de
rendimiento para hacer predicciones acerca de la futura conducta de un individuo, le
interesa poder confiar en la validez de dicha prueba.
Dicho en otras palabras, la puntuación alcanzada en esa prueba puede correlacionarse

con medidas posteriores de conducta. La Confiabilidad y la validez de unas pruebas se
describen en términos de coeficientes de correlación. Un alto coeficiente indica, ya sea
alta Confiabilidad o validez, dependiendo de las variables medidas. La escala Stanford –
Binet de inteligencia es una medida muy popular de desarrollo intelectual general. La
Confiabilidad de formas alternativas de la versión 1937 de la escala Stanford – Binet se
determinó aplicando las dos formas de la prueba a los mismos individuos en intervalos de

una semana o más cortos. Se calcularon coeficientes de correlación para cada serie de
puntuaciones apareadas.
Efectos de la Dispersión sobre la Confiabilidad

Debe quedar claro el hecho de que el coeficiente de Confiabilidad es un coeficiente de
correlación, por lo que su tamaño está directamente relacionado con la desviación
estándar de los puntajes obtenidos por cualquier sujeto de la muestra.
Es de esperar que la varianza de los errores de medición sea, por lo menos, relativamente
independiente de la Desviación Estándar de los puntajes obtenidos. En otras palabras, se
considera que el error estándar de la medición, sin que importe la muestra de sujetos que
se investigue. Así pues, es obvio que el coeficiente de Confiabilidad es mayor con
respecto al rasgo que se está investigando. A manera de ejemplo, supóngase que se
pretende estudiar la Confiabilidad de los puntajes de una prueba usada para seleccionar a
los alumnos universitarios de primer año. Si se usa la correlación entre las formas
alternativas como una medida de la Confiabilidad, y sólo se calcula la correlación entre las
personas que en realidad fueran aceptadas por la universidad, ésta sería menos del que
sería si se incluyeran también en el estudio los sujetos que no pudieran ingresar a la
misma.
Si bien es importante tener presente que la Confiabilidad varía de acuerdo con la

dispersión de los puntajes, cabe aclarar que dicha variación no altera el significado directo
del coeficiente de Confiabilidad en ninguna muestra de personas. El coeficiente de
Confiabilidad es la proporción entre la varianza de los puntajes verdaderos y la de los
puntajes obtenidos. Si esta proporción es pequeña, el error de medición atenuará la
correlación con otras variables, lo que harán más difícil encontrar los efectos importantes
con los tratamientos estadísticos.
Si en un estudio el grupo total de sujetos tiene una desviación estándar de puntajes que
no es mucho mayor que el error estándar de medición, no tiene ningún caso investigar la
variable –esto ya ha sucedido en muchos estudios. Tal ha sido el caso de algunos estudios
a niños que tienen un C.I. superior a 120. La Desviación Estándar de los coeficientes
intelectuales del grupo sometido a estudio no sería mucho mayor que el error estándar
de medición propio de la medida de inteligencia. Así pues, si existe correlación entre los
coeficientes intelectuales de los miembros de los grupos seleccionados y los puntajes
obtenidos en las pruebas de creatividad, dichas correlaciones, obviamente, serán muy
bajas.
NOTA: HASTA AQUÍ DEBE ENTREGAR LOS RESULTADOS DE LA VALIDACIÓN Y

CONFIABILIDAD DE LA PRUEBA CONSTRUI DA O ADAP TADA

ACTIVIDADES DE LA TERCERA UNIDAD
EJERCICIOS DE VALIDEZ ÍTEM – TEST
ITEMS
s. 1 2 3 4 5 6 7 8 9 10 2 2
X X Y Y XY
1 4 5 2 4 5 5 2 3 5 2
2 1 2 5 3 5 4 2 5 4 1
3 3 2 4 4 5 3 4 3 2 3
4 5 3 4 2 2 3 4 5 2 2
5 3 2 3 5 4 2 2 1 2 3
6 4 5 1 5 2 2 5 4 4 4
7 1 3 1 4 1 5 1 3 4 2
8 3 4 2 3 2 3 3 2 3 5
9 2 3 5 1 4 4 1 1 2 4
10 1 5 5 1 4 3 4 2 3 4
Producto Momento de Pearson:
 xy −  x y
r =
( )
½½ 2
 x 2 −  x  y 2 − ( y )2
CONSOLIDADO DE REACTIVOS SEGÚN LA VALIDEZ ÍTEM – TEST
ITEM r INTERPRETACIÓN
1
2
3
4
5
6
7
8
9
10

EJERCICIOS PARA DETERMINAR LA CONFIABILIDAD
METODO DE LAS MITADES
Producto Mo mento de Pear son:
 xy −  x y
r =
( )
½½ 2
 x 2 −  x  y 2 − ( y )2
Spearman - Brown:
2r
r = ½½
11 1 + r
½½
Ejercicio:
Sujetos = 50
Reactivos Aprobados = 22
1 58 12 171
2 165 13 101
3 174 14 141
4 192 15 125
5 102 16 184
6 115 17 190
7 122 18 89
8 142 19 111
9 162 20 155
10 140 21 114
11 149 22 98
r = ________ ________
r11= _______________ _

CUARTA UNIDAD
NORMALIZACIÓN Y TIPIFICACIÓN
DE LA PRUEBA PSICOLÓGICA
1. CAPACIDADES
▪ Comprende y propone criterios de tipificación de la prueba a construir o

adaptar
▪ Analiza y determina los criterios para la administración, calificación e
interpretación de la prueba construida
▪ Establece las normas de puntuación de la prueba construida
2. CONTENIDOS
▪ Aspectos básicos de la tipificación de una prueba psicológica.

▪ Normalización y estandarización
▪ Clasificación de los puntajes derivados
▪ El manual de la prueba psicológica

4.1. ASPECTOS BÁSICOS DE LA TIPIFICACIÓN DE UNA PRUEBA
No importa el cuidado que se ponga el elaborar un test, los resultados no serán válidos a
menos que se administre y califique de manera apropiada, para esto es necesario
establecer procedimientos o lineamientos para aplicar y calificar los test psicológicos.
En la aplicación de las pruebas psicológicas el procedimiento que debe seguirse al

administrarse un test depende de las clase de instrumento (individual o de grupos, con
límite de tiempo o sin éste, cognoscitivo o afectiva), así como de las características de las
personas que van a someterse al test (edad cronológica, educación, antecedentes
culturales, condición física y mental). Cualquiera que sea el tipo de test u naturaleza de
las personas, pueden afectar el desempeño de factores como el grado de preparación
para la prueba y su nivel de motivación, ansiedad, fatiga y salud. Al igual que los
diferentes factores de las personas a las que se les administrara la prueba, también los
factores varían de acuerdo con la persona que aplica el instrumento y la situación ejercen
influencia.
La capacidad, personalidad y comportamiento de la persona que aplica el instrumento,

sobre todo en las individuales, pueden ser factores que influyen en el desempeño. Por lo
que es necesario que la persona que aplica el test este completamente capacitado, y con
certificaciones que respalden el conocimiento y capacidades para administrar, calificar e
interpretar tests psicológicos.
Las variables de situación, como el tiempo y lugar de la prueba y las condiciones del
entorno como la iluminación, temperatura, nivel de ruido y ventilación pueden contribuir
a la motivación, concentración y desempeño de las personas.
En esta perspectiva es conveniente que el constructor de una prueba psicológica, se

plantee con claridad las diversas normas que deben seguirse para el empleo de la prueba
construida. Estas características deben estar acordes a los que establecen las normas
para tal fin.
4.1.1. Deberes de los Examinadores Antes de la Aplicación de Tests:
A. Programación de la Prueba: Se debe tomar en cuenta las actividades en las que, por
lo regular, participan las personas en ese momento, a partir de ello se programa la
aplicación de la prueba.
B. Consentimiento Informado: Es la autorización para la aplicación de tests psicológicos

y/u obtener información con propósitos de evaluación o diagnóstico.
C. Familiarizarse con el Instrumento: El evaluador debe de informarse sobre los

procedimientos de la aplicación, corrección e interpretación de la prueba en uso,
esto se encuentra en el manual.
D. Asegurar Condiciones de Prueba Satisfactorias: Se debe tener presente: iluminación,

ventilación, temperatura, nivel de ruido, relativamente libre de distractores e
interrupciones, y otras condiciones físicas que sean apropiadas. Se debe tener en

cuenta la evaluación de personas con necesidades educativas especiales,
discapacitadas o alguna diferencia física.
E. Reducir los Engaños: Reducir al mínimo la posibilidad de copiar. Para esto se debe
preparar varias formas (reactivos distintos o en orden diferente) de la prueba y
distribuirlas a quienes están sentados juntos. Se hace necesario varios evaluadores o
examinadores.
F. Deberes del Examinador Durante la Prueba: Seguir las Instrucciones de la Prueba:

Las instrucciones de una prueba preparada con detenimiento y (cuando se dan en
forma oral) se leerán en forma clara, informan a los sujetos sobre el propósito de
ésta y cómo indicar sus respuestas. Para las pruebas estandarizadas se debe seguir
con cuidado las instrucciones expuestas en el manual.
G. Permanecer Alerta: Estar alerta a los engaños, así como a las conversaciones y otros
ruidos innecesarios. También se les puede informar sobre el tiempo disponible.
H. Establecer el Rapport: El comportamiento del examinador tiene un efecto

significativo en la motivación de las personas. En ocasiones, una sonrisa puede
ofrecer el valor suficiente para que los sujetos ansiosos o sin preparación adecuada
permanezcan tranquilos. Hay que ser amigables pero objetivos.
I. Estar Preparado para los Problemas Especiales: La persona que administra la prueba
además de conocer su trabajo debe estar alerta y ser flexible, cálida y objetiva, para
que pueda manejar los problemas especiales como: personas muy jóvenes o
ancianos, con trastornos, retraso mental, discapacitados o con desventajas
culturales.
J. Flexibilidad: Permite que las personas con problemas especiales demuestren sus
aptitudes, entre las que tenemos: 1. Proporcionar tiempo suficiente para que
contesten a toda la prueba; 2. Permitir práctica en los reactivos de ejemplo; 3.
Emplear periodos de prueba relativamente breves; 4. Detectar la fatiga o ansiedad; 5.
Estar consciente de las alteraciones perceptivas; 6. Mostrar motivación y
reforzamiento positivo y 7. No tratar de forzar a contestar a los sujetos, después de
haberse negado repetidamente.
4.1.2. Deberes del Examinador Después de la Prueba:

- El examinador debe recopilar y guardar en lugar seguro todo el material.
- Inspirar seguridad a los evaluados con respecto a su desempeño.
- En instrumentos clínicos es necesario apoyarse en otros instrumentos o
herramientas.
- Prometer y cumplir brindar información futura sobre los resultados e
interpretaciones encontradas ya sea al evaluado o los referentes, también es
necesario brindar recomendaciones.
- En test estandarizados deben cotejarse los manuales de la prueba para obtener la
calificación.

4.1.3. Calificación de las Pruebas:
En las pruebas psicológicas, el modelo acumulativo es el más común, quizá debido a su

simplicidad y lógica completas. Generalmente, la regla en una prueba califica en forma
acumulativa es que entre mayor es la puntuación en la prueba, más alto se encuentra
quien la responde en capacidad, el rasgo o alguna otra característica que pretenda medir
la prueba. Quien responde la prueba obtiene crédito acumulativo con respecto a un
constructo particular.
En pruebas que emplean un enfoque de clase o categoría para la calificación, la persona

que responde la prueba obtiene crédito hacia la colocación en una clase o categoría
particular con otros quienes la han respondido cuyos patrones de respuesta se suponen
semejantes de alguna manera.
El tercer modelo calificación ipsativa, es la comparación de la puntuación de una persona

que responde la prueba en una escala dentro de una prueba con otra escala dentro de la
misma prueba. Cohen (2001).
4.2. NORMALIZACIÓN Y ESTANDARIZACIÓN DE UNA PRUEBA
El proceso de aplicar una prueba a una muestra representativa de personas que la

responden con el propósito de establecer normas se conoce como “estandarización de
una prueba”. Se dice que una prueba está estandarizada cuando tiene procedimientos
definidos en forma clara para su administración y calificación, incluyendo datos
normativos. Cohen y Swerdlik (2001)
La normalización llamado también tipificación o estandarización del tests, consiste en una

serie de transformaciones de los resultados o puntuaciones directas obtenidas de la
aplicación del test de tal forma que éstos (los resultados o puntuaciones obtenidas),
puedan ser interpretadas de manera correcta y adecuada. García (1993).
Este proceso permite comparar los puntajes de un sujeto con el rendimiento de un grupo
normativo, acorde a sus propias características.
Por ejemplo, “José un niño del primer grado; podrá tener un mejor nivel en su
Comprensión de lectura que otro niño de su mismo grado del colegio San Juan donde
está; pero alcanzará un nivel inferior en comparación con otro niño del colegio “San José
“. La variable que intervendrá en la tabla será el nivel socioeconómico.” Este tipo de
comparaciones son muy usadas para proporcionar los resultados de los test
estandarizados. Se basa en las personas que alcanzan los puntajes más altos o más bajos.
La forma en que se elige una muestra de estandarización de la población meta, varía

desde el muestreo aleatorio sencillo, hasta estrategias de muestreo más complejo, como
el muestreo aleatorio estratificado y el muestreo de grupos. Una forma más apropiada de
estandarizar un aprueba es empezar a categorizar, o “estratificar”, la población meta en
una serie de variables demográficas (sexo, edad, nivel socio económico, región
geográfica, entre otros) que se supone que pueden relacionarse con las calificaciones que
se obtienen en la prueba. Con el uso de este procedimiento de muestreo estratificado, se

reduce al mínimo, la probabilidad de seleccionar una muestra no representativa o
subjetiva.
Más económico y sencillo es el muestreo de grupos, este consiste en dividir una población
determinada en áreas geográficas u otras unidades relevantes en bloques o grupos. Luego
se seleccionan aleatoriamente un porcentaje específico de los grupos, y en cada uno se
eligen en la misma forma cierta cantidad de sub unidades (escuelas, lugares de
residencia, etc.). El paso final es aplicar la prueba a todas las personas en cada sub unidad
o por lo menos a una muestra aleatoria de individuos con determinada características.
4.2.1. Definiciones básicas en la normalización

Es importante en la construcción de una prueba psicológica, conocer algunas definiciones:
a) Normas: Son los resultados obtenidos para especificar un grupo de sujetos en un test
determinado, nos proporciona un nivel de comparación entre los puntajes brutos con los
equivalentes.
La norma es la medida en puntajes para un grupo específico y ocasionalmente puede ser
usada como sinónimo de promedio en un sujeto. Además permite ubicar a las personas
sobre una medida específica o por debajo de ella. Una información normativa, nos indica
cómo realmente actúan las personas y no cómo deberían hacerlo.
b) Población de referencia: Personas que comparten una o más características tales

como: edad, sexo, grado escolar, ubicación geográfica, religión, estado civil, etc.
c) Grupo normativo: Es seleccionado de la población de referencia y es el grupo histórico

de sujetos sobre los que se calculan las normas
d) Baremos: son tablas de referencia, producto del proceso de normalización
e) Estandarización: Proceso dentro de la validez que permite normalizar la prueba en un

determinado contexto, incluso se plantea los criterios de evaluación, calificación e
interpretación, es decir a todos se mide por igual.
f) Tipificación: Las normas que se aplican a una prueba, los criterios de uso, aplicación,
calificación e interpretación.
g) Objetividad: Son datos objetivos, mensurables, medibles, operacionalizables.
h) Adaptación: Construir los reactivos de una prueba ya elaborada para una población
determinada, utilizando criterios de la misma realidad. Consiste en elaborar los ítems y
cambiar los ítems con una misma connotación a la original pero con otros términos. Una
vez elaborada se aplica la prueba piloto, para a partir de ello ensamblarla
i) Rangos: Nos indica la posición de un sujeto dentro de un grupo específico de

examinados. El primero será para aquel sujeto que ha obtenido el puntaje más alto y a
partir de él, se establecerá los siguientes lugares y posiciones obtenidos dentro del grupo.
j) Percentiles: Son unas de las más usadas entre los tests estandarizados. “Un percentil es
cualquiera de los 99 puntos que divide una distribución de frecuencia en 100 grupos de

igual tamaño. Un rango nos indica la posición relativa que ocupa un sujeto dentro de un
grupo”
4.2.2. Tipos de normas
a) Normas nacionales, son las puntuaciones alcanzadas en una muestra de sujetos de una
población determinada y que sirven de referencia en la contrastación de un individuo
respecto a esa muestra a nivel nacional.
Se utiliza en toda clase de pruebas, es de mayor utilidad en las pruebas de aptitudes

generales y rendimiento; casi siempre se reportan por separado. Por ejemplo: Según
niveles educativos, sexo, edad, etc. A los cuales se destinan las pruebas.
Ejemplo: Juan estudiante del quinto de primaria; hijo de profesionales se le aplica el test
de Catell 2; sus resultados indican que se encuentra en el cuartel superior de las normas
nacionales.
b) Normas locales, se constituyen para restringido, para establecer normas de grupo y

que podrían hacerse las comparaciones ínter pruebas.
c) Normas especiales de grupo, Son aquellas normas que se especifican para grupos con
características singulares y ayudan a una toma de decisiones. Un ejemplo de estas, que
se destinan para evaluar a personas con deficiencias sensoriales como son los sordos,
ciegos, etc.
“El tipo de norma más conveniente y utilizada por los

editores de pruebas; son las normas nacionales”.
4.2.3. Tipos de puntuaciones normalizados
a) Puntuaciones Observadas. Son las puntuaciones brutas de una persona o (PD) en un

instrumento de medición, nos brinda cierta información acerca de su ejecución.
b) Puntuaciones Derivadas. Se refieren a las diferentes transformaciones del PB en otra,

que tiene significados relativos o normativos.
Estas puntuaciones son útiles para comparar las puntuaciones alcanzadas por una
persona con los obtenidos por otro. Es decir para hacer comparación ínter e intra
individuales
4.3. CLASIFICACIÓN DE LOS PUNTAJES DERIVADOS

Hay varias formas para los puntajes brutos en derivados y así permitir la factible
interpretación (hay una clasificación de Lyman, la cual la damos a conocer.

4.3.1. Comparación de un estándar absoluto o dificultad de contenido.
Son las más conocidas y usadas en pruebas de rendimiento escolar; toman en
consideración el rendimiento del sujeto de manera específica. El puntaje del sujeto
dependerá de manera directa con el grado de dificultad del test. Tenemos aquí:
a. Porcentaje de puntuaciones correctas.- Se compara la puntuación del sujeto con

un puntaje máximo posible (como es el del aprovechamiento académico).
X % C = 100XR
T
DONDE:
X % R = % de puntuaciones correctas.
R = Numero de respuestas.
T = Total de números de preguntas del test
EJEMPLO: “María responde 16 ítems de una prueba de 20 ítems ¿Cual será su

rendimiento correcto?
X%C = 100 X 16 = 80%

20
NOTA: No debemos confundir este tipo de puntuaciones con los percentiles.
b. Calificativos en letras.- Es una de las más usadas en la escolaridad y principalmente

cuando nos lo entregan a través de las libretas evaluatorias de los Centros de Educación
Inicial y primaria. Lamentablemente este criterio no nos permite expresar pequeñas
diferencias en habilidad.
4.3.2. Comparaciones interindividuales

Permite comparar los puntajes de un sujeto con el rendimiento de un grupo normativo,
acorde a sus propias características.
NOTA: “José un niño del primer grado; podrá tener un mejor nivel en su Comprensión de
lectura que otro niño de su mismo grado del colegio San Juan donde está; pero alcanzará
un nivel inferior en comparación con otro niño del colegio de “San José “. La variable que
intervendrá en la tabla será el nivel socioeconómico.”
4.3.3. Comparaciones interindividuales considerando el promedio y la desviación

estándar del grupo. (Transformaciones lineales)
a.1 Puntuación Z. Permite expresar en términos simples la distancia entre el

promedio de un grupo determinado y algún valor de puntuación bruta específica.
FORMULA:
Z= Puntuación
X= Promedio de algún grupo
DS= Desviación estándar del mismo grupo.

Es importante acotar la puntuación Z tiene un promedio de 0.00 y una Desviación
Estándar de 1.00, si bien el trabajo del cálculo es sencillo no puede ocasionar la
desventaja de tener valores decimales y negativos.
EJEMPLO: “Anita tuvo una puntuación correcta de 30 frente a su prueba. Su rendimiento

se desea que se compare con otros compañeros de su mismo grupo examinado; el cual
presenta un promedio de 50 y una desviación estándar de 5. La puntuación Z respectiva
se hallará así:
Z = X – X = 30 – 50 = -4
DS 5
Interpretando los resultados, podremos indicar que Anita se encuentra en –4 de

desviación estándar inferior o por debajo al promedio de su grupo al cual se le compara.
Podremos indicar también que su rendimiento fue tan bien o mejor que un 4% de los
sujetos participantes a su grupo evaluado.
a.2 Puntuación T. La puntuación T es una puntuación lineal y una de las más comunes. Su
promedio es de 50 y su desviación estándar de 10.
FORMULA: T = 10 Z + 50
_
Dónde: Z=X-X
DS
10 = Es una constante (cada puntuación Z es multiplicada por 10)

50 = Un aditivo constante (50 es agregado a cada valor de 10 Z)
EJEMPLO: Continuando con el mismo caso de Anita. Su puntuación Z fue de –4; por tanto
su puntuación T la podremos hallar de la siguiente forma:
T = 10 Z + 50
T = 10 (-4) + 50 = 10
Tal puntuación T, tiene la ventaja de no presentar valores decimales ni negativos; pero

lamentablemente se pueden confundir con ciertos tipos de puntuaciones.
a.3. Puntuación CEEB.- Esta puntuación surge con la finalidad de presentar los resultados
de los Test College Entrance Examination Beard. Es igual a las puntuaciones etándars
lineales y se trabaja con un promedio de 500 y una desviación estándar de 100.
FORMULA: CEEB = 100Z + 500
Donde Z se refiere a la puntuación Z propiamente dicha.
Pensamos muy particularmente que ahondar en esta puntuación no nos proporcionará

tanta utilidad como otras que las estamos desarrollando con mayor detenimiento.

a.4. Desviaciones CI.- Sabemos que el Cociente Intelectual está basado en la edad mental
sobre la edad cronológica. A diferencia de la razón CI, donde el CI tiene una desviación
estándar común para todas las edades cubiertas por el Test. (CI de desviación).
La desviación CI tiene Promedio de 100 y una desviación estándar que es dada por el
autor del Test.
a. 4.1.- Desviación CI del Weshsler.- Dentro de estas Escala Weschsler, las usadas son
Wisc y Wipsi. Sabemos que comprenden dos escalas una verbal y otra Ejecutiva. Cada una
de ellas con sus respectivos sub – tests.
En esta prueba se encuentra una puntuación bruta para cada una de las áreas o subtest
que mide; posteriormente se convierten estos puntajes a uno equivalente o derivado;
cuyo Promedio es de 10 y una Desviación Estándar de 3.
En la parte casi final sumamos las puntuaciones las cuales son convertidas a una
desviación CI con el apoyo de una tabla que nos muestra cada área teniendo como base
la variable edad.
El autor consideró en su Test un promedio de 100 y una desviación estándar de 15.
FORMULA: CI = 15 Z + 100
a.4.2. Conciente Intelectual de Stanford Binet.- Hasta 1960 el CI del Stanford Binet fue
un CI de razón y fue el primer test en el que el CI fue utilizado. Los autores del test a
partir de 1960 decidieron por un CI de desviación; de manera que la desviación estándar
sea una constante de edad en edad. Ya con los arreglos respectivos se da una desviación
lineal con un promedio de 100 y una desviación estándar de 16.
a.5. Puntuación AGCT.- Los puntajes obtenidos provienen del Test de Clasificación
General de la Armada. Es similar a la puntuación Z así como a la T; con la excepción de
que su Promedio es de 100 Y su Desviación Estándar es de 20.
FORMULA: AGCT = 20 Z + 100
DONDE: 20 Y 100 = Son las constantes multiplicadoras y Sumadoras respectivamente.

Z = calificación definida anteriormente.
Una ventaja que presenta ésta puntuación es que permite un análisis posicional que las
dos anteriores.
4.3.4. Comparaciones interindividuales considerando el rango

Este tipo de comparaciones son muy usadas para proporcionar los resultados de los test
estandarizados. Se basa en las personas que alcanzan los puntajes más altos o más bajos.

B.1.- Rango.- Nos indica la posición de un sujeto dentro de un grupo específico de
examinados. El primero será para aquel sujeto que ha obtenido el puntaje más alto y a
partir de él, se establecerá los siguientes lugares y posiciones obtenidos dentro del grupo.
B.2.-Percentiles.- Son unas de las más usadas ante las tests estandarizadas. “Un percentil
es cualquiera de los 99 puntos que divide una distribución de frecuencia en 100 grupos de
igual tamaño. Un rango nos indica la posición relativa que ocupa un sujeto dentro de un
grupo”.
EJEMPLO DE UN PROCESO DE BAREMACIÓN O NORMALIZACIÓN A TRAVES DEL RP:

Se administró un test de Vocabulario a 50 sujetos. Los puntajes alcanzados fueron los siguientes:
1 2 3 4 5 6
X F FA Fapm PA RP
225 1 50 49.5 99.0 99
224 1 49 48.5 97.0 97
223 2 48 47.0 94.0 94
222 4 46 44.0 88.0 88
221 2 42 41.0 82.0 82
220 5 40 37.5 75.0 75
219 6 35 32.0 64.0 64
218 8 29 25.0 50.0 50
217 5 21 18.5 37.0 37
216 4 16 14.0 28.0 28
215 4 12 10.0 20.0 20
214 4 8 6.0 12.0 12
213 3 4 2.5 5.0 5
212 0 1 1.0 2.0 2
211 1 1 0.5 1.0 1
SÍMBOLOS USADOS:
X = Valores de los puntajes directos (límites)
F = Frecuencia (n° de sujetos que alcanzan un PB dado)
FA = Frecuencia acumulada
Fapm = FA hasta el punto medio del puntaje
PA = Porcentaje acumulado
RP = Rango percentil

PASOS PARA ENCONTRAR LOS RP PARA UN PUNTAJE BRUTO DADO
o Haga un listado de los PB alcanzados

o Halle la F de cada PB
o Halle la FA (FRECUENCIA ACUMULADA)
o Halle la Fapm de cada puntaje, sumando la mitad de la f a la FA que se encuentra por
debajo del valor que se busca.
FÓRMULA:
FaPM = (0.5 x f)+ FA
Ejemplo: 218 = (0.5 x 8) + 21 = 25
o Convierta a PA, multiplicando los valores sucesivos de la

FApm x 100 (como constante)
N
o Halle los RP redondeando los valores PA al número entero más cercano

(excepto utilice 1 para 0 y 99 para 100).
4.3.5. Comparaciones interindividuales considerando el status (grado o edad) de los

sujetos que alcanzaron el mismo puntaje
Fueron elaborados con la finalidad de evidenciar la ejecución del test en términos de

promedios de grupos que difieren ya sea por la edad cronológica o por el grado escolar.
C.1.- Puntuaciones de edad.- Destinados para algunas habilidades humanas cuando la

edad es un factor preponderante; y se usan con mayor frecuencia con los test de
inteligencia y rendimiento para niños en edad escolar. La puntuación común es la Edad
Mental (EM) – dado por Alfred Binet a través de su test. Esta puntuación ayudará a que
nuestra interpretación se base en términos del desarrollo en relación a su edad
cronológica.
C.2.-Puntuaciones de Grado.- La razón básica de los puntajes de grado es similar a la de

los puntajes de edad, con la finalidad de ubicar a los puntajes de los alumnos de una
escuela correlacionados con su grado. Se establece de la siguiente manera:
1. Tener el promedio para cada grupo en función a su grado.

2. Ubicar los resultados en una gráfica y colocar los resultados de manera tan recta
como sea posible.
3. Extender esta línea hacia ambos extremos para tomar en cuenta los puntajes
encima y debajo de los promedios encontrados.
4. Terminar leyendo los puntajes equivalentes correlacionados con los puntajes
brutos.
5. Publicar estos valores a través de una tabla tabulada.

PERFILES. Los perfiles son instrumentos útiles de interpretación cuando se conocen varias
puntuaciones lograda por un mismo individuo.
Para poder usar un perfil es necesario convertir todas las puntuaciones en un mismo tipo
de puntuación derivada y basado en el mismo grupo normativo, además debe incluirse en
el perfil algún índice de error.
NOTA: HASTA AQUÍ D EBE ENT REG AR LOS RESULTADOS DE LA

NORMALIZACIÓN DE LA PRUEBA CONSTRUIDA O ADAPTADA

ACTIVIDADES DE LA CUARTA UNIDAD
EJERCICIO DE BAREMACIÓN DE UNA PRUEBA
Deseamos normalizar los puntajes del Reversal Test (Prueba de madurez para la lectura)
en una muestra de 147 niños de ambos sexos de edades 5.6 a 6.6, de un centro escolar
particular de esta ciudad.
PUNTAJES F Fa Fcpm Pcpm PERCENTIL

83-84 8
81-82 4
79-80 8
77-78 11
75-76 15
73-74 14
71-72 15
69-70 19
67-68 10
65-66 8
63-64 6
61-62 5
59-60 9
57-58 7
55-56 2
53-54 3
51-52 2
49-50 1
COMPLETE EL CUADRO Y RESPONDA LAS SIGUIENTES PREGUNTAS:
a) ¿Qué percentil tiene Jorge que alcanzó puntaje 55? …………………………..
b) ¿Qué significa ese resultado?.……………………………………………………..
c) ¿Qué puntajes van entre Percentil 1 y 25? ……………………………………
d) ¿Entre qué puntajes está el percentil 75 y 99? ……………………………………

4.4. EL MANUAL DE UN TEST
Según Yela (1972), un test es un procedimiento científico de diagnóstico o medida. Para

que un procedimiento sea científico es preciso que su valor esté experimentalmente
demostrado.
Por eso, todo test ha de constar necesariamente de dos partes: una, el test mismo; otra,
el manual del test, donde se explique en qué consiste el test, cómo se aplica y valora, y
para qué sirve; todo ello fundado en razones experimentalmente comprobadas.
Es sabido que un test no puede aplicarse de cualquier manera, ni a cualquier persona,

solo puede ser aplicado a cierto tipo de sujetos en ciertas condiciones muy precisas y
según ciertas instrucciones, y sus resultados deben ser puntuados, valorados e
interpretados según determinadas reglas. Estas condiciones y reglas, a las que el uso del
test tiene imprescindiblemente que ajustarse, deben ser expuestas, explicadas y
justificadas en el manual. Si no lo están no es propiamente un test. Si no se siguen, su
aplicación no es correcta.
El fin de esta unidad, es ofrecer algunas normas para la redacción de manuales de tests,
según la propuesta de Yela, y como parte del curso de Construcción de Pruebas, es
necesario que todo alumno que se inicia en la elaboración de tests psicológicos conozca
este u otros formatos que se proponen.
Como se podrá apreciar, las normas son sencillas y prácticas, a nosotros nos ha servido
para ordenar la información correspondiente en algunos trabajos que hemos realizados
tanto de estandarización de pruebas como de elaboración de las mismas; claro está que
puede mejorarse y adaptarlas a las propias necesidades de comunicar la información del
test. En todo caso es imperativo entender que toda prueba psicológica, debe tener
pautado todo el trabajo realizado en su construcción o adaptación, así como las normas
de aplicación.
4.5. PARTES PRINCIPALES DE UN TEST
En el manual deben figurar todos los datos que hacen del test un instrumento científico.
Todos ellos pueden clasificarse en tres categorías, que constituyen las tres partes
principales del manual. A decir:
1ª Parte: Especificación
2ª parte: Descripción
3ª parte: Justificación
La primera parte del manual la titulamos Especificación, en ella deben incluirse todos los
datos referentes a la denominación y clasificación del test, lo que algunos autores
conocen con el nombre de Ficha Técnica.
La segunda parte se dedica a la descripción del test, y en ella se dan todas las
explicaciones necesarias acerca de la naturaleza, fines y aplicaciones del test, así como
una detallada exposición del mismo y de las condiciones exactas de su empleo.

La tercera parte se titula Justificación, en ella deben presentarse, convenientemente
ordenados, los datos cuantitativos y experimentales que justifican el uso del test y
permitan la valoración científica de sus resultados. Los aspectos más importantes de esta
parte son los que se refieren a la Confiabilidad, Validez y Tipificación del test. Es decir
aquellos en los que se dan los datos experimentales y las normas oportunas para apreciar
hasta qué punto del test es preciso, en qué medida es válido y a qué clases de sujetos es
el test aplicable. Seguidamente se especifican cada una de las partes del manual de los
tests:
I. ESPECIFICACIÓN DEL TEST
A.1. Esquema de clasificación de los tests

1. Por las características que aprecian, estas pueden ser: De rendimiento, de
aptitud, de personalidad.
2. Por el material empleado, pueden ser: Impreso, manipulativo.
3. Por el modo de aplicarse (individual y colectivo)
A.2. Fórmula de especificación: Se formará con los siguientes datos

1. Las iniciales correspondientes del esquema anterior
2. El nombre o designación usual del tests
3. Un número de orden, del uso en adelante, para todos los tests que tengan las
mismas iniciales y designación según a) y b).
Ejemplo:
A.I.C. Mac Quarrie. 1.
Significa: Test de aptitudes impreso, colectivo, de Mac Quarrie, que hace el
número 1 de los tests impresos y colectivos de aptitud, que de ese autor, se tiene
ordenado y en uso.
1. NOMBRE:
En la primera página del manual y después de haber consignado la fórmula de

especificación se indicará el nombre del test de la siguiente manera.
A. Nombre descriptivo de la prueba:
Ejemplo: Test de aptitud mecánica: Factores primarios de inteligencia, Test
Pasalong de inteligencia práctica, etc.
B. Autor de la prueba
C. Ejemplo: Thurstone, Millon, Wechsler, etc.
D. Procedencia:
E. Psychological Corporatón, Centre de Psychology Appliqueé, Departamento
de Psicología experimental, Instituto Nacional de Psicotecnica, etc.
F. Siglas características :
Ejemplos: T.H.M. (Test de Habilidades Mentales), 16/PF (Inventario de 16
Factores de personalidad, etc.
ACLARACIONES. Lo señalado en esta parte interesa solamente a los centros que

publiquen o utilicen muchos tests y deseen tenerlos todos clasificados y ordenados
convenientemente. El autor de uno o varios tests puede, naturalmente, prescindir de las

fórmulas de especificación y clasificación y empezar su manual por la simple exposición
del nombre del test.
Debe quedar claro que existen muchas formas de clasificaciones de los tests, cada cual
puede emplear la que más le agrade; conviene sin embargo que todos utilicemos la que
resulte más fácil y útil. Con estos datos que no ocuparán más de dos o tres renglones, se
tiene convenientemente especificado, clasificado y designado el test.
II. DESCRIPCIÓN
2.1. Generalidades
2.1.1. Fin: Se resumirá brevemente, el fin del test con respecto a los rasgos que pretende
medir
2.1.2. Características del test: Descripción sucinta de las principales características del
test. Relación con otros similares.
2.1.3. Datos históricos: Breve resumen de los antecedentes y desarrollo de este tipo de
test.
2.2. Aplicaciones
2.2.1. Generales: Campo general de aplicación del test. Aspectos psicológicos que
pretende medir y actividades profesionales a los que puede de algún modo
interesar. Aplicaciones que de él se han hecho y resultados obtenidos.
2.2.2. Especiales: Aplicaciones que especialmente interesan al centro que utiliza el test
en relación con sus necesidades propias.
2.3. Descripción detallada

2.3.1. Material de la prueba: Se describirá el material de que consta el test, partes y
elementos que lo componen, número de piezas y dispositivos, etc. Añadiendo los
croquis y dibujos necesarios.
2.3.2. 2.3.2. Material auxiliar: Hágase una relación del material auxiliar que sea preciso:
juguetes, cronómetro, hojas de puntuación, lápices, pizarra, ejemplos
demostrativos.
2.3.3. Posición: Se indicará la posición del test, del sujeto y del examinador,
acompañando los croquis pertinentes.
2.3.4. Ejecución de la prueba: Indíquese la forma general de realizar la prueba, cómo se
ha de observar al sujeto, lugar en que se han de anotar las respuestas, orden
seguido para la ejecución normal del test, etc.
2.4. Instrucciones
2.4.1. Instrucciones preliminares: Colocación exacta del sujeto, cuando convenga.
Advertencias generales sobre atención, interés tranquilidad, comprensión,
rapidez, etc. De cada una de las pruebas que ha de ejecutar.
2.4.2. Instrucciones específicas: Instrucciones exactas de ejecución del test, divididas

cuando convenga en: a) ejercicios preparatorios, b) Realización de la
prueba.
Se acompañarán los croquis necesarios. Es claro que los apartados 2.3 y 2.4 serán
muy breves y en buena parte innecesarios cuando se trate de tests impresos y

colectivos que lleven en el propio test las instrucciones de cada una de sus partes
y no requieren especiales cuidados respecto a posición y material. Por el
contrario, conviene redactar meticulosamente estos apartados cuando se trata de
tests individuales, especialmente si son manipulativos o de personalidad.
2.4.3 Tiempo de Ejecución: En el caso de que existan tiempos límites se indicarán los
tiempos exactos concedidos para la ejecución de cada una de las fases de
que consta la prueba.
2.5. Puntuación:
2.5.1. Pruebas impresas: Se acompañarán debidamente explicadas: a) Las claves con las
soluciones; b) Las plantillas de corrección, si las hubiera; c) las fórmulas de
puntuación de cada parte y del total.
2.5.2. Pruebas manipulativas: Explíquese la manera de resolver correctamente el test y
la de puntuar los resultados, según el tiempo empleado y los errores cometidos.
Señálese la manera exacta de cronometrar.
2.5.3. Hoja de puntuación: Se indicará la forma de anotar las puntuaciones directas
obtenidas, en la hoja de puntuación individual.
III. JUSTIFICACIÓN
3.1. Duración: Se indicará la duración de cada una de las partes del test y de su total,
expresando el tiempo exacto de las partes que lo tengan limitado y el tiempo
medio de las partes que no lo tengan. Debe señalarse la duración de: a) Las
instrucciones preliminares, b) El ejercicio preparatorio, c) La revisión del ejercicio
anterior, d) Las instrucciones finales, e) La ejecución del test, f) El total del test, g)
La puntuación y calificación del test. Siempre que hayan de presentarse tiempos
medios se indicará el tipo y número de sujetos sobre los que se han calculado.
3.2. Fiabilidad: Se incluirán los datos siguientes: a) Métodos de fiabilidad empleados;

b) Poblaciones utilizadas; c) Tipo de muestreo; d)Tamaño y variabilidad de las
muestras; e) Coeficientes de fiabilidad obtenidos; f) Tablas y gráficos, cuando se
oportuno.
Es éste, uno de los puntos más importantes del manual, para utilizar
correctamente un test es absolutamente necesario conocer su fiabilidad o
precisión en los diversos tipos de sujetos a que se puede aplicar. Si alguna vez
puede admitirse un test con baja precisión, el autor y quien lo emplee deben
explicar las razones en que basan esta excepcional admisión.
3.3 Validez del test: Se incluirán los datos siguientes: a) Métodos de validación
empleados, b) Tipos de criterios; c) Métodos de obtención de los criterios;
d)Fiabilidad y garantía de los criterios; e) Poblaciones utilizadas; f) Tipos de
muestreo; g) Tamaño y variabilidad de las muestras; h) Coeficientes de validez
obtenidos; i) Tablas y gráficos, cuando sea oportuno.
Este es el punto más importante del manual; es claro que un test sin validez es un
test inútil. No hay garantía alguna de que sea útil si en el manual no se dan las

pruebas experimentales suficientes de su validez. Estas pruebas son, pues,
absolutamente imprescindibles. Deben figurar en todo manual.
3.4. Revalidación del test: Se incluirán los datos siguientes: a) Métodos de revalidación
empleados; b) Análisis de las poblaciones y muestras, como en los apartados
anteriores; c) Coeficientes de revalidación obtenidos; d) Tablas y gráficos
pertinentes.
La revalidación de los tests, es un procedimiento que sólo recientemente ha
llamado la atención de los psicólogos. Consiste, en esencia, en calcular de nuevo la
validez del test en nuevas muestras de las poblaciones utilizadas en la validación
original. Es sabido que tests altamente válidos en un primer ensayo, sufren una
considerable disminución de éste cuando se emplean en sucesivas ocasiones. Con
el objeto de evitar estas sorpresas desagradables y asegurar en lo posible el valor
de los métodos psicológicos; conviene usar tan solo aquellos tests que tengan
suficiente validez, tanto en la validación original, como en sucesivas
revalidaciones.
3.5. Tipificación:
3.5.1. Distribución de puntuaciones directas: De acuerdo con los datos disponibles, se
incluirán: a) Tablas de distribución de puntuaciones directas obtenidas en las
distintas muestras utilizadas; b) Valores estadísticos fundamentales de las diversas
distribuciones (número de datos, promedios, desviaciones típicas, errores típicos,
etc); c) Gráficas correspondientes.
3.5.2. Puntuaciones derivadas: Si conviene reducir las puntuaciones directas a algún otro
tipo de puntuaciones, se explicarán: a) Los métodos y fórmulas empleadas; b)
Tablas de conversión de las puntuaciones directas en puntuaciones derivadas; c)
Valores estadísticos fundamentales de las distribuciones de puntuaciones
derivadas; d) Gráficas.
3.5.3. Calificación definitiva del test: Se indicará la forma de calificar el test a partir de las
puntuaciones directas obtenidas y de acuerdo con lo expuesto en el punto
anterior.
3.5.4. Baremos: Explíquense las normas para interpretar la calificación final de cada
sujeto según la población a que pertenece.. Para ello habrán de
incluirse de tablas de baremos oportunas, que podrán ser de diverso tipo, según
los fines del test y las necesidades de quien lo use.
Mediante estas tablas, y según la población al que el sujeto pertenezca, se podrán
convertir sus puntuaciones finales en centiles, edades mentales, coeficientes
intelectuales o de otro tipo, puntuaciones típicas, etc.
BIBLIOGRAFÍA
Se hará un breve examen de los libros, folletos, manuales de artículos de revista en los
que figure alguna información referente al test descrito.

PROPUESTA PARA ELABORAR EL MANUAL DE LA
PRUEBA CONSTRUIDA O ADAPTADA EN EL CURSO
(Dr. Edmundo Arévalo Luna)
A continuación se propone el siguiente esquema, que es producto de la experiencia en

construcción y adaptación de pruebas psicológicas, en los trabajos de investigación; y por
la facilidad en el uso de los manuales recomendamos tomarlo como referencia.
CARÁTULA
I. INTRODUCCIÓN Y PRESENTACIÓN (Máximo 2 hojas)

- Analizar brevemente la situación de la variable en estudio en nuestra realidad
- Comentar las motivaciones para la elaboración de la prueba
- Presentar el trabajo señalando capítulos, títulos y anexos
II. INDICE O CONTENIDO

- Toda investigación o trabajo debe tener un índice
- Se señalan los títulos o capítulos, con las páginas
- Debe ser ordenado para buscar rápidamente el contenido que deseamos
III. CONTENIDO DE LA PRUEBA
1. Fundamentación (Máximo 4, mínimo 2 hojas)

- Se realiza una descripción y explicación del problema en estudio
- Se analizan los antecedentes vinculados a él.
- Se analizan las causas y las consecuencias del problema
- Se plantea ordenadamente la importancia de la elaboración de la prueba,
señalando las aplicaciones y usos que de ella se deriven
- Es importante también señalar las limitaciones que tiene la prueba construida.
2. DESCRIPCIÓN DE LA PRUEBA
2.1. Ficha técnica
- Nombre de la prueba
- Autores
- Origen o procedencia
- Año de publicación
- Ámbito de aplicación
- Propósito (se describe qué evalúa la prueba)
- Tipos de normas que ofrece
2.2. Características generales (De 2 a 4 páginas)

- Breve explicación de los objetivos y estructura de la prueba
- Se define la variable de estudios
- Definimos los indicadores o áreas que comprende la prueba en cuestión
- Señalamos al final la distribución de los ítems, por cada área
- Se plantea incluso el puntaje máximo que puede alcanzar una persona, así como el
mínimo.

2.3. Marco referencial teórico (De 5 A 8 páginas)
- Antecedentes a nivel nacional e internacional
- Bases teóricas (redactar de manera sencilla, tomando las diversas fuentes
bibliográficas, con año y páginas.
- Siempre debe haber citas bibliográficas
- El tema de estudio debe abarcar lo más posible una base teórica que sustente la
prueba
- Explicar básicamente los diversos modelos o enfoques que explicar la variable en
cuestión
2.4. Procedimiento de la construcción (2 O 3 Páginas)

- Se comenta en un lenguaje ágil y sencillo todos los pasos que han desarrollado
para culminar con la construcción de la prueba.
- Etapa por etapa, enfatizando los aspectos positivos y negativos de la experiencia.
3. NORMAS DE APLICACIÓN
- Se explica los pasos que tienen que darse para que el instrumento sea aplicado
- Señalar:
- El entrenamiento que se requiere
- Las condiciones del ambiente
- El procedimiento a seguir
- Las instrucciones generales y específicas
4. NORMAS DE CALIFICACIÓN
- Precisar el procedimiento que se sigue en la calificación del instrumento
- Cómo y de donde se obtienen los puntajes
- Qué sistema de calificación se da
- Plantillas
- Computarizadas
- Cómo convertir los PD en otros tipos de puntuaciones
- De preferencia deben poner un ejemplo simulado de calificación e interpretación
5. JUSTIFICACIÓN ESTADÍSTICA
5.1. Población y muestra
- Describir la población en la que fue aplicada para los estudios de validez y
confiabilidad, determinar el tamaño poblacional
- Determinar la muestra y el tipo de muestreo para los e
5.2. Validez y confiabilidad
- Explicar el procedimiento seguido para alcanzar la validez confiabilidad.
- Qué tipo de validez y confiabilidad han utilizado
- Describir la población y muestra que se ha empleado en la validez a través de
cuadros estadísticos
- Presentar cuadros de los índices alcanzados
6. NORMAS DE INTERPRETACIÓN
- Establecer a través de cuadros los datos normativos (Baremos con puntuaciones
percentilares y otros)

- Si el caso lo requiere, elaborar las tablas por niveles o categorías, para la
interpretación.
- En los títulos de cada cuadro se deben señalar la especificación de las normas y el
tamaño de la población con que se realizó estos baremos.
- Proponer un caso simulado del proceso de calificación y análisis interpretativo, a
través de la evaluación de l aprueba construida o adaptada.
7. BIBLIOGRAFÍA
- Se debe especificar la bibliografía consultada en todo el trabajo, con las
características propias de un trabajo de investigación, respetando las normas de la
APA.
ANEXOS
En el manual de la prueba construida o adaptada se anexará lo siguiente:
- El cuestionario construido con las instrucciones
- El protocolo de respuestas
CARACTERÍSTICAS DEL TRABAJO:

- Este, al ser una investigación tecnológica de exploración, debe basarse en la
presentación Considerando la creatividad y originalidad.
- Márgenes: 3.50 (derecha), 3.00 (izquierdo), 2.50 (superior) 2.50 (inferior)
- Fuente o tipo de letra: Arial o Time New Roman
- Interlineado: Sencillo.
- Papel Bond. A-4, 80 gramos
NOTA: La presentación final del trabajo, se hará en versión Word y Power Point, en CD, y
en físico, espiralado.
Los integrantes del equipo deben tener sus propios ejemplares

REFERENCIAS BIBLIOGRÁFICAS
AIKEN, Lewis (1997). Tests Psicológicos y evaluación. México; Prentice Hall

ATKINS, D. (1973). Elaboración de Tests. Desarrollo e interpretación de los tests de
aprovechamiento. México: Trillas.
BELLACK, A. y HERSEN M., (1989). Métodos de Investigación en Psicología Clínica, Ed.
Biblioteca de Psicología – Desclée de Brouwer.
BROWN Frederick. (1980). Principios de la Medición en Psicología y Educación. México:
El Manual Moderno S.A.
CERDA, E., (1978). Psicometría General. Barcelona: Herder
COHEN Y SWERDLIK (2001). Pruebas y evaluación psicológicas; México: Mc Graw Hill,
Cuarta edición.
CORDERO, Pando (1976). Normas sobre tests y manuales educativos y psicológicos,
Madrid: TEA Ediciones.
CROMBACH, J. (1989). Fundamentos de la exploración psicológica; Madrid: Biblioteca
Nueva.
EBEL, Robert (1987). ¿Tienen Que ser válidos todos los tests?
HERNANDEZ y Otros (2000). Investigación del Comportamiento; México: Mc Graw Hill.
Segunda edición.
JAY, R. y SWERDLIK M. (2000). Pruebas y evaluación Psicológica. México: Mc Graw Hill
S.A.
KERLINGER, Fred (1988). Investigación del comportamiento; México: Mc Graw Hill,
Segunda Edición.
MAGNUSSON D. (1983). Teoría de los Tests; México: Trillas.
MORALES, M. L., (1990). Psicometría Aplicada. México: Trillas.
MUÑIZ, José. (1990). Teoría de Respuesta a los Ítems. Madrid: Pirámide
NUNALLY C. (1991). Teoría Psicométrica. México: Trillas.
OETTING y THORNTON (1975) Prácticas de Psicometría. México: Trillas
SIERRA B. R., (1995), Técnicas de Investigación Social, España: Paraninfo S.A., Décima
edición.
THORNDIKE, R. (1989). Psicometría Aplicada- México: Limusa,
YELA, Mariano (1982). El manual de los tests. Madrid: Biblioteca Nueva.

Construccion de Pruebas Psicologicas Upao

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Construccion de Pruebas Psicologicas Upao

Diunggah oleh

Hak Cipta:

Format Tersedia

UNIVERSIDAD PRIVADA ANTENOR ORREGO

FACULTAD DE MEDICINA HUMANA

DR. EDMUNDO ARÉVALO LUNA

PRIMERA UNIDAD: Planeamiento y medición para la construcción o

SEGUNDA UNIDAD: Construcción o adaptación de una prueba psicológica

TERCERA UNIDAD: Justificación estadística de la prueba psicológica

CUARTA UNIDAD: Normalización y tipificación de la prueba psicológica

DR. EDMUNDO ARÉVALO LUNA CONSTRUCCIÓN DE PRUEBAS PSICOLÓGICAS 4

1. Revisa atentamente el contenido de éste módulo. Es importante que revises cada

ESPERAMOS APOYARTE EN ESTE PROPÓSITO

DR. EDMUNDO ARÉVALO LUNA CONSTRUCCIÓN DE PRUEBAS PSICOLÓGICAS 5

Semana Denominación de las actividades FECHAS

DR. EDMUNDO ARÉVALO LUNA CONSTRUCCIÓN DE PRUEBAS PSICOLÓGICAS 6

PLANEAMIENTO Y MEDICIÓN PARA LA

• Explica críticamente los fundamentos básicos de las escalas de medición

DR. EDMUNDO ARÉVALO LUNA CONSTRUCCIÓN DE PRUEBAS PSICOLÓGICAS 7

La medición es el acto de asignar números o símbolos a características de los objetos

La medición puede referirse a la puntuación obtenida en el proceso utilizado, de acuerdo

Es importante y necesario hacer una diferencia de los términos de prueba y evaluación;

Es el conjunto de conocimientos racionales, ciertos o probables, que son obtenidas de

DR. EDMUNDO ARÉVALO LUNA CONSTRUCCIÓN DE PRUEBAS PSICOLÓGICAS 8

La ciencia, realiza el estudio de realidades empíricamente demostrables. Es decir la

1.2.2. Objetivos principales de la ciencia:

• Prever o Predecir.- De acuerdo a sus leyes puede prever acontecimientos que

• Actuar o Aplicar.- Los conocimientos adquiridos para transformar la realidad, e

1.2.3. Características de la investigación científica

DR. EDMUNDO ARÉVALO LUNA CONSTRUCCIÓN DE PRUEBAS PSICOLÓGICAS 9

1.3. LA CIENCIA EN LA MEDICIÓN PSICOLÓGICA

Los propósitos de la medición psicológica son: proporcionar datos objetivos y exactos

En consecuencia la medición psicológica está vinculada al rol del psicólogo, en el

Con la estadística, se relaciona la medición en la medida que se realizan operaciones con

MEDICIÓN MUNDO REAL

MEDICIÓN * Estadística inferencial

DR. EDMUNDO ARÉVALO LUNA CONSTRUCCIÓN DE PRUEBAS PSICOLÓGICAS 10

Una escala es un conjunto de números (u otros símbolos) cuyas propiedades modelan

La medición puede clasificarse además con respecto a la cantidad de información

DR. EDMUNDO ARÉVALO LUNA CONSTRUCCIÓN DE PRUEBAS PSICOLÓGICAS 11

1.4.2. Escalas Ordinales:

1.4.3. Escalas de Intervalos:

Las puntuaciones en las escalas de inteligencia a menudo son obtenidas en un nivel de

DR. EDMUNDO ARÉVALO LUNA CONSTRUCCIÓN DE PRUEBAS PSICOLÓGICAS 12

1.4.4. Escalas de Razón:

1.5. DISEÑO Y ELABORACIÓN DE UNA PRUEBA PSICOLÓGICA

1.5.1. Planeamiento para la elaboración de una prueba psicológica

La elaboración de un instrumento exige que se tomen en cuenta, detalladamente, los

DR. EDMUNDO ARÉVALO LUNA CONSTRUCCIÓN DE PRUEBAS PSICOLÓGICAS 13

(Tomado de Ronald Cohen, R. 2001: 225)

Los test que se pueden construir están agrupados en:

1.6. INTRODUCCIÓN Y GENERALIDADES

Antes de iniciar el análisis de la construcción de pruebas psicológicas, es preciso hacer

DR. EDMUNDO ARÉVALO LUNA CONSTRUCCIÓN DE PRUEBAS PSICOLÓGICAS 14

FASE 1: DELIMITACIÓN DE LA VARIABLE DE ESTUDIO

FASE 2: FUNDAMENTACIÓN TEÓRICA

FASE 3: CONSTRUCCIÓN DE LA PRUEBA

FASE 4: PRESENTACIÓN DE LA PRUEBA

(Edmundo Arévalo Luna, 2000. Construcción de Pruebas Psicológicas, asignatura desarrollada en

En segundo lugar, existen pruebas publicadas disponibles en la mayoría de los campos de

DR. EDMUNDO ARÉVALO LUNA CONSTRUCCIÓN DE PRUEBAS PSICOLÓGICAS 15

1.6.1. Lo que representan las pruebas psicológicas:

Otro plan de clasificación que nos ayudará a comprender, que en el proceso de su

1. Pruebas de Representación: Para ilustrar el concepto de la prueba psicológica

Goodenough (1949) hizo otra distinción dentro de la clase de pruebas representativas.

A continuación, relacionaríamos las calificaciones obtenidas en esas medidas con otros

O bien, tomemos en consideración la inteligencia. Uno de los modos de definir