Anda di halaman 1dari 23

PSICOMETRA

Zaida Almazn Domingo Roco Blanco Morales M Gishela Escobedo Jimnez M Raquel Medina Gonzlez Psicometra, grupos M3 y T2

ndice 1. Introduccin

2.

Variables

3. Fiabilidad a. Relativa b. Absoluta 4. Modelos de fiabilidad 5. Errores 6. Bibliografa

Introduccin

Nuestro trabajo consiste en realizar un diseo de fiabilidad, sobre un cuestionario que hemos elegido, cuyo ttulo es Cuestionario de Evaluacin de la docencia y el profesorado. El objetivo de este trabajo consiste en elegir el modelo de fiabilidad que se debera utilizar para hallar la misma. Este cuestionario ha sido realizado con el objetivo de mejorar la calidad de las instituciones educativas y el desarrollo profesional del profesorado, adems de atender a las exigencias legislativas, surge con gran nfasis e inters, la evaluacin de la prctica docente del profesorado. Intenta analizar cmo es tratada en algunas universidades espaolas a travs de los instrumentos que utilizan para evaluarla y, compararla, salvando las distancias de las unidades a evaluar (titulacin o profesorado) con lo propuesto en la Gua de Evaluacin de la Titulacin del Plan de Calidad de las Universidades. El colectivo del profesorado es uno de los fundamentales sobre los que se apoya la calidad y, por ende, la evaluacin del sistema educativo, siendo considerada una actividad compleja, problemtica y conflictiva, no habiendo encontrado todava soluciones altamente satisfactorias entre las experiencias realizadas, surgiendo problemas y temores sobre su operativizacin. La evaluacin docente es llevada a cabo en todas las instituciones universitarias. Si bien, en un principio se centraba en valorar nicamente, la adquisicin o no de conocimientos por parte de los alumnos, poco a poco se ha pasado a considerar la evaluacin de la docencia como un elemento importantsimo para analizar la calidad de las instituciones educativas. Sin embargo, el problema, generalmente, surga porque se realizaba de forma espontnea siendo, sus consecuencias, escasas o nulas para la mejora de la calidad tanto del sistema de enseanza-aprendizaje como para el propio profesorado. La evaluacin sistemtica tampoco proporcionaba demasiada informacin, realizndose, en la mayora de los casos, bajo un enfoque sancionador y fiscalizador, que provocaba la negacin, rechazo y aversin del propio profesorado hacia todo aquello que tuviese algo que ver con evaluacin, proporcionando mecanismos de defensa, que impedan tomar las decisiones vlidas y oportunas para valorar su labor educativa. Un enfoque que compagine la evaluacin sumativa con la formativa parecera lo adecuado. La evaluacin as entendida se puede considerar como til y viable, ayudando a la toma de decisiones vlidas y justificadas permitiendo, adems, establecer procedimientos para la mejora educativa y labor docente, controlando la calidad de los mismos. Algunos autores sealan que deben de ser valoradas todas las tareas que el profesorado realiza en su labor de docente, poniendo as de

manifiesto: la capacitacin sobre los contenidos, preparacin para poner en prctica los contenidos, mtodo y proceso de enseanza, etc. Otro autor indica que si el centro educativo quiere responder positivamente al principio de excelencia debe incorporarla a su actividad cotidiana. Hay que ser conscientes de que en el aula se desarrolla un trabajo tanto a nivel de alumnado como de profesorado que debe de ser valorado y analizado en profundidad. El primero est evaluado desde siempre; pero es el segundo el que en este momento interesa y del que deben de ponerse en marcha mecanismos que analicen en profundidad la labor docente. Esta evaluacin es entendida actualmente, en muchas universidades, desde dos vertientes: la primera, la denominada como tradicional, a travs de la evaluacin de la docencia mediante un cuestionario en el que, en mayor o menor medida, se intenta obtener datos de determinadas dimensiones asociadas a la labor docente y que, se ha convertido en corriente de investigacin en el campo universitario. La segunda corriente, ms actual, es aquella que establece modelos de evaluacin que parten de la autoevaluacin como un proceso reflexivo y participativo que permite describir y valorar la realidad, implicando a todos los miembros de cara a la mejora de la calidad. Esta segunda manera de entender la evaluacin supone un aadido fundamental: la necesidad de involucrar al profesorado de forma activa y positiva en este proceso. Para ello, es necesario, que el centro fomente una cultura y educacin para la evaluacin, con el establecimiento de objetivos y metas claramente definidos, utilizando instrumentos altamente vlidos y fiables para recoger la informacin y, que defienda una valoracin crtica positiva de los resultados, influyendo en la toma de decisiones con la nica finalidad de mejorar la calidad docente. Existe la necesidad de evaluar la docencia desde dos puntos de vista distintos: desde el punto de vista de su influencia en las titulaciones, donde el objetivo es la mejora y, por otro lado, como resultado de un ejercicio, en el que las universidades la realizan porque la contemplan, en sus estatutos, como una obligacin. Se sabe, que las tcnicas que se emplean en la recogida de datos, han de estar en concordancia con las finalidades propuestas de antemano, siendo, rigurosas, sistemticas, vlidas y fiables. Por ltimo las pautas a seguir por el profesorado para obtener una buena evaluacin son: Legitimidad: la evaluacin ha de realizarse siempre en beneficio de los evaluadores, marcada por los principios de la tica y la legalidad. Utilidad: el fin de la evaluacin ha de ser la mejora de la actividad profesional del docente.

Factibilidad: la evaluacin ha de ser eficaz, eficiente, viable, til y realista. Precisin: la informacin recogida para realizar la evaluacin ha de ser relevante, vlida y fiable.

Variables
El instrumento que hemos elegido est compuesto por 40 tems distribuidos en los siguientes factores: cumplimiento de las obligaciones, programa, metodologa, materiales, evaluacin, prcticas y satisfaccin. La escala de respuesta que se utilizar estar comprendida entre 1 (totalmente en desacuerdo) y 5 (totalmente de acuerdo) A continuacin expondremos en una tabla, las variables con sus tems correspondientes: VARIABLES Cumplimien to con las obligaciones Programa TEMS
1.- Asiste normalmente a clase y si falta lo justifica. 2.- Cumple adecuadamente (comienza y acaba) el horario de clase. 3.- Cumple con sus obligaciones de atencin a los estudiantes. 4.- Es accesible en el horario de tutoras. 5.- Da a conocer el programa (objetivos, contenidos, metodologa, evaluacin,...), extensin, desarrollo,..., a principio de curso. 6.- Lo explicado en clase responde al programa de la asignatura. 7.- Se preocupa de que sus clases sean buenas. 8.- Explica con claridad los conceptos implicados en cada tema. 9.- En sus explicaciones se ajusta bien al nivel de conocimiento de los estudiantes. 10.- Las clases estn bien preparadas, organizadas y estructuradas. 11.- Las explicaciones se hacen de forma ordenada y con claridad. 12.- Se preocupa de los problemas de aprendizaje de sus alumnos/as. 13.- Nos motiva para que participemos crtica y activamente en el desarrollo de la clase. 14.- Se nos incita a reflexionar en las implicaciones o aplicaciones prcticas de lo tratado en clase. 15.- La comunicacin profesor/a-estudiante es fluida y espontnea, creando un clima de confianza. 16.- Consigue que estemos motivados/as e interesados/as por la materia. 17.- La asistencia a clase es una ayuda importante para la comprensin de la asignatura. 18.- Los materiales recomendados (bibliografa, documentacin, etc.) me sirvieron de ayuda y son fcilmente accesibles. 19.- Los materiales de estudio (textos, apuntes, etc) son adecuados.

Metodolog a

Materiales

Actitud del /la profesor/a

20.- Utiliza con frecuencia ejemplos, esquemas o grficos, ..., para apoyar las explicaciones. 21.- Fomenta el uso de recursos (bibliogrficos o de otro tipo) adicionales a los utilizados en la clase y me resultan tiles. 22.- Realiza suficientes seminarios (lecturas, charlas, debates,...) relacionados con la asignatura. 23.- Es respetuoso/a con los estudiantes. 24.- Es accesible y est dispuesto/a a ayudarnos. 25.- Conozco los criterios y procedimientos de evaluacin en esta materia. 26.- En esta asignatura tenemos claro lo que se nos va a exigir 27.- Los criterios y procedimientos de evaluacin me parecen adecuados y justos. 28.- Los exmenes estn pensados para verificar fundamentalmente el grado de comprensin de los temas. 29.- Explica la calificacin y es capaz de revisarla si considera que puede haber error. 30.- El estudiante tiene posibilidad de conocer y corregir los criterios de correccin del examen. 31.- El nivel exigido en la evaluacin se corresponde con el que se imparte en clase. 32.- Da a conocer las calificaciones en el plazo establecido. 33.- La calificacin final es fruto del trabajo realizado a lo largo de todo el curso (trabajos, intervenciones en clase, exmenes, ...) 34.- Imparte suficientes clases prcticas de pizarra. 35.- Realiza suficientes prcticas de campo en relacin con la asignatura. 36.- En general, estoy satisfecho/a con la labor docente de este/a profesor/a. 37.- En general, me siento satisfecho/a asistiendo a sus clases. 38.- Considero que he aprendido bastante en esta asignatura. 39.- He dedicado comparativamente ms esfuerzo a esta asignatura que a otras asignaturas 40.- El nivel de esfuerzo dedicado a la materia es elevado.

Evaluacin

Prcticas

Satisfaccin

Fiabilidad: absoluta y relativa


En primer lugar debemos de hablar del concepto de fiabilidad, aportando definiciones dadas por diversos autores. Desde que en 1904 Spearman tratase el tema del error de medida hasta nuestros das, las definiciones y acepciones de uso respecto a la fiabilidad se han diversificado de tal manera que cuando hablamos de ella somos conscientes de que no nos estamos refiriendo a algo univoco, sino variable o relativo en funcin del anlisis o tratamiento que hagamos. Segn Feldt y Brennan la fiabilidad de un test hace referencia a la precisin, a la consistencia de la medida. Tambin se dice de un test que es fiable si aplicado varias veces a una misma muestra, en una misma

situacin, los resultados fueran los mismos en todas ellas. Por consiguiente, la fiabilidad hace referencia a la constancia en la medida. En un sentido ms amplio, la fiabilidad de la medicin psicolgica hace referencia a la magnitud de los errores aleatorios que se introducen en la operacin de medir en la realidad, la propiedad o atributo psicolgico, e indica hasta qu punto debe de atribuirse esos errores de medida a las diferencias individuales en las puntuaciones observadas en el test, y hasta qu punto esas diferencias los son de las puntuaciones verdaderas (sin error) de las caractersticas o atributos que estamos midiendo. Al hablar de la fiabilidad de un instrumento se hace referencia al grado de acuerdo entre diferentes resultados de un test que debera ser total, si el error de medida no existiera. De la revisin de la literatura sobre fiabilidad, las acepciones ms concisas son las siguientes: Estabilidad, permanencia, predictibilidad: es el sentido ms usual de la fiabilidad, pues indica que la prediccin es sobre el mismo atributo, con el mismo instrumento y se obtienen resultados estables, de tal manera que, conocida una medida de uno de los sujetos, podemos predecir cul sera la correspondiente en sucesivas operaciones. Exactitud, precisin: si el resultado obtenido es lo suficientemente preciso o carente de errores como para que podamos tener una adecuada confianza en que la cantidad medida refleja la verdadera existente en el atributo. Generalizabilidad, representatividad, consistencia: parecen claras dos cosas, primero, que el error aleatorio de medida es la clave fundamental de la fiabilidad y dos, que la fiabilidad en su obtencin, es una cuestin relativa al procedimiento o tcnica que empleamos para analizar el error de medida. Ello nos lleva a distinguir entre fiabilidad absoluta y fiabilidad relativa.

Se entiende por fiabilidad absoluta el porcentaje de la varianza absoluta o emprica, y permite estimar las probabilidades asociadas con los valores mximos y mnimos esperables, como efectos de infiabilidad o imprecisin del instrumento de medida empleado. En otras palabras, cuando un sujeto A, responde a un test J, obtenemos una puntuacin emprica U observada XJA, si no hubiese ningn error en la medicin efectuada EJA, obtendramos directamente su autentica o verdadera puntuacin en el atributo que mide el test, VJA. Dado que ello no ocurre as en la realidad, la diferencia entre ambas medidas es el error introducido aleatoriamente. En un conjunto de mediciones tendramos el error muestral, al cual nos referiremos aqu como

error de medida, y a la desviacin tpica de esa distribucin de errores aleatorios lo definimos como error tpico de medida. La fiabilidad absoluta trata de acotar a un nivel de confianza determinado los posibles valores verdaderos que corresponden a una puntuacin emprica determinada. Segn el tipo de error de medida que analicemos tendremos varias maneras de obtener esa zona de puntuaciones libres de error. La puntuacin emprica de la fiabilidad absoluta se descompone en dos partes: una verdadera y otra errnea. Es decir, cuando se obtiene una puntuacin en un test, en ella hay una parte verdadera y una parte que es errnea. Solamente cuando la puntuacin emprica coincide con la verdadera no se comete ningn error: X = V + E, donde X es la puntuacin emprica, la obtenida V es la puntuacin verdadera y E es la puntuacin errnea. En consecuencia, la varianza de las puntuaciones obtenidas se descompondr en dos partes tambin: varianza verdadera y varianza errnea: SX2 = SV2 + SE2 donde SX2 es la varianza emprica, SV2 es la varianza verdadera y SE2 es la varianza errnea. La fiabilidad absoluta hace referencia al porcentaje que, de la varianza absoluta o emprica, es la varianza verdadera. Si a la fiabilidad se le denomina rxx se tendra que rxx = SV2/ SX2 La fiabilidad mxima es igual a 1. Por consiguiente, el porcentaje de la varianza total o emprica explicada por la varianza verdadera (SV2/SX2) ms el porcentaje de la varianza total explicada por la varianza errnea (SE2/SX2) sumar 1: (SV2/ SX2) + (SE2/SX2) = 1 A la correlacin entre las puntuaciones verdaderas y las empricas (rvx) se le denomina ndice de fiabilidad. RXV = SX / SX As pues, el problema de la fiabilidad absoluta de un test hace referencia a la descomposicin de la varianza total, que es la nica que se obtiene directamente de las puntuaciones conseguidas por los sujetos. Saber cul es el error de medida que se comete al aplicar un test, ha de ser

una preocupacin bsica en el momento de dar publicidad a los resultados obtenidos con el mismo o de hacer un diagnstico. Cuando se estudia la llamada fiabilidad absoluta, se est intentando, por tanto, averiguar cul es el error cometido al obtener una determinada puntuacin. En suma, el objeto del estudio de la fiabilidad absoluta es conocer el error de medida. En cuanto a la fiabilidad relativa se puede decir que hace referencia a la correlacin del test consigo mismo. Esta correlacin se llama coeficiente de fiabilidad (rxx) Aunque siempre se habla de la fiabilidad de un test como si esta tuviera un valor absoluto, es inapropiado utilizarla en estos trminos, pues para el mismo test existe una fiabilidad para cada muestra y para cada momento. Ya que hay que tener en cuenta que la fiabilidad est relacionada directamente con la varianza de las puntuaciones empricas, y esta puede variar de muestra a muestra, y de momento a momento de aplicacin del test.

Modelos de fiabilidad
El coeficiente de fiabilidad es un indicador de la precisin de las puntuaciones observadas. Sin embargo, el coeficiente de fiabilidad es una cantidad terica, que debe ser estimada por algn procedimiento emprico diseado para que se respeten los supuestos tericos del modelo de tests paralelos que conserve la relacin entre el coeficiente y el ndice de fiabilidad. Esta situacin se lleva a cabo de dos formas diferentes: una, administrando un test solamente, y dos, administrando dos tests paralelos. Existen dos maneras para hallar la fiabilidad, una es el forma basada en la correlacin entre dos distribuciones de puntuaciones, y otro, es el procedimiento que requiere una sola administracin del test. La manera basada en la correlacin entre dos distribuciones de puntuaciones es un procedimiento emprico que requiere bien la administracin de dos formas paralelas de un test o bien la aplicacin en dos ocasiones del mismo test. Para hallar la fiabilidad con este procedimiento existen tres modelos diferentes: a. Procedimiento de las formas paralelas: este procedimiento es frecuente utilizarlo en la evaluacin del rendimiento y aptitudes, ya que los usos de las puntuaciones suelen requerir que los sujetos sean reevaluados, y no es deseable someterlos al mismo conjunto de tems. Es una forma deseable para que los sujetos no copien sus respuestas. Para este procedimiento se deben construir dos formas paralelas del test, que son administradas al mismo grupo de sujetos, dejando entre ambas administraciones un intervalo de tiempo. Es

decir, se administra el test 1, se deja pasar un tiempo, y se administra el test 2. El procedimiento detallado sera: 1. Muestra de sujetos: esto hace referencia a que no slo el nmero de sujetos debe ser suficientemente alto, sino que tambin, los sujetos deben ser de caractersticas similares a aquellos con los que est previsto usar finalmente el test. 2. Administracin del test: las condiciones de administracin del test (tiempo dado a los sujetos, instrucciones, etc.) deben ser similares a las condiciones en las que est previsto usar finalmente el test. Por otro lado a la hora de determinar dichas condiciones es importante tener en cuenta el momento de la administracin ya que es una fuente de error de medida. Por eso, el responsable del estudio tendr que disear un control experimental, para minimizar en lo posible dichos errores. 3. Lapso de tiempo: el objetivo ser obtener medidas repetidas, de los mismos objetos bajo las mismas condiciones. La funcin de este intervalo de tiempo, es que haya los mnimos cambios posibles en los sujetos y en las condiciones. Es aconsejable que el intervalo de tiempo sea breve, para evitar dichos cambios. 4. Aplicacin de una forma paralela del test a la misma muestra de sujetos: es casi imposible construir dos tests que sean completamente paralelos, por ello basta con formas razonablemente equivalentes. Adems es importante contrabalancear el orden de administracin de los test, de forma que para la mitad de los sujetos se les presente de forma test1-test2, mientras que para el resto sea test2-test1. 5. Clculo de la correlacin entre las puntuaciones de ambas administracin: el coeficiente que se obtiene tras este clculo se denomina coeficiente de equivalencia, cuanto mayor sea este ms seguro estar el usuario del test de que las diferentes formas pueden ser intercambiables. A continuacin presentamos una tabla con las caractersticas principales de ste procedimiento:

Fase
Muestra de sujetos Aplicacin del test Lapso de tiempo Aplicacin forma paralela del test Clculo de la correlacin -

Finalidad de la fase
Nmero alto Homogneos Condiciones similares al test 2 Breve Test equivalentes Contrabalanceo Coeficiente de equivalencia

Adems hay que tener en cuenta que el informe de fiabilidad del test debe ir acompaado de datos como medias o desviaciones tpicas, y errores tpicos de medida para cada forma. Para finalizar un resumen de este modelo sera, el procedimiento utilizado, son las formas paralelas (hallado con el coeficiente de equivalencia); las fuentes de error, se deben a la falta de equivalencia entre las dos formas; es apropiado utilizar rasgos inestables y tareas fciles de recordar, y viceversa. b. Procedimiento Test-Retest: en este modelo se administra el test en dos ocasiones diferentes, dejando transcurrir un intervalo entre ambas aplicaciones, y calculando la correlacin entre los dos conjuntos de puntuaciones. La principal fuente de error ser el cambio en las puntuaciones de los sujetos, debido a las oscilaciones que puedan producirse en los mismos como consecuencia del paso del tiempo entre una administracin y otra; siendo necesario controlar la posibilidad de recuerdo de las respuestas, por parte del sujeto. En este caso se utiliza el coeficiente de estabilidad, debido a que ofrece informacin sobre la estabilidad de las puntuaciones. Se debe pasar el mismo test en las dos ocasiones y las fases que se deben seguir son: 1. Muestra de sujetos: esto hace referencia a que no slo el nmero de sujetos debe ser suficientemente alto, sino que tambin, los sujetos deben ser de caractersticas similares a aquellos con los que est previsto usar finalmente el test. 2. Aplicacin del test: las condiciones de administracin del test (tiempo dado a los sujetos, instrucciones, etc.) deben ser similares a las condiciones en las que est previsto usar finalmente el test. Por otro lado a la hora de determinar dichas condiciones es importante tener en cuenta el momento de la administracin ya que es una fuente de error de medida. Por eso, el responsable del estudio tendr que disear un control experimental, para minimizar en lo posible dichos errores. 3. Lapso de tiempo: el objetivo de este es que no varen ni los sujetos ni las condiciones de medida. Ya que es posible la influencia del recuerdo. Es aconsejable aumentar la duracin del intervalo. El intervalo depender de: la naturaleza de la tarea que se demanda a los sujetos y de las caractersticas o naturaleza de la variable medida. 4. Administrar nuevamente el test a la muestra de sujetos.

5. Clculo de la correlacin entre las puntuaciones de ambas administraciones: el resultado ser una estimacin del coeficiente de fiabilidad, que recibe el nombre de coeficiente de estabilidad. A continuacin presentamos una tabla con las caractersticas principales de ste procedimiento:

Fase
Muestra de sujetos Aplicacin del test Lapso de tiempo -

Finalidad de la fase
Nmero alto Homogneos Condiciones similares al test 2 Medio Naturaleza Tarea de los sujetos Variable medida Mismo test Coeficiente de estabilidad

Aplicacin del test Clculo de la correlacin

La estimacin del coeficiente de estabilidad terico, representa una forma no del todo segura, para hallar la fiabilidad. Como resumen, el procedimiento utilizado es el test-retest, mediante el coeficiente de estabilidad; las fuentes de error, pueden ser dadas por el cambio de los sujetos, o el recuerdo o aprendizaje de la tarea; y en este procedimiento es adecuado utilizar tareas estables y difciles de recordar. c. Procedimiento Test-Retest con formas paralelas: Se trata de un procedimiento de formas paralelas en el que se incrementa la duracin del intervalo entre administraciones o bien de un procedimiento test-retest en el que la segunda administracin se realiza con una forma paralela. Su coeficiente recibe el nombre de coeficiente de estabilidad y equivalencia. Los pasos a seguir son los siguientes: 1. Muestra de los sujetos: esto hace referencia a que no slo el nmero de sujetos debe ser suficientemente alto, sino que tambin, los sujetos deben ser de caractersticas similares a aquellos con los que est previsto usar finalmente el test. 2. Aplicacin de una forma del test: es conveniente contrabalancear el orden de presentacin de los dos tests. 3. Lapso de tiempo: el lapso de tiempo sera ms semejante al del procedimiento test-retest, salvo que los dos test difieren en contenido. 4. Administrar el segundo test a la misma muestra de sujetos.

5. Clculo de la correlacin entre las puntuaciones de ambas administraciones: el coeficiente utilizado es el denominado coeficiente de equivalencia y estabilidad. A continuacin presentamos una tabla con las caractersticas principales de ste procedimiento:

Fase
Muestra de sujetos Aplicacin de una forma del test Lapso de tiempo Aplicacin del test Clculo de la correlacin -

Finalidad de la fase
Nmero alto Homogneos Contrabalanceo Medio Test 2 Coeficiente de equivalencia Coeficiente de estabilidad

En resumen, este modelo utiliza el procedimiento test-retest con formas paralelas, hallado mediante el coeficiente de equivalencia y estabilidad; las fuentes de error, se originan por el cambio de los sujetos, el recuerdo o aprendizaje de la tarea, o la falta de equivalencia entre las formas. La otra manera es la basada en el procedimiento que requiere una sola administracin del test. En ocasiones el usuario del test est interesado en la fiabilidad de las puntuaciones obtenidas en una sola administracin del test. Su objetivo principal es conocer hasta qu punto la puntuacin en ese conjunto puede ser generalizable a todos los tems, que podran utilizarse para operativizar el rea de contenido. El grado de consistencia de las respuestas de los sujetos es una forma de examinar este grado de generalizabilidad en las puntuaciones del dominio. Los procedimientos desarrollados para dar cumplimiento a ese objetivo se denominan mtodos de consistencia interna. En este sentido se trata de evaluar si dos mitades del test se comportan como sub-tests paralelos, o si los tems del test son paralelos unos a otros. En estos procedimientos de consistencia interna, la mayor fuente de error viene representada por errores en la eleccin de los tems. Por tanto, la consistencia interna es un ndice tanto de la homogeneidad de los tems como de su calidad tcnica. La varianza de las puntuaciones totales de un test es:

t2 = v2 + e2 t2 = Varianza total: expresa todo lo que hay de diferente en las


puntuaciones totales. La varianza ser mayor si los sujetos difieren mucho entre si y estar asociada a mayor fiabilidad.

v2 = Varianza verdadera: expresa lo que hay de diferente debido a


que los sujetos son distintos en lo que pretendemos medir, es decir, lo que hay de diferente debido a lo que los tems tienen en comn.

e2 = Varianza debida a errores de medicin: debida a que los tems


miden en parte cosas distintas. Puede haber ms fuentes de error pero controlamos la debida a falta de homogeneidad. La fiabilidad es la proporcin de varianza verdadera, es decir la fiabilidad es igual a la varianza debida a lo que hay de coherente en las respuestas entre la varianza debida tanto a lo que hay de coherente como de no coherente en las respuestas y su formula bsica es: r11 Los requisitos para obtener una alta fiabilidad son: 1. Tendremos una fiabilidad alta cuando haya diferencias en las respuestas a los tems, es decir, cuando los tems discriminan. Si un tem no est relacionado con los dems puede ser que no est midiendo lo mismo y que no sea discriminante. 2. Y tambin cuando las respuestas de los tems estn relacionadas entre si, entonces habr consistencia interna. Esto es que los sujetos tienden a puntuar alto en todos o bajo en todos. Con respuestas diferentes y adems coherentes, los sujetos quedan ms diversificados, mejor clasificados por sus puntuaciones totales y esto se refleja en una mayor varianza. La fiabilidad viene a expresar la capacidad del instrumento para discriminar, para diferenciar a los sujetos a travs de sus respuestas en todos los tems. Hay dos grupos fundamentales de este procedimiento: a. Basados en la correlacin entre dos mitades: estos procedimientos necesitan de una sola administracin para ser realizados. En este caso las medidas repetidas del mismo objeto se obtiene separando el test en dos mitades y calculando la puntuacin del sujeto en cada mitad. Ambos sub-tests se consideran paralelos. Las fases para realizar este procedimiento son: 1. Muestra de sujetos: esto hace referencia a que no slo el nmero de sujetos debe ser suficientemente alto, sino que tambin, los sujetos deben ser de caractersticas similares a aquellos con los que est previsto usar finalmente el test. 2. Aplicacin del test a la muestra de sujetos.

3. Divisin del test en dos partes iguales: el usuario de test puede dividir el test de muchas formas diferentes, y puede ser que el resultado final no sea el mismo en todos los casos. Ambas mitades deben ser equivalentes. La divisin puede realizarse colocando aleatoriamente los tems en cada parte del test, pero puede producir dos mitades no paralelas. Otra manera de realizar la divisin consiste en ordenar los tems en dificultad, numerarlos y asignar los pares a una mitad y los impares a otra. 4. Calcular la correlacin entre las puntuaciones de las dos mitades: el coeficiente de correlacin obtenido no corresponde al coeficiente de fiabilidad del test. Indica el coeficiente de fiabilidad de medio test. Es decir, indica el coeficiente de equivalencia entre las mitades del test. 5. Estimacin del coeficiente de fiabilidad del test: utilizar la frmula Spearman-Brown para corregir el valor de correlacin obtenido en el punto anterior.

r11 =

2 r12 1 + r12

A continuacin presentamos una tabla con las caractersticas principales de ste procedimiento:

Fase
Muestra de sujetos Aplicacin del test Dividir el test Clculo de correlacin Estimacin de la fiabilidad -

Finalidad de la fase
Nmero alto Homogneos A la muestra En dos mitades Coeficiente de fiabilidad de medio test Frmula Spearman-Brown

b. Basado en la correlacin de tems: existen dos procedimientos que son el desarrollado por Cronbach y el desarrollado por Kuder y Richardson. Es habitual dividir el test en tems pares e impares, pero puede dividirse en dos mitades cualesquiera, teniendo ambas el mismo nmero de tems. Si emparejamos los tems segn contenido de manera que cada mitad del test conste de tems muy parecidos, obtendremos una estimacin ms alta de la fiabilidad. Cuando la mitad de los tems son positivos y los otros negativos es til que las dos mitades estn compuestas una por tems positivos y otra por los negativos. Una correlacin entre los dos sub-test en torno a 0,50 o mayor indica suficiente coherencia entre los dos tipos de tems y no se manifiesta aquiescencia.

Las frmulas de Alfa de Cronbach y de Kuder-Richardson (KR20) son las mismas, aunque una expresada para tems dicotmicos (KR20) y la otra para tems continuos (Cronbach) r11=

v2 = t2

El denominador es la varianza de las puntuaciones totales del test. El numerador es la varianza verdadera, o la suma de covarianzas de los tems. Si los tems no discriminan sus desviaciones tpicas sern pequeas, bajara el numerador y bajara la fiabilidad. Si las desviaciones tpicas son grandes pero los tems no estn relacionados bajara la fiabilidad, porque esa no relacin entre los tems hace que las puntuaciones totales estn menos diferenciadas. A continuacin desarrollamos los dos procedimientos citados anteriormente: Coeficiente alfa de Cronbach (1951): dentro de la Teora Clsica de los Tests (TCT) el mtodo de consistencia interna es el camino ms habitual para estimar la fiabilidad de pruebas, escalas o test, cuando se utilizan conjuntos de tems o reactivos que se espera midan el mismo atributo o campo de contenido. La principal ventaja de ese mtodo es que requiere solo una administracin de la prueba; adems, los principales coeficientes de estimacin basados en este enfoque son sencillos de computar y estn disponibles como opcin de anlisis en los programas estadsticos ms conocidos, como SPSS, Statistica o SAS. Dentro de esta categora de coeficientes, Alfa de Cronbach es, sin duda, el ms ampliamente utilizado por los investigadores. Alfa estima el lmite inferior del coeficiente de fiabilidad y se expresa como:

Donde k es el nmero de tems de la prueba, Si2 es la varianza de los tems (desde 1...i) y S2 t es la varianza de la prueba total. El coeficiente mide la fiabilidad del test en funcin de dos trminos: el nmero de tems (o longitud de la prueba) y la proporcin de varianza total de la prueba debida a la covarianza entre sus partes (tems). Ello significa que la fiabilidad depende de la longitud de la prueba y de la covarianza entre sus tems.

Histricamente, la importancia y popularidad del trabajo de Cronbach puede atribuirse, entre otras cosas, al progreso realizado con respecto a los enfoques existentes en el momento. En relacin con el mtodo de divisin por mitades (Spearman-Brown), el coeficiente ofreca una estimacin nica de fiabilidad, consistente en la media de las estimaciones para todas las posibles mitades; y en relacin con los mtodos desarrollados por Kuder y Richardson, Cronbach extenda la estimacin al caso de datos no binarios. Desde entonces, el coeficiente ha sido permanente objeto de estudio, siendo analizado en lo relativo a sus formas de derivacin, sus propiedades estadsticas, su relacin con el anlisis factorial clsico y desde los modelos de ecuaciones estructurales, entre otros aspectos. Hemos elegido alfa de Cronbach debido a que al ser un cuestionario de calidad de profesorado solamente se pasa una vez a cada sujeto. Tambin porque este cuestionario utiliza tems continuos, es decir, de 1 a 5. Adems, mide el mismo atributo, la calidad del profesorado. Lo hemos escogido porque es el mejor indicador de fiabilidad que existe en este momento, y asimismo es el ms utilizado por los investigadores en la realizacin de sus estudios psicomtricos. Kuder-Richardson: con este procedimiento se llega a la misma conclusin que con el alfa de Cronbach. Sin embargo, esta frmula se utiliza nicamente con tems dicotmicos (con dos alternativas), si los tems tienen ms de dos alternativas debe utilizarse la frmula propuesta por Cronbach. Kuder y Richardson, en el 1937, desarrollaron varios modelos para estimar la fiabilidad de consistencia interna de un test, siendo el ms conocido el llamado KR20, es la siguiente:

k pq = 1 t2 k 1
Para poder entender mejor el modelo de Kuder-Richardson presentamos un ejemplo numrico:

De acuerdo con el resultado anterior, se concluye que el instrumento en estudio tiene una fiabilidad de consistencia interna muy baja. Al respecto, es importante sealar que este tipo de resultados es esperable en los casos cuando se utilizan pruebas cortas (n < 10 tems), ya que, la fiabilidad de una medida es una funcin directa de su extensin (nmero de tems) de la prueba. A la hora de hacer una interpretacin de estos coeficientes de consistencia interna tendremos que tener en cuenta que: Expresa la proporcin de varianza debida a lo que los tems tienen de relacionado. Un coeficiente de 0,70 indica el 70% de la varianza se debe a lo que los tems tienen en comn, y un 30% se debe a errores de medicin. Son indicadores de homogeneidad de los tems, de que todos midan lo mismo. La homogeneidad conceptual se interpreta como descriptor del rasgo que suponemos presente en todos los tems. Son una estimacin del coeficiente de correlacin que podemos esperar con un test similar, con el mismo nmero y tipo de tems. De un universo de posibles tems hemos escogido una muestra de tems. Si la fiabilidad es alta, con otra muestra de tems de la misma poblacin de tems obtendramos unos resultados semejantes. La fiabilidad nos dice si un test discrimina adecuadamente, si clasifica bien a los sujetos, si detecta bien las diferencias en aquello que es comn a todos los tems.

La raz cuadrada de un coeficiente de fiabilidad equivale al coeficiente de correlacin entre las puntuaciones obtenidas y las puntuaciones verdaderas, a estos se le llama ndice de precisin. ndice de precisin = r11 Una fiabilidad de 0,75 indicara una correlacin de 0,86 (= 0,75 ). Este ndice expresa el valor mximo que puede alcanzar el coeficiente de fiabilidad.

El error tpico es la oscilacin probable de las puntuaciones si los sujetos hubieran respondido a una serie de test paralelos. A mayor fiabilidad bajara la magnitud del error probable.

La utilidad de los coeficientes de fiabilidad es que confirman que todos los tems miden lo mismo y se utilizan como un control de calidad. Adems, permiten calcular el error tpico de las puntuaciones individuales, es decir, entre que valores se encontrara nuestra puntuacin verdadera, entendiendo por ello la que tendramos si passemos varios test. Y por ltimo, permiten estimar los coeficientes de correlacin que hubiramos obtenido entre dos variables si su fiabilidad fuera perfecta (se denominan corregidos por atenuacin) Los coeficientes no dependen exclusivamente de la redaccin de los tems, de la complejidad o simplicidad de la definicin del rasgo que queremos medir y adems influyen en la fiabilidad caractersticas de la muestra.

Errores
El primer modelo de puntuacin observada, a travs del cual se intent tratar el problema de la incertidumbre o error inherente a cualquiera de las medidas realizadas mediante la aplicacin de un test, fue el presentado por Spearman en 1904, donde plante el clsico Modelo Lineal de Puntuaciones. La teora basada en el modelo de Spearman, fue denominada tambin Teora de las Puntuaciones Verdaderas o Teora Clsica de los Tests. Las hiptesis bsicas de la teora clsica de las puntuaciones verdaderas son las de un modelo aditivo lineal, donde la variable endgena o dependiente es la que corresponde a la puntuacin observada en las pruebas, es la variable explicada que viene determinada por el fenmeno que el modelo traduce; y la variable exgena o independiente es la correspondiente a las puntuaciones verdaderas de los sujetos. Hiptesis 1. Hiptesis Fundamental: Cualquier puntuacin observada X es funcin de dos componentes, que son la puntuacin verdadera V del sujeto y el error e.

X=V+e En esta relacin, X juega el papel de una variable aleatoria sobre una poblacin de individuos que toma valores V = vg sobre g personas de una poblacin de tamao N. La variable V es otra variable aleatoria asociada que toma valores V = vg sobre . 2. Hiptesis de nulidad de los errores: Los errores, en promedio, se anulan. Por lo tanto, en el modelo hay que suponer que la media aritmtica de los errores es cero. Esto indica que su esperanza matemtica es cero: E (e) = 0 Adems de sta, se pueden hacer considerar otras hiptesis acerca de los errores pues para hacer inferencias se supone adems que los errores se distribuyen segn una ley normal y que el modelo es homocedstico, es decir, que para cualquier i , j las variancias de los errores son iguales. Var (ei) = 2ei = 2ej = Var (ej) para todo i, j 3. No existe correlacin entre las puntuaciones verdaderas y el error en una misma prueba. rvg eg = 0 4. No existe correlacin entre los errores: rei ej = 0 para todo i,j 5. No existe correlacin entre las puntuaciones verdaderas y los errores en formas distintas de un mismo test o en tests diferentes: rvj
ej

= 0 para todo j

Medir consiste en comparar una magnitud con otra que utilizamos como patrn (unidad). Este proceso lleva siempre implcito una indeterminacin, es decir siempre que medimos, por razones muy diversas y, en general, difciles de evitar, corremos el riesgo de no acertar con el valor exacto de la magnitud que queremos conocer. Unas veces esto es debido a la imperfeccin de nuestros instrumentos, o al diseo del proceso de medida, o a factores ambientales, etc. De manera que cuando expresamos el valor medido de una magnitud debemos siempre hacer una estimacin del grado de confianza con el que hemos realizado la medida. De acuerdo con el origen de estos errores podemos clasificarlos en: Error humano: Descuido al hacer las medidas, forma inadecuada de hacerlas, etc.

Limitaciones de los aparatos: Pueden ser debidas a estar estropeados, mal calibrados o tener poca precisin. Influencias ajenas al experimento: Interferencias, variaciones de temperatura, etc.

1) TIPOS FUNDAMENTALES DE ERROR


Errores sistemticos: Son los debidos a la presencia de un factor no considerado en el montaje experimental o al mal conocimiento de algn otro. Como consecuencia el valor medido est siempre por encima o por debajo del valor verdadero. Pueden tener su origen en deficiencias de los aparatos. Su existencia es difcil de detectar pero son los ms fciles de corregir pues slo requieren de la adecuada calibracin del aparato. Errores accidentales:

Son los resultantes de la contribucin de numerosas fuentes incontrolables que desplazan el valor medido por encima y por debajo del valor real. Idealmente puede considerarse que su contribucin es absolutamente al azar, de forma que aunque son imposibles de eliminar totalmente, pueden ser estimados y de esta forma obtener el grado de confianza con el que hemos realizado la medida.

2) ERRORES EN OBSERVACIONES DIRECTAS


Los errores estadsticos o aleatorios pueden ser estimados realizando un cierto nmero de veces, n, el experimento. A estas medidas repetidas de una cierta magnitud, x1, x2, x3, xn, las llamaremos datos. Valor medio El mejor valor que podemos entonces ofrecer para la magnitud medida es la media, o valor medio.

Desviacin: Se define la desviacin de cada medida como la diferencia entre el valor medido y el valor verdadero. Como el valor verdadero

es imposible de medir, tomaremos como desviacin de cada medida la diferencia entre su valor y el valor medio, y la denominaremos desviacin estimada. Desviacin estndar Para estimar el error cometido en una serie de medidas se puede realizar una media de sus desviaciones. Como stas se producen al azar para que no se compensen unas con otras lo mejor es promediar sus cuadrados. En estadstica se llama desviacin estndar a este promedio de desviaciones. El cuadrado de la desviacin estndar, 2, es la varianza. Precisin Es la medida ms pequea que podemos realizar con un aparato. Cuando el nmero de medidas realizadas no sea significativo este valor es la mejor estimacin del error cometido.

Ejemplo:

La precisin de la regla de la izquierda es de 1mm. Si realizamos una sola medida de la longitud, l, del segmento escribiremos:

l = 1.2cm 0.1cm = (1.2 0.1) cm

Para la regla de la derecha la precisin es de 0.5mm. Si realizamos una sola medida del mismo segmento escribiremos:

l = 1.20cm 0.05cm = (1.20 0.05) cm

Error absoluto Tomaremos como valor del error en la medida la mayor de sus estimaciones, es decir, o la desviacin estndar o la precisin de los instrumentos. El error absoluto se expresa en las mismas unidades que la magnitud que se est midiendo.

Bibliografa
Page, M. (1993). Elementos de Psicometra. Eudema Universidad. Rivas Martnez, F. (1984). Elementos de Psicometra (II): Fiabilidad. Ed. Rubio Estban. Garca Cueto, E. (1996). Aplicacin de modelos psicomtricos para tests y medidas alternativas en psicometra. Psicothema, 8, 297307. Muiz, J. (1998). La medicin de lo psicolgico. Psicothema, 10, 121. Ledesma, R.; Molina Ibez, G. y Valero Mora, P. (2002). Anlisis de consistencia interna mediante Alfa de Cronbach: un programa basado en grficos dinmicos. Psico-USF, 7, 143-152. Ezpeleta, L.; de la Osa, N.; Domenech, J. M; Blas Navarro, J. y Losilla, J. M. (1997). Fiabilidad test-retest de la adaptacin espaola de la diagnostic interview for children and adolescents (DICA-R). Psicothema, 9, 529-539. Richaud de Minzi, M C. (2008). Artculo metodolgico: nuevas tendencias en psicometra. Evaluar, 8, 1-19. Apuntes de la Universidad Nacional de Educacin a Distancia (UNED) Apuntes de la Universidad de Granada Apuntes Universidad Autnoma de Madrid (uam) Ruz Bolvar, C. Programa Interinstitucional Doctorado en Educacin. Barraza Macas, A. (2007). Apuntes sobre metodologa de la investigacin. Universidad pedaggica de Durango. Daz Atienza, J. Diagnstico: instrumentos evaluacin.

Anda mungkin juga menyukai