Anda di halaman 1dari 8

Physical Therapy in Sport 4 (2003) 122128 www.elsevier.

com/locate/yptsp

Confiabilidad en la prctica clnica basada en la evidencia: un manual para profesionales de la salud asociados
Alan M. Batterhama,1, Keith P. Georgeb,*
Seccin de Deporte y Ejercicio, Escuela de Ciencias Sociales, Universidad de Teesside, Middlesborough TS1 3BA 3BA, UK b Departamento de Ciencias del Deporte y Ejercicio, Facultad Crewe and Alsager, Universidad Metropolitana de Manchester, Campus Alsager , Alsager, Cheshire ST7 2HL, UK Resumen El objetivo de este documento es proveer un tutorial sobre confiabilidad en la investigacin y en la prctica clnica. Confiabilidad se define como la cualidad de una medida que entrega puntajes reproducibles en ejecuciones repetidas de un test. La confiabilidad es un pre-requisito para otorgar validez a una prueba. Todas las mediciones estn sujetas a la medicin del error. El sesgo sistemtico es un cambio no aleatorio entre las pruebas en una situacin de test re- test. El error aleatorio es el ruido en la medicin o en el test. El sesgo sistemtico debera ser evaluado separadamente de las estimaciones y del error aleatorio. Para variables medidas en una escala de intervalos de relacin la estimacin ms apropiada del error aleatorio es el error tpico, el porcentaje del coeficiente de variacin y un lmite de un 95% para la concordancia. Estos pueden ser derivados mediante procesos de anlisis de la varianza. La confiabilidad estimada relativa, ms que la absoluta, se puede obtener a partir del coeficiente de correlacin intraclase. Es recomendada para variables que posean categoras como el valor del coeficiente kappa. Con una independencia de la estadstica seleccionada, el 95% de los intervalos de confianza deberan ser reportados para definir el rango de valores dentro del cual el verdadero universo de valores probablemente se encuentre. Pequeos errores aleatorios implican mayor precisin para ensayos individuales. Test y mediciones ms precisas facilitan una monitorizacin ms sensible de los efectos de las intervenciones de tratamiento en la investigacin o en el escenario de la prctica. 2003 Elsevier Ltd. Todos los derechos Reservados. Palabras Claves: Confiabilidad; Sesgo Sistemtico; Erro Aleatorio.
a

1. Introduccin 1.1. Objetivos


Este trabajo es el segundo de una serie de documentos diseados para aportar conocimiento importante, Habilidades y capacidades en el campo del diseo de la investigacin, metodologa y estadstica. Los profesionales de la salud asociados esperan llevar a cabo ellos mismos sus investigaciones originales o usar sus descubrimientos en investigacin en la prctica, esto requiere una fuerte base para asegurar el rigor cientfico en sus propias investigaciones y facilitar as una interpretacin critica de la literatura existente. El documento previo introduce el concepto crucial de validez. Aqu abordamos el tpico de la confiabilidad en la investigacin y en la prctica clnica. Nuestro objetivo es, primero, definir conceptos claves y trminos, segundo, ilustrar con ejemplos de datos los apropiados mtodos estadsticos requeridos para evaluar confiabilidad.

1.2. Definicin Operacional


Confiabilidad es definida como la cualidad de reproductibilidad que posee una medicin. Reproductibilidad indica el grado con el cual un test o una medicin producen el mismo puntaje cuando es aplicado repetidamente en las mismas circunstancias. (Nelson, 997). Un estudio de repetitividad es requerido para ayudar a establecer y cuantificar la reproductibilidad y eso provee una indicacin de la confiabilidad test re-test de la medicin. Definiendo de esta manera, la confiabilidad es un pre-requisito claramente esencial para dar validez a un test. Si un test o una herramienta de medicin no puede proveer reproductibilidad en tomas repetidas, en las mismas condiciones, entonces nunca ser considerado como un test valido. Los trminos confiabilidad, repetitividad, reproductibilidad y confiabilidad test re-test, as como consistencia y estabilidad, son a menudo usados indistintamente en la literatura. En este documento nos referiremos a la confiabilidad para indicar el grado en el cual la puntuacin de una muestra de sujetos en un test puede ser reproducida en los subsecuentes test o ensayos con los mismos participantes del estudio en las mismas circunstancias. En las mediciones clnicas dos principales tipos de confiabilidad son de interes, intra-evaluador e inter- evaluador. Confiabilidad intra-evaluador se refiere a la consistencia de un practicante o un

Reprinted from Physical Therapy in Sport Vol. 1, pp. 54 62 (2000), original doi: 10.1054/ptsp.2000.0010. With permission from Elsevier Ltd. * Corresponding author. E-mail address: a.batterham@tees.ac.uk (A.M. Batterham). 1 Tel.: 44-1642-342354; fax: 44-1642-342399.
q

1466-853X/03/$ - see front matter q 2003 Elsevier Ltd. All rights reserved. doi:10.1016/S1466-853X(03)00076-2

A.M. Batterham, K.P. George / Physical Therapy in Sport 4 (2003) 122128

123

investigador, y su herramienta de medicin. Por ejemplo, considerar a un terapista interesado en el peak de torque producido por los extensores de rodilla en un dinammetro isocinetico a una velocidad fija. Diez pacientes realizan el test dos veces con el mismo terapista, en el mismo dinammetro, con dos das de separacin. Un anlisis de la reproductibilidad de los puntajes del test indican un grado de confiabilidad intra-evaluador. Si cada paciente reproduce exactamente el mismo valor en la segunda ocasin, quiere decir que posee una perfecta confiabilidad intraevaluador. Confiabilidad inter-evaluador se refiere a la reproductibilidad de la medicin entre dos o ms investigadores. Por ejemplo, dos terapistas son instados, independientemente, a examinar 10 tobillos usando palpacin, observando por signos de injuria de la sindesmosis de tobillo. Los terapistas reportan un diagnostico positivo o negativo basados en la examinacin fsica. El grado en que los dos terapistas estn de acuerdo indica la confiabilidad inter-evaluador. Si los dos terapistas concuerdan en los 10 tobillos seria una confiabilidad interevaluador perfecta. La valoracin de la confiabilidad intra- e inter- evaluador es importante si el objetivo es puesto en la validacin del test o la medicin. Para otorgar mayor ilustracin en accin de este concepto, hemos anexado debajo parte del resumen de un reciente trabajo. (Schoppen et al., 1999). Objetivo. Determinar la confiabilidad intra- e inter-evaluador y la validacin del tiempo del test up and go com o una medicin de la movilidad fsica en pacientes de edad con amputacin de una extremidad inferior. Diseo Para probar la confiabilidad interevaluador del test, este fue realizado por dos observadores a diferentes tiempos en el mismo da en un orden alternado. Para probar la confiabilidad intra-evaluador, los pacientes realizaron el mismo test para cada observador en dos visitas consecutivas, con un intervalo de dos semanas.

2. Confiabilidad y Medicin del error. En la prctica clnica y la investigacin, por supuesto, la confiabilidad intra- e inter- evaluador nunca es perfecta. Muchos factores puede influenciar la confiabilidad de un test o de una medicin. Varias influencias confusas son presentadas en el artculo previo de esta serie, con el nombre de amenazas a la validez . Por ejemplo maduracin e historia pueden afecta r negativamente a la confiabilidad. En una situacin test re-test es a menudo importante que no exista una muy larga brecha entre realizaciones repetidas del test. Un intervalo de varias semanas, por ejemplo, puede llevar a cambios en la variable bajo estudio, el cual no necesariamente significa una pobre confiabilidad. Como ilustracin, regresando al test previo en la isocinetica como medio de ejemplificar confiabilidad intra-evaludor. Imaginado que, en vez de dos das de periodo, hay 6 semanas de periodo entre el test y el retest. El lector puede pensar sin duda que el rango de una confusion potencial es causado por la intervencin en el intervalo de tiempo. Recordar tambin que en la definicin de confiabilidad se seala que las circunstancias de la prueba deben de ser las mismas en las diferentes evaluaciones. Cualquier factor relacionado con el test o las situaciones de medicin que difieren considerablemente de la test con el retest pueden influir negativamente en la confiabilidad y validez. Estos pueden ser factores simples relacionados a los sujetos participantes en el estudio, como por ejemplo falta de sueo, injurias menores o enfermedad. (Baumgartner and Jackson, 1995). O pueden

presentarse problemas relacionados con la calibracin u operacin del instrumento de medicin. Por ejemplo, si el dinammetro isomtrico fue calibrado de forma diferente o inapropiada en una evaluacin la confiabilidad del test puede estar comprometida. Todos los test y mediciones est presente la posibilidad de un error de medicin. La evidencia basada en la prctica requiere un trabajo en el conocimiento de la medicin del error para poder llevar a cabo e interpretar una investigacin. En la prctica clnica y en la investigacin, una examinacin de la confiabilidad requiere mediciones repetidas en una muestra de sujetos. En general, dos tipos de error pueden acompaar las mediciones, El error aleatorio y el error sistemtico. El error aleatorio se refiere como el ruido en la medicin o el test, un pequeo error aleatorio en repetidas evaluaciones de un test nos indican una buena confiabilidad. El error sistemtico es un tipo de error no aleatorio que genera un cambio en los resultados de las evaluaciones entre un test y un re-test, mediante el cual todos los sujetos realizan de manera consistente una mejor evaluacin. Los errores aleatorios son resultado de diferentes procesos (Hopkins, in press). El error biolgico representa el cambio en las capacidades de una persona entre un test y el re-test. Por ejemplo, si una persona presenta cambios de su fuerza muscular entre la primera visita y la segunda visita debido a adaptaciones psicolgicas o factores psicolgicos como la motivacin. Cuanto mayor sea el periodo intermedio de tiempo mayor es la probabilidad de error biolgico. Como se menciono anteriormente, problemas de instrumentacin o del equipo y una alteracin de variables pueden tambin contribuir a la generacin de ruido en la medicin. El error sistemtico puede ser resultado de un efecto de aprendizaje o del efecto de la fatiga en la realizacin de test repetidos. Este inconveniente nos muestra que en el test existe una amenaza a la confiabilidad interna mediante el cual la fase de pre-test puede influenciar los resultados obtenidos en la fase de post-test. Por ejemplo, en una serie de repeticiones en un dinammetro mximo isocinetico las evaluaciones de los pacientes pueden ser significativamente alteradas si el intervalo de tiempo entre los test es demasiado corto. Esto podra generar que los valores registrados vayan decreciendo sistemticamente a medida que las repeticiones de cada test se vayan realizando. En otras instancias los pacientes que comienzan a aprender el protocolo pueden ir mejorando durante la evaluacin y esto se ver influenciado por el proceso de aprendizaje, el cual puede incrementar la confiabilidad debido a su mayor habilidad para realizar el test. Este ejemplo nos seala la importancia de una adecuada habituacin de los sujetos en el test y a los procedimientos del mismo. Solo de esta forma se puede asegurar una confiabilidad en la conduccin de un test. Conceptualmente, la confiabilidad en el marco del test re-test es relativamente sencilla, pero se hace menos clara cuando intentamos cuantificar la confiabilidad. Ciertamente para el registro de datos no existe un concepto en la literatura, pero se bosquejan diferentes acercamientos y tcnicas estadsticas en la misma, resultando en una confusin para el investigador y el practicante. Nos referiremos a lectores interesados en un mas profundo anlisis de las teoras competentes y mtodos que se han presentado en una excelente revisin reciente por Atkinson and Nevill (1998);

124

A.M. Batterham, K.P. George / Physical Therapy in Sport 4 (2003) 122128

Hopkins (in press). Presentamos el acercamiento y las consiguientes tcnicas estadsticas que consideramos ms apropiadas e instructivas. El primer ejemplo se enfoca en la confiabilidad intra-evaluador para variables en el nivel de intervalo de relacin de la medicin de variables que tienen nmeros reales como valores. El segundo ejemplo relaciona la confiabilidad inter-evaluador para variables nominales que poseen niveles o categoras como valores.
Fig. 1. Mean peak torque in shoulder flexion across three trials.

3. Un ejemplo prctico para la confiabilidad intra-observador 3.1. Escenario Los datos utilizados en este ejemplo se obtuvieron en el laboratorio del segundo autor, y representan los valores de par mximo (N m) de flexin del hombro en 2408 por s en 10 temas a travs de tres ensayos repetidos. Los datos se presentan en la Table 1. 3.2. Evaluacin del sesgo sistemtico: los cambios en la media El primer paso para evaluar la confiabilidad de esta prueba isocintica es examinar algunas estadsticas descriptivas simples. Clculo de la media (promedio) de valor para cada uno de los tres ensayos permite una seleccin inicial de cualquier sesgo grande, sistemtica. Adems, el trazado de un grfico lineal (Fig. 1) a menudo es til para visualizar las tendencias sesgo sistemtico. El [desviacin estndar (DE)] los valores medios de prueba de 1, 2 y 3, respectivamente, son 38.3 (13.4), 39.3 (9.3) y 39.6 (12.1) Nm. De la inspeccin de la figura. Uno se podra argumentar que existe alguna evidencia de una tendencia de los valores de manera sistemtica cada vez mayor entre los ensayos. Sin embargo, tenga en cuenta que el incremento promedio entre las pruebas es del orden de 1 N m-o alrededor del 2,5% del valor medio. Teniendo en cuenta la precisin asociada a la evaluacin isocintica esto no parece que aporte pruebas slidas de ningn sesgo sistemtico cierto. Errar en el lado de la precaucin se podra, sin embargo, llevar a cabo ms ensayos hasta los valores de pico significa un aumento de par nada ms. Esto proporcionara evidencia que sugiere que los sujetos Se familiarizaron totalmente con la prueba y que cualquier efecto de aprendizaje es relativamente completo.
Table 1 Peak torque (N m) in shoulder flexion at 2408 per s on three separate occasions Subject 1 2 3 4 5 6 7 8 9 10 Test 1 28 20 58 30 27 39 35 46 61 39 Test 2 41 20 46 34 37 46 30 49 49 41 Test 3 37 20 58 31 23 46 52 46 43 40

La investigacin del promedio y las desviaciones estndar es un ejemplo recurrentemente sugerido en la estadstica de un test, para diferencias significativas entre evaluaciones repetidas son difcilmente necesarias. En el caso de cambios ms obvios en el promedio en un test a otro test, las mediciones repetidas de anlisis de la varianza (ANOVA) es requerido, si solo se comparan dos datos. Para los datos en la tabla1, repetidas mediciones ANOVA, resultan en una probabilidad (p) con un valor de 0.897. Estadsticas en este tipo de test se obtienen diferencias de promedio entre test contra la asumida hiptesis nula de no haber diferencias entre los promedios. El valor de P reportado en el resultado es la probabilidad de observar grandes diferencias acerca de 1Nm o mayores an, si es que la hiptesis nula es verdadera. El valor P obtenido de 0.897 sugiere que, si es que en realidad no hubieran diferencias entre los promedios de cada test (Hiptesis nula), obtendramos diferencias de 1-1.3 Nm aproximadamente 90 veces de 100 veces. Esto indica que nuestra diferencia de promedio observado es muy parecida a lo que ocurre incluso bajo condiciones de una verdadera hiptesis nula con una diferencia no real. Por consiguiente, aparentemente no existen diferencias significativas entre los valores promedio para repetidas realizaciones del test. Convencionalmente, una valor P (o alfa) de 0.05 es utilizado para que un test posea estadsticamente diferencia significativa. Valores P de mediciones repetidas utilizando ANOVA, por ejemplo, de menos de 0.05 sugeriran una diferencia real entre los valores promedio en test repetidos y esto revelara un error sistemtico. Estas diferencias significativas podran ser provocadas por el efecto de la fatiga o el efecto de aprendizaje de procesos en la prueba, como hemos discutido anteriormente. La construccin de intervalos de confianza para diferencias entre los promedios del test es ms constructivo, sin embargo, dichos test se oponen a la hiptesis nula. Un 95% de intervalos de confianza (CI) para diferencias entre promedios de dos evaluaciones, por ejemplo, proveer una estimacin de cun pequeo (lmite bajo) o cun largo (lmite superior) el verdadero error sistemtico debera ser la poblacin.
Table 2 Repeated measures ANOVA output for the data in Table 1

Source of variance Between subjects Test Error

Sum of squares 2951.87 9.267 762.733

df

Mean squares (variance) 327.98 4.633 42.374

F-Ratio

Significance (P value) 0.897

9 2 18

0.109

A.M. Batterham, K.P. George / Physical Therapy in Sport 4 (2003) 122128

125

Aquellos que insisten en que a significancia de un test deriva de la informacin de un intervalo de confianza. Si los lmites incluyen el valor cero (sin diferencias) entonces no existe diferencia significativa entre los promedios (p> 0.05). por ejemplo, para los datos en la tabal 1 el 95% CI para la diferencia entre el test uno y el test tres, es -7.8 a 5.2 Nm. Estos lmites son muy amplios debido a la pequea muestra que es un n=10. Como un intervalo de confianza pasa el cero, no existe una diferencia significativa entre los valores promedio. El 95% CI citado citado anteriormente fue derivado va parejas ttest. La mayora de los software estadsticos proveen un intervalo de confianza para las diferencias entre dos promedios como parte de un resultado de un t- test. Para ilustrar el proceso, sin embargo, proveemos un ejemplo trabajado para las diferencias entre el test 1 y el test 3. La diferencia de promedios de un intervalo de confianza para una poblacin es derivado usando una simple diferencia de promedio lo cual est supeditado a un error estndar (SE, dado por SD/Raiz de n). Primeramente calcular la diferencia (test 1 menos test 3) para cada caso en la tabla 1 (ejemplo, para sujetos 1 la diferencia es 28-37=-9). Estos resultados en los siguientes sets de datos o diferencia de puntajes para los 10 sujetos siguientes fueron: -9, 0, 0, -1, 4, -7, -17, 0, 18, -1. Luego calcular (mediante clculo manual o clculo con software estadstico) la diferencia de promedios y la desviacin estndar de las diferencias para los datos anteriormente sealados las diferencias de promedio fueron -1.3 Nm con una SD de 9.09 Nm. Esta SE de las diferencias es dada por 9.09/raz de 10= 2.874 Nm. El 95% CI para las diferencias entre los dos test en promedio est dada por diferencia promedio menos (t o.975 por SE) para diferencia de promedio ms (t 0.975 por SE), donde t 0.975 es el valor apropiado para una distribucin t con un n=-1 para grados de libertad asociados con el 95% de CI (p=0.05) valores para t puede ser encontrados en tablas estadsticas en la mayora de la literatura estadstica. Para cada dato anterior, con los 10 sujetos, existen 9 grados de libertad dados por el valor t de 2.26. Por lo tanto el 95% deCI para la diferencia de promedios entre los test es: -1.3 (2.26 por 2.874) para-1 +(2.26 por 2.874)= -7.8 a 5.2Nm. 3.3. Evaluacin de los errores aleatorios Habiendo realizado el test, y dirigido, el error sistemtico del test y re test o realizando variadas repeticiones de evaluacin, nos queda cmo cuantificar y reportar el error aleatorio o ruido en las mediciones. Por supuesto, el error aleatorio tambin puede ser resultado en cambios de del valor promedio de las evaluaciones, pero, errores aleatorios (positivos y negativos) tienden a cancelar cada uno aun si los datos recolectados son suficientes, resultando en un no cambio del promedio del valor test re test. El tipo de confiabilidad ms importante medido es dentro de la variacin del sujeto, as como las influencias en la precisin de la medicin en un estudio experimental (Hopkins, in press). La varianza ms pequea intra sujeto (indicando ruido aleatorio) la mejor medicin. Por ejemplo, si un terapista est interesado en monitorizar mejoras en la fuerza muscular durante la rehabilitacin de una injuria en un programa, el instrumento de medicin resultar con una alta variacin intra sujeto donde probablemente la confiabilidad ser incapz de detectar dichos cambios. Esencialmente, los cambios en

la fuerza, deben ser lo suficientemente grandes para sobreponerse al ruido en la medicin. Como Hopkins (in press) argumenta, con una pequea variacin intra sujeto se facilita la deteccin de un pequeo, pero clnicamente importante, cambio en la variable de inters dependiente. Muchos enfoques estadsticos diversos existen para cuantificar la variacin aleatoria en una medicin repetida en los mismos sujetos. Esta seccin lidiar con lo que debe ser las ms apropiadas tcnicas: error tpico (el coeficiente de variacin), limites de acuerdo, y el coeficiente de correlacin intraclase de re test. 3.3.1. Error tpico El error tpico es tambin conocido como el error estndar de una medicin. Para dos o ms evaluaciones repetidas el error tpico puede ser cuantificado usando repetidas mediciones ANOVA. Para los datos de la tabla 1, TEST ser introducido como el factor intra sujeto, lo que se define como tener 3 niveles (tres columnas de datos que representan las tres repeticiones del test isocintico). Estos resultados ANOVA estn presentados en la tabal 2. El error aleatorio es derivado a partir del trmino de errores cuadrticos de la medicin ANOVA. Esto indica que la varianza en el ruido aleatorio es un componente desde un test a otro test en los tres ensayos. La raz cuadrada de este trmino de error de cuadrados medios ofrece una estimacin al error tpico o estndar de medicin asociado a pruebas isocinticas repetidas. Esto significa que la raz de cuadrados (RMSE) dela tabla 2 es 6.5 Nm lo que proporciona una indicacin cuantitativa de la confiabilidad del observador en la prueba isocintica. Este error tpico tambin puede presentarse como un porcentaje del valor peak del torque en los tres ensayos, el coeficiente de variacin CV. Un crudo, pero pensamiento razonable, es el mtodo de simplemente dividir el error tpico obtenido por el gran promedio del pico de torque (el promedio de los 30 puntos, 10 sujetos por 3 pruebas). Para el siguiente ejemplo la CV es (6.5/39.1) 100%= 16.6%. un ms complejo pero preciso pensamiento, requiere hacer de nuevo el anlisis ANOVA con los valores transformados a logaritmos (logaritmos naturales). La frmula para para derivar el CVes: CV= 100 (e elevado a RMSE menos 1) (Bland, 1995). Para los datos en la tabal 1 el RMSE derivado de repetidas mediciones ANOVA con el logaritmo natural transformado es 0.16. Por consiguiente, la CV es 100(e elevado a 0.16 menos 1) = 17.4%, en trminos generales el 16.6% calculado para el crudo, sigue siendo el mtodo ms simple. Cmo sabe uno si es que un error tpico particular es representativo de una adecuada confiabilidad? Atkinson and Nevill (1998) argumentan que esta pregunta no ha sido adecuadamente dirigida en la literatura y presentan un detallado caso para

126

A.M. Batterham, K.P. George / Physical Therapy in Sport 4 (2003) 122128

Una toma de decisiones basada en un anlisis de metas como tamao de la muestra en los experimentos, el tamao del efecto, y las diferencias individuales. Hopkins (en prensa) recomienda que haya un 95% de intervalos de confianza para el error tpico. Estos pueden ser derivado de la distribucin x2 y Hopkins (1997) proporciona una hoja de clculo para este fin. Para el conjunto de datos de la tabla 1, con 3 pruebas repetidas, y 18 grados de libertad para el trmino de error (tabla 2). La CI del 95% para el error tpico de 6.5 N es 4.9 a 9.6 N. estos lmites representan el intervalo del error tpico que es posible dentro de la poblacin. 3.3.2 Los lmites de acuerdo Los lmites de acuerdo (LOA) desarrollados por Bland and Altman (1986) son una medida de la variacin intrasujeto estrechamente relacionado con el error tpico. Nosotros mostraremos las bases del primer mtodo al aplicarlo a los datos de la tabla 1, la prueba 1 y la prueba 2. La tcnica LOA se basa en un anlisis de las diferencias entre las puntuaciones en la prueba de pares y vuelve a probar cada sujeto (prueba 1 menos la prueba 2). Por ejemplo, el sujeto 7 de la tabla 1 anot 35 Nm en la prueba 1 seguido de 30 Nm en la prueba 2 resultando en una diferencia de puntuaciones de p5 Nm. En el mtodo LOA la diferencia de puntuaciones se calcula de esta manera para cada sujeto, lo que permite el clculo de la media y la desviacin estndar de las diferencias. Como se mencion anteriormente cualquier media significativa entre test y re test indica un sesgo sistemtico. Para la prueba 1 y 2 los datos en la tabla 1, la diferencia significativa es de 21 Nm con una desviacin estndar de 8.5 Nm. Bland y Altman (1086) propusieron el clculo de rango de valores dentro de los cuales las puntuaciones de un sujeto no deben caer en un 95% en el tiempo, ese 95% LOA es computarizado por la multiplicacin de la desviacin estndar sobre las diferencias por 1.96 ( una desviacin estndar mayor a un lado da un significado representativo de un 68% de distribucin normal, 1.96 de desviaciones estndar representa un 95%). El el presente ejemplo el 95% LOA debera ser ms o menos 1.96 (8.5)= 17 Nm. En la medida es preferible reportar el error sistemtico y el error aleatorio por separado (Hopkins en prensa Atkinson y Nevill, 1998) el correcto reporte del 95% LOA para la confiabilidad intravaluador para este ejemplo debera ser -1 ms menos 17 N, estrictamente, como Hopkins en prensa lo seala, el 95% del LOA deberia ser calculado multiplicando la desviacin estndar de las diferencias no por 1.96, si no que por el apropiado acumulativo de probabilidades y grados de libertad del T student. En otras palabras la figura de 1.96 es apropiada solo si la muestra es de un gran tamao (i.e >120). Como tenemos 10 sujetos, los grados de libertad en el presente ejemplo son 9 (N-1). Desde la estadstica estndar las tablas estn disponibles es muchos mtodos de investigacin y textos de estadstica, el valor crtico de la T para 9 grados de libertad al 95% de nivel de confiabilidad es 2.26. el verdadero 95% LOA es 2.26 (8.5) = ms menos 19Nm. El clculo del 95% LOA para tres o ms evaluaciones es acompaado por repetidas mediciones via ANOVA, asi como el error tpico. La clave estadstica est nuevamente en la raz cuadrtica del error de salida de la medicin ANOVA (RMSE). El

95% LOA es entonces calculado como LOA= +- 1.96 (RMSE) (raz de 2) o 2.77 RMSE (Bland 1995). Para el completo set de datos en tabla 1, con 3 repeticiones de evaluacin, el RMSE es 6.5 Nm. El 95% LOA es, por lo tanto, +- 18Nm. Empleando el estricto mtodo derivado de la distribucin T descrita previamente como 95% LOA para las 3 evaluaciones es +- 2.26 (RMSE) (raz de 2) o 3.2 RMSE= +- 21 Nm. El 95% LOA indica el rango en el cual el peak de torque de dichos sujetos ser estimado a decrecer en reptidas administraciones en pruebas isocinticas. Por ejemplo, un sujeto, ganando un peak de torque para flexin de hombro de 45 Nm en una evaluacin se espera 95% del tiempo para producir un valor cualquiera entre 24 Nm (45-21-) y 66 Nm (45 +21) en evaluaciones subsecuentes (asumiendo no existencia de error sistemtico). Nuevamente si la decisin representa una adecuada confiabilidad se deja al investigador o practicante. Depende mucho el contexto en el cual las mediciones han sido usadas y los objetivos analticos para el usuario (Atkinson and Nevill, 1998). Los investigadores deberan usar el error tpico, CV, o el 95% LOA para asignar confiaabilidad para variables mtricas (nivel de intervalo de relacin)? Atkinson and Nevill (1998) argumentan fuertemente por el 95% LOA mientras Hopkins (in press) rechaza este mtodo y realiza un caso para preferir el uso del error tpico y/o CV. Idealmente, la decision deberia estar basada sobre la evaluacin del supuesto que basa cada tcnica estadstica. Estos ssupuestos, son diferentes entre mtodos se vern ms adelante en el artculo. Brevemente, muchas medidas biolgicas poseen errores de medicin que incrementan asi como el valor de la medicin incrementa (Atkinson and Nevill, 1998). Este fenmeno conocido como heterocedasticidad pasa a llevar el supuesto de un constant error de varianza o homocerasticidad despreciando el LOA y el error tpico como mtodos. Cada dato heterocedstico, cualquiera sea, es idealmente adecuado para el porcentaje de coeficiente de variacin del mtodo, el cual asume que la medicin del error es proporcional a la magnitud del valor medido. Referimos la lector a Atkinson and Nevill (1998) para un clculo comprensivo de los temas relevantes. Basados en la literatura disponible nuestra preferencia es por el error tpico o el porcentaje CV, proporcionando satisfaccin en todas muestras suposiciones subyacentes. 3.3.3. Coeficiente de correlacin de intraclase del re-test. Los mtodos presentados hasta ahora, el error tpico, CV y LOA, son todas tcnicas que cuantifican el grado de confiabilidad absoluta o aceptacin. Baumgartner (1989) diferenciando esto de confiabilidad relativa en la medida de que los sujetos mantengan su rango de orden o posicin de cada muestra en cada evaluacin repetida, la confiabilidad relativa es evaluada con varias formas de coeficientes de correlacin. La literatura reciente, especialmente, est repleta con la aplicacin de el coeficiente de correlacin del momento simple de Pearson (PPM) en confiabilidad de estudios test re-test. Esta aproximacin, sin embargo ha sido desacreditada en la reciente literatura (Atkinson and Nevill, 1998). Un tipo ms apropiado de coeficiente de correlacin para aplicaciones de confiabilidad es el ICC. Desafortunadamente el PPM, el ICC es una variante nica, ms bien una variante doble esttica,

A.M. Batterham, K.P. George / Physical Therapy in Sport 4 (2003) 122128

127

y tambien se puede marcar con un N mayor a 2 evaluaciones. Como hemos sugerido, cualquier valor observado ( medido) est compuesto de un valor verdadero (t) y un valor de error. La varianza de los resultados observados (desviacin estndar dos o sobre cero) es igual a la varianza de valores verdaderos desviacin estndar dos sobre t, ms la varianza de los valores de error, desviacin estndar dos sobre e. Por lo tanto, la confiabilidad es definida como el rango de la varianza del valor verdadero sobre la varianza del valor observado, o de la varianza del valor observado menos la varianza del error, dividida por el valor observado de varianza: confiabilidad= (SD dos sobre cero- SD dos sobre e) dividido (SD dos sobre cero). Dividiendo estas varianzas (cuadrados medios) de un set de mediciones repetidas es logrado usando ANOVA. (Baum- gartner and Jackson, 1995). Desafortunadamente, existe un amplio debate y confusin con respecto a como se calcula exactamente el ICC Atkinson and t Nevill reportan que existen a lo menos 6 mtodos citados en la literatura, todos resultando en valores diferentes. Los interesados en entrar en debate son referidos a Shrout and Fleiss (1979), Bartko (1966), McGraw and Wong (1996) para un tratamiento ms a fondo. En este trabajo preseentamos un mtodo para calcular el ICC desde ANOVA. En lineas con otras previas recomendaciones, este mtodo elimina cualquier varianza sistemtica, evaluacin a evaluacin del anlisis. El error sistemtico por lo tanto, no es una amenaza para la medicin de error porque la medicin de error se asume como un ruido aleatorio. Por otra parte, el mtodo presentado entrega una estimacin de la confiabilidad para un nico test, ms bien, que para una cantidad mltiple de test. Nuestra razn fundamental es que los investigadores y practicantes sean a menukdo administradores de una evaluacin para derivar las mediciones en la prctica (Morrow and Jackson, 1993). El resultado requerido para computar el ICC esta provisto e la tabla 2. La formula necesaria es:

Para el ICC 0.35 -0.9 asi tambin el PPM, en correlacion con una perfecta de confiabilidad relativa. En el presente ejemplo el ICC de 0.69 se podra interpretar como una confiabilidad moderadaente" relativa. El 95% CI indica que la verdara confiabilidad se situa alrededor del rango de 0.35 (pobre) a 0.9 (bueno). Claramente esta falta de presicion esta dada por el bajo n, que es de solo 10 sujetos en este trabajo de ejmplo. La confiabilidad en estudios debe incluir suficientes participates y de evaluaciones para magnificar y hacer mas significaticos los resultados. (Morrow) seala que al menos un n de 35 sujetos es representativo y es el minimo necesario para obtener un resultado apropiado. (Hopkins) sugiere que al menos 50 sujetos deben realizar la prueba y estas deben ser de tres o mas sesiones para adecuar una evaluacin y asi poder estimar su error tpico. El problema clave con el ICC (y el PPM) es que la magnitud es altamente dependiente de un de una muestra heterogenea. Un mayor anlisis de la formula presentada para el ICC revela que el numerador esta fuertemente influenciado por la magnitud observada o la medicin de la varianza entre sujetos. confianza Mientras mayor sea el rango o resultado, por lo tanto mayor ser la magnitud del ICC. El error tpico y e LOA no estn afectados por una muestra heterogenea, sin embargo creemos que esta es un importante limitacin, ya que el ICC puede entregar importante informacin relativa a la confiabilidad de un estudio. El ICC puede ser utilizado como un ndice de informacin de contexto en una medicin, revelando la habilidad que posee el test para discriminar entre sujetos. Cuando se realiza un test con muestra relativante homogneas, como por ejemplo en un estudio con atletas de elite, el ICC debera ser inevitablemente una opcin pobre de estadstica ya que a la baja varianza entre los sujetos.

4. Un ejemplo trabajado para confiabilidad inter-evaluador 4.1 Escenario Los datos usados en este ejemplo son ficticios y son usados para calcular una estimacin de la confiabilidad inter-evaluador con referencia a criterios del test. En dicho test a los pacientes se les asigna un cdigo nominal que los clasifica en una categora particular. Dos terapistas son consultados y se les solicita que examinen 50 tobillos independientemente, usando el squezee test y reportando la presencia o ausencia de una injuria en la sindesmosis del tobillo. Los datos son presentados en la Table 3. Los datos de la Table 3 representan una clasificacin doble en la tabla. La via mas simple de estimar la confiabilidad interevaluador es calcular la proporcin de acuerdo (PA) (Baumgartner and Jackson, 1995).
Table 3 Diagnostic judgements of two therapists for ankle syndesmosis injury using the squeeze test (n 50 ankles) Therapist 2 Therapist 1 Injured Injured Non-injured 20 10 Non-injured 5 15

Donde MSbs es el promedio entre los sujetos o la desviacin estndar 2 sobre 0, K es el numero de pruebas administradas y K elevado a 1 es el numero de pruebas realizadas en las cuales el ICC esta bajo el estimado (en el caso de una prueba simple). Para los datos en la tabla 1. El clculo requerido es:

Resultando un ICC de 0.69. Idealmente, un 95% de intervalo de confianza para el ICC debera ser calculado y reportado para indicar un rago de valores que contienen el verdadero icc para la poblacin. Esto es difcil de computar manualmente, pero (Hopkins) sealo unas hojas de caluclo para este propsito. Tambin, hay bastantes avances en software estadsticos que proveen unos intervalos de confianza para calcular el ICC. En el ejemplo siguiente, el 95% del intervalo de

128

A.M. Batterham, K.P. George / Physical Therapy in Sport 4 (2003) 122128

La PA es el nmero de correcto negativo y positivo diagnsticos expresados como porcentaje del total de tobillos examinados. Si el terapista 1 reporta que un tobillo en particular presenta dao y el terapista dos lo confirma, esto sera un resultado correcto positivo. Similarmente si el terapista uno reporta que otro tobillo no posee dao y el terapista 2 est de acuerdo, entonces sera un correcto negativo. El PA simplemente es el correcto positivo + el correcto negativo / total tobillos examinados. De la tabla 3, note que existen 20 correctos positivos y 15 correctos negativos. Consecuentemente el PA es: (20+15)/50 = 0.7. A un PA de 1 sugeriramos una confiabilidad inter-evaluador perfecta. El problema con el PA es que no se considera como un factor, particularmente en criterio de SI/NO test. El numero de correctas clasificaciones puede haber ocurrido por casualidad. El resultado de salida es limitado, en un estudio estadstico (Cohens kappa) da correcto si la casualidad es sealada como preferencia. La frmula para kappa es: K = (PA-PC) /(1-PC) donde PC es la proporcin esperada de resultado por casualidad. Baumgartner and Jackson (1995) generan la ecuacin ara calcular PC. Asimismo, muchos software estadsticos son capaces de proporcionar kappa como parte de su tabulacion de salida. Para los datos en la Table 3, kappa = 0.4, indicando una relativamente pobre confiabilidad inter evaluador, Note que el coeficiente kappa es de un valor de 0.4 lo que marca la diferencia de el simple PA con un valor de 0.7. A un 95% de intervalo de confianza para kappa este puede ser constructivo al momento de sealara el error estndar de salida

Referencias
Atkinson, G., Nevill, A.M., 1998. Statistical methods for assessing measurement error (reliability) in variables relevant to sports medicine. Sports Medicine 26, 217 238. Bartko, J.J., 1966. The intraclass correlation coefficient as a measure of reliability. Psychological Reports 19, 3 11. Baumgartner, T.A., Jackson, A.S., 1995. Measurement for Evaluation in Physical Education and Exercise Science, fifth ed, Brown and Benchmark, Dubuque, IW, pp. 113 118. Bland, M., 1995. An Introduction to Medical Statistics, second ed, Oxford University Press, Oxford, pp. 265 272. Bland, J.M., Altman, D.G., 1986. Statistical methods for assessing agreement between two methods of clinical measurement. Lancet i (8), 307 310. Bland, J.M., Altman, D.G., 1990. A note on the intraclass correlation coefficient in the evaluation of agreement between two methods of measurement. Computers in Biology and Medicine 20 (5), 337 340. Hopkins, W.G., 1997. A new view of statistics. sportsci.org:Internet Society for Sport Science sportsci.org/resource/stats Hopkins, W.G., in press. Measures of reliability in sports medicine and sport science. Sports Medicine (in press). McGraw, K.O., Wong, S.P., 1996. Forming inferences about some intraclass correlation coefficients. Psychological Methods 1 (1), 30 46. Morrow, J.R., Jackson, A.W., 1993. How significant is your reliability? Research Quarterly for Exercise and Sport 64 (3), 352 355. Nelson, M., 1997. The validation of dietary assessment. In: Margetts, B.M., Nelson, M. (Eds.), Design Concepts in Nutritional Epidemiology, second ed, Oxford Medical Publications, Oxford, p. 242. Schoppen, T., Boonstra, A., Groothoff, J.W., de Vries, J., Go eken, L.N., Eisma, W.H., 1999. The timed up and go test: reliability and validity in persons with unilateral lower limb amputation. Archives of Physical Medicine and Rehabilitation 80 (7), 825 828. Shrout, P.E., Fleiss, J.L., 1979. Intraclass correlations: uses in assessing rater reliability. Psychological Bulletin 86, 420 428.

5. Conclusin En este artculo se ha tratado de abordar la importancia de la confiabilidad de los test repetidos en una muestra de sujetos. Todas las medidas en la prctica son relacionadas con un grado de error de medicin. Este error puede ser sistemtico (sesgo) o aleatorio (ruido). Se recomienda el anlisis por separado y los informes de sesgo y error aleatorio. La confiabilidad es un pre-requisito esencial para la validez de la prueba, ya que una medida que sea inconsistente entre los test y re-test no pueden ser consideradas vlidas. Por lo tanto, en las estimaciones confiabilidad siempre debe calcularse y reportarse, sobre todo para las nuevas pruebas o instrumentos de medicin. Para los datos registrados en el nivel de intervalos de relacin de medicin, las tcnicas ms adecuadas para evaluar la Confiabilidad absoluta son el error tpico, el coeficiente de variacin, y los lmites del 95% de acuerdo. Para evaluar la confiabilidad relativa en este nivel de datos, se prefiere el coeficiente de correlacin intra-clase que coeficiente de correlacin de Pearson. Para datos nominales (categoras) en test de criterio-referencia, kappa de Cohen es la estadstica de la eleccin. Para proporcionar estimaciones de la precisin, se recomienda que el 95% intervalos de confianza se calculen y se reporten, con independencia de la estadstica empleada.

Anda mungkin juga menyukai