discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/259874216
CITATIONS READS
2 159
1 author:
Jose Donis
University of the Andes (Venezuela)
60 PUBLICATIONS 996 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
All content following this page was uploaded by Jose Donis on 27 January 2014.
Resumen
En esta revisin se discuten, de manera resumida, los conceptos fundamentales de lo que significa la validez de una prueba
a travs de sus ndices, como son la sensibilidad y especificidad, consideradas como propiedades intrnsecas de una prueba
diagnstica. As mismo, se exponen los conceptos fundamentales de los valores predictivos positivos y negativos en la
prctica clnica y su asociacin con la prevalencia de la enfermedad estudiada. Seguidamente se analizan las razones de
verosimilitud o de probabilidad, las cuales, como su nombre lo indica, son razones que evidencian con qu frecuencia un
individuo padece una enfermedad, cuando son positivas, en relacin con otro individuo que no la padece, la cual tambin
es positiva. Adicionalmente, se evaluan las curvas ROC como una metodologa para categorizar en forma dicotmica es
decir, positivos o negativos, aquellas pruebas con valores en escala continua. Finalmente, se discute la confiabilidad de una
prueba, parmetro de gran valor en la veracidad de cualquier prueba que se realice en forma cotidiana en la prctica
clnica, ya que asegura la repetitividad de la misma en el sitio de su ejecucin.
Palabras clave
Sensibilidad, Especificidad, Valores Predictivos, Razn de Verosimilitud, curvas ROC y Confiabilidad.
Abstract
This review is intended to explain briefly, the significance of the validity of a diagnostic test by using specific indicators such
as: the sensitivity, and the specificity, which are considered as intrinsic properties of the test. Additionally, the fundamental
concepts of positive and negative predictive values of a diagnostic test in the clinical practice, are described and highlighted,
and their connection to the prevalence of a particular disease. The likelihood ratio, meaning how many times a healthy
person suffers from a disease, in other words, the percentage of ill people diagnosed with a given test result, divided by the
percentage of healthy individuals with the same results, Ideally, abnormal test results should be much more typical in ill
individuals, than in those who are healthy (high likelihood ratio), and normal test results should be more frequent in healthy
people rather than in sick people (low likelihood ratio). Furthermore, the receiver operating characteristic curve (ROC) is
described as a methodology to categorize, in a dichotomy form, as positive or negative those tests with values in continue
scale. Finally, the reliability or reproducibility, which is related to the amount of error in any measurement, is analyzed. A
more formal definition of reliability is variability between subjects, divided by inter-subject variability plus measurement,
which could give as the best reliability of the test in clinical practice.
Keywords
Sensitivity, specificity, predictive value, curves ROC, likelihood ratios, reliability.
Autor de correspondencia: Dr. Jos H Donis, Instituto de Investigaciones Cardiovasculares, Universidad de Los Andes, Merida
5101, Venezuela, e-mail: donis_jose@hotmail.com
Validez y confiabilidad de una prueba diagnstica. Donis J
Figura 1. a) Umbrales para diagnstico y tratamiento, como una funcin de probabilidades del diagnstico y tratamiento.
b) Umbral de diagnstico. VN= verdaderos negativos. VP= verdaderos positivos. FN= falsos negativos. FP=falsos positivos.
positivo, valor predictivo negativo, ndice de eficiencia flecha seala la direccin de la especificidad, y su
pronstica o razn de verosimilitud tanto positiva trayecto indica que va desde la ausencia de
como negativa, teorema de bayes, curvas ROC (del enfermedad al resultado de la prueba, es decir, la
ingles, receiver operating characteristic curve), pruebas probabilidad de que en un individuo no enfermo, la
mltiples: en paralelo y en series; y confiabilidad o prueba resulte negativa.
repetitividad de un test o prueba.
Como norma general, cuando se desee
evaluar la sensibilidad y la especificidad de una
Evaluacin de las Pruebas Diagnsticas prueba, se debe partir del conocimiento de la
presencia o no de la enfermedad en los individuos
estudiados, y comparar los resultados de la prueba en
Sensibilidad: Es definida como la capacidad evaluacin, con una prueba de referencia o gold
de una prueba para identificar correctamente aquellos standard.
que tienen la enfermedad. Esta es igual al nmero de
sujetos con un test positivo que tienen la enfermedad, La sensibilidad y la especificidad son
dividido entre todos los sujetos que tienen la caractersticas intrnsecas de una prueba, son
enfermedad (1-4) (ver figura 2 y tabla 1). interdependientes ya que un aumento de la
sensibilidad est acompaada por una reduccin de la
En la figura 2, la flecha seala la direccin de especificidad y viceversa, esto es vlido en las pruebas
la sensibilidad desde la enfermedad hacia el resultado con escalas continuas donde el nivel umbral o cutt-
de la prueba, es decir, es la probabilidad de que en un off para un resultado positivo puede variar, por
individuo enfermo, la prueba resulte positiva. As, la ejemplo, el uso del contaje de leucocitos, como una
sensibilidad es la probabilidad dada por la proporcin prueba para diagnosticar infeccin bacteriana. Si se
de sujetos con resultado positivo entre el total de selecciona un umbral alto para identificar infecciones
enfermos. bacterianas (mayor de 25.000 leucocitos), se corre el
Especificidad: es definida como la capacidad riesgo de pasar por alto infecciones bacterianas leves a
de una prueba para identificar aquellos que no tienen moderadas. En este caso la prueba tendr una baja
la enfermedad, y es igual al nmero de sujetos que sensibilidad ya que es muy difcil encontrar este valor
resultan negativos a la prueba y que no tienen la en infecciones leves, sin embargo tendr una alta
enfermedad, dividido entre el nmero de personas especificidad, ya que todos los pacientes con este valor
que no tienen la enfermedad o estn sanos (ver figura tienen infeccin. S por el contrario, se disminuye el
2 y tabla 1). As, se evidencia en la figura 2 que la umbral para el diagnstico de infeccin bacteriana a
Tabla 1. Indicadores importantes en el estudio de las pruebas diagnsticas (ver figura 2).
Indicador Clculo / significado
Sensibilidad A / (A + C)
Especificidad D / (B + D)
Prevalencia de la enfermedad (A + C) / N
Proporcin de sanos (B + D) / N
3
10.000 leucocitos/mm , la especificidad de la prueba la direccin del VPN, que proviene de un resultado
disminuir, a expensas de un incremento de la negativo de la prueba y la probabilidad de que el
sensibilidad (2, 5). individuo no est enfermo. Esta probabilidad est
condicionada a que un sujeto con resultado negativo
Seguridad de una Prueba: La seguridad de
no est enfermo o est sano. En otras palabras, es la
una prueba est determinada por los valores
probabilidad de que el paciente no tenga la
predictivos positivos (VPP) y negativos (VPN). Estos
enfermedad frente a un resultado negativo de la
ndices son importantes para valorar la utilidad de una
prueba (2-6). En la tabla 1 se muestra el clculo para el
prueba, en el terreno clnico y de manera
VPN.
individualizada, es decir para cada paciente, contrario
a la informacin suministrada por la sensibilidad y la Otra caracterstica de los valores predictivos,
especificidad (estas ltimas carecen de utilidad en la es que dependen de la prevalencia de la enfermedad
prctica clnica). en una poblacin. Una prueba con una sensibilidad y
una especificidad dada, puede tener diferentes valores
Valor Predictivo Positivo (VPP): Es la
predictivos en diferentes poblaciones de pacientes con
probabilidad que tiene un individuo de estar enfermo
diferente prevalencia de la enfermedad. Si una prueba
cuando el resultado de la prueba es positiva, en otras
es utilizada en una poblacin con un alta prevalencia
palabras, es una probabilidad condicionada a que un
de la enfermedad, la prueba en evaluacin tendr un
paciente que resulte positivo a la prueba, tenga la
alto VPP, por otro lado, esta misma prueba, con la
enfermedad. En la figura 2, la flecha seala la direccin
misma sensibilidad y especificidad, tendr un VPP bajo,
del valor predictivo positivo, desde el resultado de la
cuando es utilizada en una poblacin con una baja
prueba positiva a la probabilidad de que este individuo
prevalencia de la enfermedad. Un ejemplo sera
est enfermo (4). En la tabla 1 se muestra la formula
cuando se realiza una prueba que es considerada til
para el clculo del VPP.
para detectar sangre oculta en heces. Un resultado
Valor Predictivo Negativo (VPN): positivo en personas ancianas es predictivo de cncer
contrariamente el valor predictivo negativo es la de colon, hecho contrario s se compara con una
probabilidad de que un individuo que obtenga un poblacin de personas jvenes menores de 20 aos
resultado negativo a la prueba, no presente la (2,5-6).
enfermedad o est sano. En la figura 2, la flecha seala
Razn de Verosimilitud (RVP y RVN) Positiva tenga la enfermedad, y mientras ms elevado sea el
y Negativa: Tambin llamada Likelihood Ratio o valor de razn obtenida, mayor ser la probabilidad de
razn de verosimilitud o ndice de eficiencia pronstica tener la enfermedad. Inversamente, una razn de
(IEP). Este indicador tiene como caracterstica que es verosimilitud negativa menor de 1 disminuir la
un ndice fijo, debido a que se usa cuando la prueba probabilidad de que el individuo tenga la enfermedad
diagnstica no tiene resultados dicotmicos, sino un en estudio (7), la formula se describe en la tabla 1. En
umbral o puntos de cortes, como por ejemplo el valor la tabla 2 se muestran los valores que pueden ser
de la glicemia. El clculo de la razn de verosimilitud, tiles para orientarnos sobre la capacidad de una
es otra manera o mtodo de valorar la exactitud de prueba a travs de las razones de verosimilitud,
una prueba en el terreno clnico. Ofrece la ventaja expresadas como valores de ndices de eficiencia
sobre los otros indicadores, de que es independiente pronsticas (8-13).
de la prevalencia de la enfermedad en una poblacin.
La razn de verosimilitud indica que un resultado de
Tabla 2. Valores que determinan la eficiencia
una prueba diagnstica, elevar o reducir la
diagnostica de una prueba.
probabilidad de tener la enfermedad, es decir es
relativo a la probabilidad previa de la enfermedad Valores IEP Capacidad
(prevalencia); en otras palabras, es una razn y no una
proporcin, y significa: cul es la probabilidad de tener IEP(+)10 IEP(-)0.1 Suficiente
o no la enfermedad. Cada prueba diagnstica est
caracterizada por dos razones de verosimilitud: la IEP(+)5 < 10 IEP (-) >0.1 0.2 Moderada
razn de verosimilitud positiva o cociente de
IEP(+)2 < 5 IEP (-) >0.2 0.5 Escasa
probabilidad positiva y la razn de verosimilitud
negativa o cociente de probabilidad negativa, estas se IEP(+)1 < 2 IEP (-) >0.5 <1 Insignificante
describen a continuacin.
Razn de Verosimilitud Positiva (RVP) o
Cociente de Probabilidad Positiva (CPP): se calcula
dividiendo la probabilidad de un resultado positivo en Teorema de Bayes
los pacientes enfermos entre la probabilidad de un
resultado positivo en los individuos sanos. Es, en Esta herramienta toma en cuenta la
definitiva, el cociente entre la fraccin de verdaderos probabilidad previa o prevalencia de la enfermedad
positivos (sensibilidad) y la fraccin de falsos positivos para el clculo de la probabilidad posterior a la prueba.
(1-especificidad), y nos indica la razn de enfermedad Dado que las pruebas clnicas no son perfectas, no
o la probabilidad de tener la enfermedad si el pueden ser utlizadas correctamente si no se estima la
resultado es positivo (4, 5), la frmula se describe en la probabilidad previa, o prevalencia del dao que el
tabla 1 (7). paciente estudiado presenta (14).
Razn de Verosimilitud Negativa (RVN) o Probabilidades pretest y postest y el teorema
Cociente de Probabilidad Negativo (CPN): se calcula de Bayes: en el contexto de la evaluacin de medios
dividiendo la probabilidad de un resultado negativo en diagnsticos, se tienen los elementos siguientes (14):
presencia de enfermedad, entre la probabilidad de un
resultado negativo en ausencia de la misma. Por lo La probabilidad pretest denominada
tanto, es el cociente entre la fraccin de falsos tambin prevalencia de la enfermedad, se denota
negativos (1-sensibilidad) y la fraccin de verdaderos como P (Enf) o P.
negativos (especificidad). La RVN indica la probabilidad La probabilidad pretest o prevalencia de
de que un individuo enfermo, obtenga un resultado no enfermos, se denota como P( No Enf) o Q=1-P.
negativo, en relacin con la que un individuo no
enfermo o sano, obtenga un resultado negativo. En La sensibilidad conocida, que puede
otras palabras, este indicador muestra, que es poco denotarse como P(T+/Enf), y que representa la
probable que en un paciente enfermo la prueba Probabilidad de que el test resulte positivo, dado que
resulte negativa, con respecto a un paciente sano, con el paciente tiene la enfermedad.
el mismo resultado negativo (ver tabla 1). As, una La especificidad conocida de un test, que
razn de verosimilitud positiva mayor de 1, indica que puede denotarse como P(T-/No Enf), o la probabilidad
existe una probabilidad elevada de que el individuo
de que el test resulte negativo dado que el paciente no estableciendo un nivel umbral de 120 mg/dL, solo el
tiene la enfermedad. 25% de los individuos diabticos sern identificados
como positivos (sensibilidad), mientras que el 90% de
El Valor Predictivo Positivo o Probabilidad
los sujetos sanos sern identificados correctamente
Postest Positiva de una Prueba se escribe como
como negativos (especificidad) (7).
P (Enf/T+), que representa la probabilidad de estar
enfermo, debido a que el paciente tiene un resultado Por el contrario, s en el mismo ejemplo
positivo en la prueba diagnstica. hipottico (fgura 3b) se establece un umbral de 60
mg/dL el 85% de los individuos diabticos sern
El Valor Predictivo Negativo o Probabilidad
identificados correctamente como positivos
Postest Negativa de una Prueba se escribe como
(sensibilidad), mientras que solo el 30% de los sujetos
P (No Enf/T-), y representa la probabilidad de no estar
sanos sern identificados como negativos
enfermo, dado que el paciente tiene un resultado
(especificidad). De esta manera, se demuestra la
negativo en la prueba diagnstica
relacin entre la sensibilidad y la especificidad, en
El clculo de la Probabilidad Postest Positiva o funcin del punto de corte seleccionado, lo que
Negativa o Valor Predictivo Positivo o Negativo se plantea la necesidad de establecer puntos de corte
muestra en la tabla 3. ptimos en funcin de los valores continuos medidos,
en este sentido, una herramienta que facilita el
establecimiento de los puntos de corte, es la
Curvas ROC construccin de las curvas ROC.
El uso de las curvas ROC minimiza la aparicin
Hasta ahora se ha discutido la posibilidad de de falsos positivos, lo cual est asociado con un
que en una prueba se obtengan dos resultados: elevado costo emocional y econmico, ya que los
positivo o negativo, pero a menudo los resultados de pacientes podran ameritar la repeticin de las
una prueba son en variables continuas, tales como la pruebas, sin que sea del todo necesaria, pues
presin arterial o el nivel de glicemia, no tienen un posiblemente pocos de ellos estn realmente
resultado positivo y otro negativo, sino datos en escala enfermos. Adicionalmente, la implementacin de las
continua. La decisin debe ser, por lo tanto, curvas ROC tambin disminuye el nmero de falsos
establecida con un nivel umbral o cutt-off encima del negativos. Los falsos negativos constituyen un serio
cual el resultado de la prueba es considerado como problema en el manejo clnico, sobretodo cuando se
positivo, y por debajo de ste es considerado negativo. trata de enfermedades graves, ya que se pierde la
Por ejemplo, no hay un nivel de glicemia que oportunidad de darle al paciente un tratamiento eficaz
claramente separe a los enfermos de los que no lo en etapas iniciales (2).
estn, existen valores que estn solapados entre los
dos grupos, es decir los que estn enfermos Construccin de las curvas ROC: stas se
(diabticos) de los sanos o no enfermos (no representan en un plano cartesiano, graficando
diabticos), para cada nivel de glicemia (15). Por sensibilidad versus 1-especificidad (ver figura 4). En
ejemplo, en un muestreo hipottico (fgura 3a) este sentido, las curvas ROC muestran todos los pares
Figura 3. Distribucin hipottica de los resultados de una prueba diagnstica en un muestreo de controles y de pacientes con
diabetes. a) cutt off de 120 mg/dL, b) cutt off de 60 mg/dL.
Figura 4. Distribucin hipottica de los resultados de una prueba diagnstica en un muestreo de controles y de pacientes con
diabetes. a) cutt off de 120 mg/dL, b) cutt off de 60 mg/dL.
positivos en todas las pruebas y negativos los que radiografa en dos ocasiones distintas, la cual
presenten resultados negativos en las pruebas problamente puede ser reportada, en ambas
confirmatorias (1-4). oportunidades, con observaciones diferentes. Aqu se
debe tomar en cuenta el grado de factor subjetivo del
observador que realiza el anlisis y sus conclusiones;
Confiabilidad o repetitividad de una prueba por lo tanto, a mayor cantidad de elementos
subjetivos que intervengan en la lectura, se presentar
El concepto de confiabilidad o mayor variacin intra-observador (1-4).
reproducibilidad implica la cantidad de error que se
comete al realizar cualquier medida (por ejemplo la Variacin inter-observador: dos observadores
determinacin de la presin arterial). diferentes pueden reportar el resultado de una prueba
de manera distinta. Es relevante, entonces, lograr un
Existen varios tipos de confiabilidad, concenso entre los observadores, para ello, una
incluyendo la confiabilidad inter e intra-sujeto. herramienta til para unificar los criterios de
En la prctica diagnstica es comn dudar observacin es la transformacin a trmino
acerca de la confiabilidad o repetibilidad de una cuantitativos de las apreciaciones de los observadores.
prueba independientemente de su sensibilidad o Existen diversos modelos matemticos que permiten
especificidad. Si un resultado no es reproducible, el solventar estas discordancias, como por ejemplo, el
valor y la utilidad de la prueba son pobres. Existen tres ndice de kappa, cuyos valores son directamente
tipos de repetitividad (1-4): proporcionales a la confiabilidad de las observaciones
del test (1-4).
Variacin intra-sujeto: se refiere a la
variacin implcita en las caractersticas que se estn
determinando, las cuales, a menudo, varan en el Sinopsis
tiempo, an en intervalos de tiempo cortos. Por
ejemplo, las cifras de presin arterial varan incluso en Al momento de evaluar cualquier prueba
un perodo de 24 horas y dependiendo de la actividad diagnstica es indispensable considerar las
realizada por el sujeto en el momento de realizar la propiedades intrnsecas de la misma, tales como, la
medicin. Por lo tanto, al evaluar el resultado de una sensibilidad y la especificidad. Por su parte, los VPN y
prueba, es importante considerar las condiciones y el VPP tienen mayor aplicabilidad en la prctica clnica, ya
momento en que se realiz la misma (1-4). que determinan la utilidad del test para el diagnstico
de una determinada patologa.
Variacin intra-observador: ocurre entre dos
observaciones realizadas por el mismo Las curvas ROC son instrumentos tiles para la
experimentador. Por ejemplo, la lectura de una evaluacin de las pruebas diagnsticas ya que permite
discriminar la capacidad de un test para diferenciar interpretacin o aplicacin errada de la misma puede
entre dos estados alternativos de salud, enfermedad o tener consecuencias importantes en el estado de salud
no enfermedad de un individuo que es sometido a este test.
Todos estos aspectos deben ser considerados
cuando se evalua la utilidad de una prueba ya que una
Referencias
1. Gordis L. Epidemiology. Third Edition 11. Altman DG, Bland JM. Diagnostic 20. Bohning D, Bohning W, Holling H.
Ed. Philadelphia: Elsevier Saunders, tests 2: Predictive values. BMJ 1994; Revisiting Youden's index as a useful
2004. 309:102. [PubMed] [Google Scholar] measure of the misclassification error in
2. Israni R. Medpage Tools Guide to 12. Centre for Evidence-Bases Medicine meta-analysis of diagnostic studies. Stat
Biostatistics. Medpage today 2010; (CEBM). Likelihood Ratios, 1-3 2009. Methods Med Res 2008; 17:543-54.
Com: 1-11. [Google Scholar] www.cebm.net/scrating-post.as [PubMed] [Google Scholer]
3. Fernandez PS, Diaz PS. Pruebas [Google Scholar] 21. Perkins NJ, Schisterman EF. The
Diagnosticas. Atencin Primaria en la 13. Loong TW. Understanding sensitivity inconsistency of "optimal" cutpoints
Red 2003; 10:120-4. [Google Scholar] and specificity with the right side of obtained using two criteria based on
4. Ruiz Morales A, Morrillo Zarate L. the brain. BMJ 2003; 327:716-9. the receiver operating characteristic
Epidemiologa Clnica Investigacin [PubMed] [Google Scholar] curve. Am J Epidemiol 2006; 163:670-5.
Aplicada. Bogot DC Colombia: Editorial 14. Daz FR, Lpez Barn JF. Probabilidad. [PubMed] [Google Scholar]
Mdica Panamericana, 2004. Universidad de Mlaga, Mlaga, 22. Supo J. Videos de Clase de Anlisis de
5. Jaeschke R, Guyatt GH, Sackett DL. Spain: Thompson Editores, 2005. datos Categricos en la web:
Users' guides to the medical literature. 15. Altman DG, Bland JM. Diagnostic www.seminariosdeinvestigacion.com
III. How to use an article about a tests 3: receiver operating 2011
diagnostic test. B. What are the results characteristic plots. BMJ 1994;
and will they help me in caring for my 309:188. [PubMed] [Google Scholar] Como citar ste artculo: Donis JH,
patients? The Evidence-Based Medicine 16. Obuchowski NA. Sample size tables Evaluacin de la validez y
Working Group. JAMA 1994; 271:703-7. for receiver operating characteristic confiabilidad de una prueba
[Google Scholar] [PubMed] studies. AJR Am J Roentgenol 2000;
diagnstica. Avan Biomed 2012; 1:
6. Grimes DA, Schulz KF. Uses and abuses 175:603-8. [PubMed] [Google
of screening tests. Lancet 2002; Scholar] XX
359:881-4. [PubMed] [Google Scholar] 17. Dwyer AJ. In pursuit of a piece of the
7. Grimes DA, Schulz KF. Refining clinical ROC. Radiology 1996; 201:621-5.
diagnosis with likelihood ratios. Lancet [PubMed] [Google Scholar]
2005; 365:1500-5. [PubMed] [Google 18. Zweig MH, Campbell G. Receiver-
Scholar] operating characteristic (ROC) plots:
8. Harper R, Reeves B. Reporting of a fundamental evaluation tool in
precision of estimates for diagnostic clinical medicine. Clin Chem 1993;
accuracy: a review. BMJ 1999; 39:561-77. [PubMed] [Google
318:1322-3. [Pubmed] [Google Scholar] Scholar]
9. Molinero LM. Valoracin de las Pruebas 19. Obuchowski NA. Receiver operating
Diagnosticas 1-12: 2002. www.she- characteristic curves and their use in
lelha.org/stat1.html. [Google Scholar] radiology. Radiology 2003; 229:3-8.
10. Altman DG, Bland JM. Diagnostic tests. [PubMed] [Google Scholar]
1: Sensitivity and specificity. BMJ 1994;
308:1552. [PubMed] [Google Scholar]