Anda di halaman 1dari 5

Nuevas perspectivas del reconocimiento de voz en

radiologa
Aplicacin del reconocimiento de voz a la escritura de informes
radiolgicos
Prof. Jos Manuel Pardo Muoz
Catedrtico ETSIT-UPM

Introduccin
Los humanos hablamos siete veces ms rpido que tecleamos en una mquina de escribir. Por
ello, la forma natural de escribir un informe sera dictarlo en vez de teclearlo en el ordenador.
Actualmente muchos radilogos dictan sus informes en un grabador porttil y posteriormente la
secretaria transcribe los mismos, pudiendo el radilogo efectuar una revisin final. Por medio
del reconocimiento de voz se plantean dos alternativas: La primera es el dictado directo al
ordenador con correccin en el momento del radilogo. La segunda es procesar con software lo
contenido en el grabador porttil y corregir por la secretaria. El radilogo puede opcionalmente
hacer una revisin final rpida del informe. En los dos mtodos se usa un sistema de
reconocimiento de voz.

Clasificacin de los sistemas de reconocimiento de voz


Los sistemas de reconocimiento de voz pueden clasificarse por el tipo de habla que reconocen
en reconocedores de habla aislada y reconocedores de habla continua. El habla continua es el
habla normal y el habla aislada es un habla artificial que obliga a introducir una pequea pausa
entre palabra y palabra y hace ms sencillo el trabajo del reconocedor pues ste no tiene que
decidir dnde estn los lmites de las palabras. Sin embargo esta forma de hablar es ms
incmoda y lenta para el hablante. Estos sistemas hoy da ya no se utilizan para dictar
documentos.
Otra forma de clasificar los reconocedores es por el tipo de hablantes que reconocen. Los
sistemas dependientes del locutor reconocen a una persona solamente en un momento dado.
Los sistemas independientes de locutor reconocen a cualquier persona que hable ese idioma.
Los sistemas dependientes del locutor suelen funcionar mejor porque estn entrenados slo
para un locutor y se adaptan al mismo. En los sistemas de dictado vocal o transcripcin de
grabaciones se suelen utilizar mtodos dependientes del locutor.
Los sistemas de reconocimiento de voz pueden clasificarse tambin por el nmero de palabras
que reconocen, el tipo de texto que reconocen, el tipo de canal (micrfono, telfono), tipo de
habla (espontnea, leda, oratoria etc) y dialecto (castellano, andaluz, mejicano etc) pero
no vamos a entrar en detalles de estas otras clasificaciones. En dictado de informes se suelen
utilizar reconocedores de habla espontnea, micrfono y dialecto adaptado si es posible.

Evolucin de los sistemas de reconocimiento de voz


Histricamente, los primeros sistemas que aparecieron fueron los sistemas de dictado directo al
ordenador. En el ao 1986, IBM sac al mercado el sistema TANGORA que reconoca 5000

palabras en ingls de forma aislada y necesitaba de una potencia de clculo bastante grande
para la poca, por tanto tambin el coste era muy alto.
En los aos 90 salieron al mercado distintos sistemas de reconocimiento de habla aislada
funcionando ya sobre PC y para espaol, con precios asequibles: IBM "Voice Type", Dragon
"Simply Speaking", Universidad Politcnica de Madrid- Grupo de Tecnologa del Habla "DIVO" 1.
El rango de vocabulario cubra unas decenas de miles de palabras y textos de propsito
general.
Hoy da, disponemos de sistemas comerciales que reconocen habla continua y hasta 100.000
palabras sobre PC. El nmero de palabras no es un parmetro til si no se acompaa con
modelos de texto disponibles. Si se dispone de modelos de texto adaptados a la tarea
particular, la efectividad del sistema aumenta enormemente. Los modelos de texto adaptados a
la tarea pueden generarse a partir de textos de la tarea correctos.

Sistemas actuales
Los sistemas actuales disponibles en espaol son dos, IBM "Via Voice" 2y Dragon "Naturally
Speaking"3.
Las caractersticas del sistema Via Voice son las siguientes:

Uso de hasta 164.000 palabras activas (el vocabulario bsico es de 100.000)


Diccionario de respaldo de 475.000 palabras
Posibilidad de uso de macros
Reproduccin de la voz pronunciada al sistema
Posibilidad de lectura de textos escritos en voz alta para revisin
Micrfono de cabeza, con cancelacin de ruido

El vocabulario de respaldo quiere decir que si una serie de palabras del vocabulario activo no
se usan, stas se pueden sustituir por otras del vocabulario de respaldo que pasen a estar
activas (reconocibles por el sistema). Existen algunos modelos de textos especficos con los
que el sistema funciona mejor, pero hay que contactar con la Empresa para ver
disponibilidades.
El uso de macros quiere decir que se puede programar que una orden vocal corresponda a
toda una frase, por ejemplo, que al pronunciar "pepito" la mquina escriba Jos Manuel Prez
Fernndez. Con ello se puede agilizar la escritura de algunos textos fijos. La lectura de textos
escritos utiliza un conversor texto a voz que nos lee lo que hemos escrito y nos ayuda a
detectar errores.
Las caractersticas del sistema Dragon Naturally Speaking son las siguientes:

160.000 palabras activas


250.000 palabras en el vocabulario de respaldo
Posibilidad de macros
Posibilidad de transcripcin de habla previamente grabado en una grabadora 4
Posibilidad de macros
Lectura de textos escritos en voz alta y posibilidad de escuchar lo pronunciado.
Micrfono de cabeza.

Como podemos observar, las caractersticas de ambos sistemas son muy similares por lo que
la comparacin puede estar en el precio por un lado y en el porcentaje de xito por otro. Este
segundo parmetro normalmente no est disponible y adems es bastante difcil de obtener ya
que depende mucho de las habilidades del usuario. Las empresas no suelen publicar este dato.
Por otro lado, no est clara ltimamente la disponibilidad comercial de Dragon Naturally
Speaking.

Problemas de los sistemas de escritura por voz


Muchos son los problemas de los sistemas de escritura por voz, pero el ms importante es que
depende de las habilidades del usuario y que es necesario leerse cuidadosemente el manual y
hacer la fase previa de entrenamiento del sistema para que el sistema funcione
adecuadamente. La fase previa de entrenamiento es aquella en la que el usuario al principio
debe dictar una serie de frases y realizar lo que se llama entrenamiento del sistema
(adaptacin del sistema a la voz del usuario). Si no se realiza este paso, el sistema funcionar
como un sistema independiente del locutor, por lo que la calidad del reconocimiento es
normalmente menor. Adems este entrenamiento debe realizarse en la sala tpica donde se
vaya a utilizar el sistema. Si se cambia de sala, es necesario volver a realizar el entrenamiento.
Otra opcin disponible para los usuarios avanzados es el aprendizaje continuo del modelo de
textos basado en los textos ya escritos. Si se usa esta modalidad, es muy importante que los
textos escritos se corrijan adecuadamente, pues puede suceder que el modelo se adapte a los
errores, por lo que el sistema funcione despus de la adaptacin peor que antes.
Otro de los elementos crticos es la posicin del micrfono. Si cambia a menudo la posicin del
micrfono, el rendimiento puede cambiar.
En el siguiente libro se explican con bastante detalle los problemas de una persona para utilizar
el sistema antiguo Voice Type y los trucos para obtener el mejor rendimiento del mismo 5.

Transcripcin de informes previamente grabados


Uno de los mtodos que actualmente parece que producen mayor eficacia en la redaccin,
escritura y procesado de informes es el mtodo de transcripcin de informes previamente
grabados. El radilogo dicta sus informes a un cassette como hace normalmente. El cassette
es posteriormente digitalizado o transferido (si el cassette es ya digital) al ordenador que lo
procesa posteriormente y genera una primera versin del texto dictado. Este texto es revisado
por una secretaria que tiene acceso tambin a la voz grabada a la vez que ve el texto para
corregirlo. Opcionalmente el texto escrito tambin puede pronunciarse por medio de un sistema
de conversin texto-voz que puede facilitar la deteccin de errores. Una vez que la secretaria
ha corregido el texto, el radilogo puede (y debe) echar una ltima ojeada antes de firmarlo.
Este mtodo viene siendo usado por distintos profesionales de Alemania y Blgica con xito 6.
Existe un producto comercial que realiza esta tarea (aunque formalmente el Sistema Dragon
Naturally Speaking tambin lo hace pero no est confirmado por usuarios) que es "Speech
Magic" de Philips 6. No existe descripcin de qu tamao de vocabularios es capaz de
reconocer pero s que existen modelos de texto adaptados a algunas tareas mdicas. El
problema es que an no est disponible en espaol. Est disponible en Ingls Americano,
Ingls Britnico, Alemn, Francs, Austraco y Holands. Para corregir, reproduce la voz
grabada a la vez que el texto que ha transcrito el sistema. Existen diferentes informes que
anuncian que con este sistema se consiguen mejoras razonables de eficacia. Sobre todo, los
informes estn disponibles para el paciente mucho antes que con el mtodo tradicional, que por
regla general, un informe tarda del orden de 1,5 das. Adems los informes pueden disponerse
tambin antes en otras reas del hospital para tratamiento posterior del paciente.

Perspectivas futuras del reconocimiento de voz y su aplicacin


al procesado de informes radiolgicos
Se lleva mucho tiempo esperando que una mquina sea capaz de transcribir al dictado lo que
otra persona dice, pero no somos conscientes de la enorme dificultad del problema. Creemos

que esto es fcil observando cmo un nio aprende un idioma casi sin enterarse. Sin embargo
no nos damos cuenta de que un nio est continuamente aprendiendo y escucha en su perodo
de aprendizaje unas 1500 horas de voz por ao vivido. En 10 aos escuchara unas 15000
horas. Los sistemas ms avanzados actuales se basan en el entrenamiento del sistema con
solo unas decenas de horas de voz. Ello sin comparar el mtodo de aprendizaje, ya que los
mtodos artificiales son muy rudimentarios comparados con el cerebro humano.
Por otro lado, toda persona no es capaz de entender a cualquier hablante de un idioma.
Veamos el ejemplo de cuando vamos a un pueblo escondido que tienen un habla cerrada, no
somos capaces de entenderlos. Tampoco somos muchas veces capaces de entender otro
dialecto, no solo por la diferente pronunciacin sino por el significado diferente de las palabras.
Lo que hace un humano cuando esto sucede es iniciar un proceso de aprendizaje o adaptacin
que va mejorando cuanto ms tiempo omos a esa persona. Lo mismo sucede con la
percepcin del habla pronunciada por no nativos con un nivel de pronunciacin de segunda
lengua intermedio. Inicialmente no somos capaces de comprenderlos y poco a poco vamos
comprendiendo sus palabras ms y ms. Ni que decir tiene que la mquina tiene muchos ms
problemas para reconocer habla de no nativos. Y a propsito del significado de las palabras,
los sistemas actuales no hacen uso del mismo para reconocer voz, cosa que en el hombre es
uno de los elementos que utiliza para reconocer. Por otro lado es muy difcil ensear a una
mquina conocimientos de contexto que se sobreentienden en el caso de los humanos. Por
ejemplo, para poder escribir correctamente "vaca" o "baca" es necesario saber el significado de
la frase y el contexto en el que se dice.
Otra de las caractersticas humanas muy difciles de igualar son las capacidades del odo
externo, medio e interno. El odo es capaz de diferenciar a dos personas hablando y
sintonizarse con una sola de ellas, mientras que la mquina tiene muchos problemas para ello.
El odo tambin es capaz de discriminar el habla del ruido mucho mejor que la mquina.
Todas estas capacidades humanas de expresin y comprensin del lenguaje hablado no han
sido an igualadas por las mquinas. Sin embargo se han hecho progresos extraordinarios.
Estos progresos se han realizado ms por la enorme evolucin de los procesadores y las
memorias que han multiplicado exponencialmente su capacidad de proceso y almacenamiento
de informacin sin incrementar sensiblemente el coste que por el descubrimiento de nuevos
modelos de procesamiento del lenguaje por humanos. Es verdad que un mtodo matemtico
ha ayudado enormemente en la mejora de los sistemas de reconocimiento de habla. Es el
llamado mtodo de Modelos Ocultos de Markov, que es un mtodo muy robusto de procesado
y estimacin estadstica de patrones. Precisamente este mismo mtodo ha sido utilizado
ultimamente con xito en el descubrimiento del mapa del genoma humano. Uno de los libros
ms didcticos que explica el mtodo citado est escrito por bilogos y para bilogos.
En el futuro, se espera una evolucin muy rpida en estos temas que harn que los sistemas
de reconocimiento de voz se aproximen incluso sobrepasen al hombre en algunas tareas
concretas. Por el momento, debemos estar alerta a cualquier nuevo desarrollo que pueda
mejorar la eficacia en el trabajo del radilogo y del sistema mdico relacionado con l.

http://www-gth.die.upm.es/index-e.html
http://www-4.ibm.com/software/speech/es/win/pro.html
3
http://www.lhsl.com/es/naturallyspeaking/prof/
4
Esto lo veremos en el siguiente apartado, aunque no se conocen datos de uso de esta modalidad
5
Esther Schindler, "The Computer Speech Book", Academic Press Professional, 1996
6
http://www.speech.philips.com/
2