Anda di halaman 1dari 12

Aplicaciones del RAH.

Aunque en teora cualquier tarea en la que se interacte con un ordenador puede utilizar el
reconocimiento automtico del habla, actualmente las siguientes aplicaciones son las ms
comunes:

Dictado automtico: Aplicacin de uso ms comn en la tecnologa de reconocimiento de voz.


Control por comandos: Los sistemas de reconocimiento de habla diseados para dar rdenes a un
computador; los cuales reconocen un vocabulario muy reducido que incrementa su rendimiento.

Telefona: Como ejemplo se presenta el sistema PBX, que permite a los usuarios ejecutar
comandos mediante el habla, en lugar de pulsar tonos. PBX son las siglas en ingls de Private
Branch Exchange, red telefnica privada que es utilizada dentro de una empresa. Los usuarios del
sistema comparten un nmero definido de lneas telefnicas para poder realizar llamadas
externas, a travs de extensiones internas dentro de una empresa (y al mismo tiempo las conecta
con la red pblica conmutada)

Sistemas porttiles: Tienen unas restricciones muy concretas de tamao y forma, as que el habla
es una solucin natural para introducir datos en estos dispositivos. Sistemas diseados para
discapacitados: Sistemas d tiles para personas con discapacidades que les impidan teclear con
fluidez, as como para personas con problemas auditivos, que pueden usarlos para obtener texto
escrito a partir de habla.

El control por voz en el hogar digital puede realizarse de formas diferentes segn el tipo de
elementos captadores de voz a utilizar, y de la forma de transmitir las seales de audio entre los
elementos que componen el sistema de control por voz. Desde el punto de vista tcnico, el
conexionado ms simple es el realizado en estrella desde la central hasta cada elemento emisor o
receptor. Esta conexin se puede realizar con seales analgicas o digitales. En este caso en el que
se transmiten las seales digitalmente, se consigue aumentar la longitud del cableado respecto a
seales analgicas sin perdida de calidad. El coste econmico es mayor ya que debe utilizar
conversores A/D y D/A en el sistema de control y en los dispositivos hardware emisores Para citar
este articulo en formato APA: Revista ARQHYS. 2012, 12. Aplicaciones del RAH. Equipo de
colaboradores y profesionales de la revista ARQHYS.com. Obtenido 11, 2017, de
http://www.arqhys.com/construcciones/aplicaciones-rah.html.
Reconocimiento Automtico del Habla

El proceso de reconocimiento automtico del habla (RAH) dota a las mquinas de la capacidad de
recibir mensajes orales. Tomando con entrada la seal acstica recogida por un micrfono, el
proceso de reconocimiento automtico del habla tiene como objetivo final descodificar el mensaje
contenido en la onda acstica para realizar las acciones pertinentes. Para lograr este fin, un
sistema de RAH necesitara conjugar una gran cantidad de conocimientos acerca del sistema
auditivo humano, sobre la estructura del lenguaje, la representacin del significado de los
mensajes y sobre todo el autoaprendizaje de la experiencia diaria. Actualmente estamos lejos de
lograr un sistema completo que pueda comprender cualquier mensaje oral en cualquier contexto
tal y como lo podra hacer un ser humano. Sin embargo, la tecnologa actual si que permite realizar
sistemas de RAH que pueden trabajar, con un error aceptable, en entornos semnticos
restringidos.

Ttulo

Principios Bsicos

Arquitectura

Bsicamente, el reconocimiento del habla es un proceso de clasificacin de patrones, cuyo


objetivo es clasificar la seal de entrada (onda acstica) en una secuencia de patrones
previamente aprendidos y almacenados en unos diccionarios de modelos acsticos y de lenguaje.
Este proceso de clasificacin supone, en primer lugar que la seal de voz puede ser analizada en
segmentos de corta duracin y representar cada uno de los segmentos mediante su contenido
frecuencial, de forma anloga al funcionamiento del odo, en segundo lugar que mediante un
proceso de clasificacin podemos asignar a cada segmento o conjuntos consecutivos de
segmentos una unidad con significado lingstico y finalmente , en tercer lugar, que mediante un
procesador lingstico podemos dar significado a las secuencias de unidades. Este ltimo paso del
sistema supone incorporar al sistema de RAH conocimiento acerca de la estructura sintctica,
semntica y pragmtica del lenguaje. Sin embargo, los sistemas actuales de RAH solo incorporan
estas fuentes de conocimiento sobre tareas muy restringidas y controladas, estando la mayora de
ellos en experimentacin en condiciones de laboratorio.

Principios Bsicos
Arquitectura de un Sistema de RAH

Dificultades

Matemticamente, el problema del reconocimiento automtico del habla se puede formular


desde un punto de vista estadstico. Para ello supongamos que O representa una secuencia de T
medidas de la seal de voz (datos acsticos) y W es una secuencia de N palabras que pertenecen a
un vocabulario conocido. La probabilidad condicional P(W|O) es la probabilidad de que la
secuencia de palabras W se haya pronunciado dada la observacin de los datos acsticos O.

El sistema de reconocimiento debe decidir en favor de la secuencia de palabras W que maximize la


probabilidad P(W|O)

W=argmax P(W|O)

Utilizando la frmula de Bayes podemos reescribir la probabilidad condicionada

donde

P(W) es la probabilidad de la secuencia de palabras W

P(O|W) es la probabilidad de observar la secuencia de datos acsticos O cuando se pronuncia la


secuencia de palabras W

P(O) es la probabilidad de la secuencia de datos acsticos O


sin embargo, como la probabilidad de la secuencia de datos acsticos P(O) es la misma
independientemente de la secuencia de palabras pronunciada, en el proceso de maximizacin,
esta probabilidad puede ser eliminada (la secuencia de palabras que da el mximo no vara). De
esta forma obtenemos la frmula fundamental del reconocimiento automtico del habla

Es decir, la secuencia de palabras reconocida es aquella que maximiza el producto de dos


probabilidades, una P(O|W) que relaciona los datos acsticos con la secuencia de palabras y que
denominaremos modelo acstico y P(W) que nicamente depende de la secuencia de palabras y
que denominaremos modelo de lenguaje.

La figura 1 se muestran los bloques bsicos de un sistema de reconocimiento automtico del habla
basado en la anterior frmula. En la figura se distinguen dos procesos diferenciados:

Entrenamiento Fase en la que el sistema aprende, a partir de muestras de voz y texto, los modelos
acsticos P(O|W) y los modelos de lenguaje P(W)

Reconocimiento Fase propiamente dicha de reconocimiento automtico del habla en la que


la seal acstica es transcrita en una secuencia de palabras de acuerdo con la frmula
fundamental del RAH.

Para profundizar en cada bloque que compone un sistema de RAH ir poner el ratn sobre el
bloque que se desea profundizar y pulsar.

Figura 1. Bloques bsicos de un sistema de reconocimiento automtico del habla (Pulsar sobre los
bloques de la figura para profundizar en cada uno de ellos)
Arquitectura

Dificultades

Clasificacin

Existen muchos factores que influyen en la dificultad del proceso de RAH y por tanto en su
rendimiento, pero entre todos ellos destaca la variabilidad. La variabilidad de la seal de voz
depende tanto de factores intrnsecos al fenmeno de produccin de voz como a factores
externos al mismo. Dentro de los factores intrnsecos destacan los siguientes:

1. Variabilidad de los sonidos, debido fundamentalmente a los distintos acentos o formas de


hablar de cada persona. 2. Variabilidad en la produccin de los sonidos, debido fundamentalmente
a las distintas velocidades de produccin, coarticulacin, inclusin de ruidos (apertura y cierre de
labios, respiracin, sonidos de duda, p.e., eh, uuh), condiciones acsticas (hablar en ambientes
ruidosos), contexto de la conversacin, estado anmico, etc. Entre los factores externos destacan:
1. Variabilidad en la cadena de conversin y transmisin de la seal elctrica, debido a las
diferencias entre las caractersticas de los micrfonos, lneas telefnicas, etc.

2. Variabilidad en el ruido captado con la seal de voz, debido a la existencia en las proximidades
del micrfono de otras fuentes sonoras (TV, radio, carretera, impresoras, otras conversaciones,
etc.)

A estos factores de variabilidad acstica habr que aadir otros factores de variabilidad lingstica
relacionados con las distintas formas dialcticas de hablar un idioma, la utilizacin de palabras no
contempladas en el vocabulario de la aplicacin, la construccin de frases no permitidas por la
gramtica del lenguaje, la utilizacin de abreviaturas, los escenarios semnticos de las palabras,
etc. Todo ello hace que el reconocimiento automtico del habla por parte de una mquina no sea
un problema tan trivial como a primera vista pueda parecer.

Dificultades
Clasificacin de Sistemas de RAH

Aplicaciones

En base a como un sistema de RAH resuelve los problemas de variabilidad, podemos realizar una
primera clasificacin de los mismos. R. Moore [MOO90] propuso para la descripcin y clasificacin
de un sistema de RAH la utilizacin de los siguientes descriptores:

Dimensiones de un sistema de reconocimiento automtico del habla

1. Usuarios/locutores

Define las caractersticas de un sistema RAH frente a la variabilidad de los sonidos pronunciados
por diversas personas. Se define una graduacin en trminos de dificultad entre:

a. dependiente del locutor / adaptado al locutor / multilocutor / independiente del locutor

b. usuarios cooperativos / usuarios no cooperativos

c. nivel de experteza requerida al usuario

2. Estilo de habla

Define las caractersticas de un sistema RAH frente a los diversos estilos de habla, clasificados de
forma gradual entre:

a. palabras aisladas ............. habla continua

b. habla leda ...................... habla espontanea

c. nivel de rechazo de habla extraa

3. Vocabulario
Define las caractersticas de un sistema RAH frente al vocabulario que puede reconocer,
clasificados de forma gradual entre:

a. discriminable ..................................... confundible

b. entrenable por el usuario .................... independiente

c. pequeo (< 100 palabras) ................... grande (>1000 palabras)

d. dependiente de la aplicacin .............. independiente

4. Estructura de dilogo

Define las caractersticas de un sistema RAH frente a la capacidad de procesamiento de lenguaje,


clasificados de forma gradual entre:

a. perplejidad (baja /alta)

b. comandos simples .................. lenguaje natural

5. Condiciones de trabajo

Define las caractersticas de un sistema RAH frente a la variabilidad en las condiciones de entorno,
clasificados de forma gradual entre:

condiciones de laboratorio ............. condiciones de campo

Este conjunto de descriptores permite realizar una comparacin entre las prestaciones de distintos
sistemas de RAH dejando patente como resuelve cada sistema los diversos problemas inherentes
al reconocimiento de voz. Las fuentes de variabilidad deben de tenerse muy en cuenta a la hora de
plantear una aplicacin de un sistema de RAH puesto que la robustez del sistema a las mismas
fijar el rendimiento del mismo. En condiciones de laboratorio, muchos factores de variabilidad
estn controlados y no afectan a las prestaciones del sistema y por tanto las tasas de error son
reducidas. Sin embargo, cuando estos mismos sistemas son llevados a una aplicacin en
condiciones reales, los resultados pueden ser desalentadores, sobre todo cuando las pruebas de
laboratorio estaban muy controladas. Por ejemplo, en aplicaciones de reconocimiento de dgitos
conectados se puede pasar de tener un 0,3 % de error por dgito en condiciones de laboratorio a
ms de un 2 % de error por dgito en una aplicacin en condiciones reales.

Clasificaciones

Aplicaciones

Ttulo

A la hora de desarrollar aplicaciones con sistemas de RAH hay que tener en mente que con la
tecnologa actual los sistemas no estn exentos de errores, por lo que las primeras aplicaciones en
las cuales este tipo de interface comienza a tener xito son aquellas que se caracterizan por ser
simples, en cuanto es sencillo el uso del mismo, supone una evolucin de la tecnologa ya
existente en el sentido de que nicamente realizamos un cambio de interface y sobre todo, la
aplicacin debe ser tolerante a errores. A estas consideraciones sobre la aplicacin en s, hay que
aadir una serie de requerimientos tecnolgicos del sistema de RAH. Para trabajar en aplicaciones
reales, el sistema de RAH tiene que tener la capacidad de reconocer palabras o comandos de la
aplicacin en un contexto de habla fluida, mantener un nivel de prestaciones adecuado frente a
cambios de usuario, canal de comunicacin, ruidos, etc., permitir el rechazo de palabras que no
formen el vocabulario de reconocimiento y trabajar en tiempo real entre otros requerimientos.
Como muy bien resean D. B. Roe y F.G. Wilpon [ROE93], a la hora de considerar una aplicacin
utilizando un sistema de RAH se deben realizar 3 preguntas:

1. Cul es el grado de exactitud del sistema que espera el usuario ?

2. Es adecuado el grado de exactitud del sistema de RAH a utilizar con relacin a las expectativas
del usuario?

3. Es realmente beneficioso, coste y satisfaccin del usuario, el uso de un sistema de RAH


comparado con otras tecnologas alternativas ?
El campo de aplicaciones de los sistemas de RAH es muy amplio, pero bsicamente, con la
tecnologa actual existen tres reas en las cuales el volumen de utilizacin de sistemas de RAH est
creciendo de forma exponencial. Estas reas son:

servicios de telecomunicacin,

sistemas de control y

sistemas de entrada de datos y acceso a bases de datos.

Existen varias razones por las cuales ests reas comienzan a utilizar de forma extensiva sistemas
de RAH. Normalmente se utilizan para tareas bien definidas y con un vocabulario y sintaxis
bastante restringido lo que permite que:

a. la unidad elemental de reconocimiento suele ser la palabra

b. solamente un grupo reducido de palabras tienen que ser reconocidas en un instante de tiempo

c. normalmente es aceptable el estilo de habla mediante palabras aisladas

d. el compilador de gramticas de la aplicacin se puede definir de forma sencilla a partir de


grupos de subvocabularios

Bajo estos supuestos, actualmente pueden encontrarse multitud de sistemas de reconocimiento


integrados que trabajan con tasas de reconocimiento superiores al 98 % con palabras aisladas. Sin
embargo, en gran nmero de servicios o productos que potencialmente pueden utilizar
tecnologas del habla, el sistema de RAH no es ms que el interfaz de entrada a un sistema de
dilogo en donde entran en juego otras tecnologas del habla como la sntesis de voz, tal y como se
muestra en el diagrama de bloques de un sistema de dilogo en la figura 2. El propsito final de un
sistema de este tipo es el control de un sistema mediante rdenes orales provenientes, p.e., de un
micrfono, o de lnea telefnica o de un sistema de transmisin sin hilos. Las ordenes son
procesadas por un sistema experto que interacciona con el sistema bajo control para que realice
las acciones pertinentes y genera una contestacin al usuario mediante un sistema de conversin
texto-voz. Un ejemplo es el sistema Basurde [BAS00] para consulta sobre horarios y precios de
trenes regionales y de largo recorrido dentro del proyecto CICYT TIC98-0423-C06.
Figura 2. Sistema de dilogo utilizado en el proyecto Basurde . El sistema trabaja bajo una filosofa
cliente/servidor.RAH: sistema reconocimiento automtico del habla, CH: sistema de comprensin
del habla, GD: sistema de gestin del dilogo, GRO: sistema de generacin de la respuesta oral,
CTV: sistema de conversin texto-voz. Las letras "c" y "s" hacen referencia a la funcin del socket.
c: cliente, s:servidor.

Las aplicaciones ms representativas de los sistemas de RAH que actualmente se pueden


encontrar en fase de experimentacin o de explotacin comercial son:

1. Sistemas de control oral para ayuda a disminuidos fsicos

2. Sistemas de entrada de datos y comandos para ordenadores, navegadores Web por voz

3. Sistemas de acceso a bases de datos

4. Sistemas de venta por catlogo

5. Aplicaciones aerospaciales

6. Servicios interactivos de telefona sin operadora

7. Control oral de telfonos

8. Validacin de ventas con tarjeta de crdito

9. La mquina de escribir oral, Dictado

10. Domtica

11. Autoaprendizaje de idiomas

Una de las aplicaciones ms inmediatas de los sistemas de RAH como interfaz entre hombre y
mquina es la ayuda a discapacitados fsicos. Mediante comandos orales se pueden controlar
muchas de las funciones y actividades cotidianas. Ejemplos en fase de experimentacin son la silla
de ruedas controlada oralmente, camas hospitalarias, control oral de telfonos (p.e. listn
telefnico controlado oralmente) y la activacin oral de aparatos y sistemas domsticos. En el caso
del telfono controlado oralmente, el usuario puede almacenar y acceder a una lista de nmeros
telefnicos utilizando comandos orales. En este tipo de aplicaciones, el sistema de reconocimiento
de voz es dependiente del locutor y trabaja normalmente bajo la configuracin de reconocimiento
de palabras aisladas con capacidad de localizacin de los comandos en habla extraa [LLE93]. El
sistema tiene que tener la capacidad de ser entrenado por el usuario para de esta forma hacer el
acceso a los nmeros telefnicos mediante el nombre de la persona que queremos llamar.

La activacin oral de aparatos y sistemas domsticos, incluida dentro del campo de la domtica,
tiene como objetivo el controlar a estos mediante comandos orales a travs de un sistema de
dilogo. Son susceptibles de control oral, aparatos como el televisor (encender/apagar, cambiar de
canal, volumen), el equipo de HIFI, abrir y cerrar puertas, abrir y cerrar persianas, control de una
cmara de seguridad, activar el telfono, la calefaccin, el horno y encimera, encender y apagar
luces, etc. En 1984, la empresa britnica Voice Input Systems construy, demostr y comenz a
comercializar el sistema VADAS [BRI86] para ayudar a dicapacitados fsicos a controlar oralmente
dispositivos domsticos. Una capacidad interesante de estos sistemas de control oral de
dispositivos domsticos es la posibilidad de controlarlos de forma remota a travs de la lnea
telefnica. Los sistemas de reconocimiento utilizados en este tipo de aplicaciones suelen ser de
palabras aisladas con la capacidad de rechazar habla o sonidos extraos y dependientes del
locutor, de modo que se entrena el sistema con la voz del usuario.

Otra rea de aplicacin de los sistemas de RAH es la aviacin tanto civil como militar. En
aplicaciones militares se ha experimentado en la introduccin de interfaces orales para interactuar
con los sistemas bsicos de un avin de guerra. Los sistemas de reconocimiento suelen ser de
palabras aisladas y tienen que ser capaces de dar unas prestaciones muy buenas trabajando con
relaciones seal a ruido muy pequeas. En experimentos realizados sobre un Mirage 3R, se han
logrado tasas de reconocimiento sobre 95 % con un vocabulario de 30 palabras. En la aviacin civil
se pueden encontrar aplicaciones en proceso de experimentacin para el control areo utilizando
sistemas de reconocimiento de habla continua.

Una de las rea con ms aplicaciones potenciales son las telecomunicaciones y servicios aadidos.
En ciertos servicios aadidos a la red telefnica, el uso de interfaces orales permite una reduccin
efectiva del coste del servicio. Ejemplos de estas aplicaciones son la automatizacin de los
servicios de operadora y la validacin de compras con tarjetas de crdito. En el primer caso,
existen aplicaciones en uso en los EE.UU. por parte de las compaas telefnicas AT&T y Northen
Telecom para automatizar el servicio de facturacin de llamadas asistidas por operadora. En estos
casos, el reconocimiento del mensaje se realiza mediante un sistema de localizacin de palabras.
En el caso de validacin de compras con tarjeta de crdito, este servicio es utilizado por comercios
que no disponen de modems para validar la venta. Con un sistema de reconocimiento de dgitos
conectados puede reconocerse los nmeros de la tarjeta de crdito, la identificacin del vendedor
y el valor de la venta. Como el nmero de la tarjeta de crdito y la identificacin del vendedor
estn formados por una secuencia de dgitos con ciertas restricciones, no causan problemas a la
hora de reconocerlos. La incorporacin de interfaces orales ha permitido tambin incrementar el
nmero de servicios proporcionados por una red de telecomunicaciones. Ejemplos de estas
aplicaciones son los servicios de informacin y transacciones bancarias, servicios de telefona
interactiva (p.e. el sistema VIP -Voice Interactive Phone- de AT&T que permite acceder a ciertos
servicios pronunciando el nombre asignado al mismo en lugar de pulsar un cdigo con el teclado
multifrecuencia [SUK92]) y servicios de acceso a informacin (p.e. sistemas de audiotex).En
relacin a la telefona mvil en vehculos, los sistemas de reconocimiento de voz comienzan a ser
introducidos para permitir controlar el telfono (funciones de marcado, respuesta, etc.) mediante
comandos orales.

Un sueo que comienza a ser realidad es la mquina de escribir oral, es decir, un sistema de
conversin de voz a texto con un vocabulario muy grande ( > 5000 palabras) que puede transcribir
habla natural sin restricciones a texto. Este tipo de reconocedores del habla se estn desarrollado
en la actualidad y ya se pueden encontrar en explotacin comercial algunos de ellos. Ejemplos de
los mismos son los sistemas comercializados por Dragon Systems e IBM, que permite reconocer un
vocabulario de hasta 60000 palabras trabajando sobre un PC, utilizando un sistema de adaptacin
al usuario de modo que no es necesario un entrenamiento del mismo. El sistema aprende de
forma interactiva el estilo de habla del usuario y reconoce palabras aisladas con separaciones
entre palabras de un cuarto de segundo. Con este sistema se puede llegar a crear un texto a una
velocidad de hasta 120 palabras por minuto. Actualmente se pueden adquirir en el mercado
productos como telfonos, juguetes, radiocassete de coche, telfonos mviles para coche,
grabadores de vdeo, agendas personales que incorporan un sistema sencillo de reconocimiento
de voz para controlar las funciones ms elementales de dichos productos.

Con el auge de Internet, han aparecido ya navegadores que incorporan tecnologas del habla. En
concreto existen navegadores que permiten realizar la navegacin por voz, solo hace falta
pronunicar los enlaces y permiten igualmente una interaccin con el usuario utilizando un
conversor texto-voz. Un ejemplo es el navegador WebConversa.

Otro ejemplo de aplicacin es el acceso a bases de datos, como puede ser la consulta sobre
horarios y precios de trenes regionales y de largo recorrido que se ha desarrollado dentro del
proyecto CICYT TIC98-0423-C06 por varios grupos universitarios del pas. Estado actual e
instrucciones de uso del prototipo.

Anda mungkin juga menyukai