Anda di halaman 1dari 3

Elementos basicos de un reconocedor de voz El reconocedor de voz esta dada por la siguiente formula:

En esta ecuacin podemos identificar que los elementos bsicos de un sistema reconocedor de voz son: 1. El modelo acstico. 2. El modelo de lenguaje. 3. El diccionario de pronunciacin. A continuacin se presenta un esquema de cmo se relacionan estos elementos.

Estructura de reconocimiento Modelo acstico El modelo acstico captura las propiedades acsticas de la seal de entrada, obtiene un conjunto de vectores de caractersticas que despus compara con un conjunto de patrones que representan smbolos de un alfabeto fontico y arroja los smbolos que ms se parecen.

El modelo acstico incluye: 1. El anlisis acstico, en el cul se caracteriza a la seal de entrada en una secuencia de vectores acsticos. 2. Los modelos acsticos para las unidades que forman las palabras (por ejemplo, fonemas, que usualmente son modelados dependientes del contexto). 3. El diccionario de pronunciacin, en el cul se define la descomposicin de las palabras en unidades ms pequeas que corresponden a las unidades dentro del alfabeto fontico definido. Factores que influyen en el reconocimiento Los principales factores que influyen en la construccin de un reconocedor de voz son: 1. El ruido. Como ya se haba mencionado en el modelo acstico, el ruido en el canal de comunicacin puede afectar en gran medida el reconocimiento de un sonido e incluso hacer que el sistema no funcione. 2. Ambigedad en la pronunciacin de las palabras . Si aparecen problemas de claridad en la expresin o tenemos palabras similares el porcentaje de error en el reconocimiento puede ser elevado. Un diccionario muy amplio es causa de que surjan complicaciones en el sistema debido a que, implcitamente, hay palabras susceptibles de confusin. Por ejemplo, en un diccionario de ms de 20,000 palabras en ingls puede darse el caso de que una de cada dos palabras se diferencien de otra solo por un fonema, adems, mientras ms grande sea el diccionario, mayor dificultad para recordarla. 3. El tamao del corpus. Con un diccionario de menos de 50 palabras el sistema funciona muy bien, pues la variedad de opciones es baja y la tasa de error ser baja tambin. Si se trabaja con un diccionario ms amplio pero una gramtica sencilla, entonces tampoco se presentan grandes complicaciones; sin embargo, con un diccionario muy amplio se presenta la ambigedad y adems la cantidad de datos de audio tambin debe ser considerablemente grande 4. La variabilidad de acento en los hablantes. A pesar de que teniendo un corpus lo suficientemente grande podemos tener independencia del hablante, es importante considerar el acento, puesto que un sistema creado para el espaol de Mxico puede ser ineficiente tratndose de un argentino, un costarricense u otra persona cuyo

acento sea muy marcado. Lo mismo sucedera en un sistema para el idioma ingls si es un latino el que lo utiliza.

Anda mungkin juga menyukai