Aqu se investiga y experimenta la tcnica de identificacin de palabras clave usando los fonemas como filler. Tambin se introduce el uso de modelos de lenguaje estocsticos para mejorar el desempeo de los fillers.
2. Modelo de fillers como unidades inferiores a la palabra Una de las soluciones al problema de identificacin de palabras clave en habla continua se basa en el reconocimiento de un conjunto de unidades lingsticas fundamentales, escogidas de forma que todas las palabras de un lenguaje puedan ser representadas con sus correspondientes sonidos acsticos.
Ventajas de los fonemas fillers: - El modelado con unidades inferiores a la palabra facilita la difcil tarea de predecir las palabras no clave para cada nueva aplicacin
3. Clasificacin de los fonemas El lenguaje hablado puede representarse como una serie de unidades bsicas de sonido llamada fonemas. Los fonemas se separan principalmente en dos grupos: vocales y constantes El modo de articulacin separa las consonantes en cinco grupos: oclusivas, fricativas, africadas, nasales, liquidas. Articulacin a las vocales se les asigna los trminos : anterior, central y posterior, y de abierta, media y cerrada. En las consonantes se les asigna en seis grupos: bilabiales, labiodentales, dentales, alveodentales, palatales y velares. En cuanto a las vibraciones de las cuerdas bucales, las consonantes pueden ser clasificados como sordas y sonoras
4. Modelado de Filler de fonemas usando modelos de lenguaje La precisin de reconocimiento puede ser mejorada tomando ventaja de la posible informacin a prior en las secuencias a ser reconocidas. En reconocimiento de habla conocimiento a priori puede significar lo siguiente.
* Las palabras permitidas suelen corresponder a un vocabulario predeterminado. *Algunas secuencias de palabras son mas probables que otras.
5. Modelo de Bigram Existen razones para entrenar modelos 2-gran (bigram). Por un lado, las secuencias de formas en espaol son muy regulares, por ejemplo: /pe/, /ta/, /da/, son secuencias comunes de fonemas y /xp/, /tp/, /cb/ son secuencias poco comunes. Por otro lado el reconocimiento al nivel de fonemas es muy difcil debido a que un fonema esta influenciado por sus fonemas colindantes. el modelo bigram esta basado en la aproximacin de que una palabra es estticamente dependiente de la palabra anterior (en este capitulouna palabra corresponde a un fonema). El modelo bigram asigna una probabilidad a una secuencia de palabras W de acuerdo a la siguente ecuacin:
Donde la probabilidad de tener la palabra W i cuando la palabra anterior es W i-1 esta dada por :
En la ecuacin anterior es el numero de ocurrencias de la secuencia en el conjunto de entrenamiento y es el numero de ocurrencias de la palabra en el mismo conjunto de entrenamiento.