IPIOS DE ALGUNS M
ETODOS PARA
RECONHECIMENTO DE VOZ
A. Ac ustica fon etica
As primeiras abordagens para o reconhecimento de voz
foram baseadas em encontrar sons da fala e identicar de
forma apropriada (labels) estes sons. Primeiro e fazer an alise
espectral do som, segundo passo e segmentar em regi oes
fon eticas para facilitar a identicac ao e terceiro passo e
comparar com os sons pr e-denidos atrav es de sintaxes ou
vocabul arios j a denidos tamb em.
Tabela1 - Par ametros considerados tpicos para extrac ao das
caractersticas de fala
B. Coincid encia de Padr ao (pattern matching)
Este m etodo envolve dois passos essenciais ou seja, a
formac ao de padr oes e comparac ao de padr oes. A carac-
terstica essencial desta abordagem e que ela utiliza uma
bem formulada estrutura matem atica e estabelece entre as
falas representac oes consistentes de padr ao por comparac ao
con avel destes padr oes, a partir de um conjunto de amostras
de treinamento rotuladas atrav es de um algoritmo de treina-
mento formal.
C. Baseado em refer encia (Template )
Uma colec ao de padr oes de fala que s ao prot otipos ar-
mazenados como padr oes de refer encia que representam o
dicion ario de palavras possveis. Reconhecimento e ent ao
realizado por combinac ao da palavra falada desconhecida com
cada um desses modelos de refer encia e selecionando a catego-
ria dos melhores que correspondem de padr ao. Normalmente,
modelos para palavras inteiras s ao construdos. Isto tem a
vantagem de que, devido a segmentac ao e classicac ao de
menores unidades de vari aveis ac usticas tais como fonemas,
os erros podem ser evitados. Por sua vez, cada palavra deve
ter a sua refer encia na base gravada previamente para poder
ter comparac ao de padr oes e este m etodo e invi avel para uma
base da dados extensa.
D. Modelo Estoc astico
Modelagem estoc astica implica na utilizac ao de modelos
probalsticos para lidar com informac oes incertas ou incom-
pletas em reconhecimento de voz, a incerteza e a incompletude
surgem de muitas fontes, por exemplo, sons confusos, variabil-
idades de quem fala, efeitos contextuais e palavras com mesma
pron uncia e escrita diferente. Assim, modelos estoc asticos s ao
abordagens particularmente adequadas ao recocnhecimento de
fala contnua. A abordagem estoc astica mais popular hoje e
modelagem oculta de Markov. Um modelo de Markov oculto e
caracterizado por um modelo de Markov de estado nito e um
conjunto de distribuic oes de sada. Os par ametros de transic ao
na cadeia de modelos Markov, variedades temporais, enquanto
que os par ametros no modelo de distribuic ao de sada, var-
iedades espectrais s ao dois tipos ess encias para reconheci-
mento de voz. O modelo oculto de Markov ( HMM- Hidden
Markov Model) trabalha com as entradas ( no caso com
arquivos de som como waves) calculando as probabilidades
com os possveis estados ( o tom ou rapidez , por exemplo, que
a mesma palavra pode ser falada pela mesma pessoa) , onde a
sequ encia n ao e conhecida e o locutor e identicado mesmo
assim e o que est a sendo falado. Em reconhecimento de voz
existem as fases de entrada de dados para base, treinamento
das vari aveis (training) e reconhecimento da fala. Um HMM
gera sequ encias de observac oes pulando de um estado para
outro, emitindo uma observac ao a cada salto. Geralmente e
utilizado um modelo simplicado de HMM conhecido como
modelo left-right, ou modelo de Bakis , no qual a sequ encia
de estados associada ao modelo tem a propriedade de, ` a
medida que o tempo aumenta, o ndice do estado aumenta (ou
permanece o mesmo), isto e, o sistema caminha da esquerda
para a direita no modelo.
Os estados s ao identicados numericamente e postas numa
matriz onde s ao feitos c alculos com o valor da entrada (Xi)
mais os valores posteriores (Xf) com as respectivas probabili-
dades e proximidade com um objeto denido anteriormente no
IME - SE/3 - Mestrado em Engenharia El etrica
sistema (Cadeira de Markov), os quais s ao guardados na base
de dados . Assim, mesmo que uma palavra seja dita de formas
diferentes pelo mesmo locutor, a identicac ao e possvel.
E. DTW - Dynamic Time Warping
Dynamic Time Warping e um algoritmo para medir a
similaridade entre duas sequencias as quais possam variar
no tempo ou velocidade. Nessa inst ancia, similaridade , o
objeto e identicado em velocidade maior ou mais devagar,
durante o curso de uma das observac oes. DTW e aplicado
para vdeo, audio , gr acos em geral, ou qualquer dado que
podem ser transformados numa representac ao linear que possa
ser analisada com este m etodo.
F. Quantizac ao de Vetor (VQ - Vector Quantization)
Um dos m etodos mais indicado para o sistema ASR (Au-
tomatic Speech Recognition), as amostras s ao gravadas em
pastas (codebooks), com suas carcatersticas e os c alculos
(MFCC) s ao armazenados em vetores. A frequ encia de en-
trada e comparada com as que est ao no sistema previamente
gravadas e a resposta mais aproximada e validada.
IV. T
ECNICAS
As duas t ecnicas consideradas mais importantes para
detecc ao e reconhecimento de voz autom atico ser ao descritas
abaixo:
A. Preditor linear (Linear Predictive Coding)