Processamento de Sinais
Áudio-Visuais
Parte II – Voz e Áudio
Fevereiro/2011
1
1
2/10/2011
Agenda
1. Introdução
2. Sinais de Voz
3. Sinais Áudio
2
2/10/2011
1. Introdução
• Voz vs. Áudio
– Semelhanças?
– Diferenças?
2. Processamento Digital de
Sinais de Voz
• Processamento digital
• Pesquisa e desenvolvimento
3
2/10/2011
Produção da Fala
• Ondas acústicas
cordas vocais
4
2/10/2011
Placa de som
Microfone
do computador
Transmissão
digital para
outras
Centrais
Telefone Central Telefônicas
residencial Telefônica
10
5
2/10/2011
Transmissão
digital para
Central de
Controle
Telefone
Celular Estação
Radio Base
11
Serviços e aplicações
• Serviços e aplicações que utilizam voz digital
são vastos. Alguns exemplos:
– Telefonia celular digital
– Telefonia IP
– Gravadores digitais de voz
– Equipamentos de resposta automática (ex. Serviço
bancário por telefone)
– Reconhecimento de pessoas pela voz
– Comandos de computadores ou equipamentos
eletrônicos pela voz
12
6
2/10/2011
A telefonia IP
• A telefonia IP, também conhecida pela
sigla VoIP (voz sobre IP) é uma aplicação
onde o sinal digital de voz é transmitida
através de rede de computadores ou pela
Internet.
• A conversação pode ser estabelecida
entre dois computadores, ou entre
computador e telefone comum
13
Telefonia IP
Laptop e
headset
Computador INTERNET
e headset Telefonia
convencional
14
7
2/10/2011
Serviços VoIP
• fone@RNP Skype
15
8
2/10/2011
Codificação de voz
• Objetivo é transformar a voz digital amostrada e
quantizada em outros formatos que ocupem
menos quantidade de memória de
armazenamento ou de banda de transmissão.
• Há duas abordagens:
– Forma de onda
– Parâmetros de modelagem de produção da fala
17
9
2/10/2011
19
Codificação Paramétrica
• Consiste na obtenção de parâmetros do
sinal de voz para atender à modelagem da
produção da fala.
• Método da Predição Linear – LPC
• Apenas parametros são transmitidos ou
armazenados: grande redução da taxa de
bits.
• Exemplo: LPC-10 a 2400 bits/seg
20
10
2/10/2011
21
Desafios
• Há o compromisso entre baixa taxa-de-
bits e a qualidade do sinal de voz
recuperado
• Os esquemas de codificação atuais usam
conceitos matemáticos complexos e
buscam a qualidade perceptual em
contraposição à forma de onda
22
11
2/10/2011
Reconhecimento de Voz
• Também pode usar como base os
parâmetros da modelagem da produção
da fala como os coeficientes LPC e os
coeficientes Cepstrum
• Baseia-se em treinamento do sistema,
requerendo extensos bancos de dados de
voz:
• Treinamento
• Testes
23
Reconhecimento de Voz
• Reconhecimento de palavras de comando
• Várias pessoas falam a mesma palavra
• Testes de acerto da palavra com base de dados
de várias pessoas
• Reconhecimento de locutor
• Aquelas pessoas que desejamos identificar
treinam o sistema com sua voz
• Testes de acerto com pessoas diferentes
24
12
2/10/2011
Técnicas de Reconhecimento
• Método de probabilidades
• HMM – Hidden Markov Model
25
Síntese de voz
• Utiliza da modelagem da produção da fala
(parametros)
• identifica sílabas das palavras de acordo
com regras de linguagem
• converte texto para sinais de voz seguindo
as regras de amostragem e
temporizações pré-determinadas
26
13
2/10/2011
27
28
14
2/10/2011
Possibilidades
• O sinal de áudio digital pode ser:
– armazenado em computadores,
– gravado em discos de CD’s,
– ser associado aos filmes de DVD’s,
– ser distribuído pela Internet, e
– ser transmitido por rádio digital e TV digital.
29
30
15
2/10/2011
Aplicações
– Na codificação MP3 de canções e músicas,
que é baseada no sistema MPEG-2, é
bastante utilizada para transmissão ou envio
de arquivos musicais pela Internet.
– Na composição musical por computação e
nos instrumentos digitais, são cada vez mais
usados o áudio digital pela sua facilidade de
utilização e pela alta-fidelidade.
– Sistemas de áudio profissional, com
equipamentos de altíssima fidelidade.
31
Áudio Imersivo
• O Áudio Imersivo é não apenas uma aplicação de áudio
digital, mas também uma linha de pesquisa para o
desenvolvimento de futuros sistemas. Suas principais
características são:
• A sensação de imersão acústica no cenário.
• Com diversos alto-falantes pode-se “compor” os sons
em qualquer posição do espaço, através de equações
acústicas complexas.
• Todos alto-falantes contribuem na formação do som
ambiente.
• Trata-se de uma combinação perfeita com Video
Imersivo Tridimensional.
32
16
2/10/2011
33
Leitura sugerida
• Leitura do ponto de vista das aplicações
(não é necessário entender profundamente as questões
matemáticas)
Chapter 22 do livro online:
The Scientist and Engineer's Guide to
Digital Signal Processing, by Steven W.
Smith.
<http://www.dspguide.com/>
34
17
2/10/2011
Referências em Voz
• Lawrence R. Rabiner, Ronald W. Schafer. Digital Processing of
Speech Signals . Prentice Hall, 1978.
35
Referências em Áudio
• William M. Hartmann. Signals, Sound, and Sensation: Modern acoustics
and signal processing. AIP Press, 1996.
• Glen Ballou. Handbook for Sound Engineers, 3rd ed. Focal Press, 2005.
36
18
2/10/2011
37
19