Audio Visual2

2/10/2011
Processamento de Sinais
Áudio-Visuais
Parte II – Voz e Áudio
Prof. Celso Kurashima
Introdução à Engenharia da Informação
Fevereiro/2011
1
Snapshot – sinais no osciloscópio
1
2/10/2011
processamento de voz e áudio
Sistemas Home Theater
Agenda
1. Introdução
2. Sinais de Voz
3. Sinais Áudio
2
2/10/2011
1. Introdução
• Voz vs. Áudio
– Semelhanças?
– Diferenças?
2. Processamento Digital de
Sinais de Voz
• Noções sobre sinais de voz
• Processamento digital
• Pesquisa e desenvolvimento
3
2/10/2011
Produção da Fala
• Ondas acústicas
cordas vocais
• A fala que as pessoas emitem é

produzida pelo ar que vem do pulmão,
atravessa as cordas vocais, passa pela
boca e nariz, e é emanada pelo ar na
forma de ondas acústicas
Conversão em Sinal Digital

• Para enviar e receber a voz por meio de
equipamentos ou computadores, é
necessário converter o som da voz em
formato digital.
• Essa conversão é feita pela conversão da
voz em sinal elétrico analógico, e depois
pela sua conversão em sinal digital.
4
2/10/2011
Conversão pela placa de som

• .
Placa de som
Microfone
do computador
Conversão digital na telefonia

• .
Transmissão
digital para
outras
Centrais
Telefone Central Telefônicas
residencial Telefônica
10
5
2/10/2011
Conversão digital na telefonia

celular digital
• .
Transmissão
digital para
Central de
Controle
Telefone
Celular Estação
Radio Base
11
Serviços e aplicações
• Serviços e aplicações que utilizam voz digital
são vastos. Alguns exemplos:
– Telefonia celular digital
– Telefonia IP
– Gravadores digitais de voz
– Equipamentos de resposta automática (ex. Serviço
bancário por telefone)
– Reconhecimento de pessoas pela voz
– Comandos de computadores ou equipamentos
eletrônicos pela voz
12
6
2/10/2011
A telefonia IP
• A telefonia IP, também conhecida pela
sigla VoIP (voz sobre IP) é uma aplicação
onde o sinal digital de voz é transmitida
através de rede de computadores ou pela
Internet.
• A conversação pode ser estabelecida
entre dois computadores, ou entre
computador e telefone comum
13
Telefonia IP
Laptop e
headset
Computador INTERNET
e headset Telefonia
convencional
14
7
2/10/2011
Serviços VoIP
• fone@RNP Skype
15
Áreas de Processamento de voz

• Codificação (compressão)
• Reconhecimento de voz
• De palavras faladas
• De locutor
• Síntese de Voz
• Conversão texto para fala
• Melhoria de voz (enhancement)
• Auxílio auditivo
• Redução de ruído perceptual
16
8
2/10/2011
Codificação de voz
• Objetivo é transformar a voz digital amostrada e
quantizada em outros formatos que ocupem
menos quantidade de memória de
armazenamento ou de banda de transmissão.
• Há duas abordagens:
– Forma de onda
– Parâmetros de modelagem de produção da fala
17
codificação de forma de onda

• O PCM é o método mais conhecido:
– PCM linear
– PCM logaritmico (ITU-T G.711)
• PCM diferencial
– DPCM e DM
– ADPCM (ITU-T G.721)
• Por transformadas
– subbandas
18
9
2/10/2011
Taxa de bits do PCM

• Qual a taxa de bits do PCM?
– Dado que:
• Frequência de amostragem é: 8 KHz
• São usados 8 bits por amostra
• Cálculo:
• Taxa bits = 8 bits/amostra x 8000 amostras/seg
• Taxa bits = 64000 bits/seg
19
Codificação Paramétrica
• Consiste na obtenção de parâmetros do
sinal de voz para atender à modelagem da
produção da fala.
• Método da Predição Linear – LPC
• Apenas parametros são transmitidos ou
armazenados: grande redução da taxa de
bits.
• Exemplo: LPC-10 a 2400 bits/seg
20
10
2/10/2011
Método da Predição Linear

• Passos:
– Calcula coeficientes LPC para a produção de
voz e informação de “pitch”, durante uma
certa janela de voz
– Na recepção os parâmetros são usados num
filtro de síntese, que reproduz (sintetiza) uma
voz que é bem próxima da original
21
Desafios
• Há o compromisso entre baixa taxa-de-
bits e a qualidade do sinal de voz
recuperado
• Os esquemas de codificação atuais usam
conceitos matemáticos complexos e
buscam a qualidade perceptual em
contraposição à forma de onda
22
11
2/10/2011
Reconhecimento de Voz
• Também pode usar como base os
parâmetros da modelagem da produção
da fala como os coeficientes LPC e os
coeficientes Cepstrum
• Baseia-se em treinamento do sistema,
requerendo extensos bancos de dados de
voz:
• Treinamento
• Testes
23
Reconhecimento de Voz
• Reconhecimento de palavras de comando
• Várias pessoas falam a mesma palavra
• Testes de acerto da palavra com base de dados
de várias pessoas
• Reconhecimento de locutor
• Aquelas pessoas que desejamos identificar
treinam o sistema com sua voz
• Testes de acerto com pessoas diferentes
24
12
2/10/2011
Técnicas de Reconhecimento
• Método de probabilidades
• HMM – Hidden Markov Model
• Redes Neurais Artificiais

• MPL – Multi-Layer Perceptron
• RBF – Radial Basis Function
25
Síntese de voz
• Utiliza da modelagem da produção da fala
(parametros)
• identifica sílabas das palavras de acordo
com regras de linguagem
• converte texto para sinais de voz seguindo
as regras de amostragem e
temporizações pré-determinadas
26
13
2/10/2011
Melhoria do Sinal de Voz

• Utilizado na presença de forte ruído no
sinal, ou na codificação de baixa
qualidade
• Abordagem perceptual
• Realça características/parâmetros
importantes da voz
27
3. Processamento de Áudio Digital

• Áudio refere-se aos sons acústicos na
forma de sinal elétrico, geralmente
oriundos de instrumentos musicais e
canções.
• O Áudio Digital é o sinal de áudio
analógico convertido para o formato
digital, usualmente com alta fidelidade.
28
14
2/10/2011
Possibilidades
• O sinal de áudio digital pode ser:
– armazenado em computadores,
– gravado em discos de CD’s,
– ser associado aos filmes de DVD’s,
– ser distribuído pela Internet, e
– ser transmitido por rádio digital e TV digital.
29
Aplicações de áudio digital

• Grande parte das aplicações de áudio digital
são associadas às aplicações de vídeo digital.
• As principais aplicações de áudio digital
atualmente são:
– No cinema digital, onde se utiliza o sistema Dolby
Digital AC-3.
– Em discos de vídeo digital DVD com áudio para
home theater, que também utiliza o sistema Dolby
Digital AC-3 e o áudio surround 5.1.
30
15
2/10/2011
Aplicações
– Na codificação MP3 de canções e músicas,
que é baseada no sistema MPEG-2, é
bastante utilizada para transmissão ou envio
de arquivos musicais pela Internet.
– Na composição musical por computação e
nos instrumentos digitais, são cada vez mais
usados o áudio digital pela sua facilidade de
utilização e pela alta-fidelidade.
– Sistemas de áudio profissional, com
equipamentos de altíssima fidelidade.
31
Áudio Imersivo
• O Áudio Imersivo é não apenas uma aplicação de áudio
digital, mas também uma linha de pesquisa para o
desenvolvimento de futuros sistemas. Suas principais
características são:
• A sensação de imersão acústica no cenário.
• Com diversos alto-falantes pode-se “compor” os sons
em qualquer posição do espaço, através de equações
acústicas complexas.
• Todos alto-falantes contribuem na formação do som
ambiente.
• Trata-se de uma combinação perfeita com Video
Imersivo Tridimensional.
32
16
2/10/2011
Audio Imersivo – Pesquisa Acadêmica

em Laboratório da USP
33
Leitura sugerida
• Leitura do ponto de vista das aplicações
(não é necessário entender profundamente as questões
matemáticas)
Chapter 22 do livro online:
The Scientist and Engineer's Guide to
Digital Signal Processing, by Steven W.
Smith.
<http://www.dspguide.com/>
34
17
2/10/2011
Referências em Voz
• Lawrence R. Rabiner, Ronald W. Schafer. Digital Processing of
Speech Signals . Prentice Hall, 1978.
• John R. Deller, Jr., John G. Proakis, John H. Hansen. Discrete

Time Processing of Speech Signals. Prentice Hall, 1993.
• S. FURUI. Digital speech processing, synthesis, and

recognition. New York: Marcel Dekker, 1985.
• N. S. JAYANT, P. NOLL. Digital coding of waveforms. Englewood

Cliffs: Prentice-Hall, 1984.
• Douglas O'Shaughnessy. Speech Communications: Human and

Machine. 2nd ed. Wiley-IEEE Press, 1999.
35
Referências em Áudio
• William M. Hartmann. Signals, Sound, and Sensation: Modern acoustics
and signal processing. AIP Press, 1996.
• Glen Ballou. Handbook for Sound Engineers, 3rd ed. Focal Press, 2005.
• Hyoung-Gook Kim, Nicolas Moreau, Thomas Sikora. MPEG-7 Audio and

Beyond: Audio Content Indexing and Retrieval. Wiley, 2006.
• Jeroen Breebaart, Christof Faller. Spatial Audio Processing: MPEG

Surround and Other Applications. Wiley, 2008.
• Francis Rumsey. Spatial Audio: Music Technology. Focal Press, 2001.
• Marina Bosi, Richard E. Goldberg. Introduction to Digital Audio Coding

and Standards. Springer, 2002.
36
18
2/10/2011
Livro: Voz & Audio

• Ian McLoughlin. Applied Speech and
Audio Processing: With Matlab
Examples. Cambridge University Press,
2009.
• ISBN: 9780521519540
• Exemplos práticos em Matlab
37
19

Audio Visual2

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Audio Visual2

Diunggah oleh

Hak Cipta:

Format Tersedia

2/10/2011

Prof. Celso Kurashima

Introdução à Engenharia da Informação

Snapshot – sinais no osciloscópio

processamento de voz e áudio

Sistemas Home Theater

• Noções sobre sinais de voz

• A fala que as pessoas emitem é

Conversão em Sinal Digital

Conversão pela placa de som

Conversão digital na telefonia

Conversão digital na telefonia

Áreas de Processamento de voz

codificação de forma de onda

Taxa de bits do PCM

• Taxa bits = 64000 bits/seg

Método da Predição Linear

• Redes Neurais Artificiais

Melhoria do Sinal de Voz

3. Processamento de Áudio Digital

Aplicações de áudio digital

Audio Imersivo – Pesquisa Acadêmica

• John R. Deller, Jr., John G. Proakis, John H. Hansen. Discrete

• S. FURUI. Digital speech processing, synthesis, and

• N. S. JAYANT, P. NOLL. Digital coding of waveforms. Englewood

• Douglas O'Shaughnessy. Speech Communications: Human and

• Hyoung-Gook Kim, Nicolas Moreau, Thomas Sikora. MPEG-7 Audio and

• Jeroen Breebaart, Christof Faller. Spatial Audio Processing: MPEG

• Francis Rumsey. Spatial Audio: Music Technology. Focal Press, 2001.

• Marina Bosi, Richard E. Goldberg. Introduction to Digital Audio Coding

Livro: Voz & Audio

Anda mungkin juga menyukai