Anda di halaman 1dari 19

2/10/2011

Processamento de Sinais
Áudio-Visuais
Parte II – Voz e Áudio

Prof. Celso Kurashima

Introdução à Engenharia da Informação

Fevereiro/2011
1

Snapshot – sinais no osciloscópio

1
2/10/2011

processamento de voz e áudio

Sistemas Home Theater

Agenda
1. Introdução
2. Sinais de Voz
3. Sinais Áudio

2
2/10/2011

1. Introdução
• Voz vs. Áudio

– Semelhanças?

– Diferenças?

2. Processamento Digital de
Sinais de Voz

• Noções sobre sinais de voz

• Processamento digital

• Pesquisa e desenvolvimento

3
2/10/2011

Produção da Fala
• Ondas acústicas

cordas vocais

• A fala que as pessoas emitem é


produzida pelo ar que vem do pulmão,
atravessa as cordas vocais, passa pela
boca e nariz, e é emanada pelo ar na
forma de ondas acústicas

Conversão em Sinal Digital


• Para enviar e receber a voz por meio de
equipamentos ou computadores, é
necessário converter o som da voz em
formato digital.
• Essa conversão é feita pela conversão da
voz em sinal elétrico analógico, e depois
pela sua conversão em sinal digital.

4
2/10/2011

Conversão pela placa de som


• .

Placa de som
Microfone
do computador

Conversão digital na telefonia


• .

Transmissão
digital para
outras
Centrais
Telefone Central Telefônicas
residencial Telefônica

10

5
2/10/2011

Conversão digital na telefonia


celular digital
• .

Transmissão
digital para
Central de
Controle
Telefone
Celular Estação
Radio Base

11

Serviços e aplicações
• Serviços e aplicações que utilizam voz digital
são vastos. Alguns exemplos:
– Telefonia celular digital
– Telefonia IP
– Gravadores digitais de voz
– Equipamentos de resposta automática (ex. Serviço
bancário por telefone)
– Reconhecimento de pessoas pela voz
– Comandos de computadores ou equipamentos
eletrônicos pela voz

12

6
2/10/2011

A telefonia IP
• A telefonia IP, também conhecida pela
sigla VoIP (voz sobre IP) é uma aplicação
onde o sinal digital de voz é transmitida
através de rede de computadores ou pela
Internet.
• A conversação pode ser estabelecida
entre dois computadores, ou entre
computador e telefone comum

13

Telefonia IP

Laptop e
headset

Computador INTERNET
e headset Telefonia
convencional

14

7
2/10/2011

Serviços VoIP
• fone@RNP Skype

15

Áreas de Processamento de voz


• Codificação (compressão)
• Reconhecimento de voz
• De palavras faladas
• De locutor
• Síntese de Voz
• Conversão texto para fala
• Melhoria de voz (enhancement)
• Auxílio auditivo
• Redução de ruído perceptual
16

8
2/10/2011

Codificação de voz
• Objetivo é transformar a voz digital amostrada e
quantizada em outros formatos que ocupem
menos quantidade de memória de
armazenamento ou de banda de transmissão.

• Há duas abordagens:
– Forma de onda
– Parâmetros de modelagem de produção da fala

17

codificação de forma de onda


• O PCM é o método mais conhecido:
– PCM linear
– PCM logaritmico (ITU-T G.711)
• PCM diferencial
– DPCM e DM
– ADPCM (ITU-T G.721)
• Por transformadas
– subbandas
18

9
2/10/2011

Taxa de bits do PCM


• Qual a taxa de bits do PCM?
– Dado que:
• Frequência de amostragem é: 8 KHz
• São usados 8 bits por amostra
• Cálculo:
• Taxa bits = 8 bits/amostra x 8000 amostras/seg

• Taxa bits = 64000 bits/seg

19

Codificação Paramétrica
• Consiste na obtenção de parâmetros do
sinal de voz para atender à modelagem da
produção da fala.
• Método da Predição Linear – LPC
• Apenas parametros são transmitidos ou
armazenados: grande redução da taxa de
bits.
• Exemplo: LPC-10 a 2400 bits/seg

20

10
2/10/2011

Método da Predição Linear


• Passos:
– Calcula coeficientes LPC para a produção de
voz e informação de “pitch”, durante uma
certa janela de voz
– Na recepção os parâmetros são usados num
filtro de síntese, que reproduz (sintetiza) uma
voz que é bem próxima da original

21

Desafios
• Há o compromisso entre baixa taxa-de-
bits e a qualidade do sinal de voz
recuperado
• Os esquemas de codificação atuais usam
conceitos matemáticos complexos e
buscam a qualidade perceptual em
contraposição à forma de onda

22

11
2/10/2011

Reconhecimento de Voz
• Também pode usar como base os
parâmetros da modelagem da produção
da fala como os coeficientes LPC e os
coeficientes Cepstrum
• Baseia-se em treinamento do sistema,
requerendo extensos bancos de dados de
voz:
• Treinamento
• Testes
23

Reconhecimento de Voz
• Reconhecimento de palavras de comando
• Várias pessoas falam a mesma palavra
• Testes de acerto da palavra com base de dados
de várias pessoas

• Reconhecimento de locutor
• Aquelas pessoas que desejamos identificar
treinam o sistema com sua voz
• Testes de acerto com pessoas diferentes

24

12
2/10/2011

Técnicas de Reconhecimento
• Método de probabilidades
• HMM – Hidden Markov Model

• Redes Neurais Artificiais


• MPL – Multi-Layer Perceptron
• RBF – Radial Basis Function

25

Síntese de voz
• Utiliza da modelagem da produção da fala
(parametros)
• identifica sílabas das palavras de acordo
com regras de linguagem
• converte texto para sinais de voz seguindo
as regras de amostragem e
temporizações pré-determinadas

26

13
2/10/2011

Melhoria do Sinal de Voz


• Utilizado na presença de forte ruído no
sinal, ou na codificação de baixa
qualidade
• Abordagem perceptual
• Realça características/parâmetros
importantes da voz

27

3. Processamento de Áudio Digital


• Áudio refere-se aos sons acústicos na
forma de sinal elétrico, geralmente
oriundos de instrumentos musicais e
canções.
• O Áudio Digital é o sinal de áudio
analógico convertido para o formato
digital, usualmente com alta fidelidade.

28

14
2/10/2011

Possibilidades
• O sinal de áudio digital pode ser:
– armazenado em computadores,
– gravado em discos de CD’s,
– ser associado aos filmes de DVD’s,
– ser distribuído pela Internet, e
– ser transmitido por rádio digital e TV digital.

29

Aplicações de áudio digital


• Grande parte das aplicações de áudio digital
são associadas às aplicações de vídeo digital.
• As principais aplicações de áudio digital
atualmente são:
– No cinema digital, onde se utiliza o sistema Dolby
Digital AC-3.
– Em discos de vídeo digital DVD com áudio para
home theater, que também utiliza o sistema Dolby
Digital AC-3 e o áudio surround 5.1.

30

15
2/10/2011

Aplicações
– Na codificação MP3 de canções e músicas,
que é baseada no sistema MPEG-2, é
bastante utilizada para transmissão ou envio
de arquivos musicais pela Internet.
– Na composição musical por computação e
nos instrumentos digitais, são cada vez mais
usados o áudio digital pela sua facilidade de
utilização e pela alta-fidelidade.
– Sistemas de áudio profissional, com
equipamentos de altíssima fidelidade.

31

Áudio Imersivo
• O Áudio Imersivo é não apenas uma aplicação de áudio
digital, mas também uma linha de pesquisa para o
desenvolvimento de futuros sistemas. Suas principais
características são:
• A sensação de imersão acústica no cenário.
• Com diversos alto-falantes pode-se “compor” os sons
em qualquer posição do espaço, através de equações
acústicas complexas.
• Todos alto-falantes contribuem na formação do som
ambiente.
• Trata-se de uma combinação perfeita com Video
Imersivo Tridimensional.

32

16
2/10/2011

Audio Imersivo – Pesquisa Acadêmica


em Laboratório da USP

33

Leitura sugerida
• Leitura do ponto de vista das aplicações
(não é necessário entender profundamente as questões
matemáticas)
Chapter 22 do livro online:
The Scientist and Engineer's Guide to
Digital Signal Processing, by Steven W.
Smith.
<http://www.dspguide.com/>

34

17
2/10/2011

Referências em Voz
• Lawrence R. Rabiner, Ronald W. Schafer. Digital Processing of
Speech Signals . Prentice Hall, 1978.

• John R. Deller, Jr., John G. Proakis, John H. Hansen. Discrete


Time Processing of Speech Signals. Prentice Hall, 1993.

• S. FURUI. Digital speech processing, synthesis, and


recognition. New York: Marcel Dekker, 1985.

• N. S. JAYANT, P. NOLL. Digital coding of waveforms. Englewood


Cliffs: Prentice-Hall, 1984.

• Douglas O'Shaughnessy. Speech Communications: Human and


Machine. 2nd ed. Wiley-IEEE Press, 1999.

35

Referências em Áudio
• William M. Hartmann. Signals, Sound, and Sensation: Modern acoustics
and signal processing. AIP Press, 1996.

• Glen Ballou. Handbook for Sound Engineers, 3rd ed. Focal Press, 2005.

• Hyoung-Gook Kim, Nicolas Moreau, Thomas Sikora. MPEG-7 Audio and


Beyond: Audio Content Indexing and Retrieval. Wiley, 2006.

• Jeroen Breebaart, Christof Faller. Spatial Audio Processing: MPEG


Surround and Other Applications. Wiley, 2008.

• Francis Rumsey. Spatial Audio: Music Technology. Focal Press, 2001.

• Marina Bosi, Richard E. Goldberg. Introduction to Digital Audio Coding


and Standards. Springer, 2002.

36

18
2/10/2011

Livro: Voz & Audio


• Ian McLoughlin. Applied Speech and
Audio Processing: With Matlab
Examples. Cambridge University Press,
2009.
• ISBN: 9780521519540
• Exemplos práticos em Matlab

37

19

Anda mungkin juga menyukai