Anda di halaman 1dari 42

1

ASRSV
ASRSV

curs 5
curs 5
Analiza Analiza Semnalului Semnalului Vocal (3) Vocal (3)
2
BANC de
FILTRE
DIGITALE
FFT
PREDICTIA
LINIARA
ESTIMAREA
PUTERII
BANC de FILTRE
CEPSTRUM
BANC de FILTRE
CEPSTRUM
AMPLITUDINlLE
BANCULUI de
FILTRE
AMPLITUDINILE
B.F. DERIVAT
din FFT
COEFICIENTII
CEPSTRALI
DERIVATI din FFT
PREDICTIA
LINIARA (LP)
AMPLITUDINILE
BF DERIVATA
din LP
COEFICIENTII
CEPSTRALI
DERIVATI din LP
SEMNAL
VOCAL
Algoritmi folosii n analiza spectral [Picone]
3
ANALIZA PRIN PREDICTIE LINIARA ANALIZA PRIN PREDICTIE LINIARA - - LPC LPC
Modelul producerii vorbirii Modelul producerii vorbirii
a) REAL b) MODEL ESTIMAT prin predic a) REAL b) MODEL ESTIMAT prin predic# #ie ie
Unda glotal
4
Motivele folosirii modelului LPC:
1. Face o bun ~ a semnalului vocal mai ales n zonele sonore
2. Analiza duce la separarea surs/tract
3. Volum sczut de calcule
4. Adecvat aplica#iilor de recunoa&tere/sintez
5. Se preteaz la implementri hard
5
Interpretrile Modelului Predic#iei Liniare:
1. Identificarea sistemului
2. Filtrare invers
3. Predic#ie liniar
4. Netezire spectral
6
PARAMETRII MODELULUI PARAMETRII MODELULUI
Relatia intre modelul matematic si reprezentarea fizica :
Coeficien#ii filtrului (ai)
C&tigul (G)
Decizia Sonor/Nesonor (voiced/unvoiced)
Frecven#a fundamental (F0)
7
Tract Vocal
( Filtru LPC)
Aer
(esantioane)
Vibratiile corzilor
vocale
(sonor)
Perioada vibratiilor
( perioada pitch)
Fricative/Plozive
(nesonor)
Volum Aer
(Castig)

Relatia intre modelul matematic si reprezentarea fizica : Relatia intre modelul matematic si reprezentarea fizica :
PL se bazeaza pe modele de producere si sinteza a SV - vocea poate fi modelata ca
iesirea unui sistem variabil in timp, excitat de impulsuri quasi-periodice sau zgomot
PL furnizeaza o metoda robusta, precisa si sigura pentru estimarea parameterilor
sistemului liniar (combina tractul vocal, pulsurile glotale si radiatia caracteristica
sunetelor sonore
8
OBS. OBS.
Modelul LPC poate fi reprezentat ca un vector de forma (p=10):
- A se modifica la fiecare 20 msec (daca avem o frecventa de esantionare de
8kHz), 20 msec este echivalent cu 160 de esantioane.
SV esantionat se imparte in cadre de T= 20 msec, deci avem 50 cadre/sec.
Modelul sustine ca:
Este echivalent cu
DECI :
160 de valori din S (esantioane) sunt reprezentate de 13 valori din A (model LPC)
9
Exemple Exemple de de codoare codoare LPC LPC
Un SV e&antionat la 8kHz &i fiecare e&antion cuantizat pe 8 bi#i
necesit un debit de transmisie de 64 kbps
1.O reprezentare LPC cu ajutorul unui cadru de 25ms, necesita:
1 bit pentru Vm, 3 bi#i pentru Gm, 4 bi#i pentru Pm &i 12 coeficien#ii
/8 bi#i de fiecare data pentru Hm, adic 4.16 kbps.
2. In celula GSM-standard de telefonie, se foloseste o codare LPC
modificata (RPE-LTP - Regular Pulse Excitation - Long Term prediction),
permite o reducere a vocii de calitate transmise prin telefon de la
104 kbps (8 kHz, 13 bi#i) la 13 kbps (20 ms/ cadru), un factor de
compresie de 8.
3. LPC10[FS1015] standardul de codare pentru comunicare
vocala la 2.4kbps. LPC10 utilizeaza fes = 8kHz, cadre de 22.5ms
si 10 coeficienti LPC.
Raporturi de compresie mai mari sunt posibile cu ajutorul unor
algoritmi mai complecsi.
10
Ecuatiile Ecuatiile de de baza baza ale PL ale PL
-Un predictor de ordin p este un sistem de forma:
-eroarea de predictie este de forma:
- eroarea este iesirea unui sistem cu FT de forma:
11
- Daca SV respecta exact modelul de producere si
si A(z) este filtrul invers al lui H(z).
12
ESTIMAREA MODELULUI ESTIMAREA MODELULUI
- trebuie determinati coeficientii de predictie k astfel incat modelul sa
estimeze cat mai bine variatia in timp a spectrului SV;
- estimarea se va face pe cadre scurte ale SV si se va minimiza
eroarea medie patratica de predictie pe aceste segmente;
- k rezultati se presupun a fi coeficientii (ak) ai modelului de producere a
SV
SOLUTIE SOLUTIE ptr ptr. .
k k
-se selecteaza un segment de SV in jurul esantionului n, s
n
(m)=s(m+n).
-eroarea medie patratica de predictie pe timp scurt E
n
:
-Valorile
k
se determina minimizand eroarea de predictie E
n
:
13
- din care rezulta setul de ecuatii:
- definim
-rezulta sistemul de ecuatii (p/p), care permite solutionare eficienta:
14
-eroarea medie patratica de predictie pe timp scurt E
n
:
Se poate scrie sub forma:
Calculam:
pentru
- Ecuatia matriciala pentru
-Trebuie specificata gama lui m ptr. calculul lui
si
15
Sunt 2 metode de calcul :
Autocorelatia Autocorelatia - care presupune semnalul sn(m) # 0 , 0< m < N-1
Covarianta Covarianta se aplica pe zona in care eroarea este stabila
16
1)Autocorelatia - care presupune semnalul s
n
(m) # 0 , 0< m < N-1
, w(m) fereastra finita de N esantioane.
Semnalul s
n
(m) # 0 pentru 0< m < N-1, iar eroarea:
este diferita de 0, pentru 0<m<N-1+p,
17
18
Calculam
,unde s
n
(m)#0 :
Echivalent cu :
Sunt N-|i-k| termeni #0 la calculul lui
n
(i,k), ptr fiecare i si k; se poate arata ca:
19
Unde R
n
(i-k) este autocorelatia pe termen scurt a lui s
n
(m) in jurul lui (i-k) si este:
R
n
(k) fiind para :
Iar ecuatiile devin, cu eroarea medie patratica minima E
n
, de forma :
20
Exprimata matricial, astfel:
Cu solutia :
Matricea R (pxp) este matrice Toeplitz si permite metode se rezolvare eficiente
(ex. Algoritmul Levinson-Durbin).
21
2. Metoda covariantei.
Se fixeaza intervalul ptr ca eroarea sa fie stabila :
s(n+p) s(n+N-1)N-p esantioane
- Matrice simetrica, dar nu Toeplitz; >>> alte metode de rezolvare
http://www.ee.ic.ac.uk/hp/staff/dmb/voicebox/voicebox.html
- Metodele covariantei si autocorelatiei utilizeaza 2 pasi ptr aflarea solutiei:
1. Calculul matricei de valori de corelatie
2. Gasirea eficienta a unei solutii pentru un set de ecuatii lineare
O alta clasa de metode de PL, numite metode latice, s-au dezvoltat in care cei
2 pasi sunt combinati intr-un algoritm recursiv pentru determinarea
parameterilor de PL (se porneste de la algoritmul Levinson-Durbin)
22
23
24
25
Estimarea Castigului (G)
-se determina din egalitatea energiei semnalului si a esantioanelor prezise.
Eroarea minima:
la potrivirea exacta
- Intrucat potrivirea perfecta nu exista se foloseste egalitatea dintre energia erorii
de predictie si energia excitatiei.
-se presupune: ptr segmente sonore u(n)= (n)
segmente nesonore u(n)= zgomot alb (m=0, var=1).
26
27
Comparatii Comparatii intre intre solutiile solutiile PL PL
stabilitatea
garantata ptr. Metoda autocorelatiei, lattice
nu se poate garanta ptr. Metoda covariantei; (dimensiunea
ferestrei )
alegerea parametrilor de analiza prin PL
necesita 2 poli ptr. fiecare rezonanta a tractului sub Fs/2
necesita 3-4 poli ptr. a reprezenta forma sursei si sarcina de
radiatie
uzual p ( 12-16
Empiric: memoria predictorului (p) sa fie cel putin egala cu timpul
parcurs de sunet pe dublul distantei tractului vocal
Tp= 2 Ltract/Vsunet = (2*0.17 m /340 m/s) ~ 1ms
Fs =8kHz >>> p=8
28
Procesarea Procesarea LPC LPC pentru pentru recunoa recunoa& &tere tere
29
Preaccentuarea - Semnalul achizi#ionat s(n) este filtrat cu un FTS de
ordinul I pentru a netezi spectrul semnalului &i a ridica nivelul componentelor de
frecven# mai ridicat la al celor de joas frecven#.
a= 0.93/0.95
30
Cadrarea semnalului n blocuri - Semnalul filtrat este mpr#it n
cadre de N e&antioane. Cadrele pot fi adiacente sau se pot suprapune par#ial
(M< N), cadrul l fiind notat cu :
31
Ferestruirea - Pentru reducerea discontinuit#ilor la capetele cadrelor,
acestea se pondereaz folosind o func#ie pondere sau fereastr w(n) :
- Uzual se foloseste fereastra Hamming:
32
Analiza prin autocorela#ie - Fiecare fereastr ponderat este apoi
autocorelat pentru a ob#ine :
- valoarea cea mai mare de autocorela#ie, p, este ordinul analizei LPC
- Tipic p = 816.
-De remarcat faptul c func#ia rl (0) reprezint energia cadrului l.
-Energia cadrului este un parametru important n sistemele de detec#ie a
vorbirii.
33
Analiza LPC - care converte&te fiecare cadru de p+1 autocorela#ii ntr-un
set de parametri care pot fi :
coeficien#i LPC,
coeficien#i de reflexie (PARCOR),
coeficien#i log area ratio,
cepstrali
coeficien#i deriva#i
- O metod de conversie a coeficien#ilor de autocorela#ie >> parametri LPC
(pentru metoda autocorela#iei) metoda Levinson - Durbin
34
coeficien#ii LPC coeficien#ii PARCOR coeficien#ii log area ratio (LAR)
SPECTRUL SPECTRUL netezit netezit LPC LPC
- Din coeficien#ii de predic#ie ob#inu#i se poate determina spectrul
LPC (netezit)
FdT a tractului
Notam:
Acest polinom n z are rspunsul n
domeniul timp f(n)
35
- Pentru a determina A(j)) se poate folosi TFR care se aplic pe
un numr de puncte (N=256 sau 512):
TFR ( 1,a1,a2, .... an, 0, ........,0)
Pentru a ob#ine spectrul H(j)) pentru )=2*k/N, k=0,...N-1 :
36
Conversia Conversia coeficien coeficien# #ilor ilor de de predic predic# #ie ie n n coeficien coeficien# #i i cepstrali cepstrali
-Cepstrul >>IFFT a logaritmului func#iei de transfer, iar pentru un filtru numai
poli avem :
- coeficien#ii c(m) se ob#in diferen#iind cele dou pr#i ale expresiei n raport cu
z
-1
&i rezult formulele de recuren# [Fur89][Pic93]:
37
- valori tipice ale parametrilor folosi#i n analiza LPC pentru
recunoa&terea vorbirii [Rab93]:
N - numrul de e&antioane din cadrul de analiz
M - numrul de e&antioane de deplasare a cadrelor
p - ordinul analizei LPC
q- dimensiunea vectorului coeficien#ilor cepstrali deriva#i din LPC
Obs. In general se utilizeaza o reprezentare cu q>p, unde q~1.5p
38 Spectrul log Fourier &i LPC al vocalei a pentru p=4,8,12,16
folosind fereastr Hamming pe 256 de puncte
SPECTRE LPC SPECTRE LPC
39 Eroarea de predic#ie pentru un segment vocalizat ("a"),
ferestruit cu fereastr dreptunghiular (a) &i Hamming (b) (p=12)
Spectrul log Fourier &i LPC pentru consoanele s &i "&" (p=12)
40
Evolu#ia spectral LPC n ferestre succesive la rostirea vocalei "a" de
ctre un locutor masculin
(a) pentru ferestre de 512 puncte &i (b) pentru ferestre de 256 puncte
Spectrul log Fourier &i LPC al vocalei a fr preaccentuare (a) &i cu
preaccentuare (b) (p=12)
41
Spectrul log Fourier &i spectrul cepstrului LPC al vocalei "o" pentru
q=4,8,12,16 (p=12)
SPECTRE LPCC SPECTRE LPCC
42
http://engineering.purdue.edu/VISE/ee438L/

Anda mungkin juga menyukai