Anda di halaman 1dari 49

Master IAD

Module PS
Reconnaissance de la parole (suite):
Paramétrisation

Gaël RICHARD
Février 2008

1
Reconnaissance de la parole

 Introduction
 Approches pour la reconnaissance vocale
 Paramétrisation
 Distances et mesures de distortion spectrale
 Alignement Temporel et Programmation dynamique (DTW)
 Introduction aux modèles de Markov Cachés
 Base de données pour la reconnaissance
 Exemples d’applications

Gaël RICHARD – Master IAD - PS – Février 2008 2


Paramétrisation

 Réalisée par un module de traitement du signal (souvent appelé


« Front End »)

 Réalise une analyse spectrale du signal généralement effectuée


suivant une des méthodes ci-dessous:

 Par banc de filtres (typiquement 10 à 30 bandes fréquentielles)


 Par FFT (cas particulier)
 Approche cepstrale
 Prédiction linéaire (LPC)

Gaël RICHARD – Master IAD - PS – Février 2008 3


Paramétrisation

 Méthodes par bancs de filtres


 Ont été beaucoup utilisées
 Remplacées actuellement par des méthodes plus spécifiques

 Méthodes à base de la transformée de Fourier


 Existence d’algorithmes rapides
 La FFT peut représenter la première étape d’une analyse spectrale
qui sera ensuite ré-échantillonnée suivant une nouvelle échelle
fréquentielle (Echelle Logarithmique, Echelle Bark, Echelle Mel)

3 paramétrisations couramment utilisées:


 Les paramètres MFCC
 Les paramètres LPCC
 Les paramètres PLP

Gaël RICHARD – Master IAD - PS – Février 2008 4


Paramétrisation: paramètres spectraux

 Paramétrisation spectrale: analyse d’un signal audio (d’après Laroche)

Gaël RICHARD – Master IAD - PS – Février 2008 5


Paramétrisation

 Echelle BARK (tableau d’après Hartmann97)


 Est basée sur les bandes critiques telles qu’elles sont perçues
par l’oreille
 Assez proche d’une échelle logarithmique

Gaël RICHARD – Master IAD - PS – Février 2008 6


Echelle BARK

 Formules analytiques approchant l’échelle Bark (d’après


Hartmann97 avec z’ en Bark et f en Hertz)

Facteurs de correction

Gaël RICHARD – Master IAD - PS – Février 2008 7


Echelle BARK

 Formules analytiques inverses


Facteurs de correction

Gaël RICHARD – Master IAD - PS – Février 2008 8


Vers l’échelle MEL

 Hauteur tonale des sons purs

 Expérience sur des sons purs: par rapport à un son de


référence (1 kHz par exemple), on dit que la tonie double si un
autre son est perçu comme 2 fois + aigu, etc….

 Constatation: la tonie est proportionnelle à la fréquence pour


les fréquences basses.

 On identifie 2 échelles
 De 0 à 500 Hz où 1 Mel = 1 Hz (courbe linéaire)
 > 500 Hz où la tonie croit de façon logarithmique en fonction de la
fréquence

Gaël RICHARD – Master IAD - PS – Février 2008 9


La courbe de Tonie en Mels

Gaël RICHARD – Master IAD - PS – Février 2008 10


Echelle Mel

 Correspond à une approximation de la sensation


psychologique de hauteur d’un son (Tonie)

 Existence de formules analytiques:

 Exemples:
 Gamme mel Gamme Hertz

Gaël RICHARD – Master IAD - PS – Février 2008 11


Filtre en échelle Mel

 Filtrage Mel (d’après Rabiner93)

Sj SN
S1 Energie dans chaque bande

Gaël RICHARD – Master IAD - PS – Février 2008 12


Représentation cepstrale

 Intérêt
 Modèle source filtre de la parole

 Modèle source filtre dans le domaine spectral

 Cepstre (réél): somme de 2 termes

Gaël RICHARD – Master IAD - PS – Février 2008 13


Représentation cepstrale(d’après Furui2001)

 Exemples:
 de Spectres à court
terme (gauche)
 et de cepstre c(τ)
(droite)

 τ est homogène à un
temps et est appelé
quéfrence

Gaël RICHARD – Master IAD - PS – Février 2008 14


Représentation cepstrale

 Séparation de la contribution du conduit vocal et de la


source par liftrage

Gaël RICHARD – Master IAD - PS – Février 2008 15


Représentation cepstrale

 Contribution de la source

 Contribution du conduit vocal


(hypothèse: filtre causal, stable, minimum de phase)

Gaël RICHARD – Master IAD - PS – Février 2008 16


Représentation cepstrale

 Contribution du conduit vocal

 Développement en série

Gaël RICHARD – Master IAD - PS – Février 2008 17


Représentation cepstrale

 Exemples de liftres (d’après Calliope89)

Gaël RICHARD – Master IAD - PS – Février 2008 18


Paramétrisation MFCC
« Mel-Frequency Cepstral Coefficients »

 C’est probablement la paramétrisation la plus répandue


dans les systèmes actuels

Gaël RICHARD – Master IAD - PS – Février 2008 19


Paramétrisation MFCC

 Calcul des coefficients MFCC

 Une implémentation classique:


 13 Coefficients (sans C0)
 Filtres Mels espaces de 150 Mel (largeur de bandes 300 Mels)
 Utilisation des dérivées premières et secondes
 Soit des vecteurs de 39 paramètres acoustiques

Gaël RICHARD – Master IAD - PS – Février 2008 20


Lissage cepstral

 Estimation de l’enveloppe par le cepstre:


 Calcul du cepstre réel Cn, puis lifrage basses quéfrences
 Reconstruction de l’enveloppe spectrale d’amplitude E =FFT(Cn)

Gaël RICHARD – Master IAD - PS – Février 2008 21


Paramétrisation LPCC

 Schéma général

Gaël RICHARD – Master IAD - PS – Février 2008 22


Paramétrisation LPCC

 Préaccentuation

Gaël RICHARD – Master IAD - PS – Février 2008 23


Paramétrisation LPCC

 Fenêtrage
 Par exemple fenêtre de Hamming

 Recouvrement entre fenêtres

Gaël RICHARD – Master IAD - PS – Février 2008 24


Paramétrisation LPCC

 Analyse LPC (modélisation AR)

 Plusieurs coefficients peuvent être utilisés:


Les coefficients de prédiction:
Les coefficients de réflexion (PARCOR):
Les coefficients LAR:

Gaël RICHARD – Master IAD - PS – Février 2008 25


Paramétrisation LPCC

 Conversion des paramètres LPC en coefficients cepstraux


(Les paramètres LPCC)

 On peut écrire (Expansion de Laurent):

 En dérivant par rapport à

Gaël RICHARD – Master IAD - PS – Février 2008 26


Conversion LPC ➳ LPCC

Gaël RICHARD – Master IAD - PS – Février 2008 27


Paramétrisation LPCC

 Pondération
 Grande sensibilité des premiers coefficients cepstraux sur la pente
spectrale générale
 Sensibilité au bruit des coefficients élevés

 Utilisation d’une pondération pour minimiser cette


sensibilité:

 Exemple de fenêtres

Gaël RICHARD – Master IAD - PS – Février 2008 28


Paramétrisation LPCC

 Calcul des dérivées temporelles et secondes:


 Un simple moyennage aux différences donne des estimations bruitées

 Utilisation d’un plus grand horizon temporel:

est une constante de normalisation

Gaël RICHARD – Master IAD - PS – Février 2008 29


Les paramètres LPCC

Vecteur de paramètres acoustiques


(LPCC)

Gaël RICHARD – Master IAD - PS – Février 2008 30


Les paramètres PLP (d’après Hermansky90)

 PLP = Perceptual Linear Prediction


 Schéma général

Gaël RICHARD – Master IAD - PS – Février 2008 31


Les paramètres PLP (d’après Hermansky90)

 Analyse échelle Bark (légèrement différente) :


 le spectre est recalculé en utilisant la transformation :

 Convolution entre le spectre et les filtres de gain

Gaël RICHARD – Master IAD - PS – Février 2008 32


Les paramètres PLP (d’après Hermansky90)

 Banc de filtres en bandes critiques

Gaël RICHARD – Master IAD - PS – Février 2008 33


Les paramètres PLP (d’après Hermansky90)

 Préaccentuation perceptuelle
 consiste à prendre en compte les variations de sensibilité de
l'oreille avec la fréquence
 Réalisée en pré-accentuant le spectre de puissance
précédemment calculé à l'aide de la fonction qui simule la
sensibilité de l'oreille à - 40 dB :

 La courbe de sensibilité de l’oreille est approximée par (pour les


fréquences inférieures à 5000 Hz):

Gaël RICHARD – Master IAD - PS – Février 2008 34


Les paramètres PLP (d’après Hermansky90)

 Compression (Intensity/loudness conversion)

 C'est ici une approximation de la loi de Stevens et elle


simule la relation non-linéaire entre l'intensité d'un son
et la sensation de puissance sonore correspondante.

 On peut ensuite en déduire des coefficients cepstraux


PLP en suivant la même approche que pour les
coefficients LPCC.

Gaël RICHARD – Master IAD - PS – Février 2008 35


Comparaison PLP – MFCC (Hönig et al 05)

Gaël RICHARD – Master IAD - PS – Février 2008 36


Comparaison PLP – MFCC (Hönig et al 05)

 Comparaison des pré-accentuations:


 A gauche: Préaccentuation perceptuelle pour les PLP (la courbe
en pointillée intégrant un facteur correctif pour les fréquences
au dessus de 5 kHz);
 A droite : La courbe de préaccentuation traditionnelle pour les
MFCC est donnée à droite

Gaël RICHARD – Master IAD - PS – Février 2008 37


Comparaison PLP – MFCC (Hönig et al 05)

 Comparaison des bancs de filtres:


 En haut: Banc de filtres Bark pour les PLP
 En bas: Banc de filtres MEL pour les MFCC

Gaël RICHARD – Master IAD - PS – Février 2008 38


Distances et Mesures de distorsion
spectrale

 Essentielles en reconnaissance

 Les distances dépendent bien sur de la paramétrisation

 Existence d’un nombre important de techniques

 Distances Log-spectrales
 Distances cepstrales
 Distance d’Itakura-Saito
 Etc…

Gaël RICHARD – Master IAD - PS – Février 2008 39


Distance : aspects mathématiques

ssi

Gaël RICHARD – Master IAD - PS – Février 2008 40


Distance : aspects perceptuels

 Prendre en compte certains aspects perceptuels dans


les distances.

 Par exemple, certains changements spectraux ne


changent pas le phonème perçu

 Changement de pente spectrale


 Filtrage passe-bas ou passe-haut (dans certaines mesures…)
 Filtrage « Notch »

Gaël RICHARD – Master IAD - PS – Février 2008 41


Distance : aspects perceptuels

 Par contre certains changements spectraux auront un impact direct


sur le son perçu

 Déplacement de formants
 Changement de la largeur de bande des formants

Distances perceptuelles

 JND « Just Noticeable Distance » (Déplacements de


formants, changement de largeur de bande….)
 Finalement assez peu utilisées en pratique

Gaël RICHARD – Master IAD - PS – Février 2008 42


Distances Log-spectrales

 Appropriées d’un point de vue perceptuel

 Norme Lp entre

Gaël RICHARD – Master IAD - PS – Février 2008 43


Distances Log-spectrales

 Spectres d’amplitudes et le module de leur différence


logarithmique (d’après Rabiner93)

Gaël RICHARD – Master IAD - PS – Février 2008 44


Distances Log-spectrales

 Utilisation de la norme Lp sur les modèles tout pôle


d’une prédiction linéaire

Gaël RICHARD – Master IAD - PS – Février 2008 45


Distances cepstrales

 Distance sur les coefficients cepstraux

 En pratique

 Avec pondération

Gaël RICHARD – Master IAD - PS – Février 2008 46


Mesures de distorsion et rapport de
vraisemblance

 Mesure d’Itakura-Saïto

 Où les erreurs de prédiction sont données par:

Gaël RICHARD – Master IAD - PS – Février 2008 47


Mesures dérivées de la mesure
d’Itakura-Saïto

 La distance d’Itakura

 Ou encore « rapport de vraisemblance »

Gaël RICHARD – Master IAD - PS – Février 2008 48


Distances cepstrales intégrant les
dérivées

 Dérivées premières

 Dérivées Secondes

 Distance globale
;

Gaël RICHARD – Master IAD - PS – Février 2008 49