Latex 8

Système GMM-UBM pour la vérification du locuteur
Ramou naim, Mustapha Djeddou

Laboratoire Systèmes de Communications, EMP,
BP 17, Bordj El Bahri, Alger, Algérie
ramounnaim@yahoo.fr
djeddou.mustapha@gmail.com
Résumé 2. Modélisation par mixture de gaussiennes

La reconnaissance Automatique du Locuteur (RAL) La structure générale d’un système RAL à base GMM-
consiste à confirmer ou infirmer par sa voix l’identité d’un UBM est illustrée dans La figure 1 :
individu. Pour cette tâche, il est nécessaire d’estimer la
probabilité pour qu’un locuteur correspond ou non aux
identités pré-enregistrées. L’un des problèmes crucial dans
les systèmes RAL est la désadaptaion entre la phase de
l’apprentissage et la phase application du système. Le
travail présenté dans cet article décrit une nouvelle tech-
nique de normalisation des scores basée sur la correction
de l’asymétrie des distributions des scores. Les résultats
préliminaire sont prometteurs.
Mots clés—RAL, GMM-UBM, Hnorm.

F IG . 1. Principe d’un systeme GMM-UBM.
La densité de probabilité d’une mixture de gaussiennes à
1. Introduction N composantes pour une variable aléatoire x s’exprime sous
la forme suivante :
N
X
L’approche de modélisation du locuteur par mélange de
p (x/Θ) = γi N (x; µi , Σi ) (1)
gaussiennes (GMM : Gaussian Mixture Model) constitue
i=1
l’état de l’art depuis son introduction par D.A. Reynolds P
[1] et [5], ce système est généralement appelé GMM-UBM sous la contrainte i γi = 1 et ∀i : γi ≥ 0. γ est le vec-
car cette modélisation nécessite l’utilisation d’un modèle teur de poids de la mixture, N (x; µ, Σ) est la loi gaussienne
générique appelé modèle du monde, ou UBM (Universal de moyenne µ et de variance Σ, Θ = [µ, Σ, γ]T est le vec-
Background Model). teur de paramètre global du GMM. Si x est de dimension
L’objectif d’une telle approche est d’aboutir à une d alors, une mixture de gaussienne est paramétrée par N*d
modélisation générative, i.e. l’estimation de la distribution paramètres de moyennes, N∗d2 paramètres de variance, et N
qui a pu générer les vecteurs cepstraux du signal d’appren- paramètres de poids. La densité d’une distribution normale
tissage . En terme statistique, l’apprentissage consiste à es- de dimensions d est exprimée par :
timer les paramètres du GMM maximisant la vraisemblance
des données d’apprentissage. 1 1
N (x; µ, Σ) = exp[− (x−µ)T Σ−1 (x−µ)]
Dans cet article, nous présentons les différentes compo- (2/pi)d/2 |Σ|1/2 2
santes d’un système GMM-UBM, le système de détection (2)
de genre, l’application de la normalisation Hnorm et la cor- Pour calculer la vraisemblance d’une séquence X =
rection des scores par le moment d’ordre trois skewness . [x1 ...xT ]T , pour un modèle paramétré par Θ, le logarithme
est généralement utilisé en considérant l’indépendance des
réalisations de la séquence d’apprentissage. Posons la nota-
tion log(p(.)) = `(.), alors Θ̂ = arg max p(Θ|X) = arg max p(X|Θ)p(Θ) (4)
Θ Θ
Des formules adaptées à la modélisation GMM ont été

T
X N
X développées par J.L.Gauvain [6] en proposant un choix
logp(X|Θ) = `(X|Θ) = Log γi N (x; µi , Σi ) (3) spécifique des densités a priori sur les paramètres. Ce choix
t=1 i=1 s’oriente vers les distributions a priori conjuguées permet-
tant aux distributions a posteriori d’appartenir à la même
L’apprentissage d’un GMM est généralement réalisé avec
famille qu’aux distributions a priori. L’adoption de ces
l’algorithme EM [4].
distributions permet de conserver l’utilisation de l’algo-
rithme EM pour l’implémentation du MAP. Dans le cas des
2.1 Apprentissage de l’UBM GMMs, ce choix s’oriente vers une distribution gaussienne
comme a priori pour les paramètres moyenne/variance et
Pour la construction du modèle UBM, plusieurs ap- une distribution de Dirichlet pour les paramètres de poids.
proches peuvent être employées. L’approche la plus simple En pratique, dans un système de RAL indépendant du
est de collecter toutes les données d’apprentissage pour for- texte, seuls les paramètres de moyenne sont modifiés. Les
mer un seul modèle (UBM) à l’aide de l’algorithme EM. moyennes du modèle du monde sont les a priori pour celles
Mais il faut faire un équilibrage entre les sous populations du locuteur [3]. Dans ce cas, l’estimation de la moyenne
pendant le choix des données. Par exemple, si en employant pour une composante est obtenue par une combinaison
des données indépendantes du genre, on devrait être sûr linéaire des moyennes a priori µk et empiriques ȳk , issues
qu’il y a un équilibre du discours masculins et féminins. des données d’apprentissage.
Autrement, le modèle final sera décentré vers la sous popu-
lation dominante, le modèle du monde représente les condi- ηk τk
tions d’enregistrement, l’environnement, le type et la qua- µ̂kk = ȳk + µk avec ηk = N ∗ γk
ηk + τ − k ηk + τk
lité de parole , produits dans la phase d’apprentissage.Ce (5)
modèle généraliste est appris en utilisant d’une heure jus- Où γk est le vecteur des variables cachées d’EM et N le
qu’à deux heures de signal audio provenant de multiples nombre de trames d’apprentissage. Le facteur τ , appelé
locuteurs, Le nombre de composantes utilisé varias de 512 facteur de relevance, permet de contrôler l’adaptation du
à 2048 modèle aux données en modifiant la confiance sur la dis-
tribution a priori des paramètres de moyenne. Cette formule
2.2 Modélisation du locuteur d’adaptation pose la distribution a priori sur les moyennes
σ2
comme une gaussienne de moyenne µk et de variance τkk .
La modélisation du locuteur en RAL diffère de l’es-
timation du modèle UBM car les données disponibles 2.4 Le test d’hypothèse bayésien pour le
ne sont pas en quantité suffisante pour estimer les pa- modèle UBM
ramètres du modèle si le nombre de composantes est élevé.
Les méthodes dites d’adaptation permettent d’estimer de Le rôle de l’UBM tient à la modélisation de l’hypothèse
manière robuste des modèles spécifiques au locuteur en inverse dans la stratégie de décision. La modélisation de
ajoutant de l’information a priori sur la distribution des pa- l’hypothèse inverse se fait grâce à la construction d’un
ramètres. Les techniques essentielles les plus utilisées en modèle universel appelé modèle du monde, ou UBM, et
RAL sont largement tirées de l’adaptation bayésienne, par- dénoté W. Précisément, si S et S̄ représentent respective-
ticulièrement celle du MAP (maximum a posteriori). ment le modèle du locuteur et celui du non-locuteur et soit
X un segment de test dont l’identité proclamée correspond
2.3 Adaptation MAP des paramètres de à S, alors le rapport de vraisemblance est donné par :
moyenne du GMM
p(X|S) p(X|S)
LR(X, H0 , H1 ) = LR(X, S, W ) = '
La méthode d’adaptation la plus utilisée en RAL est celle p(X|S̄) p(X|W )
du maximum a posteriori. Elle consiste à définir des distri- (6)
butions a priori p(Θ) pour les paramètres du modèle et à Il est clair qu’une modélisation précise du non-locuteur
maximiser leurs probabilités a posteriori p(Θ|X) sur un si- (dans le cas de modèles génératifs) n’est pas réalisable,
gnal d’apprentissage X. Le critère d’adaptation pour l’esti- i.e. l’approximation faite par l’UBM est qu’une distribution
mation des nouveaux paramètres s’écrit comme suit : générique des vecteurs cepstraux représente tout les autres
locuteurs hormis le locuteur concerné (et ceci quelque soit l’équation suivante :
le locuteur).
S(X) − µα
SH norm(X) = (8)
σα
2.5 Calcul du score : cas de vérification
Où µα et σα¸ sont respectivement la moyenne et la variance
Le score de vérification correspondant à la vraisem- des accès imposteurs correspondant au type de combiné du
blance d’une séquence de données de test X = [x1 ...xt ]T X.
sur un modèle de locuteur S est exprimé sous la forme de
l’espérance du logarithme du rapport de vraisemblance sur
toutes les trames du segment de test. Précisément :
1X p(Xt |S)
ys (X) = log (7)
T i p(Xt |W )
où , p(xt |S) et p(xt |W ) sont les vraisemblances du vec-

teur cepstral xt respectivement sur le modèle du locuteur S
et sur le modèle du monde W.
F IG . 3. Principe de la normalisation Hnorm.

3. Système de détection de genre
Plusieurs applications procèdent à une détection du 5. Normalisation par le moment d’orde 3

genre avant tout traitement, la démarche consiste à faire ”skewness”
l’apprentissage des modèles selon le genre homme/femme,
au lieu de faire l’apprentissage de locuteur, puis on fait une En observant les distributions des scores obtenus figure
comparaison entre les modèles de genre par rapport aux si- 4, nous avons remarqués qu’ il y a une asymétrie des dis-
gnaux tests mâles et femelles, la figure suivante montre le tributions des scores, on se propose ainsi de faire une trans-
principe de cette procédure formation sur les scores pour enlever la valeur de skewness
et observé l’éffet sur les performance du système
Modèle
monde 450
X1
400
.
Adaptation
.
.
Mâles . Modèle M 350
Xi
.
Modèle genre
.
. Modèle F
300
Nombre d’occurrence
Femelles 250
Score Genre
200
Paramètres Reconnaissance Décision 150
Test 100
Signaux 50
0
-1 0 1 2 3 4 5 6
F IG . 2. Système de détection de genre. Scores
F IG . 4. Histogramme des scores.

4. Normalisation des scores Hnorm Le coefficient de Skewness mesure le degré d’asymétrie de
la distribution. Il est définit comme :
Plusieurs variantes de la technique de normalisation ont [E(X − µ)3
été développées [2]. Elles se basent principalement sur les S= p (9)
[ (X − µ)2 ]3
connaissances a priori qu’on peut avoir et qui peuvent fa-
cilement être intégrées. Ainsi et à cause des variations du Si S est égal à 0, la distribution est symétrique. Si S est plus
combiné, D. Reynolds a proposé une normalisation qu’il a petit que 0, la distribution est asymétrique vers la gauche.
nommé Hnorm [3], Elle consiste à centrer et réduire les ef- Si S est plus grand que 0, la distribution est asymétrique à
fets du combiné utilisé. droite.
Supposons que S(X) le score obtenu suite au test de X On applique cet moment sur les scores imposteurs de
sur le modèle, la normalisation de ce score est obtenue par type carbon et electret pour calculer le Skecar et Skeelec ,
puis on fait une transformation de type Log comme le équilibré et des modèles de genre masculin et féminin, une
montre l’équation suivant : phase de test qui sert à faire le test des signaux enregistrés
sur le modèle de genre masculin et féminin, afin d’arriver à
Ss = S + (1/skeα )log(S/skeα ) (10)
classifier les signaux par leur genre :
Où α désigne le type carbon ou electret suivant le type du
signal de test.
40
6. Résultats expérimentaux
20
Miss probability (in % )

Dans cette section, des expériences sont faites sur la
base d’évaluation de NIST2000 [7], qui montrent les ef-
fets généraux sur l’exécution de divers paramètres du 10
système de GMM-UBM, on a réalisé 4800 tests dont 800

accès client et 4000 accès imposteurs. Les expériences sont 5
réalisées avec l’ensemble des programmes SpkDet de Mis-

tral, développées en langage C++ et mise à disposition sous 2
licence LGPL [ALIZE][8].
1
1 2 5 10 20 40
6.1 L’influence de taille des GMMs False Alarm probability (in %)
Pour cette expérience, des GMM de taille 2048, 1024, F IG . 6. Détection de genre.
512 ont été formés en mettant toutes les données ensemble
avec 21 coefficients cepstraux MFCC, une normalisation D’après la figure, on peut dire que notre système de
basée sur le retrait de la moyenne cepstrale permet de mini- détection de genre proposé attient 89% de classification cor-
miser les perturbations dues aux canaux de transmission. recte à égale erreur (P F A = P M ), sans l’application de la
normalisation des scores.
6.3 La normalisation des scores
Dans la base de données NIST le type de combiné est une

information a priori, on a utilisé cette information pour cal-
culer la moyenne et la variance de chaque combiné carbon
et electret, les valeurs obtenues sont utilisées pour applique
la normalisation des scores comme le montre l’équation (8)
F IG . 5. L’éffet de la taille du modéle GMM-UBM.
Il ressort de cette expérience que la taille de modèle

qui assure un compromis entre le temps d’exécution et le
nombre des gaussiens utilisées pour la modélisation est 512
composantes. Cette valeur sera retenue pour le reste des
expériences F IG . 7. La normalisation Hnorm.
6.2 Détection du genre du locuteur
Les résultats montrent une amélioration de performances
La détection de genre contient deux phases, une phase de système 2%, à cause de la suppression des effets du com-
d’apprentissage pour construire un modèle de monde biné.
6.4 Moment d’ordre 3 ”skewness” 7. Conclusion
L’idée de l’application du skewness consiste a corrigé les Nous avons proposé dans cet article une nouvelle
valeurs des scores en améliorant la forme de la distribution méthode pour la normalisation des scores pour la lutte
des scores, la figure 8 montre l’histogramme des distribu- contre la désadaptation due à la différence du combiné uti-
tions des scores client et imposteur pour le système de base lisé en phase d’apprntissage et test.Les résultats obtenus
aprés normalisation Hnorm et aprés l’application de la cor- sont satisfaisants en termes du taux de reconnaissance cor-
rection de Skewnnes : recte. Néanmoins, pour atteindre des taux de reconnaissance
plus grand, il est indispensable d’integrer des techniques qui
300
corrigent l’effet du canal.
200
Références
100
0 [1] D. A. Reynolds, ”Speaker identification and verifica-

-3 -2 -1 0 1 2 3 4 5
Scores tion using gaussian mixture speaker models”. Dans
400
Speech Communication, 1995.
300 [2] R. Auckenthaler, J. S. Mason ”Score normalisation for

text-independent speaker verification systems” Digital
200
Signal Processing Journal, 2000.
100
[3] D. A. Reynolds, T.F. Quatieri, R. B. Dunn ” Speaker
0
-3 -2 -1 0 1 2 3 verification using adapted gaussian mixture models ”,
Scores
Digital Signal Processing Journal, 2000.
F IG . 8. Distribution des scores du système [4] A. P. Dempster, N. M. Laird, et D. B. Rubin,
NIST2000 en HNORM / skewness. ”Maximum-likelihood from incomplete data via the
EM algorithm”. Dans Journal of Acoustical Society
of America JASA, 1977
Pour bien distinguer l’effet de cette technique sur notre [5] M. J. Carey et E. S. Parris, ”Speaker verification using
système on a tracé les courbes de DET comme le montre la connected words”. Dans Proceedings of Institute of
figure 9 : Acoustics, 1992.
[6] J. L. Gauvain et C. H. Lee, ”Maximum a posteriori
estimation for multivariate gaussian mixture observa-
tions of markov chains”. Dans IEEE Transactions on
Speech and Audio Processing, 1994.
[7] Site web, www.nist.com.
[8] J.-F. Bonastre, N. Scheffer, D. Matrouf, C. Fredouille,
A. Larcher, A. Preti, G. Pouchoulin, N. Evans, B.
Fauve, and J. S. Mason. ”ALIZE/SpkDet : a state-of-
the-art open source software for speaker recognition”.
The Speaker and Language Recognition Workshop,
2008.
F IG . 9. DET des scores du système NIST2000 en

HNORM / skewness.
La figure 9 montre l’amélioration du système. Ce gain a

attient des performances satisfaisantes de 90% de classifi-
cation correcte à égale erreur (P F A = P M ).

Latex 8

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Latex 8

Diunggah oleh

Hak Cipta:

Format Tersedia

Système GMM-UBM pour la vérification du locuteur

Ramou naim, Mustapha Djeddou

Résumé 2. Modélisation par mixture de gaussiennes

Mots clés—RAL, GMM-UBM, Hnorm.

Des formules adaptées à la modélisation GMM ont été

où , p(xt |S) et p(xt |W ) sont les vraisemblances du vec-

F IG . 3. Principe de la normalisation Hnorm.

Plusieurs applications procèdent à une détection du 5. Normalisation par le moment d’orde 3

Paramètres Reconnaissance Décision 150

F IG . 4. Histogramme des scores.

Miss probability (in % )

système de GMM-UBM, on a réalisé 4800 tests dont 800

réalisées avec l’ensemble des programmes SpkDet de Mis-

6.3 La normalisation des scores

Dans la base de données NIST le type de combiné est une

F IG . 5. L’éffet de la taille du modéle GMM-UBM.

Il ressort de cette expérience que la taille de modèle

0 [1] D. A. Reynolds, ”Speaker identification and verifica-

300 [2] R. Auckenthaler, J. S. Mason ”Score normalisation for

F IG . 9. DET des scores du système NIST2000 en

La figure 9 montre l’amélioration du système. Ce gain a

Anda mungkin juga menyukai