Anda di halaman 1dari 8

Automates lexico-phontiques pour lindexation

et la recherche de segments de parole


Julien Fayolle1,5 Fabienne Moreau2,5
Christian Raymond3,5 Guillaume Gravier4,5

(1) INRIA Rennes (2) Universit de Rennes 2 (3) INSA Rennes (4) CNRS
(5) IRISA, Campus de Beaulieu, 35042 Rennes Cedex

Prenom.Nom@irisa.fr

RSUM

Ce papier1 prsente une mthode dindexation de segments de parole qui combine des hypothses
lexicales et phontiques au sein dun index hybride base dautomates. La recherche se fait via un
appariement lexico-phontique semi-imparfait qui tolre certaines imperfections pour amliorer
le rappel. Un vecteur de descripteurs, contenant des scores ddition et une mesure de confiance,
pondre chaque transition permettant de caractriser la pertinence des segments candidats pour
une recherche plus prcise. Les expriences montrent la complmentarit des reprsentations
lexicales et phontiques et leur intrt pour rechercher des requtes dentits nommes.

ABSTRACT
Lexical-phonetic automata for spoken utterance indexing and retrieval
This paper presents a method for indexing spoken utterances which combines lexical and phonetic
hypotheses in a hybrid index built from automata. The retrieval is realised by a lexical-phonetic
and semi-imperfect matching whose aim is to improve the recall. A feature vector, containing
edit distance scores and a confidence measure, weights each transition to help the filtering of
the candidate utterance list for a more precise search. Experiment results show that the lexical
and phonetic representations are complementary and we compare the hybrid search with the
state-of-the-art cascaded search to retrieve named entity queries.

MOTS-CLS : recherche dinformation, indexation de parole, reprsentations lexico-phontiques,


automates et transducteurs, mesures de confiance, distances ddition, apprentissage supervis.

KEYWORDS: information retrieval, speech indexing, lexical-phonetic representations, automata


and transducers, confidence measures, edit distances, supervised learning.

Introduction

La recherche de contenus parls (Chelba et al., 2008) fait appel aux domaines de la reconnaissance automatique de la parole (RAP) et de la recherche dinformation (RI). Seulement les outils
de RI textuelle ne sont pas adapts aux transcriptions automatiques qui sont particulirement
bruites de par leur nature incomplte et incertaine. En effet, ces transcriptions contiennent de
nombreuses erreurs de reconnaissance touchant notamment les mots hors vocabulaire (OOV pour
1

Travaux raliss dans le cadre du programme QUAERO, financ par OSEO, agence franaise pour linnovation.

Actes de la confrence conjointe JEP-TALN-RECITAL 2012, volume 1: JEP, pages 4956,


Grenoble, 4 au 8 juin 2012. 2012
c
ATALA & AFCP

49

out-of-vocabulary) absents des lexiques de transcription et les entits nommes qui vhiculent
les informations essentielles du discours (e.g., noms de personnes, de lieux ou dorganisations)
ncessaires la RI. On distingue deux types dapproches pour pallier ces dfauts. On peut, dune
part, amliorer le rappel en faisant appel une reprsentation de plus bas niveau compose de
sous-mots (i.e., subdivisions du mot comme les syllabes ou les phonmes) qui permet de reprsenter les mots OOV et plus gnralement tous types derreurs lexicales. Il est aussi possible dutiliser
des reprsentations plus denses quune simple transcription telles que le graphe, le rseau de
confusion ou la liste des N meilleures hypothses. Dautre part, on peut amliorer la prcision
en estimant des mesures de confiance qui indiquent le degr de fiabilit de la reconnaissance
permettant ainsi de filtrer le bruit. On sintresse ici combiner ces deux approches pour une
tche de recherche de segments de parole.
Cette tche consiste retrouver, dans un ensemble de contenus parls, tous les segments de
parole contenant une requte textuelle donne. On distingue deux stratgies dans ltat de
lart pour combiner efficacement deux niveaux de reprsentations lexicales et phontiques. La
premire considre deux index spars utiliss en cascade, i.e., la recherche utilise par dfaut
lindex lexical et se replie sur lindex phontique que si ncessaire (Saraclar et Sproat, 2004),
ce qui permet dviter le bruit de la recherche phontique dans la plupart des cas. La seconde
stratgie modlise les deux niveaux au sein dun index hybride (Hori et al., 2007; Yu et Seide,
2004), offrant lavantage dun possible appariement lexico-phontique entre la requte et lindex.
La mthode propose reprend lide dun index hybride car il permet des appariements lexicophontiques impossibles avec deux index spars. La structure de lindex est base sur les
automates car ils peuvent reprsenter tous types de sorties de RAP. Loriginalit de la mthode
est quelle pondre les transitions des automates par un vecteur de descripteurs qui permet de
caractriser la pertinence des segments candidats la requte donne. Les descripteurs utiliss
comprennent : des scores ddition calculs par un transducteur dappariement semi-imparfait
qui tolre certaines imperfections des reprsentations ; et une mesure de confiance indiquant la
fiabilit des symboles reconnus. Les expriences comparent les performances des combinaisons
hybride et cascade pour rechercher des requtes dentits nommes. On prsentera tout dabord
la mthode (section 2) puis les expriences (section 3) pour enfin conclure (section 4).

FIG. 1 Vue gnrale de la mthode propose.

50

Mthode propose

La mthode propose reprend le cadre gnral dindexation dautomates pour la recherche de


segments de parole prsent par (Allauzen et al., 2004) en ladaptant aux automates lexicophontiques. La figure 1 donne une vue gnrale de la mthode. partir des sorties de RAP,
on construit des automates lexico-phontiques qui constituent lindex (section 2.1). La requte
textuelle est phontise et aussi reprsente par un automate lexico-phontique. Un appariement
plus ou moins imparfait est rendu possible en composant successivement la requte, un transducteur ddition et lindex (section 2.2). Cette opration renvoie une liste de segments candidats qui
peut tre filtre laide dun vecteur de descripteurs qui pondre chaque segment (section 2.3).

2.1

Automates lexico-phontiques

Dans cet article, un automate lexico-phontique dsigne simplement un automate tats finis
dont les symboles appartiennent soit un alphabet lexical l e x soit un alphabet phontique
ph , et dont les poids sont multi-dimensionnels. Lautomate peut ainsi avoir des chemins lexicaux
et phontiques concurrents pondrs par un vecteur de descripteurs varis (e.g., voir figure 2).
On dfinit lautomate sur le semi-anneau tropical de sorte que le poids dun chemin soit la somme
des poids de ses transitions et que le chemin le plus court soit celui de poids minimal. On peut
toujours dterminer ce chemin le plus court si les poids sont toujours comparables, i.e., sils sont
totallement ordonns. Cest prcisment le cas lorsquon considre lordre lexicographique (aussi
appel ordre alphabtique) comme dans (Can et Saraclar, 2011). Chaque transition correspond
un symbole s (lexical ou phontique) reconnu entre les temps de dbut t d et de fin t f avec une
mesure de confiance associ c. Le poids de la transition est le suivant :
lex+ph

v = (0, 0, 0, 0, 0, w con f

= (t f t d ).log(c))

le x+ph

o w con f est un score de confiance commun aux niveaux lexical et phontique. Il est proportionnel la dure du symbole s pour que les chemins lexico-phontique concurrents ayant des
nombres diffrents de symboles soient comparables.
Lautomate ainsi construit est ensuite converti en un transducteur de facteurs acceptant toutes les
sous-squences de lautomate en entre et donnant lidentifiant du segment de parole en sortie.
Lindex est constitu de lunion de tous les transducteurs de facteurs (Allauzen et al., 2004).

FIG. 2 Exemple dautomate lexico-phontique acceptant 4 chemins : 1 lexical (l ena), 1


phontique (_l _E _n _a), et 2 lexico-phontiques (l _E _n _a et _l ena). Les pondrations
lex+ph
sont de la forme (0, 0, 0, 0, 0, w con f ).

51

2.2

Appariements lexico-phontiques

Lappariement entre la requte R et lindex I peut tre ralis par la simple composition automatetransducteur R I. Il est cependant possible dobtenir un appariement plus flexible en utilisant un
transducteur ddition E par la composition successive R E I (Mohri, 2002). Nous prsentons
trois types de transducteurs ddition lexico-phontiques correspondant des appariements
parfait, imparfait et semi-imparfait et calculant les scores ddition du vecteur
ph

ph

lex
ph
ph
v = (w cor
, w cor
, wsup
, w ins , wsub , 0)

qui comprend les nombres de mots corrects, de phonmes corrects, et derreurs phontiques
(suppressions, insertions et substitutions).
Le transducteur dappariement parfait na pour but que de compter les mots et phonmes corrects.
Le compte des mots corrects vient en premier dans lordre lexicographique afin de privilgier
les appariements lexicaux plutt que phontiques. Les imperfections ne sont pas tolres, ce qui
rend ce transducteur particulirement restrictif.
Le transducteur dappariement imparfait permet de compter non seulement les mots et phonmes
corrects mais aussi les erreurs phontiques. Le problme est que lappariement se fait sans aucune
contrainte. Ainsi toutes les imperfections sont tolres (e.g., chemins ne comptant aucun symbole
correct), ce qui le rend particulirement gourmand.
Un bon compromis entre entre ces deux approches extrmes peut tre de compter les imperfections sous certaines contraintes. Le transducteur dappariement semi-imparfait propos tient
compte de la variabilit phontique connue a priori afin de limiter les possibilits dimperfection :
sur une fentre glissante de phonmes, le taux de phonmes corrects doit tre suprieur ou
gal . Les paramtres sont ici fixs arbitrairement = 2 et = 1/2 en guise dexprience
prliminaire. De plus amples recherches seront ncessaires pour les fixer correctement.
La figure 3 illustre ces trois types de transducteurs pour un alphabet lexico-phontique restreint.

(a) EAP
(b) EAI
(c) EASI

FIG. 3 Transducteurs ddition pour appariements lexico-phontiques parfait (a), imparfait (b)
et semi-imparfait (c) dans le cas o le x = {a b, ba} et ph = {_a, _b}. Les pondrations sont de
ph
ph
lex
ph
ph
la forme (w cor
, w cor
, wsup
, w ins , wsub , 0).

52

2.3

Filtrage des segments candidats

Aprs appariement et projection sur ltiquette de sortie, on obtient une liste de segments
pondrs et ordonns suivant lordre lexicographique. Chaque segment candidat est ainsi associ
un vecteur de 7 descripteurs :
ph

ph

l e x+ph

lex
ph
ph
(r ang, w cor
, w cor
, wsup
, w ins , wsub , w con f

Dterminer si un segment est pertinent ou non partir de ces descripteurs se ramne un problme de classification binaire qui peut se rsoudre par une mthode dapprentissage quelconque
(e.g., arbre de dcision). La probabilit estime quun segment soit pertinent peut ensuite tre
seuille suivant le compromis rappel-prcision recherch.

Expriences

Dans cette partie, nous dtaillons le protocole exprimental (section 3.1) permettant de mettre en
uvre la mthode propose travers deux expriences sur la complmentarit des reprsentations
lexicales et phontiques (section 3.2) et la recherche de segments de parole (section 3.3).

3.1

Protocole exprimental

Les donnes audio utilises pour les expriences rassemblent 6h dmissions radiophoniques
francophones (2h africa1, 2h tvme, 2h rfi) issues du corpus ESTER2 (Galliano et al., 2009) dont
les transcriptions de rfrence sont annotes manuellement en entits nommes. La RAP est
ralise par un systme de transcription large vocabulaire (65k mots) dont les taux derreurs par
mot sur ce corpus varient de 16.0% 42.2%. Les donnes sont automatiquement dcomposes
en 3447 segments de parole. La liste des N meilleures hypothses est rordonnance grce un
tiquetage morpho-syntaxique (Huet et al., 2010). Le niveau lexical nest constitu que de la
meilleure hypothse de transcription. Le niveau phontique est obtenue en forant lalignement
entre le signal audio et la prononciation du niveau lexical. Les mesures de confiance lexicales
et phontiques sont calcules partir des probabilits a posteriori et de lentropie entre les
diffrentes hypothses (Chen et al., 2006). Pour viter les problmes dappariement ds aux
flexions morphologiques, les mots sont lemmatiss par loutil TreeTagger2 .
Les automates ont t implments avec OpenFST3 . Les tailles respectives des index lexical,
phontique et hybride sont de 9.9, 32.8 et 47.6 Mo.
Pour estimer la probabilit quun segment candidat soit pertinent tant donn lensemble des
descripteurs, on a utilis un bagging sur 20 arbres de dcision (Bonzaiboost4 ). Lvaluation se
fait suivant une validation croise sur 5 ensembles dchantillons : 80% pour lapprentissage et
20% pour le test.
Les requtes sont exclusivement composes dentits nommes extraites des transcriptions de
rfrence. Elles sont phontises grce au lexique phontique ILPho5 . Si le mot ne se trouve pas
http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/
http://www.openfst.org/
http://bonzaiboost.gforge.inria.fr/
5
http://catalog.elra.info/product_info.php?products_id=760
2
3
4

53

dans le lexique, de multiples prononciations sont gnres via le phontiseur Lia_phon6 . En plus
des deux jeux de requtes IV (pour in-vocabulary) et OOV habituels, nous proposons un troisime
jeu de requtes composes la fois de mots IV et OOV (e.g., prnom IV suivi du nom OOV). Ces
requtes IV/OOV sont intressantes car elles reprsentent un niveau de difficult intermdiaire
(a priori plus difficile que les requtes IV mais moins que celles OOV) et sont plus frquentes
que les requtes OOV. Le tableau 1 montre la rpartition des requtes utilises. La recherche de
segments de parole est value en terme de MAP (mean average precision) correspondant laire
sous la courbe rappel/prcision.

3.2

Complmentarit des reprsentations lexicales et phontiques

Cette exprience prliminaire consiste mesurer la qualit des reprsentations lexicales et


phontiques ainsi que leur complmentarit. En alignant, pour chaque segment de parole, les
automates lexico-phontiques dhypothse et de rfrence laide dun transducteur ddition
imparfait, il est possible dobtenir le tableau 2 qui donnent les taux de symboles corrects pour les
termes IV et OOV composant les entits nommes. On utilise, dune part, le niveau lexical sur les
zones correctement reconnues et, dautre part, le niveau phontique sur les zones errones. On
constate que 73.89% des lemmes sont bien reconnus. Pour les lemmes mal reconnus, on peut
heureusement se replier sur le niveau phontique dont 67.73% des phonmes sont corrects. Cela
montre bien que les niveaux lexical et phontique sont complmentaires et justifie donc leur
combinaison pour rechercher des entits nommes.

3.3

Recherche de segments de parole

Le but de cette exprience est de comparer les recherches de segments de parole pour des index,
des requtes, des appariements et des filtrages diffrents. On distingue les recherches utilisant
un index lexical, un index phontique, deux index cascads (mthode de ltat de lart qui
consiste ne chercher dans lindex phontique que si la recherche lexicale na rien donn) et un
index hybride lexico-phontique. Les requtes peuvent tre IV, OOV et IV/OOV. Lappariement
est parfait ou semi-imparfait. Lappariement imparfait a t mis de ct car il est trop gourmand
en temps de calcul. Deux filtrages sont considrs utilisant de simples seuillages soit sur le score
de confiance lexico-phontique (f-conf) soit sur la probabilit estime de faon supervise par
les arbres de dcisions qui combinent les 7 descripteurs prsents prcdemment (f-super). La
mthode de rfrence correspond une recherche cascade dont lappariement est parfait et
dont le filtrage est bas sur un seuillage du score de confiance. Le tableau 3 rapporte les rsultats
obtenus.
6

http://www.atala.org/LIA-PHON
#mots

8+

total

IV
OOV
IV/OOV

209
76
.

276
43
120

125
1
73

73
.
29

29
.
11

24
.
8

16
.
4

18
.
2

770 (68%)
120 (10%)
247 (22%)

TAB. 1 Rpartition des requtes en fonction du type et de la longueur en nombre de mots.

54

terme dentit
nomme

% lemmes
dans la rfrence

% lemmes correct
sur les zones correctes

% phonmes corrects
sur les zones errones

IV
OOV
Tous

93.57
6.43
100.00

78.97
0.00
73.89

67.34
68.54
67.73

TAB. 2 Complmentarit des reprsentations lexicales et phontiques pour les entits nommes.
Appariement
Index

lex

Parfait
ph
cas

hyb

lex

Semi-Imparfait
ph
cas

hyb

IV

f-conf
f-super

.634
.631

.577
.646

.673
.677

.577
.681

.634
.629

.015
.693

.047
.713

.013
.729

OOV

f-conf
f-super

.000
.000

.036
.053

.036
.053

.036
.053

.000
.000

.001
.139

.001
.139

.001
.139

IV/OOV

f-conf
f-super

.000
.000

.024
.024

.024
.024

.029
.024

.000
.000

.001
.256

.001
.256

.001
.250

Global

f-conf
f-super

.523
.520

.479
.540

.556
.568

.478
.570

.523
.519

.009
.610

.015
.637

.008
.650

TAB. 3 Evaluation en MAP de la recherche de segments de parole : mthode de rfrence,


meilleur que la rfrence, meilleur(s) rsultat(s).
De manire gnrale, on remarque tout dabord que la mthode de rfrence peut facilement
tre amliore pour tous les types de requtes en utilisant un appariement semi-imparfait et un
filtrage supervis (le filtrage sur le score de confiance nest pas suffisant). Deuximement, la
recherche hybride (accompagne dun filtrage supervis) obtient des performances suprieures
ou quivalentes aux recherches lexicale et phontique, ce qui justifie la combinaison hybride.
Plus spcifiquement, la recherche hybride obtient les meilleurs rsultats pour les requtes IV. Pour
les requtes OOV, les recherches phontiques, cascades et hybrides sont quivalentes puisquelle
ne font appel quau niveau phontique. Pour les requtes mixtes IV/OOV, il est surprenant de
constater que la recherche phontique soit meilleure que celle hybride. Cela est d au fait que
le rang donne trop dimportance aux appariements lexicaux mme lorsque ceux-ci ne sont pas
pertinents (mots mal reconnus ou mots trs frquents). Nous pensons que lajout dun score tf*idf
dans le vecteur de pondration et lutilisation de meilleurs mesures de confiance pourront aider
mieux grer ces cas.
Finalement, la recherche hybride (avec un appariement semi-imparfait et un filtrage supervis)
offre les meilleures performances globales.

Conclusion

Nous avons prsent une mthode dindexation et de recherche de segments de parole reprsents
sous forme dautomates lexico-phontiques. Les rsultats montrent la complmentarit des
niveaux lexical et phontique (extraits de la meilleure hypothse de reconnaissance de la
parole) et lavantage dun index hybride. Lutilisation dun appariement semi-imparfait et dun
filtrage supervis (combinant des scores ddition et un score de confiance) permet damliorer
significativement la recherche en terme de MAP.

55

En perspective, de nombreux aspects de la mthode sont encore amliorer. On peut envisager


une amlioration du rappel par une meilleure adaptation des transducteurs dappariement
semi-imparfait et lutilisation de reprsentations plus denses (e.g., N meilleures hypothses) ;
mais aussi une amlioration de la prcision en utilisant des mesures de confiance de meilleure
qualit (Fayolle et al., 2010) et en enrichissant le vecteur de descripteurs avec dautres types
dinformations (e.g., scores tf*idf).

Rfrences
ALLAUZEN, C., MOHRI, M. et SARACLAR, M. (2004). General indexation of weighted automata application to spoken utterance retrieval. In HLT/NAACL04, pages 3340.
CAN, D. et SARACLAR, M. (2011). Lattice indexing for spoken term detection. IEEE Transactions
on Audio, Speech & Language Processing, 19(8):23382347.
CHELBA, C., HAZEN, T. J. et SARALAR, M. (2008). Retrieval and browsing of spoken content.
Signal Processing Magazine, IEEE, 25(3):3949.
CHEN, T.-H., CHEN, B. et WANG, H.-M. (2006). On using entropy information to improve posterior
probability-based confidence measures. In ISCSLP06, pages 454463.
FAYOLLE, J., MOREAU, F., RAYMOND, C., GRAVIER, G. et GROS, P. (2010). Crf-based combination of
contextual features to improve a posteriori word-level confidence measures. In Interspeech10,
Makuhari, Japan.
GALLIANO, S., GRAVIER, G. et CHAUBARD, L. (2009). The ESTER 2 evaluation campaign for the
rich transcription of French radio broadcasts. In Interspeech09, pages 25832586.
HORI, T., HETHERINGTON, I. L., HAZEN, T. J. et GLASS, J. R. (2007). Open-vocabulary spoken
utterance retrieval using confusion neworks. In ICASSP07, pages 7376.
HUET, S., GRAVIER, G. et SBILLOT, P. (2010). Morpho-syntactic post-processing of n-best lists for
improved french automatic speech recognition. Computer Speech and Language, (24):663684.
MOHRI, M. (2002). Edit-distance of weighted automata. In CIAA02, pages 123. Springer Verlag.
SARACLAR, M. et SPROAT, R. (2004). Lattice-based search for spoken utterance retrieval. In
HLT-NAACL04, pages 129136.
YU, P. et SEIDE, F. (2004). A hybrid-word/phoneme-based approach for improved vocabularyindependent search in spontaneous speech. In Interspeech04, Korea, page 293296.

56

Anda mungkin juga menyukai