Arena Romanistica Dister-Simon

La transcription synchronise des corpus oraux.
Un aller-retour entre thorie, mthodologie et traitement informatis1

Anne DISTER et Anne Catherine SIMON
Centre de recherche VALIBEL UCLouvain
{anne.dister,anne-catherine.simon}@uclouvain.be
Rsum
Les corpus oraux ont pour particularit quaux donnes primaires (les enregistrements)
sajoutent des donnes secondaires (les transcriptions) ncessaires leur exploitation. Cet
article examine
-
les consquences, sur les conventions de transcription adopter, de lvolution des

outils informatiss pour lexploitation des corpus oraux ;
limplication quont les conventions de transcription sur les types de requtes et

danalyses quon peut mener sur les donnes ;
comment la transcription synchronise, en alignant le texte et le son, facilite laccs au

son mais introduit un artfact d au choix dune unit temporelle dalignement.
De manire plus particulire, cet article examine lvolution des conventions de transcription
et dalignement2 utilises dans la banque de donnes VALIBEL et analyse les problmes et les
consquences de ces conventions pour lannotation et la recherche linguistique sur corpus.
1.
Grands principes des conventions de transcription

Toute analyse linguistique de productions orales est impossible partir de la seule source
sonore. En effet, le chercheur aura beau couter et rcouter encore les enregistrements, il ne
peut les apprhender uniquement par le biais du son. Ceux-ci ne pourront devenir objets
dtude part entire qu partir de leur mise en/par crit. La parole reste fluide,
essentiellement fugace, mme aprs avoir t capte sur bande sonore :
On ne peut pas tudier loral par loral, en se fiant la mmoire quon en garde. On ne peut pas,
sans le secours de la reprsentation visuelle, parcourir loral en tous sens et en comparer les
morceaux. (Blanche-Benveniste 2000 : 24)
Cet article a bnfici des commentaires clairants de Michel Francard et de Philippe Hambye. Toute erreur
ou imprcision y subsistant est attribuer la seule responsabilit des auteures.
Avec le logiciel Praat (Boersma et Weenink 2007).
On est donc l devant un paradoxe, mis en vidence par de nombreux chercheurs

(Blanche-Benveniste et Jeanjean 1987, Blanche-Benveniste 1997 et 2000, Gadet 2003,
Raingeard et Lorscheider 1977) : pour approcher loral, on doit en passer par lcrit.
Ds ses dbuts en 1989, le centre de recherche VALIBEL (acronyme pour Varits
Linguistiques du franais en Belgique), qui constitue et exploite de grands corpus oraux3, a
rflchi ses pratiques de transcription et tabli des conventions de transcription explicites.
Celles-ci ont demble suivi quatre grands principes4 : adoption de lorthographe standard,
non-recours la ponctuation de lcrit, valorisation de loralit des corpus et compatibilit
avec un traitement informatis.
1.1. Adoption de lorthographe standard
Pour les recherches linguistiques autres que celles concernant directement la forme
phonique (phontique, phonologie, prosodie), VALIBEL transcrit en utilisant lorthographe
traditionnelle. Ceci est loin dtre le cas dans toutes les pratiques de transcription, o
lorthographe traditionnelle est souvent adapte, dans la volont de marquer des particularits
de prononciation. Ces particularits apparaissent travers la graphie et non dans une notation
phontique. Ainsi, le Guide de prsentation de mmoires et de thses en linguistique et
conventions pour la transcription de conversations (Losier et al. 2002) dtaille les
conventions que doivent adopter les tudiants pour la transcription de corpus acadiens. Voici
un extrait de ces conventions :
-
chus pour je suis.

Il importe ici de garder le s, puisquil sagit du verbe la premire personne. Il serait
possible de transcrire jsuis, mais ce ne serait pas exact cause de llision du i.
jsais, jsavais, jchante, etc.
Il y a lision du je devant une consonne.
jsais pas pour je ne sais pas.
Mme si le sais est prononc [e], il est prfrable dadopter cette transcription plutt que
che pas.
i pour il et ils, a ou alle pour elle.
celle-cite pour celle-ci
ctheure pour maintenant.
qu et ti prononcs [t] sont crits tch, comme dans tchequun (quelquun), tchque part
(quelque part), moitch (moiti), pitch (piti), tcheu fou (quel fou).
Ces corpus forment aujourdhui le plus grand corpus informatis de donnes textuelles orales en
francophonie : une banque de donnes de prs de 4 millions de mots.
Voir Francard et Pronnet (1989) pour une premire formulation.
Ces dformations graphiques affectent aussi bien des pronoms, des suites pronom+verbe
que des lexmes. Le but est de calquer, dans la graphie, les variantes de prononciation
rpandues dans le franais acadien.
Ces amnagements graphiques sont clairement lis, dans les conventions cites ci-dessus,
une conception des units linguistiques du systme observ. Lidologie sous-jacente est
que chus est une unit part entire du systme acadien, et non pas une variante marque de
loral. Cet exemple illustre en quoi une transcription est une analyse.
Ces modifications graphiques participent de ce que Blanche-Benveniste et Jeanjean
(1987) appellent des trucages orthographiques 5 . Trucages, parce que ces formes ne
correspondent pas des graphies connues dun scripteur/lecteur de la langue, telles que
rpertories dans les ouvrages de rfrence par exemple, tout en y renvoyant nanmoins. Dans
de telles transcriptions, on est entre les deux : ni tout fait de loral, ni tout fait de lcrit. En
outre, une reprsentation de la phontique mle lorthographe est trs imparfaite et est
source derreurs puisqu chaque occurrence dune forme (par exemple, les pronoms il ou ils),
il faut prter attention sa prononciation exacte et la traduire par une graphie non standard
(par exemple, y dans le cas dune prononciation [i]).
On ne peut nier leffet de stigmatisation quengendre la lecture dune transcription ainsi
amnage sur les propos de la personne et, par l, sur la personne elle-mme (Gumperz et
Berenz 1993 : 97). Ces altrations graphiques (notamment llision de voyelles) sont
dailleurs frquemment utilises par les crivains, depuis le XIXe sicle, pour stigmatiser le
parl de personnes issues de classes populaires.
Dans les publications scientifiques, lutilisation de telles adaptations graphiques a
indniablement des implications sur lanalyse. Considrons le texte suivant, transcription
dune conversation entre lves de CE26.
Olivia : Oh ! le hamster ?
Giovannoni et Savelli (1990) parlent quant elles de bricolage orthographique , Gadet (2003)
d amnagement graphique , Raingeard et Lorscheider (1977) de btards phontico-orthographiques .
Dans le corpus dit par ces dernires, on est donc tonnes de trouver mainant pour maintenant, pace que
pour parce que, cqui faut pour ce quil faut, et pis pour et puis, i veulent pour ils veulent, i faut pour il
faut, ct- dire pour cest--dire, etc.
Cette transcription est extraite de Verstraete (2000 : 154-156). Nous avons respect strictement la
typographie et la mise en page originales. Le gras note que llve lit ; les majuscules marquent
laccentuation ; les doubles barres lhsitation entre deux interprtations / beuh ,peur/ ; E indique une
indtermination du locuteur. Ponctuation et didascalies ont t ajoutes par Verstraete en vue de sa
publication.
Notre seule intervention concerne la graphie de maitresse, qui suit, comme tout notre texte, les
recommandations orthographiques de 1990.
Slal: Hein !! Eh elle sait mme pas c que cest quun hamster !!!
Lvy : Cest une bte h !
Slal : Cest un p tit truc : a ressemble un peu une souris !!
Olivia : (trs sre delle ) Mais NON ! un HAMSTER ! Pas un
animal !
Lvy : Un hamster cest un animal.
Slal : Ben oui cest un ptit animal qui ressemble un peu une
souris
Olivia : (rires moqueurs) Cest un animal ? un hamster ! Eh r
garde (parle au magntophone, en articulant bien) Un hamster est un
animal ! (rires moqueurs) (puis se rangeant brutalement lavis
des autres) Ouais, jen ai un chez moi.
Kvin : (plus vite)que faisaient les Gaulois pour effrayer les

esprits ? (lit la question 3)
Tarik : arrte Vincent !
Vincent : Y fsaient / Beuh , peur / !
EEE : Rires
Vincent : Ou bien y cassaient leurs couilles
Rire de Karen
Maitresse : chut
Vincent : y faisaient /la mort/
Tarik : Attends fais voir
Kvin : Ils tuaient les gens
Karen : Non !
Vincent : Ben ouais ptt a
Karen : Non quand mme pas ! Non les Gaulois y faisaient pas
a ! Je sais quils ont tu mais
On voit les trucages utiliss ici : lision marque au moyen de lapostrophe (ptit,
cque, ptt, fsaient, rgarde), ce qui produit un effet dailleurs assez trange pour rgarde,
dont la mise en page laisse le r seul en fin de ligne ; utilisation de la graphie y pour noter la
prononciation du pronom ils7.
Par ailleurs, informant le lecteur du cadre sociologique dans lequel sest effectu son
travail, lauteure rapporte que lcole est situe dans une zone urbaine sensible , que six
lves (sur vingt) ont dj doubl une fois, que la plupart des lves ont un rapport au savoir
qui nest pas toujours direct , que certains ont des difficults psychologiques et sont suivis
par un psychologue (2000 : 153-154). Elle prcise galement que les paroles des enfants nont
Risquant par l de rendre la transcription ambige, y tant dans nos habitudes de lecture le pronom ou la
lettre de lalphabet.
pas t censures : elles sont retranscrites telles quelles dans la crudit du langage des
lves8 .
Invitablement, les choix de transcription et le profil des lves prsents ne font que
cumuler leurs effets ngatifs et risquent de faire passer pour particulier, pour spcifique ce qui
ne lest pas. La stigmatisation dj possible dans la description du profil des lves se voit
renforce par les choix de transcription. En fait, comme le dit Gadet (2003 : 30), seule une
graphie sans amnagement ni rcriture limite le risque de stigmatiser un nonc .
Concernant le lexique, les variantes lexmatiques non standard sont transcrites suivant les
principes de lorthographe franaise de rfrence (par exemple, nous transcrivons lemprunt
au wallon pquet eau-de-vie de genivre, et non pkt, qui serait la graphie adopte en
wallon). Dans ce domaine, VALIBEL a t la premire quipe francophone prendre en
compte la variation diatopique (gographique) dans ses corpus informatiss.
Si le choix de lorthographe standard nous semble plus neutre que ladoption de trucages
orthographiques, il comporte nanmoins une part danalyse, puisquon rapporte une srie de
variantes de prononciation une forme graphique unique. La mise en mots graphiques de
productions orales implique un travail est la fois analytique et interprtatif, qui a parfois t
qualifi de traduction (Cheepen 1995), de reprsentation heuristique (Mondada 2000)
ou encore de dformation (Bally 1935).
En conclusion, outre leur effet de stigmatisation, les amnagements graphiques qui
concernent la morphologie ou certaines variantes de prononciation ont selon nous quatre
inconvnients majeurs : 1) il est difficile de les systmatiser ; 2) il est parfois difficile de
distinguer des variantes de prononciation la seule coute du signal sonore ; 3) ces
dformations perturbent nos habitudes de lecture en compliquant le systme graphique, et
obligent le lecteur oraliser pour dcoder ; 4) ce mode de transcription complique la tche du
transcripteur, surchargeant son travail par lattention quil doit porter ces phnomnes, dont
la frquence est souvent trs leve.
Nanmoins, lorsque la prononciation effective est trs loigne de la prononciation
standard, la possibilit est laisse au transcripteur dajouter la transcription orthographique
une transcription phontique entre crochets en utilisant lalphabet Sampa9.
Les points de suspension sont le fait de Verstraete.
Speech Assessment Methods Phonetic Alphabet, http://www.phon.ucl.ac.uk/home/sampa/french.htm
1.2. Non-recours la ponctuation de lcrit

Les corpus de langue parle transcrits des fins de recherche linguistique ne sont en
gnral pas ponctus. En effet, il ny a pas de correspondance stricte entre phnomnes
prosodiques10 et ponctuation crite. une petite pause ne correspond pas ncessairement une
virgule lcrit, pas plus qu une pause plus grande, une ponctuation forte. Il ny a pas de
relation bi-univoque entre les deux. De plus si certains noncs se laissent enfermer
relativement facilement dans le moule de la ponctuation graphique, comment sen sortir avec
des productions dans lesquelles foisonnent rptitions de mots, inachvements et autres
phnomnes propres loral qui se construit (cf. 1.3) ?
Blanche-Benveniste et Jeanjean (1987 : 139) plaident pour des transcriptions non
ponctues : La ponctuation, si on la met trop tt, prjuge de lanalyse syntaxique et impose
un dcoupage sur lequel il est difficile de revenir. Selon elles, en ponctuant, le transcripteur
suggr[e] une analyse avant de lavoir faite (1987: 142).
En fait, labsence de ponctuation va de pair avec la remise en cause de la notion de phrase
loral, ainsi que le dit Gadet :
Comme pour toutes les tudes de phnomnes oraux, la squence fondamentale ne correspond
gnralement pas ce que lon entend par phrase lcrit. Il faut donc se passer de cette
catgorie. (1992 : 69)
Cest ainsi que la notion de phrase, dans les tudes de productions orales, a t
abandonne et que sest pose la question de lunit minimale pertinente prendre en
considration11.
Cependant, une transcription sans aucune autre marque de segmentation que les espaces
entre les mots et les changements de locuteurs est trs difficilement lisible. Cest pourquoi la
plupart des systmes de transcription saccordent reconnaitre deux ou trois degrs de
pauses , tant entendu quil ne sagit pas ncessairement de pauses silence (rendues par un
silence acoustique mesurable) mais bien dune perception subjective de segmentation,
laquelle peut tre rendue par une pause, par un allongement vocalique, par un contour
intonatif, voire par la prsence dune frontire syntaxique qui influence le dcoupage du
discours.
10
Que ce soit les pauses (silencieuses ou pleines) ou les contours intonatifs (montants, descendants, ou
complexes). Nous parlons ici doral non planifi et non doral obtenu partir dun texte lu.
11
Voir louvrage collectif dirig par Berthoud et Mondada (2000) pour la position des diffrents auteurs sur le
sujet ; voir aussi Bguelin (2000 et 2002), Simon (2001).
1.3. Valorisation de loralit des corpus

1.3.1.
Disfluences
Nous conservons dans la transcription les traces de llaboration de lnonc, traces

souvent appeles dans la littrature disfluences. Nous notons ainsi
-
les pauses pleines ou ponctuants (euh, ben, bon, etc.) ;
les rptitions de mots ou de suite de mots ;
les amorces de morphmes.
Ce travail ncessite une grande attention de la part du transcripteur, pour noter des
phnomnes qui sont habituellement gomms dans une coute ordinaire. En effet, notre
oreille semble ignorer totalement ces marques qui passent donc la plupart du temps
inaperues12 tant elles sont communes dans loral spontan.
1.3.2. Tour de parole
Comme nous lavons mentionn ci-dessus pour justifier labsence de ponctuation des
corpus, la question de lunit pertinente loral est loin dtre rsolue (cf. 4.2) et une solution
qui vite de faire intervenir un modle thorique ds la transcription est de considrer lunit,
envisage comme relativement neutre, du tour de parole. On donne alors au tour de parole un
statut non pas thorique mais purement graphique, qui devient dans la transcription une unit
visuelle par dfaut, une unit pratique dote de caractristiques objectivables qui ne seraient
pas dfinies par des partis-pris thoriques 13 . Dfinir le tour de parole de faon neutre
revient lenvisager de la sorte : un tour de parole correspond loccupation matrielle du
canal de parole par un locuteur ; le tour de parole sachve lorsquun nouveau locuteur prend
la parole son tour (cf. ci-dessous 1.3.3 pour la parole superpose).
Dans nos transcriptions, la succession des tours de parole se prsente de manire
horizontale : les paroles des locuteurs se succdent, de haut en bas sur la page (ou
lcran) et chaque paragraphe14 reprsente lintervention dun locuteur. Cette disposition, que
Edwards (1995) appelle le format vertical, est cohrente avec nos habitudes de lecture : on
12
Sauf dans des exercices spcifiques mis en place lors de tests de perception comme ceux de Canda (2000)
ou de Duez (1997) par exemple, o lattention du sujet est explicitement attire sur ces phnomnes.
En ce qui concerne notre il, le correcteur orthographique de Microsoft attire dailleurs notre attention sur
les formes rptes contiges en les soulignant en rouge.
13
Marty Laforest (1992 : 31) note, propos du tour de parole : Cette notion est toujours donne, jamais
construite .
Notre tour de parole ne doit donc pas recevoir le sens quil reoit dans les analyses de la linguistique
interactionnelle. Il sagit bien pour nous dune unit de transcription.
14
On parle ici de paragraphe au niveau graphique, car du point de vue informatique, il ne sagit que dune
seule ligne.
commence par lire en haut de la page, et ce quon lit dabord se droule dans le temps avant
ce quon lit ensuite, plus bas sur la page. Les textes des pices de thtre adoptent depuis
longtemps ce format, qui fait partie de notre culture pour reprsenter la succession des paroles
des protagonistes de la conversation15.
1.3.3. Chevauchement de parole
Dans les conversations, il est trs frquent que deux (ou plusieurs) locuteurs parlent en
mme temps. On a alors des squences o la parole est superpose. Dans des tudes
interactionnelles, il est important de garder une trace de ces chevauchements, et pas
uniquement des paroles prononces.
Lquipe du GARS (Groupe Aixois de Recherche en Syntaxe) utilise le soulignement
pour noter les chevauchements de parole, comme ci-dessous :
transcription du GARS16
L2 on le tirait par la queue
L1 il y avait il y a avait on le tirait par la queue voil eh cest
Le mme change dans les conventions VALIBEL prend la forme suivante, o la barre
et le tiret dlimitent la portion de texte chevauche (tiret droite de la barre pour le dbut du
chevauchement, tiret gauche de la barre pour la fin du chevauchement) :
transcription de VALIBEL
L2 on le tirait |- par la queue
L1 il y avait il y a avait -| on le tirait par la queue voil eh cest
Dans ce cas (L1 qui avait la parole cesse de parler aprs le chevauchement et L2
poursuit), aucune diffrence napparait la lecture des deux formats de transcription. Par
contre, les deux types de conventions impliquent une disposition spatiale diffrente lorsque,
aprs le chevauchement de parole, le locuteur qui avait la parole la conserve :
transcription du GARS17
L1 ces choses-l jen
L2 plus ou moins
L1 parle je ne raconte pas une je vais pas raconter tout a comme a tu vois
transcription de VALIBEL
15
Edwards oppose cette disposition au format en colonnes ( columnar format), o une colonne est dvolue
un locuteur. Pour une implication thorique de ces choix de disposition spatio-visuelle, voir Edwards
(1995) et larticle fondateur de Ochs (1979).
16
Cette transcription est extraite de Blanche-Benveniste et al. (2002 : 47).
17
La pause brve est symbolise par un tiret au GARS, par une barre oblique entoure de blanc chez VALIBEL.
Cet extrait est issu de Blanche-Benveniste et al. (2002 : 152).
L1 ces |- choses-l jen <L2> plus ou moins -| parle / je ne raconte pas une je vais pas
raconter tout a comme a tu vois
Dans les transcriptions du GARS, le chevauchement de L2 apparait visuellement dans un

tour de parole spar, alors que dans les conventions VALIBEL il est insr dans la ligne dun
autre locuteur : il est de ce fait moins visible et risque de ne pas tre interprt comme un tour
de parole part entire18. La diffrence la plus flagrante concerne sans doute le sort rserv au
tour de parole de L1 : le dcoupage opr par le GARS en fait deux tours de parole, l o
VALIBEL en conserve un seul.
Ainsi, la reprsentation visuelle dun mme phnomne a des implications sur les units
de segmentation du discours, alors mme que celles-ci avaient reu une dfinition ne semblant
pas devoir prendre en compte ce type de variation. Cette disposition diffrente a des
implications directes sur le comptage des tours de parole : pour cette courte squence, trois au
GARS, contre un seul chez VALIBEL.
En fait, comme nous ne donnons pas de statut thorique lunit tour de parole , cest
vritablement loccupation du canal qui guide la transcription, indpendamment des paroles
prononces. Ainsi, le cas des rgulateurs verbaux de type mm ou oui, souvent appels
pseudo-tours dans lanalyse interactionnelle : si la squence rgulatrice est prononce en
mme temps que les paroles du locuteur qui occupe le canal, elle figure dans le tour de parole
de celui-ci ; si elle nest pas prononce de faon superpose (pendant une pause de lautre
locuteur par exemple), elle apparait dans un tour spar. La seule analyse du transcripteur
concerne donc bien le chevauchement ou non des paroles, et non le statut leur accorder.
1.4. Compatibilit avec linformatisation des donnes
Demble, les transcriptions ont t conues en vue dune utilisation informatique des
donnes. Les choix de transcription ont volu en fonction du dveloppement des outils
informatiques, lesquels offrent de nouvelles perspectives de recherche (cf. 3).
2.
Conventions de transcription VALIBEL

Les quatre grands principes rappels au point prcdent ont guid les pratiques de
transcription du Centre VALIBEL mme si, au cours des annes, ces pratiques ont volu
paralllement au dveloppement de nouveaux outils ou en fonction des caractristiques des
donnes recueillies (conversations bilingues ou multi-locuteurs, etc.). Ces conventions de
18
La dfinition de ce chevauchement par VALIBEL va de pair avec sa disposition spatio-visuelle :

chevauchement interne au tour de parole du locuteur .
transcription sont appliques lensemble des textes qui entrent dans sa banque de donnes19.
Elles sont explicites dans un manuel destination des transcripteurs (Dister et al., 2006).
Nous les rsumons brivement.
2.1.1. Marques
marque
signifi
20
pause brve
//
pause longue
(silence)
(toux), (rire), (chuchotement)
silence
commentaires para-verbaux de type : toux, rire,
chuchotement, etc.
(x)
passage incomprhensible dune syllabe
(xx)
passage incomprhensible de plusieurs syllabes
(xxx)
passage incomprhensible relativement long
cou/
amorce de morphme
cou/ -pure
amorce acheve sans reprise antrieure
question de forme dclarative contour intonatif

montant
|-
dbut de chevauchement
-|
fin de chevauchement
|--
dbut de chevauchement impliquant plus de 2

locuteurs
--|
fin de chevauchement impliquant plus de 2 locuteurs
dbut de conversations en parallle (squences

simultanes)
fin de conversations en parallle (squences

simultanes)
spare 2 conversations en parallle
{choix1 , choix2}
{incertain}
multitranscriptions
transcription incertaine
19
Nos conventions sappliquent au format des donnes telles que nous les stockons. En ce qui concerne la
publication scientifique par exemple, on peut modifier certaines conventions ou la mise en forme du texte
pour des questions de meilleure lisibilit ou de mise en vidence du phnomne tudi. Cette remarque se
fonde sur le principe que le format de stockage et dexploitation (format textgrid ou texte) ne concide pas
ncessairement avec le format de publication (dont on peut obtenir automatiquement divers types, laide
par exemple du logiciel Transformer, cf. Ehmer 2006).
20
Les 3 degrs de pauses sont jugs intuitivement par le transcripteur, cest--dire non corrls des seuils de
mesures acoustiques.
[sampa]
indications de phontique en Sampa
2.1.2. Locuteurs
Les locuteurs reoivent chacun un code unique compos de 5 lettres et 1 chiffre : 3 lettres
minuscules pour le nom du sous-corpus auquel lenregistrement est rattach, 2 lettres en
majuscules pour les initiales du locuteur, un chiffre pour diffrencier les ventuels
homonymes. Le chiffre 0 est rserv au locuteur qui a le rle dintervieweur, si un tel rle est
dvolu dans lenregistrement.
Ce code est not devant chaque tour de parole. Lorsque le locuteur prend la parole dans un
chevauchement interne, ce code est indiqu entre balises : <mmmNN1>.
2.1.3. Enregistrement
Chaque texte est balis au dbut et la fin de la transcription. Il reoit le code du locuteur
principal de lenregistrement, et lextension r (pour recording). Les balises de dbut et de fin
de texte sont repectivement : <deb id="mmmNN1r"> et <fin id="mmmNN1r">. Ces
indications sont utiles afin de sparer les textes lorsque ceux-ci sont compils
automatiquement dans un seul fichier.
3.
volution des outils informatiques

Ces dernires annes, les outils informatiques ont fortement volu : plus performants,
plus rapides, ils permettent des exploitations autrefois inconcevables. Cette volution est
galement lie la capacit de stockage, dont les limites sont toujours repousses plus loin.
Elle a eu des rpercussions sur les transcriptions elle-mmes et sur les exploitations que lon
peut en faire.
3.1. Consquences de lalignement du texte et du son sur le degr de prcision de la
transcription
Notre choix dutiliser lorthographe standard pour transcrire les donnes orales, y compris
celles qui relvent dun style trs informel, vise ne pas stigmatiser a priori les productions
verbales, mais aussi viter toute pranalyse (cf. 1.1). Ce choix a pour consquence de perdre
au niveau de la transcription une partie de la variation observable dans les donnes sonores
(lision des pronoms, chute de schwa, etc.). Dans notre optique, cet inconvnient est tout
relatif : une transcription qui utilise des trucages orthographiques est plus couteuse en temps
(pour chaque prononciation non standard, le transcripteur doit couter et analyser exactement
ce qui a t produit) et est rarement homogne (si lon rajoute de linterprtation au niveau de
la transcription, il est plus difficile de maintenir une pratique cohrente entre diffrents
transcripteurs) (cf. les inconvnients dcrits au point 1.1).
En outre, nous pensons que si un chercheur veut analyser, par exemple, les ralisations du
marqueur de discours enfin, il devra de toute manire rcouter chaque occurrence et la coder
selon ses propres critres de classification (rduction la syllabe [f], prononciation
[mf]21, etc.). Le maintien de lorthographe standard permet de retrouver aisment toutes les
occurrences ; lalignement du son sur le texte permet de rcouter chaque occurrence ; la
fonction dtiquetage (cf. 4.2) permet de les coder. Le tout sans intervenir sur la transcription
orthographique qui sert de guide pour naviguer dans lenregistrement. La synchronisation du
texte au son justifie aussi quon ait de moins en moins besoin de recourir des inserts de
transcription phontique dans la transcription orthographique.
3.2. Conventions typographiques et concordanciers
Au dbut des recherches, VALIBEL utilisait un concordancier qui avait des rpercussions
concrtes sur le format des transcriptions. Ainsi, une espace devait tre insre aprs
lapostrophe, afin de ne pas reconnaitre la forme lide et la forme qui la suit comme un seul
mot22 : on crivait l amoureux (avec espace) et non lamoureux, pour pouvoir effectuer des
recherches sur la forme amoureux et obtenir les occurrences dans une concordance. Dans un
mouvement inverse, des traits dunion taient insrs entre les termes dune forme compose
nayant pas de trait dunion dans lorthographe standard : parce-que, tandis-que, etc.
Lutilisation dun concordancier performant (Unitex, cf. Paumier 2006) noblige plus ce
type dadaptations graphiques, qui ncessitaient deux versions des transcriptions : lune
consultable pour la lecture, lautre pour la recherche doccurrences.
Une autre modification qui a son importance pour les transcriptions est le format du texte.
Au dpart, nous travaillions sur des transcriptions au format .doc (format utilis par Microsoft
Word) qui permet une mise en forme du texte. Certaines conventions taient ainsi notes en
italique : ctait notamment le cas lorsque le locuteur utilise une autre langue que le franais,
en gnral pour des passages en langue rgionale (wallon, luxembourgeois) dans nos corpus.
Actuellement, nos fichiers sont au format texte simple. En effet, Unitex utilise des fichiers en
21
Le cas de [mf] illustre l'alternative entre la graphie mais enfin qui ramne la forme prononce une
forme standard et la graphie m'enfin qui reprsenterait une lexicalisation du marqueur, et non un trucage
orthographique. Quelle que soit la forme graphique utilise, elle permet cependant de retrouver toutes les
occurrences partir d'une recherche sur la forme enfin.
22
Le logiciel ne traitait pas lapostrophe comme un sparateur.
unicode, et les textes aligns dans Praat (cf. 4.1) sont sauvs sous un format texte.
Concrtement, cela signifie que toute mise en forme particulire des caractres est perdue
(italique, soulignement23, etc.). Nous avons donc d adapter nos conventions ; les passages
dans une langue autre que le franais sont maintenant encadrs par des balises de type XML.
Notons que nous navons jamais utilis dans nos transcriptions les notes de bas de page.
Nous navons jamais non plus jou sur la disposition graphique, comme le font certaines
quipes pour, par exemple, aligner lun en dessous de lautre les chevauchements de parole.
Si cette prsentation a des avantages incontestables de lisibilit, elle est troitement contrainte
par la police et la taille des caractres. Modifier lune ou lautre ncessite de la part du
transcripteur un ajustement manuel de lalignement, qui peut se faire au cas par cas pour une
publication mais est inenvisageable pour un format de stockage et de diffusion des donnes24.
De toute faon, ces indications sont inutilisables en format texte.
3.3. Types de recherches dans les transcription
Lutilisation dun concordancier volu comme Unitex permet de traiter des phnomnes
lis la temporalit des donnes (comme les pauses) dans les recherches effectues sur le
corpus. Les transcriptions comprennent 3 degrs de pauses, notes intuitivement dans le texte.
La pause pouvant a priori apparaitre nimporte o dans un nonc bien que lon constate de
fortes rgularits , une recherche sur une squence de mots devait prvoir la possibilit
dinsertion dune pause entre chaque mot. Grce aux modifications introduites dans les
programmes dUnitex, on peut retrouver une squence donne, mme si celle-ci est
interrompue par une pause.
De plus, le projet dtiquetage morphosyntaxique actuellement en cours (Dister 2007)
permettra denvisager des recherches non plus sur des formes particulires telles quelles se
rencontrent dans les textes mais bien sur des lemmes (formes canoniques) ou encore sur des
catgories grammaticales. Le corpus ainsi tiquet offre de nouvelles perspectives de
recherche, inenvisageables jusquici. La flexibilit dUnitex permet galement de combiner
les requtes de type syntaxique avec des contraintes proprement conversationnelle, par
23
Utilis au GARS pour la parole superpose.
24
Cette exigence de conventions qui ne varient pas dun traitement de texte lautre, dune mise en page
lautre, nous semble essentielle en vue du partage des donnes. Quand on sait le temps que prennent la
rcolte des donnes orales et leur transcription minutieuse, la conservation des donnes dans chaque centre
de recherche apparait comme une aberration. Lheure nest plus (ou ne devrait plus) tre ce que chacun
garde jalousement ses corpus. Se posent, dans cette optique de diffusion, de nouvelles contraintes lies
notamment lanonymisation.
exemple pour formuler une recherche dun certain type (par exemple la particule enfin)
dans une certaine position (un segment de discours chevauch ou chevauchant), en combinant
ltiquetage morphosyntaxique avec les symboles temporels (comme les symboles |- et -|
douverture et de fermeture de chevauchement).
4.
Transcription aligne
On nutilise plus aujourdhui, pour transcrire, un lecteur de cassettes audio muni dune
pdale permettant de revenir en arrire et de rcouter plusieurs fois le mme segment. Dune
part parce que la numrisation des donnes audio permet de les couter sur un ordinateur,
dautre part parce quon transcrit en synchronisant le texte avec le son correspondant. Nous
nallons pas aborder les contraintes techniques de numrisation du son en lien avec lanalyse
acoustique des donnes (cf. Espesser 2003) mais envisager les particularits dune
transcription orthographique aligne, ralise avec le logiciel Praat.
4.1. Le logiciel Praat pour segmenter et transcrire
Il y a plusieurs raisons, externes et internes, dadopter le logiciel Praat pour raliser des
transcriptions alignes (pour autant quon travaille sur des donnes audio, et non vido) :
-
le logiciel Praat est distribu librement par ses concepteurs, Paul Boersma et Daniel
Weenink (voir www.praat.org), avec pour consquence quil est largement utilis dans
la communaut scientifique, pas seulement celle des phonticiens, initialement viss
par ce programme danalyse phontique, mais par beaucoup de chercheurs en
linguistique sur corpus oraux ;
de nombreux manuels prsentent les fonctions de segmentation et dtiquetage

(labelling and segmentation) qui sont utilises pour la transcription synchronise ;
Praat permet de traiter des sons trs longs : il accepte les fichiers dune taille
maximale de 2 giga bytes, ce qui correspond 3 heures de son stro de qualit CD ou
12 heures de son mono chantillonn 22050 Hz (16-bit) ;
le fichier de sortie dune transcription aligne sous Praat (textgrid) est un format
ouvert25, qui prend la forme dun fichier texte structur de telle manire que chaque
segment de transcription correspond un intervalle temporel du fichier son ; le fichier
texte rsultant est peut lisible comme tel, mais peut tre transform laide dun script
25
Un fichier en format propritaire ne peut tre lu et modifi qu partir du logiciel spcifique utilis pour le
crer. linverse, un format ouvert permet de lire le fichier avec nimporte quel logiciel conu cet effet.
Cette distinction entre format propritaire vs ouvert devient pertinente ds quon souhaite changer ou
diffuser des fichiers.
ou dun logiciel26 en un fichier texte qui adopte le format (vertical, en colonnes) choisi
par lutilisateur ;
-
le format textgrid permet dattribuer une couche dannotation (tier) par locuteur, afin
de noter les phnomnes spcifiques loral (chevauchements de parole, silences,
etc.).
Jusqu prsent, nous avons expriment les inconvnients suivants lors de lutilisation de
Praat pour transcrire :
-
le mode de visualisation du texte dans la fentre Praat (cf. figure 1) est relativement
inconfortable et peut provoquer certaines erreurs (coquilles) qui seraient vites dans
un traitement de texte traditionnel ; le fait que le texte soit coup nimporte o, selon
la taille de la fentre, rend difficilement visible lomission dune espace, le fait quun
symbole (par exemple de pause) est coll au mot qui prcde (au lieu den tre
spar), etc. ; par consquent, toute transcription ralise sous Praat doit tre relue en
utilisant un autre logiciel (par exemple Transformer, cf. Ehmer 2006) ;
certains types dinteraction, qui font intervenir un grand nombre de locuteurs (comme
une interaction en classe), compliquent la manipulation de linterface car les paroles
de chaque locuteur sont inscrites dans une couche dannotation spare (on a une ide
du rsultat si lon imagine que le textgrid prsent la figure 1 contient non pas 3,
mais 20 couches empiles) ; un logiciel comme Transana (pour la transcription de
vidos) ne prsente pas ce problme, puisque le transcripteur insre manuellement le
nom du locuteur au dbut de chaque ligne ;
26
Plusieurs scripts prennent un fichier textgrid en entre pour le transformer en un fichier texte sans repres
temporels (scripts dvelopps par VALIBEL, entre autres). Des logiciels comme Winpitch (logiciel gratuit sur
demande, dvelopp par Philippe Martin, www.winpitch.com) ou Transformer (logiciel payant dvelopp
par Oliver Ehmer, http://www.oliverehmer.de/transformer/) proposent des fonctions similaires avec un large
choix de formats de sortie (doc, txt, xml, etc.).
Figure 1 : fentre ddition de Praat utilise pour la transcription synchronise

-
la ncessit dun script ou dun logiciel pour transformer le textgrid dans un format
plus lisible (pour la relecture, la publication ou la consultation des transcriptions)
impose une opration supplmentaire et distingue le format des donnes telles quelles
sont stockes et changes du format de publication.
En conclusion, il ny a plus aucune raison technique, aujourdhui, pour transcrire un

fichier son de manire non synchronise. La transcription aligne pose par contre les
questions suivantes :
-
Laccs ais au son modifie-t-il la manire denvisager la transcription (degr de

prcision, notation des formes non standard, etc.) (question laquelle nous avons
rpondu la section 3.1) ?
Quelle unit dalignement choisir (cf. 4.2) ?
Comment concevoir et organiser les transcriptions ou les annotations multiples dun

mme enregistrement (cf. 4.3) ?
4.2. Quelle(s) unit(s) dalignement choisir ?

Lutilisation de Praat permet de crer un fichier contenant des intervalles temporels qui
segmentent le fichier son en portions . On insre dans chaque intervalle la transcription de
la portion de son correspondante. La structure du fichier dalignement force le transcripteur

adopter une rgle pour segmenter en intervalles temporels. Plusieurs types dintervalles sont
envisageables :
-
des intervalles de taille identique (5 ou 10 secondes par exemple) avec pour

consquence que les paroles transcrites sont interrompues de manire alatoire dun
intervalle au suivant ;
des intervalles dtects automatiquement, par exemple en insrant une frontire

chaque pause silencieuse (choix opr par Bertrand 1999) et en transcrivant des
units spares par des pauses , qui ne correspondent pas ncessairement des
units linguistiques comme la proposition syntaxique ou lnonc ;
des tours de parole (avec les problmes de dfinition poss par cette unit
mergente), lesquels peuvent savrer trs longs dans des discours structure
monologique et / ou de style formel (confrence, mission radiophonique) ;
des units dfinies sur la base de critres prosodiques (dont la dtection sera
automatise ou auditive) comme la priode (Lacheret-Dujour et Victorri 2002) ou
lunit borne par une frontire majeure (Mertens 1997, Simon 2004).
La liste pourrait encore tre longue. Les deux premiers types nont a priori aucun statut
linguistique ; les deux seconds ont un certain rle jouer dans lorganisation du discours ou
de la conversation, sans pour autant quon puisse, lors de la transcription, pousser lanalyse
suffisamment loin pour appliquer des critres de dfinition homognes : on sait que le tour de
parole (tel quil est dfini dans la linguistique interactionnelle, cf. note 11) nest pas
simplement une unit borne par des changements de locuteurs (la preuve, le statut de
pseudo-tour de certaines productions verbales qui viennent interrompre un tour en
cours de construction) ; on sait aussi que les units intonatives, quon aurait parfois tendance
assimiler des actes discursifs ou des noncs , se dfinissent par une srie de
critres (lintonation, mais aussi la prsence ou labsence de pause, les acclrations de dbit,
etc.) qui se combinent de manire subtile. Au mieux, on peut dire quelle dfinissent des
pseudo-noncs .
Pour rsoudre la question de lunit dalignement, il faut tenir compte dune part du fait
que ce choix aura des implications sur des tapes ultrieures du traitement des donnes (ceci
constitue un inconvnient), et dautre part que les outils informatiques ne limitent pas
ncessairement le chercheur un seul alignement par fichier son : il est possible de
superposer ou de combiner plusieurs types dalignement en fonction des objectifs de la
recherche (ceci constitue un avantage, cf. 4.3).
Dans notre banque de donnes, gre par linterface [moca]27, lunit dalignement est
lunit intonative majeure (Bachy et al. 2006). Elle est la fois une unit de consultation
(lecture / coute) du corpus, et une unit dannotation.
Figure 2: visualisation dun enregistrement annot dans linterface [moca]

Dune part, lutilisateur qui consulte un corpus align et dpos sur linterface web verra
ce corpus dispos ligne par ligne, chaque ligne correspondant un intervalle dans le fichier de
transcription aligne gnr sous Praat (voir figures 1 et 2). Le tour de parole dun locuteur
est donc divis en autant de lignes que dunits intonatives majeures, et lutilisateur peut
couter chaque ligne individuellement, ou cliquer sur une ligne pour lcouter ainsi que les
lignes suivantes, de manire continue.
Dautre part, lutilisateur peut attribuer des tiquettes des lignes de transcription28 dans
lesquelles il observe un phnomne linguistique intressant quil voudra retrouver par la suite.
Chaque tiquette (cf. figure 2) est attribue une ligne de transcription. Lunit dalignement
cre donc un artfact pour ltiquetage qui sera fait ultrieurement sur les donnes29. Si lunit
intonative majeure convient bien comme domaine temporel pour identifier des phnomnes
27
[moca] est une interface en ligne qui permet tout la fois darchiver les donnes (primaires, secondaires,
analyses), de les consulter et de les annoter. Linterface est spcifiquement conue pour une exploitation
sociolinguistique des donnes, via la formulation de requtes exploitant la description des locuteurs et des
situations denregistrement (cf. Kevers et al. 2006). Linterface [moca] permet une gestion des donnes
cohrente avec la politique de VALIBEL de constituer une banque de donnes ouverte, et non un mgacorpus clos : les corpus sadditionnent au fil des collaborations, et ce indpendamment des thmatiques et
des exploitations. [] Cette option, qui avait t prfre initialement des techniques dchantillonnage
reprsentatif [], sest avre pertinente ds lors quune masse critique de donnes a t runie : non
seulement elle permet des recherches multiples sur lensemble du matriau disponible, mais elle atteint
lessentiel des objectifs qui pourraient tre assigns un mga-corpus clos (Francard et al. 2002 : 71-72).
28
Sur le modle de lattribution des keywords quon utilise pour identifier et retrouver des extraits de vidos
dans les bases de donnes gnres par les utilisateurs de Transana (cf. http://www.transana.org/).
29
Noter cependant qutiquetage nquivaut pas analyse. Dans notre procdure, ltiquetage permet
didentifier des phnomnes quon suppose intressants, de les reprer dans de nombreux enregistrements, et
de rassembler les occurrences tiquetes afin de les comparer et de les analyser. Il sagit du premier balisage
dun corpus lequel peut aussi se faire sur un corpus non transcrit (mais ce nest pas lobjet de cet article).
Lors du processus de rcupration des lignes tiquetes, lutilisateur peut toujours afficher les lignes autour
de la ligne qui a reu une tiquette afin de valider son tiquetage, ou de le modifier, le cas chant.
micro-syntaxiques ou prosodiques, elle se rvle trop rduite pour mener une analyse de
contenu (en tiquetant par exemple les types darguments utiliss par les locuteurs lors
dinterviews sociolinguistiques 30 ), voire trop tendue pour reprer des phnomnes de
phontique articulatoire31.
En conclusion, lunit intonative majeure est une unit dalignement qui stablit un
certain niveau de segmentation du discours. Elle facilite en gnral la consultation dune
transcription, car elle correspond grossirement des actes de discours , des pseudononcs ou des units de construction de tour , mais elle ne peut en aucun cas servir de
base lanalyse. En effet, identifie sur une base auditive, elle nest actuellement pas une
unit linguistique objectivable qui garantit une segmentation en units homognes32.
Dans notre systme de consultation des corpus en ligne, lunit dalignement sert aussi
dunit dannotation, avec les inconvnients dcrits. Ces inconvnients sont temprs par le
fait que, pour les corpus intgrs dans la base de donnes VALIBEL, chaque chercheur a la
libert dopter pour une autre unit dalignement, si elle convient mieux lobjectif de sa
recherche.
4.3. Combiner plusieurs transcriptions et annotations dun enregistrement
Linconvnient du choix dune unit dalignement est aussi partiellement compens par la
possibilit offerte, dans le format textgrid de Praat, de multiplier les couches dannotation, et
donc les units dalignement. En gnral, le mouvement va plutt vers un alignement de plus
en plus fin, dont la borne ultime est lalignement sur une transcription phontique, qui peut
passer par un alignement en groupes accentuables, en mots ou en syllabes. Ces diffrents
alignements, quils soient strictement hirarchiss (encapsuls) ou quils se chevauchent
partiellement, peuvent se combiner dans un mme textgrid et tre utiliss par le chercheur
pour divers types danalyses qui concernent le plus souvent la structure prosodique ou intonosyntaxique.
Le mouvement inverse peut tre opr aussi, en regroupant des units de type pseudononc en units plus grandes, comme le tour de parole.
30
En effet, un argument se dveloppe souvent sur plusieurs units intonatives majeures, et donc sur plusieurs
lignes de transcription qui doivent recevoir la mme tiquette.
31
Une tiquette comme assourdissement consonantique attribue une ligne de transcription de quelques
secondes de parole est relativement imprcise (plusieurs contextes sont potentiellement concerns).
32
Les rsultats de travaux en cours, qui visent tablir une segmentation semi-automatise sur la base de
critres prosodiques et partir dun alignement syllabique, rduiront ces inconvnients.
Chaque niveau dannotation peut ensuite tre dupliqu si, la transcription

orthographique ou phontique, le chercheur ajoute un codage spcifique (par exemple un
codage alpha-numrique ou un tiquetage morphosyntaxique) utilisant un ensemble de
symboles qui lui sont propres. De cette manire, on peut garder une transcription en
orthographe standard qui sert de base dautres codages. Le protocole de codage des donnes
mis au point par le projet Phonologie du franais contemporain33 (cf. Durand et al. 2002)
adopte cette possibilit technique pour coder la ralisation des schwas et des liaisons de
manire parallle (non intgre) une transcription en orthographe standard. Chaque couche
(de transcription, dannotation) peut ensuite tre interroge et exploite par des outils
spcifiques (essentiellement des scripts).
5.
Conclusion
La transcription de donnes orales est une dmarche cruciale, de laquelle dpendent
troitement les rsultats de la recherche. Transcrire, ce nest pas simplement couter et mettre
sur le papier ce quon entend (Blanche-Benveniste et Jeanjean 1987, Blanche-Benveniste
2002). Depuis que la transcription est vue comme une dmarche digne dtre thorise (cf.
larticle fondateur de Ochs 1979), le mythe du copiste est mort.
Le centre de recherche VALIBEL a rflchi depuis sa cration la pratique de
transcription, se dotant de conventions explicites, qui ne gomment pas le travail dlaboration
du discours non planifi. Nous avons montr ici comment ces conventions peuvent voluer,
sur des points mineurs, notamment en fonction des outils informatiques dont on dispose
(concordanciers, logiciels daide la transcription). Ces outils permettent des tudes sur les
donnes secondaires et primaires que lon nenvisageait pas auparavant, non seulement en
termes de qualit mais galement de taille des donnes. Nous avons enfin insist sur les
rpercussions que peut avoir lalignement du texte et du signal sonore sur les informations
prsentes dans les transcriptions et sur la ncessit de dfinir une unit dalignement.
Rfrences bibliographiques
BACHY Sylviane, HAMBYE Philippe, SIMON Anne Catherine (2006). Tutoriel Praat,
Cahier 2, Transcription et alignement du texte sur le son. Document non publi.
BALLY Charles (1935). Le Langage et la Vie, Zurich, Max Niehans (2e d.).
33
Les diffrentes tapes du protocole, depuis le recueil des donnes jusqu leur transcription et leur codage,
sont expliques sur le site du projet : http://www.projet-pfc.net/
BGUELIN Marie-Jos (dir.) (2000). De la phrase aux noncs : grammaire scolaire et

descriptions linguistiques, Bruxelles, De Boeck & Larcier.
BGUELIN Marie-Jos (2002). Clause, priode ou autre ? La phrase graphique et la
question des niveaux danalyse , Verbum XXIV 1-2 (Y a-t-il une syntaxe au-del de la
phrase ?, M. Charolles, P. Le Goffic et M.-A. Morel Ed.), pp. 85-107.
BERTHOUD Anne-Claude, MONDADA Lorenza (Eds) (2000). Modles du discours en
confrontation, Berne, Lang
BERTRAND Roxane (1999). De lhtrognit de la parole. Analyse nonciative de
phnomnes prosodiques et kinsiques dans linteraction interindividuelle. Thse de doctorat,
Universit de Provence.
BLANCHE-BENVENISTE Claire, JEANJEAN Colette (1987). Le franais parl. Transcription
et dition. Paris : Didier rudition.
BLANCHE-BENVENISTE Claire (1997). Approches de la langue parle en franais. Paris,
Ophrys.
BLANCHE-BENVENISTE Claire (2000). Transcription de loral et morphologie ,
Romania Una et diversa, Philologische Studien fr Theodor Berchem (Gille M. et Kiesler R.
Eds). Tbingen : Gunter Narr, pp. 61-74.
BLANCHE-BENVENISTE Claire, ROUGET Christine, SABIO Frdric (ds.) (2002). Choix de
textes de franais parl. 36 extraits. Paris, Honor Champion.
BOERSMA Paul, WEENINK David (2007). Praat : doing phonetics by computer (Version
4.5.16) [Computer program]. Retrieved February 18, 2007, from http://www.praat.org.
CANDEA Maria (2000). Contribution ltude des pauses silencieuses et des phnomnes
dits dhsitation en franais oral spontan, Thse non publie.
CHEEPEN Christine (1995). Discourse considerations in transcription and analysis ,
G. Leech, G. Myers, J. Thomas (ds.), Spoken English on Computer. Transcription, Mark-up
and Application, New York, Longman, pp. 135-143.
DISTER Anne (2007). De la transcription ltiquetage morphosyntaxique. Le cas de la
banque de donnes textuelle orale VALIBEL, Thse de doctorat non publie, Universit de
Louvain.
DISTER Anne, FRANCARD Michel, GERON Genevive, GIROUL Vincent, HAMBYE
Philippe, SIMON Anne Catherine, WILMET Rgine (2006). Conventions de transcription
rgissant les corpus de la banque de donnes VALIBEL (http://valibel.fltr.ucl.ac.be, corpus
oraux, conventions de transcription).
DUEZ (Danielle). 1997. La signification des pauses dans la production et la perception
de la parole , Revue Parole, 3-4, pp. 275-299.
DURAND Jacques, LAKS Bernard, LYCHE Chantal (2002). Protocole, conventions et
directions danalyse. Toulouse, CNRS ERSS-UMR5610 et Universit de Toulouse-Le Mirail,
Bulletin PFC n 1, 74 p.
EDWARDS Jane A. (1995). Principles and alternative systems in the transcription, coding
an mark-up of spoken discourse , Spoken English on computer. Transcription, mark-up and
application (G. Leech, G. Myers, T. Jenny Eds), New York, Longman, pp. 19-34.
EHMER Oliver (2006). The Tranformer a tool for working with aligned language
data , communication prsente la 3e rencontre fribourgeoise de la linguistique sur corpus
applique aux langues romanes, Freiburg-im-Breisgau, 14-17 septembre 2006.
ESPESSER Robert (2003). Lenregistrement et la prise de son , Bulletin de Phonologie

du franais contemporain 2, 23-24 (http://www.projet-pfc.net/?u_s=0&u_a=34&)
FRANCARD Michel, PERONNET Louise (1989). La transcription de corpus oraux dans
une perspective comparative. la dmarche du projet PLURAL , Recherche en linguistique
applique linformatique (RELAI), CIRB, Qubec, pp. 295-307.
FRANCARD Michel, GERON Genevive, WILMET, Rgine (2002). La banque de donnes
VALIBEL : des ressources textuelles orales pour ltude du franais en Wallonie et
Bruxelles , Romanistische Korpuslinguistik Korpora und gesprochene Sprache / Romance
Corpus Linguistics Corpora and Spoken Language (C. Pusch, W. Raible, Wolfgang Ed.) (=
ScriptOralia; 126), Tbingen, Gunter Narr, pp. 71-80.
GADET Franoise (1992). Le Franais populaire, Paris, Presses universitaires de France
(coll. Que sais-je ? ).
GADET Franoise (2003). La variation sociale en franais, Paris, Ophrys.
GIOVANNONI Dominique-Catherine, SAVELLI Marie-Jose (1990). Transcrire, traduire,
orthographier le franais parl. De limpossible copie la falsification des donnes orales ,
Recherches sur le franais parl 10, pp. 19-37.
GUMPERZ John J., BERENZ Norine (1993). Transcribing Conversational Exchanges ,
Talking Data. Transcription and in Coding Discourse Research (J.A. Edwards adnt M.D.
Lampert Eds), Hillsdale, Lawrence Erlbaum Associates, pp. 91-120.
KEVERS Laurent, GILLES Peter, SIMON Anne Catherine (2006). [moca], un systme de
gestion et dannotation de donnes orales, communication , communication prsente la 3e
rencontre fribourgeoise de la linguistique sur corpus applique aux langues romanes,
Freiburg-im-Breisgau, 14-17 septembre 2006.
LACHERET-DUJOUR Anne, VICTORRI Bernard (2002). La priode intonative comme
unit danalyse pour ltude du franais parl : modlisation prosodique et enjeux
linguistiques , Verbum XXIV/1-2, pp. 55-72.
LAFOREST Marty (1992). Le Back-channel en situation dentrevue, Qubec, CIRAL
(Recherches sociolinguistiques).
LOSIER Line, KASPARIAN Sylvia, CHEVALIER Gisle, GAUVIN Karine (2002). Guide de
prsentation de mmoires et de thses en linguistique et conventions pour la transcription de
conversations, Universit de Moncton.
MERTENS Piet (1997). De la chane linaire la squence de tons , TAL (Traitement
automatique des Langues) 38/1, 27-51, Paris, Klincksieck.
MONDADA Lorenza (2000). Les effets thoriques des pratiques de transcription , LINX,
42, revue de lUniversit de Paris X-Nanterre, pp. 131-150.
OCHS Elinor (1979). Transcription as theory , Developmental pragmatics (E. Ochs et
B. B. Schieffelin ds), New York, San Francisco, London, Academic Press, pp. 43-72.
PAUMIER Sbastien (2006). Unitex 1.2. Manuel dutilisation, http://www-igm.univmlv.fr/~unitex/manuel.html
RAINGEARD Martine, LORSCHEIDER Ute (1977). dition dun corpus de franais parl ,
Recherches sur le franais parl 1, pp. 14-29.
SIMON Anne Catherine. (2001). Le rle de la prosodie dans le reprage des units
textuelles minimales , Cahiers de linguistique franaise 23, pp. .
SIMON Anne Catherine (2004). La structuration prosodique du discours en franais. Une
approche multidimensionnelle et exprientielle, Berne, Peter Lang.
VERSTRAETE Estelle (2000). Digressions dans les interactions verbales entre lves
travaillant en groupe , Recherches 33, pp. 151-179.

Arena Romanistica Dister-Simon

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Arena Romanistica Dister-Simon

Diunggah oleh

Hak Cipta:

Format Tersedia

La transcription synchronise des corpus oraux.

Un aller-retour entre thorie, mthodologie et traitement informatis1

les consquences, sur les conventions de transcription adopter, de lvolution des

limplication quont les conventions de transcription sur les types de requtes et

comment la transcription synchronise, en alignant le texte et le son, facilite laccs au

Grands principes des conventions de transcription

Avec le logiciel Praat (Boersma et Weenink 2007).

On est donc l devant un paradoxe, mis en vidence par de nombreux chercheurs

chus pour je suis.

Voir Francard et Pronnet (1989) pour une premire formulation.

des autres) Ouais, jen ai un chez moi.

Kvin : (plus vite)que faisaient les Gaulois pour effrayer les

Les points de suspension sont le fait de Verstraete.

Speech Assessment Methods Phonetic Alphabet, http://www.phon.ucl.ac.uk/home/sampa/french.htm

1.2. Non-recours la ponctuation de lcrit

1.3. Valorisation de loralit des corpus

Nous conservons dans la transcription les traces de llaboration de lnonc, traces

les pauses pleines ou ponctuants (euh, ben, bon, etc.) ;

les rptitions de mots ou de suite de mots ;

les amorces de morphmes.

Cette transcription est extraite de Blanche-Benveniste et al. (2002 : 47).

Dans les transcriptions du GARS, le chevauchement de L2 apparait visuellement dans un

Conventions de transcription VALIBEL

La dfinition de ce chevauchement par VALIBEL va de pair avec sa disposition spatio-visuelle :

passage incomprhensible dune syllabe

passage incomprhensible de plusieurs syllabes

passage incomprhensible relativement long

amorce acheve sans reprise antrieure

question de forme dclarative contour intonatif

dbut de chevauchement impliquant plus de 2

fin de chevauchement impliquant plus de 2 locuteurs

dbut de conversations en parallle (squences

fin de conversations en parallle (squences

spare 2 conversations en parallle

indications de phontique en Sampa

volution des outils informatiques

Le logiciel ne traitait pas lapostrophe comme un sparateur.

Utilis au GARS pour la parole superpose.

de nombreux manuels prsentent les fonctions de segmentation et dtiquetage

Figure 1 : fentre ddition de Praat utilise pour la transcription synchronise

En conclusion, il ny a plus aucune raison technique, aujourdhui, pour transcrire un

Laccs ais au son modifie-t-il la manire denvisager la transcription (degr de

Quelle unit dalignement choisir (cf. 4.2) ?

Comment concevoir et organiser les transcriptions ou les annotations multiples dun

4.2. Quelle(s) unit(s) dalignement choisir ?

la portion de son correspondante. La structure du fichier dalignement force le transcripteur

des intervalles de taille identique (5 ou 10 secondes par exemple) avec pour

des intervalles dtects automatiquement, par exemple en insrant une frontire

Figure 2: visualisation dun enregistrement annot dans linterface [moca]

Chaque niveau dannotation peut ensuite tre dupliqu si, la transcription

BGUELIN Marie-Jos (dir.) (2000). De la phrase aux noncs : grammaire scolaire et

ESPESSER Robert (2003). Lenregistrement et la prise de son , Bulletin de Phonologie

Anda mungkin juga menyukai