Anda di halaman 1dari 445

Bergame Priaux Jean-Luc Ohl Patrick Thvenot

Le son multicanal
De la production la diffusion
du son 5.1, 3D et binaural

Toutes les marques cites dans cet ouvrage


sont des marques dposes par leurs propritaires respectifs.
Photo de couverture : B. Priaux

Dunod, 2015
5 rue Laromiguire, 75005 Paris
www.dunod.com
ISBN 978-2-10-074083-3

Prface
Damn, cest injuste! Bergame Priaux, avec la collaboration de Jean-Luc Ohl et Patrick
Thvenot, a crit le livre que je voulais crire. Aprs toutes ces annes de rencontres et
de lectures de bons et de moins bons livres sur le multicanal, javais dcid que le seul
livre que jcrirai porterait sur ce sujet. Il traiterait toutes les formes du son multicanal:
ses dbuts (il y a quelques centaines dannes), ses annes de gloire au cinma, le
passage au monde de la musique et du broadcast, le streaming et les tlconfrences.
La technologie pour lenregistrement, le mixage et la diffusion dun programme et plus
important encore, lesthtique et pourquoi nous faisons cela.

Dunod Toute reproduction non autorise est un dlit.

Bergame a tout couvert. Jai cherch une application non traite, mais je nai pas
trouv. Ce livre nest aucunement une encyclopdie des deux cent premiers rsultats
sur Google pour la recherche de son surround ou audio multicanal. La structure
de louvrage est trs bien pense, cela ressemble un dner franais traditionnel avec
un amuse-bouche et un apritif pour ouvrir lapptit, la salade et le plat principal
pour vous emporter, et bien sr le dessert, sucr et dlicieux. Sans mentionner le vin
fantastique qui accompagne les plats. Ou bien, on pourrait dire que cela ressemble
une forme de sonate avec son introduction, lexposition du thme principal (thme
secondaire, les transitions de modulation), son dveloppement, la reprise et la coda.
Ou plus simplement : cest une bonne histoire.
Soyez inform, cest un bagage lourd dans lequel vous devrez trier les informations
et vous dcouvrirez de vieilles connaissances et de nouvelles notions, des ingrdients
essentiels et des pices exotiques. Lessentiel est l, les dtails aussi, beaucoup de dtails,
ainsi que les derniers clairages sur la complexit de ce segment de lingnierie audio.
Tout ceci est men avec art et connaissance jumels avec un grand contenu qui touche
lme et le cur.
Damn, cest un grand livre. Mais bon, maintenant quil a t crit par Bergame, je vais
certainement avoir plus de temps libre! Pour le relire, de bout en bout.
Florian Camerer
Ingnieur du son senior lORF, prsident de EBU-groupe PLOUD

Table des matires


propos des auteurs

Remerciements

Sigles,

termes techniques, conventions

Introduction

Chapitre 1 Gnralits

XIX
XXI
XXV

1.1 couter

1.2 Historique

1.2.1 Cinma

1.2.2 Home-cinma, DVD, TVHD, radio, jeu vido, Internet

1.2.3 criture, dition et diffusion musicales

1.3 Intrts

10

1.3.1

Une coute naturelle : ralisme et immersion

10

1.3.2

Un espace : de nouvelles possibilits dcriture

12

1.3.3

Dfinition dimage, angle de vision, distance et dispositif sonore

12

1.3.4

Meilleure intelligibilit, extension de la bande passante,


interaction avec le corps

13

1.4 Vecteurs
Dunod Toute reproduction non autorise est un dlit.

XVII

13

1.4.1

Le cinma : passage au numrique, installations son 3D Barco


Auro-3D et Dolby Atmos

13

1.4.2

La TVHD, lUHDTV et le Super Hi-Vision

14

1.4.3

La radio numrique

14

1.4.4

Les supports Blu-ray, DVD, SACD

14

1.4.5

Le jeu vido

15

1.4.6

La salle de spectacle, le thtre, la retransmission dopras au cinma

15

1.4.7 Internet

15

1.4.8

16

Le tlphone mobile, la tablette numrique

1.5 Problmatiques
1.5.1

Le systme dcoute

16
16

VIII

1.6

1.7

1.8

Le

son multicanal

1.5.2

Limage sonore multicanal

16

1.5.3

La prise de son spatialise

17

1.5.4

Des concepts de mixage nouveaux

17

1.5.5

La diffusion, les metadata, le mixage Dolby

17

Les diffrentes techniques de spatialisation

17

1.6.1

Strophonie ou Multichannel Stereo

17

1.6.2

LAmbisonie ( scene oriented )

18

1.6.3

La WFS

18

1.6.4

Le binaural

19

1.6.5

Les objets ( object oriented )

19

Formats multicanal

20

1.7.1 Quadriphonie

25

1.7.2

5.1 ITU

26

1.7.3

LCRS Dolby Surround (TV, home-cinma)

26

1.7.4

5.1 ITU 4 enceintes arrire

27

1.7.5

5.1 amlior Gnther Theile

27

1.7.6

5.1 cinma

28

1.7.7

5.1 cinma Dolby Stereo

29

1.7.8

6.1 cinma

29

1.7.9

6.1, 7.1 IMAX

30

1.7.10 7.1 cinma SDDS

30

1.7.11 7.1 cinma image 3D : DTS, Dolby Surround 7.1

31

1.7.12 7.1 Blu-ray Dolby

31

1.7.13 7.1 Blu-ray DTS

32

1.7.14 7.1, 9.1, 11.1 selon recommandation de Mike Williams

34

1.7.15 8.1 Musique acousmatique octophonique

35

1.7.16 7.1, Dolby Surround IIX, 9.1 Dolby Surround IIZ

35

1.7.17 Auro-3D 9.1 ou 10.1 home-cinma/studio

36

1.7.18 Auro-3D 11.1, 12.1, 13.1 cinma

37

1.7.19 10.2 Tomlinson Holman

38

1.7.20 11.1 DTS Neo X

39

1.7.21 22.2 NHK (9/10/3.2)

39

1.7.22 Imm Sound 23.1 ou 14.1 (Dolby)

40

1.7.23 Norme ITU-R BS 2051

41

1.7.24 Dolby Atmos

42

1.7.25 WFS

43

tat des lieux des marchs du multicanal

43

1.8.1 Statistiques

43

1.8.2

Premier bilan de la TVHD

44

1.8.3

Perspectives sur la production radiophonique

45

1.8.4

vnements, sminaires, groupes de recherche, formations

46

Table


2.1

2.2

2.3

2.4

2.5

Chapitre 2 Le

Dunod Toute reproduction non autorise est un dlit.

2.7

2.8

2.9

systme dcoute

47

Caractrisation auditive dune coute

48

2.1.1

Pourquoi apprendre couter ?

48

2.1.2

Critres objectifs ncessaires la caractrisation dune coute

48

2.1.3

Apprentissage dune mthodologie dcoute

49

Finalit dune coute monitoring en multicanal

50

2.2.1

Domaine artistique, domaine objectif

50

2.2.2

Problmatique spcifique au multicanal

51

Les diffrents types de mesures

51

2.3.1

Frquence glissante

51

2.3.2

Bruit rose

51

2.3.3

MLS, CHIRP, TDS

51

2.3.4

Retard dynamique

52

Lenceinte acoustique

52

2.4.1

Diffrents types

52

2.4.2

Mesures et interprtations auditives

53

2.4.3

Conditions de fidlit et choix pour le multicanal

58

Linfluence du local

61

2.5.1

Rponse dans le grave, couplage physique

61

2.5.2

Influence des premires rflexions, couplage psycho-acoustique

63

2.5.3

Influence du champ rverbr tardif, quilibre tonal


et transmissibilit des mixages

66

Le local et lenceinte, synthse globale

67

2.5.4
2.6

IX

des matires

Les diffrents types de cabines de mixage

68

2.6.1

68

Type Tom Hidley

2.6.2 LEDE

69

2.6.3

Type amortissement rparti

70

2.6.4

Une nouvelle approche : la cabine diffusion rpartie

72

2.6.5

Avantages et inconvnients en multicanal

74

Linfluence de lamplificateur

75

2.7.1

Les diffrentes technologies

75

2.7.2

Limites des mesures classiques, interactions avec les hauts


parleurs et incidence sur lcoute en 5.1

75

Normalisation dune coute multicanal

76

2.8.1

Normes ITU-R BS.775.1 et 2

76

2.8.2

Normes Cinma (ISO 2969/1987(E)/ SMPTE ST202-2010)

80

2.8.3

Lcoute au casque multicanal

84

Lcoute multicanal et limage

87

2.9.1

Influence sur notre perception

87

2.9.2

Rapports dimensionnels entre les imageries sonores et visuelles

87

Le

son multicanal

2.10 Lcoute domestique en multicanal

88

2.10.1 De la HI-FI au Home-cinma

88

2.11 Calibrage dune coute et optimisation par corrections lectroniques


2.11.1 Correction ou compensation ?

91
91

2.11.2 Les diffrents moyens lectroniques, filtres analogiques, filtres


numriques IIR, filtres numriques FIR, les optimiseurs de champ
acoustique 92
2.11.3 Prise en compte des circuits de production et des cultures dcoute

97

2.11.4 Diagnostic et test dun systme dcoute 5.1 par mthode entirement
auditive lintention des ingnieurs du son

97

2.12 Perspectives et volutions

98

2.12.1 Laugmentation du nombre de canaux (7.1 22.2 ou 23.1)


2.12.2 Laprs multicanal ? Le WFS et le Transaural et la 3D

Chapitre 3 Les

facteurs perceptifs

98
103
109

3.1

Le standard stro

110

3.2

Apport du 5.1

112

3.3

Le dispositif 5.1 et ses contraintes

113

3.4 Localisation

3.5

3.6

3.7

115

3.4.1

Principe de fonctionnement

115

3.4.2

Fonctions de transfert HRTF

118

3.4.3

Prcision de localisation

124

3.4.4

Angle minimum audible

126

3.4.5

Perception de la distance

127

3.4.6

Perception des sources latrales et zone dcoute

129

3.4.7

Effet Haas et multiplication des sources

130

3.4.8

Influence de la vision sur la localisation

131

3.4.9

Internalisation et externalisation

131

3.4.10 Synthse binaurale

132

Impression spatiale

135

3.5.1 Dfinition

135

3.5.2 Enveloppement

138

Attention auditive

139

3.6.1

Principe gnral

139

3.6.2

Les causes de la raction de lorientation rflexe de lattention

140

3.6.3

La mmoire visuelle prpare lidentification auditive

141

3.6.4

Comment grer lorientation attentionnelle du spectateur?

141

3.6.5

Quelques rgles

142

bauche de solutions pour limage sonore multicanal

143

3.7.1 Esthtique

143

3.7.2 Localisation

143

Table

XI

des matires

3.7.3

Impression spatiale

144

3.7.4

Attention auditive

144

Chapitre 4 Limage

sonore, les esthtiques, et la ralisation

4.1

Espace de cration et espace de reproduction

146

4.2

Prsentation des critres objectifs danalyse

146

4.2.1

Esthtique de limage, ralisme ou effet

147

4.2.2

Construction de limage

148

4.2.3

Couleur de limage

153

4.2.4

Qualit du signal

154

4.3

Application: analyse dimages sonores par les critres

155

4.4

Genres, esthtiques et ralisation

157

4.4.1

Genres, esthtiques et lments de spatialisation

157

4.4.2

Film, fiction, animation, documentaire, sport

157
158

4.4.3 Musique
4.4.4 LAcousmatique et lAcousmonium par Daniel Teruggi

162

4.4.5 Radio

164

4.4.6

Jeu vido par Thierry Dilger

165

4.4.7

lments de ralisation

171


5.1

Dunod Toute reproduction non autorise est un dlit.

145

Chapitre 5 L a

prise de son

175

Rappels sur la prise de son strophonique

176

5.1.1

176

Diffrence dintensit

5.1.2

Diffrence de temps

176

5.1.3

Combinaison intensit et temps

177

5.1.4

Notion dangle de prise de son

180

5.1.5 Directivits

180

5.2.

Principe de la prise de son multicanal

181

5.3

Les systmes principaux espacs

183

5.3.1 MMAD

183

5.3.2

OCT Surround

197

5.3.3

Arbre Decca

201

5.3.4

Arbre Fukada

204

5.3.5 INA5
5.4

204

Les systmes principaux matrics

207

5.4.1

207

Double MS

5.4.2 Soundfield, systme ambisonique dordre 1

211

5.4.3

217

Sphre Schoeps KFM 360

XII

Le

5.5

5.6

son multicanal

Systmes dambiance

219

5.5.1

Double ORTF

219

5.5.2

ORTF Surround Schoeps

220

5.5.3

Croix IRT

222

5.5.4

Carr Hamasaki

224

5.5.5

Omni square et variantes

226

5.5.6

Holophone H2 Pro

226

5.5.7

DPA 5100

227

La haute rsolution spatiale

228

5.6.1

Haute rsolution spatiale et Trinnov SRP

230

5.6.2

High Order Ambisonics

235

5.7

Prise de son binaurale

237

5.8

Prise de son en tournage

240

5.8.1

Les enregistreurs

240

5.8.2

Les diffrents systmes: piges et astuces, avec la participation


de Vincent Magnier

240

5.9 Applications

241

5.9.1 Film

241

5.9.2

Documentaire limage

242

5.9.3

Documentaire, reportage, fiction radiophonique par Guy Senaux,


ingnieur du son Radio France

243

Autres expriences Radio

248

5.9.4

5.9.5 Sport

249

5.9.6 Musique

249

Chapitre 6 L a

postproduction

6.1 Gnralits

251
252

6.1.1 Monitoring

252

6.1.2

Normes sur lordre des canaux

253

6.1.3

Montage son en multicanal

253

6.1.4 DAW

257

6.1.5 Consoles

257

6.2

La mesure

258

6.3

Manager multicanal

261

6.4

Gestion du Lfe, bass management

264

6.5

Pan-Pot, gestion du centre et des canaux arrire

267

6.5.1

Les lois de pan

267

6.5.2

Le type de pan-pot

269

6.5.3

Gestion du centre, divergence centrale

276

Table

XIII

des matires

6.5.4

Divergence vers les autres canaux, Width ou Depth

277

6.5.5

Gestion des canaux arrire

279

6.6 Rverbration

6.7

6.8

280

6.6.1

Rverbration convolution

281

6.6.2

Lexicon 960 L, Surround PCM96

284

Traitement Dynamique

284

6.7.1

Compresseurs multicanal

284

6.7.2

Limiteurs multicanal

288

Autres effets

289

6.8.1 Autopan

289

6.8.2 Dlais

289

6.9 Downmix

289

6.10 Upmix

290

6.11 Mthode de mixage et analyses

292

6.11.1 Mixage film: les stems

292

6.11.2 Mixage Musique

293

6.11.3 Classement des sources

293

6.12 La synthse binaurale

294

6.13 Exploitation des nouveaux formats, mixage objets

Dunod Toute reproduction non autorise est un dlit.

6.13.1 Auro-3D, 22.2 NHK

294
294

6.13.2 Exploitation de la WFS

297

6.13.3 WFS, Iosono Spatial Audio Workstation

299

6.13.4 Exploitation Dolby Atmos

301

6.14 Cration sonore et interactivit avec la participation de Thierry Dilger

303

6.15 Applications

304

6.15.1 Film

304

6.15.2 TVHD: habillage sonore Arte HD 2008

308

6.15.3 Musiquede film: Requiem pour une tueuse

308

Chapitre 7 Le

codage et la diffusion

7.1 Introduction

309
309

7.1.1 Dfinition

309

7.1.2

310

Pourquoi rduire le dbit ou la taille?

7.2 Principes

310

7.2.1

Codage entropique

310

7.2.2

Codage perceptif, enlever linaudible

310

7.2.3

Les bases du codage

311

7.2.4

Bases de psychoacoustique

313

7.2.5

Modles psychoacoustiques

315

XIV

7.3

7.4

7.5


8.1

Le

son multicanal

Qualit subjective

321

7.3.1

Mthodes dvaluation perceptuelle

322

7.3.2

Mesures perceptuelles

325

7.3.3

Considrations pratiques

325

7.3.4

Comparaison de codage

326

7.3.5

Artefacts typiques de codage

326

7.3.6

Codage en cascade

326

7.3.7

Canaux discrets et canaux matrics

327

Codage sans pertes

327

7.4.1 PCM

327

7.4.2 Lossless

327

7.4.3 DSD

328

Codages perceptifs

328

7.5.1

Famille MPEG Audio

328

7.5.2

Famille Dolby

332

7.5.3

Famille DTS

339

7.5.4

Sony ATRAC et SDDS

341

7.5.5

Auro-3D Octopus codec

341

7.5.6

Codages libres de droit

342

7.5.7

volution du codage

342

7.5.8

Droit et protections

342

7.5.9

Vido et audio

343

7.5.10 Supports physiques

345

7.5.11 Diffusion

351

Chapitre 8 Exploitation Son Broadcast,

supports, nouveaux mdias

La chane dexploitation Broadcast

359
360

8.1.1

Synoptique du signal depuis la captation la diffusion

360
361

8.1.2

Dolby Surround

8.1.3

Les metadata Dolby

361

8.1.4

Les metadata AAC

369

8.1.5

Metadata DTS

371

8.1.6

Intgration des encodeurs Dolby E

372

8.1.7

DM100, vrification de la bonne synchronisation des trames


Dolby E et vido

374

8.1.8

Utilisation du DP570, metadata Dolby

374

8.1.9

Encodage/dcodage Dolby Digital, Dolby Digital Plus,


Dolby Pulse

380

8.1.10 Solutions Logiciels

380

Table

8.2

8.3

8.4

8.5

Dunod Toute reproduction non autorise est un dlit.

8.6

XV

des matires

Mesure du loudness

380

8.2.1

Principe, mesure Dolby

380

8.2.2

Recommandation ITU BS 1770-1

381

8.2.3

Loudness EBU R128 Europe, recommandation ITU BS 1770-3

383

Normes franaises PAD TVHD

385

8.3.1

386

Mesure des niveaux

8.3.2

Anciennes normes franaises PAD CST RT16, CST RT17 v2, CST RT19 387

8.3.3

Norme europenne actuelle EBU R128 387

8.3.4

Normes franaises PAD R128 2011 CST RT-17-TV version V3 392

8.3.5

Gestion du loudness des diffrents flux la diffusion

Exploitation des outils de traitement broadcast5.1

399
401

8.4.1

Traitement du Loudness et de la dynamique5.1

401

8.4.2

Upmixeurs

402

8.4.3

Encodage Dolby D, Dolby D +, Dolby pulse et gestion des metadata

405

Exploitation des formats DTS

406

8.5.1

DTS Neural

406

8.5.2

Exploitation des formats DTS pour le support

406

Diffusion5.1 et binaural pour les nouveaux mdias

406

8.6.1

Quelques recommandations

407

8.6.2

Les codecs

407

8.6.3

Les lecteurs compatibles5.1

410

8.6.4

Les lecteurs compatibles5.1, 3D et binaural

411

Conclusion

413

Bibliographie

415

Index

417

propos des auteurs


Les auteurs
Bergame Priaux

Bergame Priaux est diplm du Conservatoire National Suprieur de Musique de


Paris, de la Formation Suprieure aux Mtiers du Son. Il rentre lINA en 2001, au
dpartement Formation Son. Il travaille en parallle sur des productions musicales
pour le CD, le DVD et la tlvision. Il cre, au sein de la formation professionnelle son,
la filire Multicanal dans laquelle il anime des formations pour les ingnieurs du son
de Radio France, France Tlvisions, France Media Monde, Arte, AMP VISUAL TV,
Euromedia, Canal Plus, Eurosport, Technicolor, GTHP et de nombreux intermittents
du spectacle.
En 2006, il fonde la socit de production Bmusic Productions, spcialise dans la
captation, le mixage, ldition sonore musicale et le consulting pour la gestion de
projets son 3D et binaural.
Il communique sur lactualit du son multicanal sur son blog www.lesonmulticanal.com.

Dunod Toute reproduction non autorise est un dlit.

Jean-Luc Ohl

Ingnieur ENSEA, diplm en acoustique et bricoleur audio, Jean-Luc Ohl a particip


aux technologies numriques lies laudiovisuel, dans le monde professionnel comme
dans les produits grand public.
Dabord chef de produit numrique du groupe Thomson au lancement du CompactDisc, il a pris une part active lauthoring des premiers DVD produits en France. Ayant
aussi assur la direction gnrale de Revox-France, il uvre maintenant pour la socit
44.1, prsente dans le Broadcast et le Cinma, et a galement une activit de consultant.
Un de ses passe-temps favoris est de programmer des logiciels lis la psychoacoustique.
Pour plus de dtails, voir son site www.ohl.to.

XVIII

Le

son multicanal

Patrick Thvenot

Passionn depuis toujours par le son et diplm de lcole Centrale de llectronique,


du CNAM et de lcole Nationale Suprieure Louis Lumire, Patrick Thvenot a t
responsable du laboratoire dacoustique lINA. Il est co-fondateur de la socit A2t et
concepteur de la marque. Membre du comit de normalisation de lAES, il est lauteur
de confrences et de nombreux articles dans des revues spcialises.
Il partage actuellement son temps entre des activits dingnierie systmique au sein
du bureau dtude Taylor Made System tout en conservant son poste de formateur
lINA.
Plus rcemment, il est lorigine de la marque denceintes Prosodia dont la finalit est
dassocier neutralit et musicalit.
Spcialis en psycho-acoustique, il volue entre art et science grce son approche
globale et systmique du son. Son but dans cet ouvrage est de permettre lingnieur
du son dacqurir une vision claire et scientifique de lcoute multicanal, en relation
avec son vcu auditif et professionnel.

Avec la participation de...


Ont collabor cet ouvrage, dans lordre alphabtique:
Vincent Arnardi, mixeur film; Philippe Barbeau et Martine Todisco, preneurs de son
pour le documentaire animalier; Etienne Corteel, Sonic Emotion; Arnaud Damien,
Euphonia; Herv Djardin, responsable R&D sur le multicanal, Radio France; Thierry
Dilger, designer sonore; Thierry Le Bon, mixeur film; Bernard Lagnel, preneur de
son Radio France; Guillaume Le D, ingnieur du son, Radio France; Didier Lozahic,
mixeur film; Vincent Magnier, preneur de son limage; Rozenn Nicol, ingnieur,
son 3D Orange Labs; Gal Nicolas, monteur son film; Cyrille Richard, monteur son
film; Guy Senaux, ingnieur du son, Radio France; Daniel Teruggi, directeur de la
recherche, INA.

Remerciements
Lcriture de ces pages a t motive par lambition et la passion de chaque contributeur,
dont mes co-auteurs PatrickThvenot et Jean-LucOhl et de nombreux collaborateurs
professionnels.

Dunod Toute reproduction non autorise est un dlit.

Mes remerciements sadressent :


Mike Williams et Guillaume LeD qui ont transmis gnreusement leurs savoirs
et leurs pratiques sur le MMAD;
Guy Senaux pour sa contribution sur les documentaires, reportages et fictions de
Radio France en multicanal;
Vincent Magnier qui a collabor sur la prise de son limage;
Les mixeurs film Vincent Arnardi, Thierry LeBon et Didier Lozahic qui ont apport
leurs bonnes pratiques en mixage et leurs points de vue;
Philippe Barbeau et Martine Todisco pour ce petit voyage en plein documentaire
animalier;
Rozenn Nicol qui a gnreusement communiqu son savoir sur le binaural et sur la
perception auditive;
Herv Djardin pour sa contribution sur le reportage Interception et les changes
fructueux sur lvolution du multicanal Radio France;
Bernard Lagnel pour sa gnrosit et le partage de ses brillantes exprimentations
sur le multicanal et le binaural;
Thierry Dilger pour sa collaboration sur la partie cration sonore, interactivit et
sur lanalyse sonore des jeux vido;
Matthieu Parmentier pour la communication des avances consquentes sur les
nouvelles technologies de la R&D France Tlvisions;
Jrme Bordier pour la communication sur les avances dEurosport sur la
production de programmes sport en 5.1;
Gal Nicolas pour sa collaboration sur la prise de son multicanal au Soundfield;
Bernard Fouquet pour les discussions et le partage sur les normes de codage et de
diffusion ;

XX

Le

son multicanal

Trinnov Audio pour le partage de leurs avances technologiques sur laudio 3D et


la haute rsolution spatiale ;
Daniel Dal Pio Luogo pour son clairage sur lexploitation des formats Dolby ;
tienne Corteel et Arnaud Damien pour leur collaboration sur lexploitation de la
WFS ;
Cyrille Richard pour sa collaboration sur la partie montage son pour le film ;
Florian Camerer qui a rdig la prface ;
lquipe de lINA qui a soutenu le projet et Daniel Teruggi pour sa collaboration sur
le GRM, lacousmatique et lacousmonium ;
les ditions Dunod, et en particulier Jean-Baptiste Gugs pour avoir soutenu le projet.

Sigles, termes
techniques, conventions
Un certain nombre de sigles ou termes techniques sont utiliss par les auteurs, certains
se traduisent difficilement de langlais vers le franais et sont gnralement exploits
tels quels. En voici la liste et la dfinition.
Principaux canaux de mixage et de diffusion multicanal

L ou FL: Left ou Front Left, canal frontal gauche


Lc: Left Center, canal frontal centre gauche
Cou FC: Center ou Front Center, canal frontal centre
RC: Right Center, canal frontal centre droite
Rou FR: Right ou Front Right, canal frontal droite
Lsou SL: Left Surround, canal surround gauche
Rsou SR: Right Surround, canal surround droite
Lfe ou LFE: Low Frequency effect, canal deffet basse frquence

Dunod Toute reproduction non autorise est un dlit.

Lss: Left Side Surround, canal latral gauche


Rss: Right Side Surround, canal latral droite
BSL: Back Surround Left, canal arrire gauche
BSR: Back Surround Right, canal arrire droite
CS: Center Surround, canal arrire centre
Sub, Sub Bass ou Subwoofer: caisson de grave

XXII

Le

son multicanal

Formats de mixage ou de prise de son usuels

5.1: L, C, R, Ls, Rs, Lfe


5.0: L, C, R, Ls, Rs
4.0: L, R, Ls, Rs appel format quad
3.0: L, C, R
2.0: L, R
Downmix, downmixer: opration de fabrication dun format infrieur partir dun
format suprieur. On utilise gnralement ce terme pour fabriquer un format stro ou
mono depuis un format 5.1
Upmix, upmixer: opration inverse de fabrication dun format suprieur partir
dun format infrieur. On fabrique gnralement une version 5.1 partir dun format
stro ou mono
Pan-pot, pan, panner, pan-poter: opration de spatialisation dune source utilisant
le panoramique lors du mixage
Monitoring, monitorer: coute, contrler lcoute
Managermulticanal: outil de gestion des canaux dune piste multicanal
Stem: prmix
Channel oriented: contenu audio directement envoy vers les enceintes (speaker
oriented), mixage li un format de diffusion
Object oriented, objet: contenu audio + mtadata de localisation, indpendant du
systme de diffusion
Scene oriented: contenu audio type ambisonique contenant linformation directionnelle du champ sonore
Bed: mixage traditionnel type 5.1, 7.1, 9.1 orient channel, mixage constituant la base
principale du contenu audio (Mix core)
Routing, router: fonction dacheminement des diffrents bus ou canaux du multicanal
Hard center: centre physique port par lenceinte centrale seule

Sigles,

termes techniques, conventions

XXIII

Sweet spot: point de convergence du systme dcoute, en multicanal ITU le centre


du cercle dcoute
Link, link: on utilise le terme link pour indiquer que des pistes sont relies entre
elles
F/A: rapport frontal/arrire
CD/CR: rapport champ direct sur champ rverbr
Son direct: ce terme a plusieurs sens suivant son contexte; dans le contexte de lacoustique des salles, il caractrise un son sans rverbration, il est oppos au son rverbr
et dfinit aussi, dans le contexte du film, le son enregistr en direct lors du tournage

Dunod Toute reproduction non autorise est un dlit.

Binaural: le terme dsigne lcoute spatialise au casque bien que la dfinition exacte
du mot binaural soit ayant trait aux deux oreilles

Introduction
Cet ouvrage est n dune vritable passion pour la spatialisation du son que lauteur
principal exploite en production et enseigne depuis ses premires coutes en5.1.
chaque nouvelle coute, les sensations despace en multicanal sont tonnantes de
ralisme ou de crativit. Soit on reproduit la ralit sonore, soit on cre un univers
imaginaire, les deux approches tant riches dmotions.
Lenvie a t de sentourer de co-auteurs experts dans leurs domaines et de collaborateurs
professionnels preneurs de son, mixeurs, monteurs son, ralisateurs, ingnieurs pour
la recherche... Cette collaboration est bien sr dune grande richesse et fait de ce travail
un partage et la runion de points de vue diffrents et complmentaires.
Ces pages abordent principalement lexploitation du son multicanal au format5.1
pour diffrentes applications, le film, la TVHD, la radio, la musique, le jeu vido, la
scnographie, sur des aspects techniques et artistiques. Comment lhistoire dun tel
format sest-elle construite? Quels en sont les intrts, les vecteurs? Quelles techniques
de spatialisation trouve-t-on? Quelles sont les rgles qui dirigent lcriture, la ralisation
et qui constituent le langage de ces nouvelles images sonores?

Dunod Toute reproduction non autorise est un dlit.

Cet ouvrage sadresse aux professionnels en exploitation autant quaux tudiants en son.
La lecture peut se faire diffrents niveaux, le lecteur peut approfondir une technique
de prise de son particulire, comme il peut souhaiter simplement comprendre les
intrts de produire un son spatialis ou tout simplement couter des extraits sonores
en 5.1 ou en binaural.
chaque dbut de chapitre sont exposs les points essentiels du contenu, ces informations
servent guider le lecteur. Les principes sont dvelopps dans chacun des chapitres et
souvent illustrs par des schmas, des photographies, des expriences, des points de
vue et des interviews de professionnels. Certains contenus complmentaires ou plus
spcifiques sont mis en ligne et accessibles gratuitement sur le site www.dunod.com
et sont signals tout au long de louvrage. Ces extraits sont galement disponibles sur
le site www.lesonmulticanal.com. Lcoute dextraits sonores est sans aucun doute un
des points forts de cet ouvrage. Ce sont des sons au format5.1 ou en binaural qui
donnent des rfrences indispensables lapprentissage de ce nouveau mode dcoute.
Le lecteur trouvera aussi dans la partie web une session Pro Tools test faisant rfrence

XXVI

Le

son multicanal

au chapitre sur le systme dcoute. Cet outil permet un exploitant de diagnostiquer


une coute 5.1 ITU sans aucune mesure acoustique.
Le contenu est divis en huit chapitres, le premier introduit les gnralits et lhistorique.
Il dfinit les intrts du multicanal, ses vecteurs, les diffrents marchs et prsente les
nombreux formats dexploitation. Le deuxime chapitre aborde le dispositif 5.1ITU et
lcoute cinma, les normes, la calibration et ouvre vers dautres systmes plus volus
en 3D ou dautres technologies de diffusion comme la WFS (Wave Field Synthesis).
Le chapitre3 explore les donnes psychoacoustiques lies au multicanal, il pose ainsi
les bases thoriques ncessaires lanalyse de limage sonore et la comprhension
des concepts de la prise de son et de mixage. Le chapitre4 fait lanalyse de limage
sonore avec la prsentation des diffrents critres, il traite aussi de lesthtique et de la
ralisation des contenus spatialiss. Le chapitre5 expose le principe de la prise de son
multicanal, les diffrents systmes utiliss ainsi que le cas particulier de la prise de son
binaurale, il est illustr par le retour dexpriences de preneurs de son. Le chapitre6
aborde la postproduction: les concepts de montage son pour le film, les outils de
mixage5.1 et quelques mthodes de travail sont exposs. Ce chapitre est illustr par
le retour dexprimentations de mixeurs professionnels et lanalyse duvres mixes
en5.1. Un apart est fait sur la synthse binaurale et linteractivit dans le son. Le
chapitre7 tudie les diffrentes familles de codage, Dolby, DTS, AAC, les diffrents
supports du multicanal ainsi que les diffrents modes de diffusion. Enfin, le chapitre8
aborde la chane de production broadcast multicanal, la gestion des metadata, la mesure
du loudness et ouvre vers lexploitation du 5.1 et du binaural pour les nouveaux mdias.

Chapitre1
Gnralits

Lespace est une invitation au voyage


Points

essentiels

- Les diffrentes faons dcouter un son.


- Le multicanal: historique, intrts, vecteurs, problmatiques.
- Les diffrentes techniques de spatialisation: strophonie, ambisonie,
WFS, objets, binaural.
- Les formats du multicanal.

Dunod Toute reproduction non autorise est un dlit.

- tat des lieux, tude des marchs du multicanal, statistiques.

Dans ce premier chapitre sont exposes les gnralits du multicanal. Elles permettent
de situer le contexte de la spatialisation et de poser les questions essentielles sur la
fabrication du son. Comment lhistorique sest-il fait depuis les premires exprimentations? Quelles sont les diffrentes technologies utilises pour spatialiser le son?
Quels sont les intrts de produire en son multicanal? Quels sont les marchs et les
vecteurs? Comment diffuse-t-on ce type de son? Quelles sont les nouvelles problmatiques dexploitation? Enfin quels sont les diffrents formats du multicanal?

Chapitre1 Gnralits

1.1

couter
Lorsque lauditeur coute, il sapplique entendre un son.
Il existe aujourdhui diffrentes faons dcouter le son: on peut sinformer ou se divertir.
otive par
Ces deux modes dcoute sollicitent une attention auditive trs variable, m
une attente chez lauditeur et des motions recherches trs diffrentes. Le multicanal
peut alors se dfinir par la recherche dmotions plus, fortes passant par lauditif.
Lcoute du bulletin dinformation la radio, ou la tlvision, demande une bonne
intelligibilit de la parole. Le spectateur peut tre mobile, suivre les reportages qui
lintressent le plus, ignorer les autres, dans ce cas une construction dimage sonore
nest pas recherche: une image monophonique ou strophonique est le format le plus
adapt. Lcoute dune mission tlvise ou radiophonique peut demander une plus
grande attention auditive. Dans ce cas le spectateur souhaite suivre lintgralit du
programme mais il peut lcouter avec un certain recul, en faisant une autre activit.
Il peut se dplacer et modifier son point dcoute, la rception du signal ne sera pas
alterne et dans ce cas la construction spatiale de limage sonore sera peu exploite.
Lcoute5.1 sur home-cinma dun concert, dun vnement sportif, dun documentaire ou dun film suscite une plus grande attention auditive du spectateur. Ce dernier
est gnralement immobile, centr devant limage de son cran de TV, en attente dun
spectacle pour lequel la construction de limage sonore prsente un intrt. Le spectateur apprcie la spatialisation du son, mais celle-ci nest pas indispensable.
Le dernier degr dcoute implique davantage lauditeur. Cest par exemple le cas de
la diffusion en salle dun film. Les diffrents canaux amliorent lintelligibilit du son
pour tous les spectateurs et renforcent particulirement le rapport du son limage.
Dautres contenus denses, comme la musique contemporaine, scoutent plus naturellement en5.1 quen stro, certains contenus scrivent mme directement avec
lespace, comme la musique acousmatique. Dans un jeu vido le joueur sidentifie au
personnage grce la spatialisation, cette dernire dcuple les sensations ralistes de
situation et de dplacement. On trouve gnralement dans ces contenus des squences
sonores qui enveloppent lauditeur. Dans ce cas, la spatialisation du son fait partie de
lcriture de luvre.

1.2

Historique
Lhistorique du multicanal nous renvoie soixante-quinze ans dexprimentations,
depuis les expriences de Disney en 1940, jusquaux nouvelles technologies de spatialisation que nous connaissons aujourdhui.

1.2.1 Cinma
Le cinma souvre au multicanal partir des premires expriences des ingnieurs
de Disney en 1940, autour du film Fantasia. Le procd utilis est le Fantasound: le

1.2 Historique

film est sonoris en cinq canaux partir de trois canaux de production LCR. La diffusion taitLCR derrire lcran et LsRs en fond de salle, ce qui dfinit les bases de
notre format5.1. Entre1946 et1954, le cinma connat un dclin d larrive de la
tlvision. Le nombre de spectateurs chute de moiti. De 1950 1970 senchanent une
multitude de procds, entre autres le Cinrama et le Todd AO, prcurseurs du format7.1 SDDS, disposant cinq enceintes derrire lcran, et le Cinmascope: un procd
en quatre canaux LCRS. Dans les annes 1970 apparat le procd IMAX (Image Maximum) qui tend dvelopper la taille de limage et langle de vision avec combinaison
de projecteurs multiples pour les grandes salles. LIMAX se dcline en IMAX DOME
(appel initialement OMNIMAX), prvu pour la projection sur des crans inclins et
en relief grce lIMAX 3D. Ce dernier apporte un effet immersif. En 1974 apparat le
Subwoofer, avec notamment le procd Sensurround, qui tend la bande passante de
la diffusion dans le grave.
En 1976, ces diffrents procds cdent la place au Dolby Stereo qui, grce lutilisation dune matrice 4-2-4, permet de diffuser le mixage LCRS de lpoque partir
de deux canaux LtRt (Left total, Right total, voir chapitres7 et 8). En 1976, A star is
Born marque le dbut de la production des films en Dolby stereo. Ce sera le premier
film sur pellicule 35mm utilisant ce procd. Par la suite, un certain nombre damliorations font voluer le mode de diffusion: en 1977, le producteur de Star Wars
souhaite renforcer la diffusion dans les graves avec Dolby pour mieux simuler les
scnes de guerre dans lespace et ajoute pour cela un canal ddi au Subwoofer appel
Lfe (Low Frequency Effect ou Baby Boom). En 1978, Superman est le premier film
exprimentant des canaux surround stereo. Apparat en 1983 la norme THX avec le
Retour du Jedi: elle impose une norme pour le rglage son des salles de cinma. Et en
1986, Dolby intgre travers le procd Dolby SR (Spectral Recording) son rducteur
de bruit.

Dunod Toute reproduction non autorise est un dlit.

En 1987, une avance importante: le dispositif5.1 du cinma est norm. Lanne 1990
marque la sortie du centime film en Dolby Stereo SR, Robocop 2.
En 1992, Dolby rvolutionne encore le rendu sonore au cinma avec une version numrique du SR: le Dolby SRD (Spectral Recording Digital). Le Dolby SRD ajoute sur la
pellicule film, ct des deux pistes analogiques Dolby SR Lt Rt toujours prsentes pour
garantir la compatibilit, un signal numrique AC-3 imprim entre les perforations.
Ainsi, on peut obtenir jusqu six canaux totalement discrets en configuration 3/2/1,
le sixime canal correspondant au Lfe. Ce nouveau procd numrique est inaugur la
mme anne avec le Retour de Batman. En 1993, DTS et SONY se joignent cette volution numrique en proposant le DTS5.1 et le SDDS7.1 (le SDDS place cinq enceintes
derrire lcran). En 1996, environ quatre mille salles sont quipes en Dolby Digital,
la mme anne, le Dolby Drive, systme entirement bas sur disque dur conu pour
remplacer terme les dfileurs 35mm magntiques perfors, est prsent lAES de
Copenhague.

Chapitre1 Gnralits

Nom

Anne

Format
Pellicule

Technologie

Codage
Son

Format

Fantasound

1940

35 mm

3 pistes analogiques
optiques

LCR

Cinrama

1952 1962

35 mm

7 pistes analogiques
magntiques

LLcCRcRLsRs

CinemaScope

1953 1967

35 mm

4 pistes analogiques
magntiques

LCRS

Todd-AO

1955 1992

70 mm

6 pistes analogiques
magntiques

LLcCRcRS

Dolby Stereo

1976 2006

35 mm

2 pistes analogiques
matrices optiques

Ultra Stereo

1984

35 mm

2 pistes analogiques
matrices optiques

Dolby Discrete

1976 2006

70 mm

6 pistes analogiques
magntiques

Dolby A

LLcCRcRS

Dolby Baby
Boom 6 tracks

1977 2006

70 mm

6 pistes analogiques
magntiques

Dolby A

LCRLsRsLfe

Dolby Split
Surround 6 tracks

1979 2006

70 mm

6 pistes analogiques
magntiques

Dolby A

LCRSLfe

Dolby Stereo SR

1986 2006

35 mm

2 pistes analogiques
matrices optiques

Dolby SR

LCRS

Kodak CDS

1990 1991

35 mm
70 mm

6 canaux numriques
optiques

Delta
Modulation

LCRLsRsLfe

Dolby Digital

1992 2006

35 mm

6 canaux numriques
optiques

AC3

LCRLsRsLfe

DTS

1993 2006

35 mm

6 canaux numriques
optiques

DTS
Coherent
Acoustics

LCRLsRsLfe

SDDS

1993 2006

35 mm

6 canaux numriques
optiques

ATRAC

LLcCRcRLsRsLfe

6 tracks

Dolby A

LCRS
LCRS

Figure1.1Les diffrents procds de diffusion son du cinma sur pellicule 35mm ou 70mm.
Lanne 2006 marquant la fin du 35mm avec larrive du cinma numrique.

En 1999, Star Wars, avec La Menace fantme, fait de nouveau voluer le format5.1
en intgrant un canal centre arrire grce au Dolby Digital Surround EX, procd
co-dvelopp par Dolby et Lucas Film THX. DTS propose en 2000 lquivalent avec
son format DTS ES7.1.

1.2 Historique

2006 marque le dmarrage du cinma numrique avec la sortie du premier film Chicken
Little diffus en Dolby Digital Cinema. Les salles de cinma squipent progressivement
en numrique. Le retour de lintrt pour limage 3D sera par la suite un moteur pour
ce passage au tout numrique. En 2009 a lieu la sortie de Batman, Le Chevalier Noir
en format IMAX. De nombreux succs cinmatographiques tels que trois des volets
dHarry Potter, Batman Begins ou Superman Returns ont t gonfls au tirage pour
permettre des projections en IMAX. La France compte aujourdhui une quinzaine de
salles IMAX dont les plus rcentes sont quipes IMAX Numrique 3D. Si le succs de
ces nouvelles salles IMAX Numrique se confirme, trente-cinq autres sites potentiels
en France sont ligibles cette reconversion selon la socit IMAX Corporation.
En 2010, Dolby prsente son nouveau format Dolby Surround7.1 dont il souhaite faire
tat comme tant la norme son pour limage 3D. Cette norme comporte quatre canaux
surround, dont deux sur les cts et deux larrire. Toy Story 3 est alors le premier
film diffus en Dolby Surround7.1.

Dunod Toute reproduction non autorise est un dlit.

partir de 2010, le cinma numrique volue vers des formats son 3D, et lon voit
apparatre diffrents procds qui quipent les salles de haut-parleurs au plafond.
Ainsi voient le jour les dispositifs Imm Sound (Imm Sound quipait quelques salles
Gaumont-Path dont la premire en France Brumath en Alsace), Auro-3D, Dolby
ATMOS et la technologie WFS. Ces procds concurrentiels multiplient le nombre de
canaux et tentent de normaliser des formats 11.1, 13.1, 14.1, 23.1 et dautres, suprieurs,
compatibles5.1 et7.1. En juillet2012, Dolby acquiert Imm Sound et se propulse dans
le march du son 3D pour le cinma. En France, la mme anne, les deux premires
salles quipes Dolby Atmos sont inaugures Paris et Bordeaux. En 2013, un format
dchange libre de droit pour le mixage objet, le MDA (multi-dimensionnal audio) est
support par DTS. En 2015, il existe plusieurs complexes quips Dolby Atmos: environ dix-sept salles de cinma, deux salles de vision Disney/Warner, cinq auditoriums
(Dubbing Brothers, Cinphase, Ink Production, Creative Sound, les Auditoriums de
Saint-Ouen), Titra films et le labo DCP (Eclair KDM).

1.2.2 Home-cinma, DVD, TVHD, Radio, jeu vido, Internet


Le film sinstalle chez le particulier grce au home-cinma ds que sa diffusion devient
possible, notamment avec larrive de nouveaux supports et avec le dveloppement de
solutions de matriages Dolby Surround.
La fin des annes soixante et des annes soixante-dix sont marques par les exprimentations de la quadriphonie, notamment avec lapparition de nouveaux supports
matrics: le QS quadraphonic sound, le SQ stereo quadraphonic, le Matrix H (dvelopp par la BBC pour tre diffus sur la FM) et des supports discrets tels que le CD4
(JVC, RCA), le UD4/UMX (Denon), le Q4 et le Q8, ces derniers tant des formats sur
bande 1/4 pouce et cartouche, tous les autres tant des formats sur disque vinyle. Cette
volution technologique des supports est soutenue par les maisons de disques, on voit
apparatre notamment de nouvelles productions musicales, comme Dark Side of the
Moon des Pink Floyd en 1973.

Chapitre1 Gnralits

Historique
1931

Blumlein, 2 canaux L/R stro

1933

Bell Labs, 3 canaux L/C/R stro

1940

cinma

analogiques et Dolby Stereo Digital,


propose par Cinemeccanica

Fantasia, procd Fantasound 3 canaux


diffuss en LCR/LsRs

1993

Jurassic Park, DTS5.1

Last Action Hero, SDDS7.1

1952

This is Cinerama, procd Cinrama 7


canaux LLcCRcR/LsRs

1995

1953

The Robe, procd Cinmascope 4


canaux LCRS, 20th Century Fox

1955

Oklahoma!, procd Todd AO 6 pistes


LLcCRcR/S

Prsentation au Show East


dAtlantic City du processeur de cinma
numrique Dolby CP500 capable de lire
la fois les pistes analogiques optiques et
la piste Dolby D

1996

1970

Tiger Child, le premier film IMAX, est


projet durant lexposition universelle
de 1970, Osaka

Environ 4000 salles sont quipes dans


le monde pour lire le Dolby Digital

1974

Earthquake procd Sensurround,


apparition des Subwoofers

1976

A star is born (version Barbara


Streisand, Kris Kristofferson), premier
film 35mm avec des effets surround et
premire utilisation de la matrice
4: 2: 4 du Dolby Stereo

Le Dolby Drive, systme entirement


bas sur disque dur, conu pour
remplacer terme les dfileurs 35mm
magntiques perfors, est prsent
lAES de Copenhague

1998

15000 salles de cinma quipes en


Dolby Digital dans le monde, 14000 en
DTS

1999

1977

Star Wars, premire utilisation du canal


Lfe

La Menace fantme, Dolby Digital


Surround EX, format 6.1 co-dvelopp
par Dolby et Lucas Film THX

1977

Close Encounters of the Third Kind,


Canal Lfe ddi

20000 salles quipes en Dolby Digital

2000

DTS ES7.1

1978

Superman, premier film magntique


70mm exprimentant des canaux
arrire stro

Plus de 25000 salles quipes Dolby


Digital

2006

1979

Apocalypse Now premier film en Dolby


Stereo six pistes magntiques 70mm
tre distribu commercialement avec un
son surround stereo

Cinma Numrique, Chicken Little Dolby


Digital Cinema

2009

Avatar, regain dintrt pour le film en 3D

2010

Toy Story 3, Dolby 3D7.1

2011

Mission impossible 4, sortie au format


IMAX

2012

Red Tails, Lucas Film, sortie du premier


film Auro-3D 11.1 en salle de cinma

2012

The Impossible, sortie au format Imm


Sound 14.1

2012

Dolby ATMOS, 128 canaux, 64 hautparleurs, sortie de Rebelle, Disney/Pixar,


premier film en Dolby Atmos

2012

Dolby acquiert Imm Sound

2012

Inauguration des 2 premires salles de


cinma quipes Dolby Atmos en France,
Paris et Bordeaux

2013

Dveloppement du format dchange MDA


par DTS pour le mixage objets

2015

Installations Dolby Atmosen France:


17 salles de cinma, 2 salles de vision,
5 auditoriums, un labo DCP. 170 films
produits en Dolby Atmos de 2012 2015.

Don Giovanni, premier mixage film


Dolby Stereo en France

1983

Return of the Jedi, Norme THX

1986

Le format Dolby Stereo SR (spectral


recording) 35mm optique est prsent
lAcademy of Motion Picture Arts and
Sciences

1987

Premiers films en Dolby Stereo SR


Innerspace, Robocop. Le format5.1 est
norm pour le film

1990

Sortie du centime film en Dolby Stereo


SR Robocop 2

1991

Premires dmonstrations du format


Dolby Stereo Digital (Dolby SRD) intgrant
lAC3 en complment des 2 pistes LtRt

1992

Batman Returns, Dolby Digital5.1


(Dolby SRD)

1993

Premire tte de lecture optique 35mm


capable de lire la fois les bandes son

1.2 Historique

Chacun des supports quad est soutenu par un groupe de maisons de disques. Le QS est
support par ABC, Advent, Bluesway, Candide, Command, Decca, Impulse, Longines,
MCA, Ovation, Pye, Turnabout et Vox. Le SQ est support par Angel, CTI, Columbia, EMI, Epic, Eurodisc, Harvest, HMV, Seraphim, Supraphon et Vanguard. Et le
CD4 est support par Arista, Atlantic, Capricorn, Elektra, Fantasy, JVC, Nonesuch,
A & M, Reprise & Warner Bros Records. Les radios simpliquent de leur ct dans les
recherches et dans les productions: entre autres Radio France, la BBC et des radios
amricaines, qui diffusent des missions ou des musiques en format quad.
Lchec de la quadriphonie tient principalement un trop grand nombre de supports
quad concurrentiels et vient aussi de la rticence du public ajouter deux enceintes
supplmentaires dans son salon. Dautre part, lesthtique musicale dfinie par le
format quad ntait peut-tre pas suffisamment mre dans lesprit des producteurs.
Ltude psychoacoustique du format tait imparfaite, labsence de compatibilit stro
et la localisation imprcise des images sonores limitaient le procd. Labsence de compatibilit avec le5.1 du cinma a sans aucun doute aussi jou un rle.

Dunod Toute reproduction non autorise est un dlit.

Le home-cinma prend son essor en 1987, ds lintgration du Dolby Surround dans les
amplificateurs AV (audiovisuels) sous forme de dcodeurs Pro Logic. La cassette VHS,
le vido disc ou le laser disc, comportent la version5.1 des films en Dolby Surround. Ils
sont largement dpasss par le march du DVD vido qui apparat en 1996. la tlvision, les films du soir sont gnralement diffuss en Dolby Surround, compatible avec
les premiers amplificateurs AV. Les technologies discrtes Dolby Digital et DTS sont
intgres progressivement tous les produits audiovisuels: le film, la musique (quelques
productions en CD et DVD), le jeu vido et bientt la tlvision (Dolby Digital).
En 2005 le march de la HD rvolutionne le secteur audiovisuel, notamment celui
de la tlvision. La TVHD est lance, aide par la vente consquente dcrans plats.
Certaines chanes HD diffusent leurs programmes en Dolby Digital5.1, comme le sport
ou des films. Dolby propose aux chanes de tlvision son procd de codage Dolby E
permettant de transporter huit canaux sur une simple interface AES3, ce qui permet de
vhiculer un son5.1 et sa version stro simultanment sur une infrastructure stro.
Ce march est relay par le support Blu-ray, le remplaant du DVD, capable dintgrer
une image HD et un son multicanal non compress compatible7.1. En 2009, une version audio du Blu-ray appele Pure Audio Blu-ray voit le jour. Malheureusement, peu
de productions existent encore aujourdhui. En 2010, le multimdia suit cette volution
avec la premire dmonstration de diffusion HD en Dolby Digital plus5.1 depuis un
mobile, utilisant une interface mini HDMI. On trouve aussi cette interface HDMI sur
les ordinateurs et sur les tablettes numriques. Lutilisateur peut donc tlcharger un
film en HD son Dolby Digital5.1 et le diffuser sur son ampli home-cinma.
En fvrier2013, Radio France inaugure son nouveau site de diffusion NouvOson sur
lequel lauditeur peut couter des programmes en5.1 et en binaural grce un player
compatible. Dbut 2015 Orange Labs sort la nouvelle version de son application Orange
Radio compatible binaural, celle-ci permet la diffusion binaurale de contenus5.1
partir de flux de webradios tels que NouvOson ou RFI Labo.

Chapitre1 Gnralits

Historique

home- cinma, dvd, tvhd radio, jeu vido

1964

La NHK commence le dveloppement de la TVHD

1971

Quadriphonie, supports matrixH (BBC), SQ stereo


quadraphonic (CBS), QS quadraphonic sound
(SANSUI), CD4 (JVC et RCA)

1982

Dolby introduit le procd Dolby Surround

La NHK commence les productions TVHD

1984

Les systmes Virtual Dolby Surround et Virtual


Dolby Digital, permettant un effet de son surround
partir de seulement 2 haut-parleurs (transaural)
sont prsents au CES de Las Vegas

Procd Dolby Soundlink adaptive delta


modulation plus connu sous lappellation AC-1,
algorithme de compression numrique pour les
transmissions TV en satellite et par cble

Le Dolby Digital est ratifi comme tant le format


audio obligatoire pour les DVD Pal/Scam, de mme
que pour les disques NTSC, ce qui permet une
sortie mondiale dun titre, avec la mme bande-son

Le Singe Soleil, premier documentaire radio


enregistr en multicanal, diffus sur France Inter

1985

La chane de tlvision musicale VH1 commence


mettre aux USA en utilisant le Dolby AC1 pour sa
distribution par satellite

1998

Premier jeu vido en Dolby Digital

Dolby Headphone dvelopp par Lake DSP (Sydney,


Australie)

Premier vido-disc et premire cassette distribus


avec un son Dolby Surround

1987

Lancement du Dolby Pro Logic

1987

CBS diffuse le 21e Super Bowl en Dolby Surround

1988

TDF1&2, transmission TV satellite puis cble


D2MacPaquet compatible TVHD, transmission
8 canaux audio numriques

1989

Les codecs numriques AC-2 Dolby 500 sont


prsents lAES de New York

DAB
1999

Dolby E; SACD

Singapore Airlines propose ses passagers le


systme Dolby Headphone

Un flux Dolby Digital5.1 est envoy par Internet de


Montral la convention AES de New York

2000

Dolby Pro Logic 2; DVD Audio

Norme D2Mac abandonne au profit du DVB MPEG2

La NHK met en test 1 heure par semaine des


programmes TVHD (High Vision)

NHK premire chane HD 24h/24 par satellite


numrique

1991

La NHK met en test 8heures par jour des


programmes TVHD

2005

Codec sans perte Dolby TrueHD pour les supports


vido HD

1994

Le premier service de diffusion directe par satellite


avec encodage AC3 (le DMX for Business) est
lanc

T-DMB

Premire dmonstration par la NHK de lUltra High


Definition TV

Fox Network diffuse toute la saison de football


amricain (NFL) en Dolby Surround

Norme5.1 ITU-R BS 775

2007

1995

Premiers produits grand public intgrant la


technologie AC3 dont le Laser disc, Toshiba et
Time Warner font la dmonstration dun prototype
de DVD avec de laudio en Numrique AC-3

DAB+

1996

La BBC retransmet la premire mission


radiophonique en Dolby Surround (Bomber, BBC
Radio 4)
Dolby signe des accords avec Microsoft, dune
part, pour dvelopper lintgration dans les PC
de techniques AC-3 et Surround Pro Logic, et
avec Digidesign, dautre part, pour marier plus
efficacement leurs technologies

La version franaise de Judge Dredd (1995) est le


premier LaserDisc NTSC europen comporter
une bande-son en Dolby Digital. En 1996,
on compte dj plus de 100 titres Laser Disc
disponibles aux USA avec un son surround5.1
Dolby Digital

Le Dolby Net, une version faible dbit du Dolby


Digital, est prsent pour les applications de
streaming Internet bande passante rduite

2006 Blu-ray
Le march du DVD amricain compte 126millions
de lecteurs commercialiss avec 75000 titres
disponibles

2008

Lancement en France de la TNT HD

2009

Pure Audio Blu-ray; DTS Neural Surround

2010

Premire prsentation publique de lintgration


du son5.1 dans un tlphone portable utilisant la
technologie Dolby Mobile

2012

Le Super Bowl est produit en DTS Neural, transport


en Dolby E aux chanes TVHD puis diffus en Dolby
Digital

2012

Jeux Olympiques de Londres: la NHK, la BBC et


OBS captent en Ultra High Definition une partie
des jeux, son 22.2, avec retransmission en direct
par satellite dans les salles de cinma, Londres,
Glasgow, Bradford, Washington, Tokyo et Osaka

2013

Lancement du site internet NouvOson Radio France


comportant des programmes en5.1 en binaural

2014

Dveloppement du standard audio 3D MPEG-H 3D


par Fraunhofer

2014

Norme ITU-R BS 2051 Advanced sound system for


programme production

Le Cataclysme Sonore, premire mission


radiophonique en France mixe en multicanal,
diffuse sur France Inter en Dolby Surround

1997

DVD vido

2015

La premire automobile quipe dun systme


audio Surround Dolby Pro Logic est propose par
Volvo au Detroit Motor Show

Orange Labs sort lapplication Orange Radio


compatible binaural

2015

Sortie dune quinzaine de films sur Blu-ray en


Dolby Atmos

Le premier dcodeur Dolby Digital software


exploitant la technologie MMX TM est annonc par
Intel

2015 The Expendables 2, premier film sur Blu-ray en


DTS Neo X

1.2 Historique

1.2.3 criture, dition et diffusion musicales


Ds le xviesicle, les compositeurs ont manifest un intrt pour lespace et le mouvement dans lcriture musicale. Ils disposent de faon circulaire les churs et certains
cuivres en coulisses. Les musiciens sont dans le public et se dplacent. Lpoque classique et romantique tend fixer lorchestre devant le public, tandis que le xviesicle et
la musique contemporaine utilisent beaucoup la notion despace. La densit de lcriture musicale contemporaine, avec lutilisation de plusieurs orchestres et un dispositif
denceintes, tend spatialiser les musiciens et les sources autour de lauditeur.
Les premiers compositeurs qui se sont intresss lespace aprs Gabrieli, Berlioz, Mahler
ou Debussy, sont Edgar Varse, Iannis Xenakis, Karlheinz Stockhausen et Pierre Boulez.
Varse dclare en visionnaire: la musique de demain sera spatiale et les sons donneront limpression de dcrire des trajectoires dans lespace, de se situer dans un univers
sonore en relief. Iannis Xenakiset Karlheinz Stockhausen sont les compositeurs qui ont
le plus rflchi sur la spatialisation de la musique. Leurs rflexions portent aussi bien sur
la rpartition du public ou de lorchestre au sein de la salle de concert que sur lcriture
mme et dbouchent sur la notion de relief, de mouvements et dubiquits sonores.
partir de la seconde moiti du xxesicle, le haut-parleur est intgr dans la composition musicale comme un instrument part entire: les uvres sont alors plus
facilement crites pour lespace.

Dunod Toute reproduction non autorise est un dlit.

Le Groupe de Recherches Musicales de lINA (Institut National de lAudiovisuel), le


GRM, a t cr en 1958 par Pierre Schaeffer, douze ans aprs son invention de la
musique concrte, pour explorer les possibilits de la cration musicale associant des
outils technologiques. Ds ses dbuts, et notamment lors de la cration de luvre
emblmatique quil a compos avec Pierre Henry, la Symphonie pour un homme seul en
1951, lorganisation du son dans lespace a t au centre de la restitution des musiques
en concert. Aprs la premire exprience avec quatre haut-parleurs contrls depuis la
scne, le nombre de haut-parleurs a t incrment progressivement pour aboutir en
1974 la mise en uvre de lAcousmonium, conu par Franois Bayle pour pouvoir
distribuer la musique dans lespace dune salle de concert en fonction de ses caractristiques timbrales ou frquentielles.
LAcousmonium a t conu pour permettre des interprtes de jouer avec le son
strophonique dans une salle de concert partir dune console de contrle place
dans son centre. Suite lvolution des formats multicanal, le dispositif sest complexifi pour comprendre aujourdhui environ quatre-vingts haut-parleurs disposs de
manire circulaire, environnant le public et de faon frontale. Environ vingt concerts
par an sont raliss sur le dispositif dans des salles de volume diffrent; plus de huit
cents concerts ont t donns depuis le dbut du cycle de concerts Multiphonies en
1978. Des outils complmentaires, les GRM Tools1, permettent de contrler et dorganiser les sons dans lespace lors du processus de composition des uvres.
1. http://www.inagrm.com/grmtools

10

Chapitre1 Gnralits

LIrcam, quip depuis peu en WFS circulaire, fait aussi partie des lieux de diffusion
spatialise pour les uvres de musique contemporaine. Dans Rpons, Pierre Boulez
utilise la technologie de pointe de lIrcam, il allie un dispositif lectroacoustique:
vingt-quatre musiciens, six solistes ainsi que six haut-parleurs permettant damplifier, de spatialiser les sons et de modifier ceux des solistes. Le public est plac au
centre.
la fin du xxesicle, la priode quadriphonique est marque par la sortie de Dark Side
of the Moon des Pink Floyd en 1973. En 1967, Pink Floyd donne le premier concert
multicanal, en format quadriphonique, la salle Queen Elizabeth de Londres. Par la
suite, senchanent des exprimentations musicales en Dolby Surround, des albums5.1
dits en CD et DVD DTS dont notammentHell Freezes Over des Eagles, une des premires exploitations commerciales en CD DTS. Puis, lvolution des supports, avec
lapparition du DVD audio et du SACD, donne un vritable lan la production musicale5.1: des artistes sy consacrent tels que Bjrk (albums SACD, DVD hybride et live
DVD / Blu-ray), Peter Gabriel (albums SACD et live DVD / Blu-ray), les Beatles (album
Love produit en DVD audio), Diana Krall (SACD, DVD audio), etc. Cet lan, qui motive
quelques labels investir dans le SACD5.1, est phmre. La crise du CD freine alors
les ditions en5.1, notamment pour la production de musiques actuelles. Aujourdhui,
le monde de la musique classique continue produire en5.1 avec certains artistes
renomms comme Jordi Savall: les enregistrements sont dits en SACD, DVD hybride
ou Pure Audio Blu-ray par des labels spcialiss comme Alia Vox, Aix records ou 2L
(Lindberg Lyd). Depuis 2011, la plateforme dachat en ligne Qobuz propose des ditions
musicales classique et jazz en5.1. Lanne 2012 marque une nouvelle tape avec la sortie
du premier Blu-ray 9.1 Auro-3D intgrant un son 3D, il sagit de TrondheimSolistene
Souvenir, dit par 2L. Auro Technologies commercialise les premiers dcodeurs
Auro-3D sur les amplificateurs AV fin 2013.
En 2012 a lieu linauguration de linstallation WFS de lespace de projection de lIrcam.
La couronne est quipe de deux cent soixante-quatre haut-parleurs et complte par
un dme de soixante-quinze haut-parleurs pour une diffusion tridimensionnelle en
mode ambisonique.

1.3

Intrts

1.3.1 Une coute naturelle: ralisme et immersion


Lhistorique nous a rvl quil existait de nombreux dispositifs de spatialisation avec
des champs dapplications diverses, mais cest bien le monde du cinma qui a russi
faire adopter plus gnralement la spatialisation du son. Les autres applications du
multicanal sont trs peu connues et gagnent ltre, notamment grce la simplification de la diffusion.
Souvent, on compare le son multicanal au son stro : la stro cest regarder
travers une fentre et le multicanal cest tre immerg dans un champ sonore.

1.3 Intrts

11

Dunod Toute reproduction non autorise est un dlit.

Historique,

criture, dition et diffusion musicales

1570

Spem in alium, Thomas Tallis, motet


40 voix, 8 churs 5 voix (soprano, alto,
tnor, baryton, basse) circulaires placs
dans une salle de chteau octogonale

1989

Premier enregistrement de musique en


Dolby Surround, The Home Video Album,
distribu en CD et en cassette audio par
RCA Victor

1585

Sacrae Symphoniae, Giovanni Gabrieli,


double chur, musique polyphonique
spatialise, excute dans la basilique
Saint-Marc Venise qui comprend alors
2 tribunes opposes recevant chacune
1chur

Hay que caminar, Luigi Nono, uvre pour 2


violons, musiciens en mouvement

Le noir de ltoile, Grard Grisey, uvre


pour 6 stands de percussions, public
entour par les musiciens

1993

Premier enregistrement rock mix en


Dolby Surround pour le titre Pictures at an
Exhibition, dernire plage de lalbum The
Return of the Manticore, dEmerson, Lake &
Palmer

1995

dition de lalbum Hell Freezes Over,


The Eagles, en CD DTS

1997

Le DVD Spectacular est le premier


titre DVD audio, distribu par Delos
International, avec un son en Dolby
Digital5.1

2001

Vespertine, premier album de Bjrk crit


pour le5.1, dition SACD

2006

Love, nouvel album de musiques compiles


et remixes des Beatles, DVD audio en5.1,
produit par George et Giles Martin en
collaboration avec le Cirque du Soleil. Le
spectacle est sonoris par6341 hautparleurs la salle The Mirage, Las Vegas.

1830

Symphonie Fantastique, Hector Berlioz,


les cuivres sont disposs derrire les
spectateurs, une instruction prcise: un
hautbois est plac hors scne, impliquant
une certaine distance

1837

Requiem, HectorBerlioz, 4 orchestres


disposs Nord, Est, Sud et Ouest

1894

Symphonie n2, Gustav Malher, sur


la partition est mentionn: les
trompettes sont places hors scne,
gauche droite, le plus loin possible

1908

The Unanswered Question (A Cosmic


Landscape), Charles Ives, distribution
spatiale des instruments

1923

Hyperprism, Edgar Varse, 16


percussions et 9 instruments vent,
premire tentative chez Varse de
spatialiser la musique

1958

Gruppen, Karlheinz Stockhausen, 109


musiciens diviss en 3 groupes quasi
identiques

2006

Pome lectronique, Edgard Varse,


disposition de plus de 400 hautparleurs
lintrieur du pavillon Philips conu par
Le Corbusier et ralis par Iannis Xenakis
pour lExposition universelle de Bruxelles
de 1958

Sortie de la discographie Surrounded de


Bjrk en5.1, coffret des albums, titres
studio et vido clips en stro et5.1

2009

Divertimenti, orchestre de chambre


TrondheimSolistene Lindberg Lyd, dition
SACD/Pure Audio Blu-ray, 2L

Piano Concerto, Edvard Grieg, un des


premiers Blu-ray7.1, dit par le label 2L

2010

This is it, documentaire musical sur la


prparation de la tourne 2009 de Michael
Jackson, dition DVD/Blu-ray

2012

TrondheimSolistene Souvenir, premier


Blu-ray 9.1 Auro-3D,5.1,7.1, stro, dit
par 2L

Inauguration de linstallation circulaire


WFS de lespace de projection de lIrcam,
264 haut-parleurs rgulirement rpartis
sur une couronne, complts par un
dme de 75 haut-parleurs, diffusion
tridimensionnelle en mode ambisonique

2015

Sortie du titre Stonemilker tir de


lalbum Vulnicura de Bjrk, en version 3D
binaurale.

1966

Terretktorh, Iannis Xenakis,


88 musiciens disperss dans le public

1973

Dark Side of The Moon, Pink Floyd, format


quadriphonique

Cration du premier orchestre de hautparleurs au GMEB Bourges

1974

Constitution de lAcousmonium du GRM


par Franois Bayle (environ 80 projecteurs
sonores, rpartis sur 16 24 canaux)

1981

Rpons, Pierre Boulez, ensemble


instrumental (cordes, bois, cuivres),
instruments solistes (deux pianos, harpe,
vibraphone, xylophone, glockenspiel,
cymbalum) et systme lectroacoustique
pour transformer et spatialiser le son des
solistes, compos de 6 enceintes

12

Chapitre1 Gnralits

Dans la ralit, la fentre nexiste pas, on entend toujours un son spatialis : une
ambiance en extrieur ou une acoustique de salle ou de pice. Cest pourquoi, restituer
une ambiance en multicanal a toujours son effet persuasif lors de la premire coute et
la comparaison avec la stro rvle un vritable apptit pour lespace. La spatialisation
permet aussi la fidle rpartition des sources dans lespace sans repliement, alors que
la stro impose le frontal, avec superposition du champ arrire la scne frontale.
Donc le premier intrt du multicanal est denrichir la reprsentation mentale que lon
se fait pendant lcoute, avec une sensation despace plus forte. Lauditeur est immerg
dans le champ sonore, comme sil se retrouvait sur le lieu du tournage, au concert, au
thtre, dans la scne du film, sur le stade ou dans la peau du personnage du jeu vido.
Et de ce fait, il devient acteur.

1.3.2 Un espace: de nouvelles possibilits dcriture


Lespace en multicanal ouvre de nouvelles perspectives dans lcriture de luvre. Le
ralisateur peut introduire plusieurs points de vue, avec plusieurs actions pouvant se
drouler simultanment des endroits diffrents. Cest aussi lopportunit dintroduire
le mouvement et de le dvelopper, de faire interagir plusieurs directions tout autour de
lauditeur, de renforcer linteraction avec ce dernier par des effets dinternalisation et
des contenus basse frquence.
Ce nouveau champ est la fois une grande libert mais il est soumis des rgles,
dautant plus contraignantes dans les rapports avec limage. La spatialisation du son
trouve son intrt pour des programmes audiovisuels dont la ralisation sonore est
pense en multicanal ds le dbut. Avant de commencer produire, il faut crire pour
lespace.

1.3.3 Dfinition dimage, angle de vision, distance et dispositif sonore


Le schma de la figure1.2 a t ralis daprs des publications de la NHK: il reprsente lvolution du format de limage et sa configuration audio. Il part de la tlvision
numrique SD (son stro) dfinie par une image de 720 par 576pixels, vue une
distance de quatre huit fois la hauteur de lcran et sous un angle de vision de 15,
jusquau format Super Hi-Vision dvelopp par la NHK, dune dfinition dimage de
8k, imposant un angle de vision de 100 et accompagn du format son 22.2.
La TVHD se situe entre les deux configurations. Limage de dfinition 2K est vue sous
un angle de 30, une distance de 3H (Htant la hauteur de limage) avec un dispositif
son norm5.1. Le cinma numrique projette des images de dfinition 4K, avec un
angle de vision de 55 et une distance de 1,5fois la hauteur de lcran. Son dispositif
audio est le5.1 mais on trouve dautres formats suprieurs.
Langle de vision augmente, il suit le format de limage et plonge le spectateur dans
un champ visuel de plus en plus raliste et immersif tout comme le dispositif sonore,
contraint alors de suivre limage afin de garder une cohrence. Le nombre de canaux
du dispositif audio crot avec langle de vision du dispositif image.

13

480-576
pixels

SDTV
720-960 pixels
15deg.

1080 pixels

1.4 Vecteurs

Son stro

HDTV
1920 pixels
30deg. Son 5.1

3.0hauteur de l'image

4/8hauteur de l'image

Super Hi-Vision

Son 5.1, 7.1


16 canaux disponibles
55deg.

1.5hauteur de l'image

7680 pixels
4320 pixels

2160 pixels

Digital Cinema
4096 pixels

Son 22.2
100deg.
0.75hauteur de l'image

Figure1.2volution de la relation dfinition dimage, angle de vision, distance de vision et


dispositif de diffusion sonore, B.Priaux daprs une publication NHK.

1.3.4 Meilleure intelligibilit, extension de la bande passante, interaction


avec le corps
Le format5.1 apporte une meilleure intelligibilit du signal grce une rpartition
des sources sur six canaux. La voix, par exemple, peut tre positionne dans le centre
avec trs peu deffet de masque: les ambiances, les effets, les bruitages et la musique
occupent toutes les directions. Le subwoofer tend la bande passante vers le bas. Le
grave est alors entendu et ressenti aussi par le corps de lauditeur.

Dunod Toute reproduction non autorise est un dlit.

1.4

Vecteurs
Il existe aujourdhui de nombreux vecteurs du son multicanal, le principal et le plus
ancien tant le cinma.

1.4.1 Le cinma: passage au numrique, installations son 3D Barco


Auro-3D et Dolby Atmos
La plupart des films sortent en salle au format5.1 en Dolby ou DTS et7.1 pour le format Sony SDDS. Le passage au cinma numrique relance le march par les nouvelles
technologies et ravive lintrt pour la spatialisation. Seize canaux audio ont t penss
pour la norme DCP (Digital Cinema Package) qui quipe les salles numriques. La
diffusion du son se fait alors directement en fichiers PCM.

14

Chapitre1 Gnralits

Le march de limage 3D relance aussi le dveloppement du multicanal en imposant


son nouveau format7.1 dployant quatre canaux sur la couronne de haut-parleurs surround. Les autres technologies comme la WFS, lAuro-3D, le Dolby Atmos surpassent
les normes et multiplient les canaux. La salle de cinma de demain sera peut-tre quipe de vingt, trente ou quarante canaux, Dolby Atmos limitant le rendu soixantequatre hautparleurs.

1.4.2 La TVHD, lUHDTV et le Super Hi-Vision


La TVHD est lance entre2000 et2005, elle utilise la technologie Dolby. Certaines
chanes HD diffusent en Dolby Digital5.1 des programmes de sport, des films, des
documentaires ou des concerts. Le sport a rellement t un programme clef pour le
multicanal depuis les jeux olympiques dAthnes en 2004, diffuss en5.1. La HD et
le5.1 ont relanc le march de la tlvision avec la vente dcrans plats HD et de homecinmas. Le film peut maintenant tre diffus en qualit cinma sur une chane HD.
Les crans de tlvision de plus en plus fins ne permettent plus dintgrer un son de
bonne qualit, si bien quil devient ncessaire dinvestir dans un home-cinma et utiliser linterface HDMI, pratique pour vhiculer le son. Aujourdhui en exprimentation
en France, la TV 3D sollicite la cration de chanes 3D telles quOrange 3D ou Canal
Plus 3D (Arte se lance aussi dans la production de programmes 3D), bien que lintrt
du particulier pour la stroscopie chez lui ne soit pas encore concret. La raison est
certainement la fatigue prouve par le spectateur et son manque de confort car la
notion de profondeur dans limage est sans aucun doute accepte par tous comme une
amlioration du rendu visuel. LUHDTV (Ultra High Definition TV) utilise un format
4K pour limage et des tudes sur son format audio 9.1 ou 10.1 sont en cours. LUHDTV
8K ou Super Hi-Vision saccompagne du 22.2. La NHK prvoit des essais de diffusion
audio 3D 22.2 pour les jeux olympiques de 2016 afin de valider une diffusion satellite
pour 2020. LATSC 3.0 tudie galement les possibilits de diffusion dun son 3D.
1.4.3 La radio numrique
La radio numrique permet de diffuser le son en5.1 travers le DAB, le DAB+ et le
DMB. En Europe, le DAB+ est le standard le plus probable. En France le DAB+ semble
en bonne voie bien que le DMB reste une technologie possible. Certains pays europens
comme la Suisse, le Danemark, la Sude, lAngleterre ou la Norvge diffusent en DAB+.
Certains constructeurs de voitures quipent leurs vhicules de rcepteurs DAB.
1.4.4 Les supports Blu-ray, DVD, SACD
Les supports DVD et Blu-ray reprsentent un autre march pour le multicanal, ils
proposent gnralement un son en5.1. Le film a lanc le march du DVD suivi par
le live. Les supports son uniquement en5.1 pour la musique sont trs peu connus du
public et seuls quelques diteurs de musique classique et de jazz sortent aujourdhui
des SACD, DVD ou Pure Audio Blu-ray en5.1. Une version 4K du Blu-ray, lultra HD

1.4 Vecteurs

Blu-ray, est prvue pour la fin 2015 et diffrents codecs audio 3D comme le Dolby
Atmos, lAuro-3D, le DTS-UHD ou le MPEG-H 3D pourraient tre intgrs.
La voiture est aussi un march en dveloppement pour ces supports: des installations
en5.1 sont proposes avec les formats Dolby, DTS ou Auro-3D. En 2015, les premiers
modles haut de gamme sont quips en son 3D, cest le cas de Audi pour son Q7, BMW
X5, Mercedes ML Class ou Volvo XC90.

1.4.5 Le jeu vido


Le jeu vido profite de lvolution technologique des supports. Les rendus sonores des
moteurs de programmation des jeux sont raliss en5.1. Linteractivit du jeu vido,
notamment les jeux de rles, rend la spatialisation du son vidente. Les PS3, PS4 et la
Xbox sont compatibles avec le format5.1, gnralement en Dolby Digital (la Wii est
stro et compatible Dolby Surround). On trouve le plus souvent une version Dolby
Digital et DTS sur les jeux PS4.

Dunod Toute reproduction non autorise est un dlit.

1.4.6 La salle de spectacle, le thtre, la retransmission dopras au cinma


La sonorisation utilise de plus en plus frquemment un canal de diffusion central et,
dans certains spectacles, plus rares, des canaux arrire. Des artistes comme YannTiersen, MatthieuChedid, Jean-MichelJarre, ont dj expriment la sonorisation de leurs
concerts en multicanal. La retransmission dopras en direct dans les salles de cinma
devient de plus en plus frquente, mme si le rendu sonore nest pas idal. Nanmoins,
de nouveaux systmes de diffusion son 3D comme lAuro-3D ou le Dolby Atmos apparaissent et amliorent considrablement la qualit de restitution. Par ailleurs, de nombreuses exprimentations en WFS ont marqu lanne 2011, notamment en France
lIrcam, au thtre du Chtelet, lInstitut du Monde Arabe et France Tlvisions. La
WFS permettra sans aucun doute damliorer la qualit du son dans ce type de lieux
et peut tre aussi dans les salles de cinma. Ces technologies de spatialisation permettront de diffuser des programmes et des spectacles plus diversifis, avec une meilleure
compatibilit sur le contenu sonoris (film, musique, thtre).
1.4.7 Internet
Internet est aujourdhui un lieu de convergence des technologies multimdias: ainsi
se ctoient les chanes de tlvision, les radios, les plateformes de diffusion YouTube et
dailymotion. De nouvelles formes dcriture mergent telles que le web documentaire,
le podcast, avec de nouveaux types de diffuseurs webradios et webTV. La plupart des
chanes de tlvision proposent aujourdhui la rediffusion de leurs programmes ainsi
que le flux en direct sur leur site internet. Les radios proposent le mme type de service
grce des lecteurs multimdias sur leurs sites dont la base de donnes est alimente par
le flux en direct et les podcasts. Internet permet aussi plus facilement linteractivit: le
spectateur choisit alors son programme travers sa navigation. Les vidos HD, notamment les bandes annonces des films, ont lanc la diffusion Internet en5.1 sous forme de
vidos QuickTime HD disponibles en tlchargement ou en streaming. Aujourdhui il

15

16

Chapitre1 Gnralits

existe mme des webradios qui diffusent en5.1: NouvOson, Concertzender, Antenne
Radio, Rock Antenne, les radios sudoises et norvgiennes mettent disposition leurs
programmes sous forme de fichiers Dolby Digital ou DTS tlchargeables. Il faut savoir
que les applications comme iTunes, QuickTime, VLC player ou Windows Media Player
sont compatibles5.1. Un simple lien vers ces applications permet de lire un fichier5.1.
Depuis peu, le langage HTML5 est directement compatible avec les fichiers5.1. Il suffit
denvoyer le flux constitu des six canaux vers un ampli home-cinma via une interface
HDMI ou une carte son pour profiter du son5.1. Aussi, depuis que les crans de tlvision se connectent au rseau Internet, la diffusion de contenus HD avec un son5.1 par
linterface HDMI devient directement accessible.

1.4.8 Le tlphone mobile, la tablette numrique


Enfin, le tlphone mobile et la tablette numrique peuvent diffuser un son5.1 par le
biais de linterface HDMI. Ce sont des lecteurs mobiles qui contiennent nos librairies
de photos, de sons, de vidos, de films. Le particulier peut diffuser par exemple un film
en HD avec un son AAC ou Dolby Digital grce au procd Dolby mobile depuis son
tlphone portable, sur iOS ou Androd, et le diffuser directement en5.1 via linterface
HDMI. Progressivement, des procds de son binaural sont proposs dans ces lecteurs
multimdias. On peut imaginer que, dans une dizaine dannes, lcoute au casque
sera sans doute spatialise.

1.5

Problmatiques
Lapprentissage du multicanal met en vidence plusieurs problmatiques: la matrise
du systme dcoute, la dfinition dune image sonore en multicanal, des concepts nouveaux de mixage et de prise de son, la gestion de metadata pendant le mixage telle que
le downmix stereo, la mesure du loudness (aujourdhui prsente aussi pour la stro),
les profiles de compression Dolby, et la diffusion.

1.5.1 Le systme dcoute


La matrise du systme de monitoring est primordiale car lexploitant doit pouvoir le
diagnostiquer assez rapidement avant de dmarrer son travail.
1.5.2 Limage sonore multicanal
Limage sonore multicanal est une nouvelle coute. Les programmes en5.1 ont dj
trouv leurs points de repres: le film a dvelopp son langage, ainsi que le sport, la
musique classique, la fiction radio, la fiction TV, le documentaire ou la musique acousmatique. Tous les types de production qui se prtent la spatialisation ont aujourdhui
leur esthtique. Mais il existe bien des contraintes et des subtilits dans lapprentissage
de cette nouvelle image sonore qui seront abordes aux chapitres3 et 4.

1.6 Les

diffrentes techniques de spatialisation

1.5.3 La prise de son spatialise


La captation multicanal utilise des systmes composs de quatre ou cinq microphones.
Ces derniers permettent de prendre une photo trs raliste de lenvironnement: ils
dcoupent lespace en diffrents secteurs et utilisent, pour certains, des procds de
matriage souvent complexes. Leur dploiement dans les productions est souvent
difficile, ce qui ncessite une mthode de travail particulire en fonction des diffrentes
applications.
1.5.4 Des concepts de mixage nouveaux
De nouveaux concepts de mixage simposent. Le mixeur utilise des outils de spatialisation, des outils de management de pistes ou dobjets multicanal, il gre des rverbrations multicanal, des algorithmes multicanal de traitement dynamique et des procds
de downmix et dupmix. Par ailleurs, le mixage objets apparat travers les procds de
diffusion son 3D pour la salle de cinma ou la WFS. Cest encore une nouvelle approche
de mixage.
1.5.5 La diffusion, les metadata, le mixage Dolby
La diffusion de metadata type Dolby pour les chanes TVHD demande au mixeur un
travail supplmentaire. Ce dernier doit les renseigner pendant le mixage: il mesure
alors le loudness du programme, simule le downmix stereo et optimise le traitement
dynamique par le biais des profiles de compression DRC (Dynamic Range Control).
Ces metadata accompagnent le transport du signal dans le Dolby E jusqu la diffusion Dolby Digital. On utilise aussi le DTS ou le Dolby pour les supports DVD/
Blu-ray et dautres codecs types AAC pour la diffusion radio DAB+ et le streaming
sur Internet. Il existe aujourdhui un grand nombre de procds qui permettent de
diffuser un son multicanal adapt la TV, la radio, au support, Internet ou la salle
de cinma. On assiste donc une relle volution des mtiers, associe de nouvelles
comptences.

Dunod Toute reproduction non autorise est un dlit.

1.6

Les diffrentes techniques de spatialisation


Il existe diffrentes techniques de spatialisation qui ont toutes leurs avantages et leurs
inconvnients. On peut les classer en quatre familles: la Strophonie ou Multichannel
Stereo, les techniques ambisoniques, la WFS (Wave Field Synthesis) et les techniques
binaurales.

1.6.1 Strophonie ou Multichannel Stereo


On dfinit par Strophonie ou Multichannel Stereo (channel oriented ou direct
speaker), les techniques qui reposent sur une dcomposition de lespace en canaux
discrets. Chaque canal est diffus directement sur un haut-parleur (certains formats
diffusent le mme canal vers une couronne denceintes, pour la salle de cinma, par

17

18

Chapitre1 Gnralits

exemple). On trouve alors gnralement une correspondance exacte entre le nombre


de canaux du mixage et le nombre de haut-parleurs de diffusion. Dans ce groupe
on classe tous les formats discrets diffuss en stro, 4.1,5.1, 6.1,7.1, 9.1, 10.2, 11.1,
13.1, 22.2 etc.

1.6.2 LAmbisonie (scene oriented)


Les techniques ambisoniques (Ambisonics) reposent sur une dcomposition mathmatique de lespace en harmoniques sphriques. Ces harmoniques vont de lordre 1
des ordres plus levs comme lordre 3, 4 ou 5. Cette technique encode le son en composantes spatiales suivant laxe x, y et z du repre cartsien, appeles format B, indpendantes du dispositif de restitution. Les signaux du format ambisonique nalimentent
pas directement les enceintes, mais transportent linformation directionnelle dun
champ sonore, cest pourquoi on utilise le terme scene oriented. Le format ambisonique dordre 1, appel format B Soundfield, contient les composantes bidirectionnelles
du repre cartsien de lespace X, Y, Z et linformation omnidirectionnelle W. De ce
format cod, on peut extraire un format5.1, 6.1,7.1, etc. Les ordres suprieurs (High
Order Ambisonics) apporteront une meilleure rsolution spatiale dans la restitution.
1.6.3 La WFS
Les techniques WFS (Wave Field Synthesis) reposent sur la dcomposition du champ
sonore en une multitude de sources ponctuelles, elle est base sur le principe physique
dHuygens. Les haut-parleurs multiples, agissant comme des sources sonores ponctuelles issues de microphones placs en ligne, reproduiraient alors une copie conforme
du son dorigine dans la zone dcoute. La restitution du champ sonore est faite par
synthse du front donde.
scne
source
onde sonore directe
ligne de microphones
canaux lectriques
source virtuelle
ligne de haut-parleurs
ondes de source
ponctuelle individuelle
onde sonore
unique rsultante
O2

auditorium

O1

Figure1.3Principe de la WFS, Snow.

1.6 Les

diffrentes techniques de spatialisation

1.6.4 Le binaural
Les techniques binaurales permettent de reproduire un espace au casque strophonique. Il existe des techniques de prise de son binaurales utilisant des ttes artificielles,
des mannequins ou le preneur de son lui-mme, comme il existe des techniques de
synthse binaurale reposant sur les fonctions de transfert HRTF (Head-Related Transfert Functions) et sur la simulation dun champ acoustique. Ces techniques sont mises
contribution pour les casques multicanal ou pour la diffusion multicanal compatible
binaurale.
1.6.5 Les objets (object oriented)
Tout mixage est gnralement port par un format multicanal strophonique que
lon dfinit par un nombre de canaux de diffusion (par exemple six pour le5.1). Ce
type de spatialisation noffre pas de compatibilit simple entre formats, car la manipulation de la scne sonore quil dfinit est limite. On trouve cependant des solutions
de downmix et dupmix acceptables. Aujourdhui, ce type de multicanal offre un bien
grand nombre de formats. Se pose alors la question de compatibilit dun programme
spatialis avec les diffrents dispositifs de diffusion. Dans lapproche objet, chaque
source est dfinie par une piste et son information spatiale peut alors tre positionne
dans lespace dans nimporte quel format multicanal de diffusion. Ce procd simplifie la reprsentation de lespace mais impose au processeur de diffusion dintgrer un
module de spatialisation avec simulation de leffet de salle ou bien de coder la rverbration par objets.

Dunod Toute reproduction non autorise est un dlit.

Lapproche objet est utilise dans la WFS et dans les nouveaux procds de diffusion
cinma tels que le Dolby ATMOS ou le MDA. On la trouve aussi dans le codage spatial
MPEG4, MPEG7, MPEG-H 3D.

Figure1.4Application Dolby Atmos Monitor, Dolby. Encouleursurdunod.com

19

20

Chapitre1 Gnralits

Le tableau suivant prsente une synthse des techniques de spatialisation.


Techniques de
spatialisation

1.7

Les signaux
enregistrs

Manipulation
de la scne
encode

Dispositif de
restitution

Strophonie,
channel
oriented
(2.0,5.1,7.1,
10.2, Auro-3D
13.1, 22.2, etc.)

gnralement
1 signal par
enceinte

limite, scne
sonore fige

fixe, li au
format

Ambisonie,
scene
oriented
(Soundfield,
HOA) ordre m,
composantes

3D: (m+1)2

globale
(rotation,
distorsion de
perspective)

adaptable,
indpendant
du format

WFS

objets +
metadata de
localisation

chaque source
peut tre
traite de faon
indpendante

synthse du
front donde

Objets, object
oriented
(Dolby Atmos,
MDA, MPEG-H
3D, MPEG 4,
MPEG7)

objets +
metadata de
localisation

chaque source
peut tre
traite de faon
indpendante

adaptable,
indpendant
du format

Binaural

2 signaux L, R

limite, scne
sonore fige

casque stro

2D: 2m+1

dispositif
adaptable,
indpendant
du format
(objets)

Formats multicanal
Quappelle-t-on format multicanal ? Ici, il sagit de dfinir le type dinstallation
sonore spatialise, la configuration tant souvent lie un procd de codage. Ainsi,
les codages5.1 Dolby Digital ou DTS utilisent les configurations normes5.1 ITU-R
BS775-1 ou5.1 cinma dfinies au chapitre2. Les industriels dveloppent gnralement
leurs propres formats bien avant la normalisation: cest le cas aujourdhui, notamment
avec le7.1 qui ne correspond pas une norme. Cest pourquoi on trouve de nombreuses
dispositions denceintes. Deux types dinstallations se distinguent: lcoute cinma
et lcoute broadcast/home-cinma. Le tableau de la figure1.5 donne une vision de
lensemble des configurations, de la quadriphonie la WFS.

1.7 Formats

21

multicanal

Canaux de
Diffusion
plan horizontal Fr/
Side/Rear Sub
plan suprieur
Fr/Side/Rear/Top
plan infrieur
Fr Sub

Nom du Format

Quadriphonie 4.0

Codage de
diffusion

4.0
L R 45
Ls Rs 135

2/2

LRLsRs

Dolby Surround LtRt

3/2 + Sub

LCRS

Dolby
Surround
LtRt

5.1 discret
C 0
L R 30
Ls Rs 110

3/2 + Sub

LCRLsRsLfe

Dolby Digital,
DTS,
Mpeg

5.1 option 4
enceintes arrire
ITU-R BS 775-1
&2

5.1
C 0
L R 30
Ls1/Ls2 Rs1/Rs2
entre 60 et 150

3/4 + Sub

LCRLsRsLfe

5.1 amlior
Gnther Theile

5.1
Ls1/Ls2 Rs1/Rs2
entre 60 et 150

3/4 + Sub

LCRLsRsLfe

5.1 Cinma

5.1
Ls et Rs sur
couronne arrire

3/2 + Sub

LCRLsRsLfe

Dolby Digital,
DTS

6.1 Cinma

6.1
Cs centre arrire

3/2/1 + Sub

LCRLsRsCsLfe

Dolby Digital
EX, DTS
ES

6.1/7.1 IMAX
Cinma

6.1/7.1
Ls et Rs sur
couronne arrire
FH hauteur frontal

3/2/1 + Sub

LCRLsRsCsLfe

FH

7.1 SDDS Cinma

7.1
5 canaux en frontal

5/2 + Sub

LLcCRcRLsRsLfe

SDDS

7.1 Cinma 3D

7.1
2 canaux latraux
Ls Rs
2 canaux arrire
BsL BsR

3/2/2 + Sub

LCRLsRsBsLBsRLfe

Dolby
Surround 7.1

7.1 Blu-ray Dolby

7.1
latraux Ls Rs
90
Lb et Rb 150

3/2/2 + Sub

LCRLsRsLbRbLfe

Dolby Digital
TrueHD

5.1 ITU-R BS
775-1 & 2

Dunod Toute reproduction non autorise est un dlit.

Canaux de Mixage

7.1 Dolby IIx

Figure1.5Les diffrents formats en multicanal (Suite).

Dolby
Surround IIx

22

Chapitre1 Gnralits

Canaux de
Diffusion
Nom du Format

7.1 Blu-ray DTS

plan horizontal Fr/


Side/Rear Sub
plan suprieur
Fr/Side/Rear/Top
plan infrieur
Fr Sub

Canaux de Mixage

Codage de
diffusion

7.1 Wide
Lw Rw 60

5/2 + Sub

LCRLwRwLsRsLfe

DTS Master
Audio

7.1 Side
Lss Rss 90

3/2/2 + Sub

LCRLssRssLsrRsrLfe

DTS Master
Audio

7.1 Front Height


LH RH 30

3/2 + Sub
2

LCRLsRsLfe
LHRH

DTS Master
Audio

7.1 Height Side


LHS RHS 90

3/2 + Sub
2

LCRLsRsLfe
LHSRHS

DTS Master
Audio

7.1 110/150
Side 110
Ls Rs 150

3/2/2 + Sub

LCRLssRssLsrRsrLfe

DTS Master
Audio

5.1 ou 7.1 75/120


Hauteur 4 canaux
+45 dlvation
0, 90, +90, 180

3/2/2 + Sub

LCRLmRmLs

1/2/1

RsLfe

8.1 8 secteurs
gaux de 45
LR 45
Lss Rss 90
Lsr Rsr 135
CS 180

3/2/3 + Sub

9.1 Dolby
Surround IIz

9.1 Side 90
Front Height 30
arrires 150

3/2/2 + Sub
2

LCRLsRsLfeLrsRrs
LvhRvh

Dolby
Surround IIz
9.1

Auro-3D
Home-Cinma/
Studio

9.1
Front Height 30
Rear Height 110
Tilt de 30

3/2 + Sub
2/2

LCRLsRsLfe
FlhFrhRlhRrh

Auro-3D
Octopus

10.1
Front Height 30
Rear Height 110
Tilt de 30
Top TH

3/2 + Sub
2/2/1

LCRLsRsLfe
FlhFrhRlhRrhTH

Auro-3D
Octopus

7.1, 9.1, 11.1


selon
Mike Williams
8.1
Musique
acousmatique
format
octophonique

Hc,Hl,Hr,Hb
LCRLssRssLsr
RsrCsLfe

Figure1.5Les diffrents formats en multicanal (Suite).

1.7 Formats

23

multicanal

Canaux de
Diffusion
plan horizontal Fr/
Side/Rear Sub
plan suprieur
Fr/Side/Rear/Top
plan infrieur
Fr Sub

Nom du Format

Canaux de Mixage

Auro-3D

11.1

3/2 + Sub

LCRLsRsLfe

Cinma

hauteur centre

3/2/1

FlhHCFrhRlhRrh

frontal HC

Codage de
diffusion

Auro-3D
Octopus

TH

Top TH
12.1

3/2/1 + Sub

LCRLsRsCSLfe

arrire centre CS

3/2/1

FlhHCFrhRlhRrh

13.1

3/2/1 + Sub

LCRLsRsCS

hauteur arrire

3/2/1/1

Lfe

Auro-3D
Octopus

TH
Auro-3D
Octopus

FlhHCFrhRlhRrh

centre HRC

THHRC
10.2 T. Holman

10.2

5/2/1 + 2 Sub

LCRLwRwLsRs

LH et RH 45
horizontal

CSLLfeRLfe
LhRh

tilt de 45
11.1 DTS Neo X

11.1

5/2/2 + Sub

LCRLwRwLss

Lw Rw 60

Rss(ouLsRs)Lsr

Lss Rss 90

Rsr

Ls Rs 110

LhRh

DTS Neo X

Lsr Rsr 150


Lh Rh 30
22.2 NHK

22.2 3 couches

5/2/3

horizontale
suprieure

FLFLcFCFRcFR
SiLSiRBLBCBR

3/2/3/1

TpFLTpFCTpFR
TpSiLTpSiRTpBL

Dunod Toute reproduction non autorise est un dlit.

TpBCTpBRTpC
infrieure

3 + 2 Sub

14.1 ou 23.1

3/6/2 + 2 Sub

plafond

3/5

suprieure

BtFLBtFCBtFR
Lfe1Lfe2

Imm Sound
(Dolby)
Cinma

horizontale
latraux et arrire
sur couronne
infrieure
Figure1.5Les diffrents formats en multicanal (Suite).

Mixage
objets

24

Chapitre1 Gnralits

Canaux de
Diffusion
Nom du Format

Dolby ATMOS
Cinema

plan horizontal Fr/


Side/Rear Sub
plan suprieur
Fr/Side/Rear/Top
plan infrieur
Fr Sub

Canaux de Mixage

64 HP Max

2 ranges dans la

Bed 7.1 :

2 couronnes

longueur

LRCLfeLssRssLsrRsr

suprieures

5 frontal/cts
variable/arrires
variable

Bed OH : LTsRTs

horizontale

Codage de
diffusion

Mixage
objets

Objets 1-118

1 Sub avant centre


et 2 Sub arrire

Dolby ATMOS
Audi montage,
Local renderer

9.1

LRCLfeLssRss
LsrRsrLtsRts

11.1
(1 side, 1 back, 2
top per side)

LRCLfeLssRss

11.1
(2 side, 1 back, 1
top per side)

LRCLfeLss1Lss2

13.1
(2 side, 1 back, 2
top per side)

LRCLfeLss1Lss2

13.1
(2 side, 2 back, 1
top per side)

LRCLfeLss1Lss2

15.1
(2 side, 2 back, 2
top per side)

LRCLfeLss1Lss2

LsrRsrLts1Lts2
Rts1Rts2
Rss1Rss2LsrRsrLts
Rts
Rss1Rss2LsrRsrLts1
Lts2Rts1Rts2
Rss1Rss2Lsr1Lsr2
Rsr1Rsr2LtsRts
Rss1Rss2Lsr1Lsr2
Rsr1Rsr2Lts1Lts2
Rts1Rts2

15.1
(3 side, 1 back, 2
top per side)

LRCLfeLss1Lss2
Lss3Rss1Rss2Rss3
LsrRsrLts1Lts2Rts1
Rts2

Figure1.5Les diffrents formats en multicanal (Suite).

Mixage
objets

1.7 Formats

25

multicanal

Canaux de
Diffusion
plan horizontal Fr/
Side/Rear Sub
plan suprieur
Fr/Side/Rear/Top
plan infrieur
Fr Sub

Nom du Format

Dolby ATMOS
Home

34 HP Max

Canaux de Mixage

24 couche medium
10 plafond

Codage de
diffusion

Mixage
objets

5.1.2
5.1.4
7.1.2
7.1.4
9.1.2
ITU-R BS 2051
Advanced Sound
Systems

49.2

16 Couche infrieure

3 couches

16 Couche medium
16 Couche suprieure
+ 1 top
2 Sub gauche et
droite

WFS

couronnes

Cinma, Salle de
spectacle

denceintes

Mixage
objets

nombre trs variable


de HP entre 25 et 200
Couches medium et
suprieure possibles
Figure1.5Les diffrents formats en multicanal.

Dunod Toute reproduction non autorise est un dlit.

1.7.1 Quadriphonie
Le format quadriphonique dfinit une configuration de quatre enceintes places sur
un carr. Les enceintes frontales sont disposes 45 et celles de larrire 135.

Figure1.6 Le format de la Quadriphonie.

26

Chapitre1 Gnralits

1.7.2 5.1 ITU


La norme5.1 Broadcast ITU-R BS 775-1 est prconise pour la plupart des contenus5.1
autres que ceux diffuss en salle de cinma. Elle est utilise par les principaux codages,
Dolby Digital et DTS.

Figure1.7 La norme5.1 Broadcast ITURBS7751.

1.7.3 LCRS Dolby Surround (TV, home-cinma)


Le Dolby Surround est un codage lorigine pour le format de mixage quatre canaux
LCRS. Il utilise la norme5.1 ITURBS7751 et est destin la tlvision et au homecinma. Le canal de mixage S alimente les deux voies arrire Ls et Rs.

Figure1.8 Format Dolby Surround.

1.7 Formats

multicanal

1.7.4 5.1 ITU 4 enceintes arrire


Il existe dans les normes ITU-R BS 775-1 et 2 une configuration optionnelle avec quatre
enceintes larrire. Les enceintes arrires, Ls1, Ls2, Rs1, Rs2, sont positionnes entre
60 et 150, de part et dautre du centre. Ces enceintes couvrent donc sur larrire deux
zones de 90. La norme mentionne les possibilits de rglage de dcorrlation des
enceintes ainsi que le dlai entre elles, recommands pour les grandes installations.
En revanche, aucun matriage entre les canaux Ls1/Ls2 et Rs1/Rs2 nest propos.

Figure1.9 Format5.1 avec 4 enceintes larrire, en option dans la norme ITURBS7751&2.

Dunod Toute reproduction non autorise est un dlit.

1.7.5 5.1 amlior GntherTheile


Le 5.1 amlior, prconis par Gnther Theile (IRT), reprend la configuration
optionnelle: quatre enceintes arrire ITURBS7751, et utilise un matriage entre les
canaux L/Ls et R/Rs pour alimenter respectivement lenceinte Ls1 et lenceinte Rs1. Ce
matriage dcorrle les canaux arrire, il apporte ainsi un meilleur rendu spatial et
augmente la zone dcoute. Les quatres enceintes arrire pourraient tre places entre
60 et 150.

Figure1.10 Format5.1 amlior avec quatre enceintes larrire prconis par Gnther Theile.

27

28

Chapitre1 Gnralits

1.7.6 5.1 cinma


La configuration5.1 type cinma (ISO 2969/1987(E) / SMPTE ST202-2010) dispose les
trois enceintes frontales identiques, alignes derrire lcran et une couronne denceintes pour le surround, dont le nombre diffre en fonction de la taille de la salle ou
de lauditorium cinma.

Figure1.11 Format5.1 pour la salle de cinma.

Figure1.12 Recommandation Dolby homecinma5.1, Dolby.


(1) position dcoute; (2) enceintes frontales gauche et droite; (3) enceinte centrale;
(4) angle des enceintes frontales gauche et droite; (5) subwoofer;
(6) enceintes arrire gauche et droite.

1.7 Formats

29

multicanal

1.7.7 5.1 cinma Dolby Stereo


La diffusion LtRt en salle de cinma utilise la mme disposition denceintes dans la
salle que la configuration5.1 cinma, les enceintes Ls et Rs tant alimentes par le
canal surround S.

Figure1.13 Format5.1 Dolby Stereo pour la salle de cinma.

Dunod Toute reproduction non autorise est un dlit.

1.7.8 6.1 cinma


La configuration cinma 6.1 ajoute un canal central arrire supplmentaire, appel CS
(Center Surround). Cette configuration est utilise par les codages Dolby Digital EX et
DTS ES.

Figure1.14 Format6.1 cinma.

30

Chapitre1 Gnralits

1.7.9 6.1, 7.1 IMAX


Le format IMAX est un format pour les grandes salles de cinma, il utilise la configuration cinma5.1, laquelle on ajoute un canal de hauteur H, intgr au plafond gnralement dans le frontal et un canal arrire pour le7.1 IMAX. La Gode est quipe en
OMNIMAX avec un format 12.4 labor par la socit Cabasse, il rajoute des enceintes
au-dessus et en dessous des spectateurs.

Figure1.15 Format7.1 IMAXcinma.

1.7.10 7.1 cinma SDDS


Le SDDS est un format cinma7.1 qui ajoute deux enceintes supplmentaires frontales
15 de part et dautre du centre. On obtient ainsi cinq enceintes identiques, alignes
derrire lcran. La couronne denceintes pour le surround ne change pas.

Figure1.16 Format7.1SDDScinma.

1.7 Formats

31

multicanal

1.7.11 7.1 cinma image 3D: DTS, Dolby Surround7.1


Dolby et DTS prconisent une configuration7.1 pour le cinma avec image 3D. Elle utilise des canaux supplmentaires appels Side (Side Left et Side Right) qui alimentent les
enceintes surround 90. Les canaux surround BsL et BsR alimentent la partie arrire
de la couronne surround.

Figure1.17 Format7.1 cinma 3D.

Dunod Toute reproduction non autorise est un dlit.

1.7.12 7.1 Blu-ray Dolby


Dolby prconise une disposition 7.1 pour le Blu-ray qui reprend la norme
ITU-R BS 775-1 en la modifiant pour disposer larrire deux enceintes Side (Side Left
et Side Right) Ls et Rs 90, et deux enceintes arrires BsL et BsR 150.

Figure1.18 Format 7.1 Blu-ray Dolby.

32

Chapitre1 Gnralits

Figure1.19 Recommandation Dolby homecinma7.1, Dolby.


(1) position dcoute; (2) enceintes frontales gauche et droite; (3) enceinte centrale; (4) angle
des enceintes frontales gauche et droite; (5) subwoofer; (6) enceintes arrire gauche et droite;
(7) enceintes arrire LB et RB.

1.7.13 7.1 Blu-ray DTS


DTS communique sur sept dispositions possibles pour le7.1 du Blu-ray, dont trois
principales : Wide, Side et Front Height reprsentes sur le schma 1.20.

Figure1.20 Format7.1 Blu-ray DTS, configurations principales, B.Priaux daprs DTS

1.7 Formats

33

multicanal

Wide
La configuration Wide utilise la disposition ITU5.1 et rajoute deux enceintes frontales
larges, LW et RW, disposes 60.

Figure1.21Format7.1 Blu-rayDTS, configuration Wide.

Side
La configuration Side dispose deux enceintes Side, SL et SR, 90, accompagnes des
enceintes surround Ls et Rs 150.

Dunod Toute reproduction non autorise est un dlit.

Figure1.22Format7.1 Blu-ray DTS, configuration Side.

Figure1.23Format7.1 Blu-ray DTS, configuration Height.

34

Chapitre1 Gnralits

Front Height
La configuration Front Height reprend la norme5.1 ITU laquelle on ajoute deux
enceintes de hauteur, LH et RH, disposes 30.
Il existe quatre autres configurations DTS7.1:
la configuration disposant deux enceintes de hauteur sur le latral, appeles Left
Height Side et Right Height Side, 90, et compltes par la configuration ITU
pour la couche horizontale;
la configuration 110/150 pour les quatre canaux arrire;
la configuration ITU avec un Centre arrire CS et une enceinte de hauteur juste audessus de la tte appele COH (Center Over Head);
la configuration ITU avec une enceinte de hauteur dans le frontal, appele CH (Center Height) et un canal central Surround CS.

1.7.14 7.1, 9.1, 11.1 selon recommandation de Mike Williams


Dans la configuration7.1 prconise par Mike Williams, les quatre enceintes surround sont disposes 75 pour les Side (Lm et Rm) et 120 pour les canaux Ls

Figure1.24 et1.25Formats7.1 75/120, 9.1, 11.1 prconiss par MikeWilliams, photo dune
disposition9.1 lINA, B.Priaux.

1.7 Formats

multicanal

etRs. Cest une configuration qui donne une bonne homognit de limage sonore,
et qui vite ainsi la direction 90 des latraux limitant la construction des images fantmes. Elle peut tre complte par quatre enceintes de hauteur dangle dlvation
+45, Hc 0 (Height Center), Hb +180 (Height Back), Hl -90 (Height Left) et
Hr +90 (Height Right). Cette disposition permet une restitution dlvation sur les
triangles isocles forms par une enceinte de hauteur (le sommet du triangle) et les
deux enceintes du bas correspondantes (la base du triangle). Cette disposition encore
en exprimentation donne des rsultats de localisation en hauteur performants.

1.7.15 8.1 Musique acousmatique octophonique


Les crations sonores de type musique acousmatique sont souvent spatialises au
format 8.1, constitu de huit enceintes rparties de faon homogne sur le cercle, tous
les 45. Les enceintes L, R sont 45, les latraux 90, les enceintes Ls et Rs
135 et le centre arrire CS 180. Cest une disposition trs symtrique mais sans
compatibilit stro.

Dunod Toute reproduction non autorise est un dlit.

Figure1.26Format8.1 pour la musique acousmatique, appel formatoctophonique.

1.7.16 7.1 Dolby Surround IIX, 9.1 Dolby Surround IIZ


Le Dolby Surround IIX utilise la configuration Blu-ray Dolby7.1, cest un matriage
sur deux canaux, de type LtRt. Le Dolby Surround IIz apporte la notion de hauteur au
format5.1:
en ajoutantdeux enceintes Left Height (LH) et Right Height (RH), disposes audessus des enceintes Left et Right, ce qui constitue alors un format7.1;
il peut aussi intgrer les deux canaux latraux placs 90, on parle alors de format Dolby Surround IIz 9.1.

35

36

Chapitre1 Gnralits

Figure1.27Format Dolby SurroundIIz9.1.

1.7.17 Auro-3D 9.1 ou 10.1 home-cinma/studio


La technologie Auro-3D a t dveloppe par Wilfried Van Baelen (des Studios Galaxy).
Elle intgre la notion de hauteur. La version home-cinma offre deux possibilits, un
format 9.1 construit partir de la norme5.1 ITU laquelle on ajoute:
quatre enceintes de hauteur, Left Height, Right Height, Rear Left Height Surround
et Rear Right Height Surround, au-dessus des enceintes L, R, Ls, Rs (les enceintes
de hauteur sont places avec un angle dlvation de 30 par rapport au plan horizontal);
il existe une option pour le Top Height (TH), plac au plafond et centr au-dessus
de lauditeur, elle complte alors linstallation en 10.1.

Figure1.28Format Auro3D9.1, configuration, Auro3D.

1.7 Formats

37

multicanal

Figure1.29Format Auro3D9.1 homecinma/studio.

Figure1.30Format Auro3D10.1 homecinma/studio.

Dunod Toute reproduction non autorise est un dlit.

1.7.18 Auro-3D 11.1, 12.1, 13.1 cinma


Trois versions sont proposes pour la salle de cinma:
lAuro-3D 11.1: il ajoute lenceinte Height Center (HC) place en hauteur, centre,
dans le frontal;
lAuro-3D 12.1: celui-ci rajoute lenceinte centrale arrire (Rear Center);
lAuro-3D 13.1: complte linstallation avec une enceinte centrale arrire, en hauteur (Height Rear Center).
Il existe aujourdhui quelques salles quipes. Le Dme UGCLaDfense est la premire
enFrance: elle est quipe en 20.1.

38

Chapitre1 Gnralits

Figure1.31Exemple dune salle quipe Auro3D en11.1, Auro3D. Encouleursurdunod.com

Figure1.32Format Auro3D13.1 cinma.

1.7.19 10.2 Tomlinson Holman


Tomlinson Holman (TMH Labs), crateur de THX, propose un format 10.2 qui repose
sur la norme5.1 ITU laquelle on ajoute:



deux enceintes Wide Left et Wide Right, 55;


une enceinte centrale arrire CS (Center Surround);
deux canaux Lfe: Left Lfe et Right Lfe, positionns 90;
deux enceintes de hauteur : Left Height et Right Height, places 45
avec 45 dlvation.

1.7 Formats

39

multicanal

Figure1.33Format10.2TomlinsonHolman.

1.7.20 11.1 DTS Neo X


DTS propose depuis 2011 le format DTS Neo X 11.1. Il repose sur la configuration5.1
ITU laquelle on ajoute:
deux enceintes Wide Left et Wide Right 60 ou deux enceintes latrales Left Side
Surround et Right Side Surround;
un canal centre arrire (CS);
deux enceintes de hauteur Left Height et Right Height, places 30.
Voir la figure1.20.

Dunod Toute reproduction non autorise est un dlit.

1.7.21 22.2 NHK (9/10/3.2)


Le format 22.2 de la NHK a t dvelopp pour accompagner le format Image 8K Super
Hi-Vision, dont les programmes sont diffuss pour une salle de cinma. Ce format est
compos de trois couches:
une premire couche horizontale constitue de dix enceintes, cinq frontales derrire
lcran, deux sur le latral 90 et 3 larrire;
une couche suprieure compose dune couronne de neuf: enceintes, trois en frontal, deux en latral, trois larrire et une enceinte centre, au plafond;
une troisime couche infrieure compose de trois enceintes derrire lcran, complte par deux canaux Lfe gauche et droite.

40

Chapitre1 Gnralits

couche
suprieure
9 canaux

cran

spectateurs
LFE

couche
intermdiaire
10 canaux

couche
infrieure 3
canaux 2 canaux
LFE

Figure1.34Format 22.2NHK, NHK.

Figure1.35Format 22.2NHK.

1.7.22 Imm Sound 23.1 ou 14.1 (Dolby)


Le procd de diffusion Imm Sound a quip les grandes salles de cinma, il permet la
restitution sur trois couronnes denceintes en 23.1 ou 14.1.
la couche suprieure est constitue de trois enceintes en frontal et de cinq enceintes
au plafond;
la couche horizontale est dfinie par trois enceintes en frontal (L, C, R), six canaux
rpartis sur dix enceintes pour les latraux et deux canaux arrire rpartis sur six
enceintes;

1.7 Formats

41

multicanal

la couche infrieure comporte trois enceintes en frontal compltes par deux


Subwoofer aliments par un seul canal Lfe.
Il existe aujourdhui une trentaine de salles quipes en Imm Sound, dont une en
France, Brumath (en Alsace). Ces salles devraient vraisemblablement tre transformes en Dolby Atmos.

1.7.23 Norme ITU-R BS 2051


La norme ITU-R BS 2051 a t pense pour un systme sonore avanc avec ou sans
image (Advanced sound system for programme production) au-del de la norme ITU-R
BS 775. Elle comporte trois niveaux denceintes, seize canaux pour la couche medium,
seize pour la couche du bas, dix-sept pour la couche du haut ainsi que deux canaux
LFE.
B+022
B+030

B+000

B022
B030

B+045

M+045

B045
B060

B+060
LFE2

M022
M030
M045
M060

M+060

LFE1

B+090

B090

B110

B+110

M+090

M090

M110

M+110

B135

B+135

M135

M+135

B+180

M+180

Couche infrieure 16 canaux intgrant


les subwoofers (canaux LFE)

Couche intermdiaire 16 canaux

U+022
U+030

U+000

U022
U030

U+045

U045
U060

U+060

U+090

Dunod Toute reproduction non autorise est un dlit.

M+000

M+022
M+030

T+000

U090

U110

U+110

U135

U+135

U+180

Couche suprieure 16 canaux + znith


(1 haut-parleur)

Figure1.36Norme ITURBS2051, ITU.

42

Chapitre1 Gnralits

1.7.24 Dolby Atmos


Dolby Atmos est un procd pour la diffusion en salle de cinma qui permet de grer
jusqu cent vingt-huit canaux et soixantequatre haut-parleurs. Le procd permet la
restitution de la hauteur mais sadapte aux diffrents formats du multicanal existants
comme le5.1 ou le7.1. Il intgre:
trois haut-parleurs frontaux derrire lcran (plus deux Lc Rc de part et dautre du
centre en option pour les crans de plus de 12mtres);
des haut-parleurs Side Surround, Rear Surround et Top Surround;
deux subwoofers qui viennent complter ceux placs au centre et en bas de lcran,
ils sont placs larrire de la salle, gauche et droite.
2 3 m. de distance

1/3 de la longueur
de la salle

enceintes additionnelles surround


enceintes Lc et Rc en option (grands crans)
subwoofers en option

Figures1.37 et1.38Configurations DolbyAtmos, Dolby. Encouleursurdunod.com

Il existe aussi les configurations Dolby Atmos Home, reprsentes sur la figure1.39.

Figure1.39Configuration DolbyAtmosHome7.1.4, Dolby.

1.8 tat

des lieux des marchs du multicanal

1.7.25 WFS
Le systme de diffusion WFS est constitu dune couronne denceintes places tout
autour de lauditeur, au minimum une trentaine, gnralement une centaine, parfois
disposes sur deux couronnes.

Figure1.40Dispositif multicanalWFS.

1.8

tat des lieux des marchs du multicanal

1.8.1 Statistiques

Dunod Toute reproduction non autorise est un dlit.

volution du home-cinma et de la HD
Il est difficile dobtenir des statistiques sur le multicanal et sur le nombre de foyers quips dans le monde. Nous avons plus de visibilit sur le nombre de lecteurs Blu-ray/DVD
ou sur le nombre dcrans Full HD vendus, qui reprsentent un certain potentiel en
taux dquipement. Le taux dquipement en home-cinma5.1 des foyers franais, au
deuxime trimestre 2009, est de 10 15%, celui du lecteur DVD est proche de 90%, et
celui du tlviseur compatible HD est autour de 40%. Aujourdhui, un tiers des foyers
franais est quip dun lecteur Blu-ray contre plus de la moiti en Angleterre et aux
tats-Unis.
Les oprateurs tlcoms ont un rle jouer sur lvolution technologique des quipements avec notamment le dveloppement des box compatibles TVHD quipes dune
interface HDMI.

volution du multimdia
Linterface HDMI qui permet la connexion lampli home-cinma rend le multicanal accessible.Elle quipe lordinateur, notamment toute la gamme Apple, via le port
thunderbolt ou directement HDMI, et, progressivement, la gamme des PC Portables et
des PC de bureau. On la trouve sur certaines tablettes numriques et sur certains tlphones mobiles et dans les consoles de jeu. Par ailleurs, les sorties numriques pour le
son cod transportes via linterface SPDIF (les sorties coaxiales ou mini-jack), la sortie

43

44

Chapitre1 Gnralits

optique Toslink ou bien les sorties analogiques individuelles sur connectique RCA, sont
aussi des solutions qui quipent la grande majorit des PC, en particulier pour les jeux.

1.8.2 Premier bilan de la TVHD


En janvier2009, lEBU publie un premier bilan de la TVHD dans lequel est expose
une analyse du march europen des crans platsHD, des contenus HD des chanes,
et diffuse une tude sur lvolution du dploiement de la tlvision dans le futur. Le
document rapporte que lanne 2008 a t importante pour la TVHD, du fait de lapparition dun certain nombre de facteurs qui ont contribu lessor de cette technologie.
La TVHD progresse en effet sur tous les fronts, de la production la distribution, en
passant par les appareils grand public, en particulier au Royaume-Uni et en France.
On rpertorie en 2014 une quarantaine de chanes HD europennes diffusant un
son5.1 et privilgiant les genres tels que le sport, le film, la fiction et le documentaire.
Le film est mix en5.1 pour la salle de cinma, une version5.1 compatible LtRt pour la
tlvision est gnralement disponible (voir chapitres6, 7 et8). Les grands vnements
sportifs sont capts en5.1, notamment les coupes du monde de football, de rugby, les
Jeux Olympiques (depuis ceux dAthnes en 2004), le tennis. Depuis quelques annes,
France Tlvisions produit certains matchs de Roland Garros en5.1: en 2011 trois
courts de tennis taient quips de systmes de prise de son multicanal. cette liste
sajoutent lUS Open, tous les matchs de football ligue 2 diffuss le lundi soir, la formule
1, le handball, la natation. Le match de football diffus sur Canal +chaque dimanche
soir est aussi produit en5.1. Les chanes de sport telles quEurosport ou Canal+diffusent en5.1 leurs gnriques et leurs bandes annonces.
France Tlvisions a dmarr la diffusion en Dolby Digital avec France 2 HD depuis
quelques annes. Le dpart antenne est aliment par un processeur dupmix de diffusion Isostem, la diffusion est depuis passe en Dolby Digital+. Ds la mise en route
du nouveau centre de diffusion prvue pour fin 2015, les quatre chanes nationales
France4, France2, France5 puis France3 devraient dmarrer leurs services5.1.
La diffusion5.1 des programmes sur Arte HD devrait progressivement dmarrer en
2015 essentiellement pour les fictions, les documentaires et les opras. La rgie de diffusion est quipe dun processeur Aeromax qui permet galement dupmixer un
programme stro. On trouve aussi quelques chanes de documentaires (National Geographic HD, Animal Planet HD, Discovery HD, BBC HD) et quelques chanes musicales
(MTV Live HD, NRJ12 HD, Deluxe Music, BravaHDTV). Dautres chanes europennes
diffusent en Dolby Digital5.1: BBC HD 1, 2 et 3, SKY 3D, BR Nord HD, BR Sud HD,
ORF2 HD, SF1 HD, NRK HD 1, 2, et 3, SVT 1 et 2 La chane BBC 3 a expriment
dbut 2014 une diffusion 4.0 sur leur site internet en HTML5 MPEG dash.
La France compte dbut 2014 une dizaine de chanes HD franaises diffusant un
son en5.1 gnralement en Dolby Digital 384kbps ou Dolby Digital + 256 kbps:
France2 HD, M6HD, Canal+HD, Arte HD, W9 HD, 6 Ter HD, Eurosport HD (diffusion5.1 pour ltranger), NRJ12 HD, Cin plus premier HD, TCM HD, Disney Channel

1.8 tat

des lieux des marchs du multicanal

HD. Cette liste est susceptible dtre modifie. cela sajoute la VOD HD, les box Free et
Bouygues Telecom supportent le DTS Neural. Il existe un site Digitalbitrate qui analyse
les diffrents flux des chanes HD (www.digitalbitrate.com) dont la figure 1.4 prsente
un exemple de mesures.

Figure1.41Exemple de mesure audio de la BBCHD sat Astra, Digitalbitrate.


Encouleursurdunod.com

La diffusion peut alterner entre programmes stro et5.1 ou bien tre en5.1 en continu,
le flux est alors gnralement issu dun processeur dupmix.

Dunod Toute reproduction non autorise est un dlit.

1.8.3 Perspectives sur la production radiophonique


En Europe, la diffusion dmissions radiophoniques en5.1 a t initie par les radios
norvgienne, sudoise, allemande et autrichienne. La radio norvgienne NRK diffuse
sur sa webradio des programmes5.1 disponibles en streaming. La radio sudoise
SR possde une page Internet webradio, sur laquelle elle met disposition des programmes en5.1, DTS ou Dolby Digital, que lutilisateur peut tlcharger et lire sur un
DVD. Certaines radios allemandes et autrichiennes diffusent en5.1 leurs programmes.
En France, avant larrive de la TVHD, Radio France a produit un certain nombre de
documentaires et de fictions radiophoniques. Ces premires exprimentations datent
des annes 1990, la radio produit aussi le son dopras films, dits en DVD et Blu-ray.
Depuis 2010, un retour la production multicanal se fait par le biais de magazines sur
France Inter comme Interception, dont quatre ditions ont t produites en multicanal
en 2011. Dautres exprimentations sont menes sur des festivals de musique comme
La Folle Journe de Nantes, les Vieilles Charrues, le festival dOrange, lorchestre national de jazzde Montpellier ou Jazz Vienne. Des projets dexprimentations autour
dartistes avec des recherches de ralisation vido comme Andrew Bird, Erikm
ont lieu. Ce dveloppement au sein du dpartement des nouveaux mdias (DNM) a
abouti au lancement de la webradio NouvOson qui diffuse des programmes en5.1 et
en binaural. Ce lancement est rejoint par le Mouv qui se restructure dbut 2014 avec
la mme dynamique: celle de produire des artistes en multicanal. Ces flux sont disponibles en binaural pour le mobile, la tablette numrique et en5.1 pour une diffusion
sur home-cinma par linterface HDMI.

45

46

Chapitre1 Gnralits

1.8.4 vnements, sminaires, groupes de recherche, formation


Le son multicanal est un sujet aujourdhui trs expos dans les sminaires sur le son:
citons titre dexemples les conventions AES (Audio Engineering Society), les sminaires de lInternational VDT Symposium (Verband Deutscher Tonmeister) et bien
dautres rencontres organises par des institutions du broadcast, de la recherche, des
associations, des industriels, etc.
En France le FISM (Forum International du Son Multicanal), les journes AFSI, France
Tlvisions, lIrcam, la Semaine du Son proposent des rencontres sur diffrents aspects
du multicanal.
Dans le domaine de la recherche, en France, des groupes de travail se sont constitus
afin de promouvoir le binaural et le son 3D. BiLi (Binaural Listening) est un consortium franais pour le dveloppement de technologies de production et de diffusion de
nouveaux mdias en binaural. Edison a pour but de promouvoir la cration de contenus
audio 3D et de dvelopper les technologies associes pour la production et la diffusion.
Enfin, le multicanal est maintenant abord dans les diffrents cursus son de formations
initiale et professionnelle.

Chapitre 2
Le systme dcoute

Lcoute monitoring est lingnieur du son


ce que la lumire du soleil est au peintre
Patrick Thvenot
Points

essentiels

- Critres dcoute pour lanalyse dun systme de monitoring multicanal.


- Bass management.
- Norme ITU.
- Norme Cinma.

Dunod Toute reproduction non autorise est un dlit.

- Cabines de mixage multicanal.


- Mthodes de mesure.
- Linfluence du local dcoute.
- Corrections acoustiques et lectro-acoustiques, THX.
- Test entirement auditif de votre coute 5.1.
- Le WFS.
- Le Transaural.

48

Chapitre 2 Le

2.1

systme dcoute

Caractrisation auditive dune coute

2.1.1 Pourquoi apprendre couter?


Lcoute dun son, dun objet sonore, lapprciation dune scne sonore sont troitement
lis notre culture auditive, mais aussi notre humeur du moment. En bref, nous restons constamment dans le domaine affectif (jaime, je naime pas) lors de la caractrisation dune coute. Nous avons donc besoin dapprendre analyser objectivement ce
que nous entendons afin denregistrer, mixer les sons, mais aussi afin dvaluer notre
systme dcoute. Il sagit de lcoute professionnelle laquelle tout ingnieur du son
sest exerc, bien souvent seul et sans mthodologie, do une efficacit trs moyenne
et surtout sans transmission possible de cette mthode ses confrres. Cest un peu le
mme problme pour deux personnes qui ne parlent pas la mme langue. Il est donc
ncessaire, avant tout test auditif devant tre compar la mesure, dacqurir une
mthodologie dcoute, objective et professionnelle, fiable.
Ces critres, un peu diffrents de ceux utiliss pour la prise de son et le mixage, sont
adapts la caractrisation dun systme dcoute (enceintes +salle) en 2.0,5.1 &7.1,
ceci en corrlation avec des mesures que nous dtaillerons plus tard. En strophonie,
notre exprience auditive peut relativement corriger les dfauts en sadaptant au systme dcoute utilis. Par contre, ds que le nombre de canaux augmente, notre audition intelligente devient impuissante devant le nombre de paramtres grer: par
consquent il est impratif dacqurir une technique dcoute objective et systmatique.

2.1.2 Critres objectifs ncessaires la caractrisation dune coute


Nous dterminerons des critres de construction, des critres dquilibre, des
critres de dfinition, des critres de stabilit et des critres de rverbration.
Ces critres dcoulent de la convergence dexprimentations rigoureuses menes au
Conservatoire National Suprieur de Musique de Paris (CNSM) et Radio France par
Guy Laporte, au Conservatoire National des Arts et Mtiers (CNAM) par Jacques Jouhaneau et lInstitut National de lAudiovisuel (INA) par Sbastien Noly et moi-mme.
Cette mthode quantifie danalyse sonore permet de saffranchir en grande partie de
ses gots et de sa culture dcoute grce une prise en conscience de celle-ci. Il nest
videmment pas question de ne plus prendre de plaisir couter, mais de pouvoir
rapidement distinguer laspect esthtique et affectif de lcoute, de son ct neutre et
objectif, ceci dans des phases diffrentes et spares.
Ces familles de critres se subdivisent en sous-critres selon le plan suivant:

2.1 Caractrisation

auditive dune coute

Critres de construction
Complment
Web 2.1

Le type et le degr dimmersion;


La linarit despace;
La profondeur des plans;
Le relief.

Critres dquilibre
Complment
Web 2.2

Lquilibre spectral;
Lquilibre dynamique.

Critres de dfinition
Complment
Web 2.3

La sparation des timbres;


La transparence;
Lhomognit spatiale de la dfinition.

Critres de stabilit
Complment
Web 2.4

La stabilit de limage globale;


La stabilit des sujets;
Lhomognit spatiale de la stabilit.

Critres de rverbration

Dunod Toute reproduction non autorise est un dlit.

Complment
Web 2.5

La quantit;
Le type;
Lhomognit.

2.1.3 Apprentissage dune mthodologie dcoute


Complment
Web 2.6

Lapprentissage de cette mthode passe avant tout par laffect et pas


uniquement par lintellect. Elle doit donc obligatoirement sappuyer sur
un support audiovisuel. Cest pourquoi nous renvoyons le lecteur aux
complments numriques afin de lexprimenter.

49

50

Chapitre 2 Le

systme dcoute

Cette mthode consiste identifier les sensations sonores correspondant chaque critre dfini prcdemment en faisant correspondre les illustrations visuelles des pages
prcdentes avec les extraits sonores proposs dans le support fourni. Laquantification des impressions sonores (valuation numrique) est trs importante et reprsente le meilleur moyen de rester dans le domaine objectif (en utilisant le cerveau
gauche, centre cartsien, et non le droit, centre motionnel). Cependant, lanalyse doit
se faire sur un temps trs court (une minute au maximum), la premire impression
tant toujours la bonne. En effet, le cerveau gauche possde la facult, fcheuse dans ce
cas, denregistrer la premire squence sonore et de rcouter ensuite en boucle lenregistrement de celle-ci et non le nouveau message sonore rentrant Les exploitants
connaissent bien ce phnomne lors de lcoute rpte dune phrase sonore pour le
choix dun effet, lors du mixage, par exemple.
Lvaluation objective et le diagnostic dun systme de restitution multicanal sera largement facilit par lutilisation de cette mthode.
Complment
Web 2.7

2.2

Des fiches dvaluation tlchargeables sur le site WEB permettent de se


familiariser et de sentraner lanalyse dcoute en fonction de ses besoins
et de son niveau dexprience.

Finalit dune coute monitoring en multicanal

2.2.1 Domaine artistique, domaine objectif


Nous retrouvons des systmes dcoute en beaucoup dendroits de la chane audiovisuelle. Ces coutes ont des finalits trs diffrentes suivant quelles se trouvent dans le
domaine artistique ou le domaine objectif. Nous devons donc faire la distinction entre
ces diffrents types et ces deux domaines.

Figure2.1 Les diffrents types de


systmes dcoute.

Figure2.2 Phases objectives et artistiques dun


circuit de production.

Nous devons galement examiner le circuit de production/diffusion en fonction de ces


deux domaines.

2.3 Les

diffrents types de mesures

2.2.2 Problmatique spcifique au multicanal


En diffusion strophonique deux canaux, les oreilles trs aiguises de lingnieur
du son lui permettent de sadapter et de compenser en grande partie les dfauts dune
coute, ce qui explique que lon trouve dexcellents enregistrements, y compris trs
anciens, alors que les systmes dcoute, compars leurs homologues actuels, taient
dune neutralit contestable, voire trs colors.
Lintroduction du multicanal, avec laugmentation du nombre de canaux (5.1 et7.1)
ne permet plus une oreille, mme trs entrane, dinterprter et de compenser les
dfauts dun systme dcoute multidirectionnel. En effet, les paramtres deviennent
trop nombreux et trop complexes pour tre extrapols et analyss afin dassurer la
transportabilit de lenregistrement ou du mixage jusqu lauditeur final.
Il devient donc indispensable de mettre en uvre une mthodologie de rglage ainsi
que des corrections acoustiques et lectroniques permettant de matriser enfin ce que
lon entend. Cette possibilit, tout simplement impensable il y a vingt ans, est maintenant ralisable, grce lintroduction de mesures informatises bases sur la rponse
impulsionnelle (une meilleure connaissance de notre perception ainsi que des outils
de corrections numriques trs puissants).

2.3

Les diffrents types de mesures


Complment
Web 2.8

Nous distinguerons chronologiquement plusieurs mthodes. Toutes sont


dtailles et illustres sur le site Web.

Dunod Toute reproduction non autorise est un dlit.

2.3.1 Frquence glissante


La plus ancienne. Utilisable quasi exclusivement en chambre sourde. Champ dapplication limit. Peu rvlatrice auditivement.
2.3.2 Bruit rose
Toujours utilis depuis les annes soixante-dix. Rapidit dinterprtation. Bonne
approche auditive de lquilibre tonal.
2.3.3 MLS, CHIRP, TDS
Mesures modernes bases sur le calcul FFT. Permet daccder au domaine temporel
et frquentiel. Difficilement interprtable par le nophyte. Bien corrl limpression
auditive sous rserve de rester dans le domaine linaire (pas de distorsion). Limites: pas
de prise en compte du retard dynamique contribuant au respect de lmotion sonore.

51

52

Chapitre 2 Le

systme dcoute

2.3.4 Retard dynamique


Mesure visuelle rcente. Permet lvaluation du respect du facteur motionnel du son
enregistr. Complmentaire la mesure MLS.
2.3.5 Synthse des diffrentes mesures
En rsum, et pour synthse, la figure 2.3 permet de comparer les diffrents signaux
de mesures avec leurs possibilits danalyse et de calcul et leurs limites. Toutes ces
mesures sont dcrites en dtail sur le site Web.

Complment
Web 2.9

Figure2.3Les diffrentes mthodes de mesure.

2.4

Lenceinte acoustique

2.4.1 Diffrents types


Pour une utilisation monitoring nous distinguerons les enceintes de proximit, les
enceintes de mixage principales et les coutes dites clients. Ces dernires peuvent tre
trs types et diffrentes en fonction de lutilisation finale et de la culture dcoute.
Nous examinerons, sans tre exhaustif, trois cultures dcoute: la tlvision et le multimdia, le CD et DVD et le cinma. Les diffrences seront souvent dans la taille, le
niveau, la dynamique, la directivit et la neutralit.
Dans tous les cas, en multicanal, les enceintes doivent tre identiques ( lexception du
caisson de grave), ce qui ntait pas le cas en Dolby Surround o les enceintes arrires
taient plus petites que les enceintes frontales.

2.4 Lenceinte

53

acoustique

2.4.2 Mesures et interprtations auditives


Courbe de rponse en fonction de la frquence
La courbe de rponse niveau/frquence reste la premire mesure, significative de
lquilibre spectral peru. Cette mesure est traditionnellement faite dans laxe de lenceinte ( 0). Il est important didentifier clairement la rsolution en dB (0.52dB/
division) ainsi que le lissage (1/12 doctave 1/3 doctave).

Dunod Toute reproduction non autorise est un dlit.

(a)

(b)

Figure2.4Courbe de rponse en niveau en fonction de la frquence.


Mme mesure avec des chelles et des rsolutions diffrentes.

54

Chapitre 2 Le

systme dcoute

Courbes de directivit
La directivit dune enceinte est un facteur primordial lors de son exploitation en mixage
en fonction de lacoustique du lieu. Il existe plusieurs manires de lillustrer. Nous ne
retiendrons que la plus courante, sous forme des courbes de rponse effectues 0, 30,
60 et 90. Elles nous donneront de prcieuses informations sur la manire dont lenceinte
rayonne dans le local et donc, sur son positionnement optimal, mais aussi sur la rponse
en puissance acoustique totale qui est la sommation en dB des courbes de directivit.
dB
24.0
29.0
34.0
39.0
44.0
49.0
54.0
59.0
64.0
69.0
74.0
auto

dB

enceinte directivit bien contrle

0
30
60
90

250

500

1K

2K

4K

8K

16K

IEC Standard Frequencies - Hz

10.0
15.0
20.0
25.0
30.0
35.0
40.0
45.0
50.0
55.0
60.0
auto

enceintedirectivit
directivitpeu
beucontrle
contrle
enceinte
0
30

60
90

250

500

1K

2K

4K

8K

16K

IEC Standard Frequencies - Hz

Figure2.5Courbes de directivit en fonction de la frquence.

Nous pouvons distinguer trois familles de directivit:


Les enceintes omnidirectionnelles;
Les enceintes directivit croissante;
Les enceintes directivit constante.
Le facteur de directivit Q est le rapport de lnergie mise dans laxe de
lenceinte sur lnergie totale fournie par celle-ci. Q est un coefficient sans
unit qui varie de 1 linfini.
En sonorisation, les constructeurs donnent souvent langle douverture de
lenceinte. Il sagit de langle correspondant une chute de 3 dB ou 6 dB
du niveau par rapport laxe. Cette indication nest significative que pour
les enceintes directivit constante et na aucun sens dans les autres cas,
tant donn que cet angle varie chaque frquence!

Complment
Web 2.10

Lutilisation denceintes dont la directivit est croissante et bien contrle


peut avoir certains avantages en monitoring comme la garantie de la
transportabilit du mixage chez lauditeur et lagrandissement de la zone
dcoute stable (sweet spot). Cette tude est dveloppe sur le site Web.

2.4 Lenceinte

55

acoustique

Figure2.6Les diffrents types de directivits.

Dunod Toute reproduction non autorise est un dlit.

Courbe de retard en fonction de la frquence


Le retard relatif (en rgime harmonique) entre les frquences est li la courbe de
phase. Appel temps de propagation de groupe, celui-ci est trs important et conditionne la reconstruction en profondeur et relief des plans sonores. Lallure de cette
courbe par rapport la frquence modifie galement largement lquilibre spectral et
dynamique de lenregistrement.

Figure2.7Courbes de temps de propagation de groupe. Encouleursurdunod.com

56

Chapitre 2 Le

systme dcoute

Influence du retard temporel sur le niveau subjectif de grave


En dessous de 200Hz, si le grave est retard progressivement en fonction de la frquence, notre impression de niveau augmente proportionnellement. Ceci est observ
sur certaines enceintes qui gnrent un grave trs typ, qui peut plaire, mais nest pas
transposable dautres systmes.
Complment
Web 2.11

Ce phnomne est tudi et illustr auditivement en complment


numrique.

Rapidit de lcoulement de lnergie (Waterfall)


Le waterfall (chute deau) illustre la rapidit avec laquelle lnergie se dissipe en
fonction du temps chaque frquence. Cette information, trs importante (bien que
peu mdiatise!) permet de mesurer la capacit de sparation en timbre et en transparence de lenceinte, mais aussi de lquilibre dynamique.

dB

0.00

48.0

0.41

54.0

0.83

60.0

1.26

dB

0.00

0.0

0.43

6.0

0.84

12.0

1.38

66.0

1.68

18.0

1.69

78.0

2.11
MSEG

24.0

2.11
MSEG

250

500

Cumulative Spectral Decay

1K

2K

4K

8K

IEC Frequencies - Hz

coulement dnergie rapide

16K

250

500

1K

Cumulative Spectral Decay

2K

4K

8K

16K

IEC Frequencies - Hz

coulement dnergie accident

Figure2.8Mesures du waterfall.

Attention, une mauvaise rapidit de dissipation dans laigu peut engendrer un embellissement de la musicalit et une fausse transparence de lenregistrement, pouvant
compenser un quilibre dynamique pauvre (par exemple pour des sources compresses) ou bien une prise de son de proximit un peu dure.

Analyse par ondelettes


Enfin, lanalyse par ondelettes (Wavelet) montre en une seule image la manire dont
lnergie sonore scoule en fonction du temps et de la frquence, avec une vision claire
du tranage ventuel certaines frquences, mme pour des niveaux rsiduels trs
faibles (pourtant trs bien perus par notre audition).

2.4 Lenceinte

57

acoustique

Figure2.9Analyses en ondelettes. Encouleursurdunod.com

Cette mesure nous informe sur certaines colorations de timbre perues loreille mais
qui ne sont rvles, ni par la courbe de rponse, ni par la courbe de retard de groupe,
mais aussi sur la stabilit de limage sonore.

Rendement et sensibilit
Le rendement dune enceinte acoustique est primordial afin que celle-ci puisse restituer la dynamique attendue en fonction du type dutilisation. On confond souvent
le rendement et la sensibilit. Bien quelles soient lies, ces deux mesures ne sont pas
quivalentes.
Le rendement Rd reprsente le rapport entre la puissance acoustique restitue et la
puissance acoustique lectrique fournie par lamplificateur. Il se mesure en%.
Rd=(Wa/Pe)100
Avec :
Dunod Toute reproduction non autorise est un dlit.

Wa: puissance acoustique en watt acoustique.


Pe: puissance lectrique en watt lectrique.
Le rendement reprsente donc toute lnergie dissipe par lenceinte tout autour delle.
La sensibilit est une mesure de niveau de pression acoustique (dB) effectue en champ
libre dans laxe dcoute (0) 1 mtre de distance pour une puissance applique de
1W, soit 2.83 v efficaces sur une enceinte de 8 dimpdance nominale (mesure
normalise suivant IEC 60268-5 3Ed).
SdB=Lp 0/ 2.83 v

58

Chapitre 2 Le

systme dcoute

avec Lp: niveau de pression 1m en dB.


La sensibilit mesure dans laxe de lenceinte est donc lie au rendement. Ainsi, pour
un mme rendement, une enceinte trs directive aura une meilleure sensibilit quune
enceinte plus omnidirectionnelle. En champ libre, la diffrence de sensibilit sera parfaitement perue tandis quen milieu rverbrant, limpression de niveau sonore sera
trs semblable et significative du mme rendement.
Le rendement et la sensibilit nont de sens que pour les enceintes passives. Pour les
enceintes amplifies et (ou) actives, les constructeurs donnent le niveau de pression
maximal (Lp max) 1m en champ libre, mais cette valeur peut tre suprieure suivant
les caractristiques de lenvironnement acoustique.

2.4.3 Conditions de fidlit et choix pour le multicanal


Toutes les courbes doivent tre les plus rgulires possibles et sans accident, le but
dune coute monitoring ntant pas dembellir le son, mais de juger rapidement de
la qualit dun enregistrement ou un mixage sans se tromper et avec un minimum de
fatigue auditive.
Lcoute de proximit
Enceinte compacte par ncessit (en gnral deux voies), celle-ci doit possder une
courbe de rponse rgulirement descendante au-dessus de 2000Hz, une courbe
de TG (Temps de propagation de Groupe) la plus droite possible, un Waterfall
dcroissance rapide au-dessus de 500Hz et une dynamique raisonnable (Lp max
>90dB la distance dcoute). La directivit peut tre assez large mais contrle
(sans accidents). Elle est utilise principalement en enregistrement et mixage musical TV, CD ou DVD. Les cinq enceintes doivent tre identiques et un caisson de grave
peut tre adjoint en renfort de grave (avec rglage correct du bass management), ou
uniquement pour le LFE.
Lp max: niveau sonore maximal que peut fournir en permanence chaque enceinte
acoustique la position de mixage. On utilise un bruit rose en pleine bande (20Hz
20000Hz) et la mesure est effectue par un sonomtre rgl avec une grande
constante de temps (position slow) et en mesure linaire ou quasi linaire (pondration C).

2.4 Lenceinte

acoustique

Le bass management consiste envoyer dans le caisson de grave


(Sub Bass) les frquences graves des cinq canaux afin de protger
les enceintes. La frquence de transition se situe entre 50Hz et 120Hz
avec un filtrage lectronique 24dB/octave au minimum (ordre 4). Le
choix des frquences de coupure ainsi que des pentes et structures de
filtre devra tre soigneusement ajust in situ. En effet, lenvironnement
acoustique joue un rle trs important dans le rsultat final. Le processeur
utilis doit tre capable de grer non seulement le filtrage, mais aussi
les retards relatifs entre les enceintes et le Sub ainsi quune galisation
de type paramtrique. Le rglage doit tre ralis la mesure par un
spcialiste et non loreille comme on le rencontre souvent! Lenjeu
dun rglage russi est une parfaite complmentarit entre le son des
enceintes et celui du Sub: on ne doit pas localiser celui-ci afin dobtenir
une immersion correcte dans la scne sonore. Si on entend le caisson de
grave, le systme est mal rgl Ces remarques sont galement valables
pour lcoute principale.

Lcoute principale
Pour une utilisation en TV, CD ou DVD, lenceinte sera de taille plus volumineuse (avec
deux ou trois voies) et doit galement possder une courbe de rponse rgulirement
descendante au-del de 7kHz, une courbe de TG la plus droite possible, un Waterfall
dcroissance rapide au-del de 500Hz et une dynamique plus leve (Lp max >100dB
la distance dcoute).

Dunod Toute reproduction non autorise est un dlit.

La directivit doit tre plus marque, mais toujours bien contrle (sans accidents).
Laddition dun caisson de grave est imprative, au moins pour la voie LFE, et doit tre
bien rgle, surtout en cas de bass management. Les cinq enceintes doivent galement
tre identiques.
Pour une utilisation en mixage cinma, trois voies sont ncessaires et la courbe
de rponse doit descendre rgulirement au-dessus de 2kHz, avec une courbe de TG
sattnuant rapidement au-dessus de 1kHz, un Waterfall dcroissance rapide audessus de 500Hz et une dynamique encore plus leve (Lp max >105dB la distance
dcoute). La directivit doit tre trs importante mais toujours bien contrle (sans
accidents). Les enceintes surround peuvent tre plus petites mais en plus grand nombre
que les trois enceintes frontales. Le caisson de grave, uniquement utilis en LFE sera
suffisamment dimensionn afin de dlivrer le niveau ncessaire (115dB max) entre
20Hz et 120Hz, la position de mixage.
Lavance temporelle au-dessus de 1kHz est lie aux mesures statistiques effectues sur
un grand nombre de systmes de diffusion en salle de cinma. Cette caractristique
commune est lie leffet dispersif temporel d la plupart des pavillons utiliss. Les
valeurs mesures peuvent aller jusqu 3ms dans certains cas. Cette avance temporelle
peut toutefois tre corrige grce aux processeurs actuels ou lvolution des technologies de conception des enceintes. Par consquent, Cette courbe doit tre ajuste en

59

60

Chapitre 2 Le

systme dcoute

fonction du circuit de production considr. Lincidence sur laudition, et donc sur le


mixage, sera un effet de son projet qui a pour consquence une modification de
lquilibre spectral ainsi que des plans sonores (en particulier sur les voix).
Il est noter que cette avance temporelle est dynamique et varie en fonction du niveau
instantan: nous sommes donc en prsence dun phnomne non linaire, ce qui
reprsente la limite actuelle des possibilits de correction par processeurs.
111.0
dBSPL

coute cinma

100.0

coute principale
coute de proximit

90.0

80.0

70.0

60.0
20

50

100

200

500

1k

2k

Hz

5k

10k

Figure2.10Courbes de rponse type en amplitude/frquence.

2.250
ms
1.750

coute cinma

1.250

0.750
coute principale

0.250

coute de proximit

200

500

1k

2k

5kHz

10k

0.250
20k

Figure2.11Courbes de rponse type en retard de groupe/frquence.

20k

2.5 Linfluence

du local

Lcoute client
Celle-ci devrait tre installe dans une salle acoustiquement plus vivante (semirverbrante). Elle est principalement utilise pour une production CD ou DVD et
peut tre plus type suivant lutilisateur final. Pour la musique classique, le jazz,
la musique ethnique, lenceinte doit tre neutre (courbe de rponse rgulirement
descendante au-dessus de 10000Hz, courbe de TG la plus droite possible, Waterfall pouvant tre moins rapide au-dessus de 5000Hz, dynamique assez leve avec
Lpmax>95dB la distance dcoute).
La directivit peut tre large, mais toujours bien contrle (sans accidents). Laddition
dun caisson de grave est imprative au moins pour la voie LFE et toujours bien rgl
surtout en cas de bass management. Pour la musique varit ou moderne, lenceinte
est identique mais peut avoir une courbe de TG descendante au-dessus de 2kHz avec
une variation de lordre de 0.3 0,5ms.
Pour une production TV, celle-ci peut tre calque sur une coute Home-cinma associe un cran de tlviseur grand public, avec un systme large bande (une voie) associ un petit caisson de grave avec bass management. La dynamique est videmment
moins grande avec un niveau maximum situ vers 85dB max. Dans tous les cas, les
cinq enceintes doivent tre identiques.

2.5

Linfluence du local

2.5.1 Rponse dans le grave, couplage physique


Dans les frquences graves (en dessous de 200Hz), la courbe de rponse de lenceinte
est compltement tributaire du local dcoute. Lenceinte transmet plus ou moins
dnergie en fonction de son type, de la dimension du local et de son positionnement
dans ce local. Il sagit l dun phnomne dadaptation dimpdance acoustique entre
le gnrateur (enceinte) et le rcepteur (local), aggrav par la prsence dondes stationnaires dans la cabine.

Dunod Toute reproduction non autorise est un dlit.

La courbe de rponse de lenceinte devient trs irrgulire (mme si celle-ci est droite
en champ libre!).
Par consquent, seul un rglage par galisation lectronique et optionnellement, un
traitement acoustique additionnel, permet dobtenir une courbe de rponse plate et
rgulire au point dcoute dans cette plage de frquence. Si on dsire en plus augmenter la zone dcoute (sweet spot), on devra attnuer les ondes stationnaires du local
par un traitement acoustique adapt. Des solutions plus ou moins complexes existent
suivant le budget et le volume disponible.

61

62

Chapitre 2 Le

systme dcoute

Figure2.12Adaptation dimpdance acoustique.

En multicanal, le positionnement du caisson de grave (SUB) doit tre ralis


en tenant compte de ce couplage afin dviter les accidents trop importants, en
sachant, quun excs de couplage (par exemple: bosse de +10dB) peut toujours
tre corrig par galisation, mais un manque de couplage (par exemple: trou de
-10dB) demande une attention particulire afin dassurer la linarit de la correction. Quelques fois, si ce trou est issu dune onde stationnaire principale (mode
propre) du local, la seule solution est de recourir une correction acoustique permettant dattnuer ce mode, moins de disposer dun correcteur lectronique
contrlant avec prcision lamplitude et la phase sparment (filtrage FIR) et faire,
en quelque sorte, de lanti-signal.
En cas de bass management, la sommation correcte en amplitude et en phase des
satellites avec le SUB doit tre effectue avec prcision. Il faut tenir compte que
le couplage la salle de ceux-ci nest pas du tout identique autour de la frquence de
raccordement. Par consquent, le recours une correction lectronique complexe
est incontournable afin dharmoniser cette sommation ; chaque cas tant un cas
particulier, le bass management slabore sur mesure et in situ. Contrairement aux
ides reues, quand le bass management est bien fait, la transition entre le SUB et les
enceintes ne sentend pas!

2.5 Linfluence

du local

63

Figure2.13Exemple dgalisation dun Sub la position dcoute.

Dans tous les cas, il est important de bien dimensionner le SUB (HP + amplificateur)
afin quil puisse accepter des corrections de niveau important sans distorsion.
Rappelons quune correction de +10 dB quivaut multiplier par 10 la puissance
lectrique dlivre!

2.5.2 Influence des premires rflexions, couplage psycho-acoustique


Au-dessus de 200Hz, la dimension de la salle devient trs grande par rapport la longueur donde, par consquent, lenceinte se comporte comme en rayonnement libre et
la salle na plus dinfluence physique sur celle-ci.

Dunod Toute reproduction non autorise est un dlit.

En revanche, les premires rflexions (avant 10ms) modifient notre perception de la


source (son direct): lenceinte acoustique ne change pas, mais notre perception modifie
le timbre, la localisation, la stabilit et la transparence de la source sonore initiale; il
sagit de leffet de fusion.
Ceci est d au pouvoir sparateur de notre systme auditif (constante de temps de
loreille) qui varie, en fonction du retard relatif entre les premires rflexions et le son
direct, et en fonction de la frquence. Dans lextrme aigu, nous sommes capables de
sparer facilement celles-ci toutes les frquences (pas deffet de fusion). Quand la
frquence diminue, les premires rflexions sont progressivement amalgames au son
direct (effet de fusion partiel) et nous percevons un dtimbrage variable en fonction des
accidents aux frquences considres; il sagit du couplage psychoacoustique. Dans le

64

Chapitre 2 Le

systme dcoute

Figure2.14Principe de leffet de fusion.

grave, nous amalgamons toutes ces rflexions la source initiale (effet de fusion total).
Ces accidents, parfaitement mesurables par mthode MLS, peuvent tre corrigs ou
compenss (suivant la valeur de ces retards relatifs) grce une mthode dgalisation
dite physiotemporelleTM et suivant une courbe qui tient compte du temps et de la
frquence.

2.5 Linfluence

65

du local

Figure2.15Courbe deffet de fusion/rverbration.

Cette courbe a t obtenue la suite dtudes effectues en chambre anchoque lINA


sur plus de cent cinquante sujets o ont t corrles la mesure objective (par rponse
impulsionnelle) et la perception auditive utilisant les critres danalyses prcdemment
exposs.
Complment
Web 2.12
Une illustration de cet effet est en coute sur le site Web.

Dunod Toute reproduction non autorise est un dlit.

Cette galisation particulire est trs diffrente de celle obtenue en bruit rose, qui ne
tient absolument pas compte de leffet de fusion.
Elle ncessite lutilisation de correcteurs paramtriques trs prcis en amplitude et en
phase afin de compenser (ou corriger) ces premires rflexions. On entend souvent dire
quil faut se mfier des galisations modifiant la phase du signal, mais ce raisonnement
fait abstraction des premires rflexions qui, par nature, dforment la phase du son
direct peru. Au contraire, il est ncessaire dagir sur la phase en mme temps que sur
lamplitude afin de supprimer ce dfaut. Cette correction ncessite dtre trs prcis,
do le choix impratif dgaliseurs numriques haute rsolution.
Une exprience trs simple raliser en cabine de mixage consiste dplacer rgulirement une source sonore (voix, par exemple) de gauche droite, en passant par
lenceinte centrale (pan pot). Sans galisation physiotemporelle TM, le dplacement
est peu prcis et pas linaire. Avec une galisation physiotemporelleTM, la source glisse
harmonieusement de gauche droite, sans matrialisation auditive des enceintes.

66

Chapitre 2 Le

systme dcoute

2.5.3 Influence du champ rverbr tardif, quilibre tonal et transmissibilit


des mixages
Les rflexions tardives (aprs 10ms), en dehors de leffet de fusion, ne modifient
plus le timbre ni lidentit du son direct. Il faut distinguer les rflexions arrivant
entre 10ms et 20ms et le champ rverbr (en gnral plus diffus) qui arrive aprs
20ms.
Lnergie arrivant entre 10ms et 20ms vient modifier la prcision en localisation
des sources, sans altrer leur timbre. En mixage multicanal, on travaille souvent
cette zone temporelle afin de crer une impression dimmersion sonore pour lauditeur. Ce phnomne est utilis diffremment en sonorisations multipoints afin de
modifier virtuellement la position dune source et est plus connu sous le terme
deffet Haas.
Lnergie aprs 20ms affecte la balance tonale (quilibre tonal global) et la profondeur
du mixage. Il sagit de leffet de rverbration bien connu. En effet, cette nergie tardive
diminue la transparence des sources sonores dans laigu en masquant les attaques.
On a donc limpression davoir moins daigus. Cet quilibre tonal subjectif peut tre
valu en calculant le rapport en fonction de la frquence, de lnergie avant 20ms sur
lnergie aprs 20ms. Cette mesure peut tre matrialise par lindice de clart C20
(en dB), dont la formule est:
20ms

C20 =10 log (0

p (t).dt 20ms p (t).dt)

On obtient donc une courbe significative de cet quilibre. Si elle est montante dans
laigu, ce qui est le cas de beaucoup de cabine de mixage trop amortie, celui-ci sera
survalu en niveau et donc sous modul dans le mixage. Chez lutilisateur final (production CD, DVD ou TV), la courbe sera plus descendante dans laigu, donc avec moins
dattaques et le mixage paratra sous modul dans cette zone spectrale.

Figure2.16Cas dtude de la courbe C20/f.

2.5 Linfluence

du local

67

Ce qui explique que la courbe de rponse en frquence des enceintes monitoring


soit descendante dans laigu afin de compenser ce phnomne et dassurer la transportabilit du mixage chez le client final. Une autre solution lgante (applicable
en strophonie deux canaux, mais aussi en 5.1 sur les enceintes gauches et
droites) consiste utiliser des enceintes directivit rgulirement croissante dans
laigu (courbes de rponse dcroissante en dehors de laxe) et de faire converger
les enceintes devant le point dcoute. Ainsi, on arrive corriger ce dfaut (il sagit
dune correction dans ce cas et non dune compensation!) avec en plus un largissement significatif de la zone dcoute stable (sweet spot) grce un rattrapage
acoustique de lloignement relatif par une augmentation inverse du niveau relatif
dans le mdium aigu (zone frquentielle permettant la localisation). videmment,
lenceinte centrale reste dirige sur lauditeur, mais avec une galisation diffrente
des enceintes gauches et droites. lexprience, lenceinte centrale fonctionne plus
en source relle que les autres, cela ntant pas gnant. Les enceintes surround
gauches et droites peuvent galement converger derrire le point dcoute pour les
mmes raisons.

Dunod Toute reproduction non autorise est un dlit.

Figure2.17Correction du C20 par la directivit des enceintes.

2.5.4 Le local et lenceinte, synthse globale


Cette synthse globale montre linfluence du local sur le mixage et permet de juger de
la complexit, mais aussi la logique de ses effets.
Lapplication des mmes phnomnes de rverbration en sonorisation, montre linteraction du local avec lenceinte pour ce type dutilisation.
Dans tous les cas et au-del de 50ms, lnergie devient compltement nuisible et
dtruit lintelligibilit; fort heureusement, en cabine de mixage, il ny a plus beaucoup
dnergie dans le mdium aigu au-del de ce dlai.

68

Chapitre 2 Le

systme dcoute

Figure2.18Linfluence du local dcoute: synthse.

2.6

Les diffrents types de cabines de mixage

2.6.1 Type Tom Hidley


Le clbre concept Tom Hidley date des annes soixante-dix. Il repose sur le principe
dune acoustique trs vivante lavant de la cabine, avec les enceintes encastres et une zone arrire trs absorbante afin de rduire leffet de masque et la perte
dintelligibilit. Quand le concept est bien ralis, le RT60 est assez court avec un
C20 relativement faible, garantissant une bonne transportabilit du mixage, mais
avec un manque de transparence, voire une fausse transparence flatteuse (embellissement des attaques) correspondant un son adapt la mode et aux besoins de
cette priode.

Figure2.19Studio Paramount Recoding Group.

Cette cabine est, par contre en gnrale agrable et peu fatigante.

2.6 Les

diffrents types de cabines de mixage

Les enceintes avant devraient tre trs directives (ce qui nest pas toujours le cas!) afin
dattnuer les premires rflexions, sources de dnaturation du son direct comme nous
lavons vu prcdemment.
Conu pour la strophonie, ce type de cabine est bien sr compltement inadapt en
multicanal. Notons que Tom Hidley a depuis, adapt et modifi son savoir-faire afin
dtre parfaitement compatible au multicanal!

2.6.2 LEDE
Le concept LEDE (Live End, Dead End, quon peut traduire par zone vivante et zone
morte), introduit en 1980 par Don Davis est encore utilis lheure actuelle. Celui-ci a
t galement conu pour la strophonie. Utilisable en Dolby Surround (annes quatrevingt-dix), ce concept nest pas du tout adapt au multicanal actuel (5.1).
Son principe repose sur une acoustique trs absorbante lavant (avec des enceintes encastres, ou pas) et un volume arrire trs diffusant afin de ne pas trop diminuer le RT60. En
thorie, lchogramme ne doit pas montrer dnergie entre le son direct (0ms) et 15ms, puis
une rverbration diffuse au-del afin dentendre avec prcision les premires rflexions de
lenregistrement, sans les dnaturer par leffet de fusion vu prcdemment.
Lchogramme reprsente la dcroissance de lnergie en dB en fonction du temps. Ce calcul
est effectu partir de la rponse impulsionnelle au point dcoute.

Dunod Toute reproduction non autorise est un dlit.

Malheureusement, la console de mixage, les baies priphriques et les patchs viennent


perturber la zone morte de la partie avant et il nest pas rare de voir apparatre de trs
fortes rflexions mergentes dans la zone entre 0 et 15ms, provoquant des colorations
par effet de fusion et distorsion despace en largeur comme en profondeur. De plus,
le C20 en gnral lev et ascendant dans laigu (sil ny a pas assez damortissement
dans le grave) rend le mixage trs difficilement transposable chez le client, si bien que
le mixage rel se fait sur des coutes de proximit et que les coutes principales sont
souvent utilises comme coutes client.

Figure2.20Mesure de lchogramme dune cabine LEDE.

69

70

Chapitre 2 Le

systme dcoute

Figure2.21Exemple de cabine LEDE.

De plus, lcoute prolonge peut provoquer une fatigue auditive assez importante, si la
rupture avant/arrire est associe un RT60 global trop court.

2.6.3 Type amortissement rparti


Le principe de cette cabine, expos par R.Walker (BBC) ds les annes quatre-vingtdix est parfaitement pens pour le multicanal actuel.
Bas sur les prconisations ITU (voir chapitre ultrieur sur les normes5.1) et inspir de
lide initiatrice de la cabine LEDE, savoir: viter lnergie dans les quinze premires
millisecondes, R.Walker prconise une solution trs diffrente qui consiste matriser
la direction des premires rflexions par la gomtrie interne du local en alternance
avec des zones absorbantes judicieusement choisies.

2.6 Les

71

diffrents types de cabines de mixage

Key

CF

CF

LF

LF

RF

rflecteur
absorbant

RF

Auditeur
Auditeur
LB

RB

LB

RB

Figure2.22Principe de la cabine amortissement rparti (daprs les travaux de R.Walker).

Nous obtenons alors un C20 moyennement important du fait du peu dnergie prcoce
reue au point dcoute, compare lnergie tardive plus grande, mais avec un RT60
plus lev et plus proche de celui dun salon domestique grce la rpartition homogne des rverbrations avant/arrire aprs 15ms.

dB

0.00

14.0

2.89

8.0

5.89

2.0

8.88

4.0

11.87
14.86 msec

10.0
500

1K

2K

Energy-Time-Frequency

4K

IEC Frequencies - Hz

waterfall sans
traitement acoustique

MLSSA
(Smoothed
to 0.33 octave)

dB

0.00

14.0

2.89

8.0

5.89

2.0

8.88

4.0

11.87
14.86 msec

10.0
500

1K

Energy-Time-Frequency

2K

4K

IEC Frequencies - Hz

waterfall avec
traitement acoustique

MLSSA
(Smoothed
to 0.33 octave)

Dunod Toute reproduction non autorise est un dlit.

Figure2.23Waterfall mesur dune cabine amortissement rparti.

Cette cabine, non polarise est donc particulirement bien adapte au multicanal en5.1
(ou plus) condition de bien matriser, au point dcoute le positionnement des absorbants et rflecteurs en fonction de la position des enceintes.
Les enceintes peuvent tre apparentes, sur pied, suspendues ou encastres, ce qui ne
change rien au principe, le choix tant fait suivant le type denceintes choisies et le
volume de salle dont on dispose.

72

Chapitre 2 Le

systme dcoute

La transmissibilit du mixage est meilleure mais le manque de prcision des attaques


peut tre compens par une courbe de rponse plus plate des enceintes dans laigu ou
bien par lutilisation denceintes plus directives (mais bien contrles) augmentant le
C20. Par contre, la fatigue auditive sera faible dans la dure et le confort acoustique
trs apprciable.

2.6.4 Une nouvelle approche: la cabine diffusion rpartie


Inspire des travaux de R.Walker (BBC Research) et ensuite dvelopp par la socit
franaise dingnierie Taylor Made System (TMS) spcialise dans le sound systemic
ingeneering, un nouveau concept est propos, bas sur la distribution harmonieuse des
premires rflexions permettant dobtenir une prcision et une rsolution de mixage
(identique une cabine trs mate) en mme temps quune grande transportabilit et
une absence de fatigue auditive.
En effet, on considre toujours lacoustique dune cabine dans sa globalit bien quil ny
ait pas quune seule acoustique dans un lieu, mais une infinit dacoustiques suivant
le chemin acoustique considr. Ainsi, il est intressant de considrer et doptimiser
sparment le chemin acoustique enceinte/auditeur dterminant pour le mixage et le
chemin acoustique auditeur/auditeur correspondant lambiance de travail dans le
lieu.
Le premier chemin doit tre associ un C20 lev et aussi plat que possible en frquence et avec un TR60 assez faible. Par contre, la rpartition des premires rflexions
doit tre la plus rgulire possible en fonction du temps avec aucune mergence notoire
afin de ne pas attirer lattention de lingnieur du son et colorer ainsi le son direct.
Ce champ rflchi prcoce, suffisamment complexe et dcorrl du son direct, sera
donc assimilable un champ alatoire ne se mlangeant pas auditivement aux premires rflexions contenues dans lenregistrement. Il ne doit y avoir aucune rupture
dans la rpartition temporelle des premires rflexions sur les vingt premires millisecondes ainsi quun cart minimum de 10dB entre le son direct et les premires
rflexions. Cela suppose dutiliser des enceintes directivit croissante ou constante
parfaitement bien contrles, ainsi quun encastrement sans rupture dimpdance
acoustique avec la paroi les intgrant.
Le second chemin auditeur/auditeur peut avantageusement avoir un C20 plus faible
et un RT60 plus lev, correspondant une acoustique plus conviviale limage dun
salon domestique, peu fatiguant.

2.6 Les

73

diffrents types de cabines de mixage

Figure2.24Mesure de
lchogramme en mode
mixage dans une cabine
diffusion rpartie.

Dunod Toute reproduction non autorise est un dlit.

Figure2.25Mesure du
TR60 dune cabine diffusion
rpartie.

Figure2.26Mesure du
C20 dune cabine diffusion
rpartie.

74

Chapitre 2 Le

systme dcoute

La satisfaction de ces critres conduit une forme de cabine assez complexe, comportant
des diffuseurs 3D judicieusement placs, associe aux enceintes choisies prcdemment
et oriente de manire particulire (convergentes devant le point de mixage), mais
respectant les normes ITU concernant les angles enceintes/mixeur. Nous avons
vu que la qualit de lencastrement joue un rle primordial dans lobtention dune
distribution rgulire et sans accident des premires rflexions. Si les enceintes ne sont
pas encastres, leurs courbes de rponse et leur directivit doivent tre irrprochables
ainsi que leur positionnement et orientation. Dans les deux cas, la convergence des
enceintes devant le point dcoute permet de rgler le C20 la valeur dsire en mme
temps que daugmenter la zone dcoute (sweet spot).
Seule, la paroi arrire comporte une zone absorbante qui permet lextinction de lnergie tardive et donc de matriser le RT60.
Dans le grave, lutilisation dlments absorbants (basstrap, panneaux rsonnant, etc.)
est souhaitable afin de rguler le C20 et le RT60, comme dans toute cabine.

(a)

(b)
Figure2.27Ralisation de cabines diffusion rpartie (avant et arrire de la cabine).

Bien entendu, cette cabine non polarise est particulirement bien adapte au mixage
multicanal en5.1 ou7.1.

2.6.5 Avantages et inconvnients en multicanal


Nous distinguons deux types de cabines: les cabines acoustique polarise et celles
acoustique rpartie.
Les cabines acoustique polarise de type Tom Hidley et LEDE sont conues pour
la strophonie en 2.0. Elles nont pas de sens en multicanal5.1 et le seul moyen de
les utiliser malgr tout en5.1 est de travailler en proximit, au dtriment de la zone
dcoute alors trs rduite, voire ponctuelle.
Les cabines acoustique rpartie, non polarises de type amortissement rparti
ou diffusion rpartie sont penses pour le multicanal5.1 ou7.1 tout en tant
parfaitement compatibles en 2.0 et reprsentent donc la meilleure solution pour ce
format. Le choix entre ces deux concepts se fera en fonction du besoin en dynamique

2.7 Linfluence

de lamplificateur

et en niveau sonore maximal, la cabine diffusion rpartie, plus conservatrice de


lnergie, permet lobtention dun niveau de travail et dune dynamique suprieure
pour une mme puissance denceintes, mais est plus difficile mettre en uvre et
demande un ajustement acoustique et un rglage lectronique prcis, ainsi quun choix
judicieux denceintes.

2.7

Linfluence de lamplificateur

2.7.1 Les diffrentes technologies


Nous distinguerons les amplificateurs analogiques et les amplificateurs dits numriques.
Complment
Web 2.13
Ces technologies sont dtailles sur le site Web.

Dunod Toute reproduction non autorise est un dlit.

2.7.2 Limites des mesures classiques, interactions avec les hauts parleurs
et incidence sur lcoute en5.1
La mesure dun amplificateur nest pas rcente. Elle est traditionnellement ralise en
suivant les normes internationales IEC 60268-3 Ed3 avec des signaux sinusodaux,
en frquence glissante, celui-ci tant charg par une rsistance pure. On en dduit la
bande passante -3dB, la courbe de rponse, le temps de monte, la courbe de phase,
la distorsion, etc. Le problme est, comme pour les enceintes, que ces mesures sont trs
peu corrles aux impressions dcoute du fait de lutilisation de tels signaux nintgrant pas le rgime dynamique couramment rencontr en utilisation relle.
Dautre part, un haut-parleur se comporte trs diffremment dune rsistance pure et
son effet microphonique (force contre lectromotrice), renvoie en permanence dans
lamplificateur des courants gnrs par son propre mouvement. Jai mesur personnellement des courants crtes dpassant trente ampres sur quelques millisecondes que
lamplificateur devait envoyer au haut-parleur afin de matriser le dplacement mcanique de la bobine mobile! Si lamplificateur ne peut pas gnrer cette nergie au bon
instant, la dynamique reproduite est altre, modifiant lquilibre tonal et dynamique,
mais aussi la dfinition et timbre et la transparence.
On peroit donc mieux limportance et le rle subtil que joue lamplificateur sur la
rponse en transitoire dun son complexe. Les mesures MLS, gnrant un signal compos dun pseudo-bruit blanc (ou rose) dont le facteur de crte est de lordre de 3dB, ne
peut donc pas compltement mesurer cet effet parfaitement perceptible loreille, trs
sensible aux variations rapides de niveau sonore. Il faut donc recourir des mesures
moins directes et des savoir-faire que nous ne dtaillerons pas ici.

75

76

Chapitre 2 Le

systme dcoute

En revanche, on comprend tout lintrt davoir des cbles les plus courts possibles
entre lamplificateur et le haut-parleur, et donc lintrt des enceintes amplifies. En
multicanal, les enceintes amplifies sont un plus, mais ncessitent un minimum de
ventilation et bien sr, une alimentation secteur.
Cependant, dans le cas damplificateurs numriques, ces interactions amplificateur/
haut-parleur sont beaucoup moins sensibles aux courants microphoniques gnrs par
les hautparleurs et ce type de technologie permet de placer un amplificateur multicanal plus loin des enceintes, dans la baie technique, par exemple, pour autant que le
cble soit de bonne section.
Diffrentes configurations sont possibles, un choix souvent retenu est un filtrage passif
pour le mdium aigu et actif pour le grave. Un filtre passif (au-dessus de 500Hz) peut
donner dexcellents rsultats condition quil soit bien pens.
Dans tous les cas, les amplificateurs doivent tre identiques sur les cinq voies exceptes
pour lamplificateur du SUB qui doit tre plus puissant, mais de mme technologie,
sous peine de modifier considrablement lquilibre dynamique et tonal de construction avant/arrire ainsi que le type denveloppement.

2.8

Normalisation dune coute multicanal

2.8.1 Normes ITU-R BS.775.1 et 2


Configuration gomtrique
Il est trs important de respecter les angles de +/ 30 pour FR et FL (Front Left, Front
Right), ce qui permet une parfaite compatibilit avec la strophonie en 2.0. Langle
vertical doit tre de 0 ( hauteur doreilles).
FC se trouve videmment au centre ( 0) horizontal et 0 vertical.
SL et SR (Surround Left, Surround Right) sont anguls entre +/ 100 et +/ 120
horizontal et entre 0 et + 15 vertical.

Figure2.28Implantation gomtrique du systme dcoute en5.1.

2.8 Normalisation dune

coute multicanal

Les enceintes surround (SL et SR) peuvent tre ddoubles avec RS1/LS1 et RS2/LS2
situes +/ 80 et +/ 150 horizontal. Langulation verticale ne change pas.
En format7.1, il suffit daffecter les canaux SL, SR, BSL et BSR aux enceintes surround
dj prvues dans la configuration5.1 avec enceintes surround ddoubles. Cette
configuration est facilement compatible avec le format5.1 sans changer la position des
enceintes.

Figure2.29Implantation gomtrique du systme dcoute en7.1.

Dunod Toute reproduction non autorise est un dlit.

Dautres prconisations peuvent tre possibles, avec par exemple, des angles de 90 et
120 pour les enceintes surround. Comme nous lavons vu, les sept enceintes doivent
tre identiques.

Bass Management
Le bass-management (voqu prcdemment) est indispensable tant donn que la trs
grande majorit des installations grand public en est pourvue. En effet, si on dispose
denceintes acoustiques ayant une bonne capacit reproduire le spectre en pleine bande
avec un niveau suffisant, il peut tre tentant de mixer sans utiliser ce procd. Cependant, il est important de comprendre quune sommation lectrique (gnration de filtres
en peigne, dtimbrage) nest pas quivalente auditivement une sommation acoustique
(gnration dun effet despace et denveloppement). Par consquent, si lutilisateur final
possde un systme avec bass management, il est fortement conseill de mixer dans cette
configurationet le risque est grand de ne pas retrouver un mixage effectu sans bassmanagement sur une installation lutilisant!

77

78

Chapitre 2 Le

systme dcoute

Figure2.30Principe du bass-management.

La norme ITU prvoit daiguiller les frquences basses (< 80Hz en codage DTS et < 120Hz
en codage Dolby) dans le Sub Bass et, ainsi, de le mlanger au canal LFE (Low Frequency
Effect). La pente des filtres lectroniques utiliss doit tre suprieure ou gale 24dB/octave.
Une fois de plus, ce rglage doit tre pratiqu avec soin par un oprateur comptent!
Le rglage doit tre ralis avec prcision afin que la transition soit harmonieuse et
naturelle.
Laugmentation de 10dB du canal LFE sur le monitoring est obligatoire
en gnral et provient historiquement de la norme impose par Dolby.
Cependant, ce rglage +10dB nest pas utilis pour les mixages musicaux
purs (nous prciserons pourquoi par la suite).

Niveaux dalignement pour production TV, DVD et Blu-ray


Pour une production DVD ou Blu-ray, le niveau dalignement, mesur au sonomtre
au point dcoute doit tre de 79 dBC par canal et correspondre un niveau lectrique
de sortie de console de 18dBFS. Le signal de calibrage est un bruit rose large bande.
Si les voies surround sont ddoubles, on veillera ce que laddition soit ralise avec
soin telle que [SR1 + SR2 =79 dBC] et [SL1 + SL2 =79dBC].
Le niveau dalignement de la voie LFE est de + 10dB par rapport aux autres canaux
(ce qui permet de sous moduler le signal LFE dautant en mixage). On parle de gain de
bande de frquence (In-band-gain).

2.8 Normalisation dune

coute multicanal

79

Figure2.31Mesure de lalignement dune coute5.1 en productionTV, DVDet Blu-ray.

ATTENTION!
- Si on dispose dun analyseur de spectre, on mesurera directement les
+10 dB sur lcran de lanalyseur.
- Si on ne possde quun sonomtre et compte tenu des lois de sommations
acoustiques en fonction des largeurs de bande, le niveau dalignement
du LFE sera de 83dBC, cest--dire le niveau de rfrence augment
de +4dB.
- Laugmentation de 10dB seffectue uniquement sur la voie LFE et non
sur le caisson de grave (Sub Bass) en cas de bass-management.

Niveaux dalignement pour production Pure Audio Blu-ray, DVD audio

Dunod Toute reproduction non autorise est un dlit.

et SACD

Pour une production Pure Audio Blu-ray ou SACD, les niveaux dalignement seront
les mmes quen DVD et Blu-ray (79 dBC par canal/-18 dBFS/bruit rose) except pour
le rglage de la voie LFE qui doit se faire au mme niveau relatif (0dB), mesur
lanalyseur de spectre.
Si on dispose uniquement dun sonomtre, le niveau dalignement du LFE sera de 73
dBC afin de tenir compte de ltroitesse de la bande de frquence de ce canal.

80

Chapitre 2 Le

systme dcoute

Figure2.32Mesure de lalignement dune coute5.1 en production musicale pure


(1/3 doctave au point dcoute).

Le bass-management seffectue de la mme faon et avec les mmes prcautions.

Les prconisations acoustiques et lectriques


Complment
Web 2.14

LITU prconise des configurations gomtriques, des rglages de niveaux


et des performances acoustiques pour les cabines qui sont dcrites et
commentes sur le site Web.

2.8.2 Normes Cinma (ISO 2969/1987(E)/SMPTE ST202-2010)


Configuration gomtrique
La configuration est trs diffrente de la norme ITU rserve au Broadcast et aux applications grand public et nest pas compatible avec le format 2.0.
Langle de FR et FL est de +/ 20, tandis que le nombre denceintes surround, places
sur les parois latrales peut varier entre quatre et douze suivant la dimension de lauditorium de mixage ou de la salle de projection.

2.8 Normalisation dune

coute multicanal

81

Figure2.33Gomtries du systme de diffusion LtRt, 5.1DolbyDigital/DTS, 6.1 Dolby Digital


EX/DTSES, 7.1SDDS, 7.1 Dolby Surround, CST.

Niveau dalignement
Les niveaux dalignement et de travail sont galement trs diffrents, compars aux
normes ITU.

Dunod Toute reproduction non autorise est un dlit.

Pour les voies avant (FR, FC et FL), on veut obtenir 85 dBC par canal au point dcoute
(derrire la console en mixage ou au 2/3 de la salle en projection) pour un niveau de
sortie de console de 20 dBFS avec un bruit rose large bande.

2/3

2/3

20 20
1/3

1/3

85 dBc
par canal

2/3

1/3

85 dBc
par canal
zone
d'coute

Figure2.34Alignement des enceintes frontales.

82

Chapitre 2 Le

systme dcoute

Pour les enceintes surround, cest la sommation de toutes les enceintes qui doit gnrer
85 dBC dans les mmes conditions ( 20 dBFS et au point dcoute).

Figure2.35Alignement des enceintes surround.

Comme pour la norme ITU (DVD, TV, Blu-ray), le niveau dalignement de la voie LFE
doit tre +10dB par rapport aux enceintes principales, mesur par un analyseur de
spectre 1/3 doctave. Si on utilise un sonomtre, le niveau de calibrage sera de 89 dBC,
pour tenir compte des largeurs de bande.
Alignement

temporel des enceintes frontales

Il est noter quaucune spcification ne prvoit de normaliser lalignement


temporel des enceintes frontales :
Celles-ci peuvent tre alignes physiquement. La voie centrale est alors en
avance temporelle par rapport aux deux autres.
Celles-ci sont alignes temporellement grce lutilisation des retards
inclus dans les processeurs actuels et le signal de chaque enceinte frontale
arrive en mme temps au point de rglage dans la salle.
Des exprimentations auditives ont montr que les mixages diffraient
notablement suivant ces deux coles, notamment pour le placement spatial
des voix.

Courbes ISO X et SMPTE


La courbe de pondration dite ISO X utilise pour galiser au bruit rose lensemble
enceintes +salle existe depuis les annes soixante environ. Celle-ci a t mise au point
empiriquement et auditivement en tenant compte de la technologie de lpoque. Les
pavillons daigu trs long tant trs dispersifs temporellement (avance de lordre de
3ms au-dessus de 1000Hz); les crans de cinma taient peu transparents acoustiquement (une attnuation de 10dB dans laigu ntant pas rare); lacoustique des salles

2.8 Normalisation dune

coute multicanal

83

tait trs absorbante et croissante dans laigu; les mesures au bruit rose, discutes prcdemment donnaient une image fausse de lquilibre tonal peru; enfin la distance
dcoute tait trs grande. Cest ainsi que cette courbe ISO X a t labore!
Parfaitement dactualit, lISO X est encore utilise, bien que la technologie ait beaucoup
chang (pavillons moins dispersifs et mieux contrls en directivit, crans plus transparents acoustiquement, possibilit de modeler la rponse impulsionnelle du systme,
etc.). Il est donc important que la norme prconise de lutiliser, avec des modifications
en fonction de la dimension de la salle, ce qui donne trois courbes ISO X diffrentes.

Figure2.36Courbes ISO2969X.

Dunod Toute reproduction non autorise est un dlit.

Plus rcemment, et en fonction de progrs des transducteurs utiliss en salle, la courbe


SMPTE 202m introduit une variante en fonction de la frquence et permet de prciser
lallure de la courbe dans le mdium aigu.

Figure2.37Courbes SMPTE202 (2010).

84

Chapitre 2 Le

systme dcoute

Les prconisations acoustiques et lectriques


Complment
Web 2.15

Les configurations gomtriques, les niveaux dalignements et les


caractristiques acoustiques des auditoriums de mixage sont dcrits et
comments sur le site Web, ainsi que les recommandations THX.

2.8.3 Lcoute au casque multicanal


Jusqu prsent, lcoute au casque permettait dapprhender les critres dquilibre,
de dfinition et de rverbration. Cependant, lestimation de la construction et de la
stabilit de limage sonore en strophonie 2.0, 5.1 ou7.1 taient impossibles avec un
casque binaural classique, performant ou non.
Lcoute au casque se diffrencie de lcoute strophonique sur enceintes par son impossibilit reproduire une localisation identique en largeur et en profondeur. En effet, en
perception binaurale naturelle, chaque oreille reoit un signal de la source sonore.

Figure2.38coute binaurale.

Ces deux signaux sont caractriss par une diffrence de niveau, une diffrence de
temps mais aussi des dformations en amplitude et en phase trs complexes dans la
bande mdium-aigu, tudies et connues sous le nom de fonctions HRTF (Head Related Transfer Function).

2.8 Normalisation dune

coute multicanal

Figure2.39Exemple de fonctions HRTF.

Dunod Toute reproduction non autorise est un dlit.

Ces dformations sont dues la forme particulire de notre oreille, tte et torse et
donnent une signature sonore diffrente pour chaque angle solide (horizontalement et
verticalement); celles-ci sont identifies et compares une base de donnes existante
dans le cerveau, ce qui nous permet de localiser un son dans les trois dimensions. Lors
de lcoute sur deux enceintes situes +/ 30 horizontal, le cerveau peut utiliser
cette facult et localiser une ou des sources virtuelles lintrieur de cet angle, par un
artefact quon appelle lastrophonie (du latin stereo qui signifie relief).

Figure2.40Perception strophonique.

Un casque nenvoie quun seul canal chaque oreille avec un angle fixe de 90 par
rapport laxe de notre tte et se trouve donc incapable de restituer cette espace, do
limpossibilit de lutiliser pour caractriser en construction une prise de son.
Il est vident, quen multicanal cinq ou sept canaux, le problme est encore plus
insoluble. De multiples essais ont t tents pour reproduire cet espace horizontal que

85

86

Chapitre 2 Le

systme dcoute

propose ce format en fabriquant des casques haut-parleurs multiples situs lavant


et larrire de la tte, sans vritable succs, par manque de prcision et dtimbrage.
La seule voie intressante tait de reconstituer les fonctions HRTF correspondant
aux angles de restitution rels des enceintes, ce qui est prsent possible grce aux
processeurs de plus en plus puissants.
Trois problmes restaient alors rsoudre:
les fonctions HRTF ne sont pas universelles et varient dun individu lautre;
lors de lcoute naturelle, nous bougeons sans arrt notre tte, souvent inconsciemment, afin de faire rapidement varier ces fonctions et donc localiser plus facilement
la source;
la rponse en amplitude et en phase dun casque dpend principalement du couplage physique avec notre oreille du grave laigu, le volume de la cavit oreille/
casque tant trs faible.
Trs rcemment, ces problmes ont t rsolus et lon trouve sur le march des casques
dune part, munis dun calibrage individuel permettant mesure et mise en mmoire
de nos propres fonctions HRTF et, dautre part, pourvus dun capteur dangle situ au
sommet de la tte permettant le calcul en temps rel des variations HRTF lis nos
mouvements. Enfin, une galisation fine permet de compenser les variations de niveau
et de phase dues au couplage physique avec notre oreille.
En plus, le systme propos permet de mesurer et de mettre en mmoire les caractristiques dune coute multicanal en5.1 ou7.1 relle in situ et de reproduire celle-ci au
casque, avec ses dfauts ventuels et son environnement!

Figure2.41Principe du casque SmythSVS.

Cette technologie est videmment base sur des calculs utilisant la rponse impulsionnelle prcdemment dcrite.
Malgr tout, lcoute au casque ne remplacera jamais une coute sur enceinte, plus
confortable et moins contraignante, mais peut tre considre comme complmentaire
suivant le contexte et les besoins en production.

2.9 Lcoute

multicanal et limage

Radio France propose galement des missions en codage binaural avec un choix de
fonctions HRTF adaptes aux diffrentes typologies doreilles.

2.9

Lcoute multicanal et limage

2.9.1 Influence sur notre perception


A priori, on constate que la prsence de limage modifie notablement notre perception
du son.
Ce chapitre est dvelopp en dtails sur le site Web.

2.9.2 Rapports dimensionnels entre les imageries sonores et visuelles


Le format de limage ainsi que sa qualit imposent une distance de vision optimale en relation avec ceux-ci. Les prconisations ciaprs seront valides pour une image de type HD.
Par rapport cette distance optimale, si la distance dcoute est trop courte, les distorsions angulaires (indice SDS) peuvent dpasser les 12% pour des sujets sonores
spatialiss virtuellement et le rapport entre diffrents sujets sonores sera modifi (relief
et linarit despace). linverse, si cette distance est trop grande, la prcision de localisation sera altre.

Dunod Toute reproduction non autorise est un dlit.

Il existe donc des prconisations prcises (tudies par G.Steinke: Paper International
Tonmeister Symposium, novembre2005) permettant doptimiser ces combinaisons en
mixage TV et en mixage Cinma et reprsentes dans les figures2.42, 2.43 et2.44.

Figure2.42Rapport hauteur dimage et distance de visualisation.

87

88

Chapitre 2 Le

systme dcoute

Figure2.43Configuration pour une distance dcoute h=2H.

Figure2.44Configuration pour une distance dcoute h=3H.

Le fait daugmenter le nombre de canaux arrire (7.1) ou simplement le nombre denceintes surround en ajoutant de la dcorrlation permet en pratique une augmentation
de la zone dcoute trs apprciable en mixage limage.

2.10 Lcoute domestique en multicanal


2.10.1 De la HI-FI au Home-cinma
Avec la dmocratisation de la strophonie, les annes soixante-dix ont vu natre commercialement la HauteFidlit. Les dbuts de cette technologie se bornaient principalement recrer des sources relles localises dans les enceintes. Assez rapidement,

2.10 Lcoute

89

domestique en multicanal

les mlomanes et amateurs clairs ont souhait une reproduction plus naturelle, avec
lenvie dassister un concert, poussant en avant les technologies de plus en plus sophistiques et faisant appel des prises de son dites acoustiques naturelles. Les sources
relles ont fait place une imagerie sonore reproduisant des sources virtuelles beaucoup
plus riches en motions. Lespace strophonique stalait non seulement en largeur,
mais aussi en profondeur. Lquilibre spectral et dynamique est devenu de plus en plus
grand.
Pouss par le label THX, la monte du homecinma fut alors invitable dans les salons.
Les audiophiles hifistes cdent peu peu la place aux cinphiles. Mais ces deux mondes
ont eu bien du mal sunifier. En effet, les qualits recherches semblaient assez incompatibles, les audiophiles recherchant avant tout la qualit et les nuances musicales alors
que les cinphiles taient sensibles au niveau et la dynamique. Les matriels ddis
ces deux segments commerciaux navaient rien en commun et semblaient mme incompatibles.
Le

label thx version grand public

Notons plusieurs volutions et extensions de ce label ddi au home-cinma


grand public:
- Dune part, le THX Ultra (pour grandes salles) et le THX Select (version
conomique pour petites salles) en5.1 et garantissant une grande
puissance sur tous les canaux avec des niveaux de 105dB sans distorsion.
- Dautre part, le THX Ultra 2 le THX Select 2, plus litistes et prconisant
une restitution en7.1 canaux.

Dunod Toute reproduction non autorise est un dlit.

Une autre particularit est de proposer des enceintes surround dipolaires


permettant dobtenir une immersion accrue dans le champ acoustique et
lemploi de diffuseurs 2D et 3D sur les parois latrales de la salle.

Figure2.45Configuration dune installation home-cinmaTHX.

90

Chapitre 2 Le

systme dcoute

Les enceintes Back Surround (BSL et BSR) sont alimentes par le mme
canal de mixage, mais le processeur THX inclus dans le pramplificateur
home-cinma assure une dcorrlation temporelle de celui-ci afin de crer
un champ arrire plus diffus et non focalisant, amliorant ainsi limmersion.
Ce systme selon THX est trs intressant en home-cinma, mais il nest pas
adapt pour la reproduction audiophile en HI-FI multicanal (SACD et Blu-ray
music).

Actuellement, grce aux progrs des mesures lectroacoustiques, les systmes homecinma et les systmes HI-FI se sont rconcilis et la norme ITU rend compatible les
deux types utilisation avec un mme matriel permettant des rglages et optimisations
adaptes (grce au recours des processeurs numriques de plus en plus volus et pertinents). La tlvision HD facilite sans doute le dveloppement et la convergence de ce
march qui sera relay dans les annes venir par les systmes multimdias intgrant
aussi les jeux vido et Internet. Les supports Blu-ray permettent galement de satisfaire
les mlomanes les plus exigeants ainsi que les cinphiles avertis. Les liaisons (fibre
optique) et serveurs grand dbit vont galement amplifier cette mutation.
Actuellement une installation audiovisuelle domestique de ce type se configure selon
le schma suivant:

Figure2.46Synoptique dune installation domestique moderne.

Du point de vue de lquilibre dynamique et de la transparence, les supports et rseaux


numriques rejoignent et dpassent les performances objectives et subjectives des

2.11 Calibrage dune

coute et optimisation par corrections lectroniques

meilleurs systmes analogiques grce aux formats hautes rsolutions du type PCM
24/96 et aux algorithmes de compression de dynamique de plus en plus performants.
Cependant, il est craindre que lvolution de ces technologies gnre deux marchs
diffrents et divergents: le multimdia de masse avec des sons trs compresss privilgiant la quantit la qualit et laudiovisuel hi-tech de haut de gamme visant un public
socialement plus rudit, limage dune socit litiste deux vitesses
Il est important de comprendre que le fait dhabituer les jeunes gnrations couter
des sons compresss avec une fausse dynamique (MP3, Smartphone, ordinateur, etc.)
modifie lapprentissage du langage en lappauvrissant et par voie de consquence risque
de modifier leur manire de penser et le dveloppement de leur esprit critique. Des
tudes trs srieuses mais peu connues ont t menes ce sujet.
coute

hi-fi, home- cinma et multimdia

- Le home-cinma, apparu dans les annes quatre-vingt-dix a cr une


diversion par rapport au monde de la HI-FI. Les motivations tant
diffrentes, les systmes dcoute sont galement trs divergents, voire
incompatibles dans certains cas.
- Le niveau sonore et la dynamique sont primordiaux chez les cinphiles
alors que le timbre, la transparence et le relief sonore sont essentiels pour
les hifistes!
- Actuellement, lintroduction de processeurs de plus en plus sophistiqus
ainsi que le dveloppement des mesures par rponse impulsionnelle tend
favoriser la convergence et la compatibilit des deux mondes. Les systmes
haut de gamme actuels permettent la fois une coute fine et dynamique.
Mme les crans actuels (plasma, LED, etc.) incorporent des systmes
audio de qualit bien suprieure leurs homologues de la fin du XXesicle.

Dunod Toute reproduction non autorise est un dlit.

- On assiste galement lentre du monde du jeu vido et de linformatique


de rseau dans lenvironnement home-cinma et HI-FI, sous la forme de
serveurs trs sophistiqus. Ceux-ci reprsentent sans doute lavenir de ce
march.

2.11 Calibrage dune coute et optimisation par corrections


lectroniques

2.11.1 Correction ou compensation?


Avant daborder le calibrage dune coute tel que nous lavons vu prcdemment, il est
ncessaire de sassurer de la neutralit de chaque enceinte associe son environnement. Aprs avoir optimis au maximum lacoustique de la rgie pour obtenir un chogramme rgulier avec le moins daccidents possibles, ceci en fonction des contraintes
physiques (et budgtaires) du local, nous sommes amens envisager des solutions

91

92

Chapitre 2 Le

systme dcoute

lectroniques afin de maximaliser la qualit de notre coute par rapport nos


besoins et suivant le type de production.
Il y a deux solutions possibles, souvent confondues, et qui ne sont pas quivalentes en
niveaux de performances:

Figure2.47Correction ou compensation?

les corrections corrigent les dfauts en les supprimant rellement.


les compensations, compensent les dfauts vis--vis de notre audition, souvent par
laddition dautres dfauts psycho-acoustiquement opposs, mais ne les suppriment
pas physiquement.
Lexemple de la figure2.48 montre la compensation de lquilibre spectral peru dune
enceinte par une analyse et galisation en 1/3 doctave. Si nous effectuons aprs correction, une analyse bande fine en mesure MLS, nous voyons que les dfauts de couplage physique au local (dans le grave) et les dfauts propres lenceinte associe aux
premires rflexions (dans le mdium-aigu), existent toujours et auront une incidence
sur la transparence et la localisation des sources. Lquilibre tonal peru est compens
mais les dfauts dorigines restent non corrigs.

2.11.2 Les diffrents moyens lectroniques, filtres analogiques,


filtres numriques IIR, filtres numriques FIR,
les optimiseurs de champ acoustique
Dans les diffrentes solutions de correction et/ou de compensation, nous distinguerons
les filtres analogiques et les filtres numriques. Les filtres analogiques, un peu obsoltes
lheure actuelle, ne sont plus beaucoup utiliss, au bnfice des filtres numriques.
Dans les filtres numriques, il nous faut distinguer les filtres IIR (Infinite Impulse
Response) des filtres FIR (Finite Impulse Response).
Les filtres IIR sont des filtres dont lamplitude et la phase sont lies (une correction
amplitude/frquence gnre obligatoirement un dphasage temporel associ) permettent de faire des compensations et/ou des corrections limites, suivant les processeurs et la mthode utilise.

Dunod Toute reproduction non autorise est un dlit.

2.11 Calibrage dune

coute et optimisation par corrections lectroniques

Figure2.48Exemple dgalisation au 1/3 doctave: compensation.

93

94

Chapitre 2 Le

systme dcoute

Les filtres FIR sont des filtres dont lamplitude et la phase sont indpendantes (possibilit de correction en amplitude/frquence sans dphasage temporel) permettent
de faire des corrections beaucoup plus puissantes et prcises et donc plus pertinentes.

Figure2.49Corrections et compensations par moyens lectroniques.

Ces filtres sophistiqus peuvent tre associs un simple microphone de mesure omnidirectionnel, une sonde directivit croissante, appele physio-angulaireTM et
dveloppe par la socit Taylor Made System, qui permet de rejeter les rflexions
arrires non amalgames au son direct par notre audition.

Figure2.50Sonde directivit croissante.

On peut aussi utiliser une sonde tridimensionnelle, dveloppe par la socit Trinnov Audio qui est assimilable une sonde intensimtrique. Dans ce dernier cas, nous
pouvons parler de correction de champ acoustique ou de correction et compensation

2.11 Calibrage dune

95

coute et optimisation par corrections lectroniques

spatiale. La diffrence entre la pression acoustique et le champ acoustique rside dans


le pouvoir sparateur de ce dernier suivant la provenance et la direction de la source
incluant ses premires rflexions.

Figure2.51Mesure et calcul dun champ acoustique.

Intensit

acoustique

Ia

Contrairement la pression acoustique qui est mathmatiquement un


scalaire, lintensit acoustique est un vecteur et donc inclut des informations
de direction en plus de celle de niveau:
Ia (en w/m) = Wa / S
o Ia est un flux dnergie dans une direction donne (Wa tant une
puissance acoustique et S la surface lmentaire considre).

Dunod Toute reproduction non autorise est un dlit.

Ceci permet une correction slective suivant la direction et mme de synthtiser un


champ acoustique rel provenant dune source virtuelle (qui nexiste pasphysiquement!).

Figure2.52Optimisation avance dun champ acoustique.

96

Chapitre 2 Le

systme dcoute

ce stade, il faut noter la diffrence avec le principe de la strophonie, o limage de


la source sonore virtuelle nat dun artefact de notre audition (ni la source, ni le champ
acoustique nexistent!).
Dans le cas de la synthse dun champ acoustique, la source nexiste pas, mais le champ
acoustique est bien rel!
Par exemple, une enceinte acoustique mal place au regard de la norme ITU (pour
des raisons dergonomie ou dencombrement), peut tre repositionne correctement et
apparatre trs plausiblement au bon endroit. On parle alors de repositionnement ou
remaping de la source sonore la position dcoute; la seule restriction tant que
ce repositionnement nest optimal quau point dcoute (sweet spot) avec nanmoins un
largissement de cette zone plus ou moins grand en fonction du contrle de la directivit des enceintes et de lenvironnement propre de celles-ci.

Figure2.53Exemple de remaping par lOptimizer de Trinnov Audio.

Cette application est particulirement intressante dans les cars rgis ou les cabines
exigus, o le placement des enceintes est trs restrictif.

2.11 Calibrage dune

coute et optimisation par corrections lectroniques

Outils

de traitement et de correction

Dautres outils de traitements numriques existent. Sans tre exhaustif, on


peut citer:
- Processeur London de chez BSS (technologie IIR);
- Processeur DME de chez Yamaha (technologie IIR);
- Processeur Lake de chez Lab Grouppen (technologie FIR).
Tous ces processeurs voluent rapidement en fonctionnalits et puissance de
calcul, ce qui et va dans le sens des besoins actuels induits par lvolution et
la pertinence des systmes de mesures vus prcdemment.

2.11.3 Prise en compte des circuits de production et des cultures dcoute


Les compensations et corrections en vue de rendre neutre le systme dcoute
(enceintes + salle) ne sont pas suffisantes en enregistrement et mixage. Une deuxime
phase de traitement est ncessaire afin de garantir la compatibilit avec lutilisation
finale, compatibilit qui dpendra du type du circuit de production.
On peut donc distinguer diffrents circuits de production:

Dunod Toute reproduction non autorise est un dlit.

La production musicale sur support CD, DVD ou Blu-ray;


La production TV;
La production cinmatographique;
Les productions spcifiques (musographie, parcs dattraction, plantarium, etc.);
Les productions mdias globales.

Grce aux mesures par rponses impulsionnelles et aux processeurs FIR, il devient
possible de mesurer et de reproduire une courbe cible correspondant aux circuits de
production type, ceci dune manire statistique. Dautres ajustements, plus subtils
doivent tenir compte des diffrences deffets de masque dus aux acoustiques diffrentes entre le lieu de mixage et le lieu de diffusion. Ces ajustements peuvent se faire
par modification du traitement acoustique et/ou par introduction dun anti-signal
gnr par les enceintes via un processeur FIR volu. Dans tous les cas, ce travail ne
peut se faire quavec la complicit et la confiance de lingnieur du son et avec le recul
suffisant. On pourrait comparer cette coopration avec celle du pilote et du prparateur
dans le domaine de la Formule 1 en automobile.

2.11.4 Diagnostic et test dun systme dcoute5.1 par mthode entirement


auditive lintention des ingnieurs du son
Il existe de nombreux CD et DVD de rglage destins aux amateurs HI-FI, aux cinphiles et aussi aux ingnieurs du son. Gnralement, ces productions sont, ou ludiques,
ou complexes, ou les deux et traitent souvent en plus du rglage de limage. Dans tous

97

98

Chapitre 2 Le

systme dcoute

les cas observs dans les applications professionnelles, il est ncessaire de disposer dun
sonomtre talonn pour faire les rglages afin de rgler le niveau dalignement absolu.
La mthode, propose sur le site Web, nutilise que notre audition et fait appel ses
caractristiques physiologiques. En effet, notre sensation de niveau sonore varie avec
la frquence du son. Cette variation est donc incluse et compense dans le contenu
audio de la session de test. Le niveau de rfrence est important puisquil dtermine
la courbe disosonie utilisable pour les compensations auditives. Un instrument de
musique coutumier des exploitants son a t utilis pour ce faire. Le seul instrument
ncessaire est donc loreille exerce de lingnieur du son.
Par ailleurs, celui-ci ne disposant en gnral que de peu de temps, la mthode privilgie ici lefficacit et la rapidit danalyse plutt que laspect ludique, la finalit de ce
test tant de diagnostiquer rapidement le systme dcoute et de se rassurer quant au
niveau de confiance du mixage ralis.

Diagnostic dune coute5.1 en session Protools


Complment
Web 2.16

Le test auditif est propos intgralement sur le site Web avec possibilit de
tlchargement de la session.

Les objectifs sont:


diagnostiquer rapidement la qualit dune coute5.1 sans recourir la mesure;
Calibrer lcoute non seulement en niveau, mais aussi en polarit et en alignement
temporel;
galiser sommairement chaque voie en tenant compte de son environnement (effet
de fusion) et de lacoustique tardive de la salle (quilibre spectral li au C20).

2.12 Perspectives et volutions


2.12.1 Laugmentation du nombre de canaux (7.1 22.2 ou 23.1)
Partant du principe de base du multicanal5.1 et la capacit des processeurs sans cesse
en augmentation, une extension du nombre de voies est tentante afin daugmenter
limmersion sonore de lauditeur et accder ainsi des effets spciaux de plus en plus
sophistiqus.
Ces diffrents formats ayant dj t prsents prcdemment, on se limitera les citer
sans tre exhaustif le format7.1, le format 10.2, le format 22.2, etc.
Chacun prsente des avantages et volutions par rapport au5.1, mais reste bas sur
le principe de la strophonie et de la cration de sources acoustiques virtuelles

2.12 Perspectives

et volutions

rendues de plus en plus stables et prcises grce au rapprochement des enceintes


entre elles.
En mme temps, la complexit et les contraintes physiques des installations limitent le
dveloppement commercial et la vulgarisation de ces formats, dont le champ dapplication privilgi demeure les diffusions publiques comme les cinmas, parcs dattractions, salles de spectacle, etc.

Dunod Toute reproduction non autorise est un dlit.

Pour les salles de cinma, on voit apparatre des voix clestes trs intressantes pour
crer des effets sonores et des ambiances de znith. Cest le cas pour certains plantariums, parc dattractions et salles IMAX.

Figure2.54Synoptique dinstallation en6.2 avec voie znith au Plantarium


de la Cit des Sciences Paris (tude TaylorMadeSystem).

99

100

Chapitre 2 Le

systme dcoute

Figure2.55Schma dimplantation du systme son.

Imm Sound en 23.1


La technologie 14.1 23.1 rcemment introduite par Imm Sound prsente lintrt
dune grande immersion (ventuellement trs raliste) dans le champ rverbr recr.
Pour ce faire, elle sappuie uniquement sur des sources de diffusion en hauteur dans
les trois dimensions (au znith et derrire lcran), mais aussi sur une extension du
nombre de voies latrales et arrires, le tout associ un processeur permettant de
grer les effets et le placement des sources. Ce systme de diffusion est compatible avec
les formats5.1 et7.1, via la gestion du processeur.

Figure2.56Principe du systme.

2.12 Perspectives

101

et volutions

Dunod Toute reproduction non autorise est un dlit.

Figure2.57Implantation des (23 +1) enceintes.

Figure2.58Exemple de ralisation 23.1 Dsseldorf.

Nous imaginons facilement que le nombre de voies ne peut pas augmenter indfiniment si on souhaite des formats reproductibles dun lieu lautre et restant viables
financirement. Dautres solutions radicalement diffrentes voient le jour actuellement.
Des solutions qui ne sont plus bases sur limagerie sonore virtuelle.

Dolby ATMOS
Cette volution met en uvre de multiples enceintes supplmentaires permettant la
reproduction de sources sonores dans le plan de la hauteur. Elle vise donc une immersion en 3-D dans le champ acoustique. Le positionnement dans le plan vertical est

102

Chapitre 2 Le

systme dcoute

tabli avec rigueur afin de permettre une reproductibilit des effets sonores quelle que
soit la salle. Par ailleurs, des voies latrales avant comblent lespace habituellement
vide entre les enceintes de faade et les enceintes surround classiques. Des caissons
de graves (LFE) additionnels peuvent galement tre positionns larrire de la salle.
Complment
Web 2.17

Cette technologie rcente est dtaille sur le site Web ainsi que le mixage
objet associ.

NHK, TV Ultra Haute Dfinition en 22.2


La chane de tlvision japonaise NHK, sous limpulsion de Kimio Hamasaki, responsable du service recherche de la chane propose un format son multicanal 22.2 associ
une image de trs haute qualit. Le systme est compos de trois couches denceintes:
une couche suprieure avec neuf canaux;
une couche mdiane avec dix canaux;
une couche infrieure avec trois canaux et deux voies LFE.
Comme pour le systme Imm Sound, le but recherch est une meilleure immersion
dans le champ rverbr, plus de possibilits artistiques de spatialisation et aussi un
sweet spot (zone dcoute correcte) bien suprieure un systme5.1.
couche
suprieure
9 canaux

cran

spectateurs
LFE

couche
intermdiaire
10 canaux

couche
infrieure 3
canaux2 canaux
LFE

Figure2.59Principe du format22.2.

Le systme est destin des diffusions de grandes dimensions, les expriences menes
utilisaient un cran de projection de 10m de base avec une rsolution permettant un
angle de vision de 100, mais celui-ci peu tre dclin pour la tlvision Ultra Haute
Dfinition pour usage domestique.

2.12 Perspectives

103

et volutions

HDTV

UHDTV

Nombre pixels

1080 1980

4320 7680

Angle de vue

30 lhorizontal

Plus de 100 lhorizontal

Rsolution

quivalente un film en 35 mm

Plus de 2 fois un film en 70 mm

Figure2.60Comparaison dune image HDTV et UHDTV.

La normalisation du standard 22.2 prvoit un alignement temporel de toutes les


enceintes par rapport un point dcoute central, ce que schmatise la figure2.61.
Le niveau dalignement en bruit rose est de 85 dBC par canal pour 18 dBFS mesur
au sonomtre avec +10dB pour chaque canal LFE, cart bande par bande mesur
lanalyseur 1/3 doctave.

Dunod Toute reproduction non autorise est un dlit.

Figure2.61Normalisation du format 22.2.

Ce format de diffusion est compatible avec un support5.1 et mme 2.0 et les enregistrements en 22.2 sont galement transfrables (down mixage) dans les formats5.1 et 2.0.

2.12.2 Laprs multicanal? Le WFS et le Transaural et la 3D


Le principe WFS
Le principe du WFS (Wave Field Synthesis) ou synthse de front donde, nest pas
rcent et rsulte de recherches menes en laboratoire comme lIRCAM ou luniversit de Delft au PaysBas dont les premires exprimentations remontent aux annes

104

Chapitre 2 Le

systme dcoute

quatre-vingt. Ces techniques ont connu de trs importants dveloppements au dbut


des annes deux mille, dans le cadre du projet europen Carrouso. Sur ces bases les
socits Sonic Emotion en Suisse et Euphonia en France ont sorti ces tudes du laboratoire en rendant le systme plus conomique.
Le principe de base, assez simple est radicalement diffrent de celui de la strophonie
qui vise la cration dimages sonores et de champs acoustiques virtuels. Il sagit ici
de recrer des champs acoustiques rels partir de sources sonores qui peuvent tre
virtuelles selon le principe dHuygens, le tout tant gr par un ordinateur contrlant
chaque haut-parleur sparment, avec autant de voies damplification. ce niveau, on
retrouve lapproche du remaping de Trinnov Audio qui tend optimiser un champ
acoustique en un point prcis dcoute, alors quici, il est question de synthtiser un
front donde rel peru naturellement sur une large zone dcoute, comme dans la
ralit dune source relle.
Principe dHuygens
Huygens en 1678 a nonc ce principe trs intuitif en observant le
comportement dondes la surface de leau: les vibrations qui se propagent
lextrieur dune surface ferme So contenant la source sont identiques
celles quon obtiendrait en supprimant cette source et en la remplaant par
des sources convenablement rparties sur la surface So.

(S)
A
source primaire

front donde
recr partir
des sources
secondaires

attnuation

mission d'un front d'onde


partir des sources
secondaires (A) places
sur la surface d'onde (So)
de centre (C) et de rayon (R)

(So)

Figure2.62Principe dHuygens.

2.12 Perspectives

et volutions

105

La consquence de ce qui prcde est que lon sort du paradigme qui prvaut le plus
souvent en sonorisation et qui consiste disposer dune source par canal de restitution (une enceinte pour le canal gauche, une pour le canal droit, etc.). Dans le cas de
la WFS, on sappuie sur un rseau de transducteurs rgulirement espacs, puis on
gre le nombre de sources sonores virtuelles correspondant autant de positions de
sources spatialement localises que dsir. Le champ sonore se dploie alors sur toute
la zone de public en fonction des positions des sources virtuelles comme sil sagissait
de sources relles. Lauditeur nentend plus la sonorisation, mais une scne sonore beaucoup plus naturelle!
Complment
Web 2.18

Le dveloppement de cette nouvelle technologie est largement expos sur


le site Web.

Les applications sont trs nombreuses, en thtre, concert live, parcs dattraction, mais
aussi cinma 3D et ce systme reprsente sans doute une des solutions davenir du
multicanal!

Dunod Toute reproduction non autorise est un dlit.

La technologie Transaurale
Il sagit ici de recrer exactement le stimulus dorigine peru par les oreilles lors dune
coute naturelle. La technologie Transaural permet la localisation des sources sonores
grce lutilisation par notre cerveau des fonctions HRTF vues par ailleurs. La solution
la plus simple est de reproduire au casque un enregistrement effectu laide dune tte
artificielle de type binaurale avec, si possible, un tracking des mouvements de la tte
afin de compenser leffet de sa rotation.
Une autre solution est possible avec deux haut-parleurs, il sagit des techniques transaurales dont le principe repose sur une annulation des chemins croiss (crosstalk ou
cancelling): il faut donc traiter le signal lectrique de faon ce que loreille gauche
ne reoive que le signal du canal gauche et inversement (comme dans un casque, mais
avec un angle dattaque par rapport loreille beaucoup plus rduit). Ces solutions ont
dabord t proposes par Schroeder et Attal, puis dveloppes par Cooper et Bauck.
Lcoute strophonique, grce linterfrence entre les canaux gauche et droite, cre
une imagerie virtuelle comme le montre le schma de la figure2.63.

106

Chapitre 2 Le

systme dcoute

Figure2.63Restitution strophonique standard.

Lcoute transaurale tente de supprimer ces interfrences (chemins croiss) en utilisant


les fonctions HRTF qui correspondent aux angles dincidence de chaque chemin par
rapport chaque oreille et en les convoluant (traitement mathmatique utilisant le
principe de convolution mathmatique) de manire ce quil ne reste chaque oreille
que le signal original de lenregistrement binaural.

Figure2.64Restitution transaurale.

Le traitement des signaux binauraux, issus par exemple dune tte artificielle permet
une restitution 3-D par la technique de lannulation de ces chemins croiss. Le ralisme
de reproduction par cette technique peut tre tout fait tonnant: on peut parfaitement
entendre des sources places dans tout lespace y compris larrire. Mais ce rsultat est

2.12 Perspectives

107

et volutions

conditionn lannulation exacte des signaux croiss et donc la prcision de la position


de la tte et en particulier une position axiale. Cette approche est tout fait adapte
une coute type jeu vido pour laquelle la place de lauditeur devant un cran est fige.
Pour viter cette trop grande sensibilit aux dplacements, il a t propos par lISVR,
Universit de Southampton, une solution un peu diffrente, la technologie Stro Diple:
en approchant les deux enceintes de reproduction jusqu rduire langle environ 10,
on peut diminuer linfluence des dplacements et des colorations. Mais ceci a une contrepartie: lannulation des trajets croiss ncessite des puissances importantes dans le grave.
Afin de limiter cet inconvnient, diffrentes propositions ont t envisages:
changer lcartement des haut-parleurs en fonction des frquences en cartant plus
les HP de grave par rapport aux aigus;
limiter le traitement des signaux croiss dans une zone de frquence entre 500Hz et
1500Hz, cette zone contenant les principales informations vis--vis de la localisation.
Yamaha a propos un circuit DSP de traitement Stereo Dipole qui a t utilis, entre
autres, par CreativeLabs, dans le systme Playworks PS2000. Dautres traitements sont
implments dans des cartes audio pour ordinateurs. Ces technologies ont sans doute
aussi un avenir pour les crans de tlvision.
La mesure et le calcul des fonctions transaurales peuvent tre faits laide dune tte
artificielle ou par une tte naturelle en chambre anchoque suivant le principe ci-aprs.

Dunod Toute reproduction non autorise est un dlit.

Figure2.65Enregistrement des fonctions


transaurales.

Lutilisation des techniques transaurales peut galement tre applique lenregistrement et au mixage en complment de systmes multicanal en5.1, en particulier afin de
stabiliser la localisation des sources latrales surround et ainsi agrandir sensiblement
la zone dcoute pour lauditeur. Des tudes pratiques ont t ralises entre autres, au
Conservatoire National Suprieur de Musique de Paris (CNSMDP).

108

Chapitre 2 Le

systme dcoute

Figure2.66Exemple dexprimentation
effectue au CNSMDP par traitement transaural
sur une coute5.1.

La restitution en 3D
On introduit ici la dimension dinformations en hauteur dj initie par le systme
Dolby Atmos, mais avec une approche dimagerie sonore virtuelle tendant le principe
de la strophonie dans le sens vertical.
Nous pouvons citer sans tre exhaustif, le systme Auro-3D, le systme HOA, le WFS
3D, les recommandations ITU-R BS-2051, etc.
Complment
Web 2.19

Ces nouvelles technologies prometteuses sont dtailles et dcrites sur


le site Web.

Chapitre 3
Les facteurs perceptifs

En stro on regarde une scne travers une fentre,


en multicanal on se situe lintrieur de la scne
Points

essentiels

- Le standard stro: limage fantme et la diaphonie acoustique, les limites


du standard.
- Le5.1 et ses contraintes.

Dunod Toute reproduction non autorise est un dlit.

- Localisation dans lespace.


- Principe de fonctionnement, fonctions HRTF, prcision de localisation, angle
minimum audible, effet Haas et la multiplication des sources, perception
de la distance, perception des sources latrales, zone dcoute, influence
de la vision sur la localisation, internalisation et externalisation, synthse
binaurale.
- 
Impression spatiale, acoustique des salles, taille de lenvironnement,
spaciousness (largeur, enveloppement), rverbrance.
- Attention auditive, rapports son limage, dislocalisation, distraction.
- bauche de solutions pour lanalyse de limage sonore multicanal.

La perception en multicanal est lie la culture dcoute de lauditeur. Sil nest


pas accoutum au format, ce dernier aura besoin dun temps dadaptation pour se

110

Chapitre 3 Les

facteurs perceptifs

dfaire des automatismes de la stro. Certaines esthtiques, dites frontales (dveloppes dans le chapitre4) scoutent plutt facilement car elles font rfrence des
images relles que le cerveau traite quotidiennement dans la perception naturelle
de lespace. Cette approche consiste reconstruire limage sonore perue dans une
situation o laction se droule dans lespace frontal, de faon scnique: le sport,
le documentaire, la fiction TV, le concert en sont des exemples concrets. Dans ce
contexte, limage sonore spatialise donne un sens tout spectacle ou vnement
dans lequel, un effet de salle ou dambiance extrieure est prsent. Nous verrons par
la suite que le cinma est un cas particulier o la narration issue de limaginaire
du spectateur soppose trs souvent la perception raliste auditive, il fait appel
limaginaire du spectateur.
Lorsque lexploration de lespace se fait autour de lauditeur, intgrant le
champrverbr et le champ direct, lesthtique est quirpartie, elle dfinit trs
souvent des images sonores virtuelles, peut-tre plus difficiles apprivoiser
pourcertains. Lcriture du scnario est nouvelle et remet en question la ralisation: cest le caspar exemple de la fiction sonore en radio, la cration sonore, la
musique acousmatique, les musiques actuelles, une scne de film qui immerge le
spectateur dans laction.
Le dispositif5.1 est certainement plus complexe que le standard strophonique (voir
chap 2) mais il offre plus de possibilits. Il permet de placer le spectateur dans un
champ sonore. On parle alors deffet dimmersion: les sources sonores sont localises sur le cercle dfini par le dispositif dcoute5.1 et/ou au-del, on parle alors
denveloppement, mais certaines sont perues lintrieur. Lorsque les sources sont
localises lintrieur du cercle, proche de la tte de lauditeur, on parle alors dinternalisation. Une des difficults du5.1 consiste raccorder le champ frontal avec le
champ arrire afin dobtenir une homognit. Dans ce sens, le7.1, utilisant quatre
enceintes pour la restitution latrale et arrire, est un standard plus homogne et
simplifie la dmarche.
La psycho acoustique dfinit un certain nombre de facteurs perceptifs rpertorisdans ce chapitre qui aideront le lecteur une meilleure comprhension des
rgles du5.1: dfinition du standard stro et du fonctionnement de limage fantme, lapport du5.1, les contraintes du dispositif, la perception sonore spatialise
(le principe de localisation, limpression spatiale), le principe de lattention auditive.
Lanalyse de ces facteurs perceptifs nous permettra de dfinir limage sonore au
chapitre4.

3.1

Le standard stro
Dfinissons tout dabord le standard strophonique et rappelons le principe de fonctionnement de limage fantme.

3.1 Le

111

standard stro

Une image fantme se cre lorsque les deux champs sonores issus des deux enceintes
gauche et droite sont quasi identiques, et lorsque lacoustique de la pice est adapteet que lauditeur est centr sur son sweet spot (point de convergence du systme dcoute). Alors, lauditeur peut localiser limage sonore par sommation des
deux champs sonores. Limage fantme est une image virtuelle (qui soppose aux
sources relles que sont les haut-parleurs stro), car elle peut gnrer une infinit
de sources que lauditeur localisera sur un angle de 60, sil est positionn au sweet
spot.
Cette image fantme stro a deux limites.
La premire limite vient de leffet de prcdence (dfini par la suite) qui contraint lauditeur se placer au sweet spot. Il est bien connu que limage sonore est sensible
la position de lauditeur, si ce dernier se dcentre lgrement et soriente vers sa gauche
ou sa droite, sa localisation se porte rapidement vers lenceinte correspondante, et pour
un dplacement important la localisation par sommation ne fonctionne plus, lauditeur
peroit alors un champ sonore droite ou gauche. Le dplacement de lauditeur vers
lavant ou larrire modifie aussi la perception.

Dunod Toute reproduction non autorise est un dlit.

Le standard stro trouve aussi ses limites dans leffet de diaphonie acoustique
inhrent au procd. Lors de lcoute stro, quatre champs sonores sont considrer. Lenceinte gauche produit du son en direction de loreille gauche et loreille
droite, elle diffuse ainsi deux champs sonores. Lenceinte droite produit aussi, de
faon symtrique, les deux champs sonores opposs. Le champ sonore issu du hautparleur gauche, qui se dploie vers loreille droite, est considr comme de la diaphonie acoustique. Une source relle mettrait un seul champ sonore direct chaque
oreille tandis quune image fantme en produit deux. Le son issu du haut-parleur
gauche arrive loreille droite avec une diffrence de marche denviron 200s, en
comparaison avec loreille gauche et subit la diffraction due la tte. Il en rsulte,
par sommation des champs sonores, un filtrage en peigne qui donne une courbe
de rponse en frquence accidente, prsentant une forte attnuation vers 2kHz,
dans la zone de prsence, et des rjections vers laigu. Limage fantme sonne donc
plus distante, moins prcise, tandis que le centre rel port par lenceinte centrale,
appel hard center ou centre physique, sonne plein, riche.

Image

fantme stro

- Lauditeur est contraint de se positionner au sweet spot pour bien


localiser.
- Attnuation du spectre vers 2kHz, consquence de la diaphonie acoustique.
- Les sources centres sont virtuelles, les sources latralises sur les
enceintes sont relles et sonnent pleines.

112

3.2

Chapitre 3 Les

facteurs perceptifs

Apport du5.1
Le dispositif5.1 est un dveloppement de la stro en deux dimensions, sur le plan horizontal. Il faut faire appel des formats suprieurs pour apporter linformation dlvation,
tels que le format Dolby Atmos, lIMAX (utilis la Gode), le 10.2 propos par Tomlinson
Holman, les formats Auro-3D, ou le 22.2 de la NHK.
Le dispositif5.1 largit tout dabord le point dcoute, notamment grce lenceinte
centrale qui permet lauditeur de se dcentrer tout en gardant une image bien localise. Leffet de dcalage de localisation existe toujours avec le centre mais il est nettement moins important que pour la stro.
Lenceinte centrale introduit la notion de source relle centre, en comparaison avec
limage fantme virtuelle, porte par les enceintes gauche et droite. Le centre rel nest
pas sujet la diaphonie acoustique, il sonne plein, non accident contrairement au
centre virtuel. Lenceinte centrale, combine aux enceintes gauche et droite, permet
dobtenir une scne frontale plus riche, plus large, offrant une bonne stabilit des
sources, une localisation plus prcise avec moins de distorsion angulaire, un meilleur
timbre et une plus grande clart pour les sources centres. Cependant, lutilisation
des trois canaux frontaux peut savrer imprcise, si lon ne procde aucun rglage
du systme dcoute. Loptimisation du dispositif permet dharmoniser les enceintes,
et, dans ce cas, la combinaison dun centre fantme et dun centre physique est plus
homogne. Sans optimisation, limage est disperse, on entend souvent les enceintes
sparment. Les sources mono diverges dans le frontal, rparties entre le centre, la
gauche et la droite, sont dmultiplies en trois sources au lieu de converger vers une
seule source centrale.
Limage sonore obtenue par le dispositif5.1 reproduit sur 360 les rflexions latrales
prcoces et le champ rverbr, lesquels se dploient tout autour de lauditeur donnant
ainsi une meilleure lecture de larchitecture de lvnement sonore. La perception est
naturelle, sans repliement despace, avec une sensation denveloppement et dimmersion dans le champ sonore. La reprsentation mentale est plus forte.
Enfin, les canaux arrire trouvent un meilleur quilibre grce la prsence de lenceinte centrale.
Apport

du5.1

- Deux types de centres: centre fantme issu des canaux L et R; hard center,
ou centre physique, provenant de lenceinte centrale seule; combinaison
de sources centres relles et virtuelles.
- Avec lutilisation du centre, les sources frontales sont plus stables, meilleure
restitution de leurs timbres, meilleur rapport son limage.
- Enveloppement et immersion dans le champ sonore.
- Internalisation possible.

3.3 Le

dispositif5.1 et ses contraintes

113

Dans cet apport du 5.1, deux nouveaux paramtres sont considrer, il sagit de
limpression spatiale, qui dfinit lespace ressenti par lauditeur et le principe de
lattention auditive. lcoute dun programme multicanal, lauditeur est sollicit
par les diffrents messages affrents tout autour de lui, ces informations concourent
leffet denveloppement. La localisation, travers le dispositif5.1, est dfinie en deux
dimensions, dans le plan horizontal, intgrant toutes les directions externes, au-del
du cercle dcoute dfini par les enceintes, ainsi que la direction interne entrant vers
le point dcoute (voir figures3.26 et 3.27). Nous verrons dans la partie attention
auditive que le spectateur peut rapidement tre gn auditivement par des sons venant
des cts et de larrire.

3.3

Le dispositif5.1 et ses contraintes

Dunod Toute reproduction non autorise est un dlit.

En thorie, le dispositif5.1 combine dix images fantmes issues des paires denceintes, lesquelles introduisent une certaine corrlation dans limage sonore. Cette
corrlation est ncessaire pour crer une image fantme. Cependant, si la corrlation est trop forte, nous obtenons alors un certain flou dans la localisation et un
talement des sources, les performances spatiales sont alors limites. linverse,
si la sparation des canaux est trop forte, limage fantme ne fonctionne plus. On
constate des trous dans lenvironnement sonore, une baisse du niveau sonore des
images fantmes, et les images sagglutinent sur les enceintes. Cette diaphonie
acoustique dpend des technologies de spatialisation, la prise de son (voir haute
rsolution spatiale), au mixage et la diffusion (voir WFS). Il existe donc, en fonction du systme de diffusion, une sparation optimale des canaux. La sparation
obtenue par le dispositif5.1 nest certainement pas optimale pour la restitution du
champ sonore.
Lutilisation du systme5.1 lorigine nest pas prvue pour une localisation prcisesur 360. Le5.1 vient culturellement du cinma, son centre est utilis pour
les dialogues du film, ses canaux frontaux restituent une localisation prcise
pourles bruitages, les effets et ses canaux surround apportent les ambiances, la
rverbration, les effets ponctuels, la musique en coordination avec les canaux
frontaux. Malheureusement, pour reproduire unespace sonore, nous ne pouvons
disposerduneinfinit de points dediffusion. Nous devons limiter la diffusion un
certain nombredenceintescompatibles avec lconomie de la production audiovisuelle et recrer artificiellement des sources virtuelles, travaillant en images
fantmes. Cest pourquoi le terme de strophonie augmente est peut-tre plus
appropri.

114

Chapitre 3 Les

facteurs perceptifs

La figure3.1 prsente une tude de la BBC sur lanalyse de limage quadriphonique.


H,sD
15

LF
NH
14

vD,vJ 13

vH
0

H,sD
1

RF/LF

RF
NH
2

LF/RF

RB/RF

LB/LF

RB/RF

3vD/vJ

L, vD/vJ 12

40

30

20

10

4 L, vD/vJ

interchannel level-difference, dB
vL, D/J 11

L 10
LB

5 vL, D/J

RF/RB

LF/LB

RB/LB
9
NH

LB/RB

8
H

Front pair
Back pair
Right-hand pair
Left-hand pair
Experimental result
showing standard deviation

7
NH

D
H
J
L
NH
s
v

6L
RB

diffuse
high
jumpy
low
normal height
slightly
very

Figure3.1tude de la perception du format quadriphonique, P.Ratliffe, BBCR&D.


Ce schma est une tude faite en 1975 par la BBC sur la perception des images fantmes en
quadriphonie en fonction de la diffrence de niveau entre paires denceintes adjacentes. Elle rvle
la fragilit des images latrales (images diffuses, instables). Elle indique aussi la dissymtrie avant
arrire du format quadriphonique (localisation 65 de part et dautre du centre pour un son
galement rparti en niveau entre lavant et larrire) et le passage rapide de lavant vers larrire
des sources. Ceci est d une trop faible diffrence interaurale sur les paires denceintes latrales
situes du mme ct de la tte.

En5.1, les angles entre les enceintes arrires (140) et entre les enceintes latrales (80),
sont trop importants pour la cration dimages fantmes stables, il existe une distorsion angulaire consquente et des phnomnes de bascules entre les enceintes ont
lieu. De ce fait, la localisation des sources latrales est extrmement imprcise, indpendamment du systme auditif.
Le7.1 amliore la perception latrale et offre une meilleure cohrence frontale/arrire.

3.4 Localisation

3.4

115

Localisation

3.4.1 Principe de fonctionnement


Paramtres

de localisation dune source

- I TD, IPD diffrences interaurales de temps et de phase, basses frquences.


- ILD diffrences interaurales de niveau, hautes frquences.
- 
Indices spectraux (colorations spectrales des HRTF): prcision de la
localisation dans le plan horizontal.
- Changement des indices spectraux, de lITD et de lILD par rotation de
la tte ou mouvement de la source (indices dynamiques): permet la
distinction avant/arrire des sons.
- Localisation en lvation: indices spectraux correspondant aux fonctions
HRTF monaurales induites par les effets de filtre en peigne des lobes et du
pavillon de loreille externe.

La localisation des sons repose principalement sur la thorie Duplex dfinie par lexistence de critres interauraux, le systme auditif tant quip de deux oreilles.
Pour localiser un son dans lespace, loreille utilise plusieurs paramtres: les critres
interauraux de temps ITD (Interaural Time Difference), de phase IPD (Interaural Phase
Difference) dans les basses frquences, dintensit ILD (Interaural Level Difference)
dans les hautes frquences suprieures 200Hz mais aussi les indices spectraux, dfinis
comme tant les colorations spectrales des fonctions de transfert HRTF (Head Related
Transfert Function). Ces colorations spectrales varient largement dun individu a lautre.

Dunod Toute reproduction non autorise est un dlit.

On dfinit loreille ipsilatrale comme tant loreille claire par londe sonore, et
loreille controlatrale, celle dans lombre.

Figure3.2Paramtres de positionnement
des sources dans le repre de la tte de
lauditeur, P.Guillon.

116

Chapitre 3 Les

facteurs perceptifs

LITD traduit, par une valeur de temps, la diffrence de marche que subit londe sonore
pour atteindre loreille oppose, controlatrale. Le modle de Woodworth donne une
approximation en ondes planes de lITD (voir figure3.3), assimilant la tte humaine
une sphre:
ITD,

modle de

Woodworth

ITD =r/c (q + sinq)


avec r: rayon de la tte, q: angle de provenance de la source.

Figure3.3Caractristiques de londe de contournement de la tte de rayon r, avec q langle de


provenance de la source suivant le modle deWoodworth, P.Guillon.

LITD peut tre ou non significative par rapport aux longueurs dondes des signaux
sonores. Cela se traduit par deux types dITD:
les diffrences temporelles de la structure fine, dites aussi IPD (diffrences de
phase), valables pour les frquences basses, infrieures 1500Hz;
les diffrences de temps denveloppe, valables pour les frquences aigus, partir
de 200Hz.
Lchelle de grandeur de lITD est 0-800s, la plus petite diffrence perue tant de
lordre de 20s. La distance moyenne entre nos deux oreilles est entre 14 et 15cm, elle
influe sur les valeurs maximales dITD.
LILD traduit par une diffrence de niveau, la diffraction et labsorption que subit cette
mme onde. Aux basses frequences, lILD est tres faible, car la tte diffracte peu londe
incidente.

3.4 Localisation

117

LITD et lILD sont des critres dont la valeur est constante pour des positions de la
source et de la tte fixes, ils permettent de localiser le son dans ce que lon appelle le
cne de confusion, dont laxe de symtrie est laxe interaural.

Figure3.4Le cne de confusion


issu des paramtres ITD et ILD seuls,
mis en vidence par Woodworth,
P.Guillon.
Les hyperbolodes correspondent
chacune aux positions de sources qui
gnrent un ITD constant selon le
modle de Woodworth. En gris fonc,
une valeur dITD, en gris clair, une
autre valeur.

Dunod Toute reproduction non autorise est un dlit.

En effet, pour un mme angle dincidence, la diffrence de marche est exactement la


mme que le son vienne de lavant ou de larrire. La mesure des ITD et ILD valeurs
constantes sur une tte humaine donne des cercles concentriques, centrs sur laxe
interaural. Il existe alors une infinit de positions qui engendrent un mme couple de
valeurs dITD et dILD.

Figure3.5Courbes iso-ITD et iso-ILD,


les lignes iso-ITD (en traits pleins) sont
espacees de 100ms, les lignes iso-ILD
(en pointilles) sont espacees de 4dB, les
donnes sont issues de mesures sur une tte
relle, P.Guillon.

118

Chapitre 3 Les

facteurs perceptifs

Lutilisation exclusive de ces deux indices ne permet pas de localiser convenablement les sons en hauteur, la localisation des sons en elevation semble tre contrlee
par leur contenu frequentiel, comme des expriences psychoacoustiques le suggrent. Dautre part, il semblerait que la localisation latrale est gntique, tandis
que llvation est un mcanisme qui sacquiert par la vision (calibration par la
vision).
Les indices spectraux permettent alors la localisation en lvation et lvent lindtermination avant/arrire. Les indices de localisation dynamiques ITD et ILD
obtenus par des micromouvements de la tte vont complter linformation. Par
exemple, pour une source situe devant lauditeur, dans le plan horizontal, si ce
dernier tourne la tte vers la gauche, la source sera localise sur la droite et si ce
dernier tourne la tte vers la droite, la source sera localise sur la gauche. Pour une
source positionne larrire, leffet sera inverse. Lauditeur peut ainsi discriminer
lavant de larrire.
Les figures3.6 et 3.7 reprsentent les variations ILD et ITD en fonction de langle
azimut de la source.

Figure3.6Variations ILD pour des signaux sinusodaux en fonction de langle de la source,


diffrentes frquences. Les positions 60 et 130 donnent les valeurs maximales pour un
signal de frquence 1kHz B.C.J.Moore.

3.4.2 Fonctions de transfert HRTF


Les fonctions de transfert relatives la tte dcrivent la propagation acoustique entre la
source sonore et les oreilles de lauditeur. Elles sont la consquence de la diffraction due
la tte, des rflexions sur les paules, sur le torse, et des rflexions et des diffractions
issues des pavillons de loreille. Elles se traduisent par des profils spectraux spcifiques
en fonction de langle de provenance de la source.

3.4 Localisation

119

Figure3.7Variations ITD en fonction de langle, la position 90 donne la valeur


maximale0,65ms, B.C.J.Moore.

Dunod Toute reproduction non autorise est un dlit.

Ces phnomnes sont considrs comme lempreinte acoustique de lauditeur, laquelle


diffre dun individu lautre. Le pavillon de loreille fonctionne comme une cavit
rsonnante, il ajoute des colorations spectrales variables en fonction de la direction de
la source, appeles indices spectraux. Il semble tre llment clef dans la caractrisation de la fonction HRTF. Chaque direction du son a une courbe de transfert spcifique
et loreille est capable dextraire cette caractristique frquentielle pour retrouver la
provenance angulaire de la source. La fonction de transfert HRTF reprsente la morphologie de la tte, elle est reprsente par une courbe de rponse en frquence (HRTF)
ou par une rponse impulsionnelle (HRIR, Head Related Impulse Response), son quivalent en temps. Cest une fonction trois variables, la frquence ou le temps, la localisation de la source sonore en coordonnes sphriques par exemple (azimut, angle de
radiation et dlvation) et la morphologie de lindividu.
Les rsonances induites par la forme
du pavillon, qui est propre chacun,
naffectent pas les basses frquences en
dessous de 3,5 kHz-4 kHz puisque sa
taille est trop petite en comparaison
avec la forme donde. Pour les hautes frquences, leffet du pavillon est dcrit par
des pics et des trous dont les frquences
dpendent de la direction du son.
On dfinit par indices spectraux les
attributs frquentiels des courbes de
transferts HRTF qui prsentent une
certaine saillance pouvant tre dtecte, analyse et interprte par loreille

hlix
fossette
naviculaire
anthlix
racine de l'hlix
tragus

conque
anti-tragus
lobule de
l'auricule

Figure3.8Morphologie du pavillon de loreille,


R.Nicol, OrangeLabs.

120

Chapitre 3 Les

facteurs perceptifs

afin de localiser le son. Les indices spectraux, qui contribuent le plus la localisation, sont ceux issus des effets des cavits des pavillons de loreille, plus prcisment la
conque. Ceux, issus de la tte et des paules, sont dun intrt moindre et correspondent
des frquences en dessous de 4kHz. Les frquences qui jouent un rle important
dans les indices spectraux des pavillons sont contenues dans la bande 4kHz-16kHz.
Pour localiser le son, le cerveau utilise potentiellement deux mthodes. La premire
consiste utiliser lindice spectral port par le spectre global de la source, en comparant le spectre peru et les spectres des HRTF enregistrs dans la mmoire. La seconde
fait rfrence aux irrgularits cres par les pics et les creux dans le spectre peru.

Figure3.9Pics (P1, P2, P3) et creux


(C1, C2, C3) observs sur les fonctions
HRTF, le niveau est reprsent
par les couleurs, reprsentation
du plan horizontal, P.Guillon.
Encouleursurdunod.com

Figure3.10Reprsentation du plan
mdian, la localisation des sons en
hauteur semble tre contrle par leur
contenu en frquence, P.Guillon.
Encouleursurdunod.com

Dans le traitement des indices spectraux, loreille utilise concomitamment l aussi


deux mthodes: elle traite de faon commune les indices recueillis par loreille
gauche et loreille droite pour les sons centrs vers lavant ou larrire, cela sappelle

3.4 Localisation

121

Figure3.11Reprsentation dans le plan vertical


interaural, P.Guillon. Encouleursurdunod.com

Dunod Toute reproduction non autorise est un dlit.

le traitement binaural, et elle les traite galement de


faon indpendante quand la source est latralise, ce
qui correspond exploiter les HRTF monaurales ipsilatrales (voir la reprsentation des courbes HRTF interaurales et monaurales des figures3.12 et 3.13). Ce filtrage,
dpendant de la direction de la source, produit par le
pavillon de loreille, permet la localisation des sons dans
la direction verticale et le discernement frontal/arrire
des sources.
Lhistogramme de la figure3.14 reprsente une valuation de la qualit de reproduction du son 3D faite partir dune tude sur dix-sept personnes, professionnels du
son mais non spcialistes 3D. Cette tude mene par A.
Silzle, publie lors du sminaire VDT ICSA 2011, compare
des restitutions de contenus 22.2 en Auro-3D 9.1, ITU
BS 7755.1 et stro, compars en rfrence au 22.2. Sont
reprsents aussi les rendus sonores par downmix du 22.2
nomms Downmix 9.1 ou Downmix5.1. Le rendu sonore
Multichannel 9.1 est issu du 22.2 en dsactivant les canaux
du 22.2 non utiles, le Multichannel5.1 est obtenu de la
mme faon.

Figure3.12 Fonctions de transfert interaurales, J.Blauert.

122

Chapitre 3 Les

facteurs perceptifs

Figure3.13Fonctions de transfert monaurales, J.Blauert.

Figure3.14valuation de la qualit de reproduction du son3D, B.Priaux daprs A.Silzle,


S.George, E.A.P.Habets, T.Bachmann.

3.4 Localisation

123

En figure 3.15 une tude rcente sur la perception de hauteur, mene par J. Barbour,
publie par G.Theile et H. Wittek pour une diffusion sur un format Auro-3D.

Figure3.15tude du panning dintensit pour llvation, enceinte horizontale 0,


enceinte de hauteur +45, J.Barbour.

Dunod Toute reproduction non autorise est un dlit.

Cette tude reprsente la moyenne et lcart type des positions de sources perues dans
le plan vertical, sur un format Auro-3D 9.1, suivant une diffrence damplitude entre les
enceintes horizontales et les enceintes de hauteur. Dans le format Auro-3D, les enceintes
de hauteur sont positionnes un angle dlvation de 30. Les rsultats traduisent un
tassement des sources entre 0 et 15, domaine o le pan-pot dintensit en lvation
fonctionne. Au-del de 15, les valeurs sont beaucoup plus disperses. Le pan-pot dintensit entre les enceintes horizontales et les enceintes verticales peut tre utilis, mais
la perception des sources reste trs instable, et les sources subissent un filtrage.
En conclusion sur la perception dlvation, les enceintes de hauteur amliorent nettement
la perception naturelle despace, la diffusion en hauteur de leffet de salle est convaincante.
En revanche, la localisation du son direct par image fantme entre les enceintes horizontales et les enceintes de hauteur ayant le mme azimut semble trs imprcise et instable
(par exemple lenceinte frontale gauche horizontale et lenceinte gauche en hauteur du format Auro-3D 9.1). Selon des exprimentations rcentes de Mike Williams, la localisation
entre une enceinte centrale place +45 de hauteur et les enceintes horizontales gauches
et droits donnerait de meilleurs rsultats, ce qui met en vidence lintrt de disposer
les enceintes en triangle entre la couche horizontale et la couche hauteur (autre exemple
dans la zone latrale, enceinte avant droite horizontale +30, enceinte hauteur droite
+90 dazimut et +45 dlvation et enceinte arrire droite horizontale +110). Dautres
exprimentations sont ncessaires afin de dfinir un format de diffusion 3D de type 9.1.

124

Chapitre 3 Les

facteurs perceptifs

Dans la phase du mixage multicanal, chaque angle dfini par la norme5.1 fait appel
une fonction de transfert HRTF spcifique, lorsque lon sollicite le placement des
sources au-del de 50, lquilibre spectral est modifi au-dessus de 4kHz. TomlinsonHolman voque lexprimentation suivante, reprsentant la diffrence de spectre
entre un son plac 30 dans le frontal et 120, larrire. La diffrence de spectre
apparat pour la zone de frquence allant de 1,5kHz jusqu 7kHz, dans laquelle la
source perd de son niveau, jusqu une dizaine de dB. Il en rsulte une perte de dfinition, de timbre, de clart.

Figure3.16Diffrences dintensit avant/arrire (30/120) en fonction de la frquence


pourune configuration5.1 avec un positionnement des enceintes arrire 120, T.Holman.

Ce phnomne pose le problme dhomognit spatiale pour un son localis entre


lavant et larrire. En effet, toute source place dans les zones latrales utilise limage
fantme L/LS ou R/RS, et la localisation par sommation des deux sources issues des
deux enceintes ne fonctionne que trs rarement car les deux champs sonores sont diffrents. En effet, lauditeur peroit plutt deux sources quune seule, une source naturelle
dans le frontal et une source dtimbre larrire. Ceci reprsente une des faiblesses
du format5.1: sa localisation latrale est limite. Pour pallier cette faiblesse, il existe
certains outils de synthse HRTF permettant damliorer la localisation des sources latrales en rquilibrant les spectres, mais cela suppose que lauditeur ne tourne pas la tte.

3.4.3 Prcision de localisation


Afin de caractriser les incertitudes de localisation, dans les exprimentations suivantes, on immobilise la tte de lauditeur. Pour une source 0 par exemple, on
mesure lincertitude de localisation frontale, la tte de lauditeur faisant face cette
direction. Les mesures pour les provenances frontales, arrire, latrales et verticales
ont t menes par J. Blauert. La localisation en azimut dans le frontal et larrire est
prcise, mais moins bonne sur les cts; la localisation en lvation est aussi moins
bonne.

3.4 Localisation

125

Zones dincertitude

de localisation

Localisation en azimut

Localisation en lvation, plan mdian

- Dans laxe frontal: 7 .

- 20 40 .

- larrire: 11 .
- Sur le latral: 20 .

Figure3.17Reprsentation des incertitudes de localisation en azimut des sources avec la


moyenne, donnes recueillies auprs de 600900 sujets, dont la tte tait immobilise, les stimuli
tant des pulsations de bruit blanc dune dure de 100ms, de niveau 70phones, J.Blauert.

Dunod Toute reproduction non autorise est un dlit.

Pour un individu sourd dune oreille, les valeurs dincertitudes augmentent considrablement.

Figure3.18Reprsentation des incertitudes de localisation en azimut des sources avec la moyenne,


donnes recueillies auprs de 600900sujets, sourds de loreille gauche et dont la tte tait immobilise,
les stimuli tant des pulsations de bruit blanc dune dure de 100ms, de niveau 70phones, J.Blauert.

126

Chapitre 3 Les

facteurs perceptifs

Le schma de la figure3.20 reprsente ltude du filtrage dans la perception dlvation


et de localisation frontale/arrire des sources.
En synthse sur la prcision de localisation, loreille localise de faon trs prcise dans
le latral, mais le degr de prcision est bien moindre pour llvation.

Figure3.19 Reprsentation
des incertitudes de
localisation en lvation des
sources, donnes recueillies
auprs de 7 sujets, dont la
tte tait immobilise, les
stimuli tant de la parole
continue par une personne
familire, dun niveau de 65
phones J.Blauert

Figure3.20tude de leffet
du contenu frquentiel sur
la perception de llvation,
frontale et arrire, les
frquences autour de 8kHz
semblent tre localises
au-dessus de la tte, les
frquences 10kHz et 1kHz
semblent provenir de larrire,
les frquences 200Hz, 2kHz
et 16kHz semblent provenir de
lavant J.Blauert.

3.4.4 Angle minimum audible


Pour caractriser langle minimum audible pour des sons squentiels, dans les expriences suivantes, lauditeur est maintenant libre de tourner la tte afin de prciser la
localisation de la source, faisant ainsi appel aux indices spectraux dynamiques. Langle
minimum que loreille peut discerner varie en fonction de la direction de la source
sonore, il est de 1 pour une source prsente 0 dans le plan horizontal; dans le plan
vertical, langle passe 3. Cet angle est faible dans le frontal mais augmente progressivement dans les secteurs latraux et larrire. Ltude de la figure3.21 reprsente les
valeurs dans le plan horizontal.

3.4 Localisation

127

Figure3.21Variations de langle minimum


audible en fonction de langle de provenance
de la source pour des frquences de
1kHzet500Hz, lauditeur tant libre
de tourner la tte. On retrouve la valeur
1 dans laxe frontal, jusqu 60 de
provenance les valeurs restent infrieures
3 et partir de 60 de provenance, les
valeurs croissent fortement.

ANGLE MINIMUM AUDIBLE (degrs)

10
500 Hz
1000 Hz

30
60
AZIMUT (degrs)

90

Dunod Toute reproduction non autorise est un dlit.

Figure3.22tude de la
variation de langle minimum
audible en fonction de la
frquence pour des valeurs de
provenance de 0, 30, 60, 75,
B.C.J.Moore.

3.4.5 Perception de la distance


La perception de la distance fonctionne partir de plusieurs indices, notamment pour
les sons familiers, le niveau peru est un critre important. Cet indice savre tre
encore plus efficace lorsque plusieurs sources sonores sont prsentes, de telle sorte que
loreille peut comparer les diffrents niveaux perus. Cest un indice efficace dans le
jugement des distances absolues.

128

Chapitre 3 Les

facteurs perceptifs

Lindice spectral est aussi utilis pour des distances modres, mettant en vidence
les proprits dabsorption de lair. Les hautes frquences sont plus rapidement attnues que les basses frquences, en fonction aussi de la prsence de vent et du taux
dhumidit de lair. Cet indice est dpendant de la familiarit avec les sources, il
est efficace dans le jugement des distances relatives mais pas dans lvaluation des
distances absolues.

Figure3.23tude de lattnuation en niveau de la propagation arienne en fonction de la


distance et de la prsence de vent, suivant la frquence. Les frquences aigus sont les premires
attnues ( partir de 1kHz) et la prsence de vent agit considrablement sur lattnuation globale
du niveau, J.Blauert.

Pour les sons proches de la tte, ce sont les valeurs dILD plus importantes, qui permettent dvaluer leur distance (effet de champ proche).
Dans une salle, lvaluation de la distance en absolu et en relatif se fait grce au rapport CD/CR et au temps initial, dlai entre le son direct et les premires rflexions. Le
spectre du son rflchi, altr par les premires rflexions, peut aussi servir dindice de
jugement de la distance.
Pour conclure, les informations obtenues des diffrents indices sont combines pour
valuer la distance, les deux principaux critres restant le niveau peru et le rapport
CD/CR. Ces deux indices donnent des rsultats dpendants du type de source, et de sa
position angulaire (azimut).
Le jugement de la distance est assez imprcis, des erreurs denviron 20% sont assez
communes pour des sons non familiers. Les valeurs perues pour les sons proches
ont tendances tre survalues, tandis que pour les sons lointains, les valeurs ont
tendance tre sous-values.
La variation de distance dune source mobile donne des carts de niveaux perus qui
diminuent avec la distance. On peut en conclure que la dynamique constitue trs certainement un critre dcoute intressant dans lvaluation de la distance.

3.4 Localisation

129

Paramtres

pour lvaluation de la distance apparente

- Attnuation du niveau.
- Rapport CD/CR.
- Attnuation des frquences aigus.
- Dynamique des sons.
- Variation spectrale.
- Variations dILD plus importantes pour les sons proches.

3.4.6 Perception des sources latrales et zone dcoute


Ltude de la figure3.24 reprsente la localisation des sources sur le demi-cercle gauche
de lcoute5.1, dfini par le centre, la gauche et larrire gauche. On tudie les valeurs
angulaires des sources perues, en faisant varier la diffrence dintensit entre les diffrentes enceintes, ce pour trois positions de lauditeur:
1: positionnement au sweet spot;
2: positionnement recul et dcal vers la gauche;
3: positionnement devant le sweet spot.
Les valeurs reprsentes sont la moyenne en noir et lcart type en gris.

Dunod Toute reproduction non autorise est un dlit.

Figure3.24tude de la localisation
sur un dispositif5.1ITU, G.Theile.

Cette tude rvle la fragilit de lcoute5.1 par rapport au placement de lauditeur. Un


mauvais placement gauche-droite a un effet limit sur la perception de limage sonore,
tandis quun dplacement dans la profondeur induit un dcalage important des sources

130

Chapitre 3 Les

facteurs perceptifs

vers lavant ou larrire. Ltude rvle aussi, par la reprsentation des excursions des
valeurs de localisation, une localisation des sources latrales imprcise, entre 50 et 110.
partir de cette tude, on peut conclure que le dplacement dans la profondeur est
plus critique que le dplacement latral, et limage frontale est plus robuste que limage
latrale. Limage sonore5.1 reste fragile par rapport au dplacement de lauditeur, il
faut faire appel un dispositif optimis (voir chapitre2) ou aux technologies WFS pour
stabiliser la construction de limage et largir la zone dcoute.
Suite ces exprimentations, la zone dcoute est un critre important, il est indispensable de sy dplacer pour valuer la robustesse de limage sonore, ainsi que les
variations spectrales possibles en rapport avec la diaphonie acoustique des canaux
du multicanal (lexemple du double MS prsente ces variations spectrales lorsquon se
dplace juste autour du sweet spot).

3.4.7 Effet Haas et multiplication des sources


Lutilisation de plusieurs sources nest pas sans difficult. Sil est relativement ais de
se placer distance gale des deux haut-parleurs dun systme strophonique, cela
devient plus compliqu lorsque lon multiplie le nombre de sources. Un seul point
dcoute au centre du cercle est alors dfini pour le format5.1.
La localisation dune source sonore repose sur la loi du premier front donde: la source
perue en premier est identifie comme lunique provenance. Cela explique pourquoi
nous pouvons localiser une source sonore dans un environnement rverbrant comme
lors dun concert par exemple.
Pour 0ms < Dt < 1,1ms, latralisation par sommation;
Pour 1ms < Dt < 25-30ms, loi du premier front donde ou effet de prcdence,
source latralise, zone du filtrage en peigne;
partir de 40-50ms, phnomne dcho.

Figure3.25Analyse des 50 premires ms du son, G.Theile.

3.4 Localisation

131

Comme la figure3.25 lindique, leffet Haas a lieu partir dune diffrence de temps de
1ms jusqu environ 30ms. Il nest pas ngligeable dans le cas dune diffusion multipoint. Cet effet intervient avec une diffrence de temps darrive suprieure 1ms, ce
qui correspond une diffrence de marche de seulement 34cm. Entre 1ms et 10ms a
lieu leffet de fusion qui caractrise la modification du timbre peru de la source et de
sa localisation en fonction de la frquence.
La position de lauditeur par rapport aux diffrentes enceintes du dispositif5.1 est
donc sensible, la localisation fragile de limage sonore est dautant plus critique que
les enceintes ne sont pas toujours temporellement alignes. Avec un systme dcoute
optimis, la localisation des sources est plus prcise.

3.4.8 Influence de la vision sur la localisation


La perception sonore est constamment confronte aux informations visuelles recueillies par le cerveau. En multicanal, on peut facilement imaginer que la spatialisation sur
360, multipliant les informations traiter va dautant plus complexifier le processus.

Dunod Toute reproduction non autorise est un dlit.

La vision peut jouer un rle important en prcisant le positionnement de la tte dans


lespace. Selon B. C.J. Moore, nous sommes capables didentifier une source sonore
comme immobile, mme si lon tourne la tte et que le son qui arrive aux oreilles en est
chang. En quelque sorte, linformation de position de la tte et linformation de localisation perue de la source sonore sont toutes deux combines dans linterprtation du
cerveau pour en valider la cohrence. Il ne faut pas ngliger linfluence de lorientation
visuelle perue dans linterprtation des indices sonores spatiaux. Cest--dire que la
plus forte reprsentation spatiale implique lintgration des informations provenant
des diffrents sens.

3.4.9 Internalisation et externalisation


Le phnomne dinternalisation a lieu lorsque la localisation dune source est intracrnienne. Ce phnomne est prsent pour toute coute au casque stro traditionnelle. La stro stend sur une ligne allant de loreille gauche loreille droite, dans
la tte de lauditeur. Selon J. Blauert, il a lieu aussi dans un contexte de reproduction
dune mme source ou bien de deux sources ressemblantes sur des haut-parleurs qui
se font face, cest le cas pour les diagonales L/Rs et R/Ls. Cette perception interne
rsulterait selon D.Griesinger du comportement de lITD. Si ce dernier varie trs peu
lorsque lauditeur tourne la tte, il en rsulte par association pour le cerveau un seul
flux auditif. La perception nest plus externe, la localisation est intracrnienne ou
proche de la tte. Le rle du pavillon de loreille, outre le fait de localiser les sources,
comme prcdemment, est de crer la perception externe des sons. La prsence de
rverbration y contribue.
Pour conclure, nous obtenons une localisation intracrnienne, ou proche de la tte,
pour une source (ou deux sources trs ressemblantes) rpartie sur deux enceintes
opposes.

132

Chapitre 3 Les

facteurs perceptifs

Ceci dtermine un nouveau paramtre pour la caractrisation de limage sonore multi


canal, que lon peut nommer localisation interne ou internalisation.

Figures3.26 et 3.27De gauche droite, reprsentation dimages sonores


avec externalisation et internalisation (ou localisation interne des sources), B.Priaux.

Une corrlation forte des cinq canaux du multicanal internalise donc limage sonore:
cest le cas pour un mixage qui ne serait pas assez dcorrl, ou pour un systme de prise
de son multicanal trop concident. Dautre part, il existe des lieux o linternalisation est
tout fait possible et naturelle, par exemple un intrieur voiture, ou bien un ascenseur.

3.4.10 Synthse binaurale


Il existe aujourdhui diverses solutions de reproduction de lespace pour le casque par
synthse binaurale. Toutes appliquent le principe de correction HRTF aux canaux
entrant, partir dinformations gnrales ou moyennes de formes et de dimensions
de pavillons de loreille, de ttes et de torses.
Sans procd de virtualisation, un son monophonique cout au casque positionne la
source au centre de la tte, tandis quun signal strophonique positionne les sons sur
une ligne de gauche droite en passant par le centre de la tte, mais jamais en dehors
comme dans la perception naturelle. Avec une source multicanal, les procds de virtualisation binaurale ouvrent effectivement la perception et llargissent mme au-del
du casque. Le rendu sonore diffre bien videmment en fonction du type de casque
utilis (ferm, ouvert, intra-auriculaire).
La localisation des canaux arrire fonctionne gnralement bien. En revanche, la localisation frontale est plus limite, avec notamment un canal central difficile percevoir
devant soi. Dans tous les cas, aucun de ces procds ne peut prtendre aujourdhui

3.4 Localisation

133

reproduire parfaitement la localisation obtenue partir de cinq ou davantage denceintes rparties autour de lauditeur. La personnalisation des HRTF et lutilisation de
head tracking amliorent la perception.
Les HRIR sont les filtres binauraux obtenus par transforme inverse de Fourrier des
HRTF. Il est galement possible dintgrer aux HRTF les effets lis la propagation
acoustique dans une salle, ce sont les BRIR (Binaural Room Impulse Response).
Le casque multicanal fonctionne soit partir de rponses impulsionnelles (BRIR) intgrant lempreinte du systme dcoute, lacoustique, et les HRTF de lauditeur, soit
partir de librairies HRTF (mesures en chambre sourde une distance denviron
1,5m) gnralement compltes par un module de simulation de pice.
Une base de donnes HRTF de mille directions au moins semble suffisante pour un
espace virtuel 3D convainquant. Il existe diffrentes bases de donnes, dont les caractristiques pour les plus connues sont les suivantes (donnes 2013):
le CIPIC, Universit de Davis, 45 individus, 1250 directions;
lIRCAM, base Listen, 51 individus, 187 directions, lIRCAM procde fin 2013 la
mesure dune nouvelle base de donnes HRTF dans le cadre de BiLi, faite sur 1680
points (pas dchantillonnage de 6, latral 0 360, lvation -51 +86) avec 54
individus (42 hommes, 12 femmes) et 3 ttes artificielles dont la Neumann KU100
et la B & K 4100D;
le TNO FTR & D, Human Factors Research Institute, Soesterberg, 965 directions,
8 individus et une tte artificielle Head Acoustics HMSIII (base prive dOrange);
lISVR Institute of Sound and Vibration Research, Universit de Southampton;
E. Grassi, Universit du Maryland, 7 individus, 1093 directions;
Pr. Itakura, Universit de Nagoya, 96 individus, 72 directions horizontales.

Dunod Toute reproduction non autorise est un dlit.

Il existe depuis peu un format standard de fichier pour les HRTF nomm SOFA qui permet dimporter ses propres fonctions de transfert dans un procd de synthse binaurale.
Gnralement le casque multicanal qui fonctionne partir de HRTF personnalises, issues
de mesures de rponses impulsionnelles (BRIR), permet de reproduire les directions du
multicanal disponibles en entre (huit canaux gnralement), lauditeur peroit alors les
directions du systme dcoute5.1 ou7.1, mesures lors de la rponse impulsionnelle.
Parmi les diffrentes solutions proposes, quelques procds professionnels srieux ont
vu le jour: le casque dvelopp conjointement dans les annes 1990 par lIRT et Studer
(il ny a pas eu de vritable dveloppement commercial), le Realiser A8 dvelopp par
Smyth Research en 2009, le casque 3D Sound One de la socit 3D Sounds Labs et le
DMS BP84 rest ltat de prototype.
Le Realiser A8 permet lauditeur de mesurer ses propres HRTF avec des microphones
que lauditeur place dans le creux de ses oreilles et applique le filtrage obtenu aux diffrentes voies du multicanal. La mesure des HRTF est faite pour trois orientations de
la tte, -30, 0 et +30, le processeur calcule les angles intermdiaires par interpolation. La seconde tape de calibration consiste mesurer les HPTF (Head-Phone

134

Chapitre 3 Les

facteurs perceptifs

Transfert Function), la rponse du casque afin dannuler la fonction de transfert entre


le casque et les oreilles de lauditeur dans le procd de virtualisation.
Cette tape est dlicate car les HPTF dpendent de lindividu (sa morphologie) et du
positionnement du casque sur les oreilles. Cest pourquoi une mesure individuelle est
ncessaire. Dautre part la sensibilit du positionnement du casque est quasi-insoluble,
mais moins critique dans la mesure o les variations spectrales obtenues sont moindres
que celles des indices spectraux utiles pour la localisation.
Il est recommand dutiliser des casques de type FEC (Free Air Coupling Equivalent)
afin de reproduire limpdance quivalente aux conditions de champ libre, le casque
ouvert donne de bons rsultats. Le critre utilis est le PDR (Pressure Division Ratio),
ce dernier doit tre le plus proche de 1.
Le Realiser A8 fait appel trois composants critiques: la personnalisation (mesure
des HRTF), le suivi des mouvements de tte horizontaux sur 60 (head tracking)
et la capture des proprits de nimporte quel systme sonore dans son environnement dorigine. La personnalisation est ralise par la mesure de nos propres fonctions
HRTF et le suivi des mouvements de tte se fait par recalcule des paramtres de ces
fonctions toutes les 5ms.
Cette technique vise aussi simuler une coute multicanal en reproduisant son identit
et lacoustique du local dans lequel on fait la mesure (mesure du temps de rverbration, rponse en frquence des enceintes). Nous pouvons donc imaginer transporter
dans le processeur notre coute multicanal favorite, bien optimise, nimporte o.
Le prototype BP84 DMS utilise une librairie de HRTF, et oriente lutilisateur vers les
fonctions HRTF les plus appropries. Pour cela ce dernier renseigne par exemple son
tour de tte. lheure actuelle, la simulation de distance est reproduite par un module
de rverbration fonctionnant en HOA jusqu lordre3.
Le casque 3D Sound One commercialis en 2015 fonctionne partir dapplications iOS
ou Androd, il permet le head tracking et lutilisation de profiles HRTF types prsents
dans la base de donnes produite par Orange Labs. Lalgorithme permettra dutiliser
dans le futur des fonctions HRTF individualises. Il est intressant de noter que le head
tracking se fait sur un espace 3D (horizontal et vertical).
Les autres systmes dcoute binaurale offrent quelques presets (un trois) de
valeurs de HRTF moyennes, cest le cas des procds Dolby Headphone, Fraunhofer
(mp3D, MPEG Surround) et Beyer Headzone.
La qualit de rendu binaural sur casque dpend:
du head tracking ou des micromouvements afin de solliciter les indices spectraux dynamiques;
de la personnalisation des HRTF;
de lducation au binaural;
de linteraction potentielle avec les informations visuelles;
et de la prparation auditive.

3.5 Impression

135

spatiale

Les fonctions HRTF varient en fonction des sujets et il est difficile dobtenir des valeurs
de HRTF moyennes satisfaisantes. Lutilisation de HRTF personnalises donne alors
de trs bons rsultats de localisation avec une bien meilleure externalisation. Voici
des lments de comparaison HRTF individualises/non individualises issus dune
synthse de publications faite par Rozenn Nicol, Orange Labs.
HRTF

individualises/non individualises

HRTF non individualises


- Externalisation pauvre.
- Localisation en lvation pauvre.
- Inversions frontal/arrire et bas/haut.
Les sources frontales sont perues au-dessus ou larrire.
HRTF individualises
Le systme daudition ne fait pas la diffrence entre la source sonore
virtuelle et la source relle.
Bonne externalisation.
Une petite augmentation de lerreur de localisation (lvation et inversions
frontal/arrire) par rapport la source relle.

Dunod Toute reproduction non autorise est un dlit.

Il existe plusieurs mthodes pour obtenir des HRTF individualises:


la mesure personnalise;
la mthode de calcul partir dun maillage de la tte (calcul par lments finis de
dimension quelques millimtres);
la mthode de reconstruction reposant sur des approximations par sphres ou harmoniques sphriques avec interpolations spatiales;
par slection partir dune base de donnes HRTF (le tour de tte donne lITD mais
leffet du pavillon est le plus dur reproduire: les techniques de photos existent
mais elles sont peu prcises);
par slection partir dune base de donnes HRTF et transformation, la dimension
du pavillon et son orientation tant les deux principaux paramtres.
Le projet BiLi devrait aboutir des solutions pour lamlioration de la qualit de restitution et la simplification du procd de synthse binaurale, tenant compte de la
morphologie des individus.

3.5

Impression spatiale

3.5.1 Dfinition
De nombreuses publications en acoustique des salles tudient limpression spatiale.
Ces tudes nous permettent de caractriser partir de critres bien dfinis les diffrents rendus sonores des salles.

136

Chapitre 3 Les

facteurs perceptifs

Voici la dfinition de limpression spatiale que J. Blauert donne: cest limage


conceptuelle du type, de la taille et des proprits dune salle, relle ou virtuelle. Cest
la sensation despace, limpression dtre entour par les sons.
Cette impression repose sur diffrents critres dfinis par J.M.Potter. Des attributs
perceptifs qui reprennent ces critres ont t dvelopps dans ltude de M.Deschamps
dont voici la synthse:
la taille apparente de la salle;
Spaciousness: la largeur apparente des sources (ASW, Apparent Source Width);
lenveloppement de lauditeur (LEV, Listener Envelopment);
la rverbrance : rmanence temporelle des vnements sonores rsultant des
rflexions tardives et de la rverbration.
Le paramtre spaciousness pourrait tre traduit en franais par spatialisation mais la
signification nest pas exactement la mme. En effet, la notion de spatialisation induit une
localisation des sources dans une salle plutt quune quantit despace occupe par celles-ci.
La largeur, ou ASW, est un critre bien connu en acoustique des salles. Dans le contexte
de perception, on parlera de largeur reposant tout dabord sur la localisation externe dun
sujet, ce dernier pouvant staler dun point extrme depuis lenceinte gauche dans le
frontal, vers lenceinte droite. Dautre part, en comparant la mono, la stro puis lcoute
sur les trois enceintes frontales du5.1, la sensation despace ou douverture est croissante.

Figures3.28 et 3.29Distribution spatiale des rflexions dans une salle en stro (a) et en5.1 (b),
B.Priaux daprs G.Theile.

3.5 Impression

137

spatiale

Rle

des diffrentes composantes du son

- Son direct: localisation.


- Rflexions latrales prcoces entre 15-50ms: distance et espace, largeur
de la source.
- Rverbration: aprs 50ms, enveloppement.

Dunod Toute reproduction non autorise est un dlit.

Figure3.30Reprsentation du rle de chaque rflexion, B.Priaux daprs GntherTheile.

Figure3.31Reproduction spatiale en5.1, esthtique frontale, B.Priaux daprs GntherTheile.

138

Chapitre 3 Les

facteurs perceptifs

3.5.2 Enveloppement
Selon Arthur Harold Marshall, et telle que la dcrit Magali Deschamps, la notion
denveloppement dfinit la sensation que peut prouver un auditeur dans une salle de
concert: cette sensation correspondrait la diffrence entre se sentir lintrieur de la
musique, et la regarder comme travers une fentre.
Le critre denveloppement repose principalement sur deux paramtres, la dcorrlation interaurale, diffrence entre le signal qui arrive loreille gauche et celui qui
arrive loreille droite, et le contenu basses frquences en dessous de 600Hz. Plus
les basses frquences sont dcorrles, plus la sensation denveloppement est grande.
Dans ltude de lacoustique des salles, on dfinit plusieurs critres afin de mesurer
lenveloppement, voici les principaux:
LF: Lateral energy Fraction, rapport entre lnergie des premires rflexions latrales et omnidirectionnelles.
Ce premier paramtre traduit limportance des premires rflexions latrales prcoces
(arrivant dans les premires 80ms);
IACC: Interaural Cross Correlation.
Ce critre est li la dcorrlation interaurale, il mesure la corrlation des signaux
arrivant loreille gauche et droite;
Rapport de lnergie des rflexions frontales sur lnergie des rflexions arrires.
Ce dernier critre met en avant le rapport frontal/arrire des rflexions.
D.Griesinger dfinit autrement trois critres pour caractriser limpression spatiale: le
CSI, lESI, le BSI. En voici la dfinition, traduite par MagaliDeschamps:
CSI (Continuous Spatial Impression): cette impression survient lorsque le son
direct dune source continue (qui ne peut tre divise en diffrents vnements
sonores) interagit avec le son rflchi latralement, arrivant au moins 10ms aprs
le son direct. Le CSI dpend du rapport entre lnergie sonore du plan mdian et
lnergie du plan latral, il est totalement enveloppant, le son semble venir de toutes
les directions autour de lauditeur;
ESI (Early Spatial Impression): cette impression est lie aux diffrents vnements
sonores qui caractrisent le son direct, elle est gnre par lnergie latrale rflchie
arrivant dans les 50ms suivant la fin dun son de nature impulsive. Comme le CSI,
lESI dpend du rapport entre lnergie sonore du plan mdian et lnergie du plan
latral, mais il nest pas enveloppant. Il correspond limpression spatiale dune
petite pice, le son rflchi semble venir de lemplacement de la source sonore, et est
attach celle-ci tout en llargissant;
BSI (Background Spatial Impression): cette impression survient lorsque la source
consiste en une srie dvnements courts (notes courtes, phonmes). Notre perception organise ces vnements en un flux de premier plan, lnergie arrivant dans les

3.6 Attention

139

auditive

interstices sparant ces vnements est attribue un seul flux darrire-plan. Ces
sons sont spatialement diffus et sont considrs comme enveloppants.
Nous pouvons caractriser lenveloppement sous deux formes qui dpendent de lesthtique de limage souhaite: la salle qui entoure lauditeur (esthtique frontale) et le son
direct et la salle qui enveloppent lauditeur (esthtique quirpartie).
Impression Spatiale
- Taille de la salle.
- Spaciousness.
Largeur apparente des sources.
Enveloppement.
- Rverbrance.

3.6

Attention auditive

3.6.1 Principe gnral


Lattention auditive est une notion importante dans ltude du multicanal. En effet, face
laugmentation des canaux et des nombreuses possibilits de localisation des sons,
le cerveau va devoir traiter beaucoup dinformations auditives. Il va devoir valider la
cohrence entre les signaux sonores qui se droulent sur un cercle autour du spectateur
et les informations visuelles suivies lcran, sur un angle de vision variable: 30 pour
la TVHD, 50 environ pour le cinma, 100 environ pour le format Super Hi-Vision 8K
de la NHK, 180 pour les formats Imax, etc. Le latral et larrire sont donc des zones
non contrles par lil, et par consquent tout son sy trouvant est synonyme de danger.
Le premier rflexe du spectateur sera de se retourner, automatiquement. On dfinira ce
comportement comme une raction dorientation rflexe de lattention.

Dunod Toute reproduction non autorise est un dlit.

Selon NicolasMoreau, le traitement auditif se fait en trois tapes: ltape sensorielle,


ltape figurative et ltape cognitive.
Ltape sensorielle consiste analyser les traits du stimulus entrant, les sons pouvant
tre associs forment un tout perceptif constituant un seul flux sonore. Ltape figurative
structure ces flux auditifs en figureauditive valide et compare avec les reprsentations
auditives dj acquises en mmoire. Enfin, ltape cognitive confronte les reprsentations
laide des paramtres et presets lis au savoir, au pass et aux affects de lauditeur.
Dfinissons maintenant ce quest la raction dorientation de lattention auditive.
Loreille a un pouvoir sparateur qui permet de trier et slectionner parmi les flux
sonores coexistants: celui qui nous intresse est la cible. Cela sappelle leffet cocktail party. Les autres flux sont considrs comme des distracteurs. linverse de la
cible, ils sont sous chantillonns (inhibs), le nombre de dcharges nerveuses tant

140

Chapitre 3 Les

facteurs perceptifs

diminu. Il existe donc un filtre, situ entre le traitement sensoriel et le traitement


perceptif de linformation, bloquant ainsi les distracteurs et dirigeant la cible vers le
traitement perceptif. Le blocage du distracteur est remplac par une attnuation du
traitement. Nous disposons, pour traiter linformation auditive, dun rservoir de ressources limit. Llment cible mobilise une grande partie des ressources, les distracteurs ne bnficiant que des ressources rsiduelles, insuffisantes pour permettre un
traitement profond. La raction dorientation a lieu lorsque le distracteur nest pas
inhib et au contraire devient la cible de lattention auditive, par le biais de diffrents
stimuli sonores.

3.6.2 Les causes de la raction de lorientation rflexe de lattention


La raction dorientation est gnante lorsquelle se porte vers la zone arrire ou sur
le latral car le spectateur risque de sortir du scnario du film. Selon N.Moreau, il
existe trois types de stimuli pouvant provoquer cette raction: le stimulus prsentant
une forte saillance physique (frquentielle et dynamique), le stimulus comportant une
saillance cognitive mettant en jeu des automatismes attentionnels cognitifs, et enfin le
stimulus caractre nouveau (nouveaut spectrale, spatiale ou cognitive).
Saillance physique
La saillance physique porte sur la caractristique physique des signaux susceptibles
dattirer lattention: leur dynamique et leur contenu en frquence.
Dynamique: les sons avec transitoires ou extinctions marqus attirent lattention;
Frquentielle: la zone sensible de loreille (1,5kHz 3,5kHz) et les hautes frquences synonymes de proximit (cf. perception de distance) sont des caractristiques avec saillance.
Afin dviter une raction dorientation rflexe de lattention, il existe peu despoir sur
le traitement des sons part comme des outils de traitement dynamique ou de traitement en frquence, seule la coexistence des sons entre eux rellement importe (fusion
frontale/arrire des sons spatialiss).

Saillance cognitive
Parmi le flux de reprsentations qui occupent continuellement notre vie mentale,
certaines sont susceptibles dtre actives sans que leur mention ait fait lobjet dune
intention pralable, ou dune attention particulire. Il existe ainsi des automatismes
cognitifs qui mettent en dfaut les principes dinhibition en chappant aux filtrages
attentionnels mais larrt de leur droulement est coteux et provoque une orientation de lattention. Par exemple un son qui rappelle un souvenir dans laffect du
spectateur, une ambiance ou une musique, va provoquer le droulement dune pense. Larrt de son droulement est uniquement conditionn par lintervention de
lattention. Pour provoquer cet arrt, le sujet devra dpenser beaucoup de ressources
au dtriment des autres traitements en cours. La perception du message de la scne

3.6 Attention

auditive

141

sera en quelque sorte sous chantillonne, sortant ainsi momentanment le spectateur du scnario.

Stimulus caractre nouveau


On appelle stimulus caractre nouveau un stimulus sonore apparaissant pour la
premire fois. Cette notion est gre par la mmoire sensorielle qui peut tre efface
au bout dun certain temps et un son dj entendu peut conserver son caractre veillant sa deuxime apparition. Cela dpend de la dure qui spare les apparitions du
mme son et du nombre de rptitions. La nouveaut peut tre frquentielle, spatiale
ou cognitive. Lorsque nous rptons lidentique deux fois le mme stimulus sonore,
le systme sadapte. On constate alors que les symptmes de la raction dorientation
de lattention saffaiblissent jusqu disparatre. Un son de mme localisation que
le prcdent veillera moins lattention. Il en va de mme pour les timbres et les
frquences.
3.6.3 La mmoire visuelle prpare lidentification auditive
Claude Bailbl crit: le degr de prvisibilit modifie la raction de lauditeur lendroit du son mergeant, la prise en compte attentionnelle nest pas la mme si la source
est dj range dans le preset cognitif suscit par le contexte, si la source est dj recrute dans la mmoire rapproche des sons possibles, prts sactualiser.
Par exemple:
un ciel dorage appelle le tonnerre;
une bagarre appelle des cris;
une discussion appelle des rparties mais aussi des surprises.

Dunod Toute reproduction non autorise est un dlit.

La mmoire visuelle agit ainsi sur le caractre nouveau du stimulus sonore et nous
sommes aussi habitus depuis le plus jeune ge la spatialisation de certains sons
comme lorage qui peut clater dans nimporte quelle direction.

3.6.4 Comment grer lorientation attentionnelle du spectateur?


Le champ visuel est frontal, dploy sur 30 jusqu une centaine de degrs sur un
champ fixe (dans le cadre du cinma, de la TVHD), tandis que le champ sonore issu
du format5.1 associ occupe 360. Dans la ralit, nous retrouvons cette diffrence
spatiale entre lauditif et le visuel, mais nous avons la possibilit de bouger la tte pour
aller scruter dautres paysages autour de nous.
Afin de dcrire les incohrences dues cette diffrence spatiale entre lauditif et le
visuel, nous dfinissons deux paramtres: la dislocalisation et la distraction.

La dislocalisation
Claude Bailbl dfinit la notion de dislocalisation par labsence de correspondance entre
les provenances visuelles et auditives des vnements. Le spectateur est dboussol

142

Chapitre 3 Les

facteurs perceptifs

par la rotation incessante des directions sonores, les provenances visuelles ne correspondent plus aux provenances auditives. Les carts de positions plus ou moins prononcs, voire contradictoires, empchent la fusion des images et des sons. Ce phnomne,
prsent en stro, saccentue dans le format multicanal avec les possibilits tendues
des directions du son.

La distraction
Le phnomne de distraction a lieu lorsque le spectateur est gn par des sources
intruses prsentes sur le latral ou dans la zone arrire, ce dernier sort alors du
scnario du film pendant un court instant ou bien il perd sa concentration dans son
coute.
lattention visuelle et lattention auditive du spectateur sont dissocies
lauditeur peut tre gn par ces sources latrales ou arrire avec ou sans image
Selon Claude Bailbl, les sources off trop incisives, dotes de transitoires dattaque
ou dextinction trop marqus, dclenchent des ractions dorientation involontaires,
des coups dil instinctifs en direction de lintrus auditif, lil reste tendu vers
lcran tandis que loreille est momentanment appele en coulisses, sur les cts ou
en arrire.
Dislocalisation

et distraction

- Dislocalisation: les provenances visuelles et auditives ne correspondent plus.


- Distraction: attention visuelle et auditive dissocies suite des stimuli
caractre saillant sur le latral ou larrire, lauditeur peut tre aussi gn
par ces sources intruses dans un contenu sans image.

3.6.5 Quelques rgles


Il est certainement utile de rappeler quelques bonnes rgles dans la gestion des rapports son limage.
Le plan limage peut prsenter la source sonore: un personnage parle, cest un son
in. Il est toujours plac au centre pour assurer la bonne fusion de limage et du son.
Le plan peut cacher la source sonore: un personnage que lon ne voit pas rpond au
prcdent, le son est hors champ. Ce son est plac proximit du centre, dans la
zone frontale.
Le son peut tre extrieur au plan et donc lhistoire, comme la musique du film, une
voix off: cest le son off ou extradigtique. Ce son peut tre spatialis.
Les ambiances qui prcisent lunit de lieu ou les effets qui renforcent laction sont
gnralement spatialises.

3.7 bauche

de solutions pour limage sonore multicanal

143

En thorie pour les sons in on peut distinguer des valeurs de cadres sonores: gros
plans, plans rapprochs, plans densemble. Ces valeurs de cadres ne sont pas ncessairement corrles aux valeurs du cadre image. Le ralisateur peut introduire, par le
son, un niveau de proximit avec laction de la scne dont il nous distancie par limage.
La spatialisation suit le mme sens, les valeurs de cadres sonores ne dfinissent pas
toujours lenveloppement. Gnralement, le monteur son fait un choix pertinent des
sources off localises sur les cts et larrire en fonction de leur poids attentionnel
(caractre nouveau, leurs caractristiques dynamiques, frquentielles), leur degr de
prvisibilit, les contraintes esthtiques de luvre, le poids attentionnel de limage
(scne avec des contraintes ralistes ou image virtuelle avec peu de contraintes).
Il est judicieux de jouer sur la coexistence des sons frontaux et arrire:
accorder les sons en frquence, en dynamique et en espace de sorte constituer un
seul flux auditif;
masquage attentionnel dun son prosexigne (caractrise la capacit quont certains
stimuli dattirer automatiquement lattention) larrire par une autre stimulation
frontale;
habituation contre un stimulus caractre nouveau, jouer sur la ressemblance des
sons entre eux.
En dernier recours, traiter en frquence, temporellement et en dynamique les sons
arrire pour viter toute distraction.

3.7

bauche de solutions pour limage sonore multicanal


Aprs ltude psycho acoustique de la spatialisation du son aborde dans ce chapitre,
voici une bauche de solutions pour lanalyse dune image sonore spatialise.

Dunod Toute reproduction non autorise est un dlit.

3.7.1 Esthtique
Image relle, image virtuelle;
Esthtique frontale, esthtique quirpartie.
3.7.2 Localisation
Garder une dominance frontale des sources, importance de lquilibre frontal/
arrire en niveau;
Localisation interne des sources: effet, ralisme ou artefact?
Fonctions de transfert HRTF: deux flux auditifs perus lorsquun son est plac entre
les enceintes avant et arrire du5.1, possibilit daccorder en frquence le frontal et
larrire pour renforcer la localisation latrale dune source;
Perception des sources latrales imprcises et instables;

144

Chapitre 3 Les

facteurs perceptifs

Perception de la distance plus importante en multicanal quen stro compte tenu


du champ rverbr additionnel prsent sur les canaux arrire.

3.7.3 Impression spatiale


Repose sur la dcorrlation interaurale: dcorrlation des cinq canaux;
Repose sur la prsence de basses frquences (f <600Hz);
Dpend de lquilibre frontal/arrire en niveau;
Contenue gnralement par la rverbration de salle relle ou artificielle, ou lambiance du lieu (taille du lieu, rverbrance);
Enveloppement constitu de son rverbr, ou de son direct et son rverbr combins.
3.7.4 Attention auditive
Le son in est plac dans le frontal, au centre pour une meilleure fusion de limage
et du son;
Le son off ou extradigtique peut tre spatialis;
Choix pertinent des sources off localises sur les cts et larrire en fonction
de leur poids attentionnel (caractre nouveau, leurs caractristiques dynamiques
et frquentielles), leur degr de prvisibilit, les contraintes esthtiques de luvre,
le poids attentionnel de limage (scne avec des contraintes ralistes ou image virtuelle avec peu de contraintes);
Jouer sur la coexistence des sons frontaux et arrire: fusion des sources frontales
et arrire;
accorder les sons en frquence, en dynamique et en espace de sorte constituer un
seul flux auditif;
masquage attentionnel dun son prosexigne larrire par une autre stimulation
frontale: perte des traits prosexignes;
habituation contre un stimulus caractre nouveau: jouer sur la ressemblance des
sons entre eux;
Traiter en frquence, temporellement (dlai) et en dynamique (compresseur, limiteur)
les sons arrire en dernier recours pour viter toute distraction.

Chapitre 4
Limage sonore, les esthtiques,
et la ralisation

La musique de demain sera spatiale etles sons donneront limpression de dcrire


des trajectoires dans lespace, de se situer dans un univers sonore en relief.
Edgar Varse
Points Essentiels
- Prsentation des diffrents critres objectifs danalyse de limage sonore.
- Analyse dimages sonores.

Dunod Toute reproduction non autorise est un dlit.

- Comparaison de systmes de prise de son, ambiances de salle, ambiances


extrieures, systmes principaux.
- Extraits5.1 et binauraux.
- Esthtiques abordes par les diffrents genres: film, fiction, animation,
musique, acousmatique et acousmonium, sport, documentaire, radio, jeu
vido.
- lments de ralisation.

Ce chapitre tudie le langage dvelopp pour la fabrication des images sonores en multicanal. Il traite dans un premier temps de lanalyse de limage sonore par un ensemble
de critres techniques et artistiques afin de dvelopper un langage commun. Un certain

146

Chapitre 4 Limage

sonore, les esthtiques, et la ralisation

nombre dexemples sonores aident la comprhension et lapprentissage de cette


mthode. Puis, lauteur abordera lcriture de contenus en dfinissant les diffrents
genres, les esthtiques possibles et en exposant des lments de ralisation pour lespace.

4.1

Espace de cration et espace de reproduction


Avant daborder limage sonore, il est ncessaire de dfinir les deux notions despace
que lon peroit lcoute dune uvre. On dissocie espace de cration et espace de
reproduction. Le premier est lespace que lon capte avec des microphones ou que lon
gnre au mixage, cest un espace li au contenu. Il repose sur la dimension spatiale du
lieu de captation, sur les caractristiques du systme de prise de son et sur limpression spatiale apporte par le mixage. Il sagit dun espace indpendant, cr en amont
du systme de reproduction sonore. Mais pour percevoir cet espace de cration, nous
avons besoin dun systme de reproduction sonore capable de restituer les caractristiques spatiales de notre contenu (le dispositif5.1 ITU par exemple) la salle de cinma,
ou bien le casque. On dfinit alors lespace de reproduction comme tant un rfrentiel port par les caractristiques acoustiques du lieu dans lequel on coute le contenu,
la distance qui spare lauditeur des enceintes les caractristiques des enceintes ou du
casque stro. Le casque peut restituer un contenu binaural issu dune prise de son
binaurale native par exemple ou bien un contenu spatialis de type5.1 accompagn
dun procd de synthse binaurale. Dans le premier cas, lespace de reproduction est
limit au casque stro seul. Dans le second cas, il repose sur le casque et sur leffet de
synthse binaurale ncessaire pour la reproduction spatiale de la scne. Cette synthse
joue de faon virtuelle exactement le mme rle que le dispositif5.1 sur enceintes,
elle vhicule avec le casque plus ou moins bien lespace de cration. Ainsi, on pourra
analyser les diffrents procds de virtualisation binaurale par leur capacit plus ou
moins bien reproduire lespace de cration des contenus.
Plus gnralement, lespace voqu par la suite fait rfrence lespace de cration li
au contenu.

4.2

Prsentation des critres objectifs danalyse


Lanalyse du chapitre3 traitant des facteurs perceptifs met en vidence un certain
nombre de critres objectifs qui facilitent lanalyse de limage sonore en multicanal.
Ce sont des critres techniques et esthtiques, directeurs dans la cohrence de limage
sonore et qui ne tiennent pas compte de la ralisation du produit audiovisuel ni du
got personnel de lauditeur. Par exemple, la ralisation dun produit audiovisuel peut
ncessiter un traitement particulier des sources sonores sans profondeur, avec de linternalisation, apportant une certaine intimit et une proximit avec lauditeur. Cela
peut tre le cas dune voix off, place au sweet spot. Limage perue de cette squence
sera une image ferme, mais rpondant parfaitement aux dsirs du ralisateur.

4.2 Prsentation

des critres objectifs danalyse

147

Les critres proposs dans ce chapitre permettent simplement de dcrire limage sonore
en sappuyant sur un langage commun pour le mixeur, le preneur de son, le monteur
son, le ralisateur, le compositeur, etc.
Les critres font lobjet dune quantification de 1 5:
1 =mauvais, trs faible;
2 =pauvre, faible;
3 =correct, moyen;
4 =bon, grand;
5 =excellent, trs grand.

4.2.1 Esthtique de limage, ralisme ou effet


Limage sonore est dfinie par Guy Laporte (preneur de son et expert de limage
sonore) comme tant la reprsentation mentale dun sujet et de son acoustique. Ltude
des critres expose dans ce chapitre repose sur un grand nombre de publications,
douvrages, de recherches et danalyses denregistrements. On retrouve en grande
partie les paramtres de la strophonie dfinis par Guy Laporte, mais dvelopps et
complts dans le contexte du son 3D.
Limage sonore peut tre traite travers une esthtique relle ou virtuelle, entre
ralisme et effet sonore.
Limage relle dfinit la reproduction dune scne connue corrle au lieu
denregistrement, accompagne des sensations naturelles despace et de localisation
des sons. Elle est traite dans la plupart des cas par une esthtique frontale car laction
se passe gnralement devant nous.

Dunod Toute reproduction non autorise est un dlit.

On rencontre ce cas dans une scne de film, un concert de musique classique, un


vnement sportif ou un documentaire. Le son direct provient de la zone frontale et
lacoustique du lieu sinstalle tout autour du spectateur. Les canaux arrire sont alors
exploits pleinement pour la perception de salle ou plus gnralement pour donner la
sensation du lieu.
Limage sonore virtuelle dfinit un espace imaginaire qui, en multicanal, met en
scne les sons tout autour de lauditeur. Lenveloppement du spectateur est fait de sons
directs et de son rverbrs, avec des possibilits dinternalisation que lon ne peut
exprimenter dans la ralit quen chambre sourde ou dans des lieux exigus. Limage
virtuelle est gnralement traite par une esthtique quirpartie, elle prsente le son
direct et le son rverbr tout autour de lauditeur.
Limage sonore peut se dcomposer en plusieurs familles conceptuelles: le dessin de
limage (lequel repose sur la construction, les quilibres et la dynamique), la couleur
de limage et la qualit du signal.

148

Chapitre 4 Limage

Figure4.1Image sonore frontale, B.Priaux.


Encouleursurdunod.com
Les points foncs reprsentent les sources directes,
les points gris flous reprsentent le champ rverbr
(leffet de salle ou lambiance).

sonore, les esthtiques, et la ralisation

Figure4.2Image sonore quirpartie,


B.Priaux. Encouleursurdunod.com.

4.2.2 Construction de limage


La construction de limage traite essentiellement de la localisation des sons, de la
sensation despace perue et des quilibres qui font lhomognit du son.
Localisation
Profondeur
La profondeur traduit la distance globale ressentie lcoute dun enregistrement, elle
repose sur la distance maximale que lon peroit, value par le plan sonore le plus
lointain ou le fond de la salle. On dfinit le plan sonore par un ensemble de sources
perues gale distance de lauditeur.
En multicanal, leffet de profondeur prend une grande importance notamment avec
lutilisation des microphones arrires. Le plan sonore est circulaire, compte tenu de la
disposition des enceintes sur le cercle dfini par le dispositif5.1 ITU. Dans le cas dune
esthtique frontale, les plans sonores prennent la forme darcs de cercle situs devant
lauditeur. On parle alors de plan sonore frontal.
Localisation latrale ou circulaire
Pour les images qui sinscrivent dans une esthtique frontale, la localisation du son
direct reste latrale, sur larc de cercle douverture 60 dfini par les trois enceintes
LCR. Dans le cas de lextra largeur en 5.1, larc de cercle peut souvrir sur une centaine

4.2 Prsentation

des critres objectifs danalyse

149

de degrs ( 50) au maximum. Ce critre dcrit le positionnement des sources, leur


stabilit, leur mouvement et peut tre quantifi.
Pour les images traites en quirpartition, les sources sont places sur le cercle: on
parle alors de localisation circulaire.
Localisation en distance
La distance perue dans une image multicanal est dlimite par le cercle des enceintes
qui forme le premier plan sonore. On parle alors de localisation externe, lauditeur
semble pouvoir percevoir jusqu cinq ou six plans diffrents au maximum.
Dans le cas dune esthtique frontale, les plans sonores dfinis par le rapport CD/CR
sinstallent sur larc de cercle LCR. Ces plans se transforment en cercles dans lesthtique
quirpartie. Lauditeur analyse le positionnement des sources sur ces plans, la stabilit
des plans et le mouvement des objets dans la profondeur. On peut quantifier le critre.
Localisations internes
Au chapitre3, nous avons vu quil existe un effet dinternalisation pour une image trs
peu dcorrle: les sources sont perues dans notre cercle dcoute, proches de la tte.
Linternalisation est une perception peu naturelle, mais elle cre des effets sonores
intressants dans le contexte des images virtuelles. Une voix place tout autour de
lauditeur permet une proximit avec ce dernier.

Dunod Toute reproduction non autorise est un dlit.

Figure4.3Image sonore quirpartie


avec internalisation sur certaines sources,
B.Priaux. Encouleursurdunod.com

Relief
Le relief repose sur lexistence de diffrents plans sonores (ou cercles), il est li aux
caractristiques du lieu. Plus le lieu est de grande taille, plus le relief est important,
condition dutiliser des techniques de prise de son capables de restituer la profondeur.

150

Chapitre 4 Limage

sonore, les esthtiques, et la ralisation

Il ajoute un ct vivant, un certain degr de ralisme limage. Le critre est quantifi


en fonction du nombre de plans sonores perus.
Localisation en hauteur
Le dispositif5.1 est plan, sur deux dimensions, il ne comporte pas denceinte de hauteur. Pour les installations son 3D ou pour une coute binaurale, la localisation en hauteur prend tout son sens. Lauditeur analysera la prcision de localisation, la stabilit et
la linarit du mouvement des sources.
Volume des composants en fonction de leur loignement, la taille des objets
Le volume des composants prend une place plus importante en multicanal quen stro.
Il sagit danalyser la place occupe par les diffrents lments qui constituent le sujet
de notre image, en fonction de leur loignement. Par exemple, dans un enregistrement
dorchestre, certains instruments peuvent ne pas prsenter un volume cohrent en
fonction de leur place dans limage.
La taille dun objet peut aussi tre exagre ou diminue en utilisant un systme de
captation multicanal plutt quun autre. Prenons par exemple la restitution du son de
leau dplace lorsquon rame bord dune barque. Les mouvements peuvent tre trs
exagrs ou bien diminus suivant le systme de prise de son utilis. Ainsi la taille de
la barque perue peut varier, on cherche plutt une dimension raliste, autrement le
son devient un effet.

Impression spatiale
Taille de la salle, dimension du lieu
Le volume de la salle ou du lieu est un paramtre important dans la perception de
lespace. Plus il est grand, plus lauditeur peroit un espace important.
Largeur apparente des sources: frontale, latrale, arrire
On dfinit par largeur apparente des sources, la distance maximale sur laquelle stend
un secteur du multicanal: la zone frontale constitue des trois enceintes, la zone arrire
ou les secteurs latraux. Cette notion na de sens que si la perception reste externe.
La largeur globale de limage provient de la largeur du sujet et de celle gnre par
lacoustique du lieu.
Dans le cas dune esthtique frontale, la largeur globale de limage repose essentiellement
sur le sujet localis sur les canaux L,C,R.Pour une esthtique quirpartie, la largeur
provient des diffrents secteurs frontal, latraux et arrire. La largeur et la taille dun
objet sont corrls.

4.2 Prsentation

des critres objectifs danalyse

151

Enveloppement
Lenveloppement traduit la sensation dtre entour par les sons. Lauditeur a la sensation dtre immerg dans un lieu, comme sil se trouvait rellement dans ce lieu. Cette
sensation est trs fortement lie la dcorrlation interaurale et repose sur la prsence
de signal dans les canaux arrire, plus prcisment sur le rapport en niveau entre le
frontal et larrire (quilibre F/A). Un enveloppement optimal demande un rapport
F/A bien quilibr, et une dcorrlation importante des cinq canaux du multicanal.
Sil existe trop de corrlation entre les canaux, lespace se referme et tend vers une
perception dinternalisation. Lenveloppement peut provenir de lacoustique du lieu
(rverbration de la salle, ambiance du lieu) ou bien de la combinaison entre son direct
et acoustique.
Rverbrance
La rverbrance est dfinie par le prolongement temporel des vnements, gnr par
la rverbration dune salle ou dun lieu, ou par des dlais ajouts dans un mixage. Ce
prolongement temporel influe sur la perception despace.
Diffusion de la salle
La diffusion de la salle est une caractristique qui traduit la densit des rflexions. La
salle peut gnrer un grand nombre de rflexions ce qui donne un champ diffus trs
homogne, ou bien un nombre rduit de rflexions : on peroit alors plutt des dlais.

Les quilibres
quilibre de construction

Dunod Toute reproduction non autorise est un dlit.

Homognit en construction
Lauditeur analyse la continuit de localisation, lexistence ventuelle de zones vides
dans limage, la focalisation possible vers certains canaux comme le centre, la prsence
de distorsions angulaires. Lhomognit en construction repose sur la prsentation des
composants de limage suivant la mme chelle. Cette homognit repose en partie
sur lquilibre frontal/arrire et lquilibre horizontal/hauteur (pour la perception 3D)
dfinis ci-dessous.
Lauditeur tudie lhomognit de leffet de salle, ou de lambiance du lieu. Leffet de
salle en multicanal peut tre trs diffus, trs homogne ou parfois polaris vers les
enceintes. La comparaison dune croix IRT et dun carr Hamasaki (voir chapitre5)
illustre les diffrentes images sonores obtenues: la premire est trs focalise vers les
enceintes, donnant des sources ponctuelles tandis que la seconde est trs homogne et
plutt diffuse. Les exemples sonores sont donns dans la partie web.

152

Chapitre 4 Limage

sonore, les esthtiques, et la ralisation


Figure4.4Image sonore dune ambiance
croix IRT, B.Priaux. Encouleursurdunod.com

Figure4.5Image sonore dune ambiance


carr Hamasaki, B.Priaux. Encouleursur
dunod.com

quilibre Frontal/Arrire en niveau

Lquilibre frontal/arrire (Eq F/A) est un paramtre subtil, difficile ajuster.


Gnralement, on recherche autant dambiance lavant qu larrire afin dobtenir
lenveloppement optimal. Trop de son larrire provoque une gne auditive, allant
jusquau renversement de la scne sonore. Et trop peu de son dans la zone arrire,
ne permet pas lenveloppement confortable de lauditeur. limage, lajustement de
ce critre se fait diffremment: souvent on filtre les canaux arrire ou on diminue le
niveau des canaux Ls et Rs pour ne pas attirer lattention du spectateur vers larrire.
quilibre Horizontal/Hauteur en niveau

On peut dfinir aussi lquilibre horizontal/hauteur de la mme faon pour les images
son 3D. Son ajustement est dlicat, trop de son alimentant les enceintes de hauteur
provoque une gne auditive.
Zone dcoute

Il est vivement conseill de se dplacer dans sa zone dcoute et de changer lorientation


de sa tte, afin dvaluer la robustesse de limage sonore. En effet, la zone dcoute est
directement lie la dcorrlation de limage sonore issue des systmes de prise de son
et des choix de mixage. Pour valuer les caractristiques de la zone dcoute, lauditeur
value la taille de la zone dans laquelle lcoute reste confortable. Il peut y avoir des
variations frquentielles et des changements dans la construction lorsque lauditeur
bouge la tte. Dans lvaluation de ce critre, il faut prendre en compte la fragilit de
limage sonore multicanal inhrente au format5.1 (image sonore particulirement
sensible au dplacement dans la profondeur, voir chapitre3), le choix des enceintes
(directivit) et le rglage du systme dcoute qui peut stabiliser limage sonore (voir
chapitre2).

4.2 Prsentation

des critres objectifs danalyse

153

La dislocalisation

La dislocalisation caractrise des vnements visuels et auditifs qui nont pas les mmes
provenances. Ce phnomne, prsent en stro, saccentue dans le format multicanal avec
les possibilits dcuples des directions sonores. Citons, pour illustrer ce dfaut, le cas
dun plan dimage serr sur un objet dont le son serait localis sur lenceinte gauche ou
droite, ou bien le cas dun son in plac sur les cts ou larrire. Les sources off peuvent
tre positionnes en dehors du canal central gnralement sans crer de gne auditive.
quilibre spectral
Lquilibre spectral traduit la bonne ou mauvaise linarit du spectre. On peut diviser le spectre en trois bandes de frquences: les basses frquences, les moyennes frquences et les hautes frquences. Lauditeur analysera lquilibre spectral global de
limage ainsi que sa distribution spatiale. Afin dobtenir une image sonore cohrente,
les directions du multicanal doivent avoir le mme quilibre spectral.
quilibre CD/CR
Lquilibre champ direct sur champ rverbr (Eq CD/CR) traduit la proportion de
son direct et de rverbration ou dambiance. Le multicanal induit ici encore une
contrainte spatiale logique. Afin dobtenir une image cohrente, le rapport CD/CR
doit tre le mme dans les diffrentes directions qui portent le sujet. Il arrive souvent
quon obtienne des rapports CD/CR diffrents sur les canaux L, RetC dun mme plan
sonore, pour des raisons de choix de systmes de prise de son, dorientation des capsules ou de choix de mixage.

Dunod Toute reproduction non autorise est un dlit.

Distraction
La distraction a lieu lorsquune source intruse sur les cts, larrire ou en hauteur
cre une certaine gne auditive, avec ou sans prsence de limage. Cest le cas de certains mixages qui prsenteraient des sons directs sur les cts, larrire ou en hauteur
mal intgrs au frontal. Dans ce cas, les sources avec transitoires mergent trop et
attirent lattention. Ce peut tre aussi la consquence dun choix de systme de prise
de son multicanal trop corrle ou bien une captation o le son direct est trs prsent
autour dun ensemble cohrent de capsules.

4.2.3 Couleur de limage


La restitution des timbres
La qualit de restitution des timbres dans une image sonore reste assez approximative
puisque la saisie se fait aprs passage du signal dans des transducteurs dformants,
en particulier les enceintes. Dautre part, chaque source possdant un timbre qui lui
est propre, lapprciation ne peut se faire que par comparaison avec lcoute directe de
la source ou suivant une rfrence culturelle. Ainsi, la reproduction lidentique est
impossible.

154

Chapitre 4 Limage

sonore, les esthtiques, et la ralisation

On a en mmoire une rfrence de timbre sur une voix, un instrument ou un bruitage


qui nous appartient. Pour caractriser le timbre, on utilise des adjectifs comme dur,
mtallique, acide, agressif, strident, rond, doux, chaud, riche, plein, pauvre, creux,
terne, clair, etc. Lenveloppe temporelle des sources, la caractristique des transitoires,
la tenue des sons, lextinction, influent sur le timbre.
La restitution des timbres reste une notion globale, peu lie la spatialisation. Il peut
cependant arriver quon obtienne une restitution de timbres diffrente entre le frontal
et larrire suivant la configuration de prise de son ou du mixage.

La coloration de la salle, du lieu


La salle, la rverbration artificielle, le lieu colorent les sources et peuvent les dtimbrer
selon le rapport CD/CR choisi, le volume du lieu ou la diffusion de la salle. La rsonance
de la salle ou de la rverbration artificielle met en valeur une partie du spectre du
signal et cre souvent une mergence frquentielle que le preneur de son ou le mixeur
rquilibre.
4.2.4 Qualit du signal
La dynamique
Guy Laporte dfinit la dynamique comme tant la diffrence entre les passages les plus
forts du programme et les passages les plus faibles. Elle voque aussi la perception des
nuances qui rend limage sonore pleine de ralisme. Si elle vhicule le grandiose et
la force dans les hauts niveaux, elle se doit galement de conserver lintelligibilit du
message dans ses passages faibles tout en prservant la propret du signal par un
rapport signal/bruit correct. On tudiera la dynamique globale de limage et galement
celle propre aux diffrentes parties du sujet.
Les contraintes domestiques et de voisinage rendent les grandes dynamiques peu
exploitables, il est donc important daborder ce critre avec un certain ralisme.

La dfinition
La dfinition peut tre compare la notion de nettet de limage photographique
(ou de piqu). Elle dsigne la puret du signal sonore, sa finesse et la prcision de ses
transitoires avec laquelle on la peroit.
Lauditeur analysera la dfinition de limage dans sa globalit ainsi que son homognit
spatiale.

Lintelligibilit
Lintelligibilit dsigne le degr de comprhension du signal. Sommes-nous en mesure
de comprendre le texte chant, parl ou bien jou? On parle aussi de sparation des
timbres lorsque lon tudie le spectre de limage.

4.3 Application:

analyse dimages sonores par les critres

155

Lintelligibilit reste un paramtre global. La spatialisation amliore en gnral


lintelligibilit de limage en offrant plus de place pour les diffrents composants et
rduisant ainsi leffet de masque.
Lauditeur analysera lintelligibilit de limage dans sa globalit, ainsi que son
homognit spatiale.

La transparence
La transparence est la capacit de mettre en relation immdiate les sources sonores et
lauditeur, en labsence de tout autre lment. On peut parler de puret ou dabsence
de voile qui sinterpose entre la source et lauditeur. Lanalogie avec la photographie nous amne comparer la transparence sonore la qualit de transmission de
la lumire. Cette transparence rsulte des conditions de propagation de londe sonore
(temprature, nature du milieu, clrit, etc.), de labsence de micro bruits divers et
de la ligne de transmission de la source jusqu lauditeur, en passant par les microphones, les cbles, les convertisseurs, les supports denregistrement et le systme de
monitoring, auxquels il convient dajouter les conditions de propagation propres la
salle dcoute.
Lauditeur analysera la transparence de limage dans sa globalit ainsi que son
homognit spatiale.

Existence de microparasites
Ce dernier paramtre numre lensemble des bruits qui peuvent altrer la qualit
dune image sonore: des micro-lments dorigine acoustique ou lectrique, rumble,
saturations, distorsion harmonique, pleurage, ainsi que des artefacts trs frquemment
prsents sur les sons encods.
Est propose en figure4.6, sous la forme dun tableau, une synthse de lensemble des
critres abords.

Dunod Toute reproduction non autorise est un dlit.

4.3

Application: analyse dimages sonores par les critres


La comparaison des systmes de prise de son principaux met aisment en vidence des
diffrences dans la construction des images sonores: la localisation des sources, les
quilibres, limpression spatiale. La comparaison des ambiances touche essentiellement
la notion denveloppement entre systmes concidents et systmes espacs.
Complment
Web 4.1

coute dextraits sonore 5.1 et binaural, comparaison des systmes de prise de son multicanal

156

Chapitre 4 Limage

sonore, les esthtiques, et la ralisation

Image relle ou virtuelle


Esthtique: frontale (direct/ambiance) ou quirpartie

Esthtique

Localisation en profondeur
Stabilit des plans (ou cercles)
Mouvements des sources (linarit)

Localisation

Construction

Localisation latrale ou circulaire


Stabilit des sources
Mouvements des sources (linarit)

Localisations internes ou proches de la tte


Internalisation des sources
Profondeur
Distance maximale perue
Localisation en hauteur
Relief
Existence de diffrents plans
Volume, taille des composants, des objets
Largeur des sujets frontal, latral, arrire
Enveloppement (externe)
Type: son direct et/ou salle
Rverbrance
Prolongement temporel des sources, rverbrations, dlais
Homognit en construction
Prsentation des composants sous la mme chelle
Continuit de localisation, zones vides
Focalisation sur centre, zoom sur enceintes
Distorsions angulaires

quilibre de construction

quilibres

Le dessin de limage

Impression
spatiale

Taille de la salle

Dislocalisation (rapport son/image)


Correspondances visuelles et auditives
quilibre frontal/arrire
quilibre horizontal/hauteur
Zone dcoute
Taille de la zone, variations latrale et en profondeur
Robustesse de limage

q.spectral

quilibre spectral: BF, MF, HF

q.son direct /
CD/CR global, homognit spatiale du CD/CR
son rverbr
Ractions de lorientation rflexe de
Distraction
lattention dans les zones latrales et arrire
Diffrence entre niveau maximum et niveau minimum
Perception des nuances

Dynamique

Couleur de
limage

Qualit du
signal

Restitution des
timbres

Caractrisation des timbres


Enveloppe dynamique des sons

Coloration de la
Homognit en frquence
salle
Dfinition

Globale, homognit spatiale

Intelligibilit

Globale, homognit spatiale

Transparence

Globale, homognit spatiale

Figure4.6Paramtres multicanal.

4.4 Genres,

4.4

157

esthtiques et ralisation

Genres, esthtiques et ralisation

4.4.1 Genres, esthtiques et lments de spatialisation


Voici sous forme de tableau la synthse de diffrents contenus spatialiss avec la dfinition du genre, les principaux lments de spatialisation du son et le type desthtique.
Programme Type
Programmes avec
image

lments principaux de
spatialisation, esthtique

Film, Fiction

FX, ambiances, musique,


image virtuelle/relle

Documentaire

Ambiances, musique, image


relle/virtuelle

Musique: concerts, documentaire musical

Ambiances, image relle/


virtuelle

Sport

Ambiances, image relle

Animation

FX, ambiances, musique,


image virtuelle

Documentaire

Ambiances, image relle/


virtuelle

Musique: concert

Ambiances, image relle/


virtuelle

Fiction

Image virtuelle, criture


spcifique

Paysage sonore: plans squences dambiance


dun lieu

Ambiances, image relle

Reportage

Ambiances, image relle

Nouvelles formes dcriture: musique, pome


mis en son, reconstitution non commente dun
vnement, adaptation thtrale dun texte,
adaptation sonore dun tableau

Image virtuelle, criture


spcifique

Album

Image virtuelle/image relle

Jeux vido

Jeux de personnage: le joueur est dans la peau


du personnage, contenu interactif

Dplacement du
personnage, bruitages,
ambiances, FX, musique

Scnographie

Installations, contenus sons et images interactifs

Spatialisation spcifique lie


au lieu de diffusion

Simulation interactive immersive visuelle et


sonore denvironnement rels ou imaginaires

Image relle et virtuelle

Cinma, TV

Programmes Radio

Musique supports

Dunod Toute reproduction non autorise est un dlit.

Dfinition du genre

Ralit virtuelle

4.4.2 Film, fiction, animation, documentaire, sport


Le film est le premier genre profiter du son spatialis, pour des raisons qui reposent
lorigine sur la problmatique de diffusion en salle. La salle de cinma implique une
diffusion sur plusieurs canaux afin dobtenir une meilleure couverture de la zone
dcoute. Avec ce type de diffusion sest dvelopp un langage spatial bien matris

158

Chapitre 4 Limage

sonore, les esthtiques, et la ralisation

des monteurs son et des mixeurs. Ce langage sappuie avant tout sur le placement des
dialogues, gnralement dans lenceinte frontale afin quils soient intelligibles par tous
et bien en rapport direct avec limage. Laction est scnique. La musique extradigtique, les ambiances et les effets constituent le dcor gnralement spatialis.
Le film est gnralement abord par une esthtique frontale, parfois trs spatialise
sur certaines squences daction. La spatialisation est traite diffremment suivant les
scnes: il y a un temps pour lenveloppement et un temps pour le frontal. Tout dpend
de ce qui est trait, du type de film, du lieu, de limage, de ses cadres et de son poids
attentionnel La rgle partage par les mixeursest dviter de perturber un spectateur
dans la vision dune histoire, do lexistence des paramtres en rapport avec limage
aborde prcdemment, distraction et dislocalisation.
Lambiance est souvent utilise pour crer des changements de lieux, comme le passage
dune scne intrieure une scne extrieure. La voix-off, lment extradigtique,
peut tre restitue trs proche du spectateur, en interne, plus prs que le plan dfini
par limage. Mais on peut aussi se servir de la spatialisation pour exprimer une
motion particulire du personnage que lon voit et tablir des contrastes.
Les films danimation proposent un univers imaginaire, dans lequel le mixeur peut
pleinement spatialiser les effets et dfinir des mouvements sonores, en utilisant les
canaux arrire qui marquent les dplacements limage.
Le documentaire est gnralement spatialis de la mme faon, le spectateur suit
lhistoire conte dans la zone frontale. Certaines squences virtuelles sont plus
quirparties. Dans le documentaire animalier Microcosmos, certaines squences
reposent sur des images de synthse, des schmas qui demandent une illustration
sonore imaginaire, ou bien sur des scnes o le point de vue de la camra plonge dans
lunivers des insectes. Laccent est mis sur le point de vue de linsecte: le spectateur
glisse alors dans ce monde spatialis et devient acteur.
Le documentaire musical This is it combine diffrentes esthtiques: les squences trs
frontales des interviews, les rptitions ralistes du spectacle en salle avec le travail des
ambiances et les vido clips o le son devient plus quirparti et plus virtuel.
Le sport en multicanal est abord par lesthtique frontale. Lambiance capte par un
systme de prise de son multicanal suspendu au niveau de la tribune ou plac sur le
terrain constitue la spatialisation du son. Les sons directs sur les matchs de football ou
rugby appels le zoom sont disposs dans la zone frontale, ils prcisent les frappes de
balles, les changes entre les joueurs et larbitre. Les commentaires sont gnralement
divergs entre centre physique et centre fantme pour une meilleure homognit.

4.4.3 Musique
Lesthtique de la musique en multicanal sappuie sur deux approches. La premire est
dfinie par lesthtique frontale o le son direct est dans la zone frontale et le champ
rverbr est dploy tout autour de lauditeur. Cest gnralement le cas de la musique
classique donne en reprsentation frontale. Lopra, le ballet, lorchestre symphonique

4.4 Genres,

159

esthtiques et ralisation

sinscrivent dans ce type desthtique sonore. Limage sonore est relle, la rfrence est
donne par la perception de lauditeur en salle que lon sefforce de reproduire.
Louverture de la scne sonore (langle sous lequel on voit le sujet) varie selon le genre
abord et suivant le type denregistrement, concert ou disque (sans reprsentation
publique), elle place luvre la frontire entre le frontal et lquirparti. Souvent
lorchestre stale jusquaux enceintes arrire, sur un angle dincidence de 220, ce qui
amliore considrablement la lisibilit de luvre.
La seconde approche repose sur lesthtique quirpartie, dans laquelle on dispose
le champ direct et le champ rverbr tout autour de lauditeur. Cest le cas par
exemple de la musique actuelle ou celui de la musique acousmatique dfinissant une
image virtuelle. Dans ce contexte, la musique na plus cette reprsentation frontale,
le compositeur sollicite toutes les directions du multicanal, sur des formats souvent
mme suprieurs au5.1 tels que le format octophonique.

Dunod Toute reproduction non autorise est un dlit.

Les uvres classiques contemporaines dont lorchestration est trs dense sont traites
en quirpartition: lenregistrement reprend la disposition des sources dans la salle
(notamment les uvres Rpons de Pierre Boulezet et On the transmigration of souls de
John Adams).

Figure4.7Disposition des instruments,


Rpons, P.Boulez, Citdelamusique,
J.M. Lyzwa, CNSMDP.

160

Chapitre 4 Limage

sonore, les esthtiques, et la ralisation

Certains enregistrements dorchestre exploitent aussi lextra largeur en frontal sur


50 douverture. Le label norvgien 2L Lindberg Lyd, spcialis dans lenregistrement
musical haute dfinition multicanal, illustre aussi cette esthtique quirpartie sur des
projets comme Souvenir dit en 2012. Lorchestre de chambre est spatialis tout autour
de lauditeur, exploitant aussi la zone arrire. Voici la reprsentation de lorchestre de
chambre pour les uvres de Tchakovski Srnade pour cordes, Souvenir de Florence
et celles de Carl Nielsen Suite et Ved en Ung Kunstners Baare. Ces uvres ont t
enregistres aux formats Auro-3D 9.1, 7.1 et5.1 avec une disposition des instruments
(violon 1, violon 2, alto, violoncelle, contrebasse) assez variable, mais utilisant
lensemble de lespace sur 360 (zone arrire comprise).

Figures4.8,4.9,4.10,Dispositions duvres spatialises pour orchestre autour du


systme de prise de son, extraits de Souvenir, Trondheim Solistene, production 2L,
Morten Lindberg 2L.

En ce qui concerne les musiques actuelles, lalbum Vespertine de Bjrk sorti en 2001
est un exemple dcriture ralise partir de bruitages et de sons musicaux pour un
espace totalement virtuel. Le traitement interne de la voix de Bjrk repose sur une
distribution corrle sur les cinq canaux. Leffet apporte une certaine proximit
avec lauditeur et une bonne intelligibilit, lutilisation de rverbration apporte la
profondeur, lenveloppement. On retrouve dailleurs ce type de traitement de voix
dans toutes les uvres de lartiste. Lorchestration repose sur des sources, souvent

4.4 Genres,

esthtiques et ralisation

161

Figure 4.11 Exemple de prise de son dorchestre 3D du label 2L, 2L

Dunod Toute reproduction non autorise est un dlit.

des bruitages, rythmes en mouvement, plutt proches de lauditeur, mlanges des


acoustiques profondes.
Souvent, les critures 5.1 pour la musique actuelle sont quirparties avec
prdominance frontale. Les sources directes qui donnent le sens, le dialogue, sont
disposes dans la zone frontale, cest le cas aussi de certaines sources acoustiques qui
attirent lattention. Les sources directes dont la texture est enveloppante, sont places
larrire et sur les cts. Le mixeur spatialise souvent dans les DVD/Blu-ray de concerts
des sources directes sur les cts ou larrire pour envelopper davantage le spectateur.
Le concert de Peter Gabriel Growing Up (dition DVD 2003) en donne un exemple
russi. La version studio du mme album Up (ditionSACD) dfinit un espace qui
alterne entre stro prdominante et5.1 quirparti, suivant la nature des sources: les
instruments enveloppants avec peu de transitoires tels que les sons de synthse sont
situs dans la zone frontale et larrire. Les sources comportant un dialogue comme
la voix, les instruments solistes, sont dans le frontal. Les instruments transitoires,
les instruments lectroniques et acoustiques entre le frontal et larrire, rpartis avec
symtrie.
Lalbum Love des Beatles est sorti en 2006 en DVD Audio loccasion de la reprsentation du Cirque du Soleil. Cet album a t rcrit pour le5.1, il sinscrit dans le mme
type desthtique. La spatialisation ici repose sur des ambiances naturelles rajoutes,
les ambiances du public, les churs, les cordes qui exploitent tout lespace ou la partie
arrire. La voix se trouve toujours dans la zone frontale, souvent dans le canal central,
parfois diverg gauche droite.
Diana Krall a sorti quelques albums en SACD ou DVD Audio mixs par Al Schmidt.
Sur lalbum de jazz orchestral The look of love, sorti en 2001, la voix est place dans le
frontal, rpartie entre les canaux LCR, accompagne de la batterie, de la contrebasse

162

Chapitre 4 Limage

sonore, les esthtiques, et la ralisation

et du piano. Lorchestre compos de cordes et de bois, accompagn de percussions, est


dispos dans la zone arrire. Il existe un album plus exprimental de Diana Krall (The
girl in the other room), dit en 2004, avec piano, batterie, contrebasse, guitare, orgue
et chant. La musique joue ici avec linternalisation de certains des instruments, ce qui
donne limage sonore une certaine virtualit.
Dans un style diffrent, lalbum Playing the angel de Depeche Mode dit en 2005,
constitue une belle rfrence pour la ralisation dalbums studio pop-rock5.1. La
spatialisation est trs cohrente, lenveloppement est important et la gestion du centre
pertinente. La voix est spatialise en image fantme L et R et le centre physique
complte la partie instrumentale sur certains passages.
On trouve donc de nombreux exemples dans les diffrents genres musicaux (classique,
jazz, varit, pop-rock), chaque genre trouvant sa propre esthtique. Louverture de la
scne varie entre le frontal, lextra largeur, le 220 qui tend le sujet jusquaux canaux
arrire et lquirpartition o toutes les zones de lespace sont sollicites.

4.4.4 LAcousmatique et lAcousmonium par Daniel Teruggi


Lapparition de la musique concrte en 1948, ralise partir de sons enregistrs
et modifis avec des outils technologiques selon diffrentes techniques, remet en
question les fondements de la musique et notamment les mcanismes de la cration.
Cette nouvelle manire de faire de la musique ouvre le possible sonore tous les sons
existants et met luvre le concept dinvention sonore, cest--dire une approche
consistant fabriquer les sons qui serviront composer la musique. Cette dmarche
change radicalement le processus habituel de composition fond sur la combinatoire
de sons produits partir dun nombre relativement restreint de sons gnrs par des
instruments musicaux. Le compositeur fabrique des sons et il les agence dans des
structures plus ou moins complexes fixes sur des supports (analogiques et ensuite
numriques) pour tre joues en tant quobjets musicaux finis.
Cette dmarche change galement de manire radicale la rception et la perception de
la musique; des mouvements et courants se crent utilisant la technologie de manire
diffrente en fonction des sons ou de la finalit cratrice1. La musique ne se compose
plus comme avant, elle ne scoute plus de la mme manire et les concerts sont dune
toute autre nature. Du point de vue de la perception elle pose le problme de la source
1. Larrive des technologies dans la production des sons et de la musique a cr diffrentes approches et courants, favorisant soit la musique enregistre, soit la performance en temps rel ou associe des instruments.
Lappellation initiale de musique concrte a t donne par Pierre Schaeffer en 1948 pour dcrire cette
musique faite partir de lcoute et lassemblage dobjets sonores, (ces vnements eurent lieu au Club dEssai
de la Radiodiffusion franaise). Peu de temps aprs, en 1953, arrivait la musique lectronique, dveloppe la radio de la WDR Cologne, en Allemagne, musique qui utilisait des sons synthtiques gnrs par
des oscillateurs, des gnrateurs de bruit et des filtres. Dautres appellations sont apparues par la suite:
musiques exprimentales, live-electronics, digital music, etc. Le terme plus gnrique de musique
lectroacoustique a commenc sappliquer vers 1960 pour dcrire tout travail musical utilisant des technologies lectroniques ou numriques. Cest partir de 1972 que nous trouvons le concept de musique
acousmatique.

4.4 Genres,

esthtiques et ralisation

163

sonore et son identification; tout son est candidat tre musique cest--dire susceptible de gnrer une rception de type musicale, mais comment sopre lcoute quand
les sons entendus sont inous ou utiliss dans des contextes totalement inattendus?
Ds les annes cinquante a t associ au processus de perception le concept dcoute
acousmatique. Ce mot trs ancien dcrit lcoute dun son sans rfrence visuelle;
Pythagore laurait introduit dans son enseignement au cinquime sicle avant JC en
tant que catgorie pour y placer les auditeurs qui lcoutaient derrire un rideau
avant davoir accs la catgorie de mathmaticiens. Cette coute de la source masque est un des fondements de lAcousmatique; elle dfinit la situation dans laquelle
nous entendons un signal sonore, en interprtons lorigine et essayons de comprendre
linformation vhicule. Ainsi notre perception effectue un double travail didentification et dinterprtation bas sur notre exprience auditive. La musique concrte,
ensuite acousmatique, propose un cadre dcoute diffrent des musiques instrumentales, o les sources sont connues et identifiables; lcoute dcouvre, interprte,
construit des cadres possibles de perception musicale et prouve, comme dans toute
musique, le plaisir des sons.

Dunod Toute reproduction non autorise est un dlit.

La restitution de la musique pose dautres problmes, de nouveaux problmes. La


source principale est le haut-parleur, donc le contexte du concert impose la prsence
dun nombre variable de ces objets. Le premier concert de musique concrte en 1951
utilisait une invention appele pupitre de relief (galement appel potentiomtre
despace) conu par Jacques Poullin (ingnieur travaillant avec Pierre Schaeffer), qui
permet de contrler lintensit et le positionnement des sons en provenance dune
source monophonique sur quatre points de lespace : avant-gauche, avant-droite,
arrire-centre en haut et arrire-centre en bas, partir dune bobine que loprateur
dplaait lintrieur dun champ magntique. Ainsi naissait la premire musique
concrte interprte en concert!2
La musique concrte sest prolonge jusqu nos jours travers le GRM de lINA (Groupe
de Recherches Musicales) qui, depuis 1958, travaille autour de la cration musicale, la
conception et le dveloppement doutils de traitement du son et des concerts spatialiss.
Le concept de musique acousmatique appliqu la cration de musiques enregistres
commence se rpandre partir de 1972 o le concept est propos par Franois Bayle,
compositeur et alors responsable du GRM pour dcrire toutes les musiques dont la
finalit est laudition pure, sans mdiation dintermdiaires instrumentaux ou visuels.
La musique acousmatique ne dfinit pas une esthtique particulire autre que celle du
son invent, transform et mis dans une forme dfinitive et fixe, destine lcoute.
Environ vingt compositeurs travaillent tous les ans dans les studios de cration du
GRM et construisent ainsi des nouvelles perspectives pour la musique. Lobjectif est de
proposer un espace de cration libre o le compositeur invente, exprimente sa pense
de la musique et aboutit une uvre qui sera donne en concert.

2. Jacques Poullin, Lapport des techniques denregistrement dans la fabrication de matires et de formes musicales nouvelles. Applications la musique concrte , LOnde lectrique, vol. 34, n 324, Paris, 1954, p. 282-291.

164

Chapitre 4 Limage

sonore, les esthtiques, et la ralisation

Linvention est le travail des compositeurs mais elle ncessite des outils, cest pourquoi,
dans cette approche, les outils de transformation et gnration de sons sont indispensables pour fabriquer les lments ncessaires aux musiques. Une dmarche trs
souvent observe est celle de lutilisation dun nombre restreint de sources sonores,
enregistres et ensuite modifies de nombreuses fois par des outils de modification
spectrale, temporelles ou hybride associant des outils de synthse. Ainsi tous les sons
crs partir des sources dorigine (tout en tant diffrents) conservent lempreinte
initiale de cette source et impriment aux sons crs une logique spectro-temporelle qui
facilite leur intgration dans une construction musicale.
Laspect probablement le plus intressant est celui de la restitution des musiques en
concert. Les uvres sont produites dans des formats trs divers; nous avons vu les
dbuts monophoniques des premires musiques; ensuite est arrive, la stro, les
quatre pistes, le huit-pistes, 16, 24 et le5.1. Chaque format complexifie le processus de
restitution, surtout si luvre est donne en public et si ce public est nombreux. Pour
cela il faut des outils puissants et versatiles capables de sadapter des situations et des
contextes acoustiques trs diffrents. Dans la continuit, du concept dAcousmatique,
un outil appel lAcousmonium a t dvelopp en 1974. Cest un outil compos dun
nombre variable de haut-parleurs distribus permettant un contrle adaptable des
musiques dans diffrents espaces acoustiques pouvant aller de quelques dizaines plus
de mille de personnes. Ses caractristiques principales sont les suivantes:
proposer une multiplicit de points de diffusion sonore distribus dans le lieu de
projection, y compris dans le public grce des ensembles de haut-parleurs spcialiss appels arbres sons avec quatre ou six branches contenant chacune un
haut-parleur de haute frquence;
permettre une distribution complexe du spectre sonore: la plupart des haut-parleurs
sont spcialiss dans des rgions du spectre allant de linfra grave lextrme aigu,
dautres ont une rponse constante sur tout le spectre;
offrir une modulation trs souple de lespace acoustique, depuis les haut-parleurs de
proximit crant une image trs nette du son jusquaux projecteurs lointains faisant
intervenir toute lacoustique du lieu;
assurer un contrle prcis de lensemble travers une console de mixage avec
laquelle les musiciens travaillent linterprtation des uvres en ladaptant aux
conditions acoustiques de la salle de concert.
Ce dispositif a permis de raliser plus de six cents concerts depuis sa cration et
continue dvoluer pour permettre de sadapter aux formats mais surtouts aux
musiques. LAcousmonium permet une mise en espace du son acousmatique. Le
son devient source mobile, sa projection dirige souvre linterprtation.

4.4.5 Radio
Les uvres radiophoniques crites en multicanal sont le documentaire, le reportage, la
fiction et le concert. Elles sont gnralement trs spatialises, cest le cas particulirement

4.4 Genres,

esthtiques et ralisation

165

de la fiction radiophonique, o le ralisateur cherche souvent rapprocher lauditeur


des objets sonores, dans un univers virtuel riche. La ralisation des fictions des radios
sudoise SR et norvgienne NRK met en avant cette spatialisation par lutilisation de
nombreux espaces, de mouvements et deffets. La fiction Les sonnets de Shakespeare
produite par France Culture, aborde dans le chapitre5, nous plonge aussi dans un
univers o les sons tournent autour de nous : les voix anglaises et franaises des
rcitants se poursuivent dans des zones opposes de lespace. Leffet dinternalisation
y est souvent sollicit, en prsentant des voix intrieures, proches de lauditeur,
soulignant le caractre intime et dramatique. Lauditeur devient vritablement acteur.
Le ralisateur Claude Guerre souhaitait dailleurs que lauditeur se place librement
dans sa zone dcoute et quil ne soit pas contraint de sorienter vers le frontal. Do la
disparition, dans ce cas, de la polarisation du systme dcoute5.1.
Le documentaire et le reportage multicanal en radio sont gnralement des programmes dont lesthtique est frontale, avec quelques squences qui justifient un
enveloppement de son direct. Ces scnes sont avant tout crites et ralises avec cette
intention de spatialiser le son. Le Singe Soleil produit par France Inter est un documentaire qui comporte des scnes o lon profite pleinement de lenveloppement du son
direct. La squence des abeilles par exemple lillustre bien: elle place lauditeur dans
la scne relle du tournage, entour par les abeilles, avec des effets dinternalisation
o linsecte rentre dans la zone dcoute et frle nos oreilles. Dans dautres squences,
lauditeur est immerg dans les ambiances riches et profondes du Gabon, tandis quune
voix proche chuchote derrire lui lhistoire.

4.4.6 Jeu vido par Thierry Dilger


Le jeu vido est un exemple o le son multicanal sert essentiellement linteractivit.
Le son est gr par le moteur audio directement en5.1 partir dobjets. Voici un
exemple concret dinteractivit sonore avec lanalyse de la bande-son du jeu Batman.

Dunod Toute reproduction non autorise est un dlit.

Batman Arkham Asylum


Batman: Arkham Asylum est un jeu vido daction-aventure produit par Rocksteady
Studios et dit par Eidos Interactive, sorti en 2009 sur PlayStation 3, Xbox 360 et PC.
Il met en scne le clbre personnage de Batman. Peu aprs sa sortie, le jeu entre dans
le livre Guinness des records avec la distinction de jeu de super-hros le mieux not
de tous les temps par la presse spcialise.
Il a reu les distinctions suivantes: meilleure musique et meilleur son (AceGamez
2009), meilleur Sound Design (Gamespot Readers Choice 2009), meilleure intensit
dramatique (Gamespy 2009), distinction dexcellence pour le son (IGN Readers Choice
2009).
Sa suite, Batman: Arkham City, est sortie en 2011.
Audio Director: Nick Arundel
Audio Programmer: Antony Lloyd

166

Chapitre 4 Limage

sonore, les esthtiques, et la ralisation

Sound Designers: Lee Banyard et Andrew Riley


Ce jeu utilise le moteur sonore FMOD avec encodage Dolby Digital5.1. On profite du
son multicanal en utilisant les sorties mini jack du PC (ou la fibre optique via Dolby
Digital Live), par fibre optique sur XBOX 360 et sur HDMI (et fibre) sur la PS3.
Prsentation gnrale du jeu

Figure4.12Batman: Arkham Asylum, Eidos Interactive.

Dans ce jeu, nous dirigeons le personnage de Batman dans une vue 3D ( la troisime
personne, cest--dire que nous voyons le corps de Batman en permanence devant
nous). Nous avons la libert de diriger librement la camra (l o regarde Batman) ainsi
que les dplacements (marcher, se baisser, voler, etc.). Il est aussi possible de porter des
coups (coups de poing, coups de pied, coup rapide, coup puissant, etc.) et dactionner
des mcanismes (ouvrir la grille dun conduit daration, par exemple).
Le gameplay (briques de jeu) est constitu principalement de phases dexploration/
nigme (trouver le passage jusqu la salle des gardes, actionner le circuit de ventilation,
etc.) et de phases de combat (tuer des ennemis de plus en plus dangereux, soit de
manire directe, soit de manire furtive).
Lhistoire se droule dans un asile de fous dont le Joker a pris possession. Batman tente
de le capturer mais de nombreux piges lattendent. Lambiance gnrale du jeu est
assez oppressante: les dcors sont sombres, le mobilier est cass, il y a des gardes et
des dtenus, nous assistons des scnes de torture, de nombreuses machines et mcanismes peuplent cet univers et les personnages que nous croisons sont tous drangs.
Le son du jeu est compos de trois familles distinctes: Musique/Voix/SFX (bruitages
et ambiances).

4.4 Genres,

esthtiques et ralisation

167

La musique est une musique orchestrale/lectronique inspire de la musique de


Danny Elfman (compositeur de la B.O. du film Batman). Les voix sont types dont
celle de Batman, trs froide, qui contraste avec celle du Joker, trs excentrique et pleine
dhumour noir. Les SFX sont composs de bruitages riches avec toute une panoplie de
bruits dactions (les diffrents types de coups, utilisation du grappin, tirs ennemis) et
de textures sonores (ronronnement des machines, ventilation).
Les musiques

Figure4.13Batman, les musiques, T.Dilger.

Dunod Toute reproduction non autorise est un dlit.

La musique est omniprsente dans le jeu avec un mixage qui ragit de manire dynamique, ce qui permet dobtenir une orchestration vivante. La musique extradigtique
souligne la fois le ct hroque de Batman et le monde sombre dans lequel il se
trouve.
Elle est diffuse en stro pendant le jeu et nutilise pas le canal Lfe. Une raison de ce
choix tant de ne pas troubler les repres spatiaux du joueur (la position des ennemis)
et ne pas masquer les effets spciaux. Les trois tats principaux sont:
tat 1: Exploration (en boucle dure une minute)

Cest ltat calme du jeu. Cest le moment o lon nest pas en prsence dennemis et que
lon cherche son chemin. On entend le thme principal du jeu trs calme (orchestral) au
cor solo, des violons, des churs, quelques cymbales dorchestre, des nappes sourdes
(comme des souffles), des sons de synthse discrets et des bruitages de vent et de chocs
lointains.

168

Chapitre 4 Limage

sonore, les esthtiques, et la ralisation

tat 2: Furtivit (en boucle dure une minute)

Cest ltat qui se dclenche quand on tue discrtement un ennemi. Le thme est
toujours prsent mais son orchestration a chang. Maintenant, les violons sont plus
prsents et plus rythms, les sons lectroniques prennent plus de place. Cette partie
musicale remplace doucement le premier tat (utilisation de crossfade) puis reste
environ deux cycles (deux minutes), mme si lon ne tue pas dautres ennemis. Ainsi la
tension est mise en place et revient sur ltat 1.
tat 3: Combat (en boucle dure une minute)

Les violons sont encore plus marqus et sont trs rythmiques, le thme est maintenant
soutenu par la section des cuivres, les percussions orchestrales font leur entre
(timbales) et les bruitages disparaissent. Cette partie se dclenche ds que Batman est
repr et sestompe quand il est cach.
Les voix

Figure4.14Batman, les voix, T.Dilger.

Les voix originales (US) sont trs varies entre la voix sombre et monotone de Batman, la voix rieuse du Joker dans les haut-parleurs et sur les tlvisions de lasile,
les remarques des gardes et les innombrables cris. noter que dans un jeu de cette
ampleur la localisation (traduction) est faite en treize langues.
La majorit des voix sont spatialises en temps rel sur cinq canaux et bnficient
en plus dune rverbration multicanal qui se transforme en fonction de la taille des
diffrentes pices.

4.4 Genres,

169

esthtiques et ralisation

La position dun son dans lespace5.1 correspond la position de la source dans le


jeu (garde derrire soi dans les canaux arrire par exemple) et sa distance attnue son
volume. Il ny a pas dutilisation du Lfe.
Layer 1: La voix de Batman ainsi que les sons de ractions et son contact radio (une
oreillette qui lui permet dobtenir des informations) = canal central uniquement
+rverbration sur les cinq canaux.
Layer 2: La voix des gardes ainsi que leurs sons de ractions (suffocation en mourant) =
spatialiss sur les cinq canaux, rverbration multicanal. La spatialisation est trs
prcise et le moindre mouvement de tte de Batman fait bouger la voix des gardes
(permet une bonne reprsentation de la scne spatiale et de lendroit du danger).
Layer 3: La voix du Joker que lon entend souvent travers les haut-parleurs de lasile
et les tlvisions =spatialises sur les cinq canaux avec comme point dmission les
haut-parleurs (et tlvisions) accrochs dans le dcor et utilisation de la rverbration
multicanal.
Layer 4 : Les cinmatiques (scnes narratives regarder) ainsi que les indices
sonores (sorte de cinmatiques ne comportant que du son) =diffuss sur les trois
enceintes frontales.

Dunod Toute reproduction non autorise est un dlit.

Les SFX (bruitages et ambiances)

Figure4.15Batman, les SFX, T.Dilger.

Cette catgorie est la plus riche notamment pour sa diversit et les techniques de
mixage spatial utilises.
Cette fois-ci le canal Lfe est utilis et renforce la prsence des ambiances du jeu (Layer 2).

170

Chapitre 4 Limage

sonore, les esthtiques, et la ralisation

Layer 1: Les pas et les bruits de dplacements de Batman ne sont pas mixs trs
fort (toujours prsents). Les sonorits changent en fonction des matires rencontres
(plaque de mtal, bton) =dans le canal central +rverbration 5.0.
Layer 2: Lambiance omniprsente dans les diffrents niveaux change subtilement en
fonction de la position de Batman (souffle lointain, ronronnement des machines) =
diffuse en statique en5.1 (avec Lfe).
Layer 3: Les lments du dcor comme les portails laser (grincement lectronique),
les machineries (grondement et cliquetis), les conduits daration (souffle) =spatialiss
sur les cinq enceintes.
Layer 4: Les diffrents coups que porte Batman (sorte de bruit de vtements, cape) =
placs dans le canal central uniquement +rverbration en 5.0.
Layer 5: Utilisation des accessoires de Batman comme le batarang, la cape, le grappin,
etc. =diffuss en statique sur les trois enceintes frontales.
Layer 6: Passage en mode dtection (pouvoir de vision spcial) =son de flash sur les
cinq enceintes en statique en entre et sur la centrale en sortie.
Layer 7: Les tirs des gardes =spatialiss en 5.0 +rverbration avec les impacts de
balle dans la centrale.
Layer 8: Linterface du jeu (utilisation des menus) =en stro.
Mixage multicanal interactif
La nature imprdictible des interactions du joueur dans un monde virtuel rend la tche
du mixage extrmement ardue. Dans le jeu Batman, rien nempche un joueur de raliser plusieurs actions en simultan. Par exemple courir en lanant des batarangs vers un
groupe dennemis qui nous tirent dessus et qui crient pendant que le joker parle dans
les haut-parleurs de la prison, tout en longeant une srie dnormes ventilateurs. Tout
cela soulign de musique orchestrale dans un mixage5.1 interactif!
Cest ltape de lintgration qui permet de relier les diffrents tats du jeu avec les
dclenchements sonores. Ici, le moteur FMOD est sollicit pour faire ce travail. Dans
cet environnement, il faut dterminer des catgories et des sous-catgories sonores
(par ex: arme puis arme du joueur puis coup de poing). Chaque famille
cre possde des attributs (lecture en boucle, alatoire, etc.) avec des rglages et des
comportements spcifiques. On peut ainsi dfinir le volume de tous les coups ports
par Batman et ne les assigner que dans le canal central.
Dans certaines situations, le joueur se retrouve avec des incohrences de mixage. Par
exemple la hauteur (monter ou baisser la tte) na pas dinfluence sur le son et on a du
mal associer le son du Joker avec les haut-parleurs accrochs. La rverbration 5.0
change radicalement quand on passe dune pice lautre, mme si les portes sont
grandes ouvertes. Les voix ne sont pas attnues lorsquon se situe derrire un mur

4.4 Genres,

esthtiques et ralisation

171

(problme docclusion). Les distances dattnuation sont parfois mal gres et il arrive
de pouvoir couper une parole en se reculant
Il est donc ncessaire pour lquipe son de tester un maximum de situations et, ainsi,
pouvoir faire les ajustements ncessaires dans le moteur audio. Il arrive assez souvent
en production que le manque de temps (ou de disponibilit dun programmeur
son) oblige lquipe faire confiance au moteur de rendu sonore et ne pas ladapter
(utilisation des rglages par dfaut).
La compatibilit stro du jeu via une rduction automatique par FMOD oblige aussi
certains choix de travail, comme lutilisation des enceintes frontales pour les cinmatiques.

4.4.7 lments de ralisation


Aprs lanalyse des diffrents genres spactialiss, abordons maintenant la partie de
la ralisation. Sont prsents ci-aprs les lments de ralisation qui font sens pour la
spatialisation dune uvre.
Le scnario doit toujours tre compris, la spatialisation nest l que pour aider la
comprhension du sens que lon souhaite donner luvre. Si le sujet dont il traite est
favorable au voyage du spectateur, la dcouverte, au divertissement, lespace trouvera
alors tout son sens.

Dunod Toute reproduction non autorise est un dlit.

Lesthtique de luvre, frontale ou quirpartie, est gnralement associe au


type dimage sonore, image relle ou virtuelle, elle pose ainsi la dimension de la
spatialisation. Limage relle spatialise vise mettre lauditeur en situation relle,
comme sil vivait lvnement sur le lieu, tandis que limage sonore virtuelle consiste
apporter un imaginaire riche en motions.
Le dialogue donne le sens luvre, il est plac dans le frontal pour des raisons lies
la prdominance frontale de notre coute et au rapport son limage. Les films
danimation sont souvent une exception: ils utilisent la divergence gauche et droite
pour les dialogues mais cest un genre o leffet sonore est trs sollicit. Tout discours
est mieux peru dans le frontal: le soliste dans une uvre comme le dialogue dun
personnage. La sollicitation de larrire pour ce type de son apporte la notion deffet
sonore et peut distraire lauditeur.
Linformation de lieu est donne par les ambiances, cest le critre de spatialisation
le plus sollicit. Cest pourquoi le lieu, sil est riche en sons, est un sujet intressant
raliser en multicanal. On recherche aussi la mise en scne spatiale de squences
favorisant limmersion de lauditeur.
Les sons IN et les sons hors champ sont positionns proximit de lcran,
gnralement centrs. Les sons OFF peuvent tre divergs gauche droite, sur les cts
ou larrire parfois, cette divergence peut prparer lapparition dun nouvel lment
dans le scnario.

172

Chapitre 4 Limage

lments

sonore, les esthtiques, et la ralisation

de ralisation pour lespace

- Le scnario invite-t-il au voyage?


- Les contraintes culturelles de luvre.
- Le scnario, le sens.
- Image sonore relle ou virtuelle (reproduction ou fiction).
- Esthtique frontale, esthtique quirpartie.
- Les lments de discours: le dialogue, le soliste (en musique).
- Linformation de lieu, les ambiances, intrieur/extrieur.
- 
Immersion de lauditeur, enveloppement, mise en scne de squences pour
lenveloppement de lauditeur.
- Son limage: les sons IN, les sons hors champ, les sons OFF.
- Les cadres de limage.
- Les cadres sonores des sons IN: gros plan, plan rapproch, plan densemble.
- Le poids attentionnel de limage.
- L e degr de prvisibilit dune scne sonore, son spatialis enregistr dans la
mmoire auditive.
- Le point de vue donn la scne, le dplacement du point de vue.
- Lexistence dactions se droulant de faon simultane des endroits diffrents.
- L a multitude de sources, la densit de son.
- Le confort dcoute.
- Les sons attirant lattention.
- Les sons favorisant lenveloppement.
- Le sens de lecture de luvre (positionnement dcoute du spectateur ou de lauditeur).
- Les lments deffet sonore.
- L a source extradigtique (musique, voix off).
- L a proximit avec lauditeur, internalisation.
- Les mouvements.
- Leffet de constellation, directions de lespace mises en scne.
- Ltendue spectrale, la gestion du grave.
- La dynamique.
- Les changements despaces.
- Lespace pour coder lmotion dun personnage du rcit, pour renforcer une motion
de lauditeur ou pour traduire la vision sonore dune personne.
- Le spectateur devient acteur, il sidentifie au personnage.
- L a spatialisation permet de se situer et de se dplacer.

4.4 Genres,

esthtiques et ralisation

173

Les cadres de limage imposent le point de vue, la spatialisation du son en rsulte.


Mais une corrlation des valeurs de cadre image et de cadre sonore des sons IN
nest pas systmatique. Certains gros plans limage pourront dborder vers la
zone arrire crant un certain enveloppement, dautres resteront en frontal, centrs.
Le point de vue peut solliciter la spatialisation des sons avec de lenveloppement: des
scnes spcifiques o le personnage entre dans un espace enveloppant IN permettent
la spatialisation. Ce point de vue peut aussi tre en mouvement.
Le poids attentionnel de limage limite gnralement la spatialisation des sons.
Cest le cas des images avec les contraintes de la scne relle compose de personnages
dans un lieu par exemple: ce type de scnes nous ramne gnralement dans lespace
frontal. Les images qui prsentent peu de contrainte, telles que les squences virtuelles
constitues dimages de synthse dans un documentaire ou un clip musical permettent
beaucoup plus de libert pour la spatialisation.
Le multicanal permet aussi le droulement de plusieurs actions en simultan
diffrents endroits de lespace: la fiction radio et certaines scnes de film exploitent
cette possibilit.
La multitude de sources, la densit du son appellent naturellement une
spatialisation.
La spatialisation du son apporte ainsi un certain confort dcoute.
Certaines sources ont des caractristiques enveloppantes, elles sinstallent
aisment sur les cts et larrire. Elles peuvent tre des sons naturellement spatialiss
(enregistrs comme tant spatialiss dans la mmoire auditive), des sons visuellement
prpars, ou des sons attirant peu lattention.

Dunod Toute reproduction non autorise est un dlit.

Certains sons attirent lattention tels que les sons transitoires marqus, ceux
dont le spectre est autour de 3 kHz, zone sensible de loreille, ou bien tout son
caractre nouveau. Ces sons, comme voqu au chapitre3, sont susceptibles de crer
de la distraction sils sont placs sur les cts, larrire ou en hauteur. On peut les
spatialiser autour de lauditeur en travaillant la fusion frontal/arrire ou horizontal/
hauteur des sons.
Le sens de lecture dune uvre spatialise est gnralement frontal. Sans limage,
lcoute nest pas toujours polarise, la fiction radio est un cas envisager o lauditeur
peut tre plac dans nimporte quelle direction.
Une uvre peut comporter des contraintes culturelles limitant la ralisation en
multicanal. Cest souvent le cas de la musique actuelle o la stro a format le langage.
Cest pourquoi il est indispensable dcrire ou de rcrire luvre en considrant les
opportunits pour lespace. Certains essais de spatialisation dans la musique classique
qui impose une image relle ne sont pas concluants car luvre nest pas respecte. Les
instruments peuvent tre spars et lharmonie crite par ces instruments desservie.

174

Chapitre 4 Limage

sonore, les esthtiques, et la ralisation

Le caractre extradigtique dune source facilite sa spatialisation, cest le cas de la


voix off ou de la musique de film. La voix off impose un certain dtachement du rcit,
la spatialisation peut nous aider comprendre sons sens. La musique de film spatialise
renforce le scnario.
Le recours linternalisation apporte une certaine proximit avec lauditeur et donne
une dimension virtuelle lobjet sonore: cest un effet sonore.
Lutilisation du subwoofer permet dtendre considrablement le spectre dans le grave,
il agit sur limpact des sons, sur les effets sonores, sur la dimension du son.
Leffet de constellation est dfini par la sollicitation assez rapide des diffrentes
directions de limage sonore par de nombreuses sources localisables: il apporte un
enveloppement saisissant.
Le mouvement dans la ralisation dune uvre multicanal se trouve en quelque sorte
libr: la fiction radio, le film danimation, la musique acousmatique, le jeu vido sont
des genres qui lexploitent de faon quasi permanente.
La dynamique du son dans les formats spatialiss est considrable, les changements
despaces sont trs sollicits, notamment pour ponctuer lenchanement des scnes
dun film.
La spatialisation peut aussi coder lmotion du personnage afin de la renforcer et de
donner lauditeur la possibilit de sidentifier au personnage du rcit: le spectateur
devient acteur. Lespace permet aussi de coder la vision sonore dune personne, la
traduction sonore de ses penses et de ses motions. Cette reprsentation peut tre
naturellement porte par une image sonore virtuelle.
La spatialisation permet aussi tout simplement de se situer et de se dplacer dans le
jeu vido de personnage par exemple ou dans les installations scnographiques.

Chapitre 5
La prise de son

En son multicanal, vous n'coutez plus les chos d'un reportage,


mais vous faites partie de l'expdition.
Guy Senaux
Points

essentiels

- Rappels sur la prise de son strophonique.


- Principe de la prise de son multicanal.
- Systmes principaux espacs: MMAD, OCTS, arbre Decca, arbre Fukada,
INA5.

Dunod Toute reproduction non autorise est un dlit.

- Systmes principaux matrics: double MS, Soundfield, sphre Schoeps


KFM360.
- Systmes dambiances: double ORTF, ORTF Surround, croix IRT, carr
Hamasaki, omni square, holophone H2 pro, DPA 5100.
- Combinaison systme principal, systme dambiances et microphones de
proximit.
- Haute rsolution spatiale: Trinnov SRP, HOA.
- Prise de son binaurale.
- Prise de son en tournage: enregistreurs, piges et astuces, mthodes.
- A pplications: Film, documentaire limage, reportage/documentaire/
fiction, radio, sport TVHD, musique TVHD/Film.

176

Chapitre 5 La

prise de son

Nous dfinissons la prise de son multicanal dune scne sonore par lutilisation dun
systme de captation prvu pour alimenter les enceintes du dispositif de restitution,
gnralement les cinq enceintes du5.1. Nous utilisons donc un ensemble de microphones
spatialiss, afin de capter lacoustique dune salle ou lambiance dun lieu. La scne sonore
doit tre spatialise dans une salle suffisamment rverbrante ou dans un environnement
ayant des proprits sonores enveloppantes afin dobtenir une image sonore spatialise
intressante. Lorsque les priorits spatiales du lieu sont limites, la construction du sujet
sur les trois canaux du frontal donne gnralement des rsultats satisfaisants.
Il existe un grand nombre de systmes travaillant trois, quatre ou cinq microphones. Il
est important de faire la diffrence entre un systme principal et un systme dambiance.
Le systme principal est comparable au couple strophonique, il donne limage sonore
principale avec une spatialisation des sources et un rapport champ direct sur champ
rverbr adquat, de telle sorte que les lments sonores sont suffisamment timbrs.
Cest une photo de la scne qui apporte linformation de localisation des sources et qui
donne un point de vue. En gnral, on construit le reste de limage sonore partir de
ce systme principal.
Le systme dambiance ne prsente pas de sources directes, il pose en quelque sorte
le dcor, latmosphre dune scne, en restituant une certaine distance. Ensuite, on
travaille en gnral le reste de limage en intgrant le son direct en frontal, ou parfois
tout autour de lauditeur, capt en mono, en stro ou partir de trois ou cinq canaux.

5.1

Rappels sur la prise de son strophonique

5.1.1 Diffrence dintensit


Le standard strophonique impose une diffrence dintensit de lordre de 15dB
entre les deux enceintes pour obtenir la latralisation totale dune source. Ainsi,
deux microphones concidents ayant une certaine directivit et formant entre eux un
angle physique, gnrent une diffrence dintensit. Les systmes XY ou MS sont les
principaux systmes concidents utiliss, ils restituent une trs bonne localisation,
stable et prcise. En revanche, limpression despace, la profondeur et le relief obtenus
par ces systmes sont trs limits, et du fait de la directivit des microphones, le rendu
sonore dans les basses frquences est filtr. Ces systmes donnent en revanche une
bonne compatibilit descendante (downmix mono).
5.1.2 Diffrence de temps
Une diffrence de temps denviron 1,1ms entre les deux enceintes de la stro permet la
latralisation totale dune source. Ainsi, deux microphones distants entre eux, gnrent
une diffrence de temps qui permet la latralisation des sources, mais leur localisation
est trs imprcise: on localise les sons transitoires mais beaucoup moins biens les
sons tenus. Le systme AB dfinit la famille diffrence de temps, il permet dobtenir
une bonne impression despace, et la directivit omnidirectionnelle qui peut tre

5.1 Rappels

sur la prise de son strophonique

177

utilise donne un bon quilibre spectral. En revanche, la compatibilit descendante


nest pas toujours de qualit, elle peut poser des problmes de filtrage en peigne dus
la diffrence de phase entre les signaux.

5.1.3 Combinaison intensit et temps


On associe les deux types de familles pour conjuguer intensit et temps afin de profiter
des avantages de chacune. Le couple ORTF (110, 17cm) nous donne ainsi un bon
compromis entre localisation et impression despace. Il existe une infinit de couples
utilisant la distance et langle, caractriss par leur angle de prise de son. Ces possibilits
sont dfinies par les abaques de Mike Williams prsentes dans les figures5.1 5.6.
Les abaques dfinissent les angles de prise de son en fonction des angles physiques, des
distances et des directivits.

Dunod Toute reproduction non autorise est un dlit.

Figure5.1Les directivits
cardiodes, M.Williams.

Figure5.2Les directivits
hypocardiodes, M.Williams.

178

Chapitre 5 La

Figure5.3Les directivits
hypercardiodes, M.Williams.

Figure5.4Les directivits
supercardiodes, M.Williams.

Figure5.5Les directivits
bidirectionnelles, M.Williams.

prise de son

5.1 Rappels

sur la prise de son strophonique

179

Figure5.6Les directivits
omnidirectionnelles, M.Williams.

La figure5.7 reprsente langle de prise de son de systmes diffrence dintensit (en


ordonnes) et diffrence de temps (en abscisses) conjugues. Cet angle ici de 100
(-50, +50) est reproduit sur les 60 de lespace strophonique par une infinit de
couples. Les valeurs limites dfinies par le standard strophonique - 15dB et 1,1ms
sont reprsentes.

Dunod Toute reproduction non autorise est un dlit.

Figure5.7Reprsentation
de langle de reproduction
strophonique (-30, +30) en
fonction de langle de provenance
de la source pour un angle de prise
de son de 100, M.Williams.

Le couple AB omnidirectionnel avec un angle, souvent utilis pour la musique classique,


utilise la diffrence de temps, et la diffrence dintensit dans les hautes frquences, car
un microphone omnidirectionnel devient directif partir de 2kHz.

180

Chapitre 5 La

prise de son

5.1.4 Notion dangle de prise de son


Langle de prise de son est dfini par les valeurs limites de diffrence dintensit 15dB
et de diffrence de temps 1,1ms, imposes par le standard strophonique. Il sagit
de langle dans lequel on peut disposer les sources, il est reproduit sur les 60 de la
strophonie et, en dehors de cet angle, les sources ne peuvent tre exploites car
elles se retrouvent superposes sur les enceintes. En gnral, le preneur de son fait
correspondre langle dincidence, langle sous lequel on voit le sujet, avec langle de
prise de son. Langle de prise de son varie de faon inversement proportionnelle avec
langle physique entre les microphones et avec leur distance.

Figure5.8Angle de prise de son et restitution, B.Priaux.

5.1.5 Directivits
Les microphones que nous utilisons ont des lois panoramiques de captation
dordre 0 pour lomnidirectionnel et dordre 1 pour le bidirectionnel. Nous dfinissons
alors, par combinaison, six directivits possibles: lomnidirectionnel, lhypocardiode,
le cardiode, lhypercardiode, le supercardiode et le bidirectionnel. Ces directivits
sont dfinies par le schma de la figure5.9.

Figure5.9Caractrisation des directivits omnidirectionnelle, hypocardiode, cardiode,


supercardiode, hypercardiode, bidirectionnelle, B.Priaux.

5.2 Principe

181

de la prise de son multicanal

Il existe deux types de directivits hypocardiodes : la plus courante prsente


une attnuation de - 10dB 180, lautre comporte une attnuation de - 15dB
180 (capsule MK22 appele cardiode douce chez Schoeps par exemple). Nous
considrerons par la suite lhypocardiode avec - 10dB de sensibilit arrire. Nous
verrons quil est possible de resserrer ces lois panoramiques en utilisant dautres
approches comme la haute rsolution spatiale, fonctionnant partir dun rseau de
microphones.
R appels Prise

de son

Stro

Systmes diffrence dintensit: XY, MS.


- L atralisation totale dune source pour I =15dB.
- Avantages: bonne localisation, prcise et stable, downmix mono de qualit.
- Inconvnients: impression despace et profondeur limites.
Systmes diffrence de temps: AB parallles.
- L atralisation totale pour t =1,1ms.
- 
Avantages: bonne impression despace et profondeur importante,
possibilit dutiliser des microphones directivits omnidirectionnelles
amliorant le rendu spectral.
- Inconvnients: localisation imprcise, instable.
Systmes intensit et temps: AB avec directivit et angle, AB omni avec
angle.
- Bon compromis pour la localisation et limpression despace.
- Langle de prise de son varie de faon inversement proportionnelle avec
langle physique et la distance entre les microphones.

Dunod Toute reproduction non autorise est un dlit.

5.2. Principe de la prise de son multicanal


Le principe de la prise de son multicanal repose sur deux notions: la localisation
dfinie par la construction des diffrents secteurs de limage sonore et lobtention dune
bonne impression spatiale.
Si lon considre un systme constitu de cinq microphones, chaque paire de
microphones adjacents se comporte comme un couple strophonique restituant un
angle de prise de son sur limage fantme correspondante. La difficult est doptimiser
la configuration pour obtenir un lien parfait entre les cinq images fantmes issues des
cinq angles de prise de son, comme reprsent sur la figure5.10.

182

Chapitre 5 La

prise de son

Figure5.10Segmentation du champ sonore et liaison parfaite des secteurs, G.Le D.

Ainsi optimis, le dispositif ne prsente aucune superposition de secteurs, ni aucune


zone non couverte.

Figure5.11Captation du triplet avant avec superposition des angles de prise de son, G.Le D.

Comme lindique la figure5.11, sil y a superposition des angles de prise de son LC


et CR, correspondant respectivement aux couples de microphones gauche-centre
et centre-droite, alors les sources EFGHI sont rptes la restitution sur les trois
enceintes frontales.
Si les deux angles de captation ne sont pas parfaitement adjacents et ne couvrent
pas toute la zone frontale (voir figure5.12), alors une zone non capte donnera une
focalisation sur le centre avec entassement des sources FGH.

5.3 Les

systmes principaux espacs

183

Figure5.12Captation du triplet avant prsentant une zone non couverte par les angles
de prise de son, G.Le D.

Il convient donc de choisir des systmes cohrents pour obtenir un quilibre


de construction homogne, tant pour un systme principal quun systme
dambiance.
Limpression spatiale, comme dfinie au chapitre3, fait appel principalement la notion
de dcorrlation interaurale de temps. Cest pourquoi, un systme de captation stro
concident donne peu de sensation de profondeur et despace. On peut sattendre ce
que les systmes concidents en multicanal donnent de la mme faon une sensation
despace limite.

5.3

Les systmes principaux espacs

Dunod Toute reproduction non autorise est un dlit.

5.3.1 MMAD
Le systme Multiphonic Microphone Array Design a t conu par Mike Williams et
Guillaume Le D. Il repose sur la thorie des angles de prise de son et comporte une
infinit de configurations possibles publies sous forme dabaques.
Prsentation
Le principe repose sur la segmentation parfaite du champ sonore, cest--dire
lobtention dun raccord parfait (critical linking) entre les cinq angles de prise de
son pour couvrir les 360, sans superposition ni zones non couvertes, avec une totale
libert dans le choix des diffrents angles de prise de son. La diaphonie acoustique
entre les microphones opposs est ngligeable par rapport aux couples strophoniques
adjacents du fait des orientations opposes des microphones, de leurs distances et des
directivits utilises (cf. publication AES 118th AES Convention in Barcelona Preprint
6373, 2005).

184

Chapitre 5 La

prise de son

Le systme utilise les directivits cardiodes, hypocardiodes, supercardiodes,


hypercardiodes ou omnidirectionnelles au choix. Il existe aujourdhui un support,
ltoile de Williams, qui permet de travailler aux formats 4.0, 5.0 et 7.0 avec une
configuration usuelle correspondant des angles de prise de son de 72 pour le format
5.0 en cardiodes, hypocardiodes, et omnidirectionnels. La configuration 4.0 repose
sur quatre angles de captation gaux de 90.

Les techniques doffsets


Pour obtenir cette liaison parfaite entre les segments, il est ncessaire de pouvoir faire
pivoter volont les angles de prise de son des cinq couples dans le sens dsir,
ceci afin de rendre ces angles de prise de son asymtriques.
Dans le triplet avant, on cherchera ainsi aligner une extrmit de langle de prise de
son avec laxe du microphone central alors que dans les segments latraux, les angles
de prise de son pourront au besoin tre totalement asymtriques.

Figures5.13 et5.14Liaison parfaite des segments frontaux gauche et droite, FLS: secteur frontal gauche,
FRS: secteur frontal droite, M.Williams.

Figures5.15 et 5.16Angle de prise de son infrieur (5.15) et suprieur (5.16) langle physique entre les
microphones, M.Williams

5.3 Les

185

systmes principaux espacs

Les quatre types doffsets


La figure 5.17 reprsente le couple de microphones centre et droite, avec les axes
dintensit (en pointills) et de temps (ligne perpendiculaire laxe qui rejoint les deux
capsules et dont lorigine est situe au centre) superposs. Langle de prise de son est
symtrique par rapport cet axe.
On dfinit quatre types doffsets:
Les offsets lectroniques EO

EIO Offset Intensit lectronique


ETO Offset Temporel lectronique
Les offsets par position des microphones MPO

MPLO (ou MPIO) Offset Intensit par position des microphones


MPTO Offset Temporel par position des microphones
Les offsets dintensit lectronique correspondent laddition dune diffrence dintensit
constante la fonction diffrence de temps/intensit dun couple de microphones (attnuation dun micro). Les offsets temporels lectroniques consistent additionner une
diffrence de temps constante la fonction diffrence de temps/intensit dun couple de
microphones (retard lectronique dun micro).
Les figures5.18, 5.19 et 5.20 reprsentent des offsets par position des microphones, MPLO
et MPTO:

ten
ax
ed
'in

Dunod Toute reproduction non autorise est un dlit.

sit

ax
ed
e

tem

ps

Figure5.17Couple de microphones centre et


droite, axes dintensit et de temps superposs,
M.Williams.

186

Chapitre 5 La

prise de son

Figure5.18MPLO: application dun offset de position dintensit en gris, M.Williams.

Figure5.19MPTO: application dun offset de position temporel en gris, M.Williams.

Figure5.20MPTO et MPLO (ou MPIO), M.Williams.

5.3 Les

187

systmes principaux espacs

Dans les deux cas, les axes de temps et dintensit ne sont plus superposs, le couple
devient physiquement asymtrique. Langle de prise de son a subi une rotation vers la
droite ou vers la gauche, suivant les cas. Cette rotation de langle de prise de son nous
permet dtablir le lien critique entre les secteurs couverts.
Les figures5.21 et 5.22 illustrent la reprsentation sur le triplet:

Figure5.21Application doffsets MPLO sur


les deux couples gauche et droite du triplet,
M.Williams.

Figure5.22Application doffsets MPTO sur


les deux couples gauche et droite du triplet,
M.Williams.

Dunod Toute reproduction non autorise est un dlit.

Les deux offsets des figures5.21 et 5.22 sont quivalents et consistent rendre le couple
de microphones physiquement asymtrique.

Figure5.23quivalence entre MPLO et MPTO, M.Williams.

Les quatre types doffsets produisent les mmes effets: ils translatent la courbe diffrence de temps/intensit du couple (en fonction de langle dincidence de la source)

188

Chapitre 5 La

prise de son

selon laxe des DT ou laxe des DI, ce qui entrane un changement des extrmits de
langle de prise de son (intersections avec les courbes de localisation strophonique)
soit, plus concrtement, une rotation de langle de prise de son.

Figure5.24Fonction diffrences dintensit et de temps sans offset, angle de


prise de son symtrique - 50 / +50, M.Williams.

Figure5.25Fonction diffrences dintensit et de temps avec offset positif lectronique de temps - 0,28ms,
dcalage selon laxe t et angle de prise de son asymtrique - 35/ +70, M.Williams.

5.3 Les

systmes principaux espacs

189

Mise au point dun systme complet


Le triplet avant

On dfinit en premier lieu les angles de prise de son des deux segments avant gauche et
avant droit et on choisit une combinaison distance/angle entre les micros L, C et R qui
les ralise. Ensuite, on utilise un offset par position de microphones (dissymtrisation
des couples) pour raliser la liaison parfaite des deux angles de prise de son.

Figure5.26Mise au point du triplet avant, M.Williams.

Mise au point du segment arrire

Dunod Toute reproduction non autorise est un dlit.

On dfinit langle de prise de son arrire et on choisit une combinaison distance/angle


qui le ralise (couple stro classique).

Figure5.27Mise au point du segment arrire, M.Williams.

Mise au point des segments latraux

La valeur des angles de prise de son latraux est impose par les angles choisis pour
lavant et larrire (somme des angles =360). Pour raliser ces angles de prise de son
latraux, on fait varier la distance entre le triplet avant et le couple arrire (les angles
sont dj tous dtermins).

190

Chapitre 5 La

prise de son

Quand la bonne distance est ajuste, la liaison parfaite avec les segments latraux reste
encore raliser: on applique alors un offset lectronique intensit ou temps sur le
couple arrire, cest--dire quon attnue ou on retarde le couple arrire par rapport au
triplet avant, ou linverse, selon les cas.

Figure5.28Segments latraux avec un


offset temporel de position, inhrent au
systme, M.Williams.

Figure5.29Obtention de raccords latraux


parfaits grce un offset lectronique sur les
micros du couple arrire, M.Williams.

Caractristiques gnrales
Les angles de couverture du systme MMAD sont variables, et leur diffusion sur
lcoute5.1 intgre des compressions en gnral dans le frontal et des extensions
souvent sur les latraux et dans la zone arrire. Il est cependant possible de compresser
ou dtendre volont des secteurs de lespace sonore dans lespace de reproduction,
et grce la liaison parfaite des segments, de raliser une extra largeur, cest dire de
faire stendre limage strophonique sur les cts, au-del des enceintes gauche et
droite, sur une zone allant jusqu 50.
La mthode est gnralisable, le principe de ces systmes reste valable quel que soit le
nombre denceintes de diffusion.
Il existe une infinit de systmes, comme pour les couples strophoniques, un nombre
quasi infini de combinaisons distances/angles permet de raliser les angles de prise
de son dsirs. Il est aussi utile, dans la dmarche du preneur de son, de prendre en
compte lorientation des microphones par rapport aux sources pour obtenir le meilleur
rendu.
Le systme MMAD peut tre utilis avec nimporte quelle directivit, et cette souplesse
convient parfaitement lapproche du preneur de son qui consiste faire le choix de la
directivit en fonction des sources et de lacoustique du lieu.
Pour la captation en salle, si limpression de salle semble insuffisante, un systme
dambiances arrire peut tre combin au systme MMAD.

5.3 Les

systmes principaux espacs

191

Le logiciel CAMAD (Computer Assisted Microphone Array Design)


La mise en uvre manuelle dun systme MMAD est relativement complexe du fait
de linteraction dun grand nombre de paramtres. Pour cette raison, un logiciel a
t dvelopp. Ce dernier permet de visualiser instantanment linfluence de chaque
paramtre (distances, angles, offsets) et de raliser un systme MMAD efficacement
en suivant la mthode expose prcdemment.
Configurations usuelles
Il existe des configurations usuelles qui fonctionnent pour la plupart des cas
avec cinq angles physiques gaux de 72, superposs aux angles de prise de son.
Ces abaques nutilisent pas doffset lectronique et sont proposs pour les cinq
directivits cardiodes, hypocardiodes, omnidirectionnelles, supercardiodes et
hypercardiodes.

Dunod Toute reproduction non autorise est un dlit.

Complment
Web 5.1

 our aller plus loin: reprsentation des systmes par le logiciel CAMAD,
P
configurations usuelles.

Figure5.30Logiciel CAMAD programm par M.Williams, MMAD5 canaux cardiodes 72,


M.Williams. Encouleursurdunod.com

192

Chapitre 5 La

Configurations MMAD 5.0

et

prise de son

4.0

Omnidirectionnels
- 5.0 distance d capsules =63cm; angle PdS =72; rayon r =53,6cm.
- 4.0 d capsules =52c; mangle PdS =90; rayon r =36,8cm.
Hypocardiodes
- 5.0 d capsules =46,8cm; angle PdS =72 ; rayon r =39,9cm.
- 4.0 d capsules =31,7cm; angle PdS =90 ; rayon r =22,5cm.
Cardiodes
- 5.0 d capsules =39cm; angle PdS =72; rayon r =33,2cm.
- 4.0 d capsules =23,8cm; angle PdS =90 ; rayon r =16,9cm.
Supercardiodes
- 5.0 d capsules =32,5cm; angle PdS =72; rayon r =27,7cm.
- 4.0 d capsules =16cm; angle PdS =90; rayon r =11,4cm.
Hypercardiodes
- 5.0 d capsules =32,5cm; angle PdS =72 ; rayon r =27,7cm.
- 4.0 d capsules =16cm; angle PdS =90; rayon r =11,4cm.

MMAD magic array


Le magic array est une configuration du MMAD directement compatible stro en
gardant les microphones gauche et droite.
Lorsquon enregistre au format5.1, on doit livrer un mixage stro qui, la plupart du
temps, est driv du5.1 par downmix pour une raison de diffusion et de temps de
production. Le mixage5.1 doit en effet tre compatible stro par downmix pour la
diffusion TVHD, ou le support DVD/Blu-ray. Le downmix se fait gnralement par
sommation des canaux L/R et C (voir chapitre6). Il est gnralement problmatique
dabandonner le microphone central car la version LR du 5.0 nest pas compatible,
la stro obtenue est trop large, sauf dans le cas du Magic Array. Mike Williams
a dvelopp des configurations MMAD compatibles stro, il suffit pour cela
dabandonner le micro central et les microphones arrire afin dutiliser la paire
stro LR parfaitement compatible. Nous obtenons alors des ensembles pour
lesquels le micro central est assez avanc par rapport aux quatre autres, la distance
est de 1 2m. Ces configurations sont parfaitement utilisables pour des captations
suffisamment loignes du sujet, notamment dans les grandes salles (opras,
orchestres), il posera plus de souci lorsquon est prs des sources. La figure5.31
reprsente une configuration Magic Array 5.0 en cardiodes dont lavancement du

5.3 Les

193

systmes principaux espacs

micro central est de 1,74m, avec un dlai de 4,2ms et complt par une croix
larrire (24,5cm entre les microphones, angle droit).

High Order MMAD (6.0, 7.0, 8.0)


Comme prcdemment voqu dans les caractristiques du MMAD, il est possible
dextrapoler le systme 5 canaux 6, 7 ou 8 canaux. Le systme prend alors davantage
despace et lutilisation dune directivit simpose pour restituer une bonne localisation.
En effet, une configuration 7 canaux en omnidirectionnels prsente une diaphonie
acoustique trop importante, la rjection de cette dernire nest plus assure par leffet de
prcdence. Les configurations en 7 canaux divisent lespace en segments gaux de 51.
Complment
Web 5.2

Pour aller plus loin: reprsentation des systmes par le logiciel


CAMAD, High Order MMAD.

Dunod Toute reproduction non autorise est un dlit.

Est prsent en figure 5.32 lexemple dun MMAD 8.0 magic array utilisant
8 microphones cardiodes, dont les quatre centraux sont disposs en croix.

Figure5.31Exemple dun Magic


Array MMAD 5.0 avec un angle
de prise de son frontal de 90,
M.Williams.

Figure5.32Exemple dune configuration MMAD 8.0 Magic Array


en cardiodes, M.Williams.

194

Chapitre 5 La

prise de son

MMAD en 3D
Dans le contexte actuel des recherches sur la prise de son multicanal avec restitution
de la hauteur (son 3D), il est possible de configurer un MMAD 3D. Le parti pris est de
minimiser linteraction entre le plan microphonique horizontal et celui de hauteur. Lautre
possibilit serait de considrer linteraction entre les deux plans, mais, comme abord
au chapitre3, la perception de hauteur semble reposer plutt sur les indices spectraux
que sur des diffrences dintensit et de temps. Cest pourquoi, il semble difficile de
restituer des sources virtuelles avec hauteur, entre le plan horizontal et le plan dlvation.
Gnralement, les microphones dlvation apportent un intrt pour la restitution de
lacoustique, sans prsenter dinteraction avec les microphones horizontaux.
Le MMAD 3D dispose un systme4.0 additionnel plac 1m de hauteur par rapport
au systme horizontal, quip de microphones supercardiodes ou bidirectionnels,
placs en croix, distants entre eux de 52cm, orients vers le haut, de telle sorte que la
directivit annule la captation du son direct. Les capsules sont places suivant les angles
0, 90, 180, -90. Le dispositif microphonique 4.0 de hauteur travaille en diffrence de
temps simplement, les directivits tant orientes vers le haut. Cette configuration permet
une restitution de lacoustique sur les quatre canaux de hauteur LH, RH, RLH, RRH. Le
dispositif de restitution peut tre alors un format 11.1 compos dun 7.0 pour lhorizontal
(0, 30, 75, 120) et dun 4.0 (0, 90, 180, -90) pour la hauteur. Pour une restitution
Auro-3D 9.1, les capsules du systme de hauteur sont places aux angles - 45, -135, 45,
145. Le systme est encore en cours dexprimentation et la question du dispositif de
restitution reste pose car aucune norme pour la diffusion son 3D na vraiment t valide.

Figure5.33Exemple dune
configuration MMAD 3D 9.0
cardiodes pour la couche horizontale,
bidirectionnels pour la couche
lvation, le march B.Priaux.

Figure5.34Essai dune configuration MMAD 3D 9.0


hypocardiodes pour la couche horizontale, cardiodes pour
la couche lvation, ensemble baroque (Catherine Jousselin,
Xavier Terrasa) dans une glise, B.Priaux.

5.3 Les

195

systmes principaux espacs

MMAD
- Choix de la directivit.
- Choix des angles de prise de son.
- Configurations usuelles 5.0 avec des angles physiques et de prise de son
superposs de 72.
- Compatible 4.0, 5.0, 6.0, 7.0, 8.0.
- Compatible stro avec la configuration Magic Array pour une distance de
captation assez importante.
ANALYSE
- Systme trs homogne.
- Trs bonne impression spatiale.
- Pas de contrainte sur lquilibre spectral.
- Systme modulable.
- Utilisation en salle de concert avec ltoile, et en reportage avec le parapluie
(voir ci-dessous).

Dunod Toute reproduction non autorise est un dlit.

Supports MMAD
Le systme MMAD a lavantage de donner un excellent rendu spatial et une image trs
bien localise, cest en revanche un systme complexe mettre en place, car lutilisateur
doit respecter les angles et les distances entre les microphones suivant labaque quil
choisit. Cest pourquoi, il est prfrable dopter pour des supports dj configurs,
utilisant les dispositions usuelles 72 dangle physique et de prise de son. Ltoile
de Williams et le parapluie sont les supports commercialiss en France par la socit
Areitec. Le parapluie est prvu pour le tournage et le reportage, ltoile est utilise pour
la captation en salle.
Le systme de reportage, le parapluie, utilise une configuration de cinq microphones
72, compatible avec les microphones miniatures de type Schoeps CCM, en cardiodes,
hypocardiodes et supercardiodes. Le systme se monte trs rapidement comme il peut
se replier trs facilement avec les bonnettes pour le transport.
Ltoile peut tre quipe de CCM Schoeps ou de microphones traditionnels, elle
comporte une suspension anti-vibrations dveloppe en collaboration avec la socit
RYCOTE partir du modle Lyre de la srie InVision Broadcast. Elle peut tre
suspendue ou fix sur pied, avec diffrentes configurations:
4.0 cardiodes ou hypocardiodes;
5.0 cardiodes, hypocardiodes ou omnidirectionnels;
7.0 cardiodes ou hypocardiodes.

196

Chapitre 5 La

prise de son

Il existe un autre support exprimental, le Pentapussy, ce dernier permet de raliser


toutes les abaques, on peut lutiliser pour la formation par exemple ou pour la captation
de musique de film avec lutilisation de grosses capsules. On peut lire la base du
systme les angles de positionnement des microphones et mesurer avec un mtre la
distance entre les capsules.

Figure5.35toile de Williams, version


reportage cardiodes Schoeps CCM4, B.Priaux

Figure5.36toile de Williams, utilise en salle


de concert avec un systme de suspension
de microphones SchoepsCCM5 pour le
frontal, B.Priaux

Figure5.37Parapluie MMAD quip de Schoeps CCM4, B.Priaux

5.3 Les

systmes principaux espacs

197

5.3.2 OCT Surround


Systme OCT
Le systme OCT (Optimized Cardioid Triangle) a t conu par Gnther Theile (IRT, Institut
fr Rundfunktechnik), il repose sur la thorie de la diaphonie acoustique minimise. En
effet, en thorie, un triplet de microphones frontaux cre trois images fantmes LC, CR et
LR qui se superposent. G.Theile considre que cette diaphonie nest pas ngligeable.

Figure5.38Diaphonie acoustique obtenue par superposition de trois


images fantmes, G.Theile.

Dunod Toute reproduction non autorise est un dlit.

Lobjectif est donc de limiter la diaphonie acoustique entre les microphones pour viter
lapparition dimages fantmes multiples (pertes sur la prcision en localisation, le
timbre et la stabilit des sources avec un dplacement latral de lauditeur). Pour cela,
on a recours lutilisation de microphones plus directifs (supercardiodes) orients
de manire rendre quasi nulle linfluence dun micro sur le couple oppos (micro
L sur le couple C-R par exemple). La disposition des microphones est celle de la
figure5.39.

Figure5.39 ConfigurationOCT, G.Theile.

198

Chapitre 5 La

prise de son

Les microphones gauche et droite sont des supercardiodes Schoeps CCM41, placs
90, et le microphone central est un cardiode CCM4, avec un avancement constant
de 8cm.
LIRT a dvelopp un logiciel Image Assistant qui permet danalyser la
localisation des systmes de prise de son. Le schma ci-dessous reprsente la courbe
de localisation pour une paire de microphones stro, dont langle de prise de son
est de 100.

Figure5.40Courbe de localisation pour un


systme de prise de son stro, G.Theile,
Image Assistant IRT.

Figure5.41Courbe de localisation de lOCT70,


G.Theile, Image Assistant IRT.
Langle denregistrement frontal est de 108,
limage fantme L-R est ngligeable (de niveau
10dB infrieur) par rapport aux images L-C et C-R,
et la courbe rsultante est linaire.

En abscisse est reprsent langle de provenance w, et en ordonne, langle de perception


dans lespace strophonique. Par exemple, ici, une source de provenance de 30 sur la
droite, sera perue 20 sur le ct droit. Notons la linarit de la courbe. Cette linarit
est aussi souhaite pour lutilisation des trois microphones, en labsence dimage L-R,
la diaphonie acoustique est optimise.
Langle de prise de son frontal du triplet dpend uniquement de la distance b
entre les deux supercardiodes, il est calcul comme nous lindiquons dans la
figure5.42.

5.3 Les

199

systmes principaux espacs

Figure5.42Dtermination de langle de prise de son


frontal en fonction de la dimension de la
base LR (b), G.Theile.

Il existe un systme optionnel de compensation des basses frquences, dont la


perte est inhrente aux supercardiodes. Deux capteurs omnidirectionnels CCM2,
placs gauche et droite, superposs aux supercardiodes et filtrs au-dessus de
100Hzcompltent lensemble. On combine les signaux issus des supercardiodes et
des omnidirectionnels pour construire les extrmits gauche et droite de limage.

Dunod Toute reproduction non autorise est un dlit.

OCT Surround
LOCT Surround complte lOCT par deux microphones cardiodes arrire, orients
180 et distants du triplet avant de 40cm. La distance entre ces deux capteurs est gale
celle de la base, plus 10cm de chaque ct.

Figure5.43OCT Surround, G.Theile.

Figure5.44Support Schoeps OCT


Surround, B.Priaux.

LOCT est accompagn souvent dun systme dambiance en fond de salle qui remplace
les deux microphones arrire, on utilise pour cela couramment une croix IRT ou un
carr Hamasaki, pour renforcer limpression de salle.

200

Chapitre 5 La

prise de son

OCT Surround
- Micro central cardiode avanc de 8cm.
- Micros L et R supercardiodes 90, distance b variable en fonction de
langle de prise de son frontal souhait.
- Micros arrire cardiodes orients 180, 40cm du triplet avant, distance
entre eux =base b +10cm de chaque ct.
- Utilisation de deux omni pour le renfort des graves des canaux L et R.
- Utilisation frquente de lOCT avec un systme dambiance Croix IRT ou
Carr Hamasaki.
ANALYSE
- Trs bonne localisation frontale, plans sonores bien restitus.
- Bonne impression spatiale.
- Manque de basses frquences.
- 
Systme peu modulable: orientations des micros fixes, directivits
imposes.
- Utilisation pour la salle de concert.
- LOCTS est plutt utilis pour des esthtiques frontales.

OCT2
LOCT2 est une variante de lOCT pour laquelle le microphone central est avanc de
40cm au lieu de 8cm. Pour respecter rigoureusement les proprits de localisation de
lOCT, le microphone central doit tre retard de 1ms. Cette configuration se rapproche
de larbre Decca (voir paragraphe suivant), la dcorrlation entre les microphones est
plus importante que pour lOCT. Du fait de labsence de diaphonie acoustique entre
les microphones, lOCT donne de bons rsultats de downmix stro, ces proprits de
downmix sont encore amliores par lOCT2.
OCT9 (3D)
LOCT9 est le systme propos par Gnther Theile pour la captation du son avec
lvation. Le dispositif de restitution utilis est lAuro-3D 9.1. La base du systme
microphonique est constitue dun OCT classique, elle est complte par quatre
microphones supercardiodes placs environ 1m ou plus en hauteur, par rapport la
base horizontale. Ces quatre microphones Lh, Rh, Lsh et Rsh sont orients vers le haut,
et placs au-dessus des microphones L, R, Ls et Rs.

5.3 Les

systmes principaux espacs

201

Figure5.45OCT9 configuration pour le son 3D, G.Theile.

5.3.3 Arbre Decca

Dunod Toute reproduction non autorise est un dlit.

Triangle Decca
Le triangle Decca est le systme utilis pour les enregistrements dorchestre par les
preneurs de son du label Decca dans les annes 1950. Le systme tait compos de trois
microphones omnidirectionnels Neumann M50 largement espacs en triangle, le micro
central tant replac au centre de la stro. Ce systme a par la suite t exploit lors
des enregistrements dorchestre pour le film, utilisant le micro central pour la cration
dun centre physique, ds lapparition du format Dolby Stereo. Il ne repose sur aucune
thorie, il est constitu de trois microphones omnidirectionnels et sa configuration de
base est celle de la figure5.46.

Figure5.46Configuration Triangle Decca, B.Priaux.

La base mesure environ 2m et lavancement du centre est de 1,5m, les dimensions


tant variables selon la source enregistrer. En gnral, on donne un angle sur les
microphones gauche et droite pour prciser la localisation.

202

Chapitre 5 La

prise de son

Lapproche du triangle Decca est de tirer parti de lespace et du timbre reproduits par
les systmes AB omnidirectionnels et remplir le trou au centre, cr par le grand AB
omni, grce au micro central. Les grandes distances entre les microphones limitent les
effets de diaphonie acoustique grce leffet Haas.
Lanalyse de la courbe de localisation du triangle Decca rvle la prsence de limage L-R
gnrant une diaphonie acoustique. Cette image fantme est dun niveau comparable
celui des images L-C et C-R, mais elle est retarde denviron 5ms, ce qui amliore
le rendu en localisation du systme par leffet de prcdence. La diaphonie acoustique
naffecte donc pas la localisation des images fantmes. En revanche, le schma traduit
une non linarit de localisation, laquelle repose alors sur les courbes L-C et C-R. Ces
deux courbes montrent que toutes les sources situes dans un angle de provenance
de 45 sont reproduites au centre de limage frontale ou proximit, et celles qui
sont en dehors du secteur 60, sont reproduites sur les enceintes gauche et droite. La
thorie prvoit donc une focalisation des sources sur le canal central, do la ncessit
de baisser souvent le niveau du microphone central lcoute.

Figure5.47Courbe de localisation du triangle Decca pour deux omnidirectionnels distants de 1,80m et un


angle de prise de son de 120, G.Theile. Le niveau de L-R est comparable celui de L-C et C-R, mais L-R
subit un retard denviron 5ms, ce qui rduit leffet de diaphonie acoustique.

Arbre Decca (Decca Tree)


Larbre Decca complte le triangle Decca par lajout de deux microphones
omnidirectionnels en configuration grand AB omni, distants du triplet avant, orients
vers le fond de salle ou vers lorchestre. Cette configuration est trs variable, on peut
sparer largement les deux microphones arrire en prise de son dorchestre pour le film.
Cet ensemble de cinq microphones omnidirectionnels restitue une trs bonne
impression despace avec un bon quilibre spectral, en revanche, pour prciser la
localisation de limage, les microphones dappoints mono dirigs sont trs sollicits.

5.3 Les

203

systmes principaux espacs

DPA commercialise un support appel S5 qui permet de configurer plusieurs


configurations dont larbre decca, larbre fukada, le carr Hamasaki

AB large (3D)
La configuration AB large en 3D a t exprimente lors des tests la confrence de
Detmold ICSA 2011. Elle repose sur une configuration arbre Decca, avec une distance
de 0,5 2m entre les microphones omnidirectionnels sur le plan horizontal. Les
microphones de hauteur sont aussi omnidirectionnels, distants de plus d1m et orients
vers le haut. En fonction de la distance des microphones de hauteur, le dispositif est
susceptible de modifier la localisation horizontale des sources et dtendre ces dernires
vers le haut.

Figure5.48AB large en 3D, B.Periaux daprs ICSA 2011.

Arbre Decca
Dunod Toute reproduction non autorise est un dlit.

- 5 microphones omnidirectionnels optimiss lcoute.


- Frontal: triangle Decca, base environ 2m, avancement du centre 1,5m.
- Arrire: grand AB omni dirig vers larrire ou vers lorchestre.
ANALYSE
- Localisation imprcise, instable et non linaire.
- Impose lutilisation dappoints pour prciser la localisation.
- Trs bonne impression spatiale.
- Trs bon quilibre spectral.
- Utilisation pour la musique orchestrale, en film particulirement.

204

Chapitre 5 La

prise de son

5.3.4 Arbre Fukada


Larbre Fukada est une variante de larbre Decca qui utilise des directivits cardiodes afin de
rduire la captation du champ rverbr au profit du champ direct. Fukada est le nom dun
ingnieur du son de la NHK. Les cinq microphones cardiodes L, C, R, Ls, Rs sont complts
par deux microphones omnidirectionnels LL et RR, plus espacs de chaque ct, lesquels
augmentent la largeur de lorchestre et amliorent la liaison entre le frontal et larrire.

Figure5.49Configuration dun arbre Fukada, les angles


entre les capsules L et R, et entre Ls et Rs sont variables, B.Priaux.

Arbre Fukada
- Arbre Decca avec des directivits cardiodes qui permettent dadapter le
rapport CD/CR capt.
- Utilisation pour la captation en salle.

5.3.5 INA5
Le systme INA5 (Ideale Nieren Anordnung : arrangement idal de cardiodes) a t
conu par U. Herrmann et V. Henkels. Cest une disposition de cinq microphones
cardiodes donnant un angle de prise de son frontal de 180. Le triplet avant (INA3)
dispose les microphones 25cm de distance et angle droit, ce qui met en vidence
deux angles de prise de son de 90. Les microphones arrire, distants de 53cm par
rapport aux microphones gauche et droite et placs 150, donnent des angles de
captation de 60. Nous obtenons ainsi trois angles de captation de 60 sur les cts et
larrire.

5.3 Les

205

systmes principaux espacs

Figure5.50Configuration du systme
INA5, G.Theile.

Figure5.51Courbe de localisation du systme INA3,


G.Theile. Le niveau de L-R est de 3dB infrieur
celui de L-C et C-R, le retard de L-R est denviron 1ms,
insuffisant pour viter la diaphonie acoustique.

Dunod Toute reproduction non autorise est un dlit.

Lanalyse de courbe de localisation dans lespace frontal ci-dessus rvle leffet non
ngligeable de la diaphonie acoustique, le niveau de limage fantme L-R est denviron
3dB infrieur celui des images L-C et C-R. Dautre part, le retard de limage L-R est
de 1ms, ce qui nvite pas la combinaison des trois images fantme pour la localisation
des sources. Langle denregistrement est de 100, si lon augmente ce dernier, le dlai de
limage fantme L-R diminue.

Figure5.52Courbe de localisation CAMAD pour INA5, M.Williams. Encouleursurdunod.com

206

Chapitre 5 La

prise de son

Lanalyse du systme par CAMAD prsent en figure5.52 rvle une superposition


dangles de captation sur les cts.
La socit Brauner a mis en application la thorie INA5 avec le systme ATMOS ASM5
(Adjustable Surround Microphone). Le dispositif utilise des microphones lampes Brauner
VM1 double membrane dont la directivit peut se commander sur le pramplificateur
(rglage continu entre la directivit omnidirectionnelle, cardiode et bidirectionnelle).
Langle des capsules avant gauche et avant droite peut se paramtrer et la longueur des bras
arrire est aussi rglable sur certains modles. Il sutilise avec le processeur Atmos5.1 de
SPL indispensable, ce dernier commande les directivits, les alimentations et pramplifie
les signaux. Le processeur offre une matrice5.1 avec la possibilit de diverger le centre, de
crer un canal Lfe par bass management. Il est possible de brancher un casque multicanal
(modle co-dvelopp par Studer et lIRT, mais non commercialis). Le processeur peut
aussi alimenter et pramplifier des microphones standards en 48V.

Figure5.53Systme Brauner
ASM, B.Priaux.

INA5 Brauner ASM


- 5 cardiodes la base, directivits variables sur lAtmos (bidirectionnelle,
cardiode, omnidirectionnelle).
- Angle de prise de son frontal 180, angles latraux et arrire 60.
ANALYSE
- Localisation: repliements sur les cts, diaphonie acoustique.
- Trs bonne restitution des timbres, homogne.
- Pas de contrainte sur lquilibre spectral, directivits variables pour lASM.
- Systme non modulable: pas dorientation possible des capsules dans le
plan vertical.
- Utilisation pour la musique en studio.

5.4 Les

5.4

207

systmes principaux matrics

Les systmes principaux matrics

5.4.1 Double MS
Principe gnral
Le Double MS est un systme trois microphones, driv du MS auquel on a rajout
un microphone cardiode orient vers larrire. Le systme dispose deux couples
MS en frontal et larrire, tte-bche, avec partage du microphone bidirectionnel
orient vers le ct. Les microphones M.(avant et arrire) peuvent tre cardiodes ou
hypercardiodes, on trouve aussi des configurations avec un microphone canon pour
lavant. Lenregistrement se fait donc sur trois pistes que lon dmatrice avec le plug-in
Double MS Tool dvelopp par Schoeps.

Dunod Toute reproduction non autorise est un dlit.

Figure5.54Double MS, V.Magnier.

Dmatriage
Le plug-in Double MS Tool a lavantage de pouvoir dmatricer le signal en faisant le
choix des directivits avant et arrire de faon indpendante, et en rglant langle
entre les microphones virtuels ainsi obtenus. Le canal central est principalement
aliment par le microphone M.avant et sa directivit est variable selon le dosage
du bidirectionnel. Il existe un botier de dcodage pour le monitoring direct la
prise mais les enregistreurs permettent trs facilement de dcoder le signal dans les
modes de monitoring. Il existe dautres dmatriceurs comme le Double MS Tool BF,
codvelopp par Schoeps et Illusonic, ainsi que le DMS2Five, dvelopp par Daniel
Courville.

208

Chapitre 5 La

prise de son

Figure5.55Dmatriage du Double MS,


B.Priaux daprs Schoeps.

Figure5.56Dmatriage du Double MS en 4
canaux, Schoeps.

Figure5.57Dmatriage du Double MS en 5
canaux, Schoeps.

Figure5.58Plug-ins Double MS Tool, Schoeps.

Configurer

le

DMS Tool

dans

Pro Tools

Le plug-in DMS Tool se configuredans Pro Tools en insert sur une piste
auxiliaire de format5.1, dont lentre est un bus5.1 cr dans le IO setup.
Ce bus5.1, que lon peut nommer DMS, permet alors de router les trois
pistes mono, sur lesquelles on place les prises cardio avant, bidirectionnel
et cardio arrire. La piste cardio avant est envoye lavant gauche, vers
le bus DMS, en utilisant le pan-pot multicanal (ou directement vers le canal
1 du bus DMS), la piste bidirectionnelle est envoye lavant-droite (canal
3), et la piste bidirectionnelle au centre (canal 2). Lutilisation des modes
solo sur les pistes permet de vrifier que la configuration est bien faite, en
identifiant le signal sur les entres meter du plug-in.

5.4 Les

systmes principaux matrics

209

La version DMS Tool BF intgre un algorithme qui permet damliorer la slectivit des
directivits, avec une meilleure sparation des canaux, ainsi quelle permet de grer le
champ diffus de faon indpendante du son direct avec des possibilits de dcorrlation.

Dunod Toute reproduction non autorise est un dlit.

Figures5.59 et 5.60Courbes de localisation frontale du Double MS avec des directivits supercardiodes,


Helmut Witteck www.hautmikrofon.de
Encouleursurdunod.com La courbe a, donne pour un dcodage DMS 4 canaux, est linaire. La courbe b,
qui correspond au dcodage DMS 5 canaux, avec centre, rvle une importante image L-R introduisant une
certaine diaphonie acoustique.

En pratique
Le systme est lger, il peut tre facilement perch. Il est quip de capsules Schoeps
CCM4V et CCM8 et dune suspension avec bonnette anti-vent. Cest donc un systme
adapt pour le reportage, le documentaire ou le cinma pour sa compacit, et aussi
pour sa souplesse dutilisation, car il laisse le choix au mixeur de nutiliser que le MS
stro avant voire que le M.sans compromis.

210

Chapitre 5 La

prise de son

Diaphonie acoustique
Ltude de la diaphonie acoustique du systme met en vidence le phnomne
dinternalisation, variable en fonction des rglages. La perception est interne, proche
de la tte, mais le rendu sonore est ajustable dans certains cas grce lutilisation du
dlai et du filtrage des canaux arrire. Dautre part, la version DMS Tool BF intgre un
algorithme qui permet damliorer la slectivit des directivits et la dcorrlation du
champ diffus. Le systme ne donne pas une impression despace trs importante du fait
de la technologie concidente mais il reste trs intressant pour des applications dans
des lieux de petite taille (intrieure voiture, monte-charge, intrieurs dappartement)
ou bien pour donner des effets dinternalisation. Cest dautre part un des systmes les
plus pratiques pour lenregistrement dITV en multicanal, parfaitement compatible
mono.

Figures5.61 et 5.62Diaphonie obtenue sur un systme DMS 4 canaux et 5 canaux, Schoeps.


Encouleursurdunod.com.
Les zones grises sont en phase, les zones rouges sont hors-phase.

Double MS et Format B
En principe, les signaux dun double MS peuvent tre convertis en format B horizontal
(voir paragraphe sur le Soundfield) par addition et soustraction. Les signaux W, X et Y
du format B sobtiennent par les oprations suivantes:
W =M.avant +M.arrire
X =M.avant M.arrire
Y =S

5.4 Les

211

systmes principaux matrics

Cette opration rend le double MS compatible avec un format ambisonique dordre 1,


sans intgrer linformation verticale reprsente par la composante z.
Double MS
- Un bidirectionnel orient vers le ct, partag par un cardio avant et un
cardio arrire.
- Dmatriage avec le Double MS Tool, choix des directivits LR, C, LsRs et
des angles entre les microphones virtuels obtenus.
ANALYSE
- Trs bonne localisation circulaire, trs peu de profondeur.
- Diaphonie acoustique.
- Impression spatiale limite, internalisation des sources.
- Utilisation possible en reportage, documentaire, cinma.

Dunod Toute reproduction non autorise est un dlit.

5.4.2 Soundfield, systme ambisonique d'ordre 1


Le Soundfield est le systme de prise de son multicanal le plus ancien, sa thorie a t
dveloppe par M. Gerzon qui dans les annes 1970 sest inspir des recherches de A.
Blumlein (systme Blumlein, deux bidirectionnels angle droit). La thorie a t mise
en application par la socit Calrec Audio en 1980, puis le brevet a t revendu la
socit Soundfield en 1993. Aujourdhui, la socit anglaise Soundfield, rachete en
2012 par TSL Professional Products Ltd., continue le dveloppement en diversifiant les
versions pour le tournage et pour les cars HD.
Principe gnral
Le principe du systme ambisonique est de capter en un point de lespace la totalit
des informations du champ acoustique. Cest une dcomposition du champ sonore en
harmoniques sphriques qui fonctionne en diffrence dintensit et qui permet une
restitution en 2D ou 3D indpendante du dispositif dcoute.
Le systme Soundfield est constitu dun ensemble de quatre capsules hypocardiodes
quasi-concidentes, disposes en ttradre. Les capsules dlivrent quatre composantes,
appeles formatA, au processeur dentre qui, par combinaisons linaires, encode un
formatB. Ce formatB est constitu des composantes W, X, Y et Z. Le processeur de
sortie dcode ensuite le formatB en cinq directivits virtuelles cardiodes (par dfaut),
quasi-concidentes, disposes pour une restitutionen 5.1.

212

Chapitre 5 La

Figure5.63Le Soundfield, ttradre


rgulier de capsules quasiconcidentes,
Soundfield.

prise de son

Figure5.64Chane de captation
Soundfield avec utilisation du MarkV,
Soundfield.

Format A et B
Format A: signaux Lb, Lf, Rf, Rb issus du microphone, transmis au processeur dentre
Lb -: left back down (arrire gauche bas)
Lf +: left front up (avant gauche haut)
Rf -: right front down (avant droite bas)
Figure5.65Format A, Soundfield.

Rb +: right back up (arrire droite haut)

Format B: composantes W, X, Y, Z codes par le processeur partir du format A, par


combinaisons linaires

Figure5.66Format B, dcomposition du champ sonore en harmoniques sphriques W, X, Y et Z,


Soundfield.

5.4 Les

213

systmes principaux matrics

Figure5.67Format B, reprsentation des composantes W, X, Y, Z, B.Priaux daprs Soundfield.

Dunod Toute reproduction non autorise est un dlit.

W =Lb +Lf +Rf +Rb composante omni pression


X =Lf-Rb +Rf-Lb

composante bi selon axe X vlocit

Y = Lf-Rb-Rf +Lb

composante bi selon axe Y vlocit

Z =Lf-Lb +Rb-Rf

composante bi selon axe vertical Z vlocit

Figure5.68Les diffrentes configurations de placement


du SPS200, compatibles avec tout microphone Soundfield,
B.Priaux daprs Soundfield.

En pratique
Le microphone Soundfield peut tre
utilis dans diffrentes configurations,
sur pied, sur perche, ou suspendu.
Il existe des paramtres de contrle
pour la disposition du microphone,
ce sont les fonctions END et INV
prsentes sur le pramplificateur
(le module dentre du MarkV ou
le botier du ST450) et que lon
retrouve sur le dcodeur (SP451
ou Surroundzone). Le paramtre
END doit tre actif si le microphone
est dispos de faon axiale, et le
paramtre INV gre lorientation
verticale (voir figure 5.68). Les
fonctions azimuth et elevation
contrlent la rotation virtuelle du
microphone, il est aussi possible
de focaliser plus ou moins vers le
champ direct grce au paramtre
dominance ou zoom (Back/

214

Chapitre 5 La

prise de son

Front). Ainsi, lutilisateur peut rajuster lorientation du microphone et prciser les


informations de la scne sonore qui lintressent.
Le mark V, processeurs MkV, DSF1, DSF2 et dcodeurs SP451, DSF3
Le mark V est le premier microphone Soundfield dvelopp pour le Studio. Il est utilis
avec les processeurs dentre MkV processor ou DSF2 qui grent la pramplification
du signal et lencodage au format B. Ces processeurs utilisent une premire section
de rglages o lon trouve les paramtres de gain, de contrle de la disposition du
microphone (rotation, INVERT, END FIRE, dominance ou zoom) et
un tage de dmatriage strophonique paramtrable pourvue dune sortie casque
stro (angle des directivits virtuelles, directivits des microphones).
Le dcodage du format B est ralis par le SP451 (version originale avec entres et
sorties analogiques) ou par le DSF3 (version actuelle numrique).
La plupart des cars HD quips dun microphone Soundfield utilisent aujourdhui les
processeurs numriques DSF2 et DSF3.
Le dcodeur SP451 (ou DSF3) propose nouveau les traitements de la scne sonore
dfinie par le format B (rotate rotation horizontale et verticale, rear focus
directivit des microphones arrire). Il cre un ensemble virtuel de cinq directivits
partir du format B. Les cinq microphones virtuels du format5.1 sont par dfaut
orients - 45 pour le canal L, 0 pour C, +45 pour R, -135 pour Ls et +135 pour
Rs. Le Sub (Lfe) est driv de la composante omnidirectionnelle W, filtre 120Hz. Il
est possible aussi de produire un format stro simultanment partir du format B, en
utilisant les sorties 7 et 8.
Lors du dcodage, on paramtre la largeur frontale et arrire ( front width ,
rear width) ainsi que la directivit des microphones arrire (rear focus) entre
omnidirectionnelle, cardiode, et bidirectionnelle.
Les autres formats de production tels que le 6.1, le7.1 ou le 8.0 sont compatibles.
Les microphones ST350, ST450 et le Surroundzone
Le microphone ST350 remplac dernirement par le ST450 est le microphone Soundfield
de reportage, accompagn dune bonnette anti-vent et dun botier dencodage au format
B. Sur ce botier, on gre le gain, les paramtres END et INV et la sortie stro
pour le monitoring au casque. En postproduction, le dcodage se fait gnralement avec
le plug-in Surroundzone dvelopp par Soundfield.

5.4 Les

215

systmes principaux matrics

Figure5.69Soundfield ST450, B.Priaux.

Figure5.70Soundfield
ST450 et son botier,
Soundfield.

Dunod Toute reproduction non autorise est un dlit.

Le plug-in Surroundzone reprend les mmes paramtres END et INV, lazimuth


et llvation, le zoom, les largeurs frontales, arrire et permet le rglage de la directivit
des capsules virtuelles arrire.

Figure5.71Plug-in Surroundzone, Soundfield.

LHarpex constitue une autre solution de dcodage format B, avec des possibilits de
dcorrlation complmentaires.

216

Chapitre 5 La

Configurer

le

Surroundzone

en5.1 dans

prise de son

Pro Tools

L e plug-in Surroundzone se configuredans Pro Tools en insert sur une


piste auxiliaire de format5.1 dont lentre est un bus5.1 cr dans le
IO setup. Ce bus5.1, que lon peut nommer Soundfield, permet alors de
router les trois pistes mono, sur lesquelles on place les signaux du format
B, W, X, Y et Z. La piste W est envoye vers le bus Soundfield, pan-pote
vers lavant gauche (ou directement vers le canal 1 du bus Soundfield), la
piste X, envoye vers le centre (canal 2), la piste Y, envoye vers lavant
droite (canal 3) et la piste Z, envoye vers le canal arrire gauche Ls
(canal 4). La composante Z nest utile que pour la restitution dlvation,
on peut donc labandonner pour une configuration en5.1. Lutilisation
des modes solo sur les pistes des signaux W, X, Y permet de vrifier
que la configuration est bien faite, en identifiant le signal sur les entres
meter du plug-in. Le Surroundzone SPS200, compatible format A, se
configurede la mme faon. Les quatre pistes mono Lf, Rf, Lb et Rb sont
envoyes respectivement vers le bus Soundfield en L, C, R et Ls.

Le SPS 200
Le SPS200 dvelopp rcemment est quip de petites capsules, il permet denregistrer
directement le format A avec le pramplificateur de son choix. DCAudiovisuel a
rduit la taille du microphone pour quil puisse tenir dans une bonnette Zephyx.
Son dcodage est ralis par le Surroundzone SPS200 qui encode en Format B puis
dcode en5.1.

Figure5.72Soundfield SPS200, V.Magnier.

5.4 Les

217

systmes principaux matrics

Le DPA-4
La socit DPA a dvelopp au dbut des annes 1990 son propre systme ambisonique
dordre 1, le DPA-4, partir de leurs capsules.
Le Core Sound TetraMic
Le TetraMic est un microphone ambisonique dordre 1 petites capsules, dvelopp
par la socit amricaine Core Sound.
Soundfield
- Systme quasi concident, 4 capsules hypocardiodes.
- Enregistrement directement au format B ou au format A (SPS200) suivi de
lencodage format B.
- Dcodage du format B en5.1, 6.1,7.1, 8.0.
ANALYSE
- Trs bonne localisation circulaire.
- Impression despace et profondeur trs limites, forte corrlation des
5 canaux.
- Indpendant du dispositif dcoute multicanal.

5.4.3 Sphre Schoeps KFM 360

Dunod Toute reproduction non autorise est un dlit.

Principe gnral
La sphre KFM360 est un autre systme matric, constitu dune sphre stro de
18cm de diamtre avec deux capteurs de pression et deux microphones bidirectionnels
(CCM8) placs de chaque ct de la sphre et dirigs vers lavant. Langle de prise de son
strophonique des deux microphones omnidirectionnels est de 120 tandis quil est
de 90 pour la sphre Schoeps KFM6 (20cm de diamtre).
La localisation latrale repose sur la diffrence dintensit grce au codage MS tandis
que les localisations avant et arrire reposent sur de la diffrence de temps combine
de la diffrence dintensit, gnre par la diffraction de la sphre (proche du principe
de localisation binaurale naturelle).
Le processeur effectue une praccentuation des aigus sur les signaux provenant des
microphones omnidirectionnels et une praccentuation des graves sur les signaux
provenant des microphones bidirectionnels.

218

Chapitre 5 La

Figure5.73Sphre Schoeps KFM360,


B.Priaux.

prise de son

Figure5.74Matriages MS sur les cts de la sphre,


B.Priaux daprs Schoeps.

Dmatriage
Canaux avant gauche/droite

Les canaux avant gauche et droite sont obtenus par sommation des signaux issus des
capteurs de pression et des bidirectionnels. Le dosage omnidirectionnels/bidirectionnels
dtermine la directivit des microphones virtuels ainsi crs (FRONT). La balance
gauche/droite peut tre modifie.
Canaux arrire gauche/droite

Les canaux arrire gauche et droite sont obtenus par soustraction des signaux issus
des capteurs de pression et des bidirectionnels. Le dosage dtermine la directivit des
microphones virtuels ainsi crs (REAR). Cette directivit arrire est indpendante
de celle de lavant.
Il est possible dajuster:
Le niveau des canaux arrire par rapport ceux de lavant (F/REAR BALANCE);
Le dlai des canaux arrire par rapport ceux de lavant (REAR DELAY/ms);
Le filtrage passe-bas des canaux arrire (REAR SLOPE/Hz) 12dB/octave.
Canal central

Le canal central est cr par matriage des canaux avant gauche et droite. Les signaux
corrls de ces canaux sont dirigs vers le canal central et soustraits des canaux gauche et
droite. Le dosage du canal central est dtermin par le paramtre FRONT PANORAMA.
Canal Lfe

Le canal Lfe est cr partir des signaux issus des capteurs de pression non galiss
par sommation et attnuation de 6dB puis filtrage passe-bas 80Hz, avec une pente
de 24dB/octave.

5.5 Systmes dambiance

219

Sphre SHOEPS KFM360


- Systme matric double MS sur les latraux.
- Couple AB omni avec diffraction de la sphre pour la latralisation.
- Cration lectronique du centre, partie du signal corrl avant gauche et
droite.
ANALYSE
- Bonne localisation.
- Impression despace et profondeur limites.
- Restitution des timbres limite.
- Systme complexe en exploitation, peu modulable.
- Utilisation pour la captation en salle de concert.

5.5

Systmes dambiance
Les ambiances sont trs couramment captes sur quatre canaux, restitues vers les
enceintes L, R, Ls et Rs, laissant ainsi le centre disponible pour les dialogues par
exemple. On trouve cependant des systmes constitus de cinq microphones, avec aussi
parfois une capsule pour la cration dun Lfe.

5.5.1 Double ORTF

Dunod Toute reproduction non autorise est un dlit.

Le systme Double ORTF est plutt considr


comme un systme dambiance, bien quil soit
parfois utilis pour des fictions radiophoniques.
Les deux couples sont disposs dos dos, distants
de 30cm. Limage sonore restitue est cohrente,
sans repliement despaces, ni zone non capte
(voir les abaques cardiodes de Mike Williams,
figure5.1).

Figure5.75Double ORTF,
B.Priaux.

Ce systme apporte une grande impression despace


que lon apprcie pour les ambiances extrieures
avec profondeur. Il est possible de resserrer
lespace et de ladapter au lieu en postproduction,
avec lutilisation dun pan-pot. En revanche, son
utilisation pour le son direct ncessite une mise en
scne prcise des sources et savre limite car le
systme restitue des plans larges en proximit.

220

Chapitre 5 La

prise de son

Figure5.76Courbe de localisation CAMAD pour le Double ORTF, M.Williams. Encouleursurdunod.com

Double ORTF
- 2 couples ORTF dos dos, distants de 30cm.
- Angles de PdS 90 sur chaque secteur.
ANALYSE
- Bonne localisation.
- Trs bonne impression spatiale.
- Adapt pour les espaces extrieurs avec profondeur.
- Utilisation pour la captation dambiances en reportage, documentaire, et
fiction radio.

5.5.2 ORTF Surround Schoeps


LORTF Surround est une modification du double ORTF dvelopp par la socit
Schoeps. Il est plus compact grce au choix des directivits supercardiodes et peut
tre utilis de ce fait pour le sport, le reportage et le documentaire. Il est constitu de
quatre microphones supercardiodes avec une distance gauche/droite de 10cm et un
angle physique de 100 pour lavant, et une distance avant/arrire de 20cm, et un angle

5.5 Systmes dambiance

221

physique de 80. Les angles de captation sont de 90. La localisation de limage sonore
restitue est cohrente. Le systme a sa propre cage anti-vent et son systme de poils,
on peut aussi lquiper dune bonnette Zephyx. Il est possible dutiliser un systme de
chauffage des capsules pour les tournages en milieux humides.

Dunod Toute reproduction non autorise est un dlit.

Figure5.77ORTF Surround Schoeps, V.Magnier.

Figure5.78ORTF Surround Schoeps,


B.Priaux daprs Schoeps.

Figure5.79Courbe de localisation CAMAD pour lORTF Surround Schoeps, M.Williams.


Encouleursurdunod.com

222

Chapitre 5 La

prise de son

ORTF Surround Schoeps


- 4 supercardiodes disposs en rectangle.
- 10cm et 100 pour lavant et larrire.
- 20cm et 80 pour les latraux.
- Angles de PdS 90 sur chaque secteur.
ANALYSE
- Bonne localisation.
- Bonne impression spatiale, espace plus resserr que le DORTF.
- Basses frquences attnues.
- Utilisation pour la captation dambiances en reportage, documentaire,
fiction.

5.5.3 Croix IRT


La croix IRT est lorigine un systme conu pour la captation dambiance en salle,
elle se visse sur un pied. Elle est constitue de quatre microphones cardiodes disposs
en carr, distants de 25cm, selon la recommandation J. Wuttke/MikeWilliams, et
formant entre eux des angles de 90. Le systme est parfaitement symtrique et offre
quatre angles de prise de son de 90. Le support Schoeps utilise des capsules CCM4.

Figure5.80Croix IRT avec capsules Schoeps


CCM4, V.Magnier.

Il est possible de percher avec une croix si lon ajoute un systme de suspension.
Autrement, la croix est souvent utilise en complment dun triplet avant.
Il existe deux autres versions de la croix IRT, lune quipe de quatre microphones
cardiodes distants de 20 cm et lautre quipe de microphones supercardiodes,
distants de 14cm.

5.5 Systmes dambiance

Dunod Toute reproduction non autorise est un dlit.

Figure5.81Courbe de localisation CAMAD pour la Croix


IRT 25cm cardiodes, M.Williams. Encouleursurdunod.com

Figure5.82Courbe de localisation CAMAD pour la Croix


IRT 14cm supercardiodes, M.Williams. Encouleursurdunod.com

223

224

Chapitre 5 La

prise de son

Croix IRT
- 4 cardiodes disposs en croix, espacs de 25cm, avec un angle droit.
- 4 angles de prise de son de 90.
ANALYSE
- Bonne localisation.
- Trs bonne impression spatiale.
- Bonne restitution des timbres.
- Utilisation pour la captation dambiances en salle de concert ainsi que pour
les ambiances en reportage, documentaire, et fiction.

Remise

en phase des microphones en salle

Lorsquon utilise des systmes dambiance, les distances par rapport au


systme frontal tant considrables (10 30m), il est indispensable de
remettre en phase le systme frontal et les microphones dappoints par
rapport au systme le plus loign, cest--dire le systme dambiance. La
figure5.83 compare les deux cas, avec et sans alignement temporel, pour
un systme frontal OCT, les appoints et un carr Hamasaki.

Figure5.83Alignement temporel du systme principal, des microphones


dappoint et du systme dambiance, B.Priaux daprs G.Theile.

5.5.4 Carr Hamasaki


Le Carr Hamasaki a t conu par lex-ingnieur en chef de la NHK Kimio Hamasaki
pour capter les ambiances dans une salle pour la captation des orchestres. Il repose sur

5.5 Systmes dambiance

225

le placement en carr de 2 3m de ct, de capsules bidirectionnelles, orientes vers


les murs de la salle. Les microphones sont dirigs vers les canaux L, R, Ls, Rs comme
toute ambiance multicanal. Lannulation de londe directe en direction de lavant assure
loptimisation du champ rverbr. Le systme capte alors le champ sonore compos de
rverbration et dapplaudissements du public, vers les murs de la salle ainsi que vers
lintrieur du carr. Limage sonore obtenue ne comporte que du champ diffus, elle est
trs homogne et apporte une grande impression spatiale. La taille de lespace capt
est variable, elle dpend de la taille du carr, plus on augmente la distance entre les
microphones, plus on repousse les murs de la salle. Ce systme est couramment utilis
pour les captations dorchestres classiques la NHK, Radio France. Il est conseill de
noter alors la distance du systme dambiance par rapport au systme principal, et aux
microphones dappoints afin de remettre en phase les diffrents microphones.
Carr Hamasaki
- 4 bidirectionnels disposs en carr, dimension du ct de 2 3m, les lobes
positifs tant orients vers les murs.
ANALYSE
- Pas de son direct.
- Trs bonne impression spatiale.
- Construction du champ rverbr trs homogne.
- Basses frquences attnues.

Dunod Toute reproduction non autorise est un dlit.

- Utilisation pour la captation dambiances en salle de concert.

Figure5.84Croix IRT et Carr Hamasaki en glise, B.Priaux.

226

Chapitre 5 La

prise de son

5.5.5 Omni square et variantes


LOmni square est une variante du carr Hamasaki exploite par les ingnieurs du
son de la NHK, il utilise des capsules de directivit omnidirectionnelle. On peut aussi
utiliser des directivits hypocardiodes comme reprsent sur la photo ci-dessous.

Figure5.85Carr hypocardiodes suspendus,


Auditorium de Bordeaux, B.Priaux.

5.5.6 Holophone H2 Pro


LHolophone H2 Pro a t conu par la socit canadienne Rising Sun Production.
Cest un systme non matric, constitu de huit microphones omnidirectionnels DPA
miniatures 4060 placs sur le contour dune tte artificielle de forme ellipsode. Le
principe repose sur les fonctions de transfert HRTF introduites par la tte artificielle
simulant la tte humaine et sur la diffrence temporelle cre par les distances
entre les microphones. La disposition des microphones sur le contour de la tte est
une reproduction du systme dcoute7.1 Imax, lchelle du systme. Ce systme,
compatible5.1, 6.1 cinma et7.1 Imax, est souvent utilis pour des captations TVHD
(vnements sportifs). Cest un systme robuste, trs rapidement oprationnel.

Figure5.86Holophone H2 Pro, B.Priaux.

Figure5.87Disposition des capsules,


B.Priaux daprs Rising Sun Production.

5.5 Systmes dambiance

227

Voici lordre de branchement du H2 Pro: L, R, C, Lfe, Ls, Rs, Top, Center Rear.
Rising Sun Production a dvelopp une gamme de systmes plus petits, nomms H3
D et H4 super mini, ce dernier se fixe sur des camras. Dautres modles comme le
PortaMic Pro et PortaMic5.1, plus compacts, intgrent un encodeur Dolby Surround
et vhiculent en sortie un signal stro LtRt.
Holophone H2 Pro
- 
8 microphones omnidirectionnels DPA 4060 placs sur une tte
hmisphrique.
ANALYSE
- Localisation plutt imprcise.
- Impression spatiale peu favorable, image sonore avec internalisation.
- quilibre spectral favorable aux basses frquences.
- Peu sensible aux dplacements et au vent.
- Trs rapidement oprationnel.

Dunod Toute reproduction non autorise est un dlit.

- Utilisation pour la TVHD, pour les programmes de sport.

5.5.7 DPA 5100


Le DPA 5100 fait partie des systmes proposs pour la captation des vnements sportifs,
tout comme son concurrent lHolophone, il est compact, lger, robuste et trs rapidement
oprationnel. lintrieur, on trouve cinq capsules DPA omnidirectionnelles. Les
capsules omnidirectionnelles ont lavantage dtre peu sensibles au vent et aux
dplacements. Le triplet avant prsente la particularit dtre concident, il permet
alors un meilleur rendu par downmix stro et mono. Les capsules du triplet avant
sont spares par un bafflage acoustique, comparable au procd du disque Jecklin, et
sont montes sur des tubes interfrences, ce qui donne une certaine directivit aux
capsules. Ce procd, nomm DipMic (Directional Pressure Microphone), a t mis
au point par les ingnieurs de DPA. Les capsules arrire, spares de 18,5cm, forment
une sorte de couple AB et sont distantes du triplet avant. Le systme propose un canal
Lfe aliment par la sommation L +R, attnue de 10dB pour la compatibilit du SUB
en coute ITU TVHD.

228

Chapitre 5 La

prise de son

Figure5.88Systme DPA 5100, B.Priaux.

DPA 5100
- 5 microphones omnidirectionnels DPA, concidents devant avec procd
DipMic et distants larrire, disposs dans une forme revtue de tissu.
ANALYSE
- Bonne localisation.
- Impression spatiale bonne, image sonore avec internalisation.
- Manque de transparence.
- quilibre spectral favorable aux basses frquences.
- Peu sensible aux dplacements et au vent.
- Trs rapidement oprationnel.
- Utilisation pour la TVHD, pour les programmes de sport et le reportage
radio.

5.6

La haute rsolution spatiale


Ce contenu repose sur les excellents travaux de recherche de la socit Trinnov
Audio, www.trinnov.com
Tous les systmes de prise de son tudis jusqu prsent utilisent des microphones
traditionnels de directivits dordre 0 ou 1, allant de la figureomnidirectionnelle
(ordre 0) la figurebidirectionnelle (ordre 1). Ces systmes sont drivs de la prise
de son strophonique, ils produisent des diffrences dintensit et de temps entre les
signaux capts suivant lorientation des microphones et leurs distances respectives.
Pour ce type de systmes rsolution standard, le signal mis par une source est

5.6 La

haute rsolution spatiale

229

diffus par tous les canaux, par consquent limage fantme correspondante est
reproduite par un nombre lev de haut-parleurs. La thorie OCT Surround de
Gnther Theile met justement en vidence la combinaison de ces images fantme
et le recours loptimisation de la diaphonie acoustique, grce lutilisation de
directivits supercardiodes. Lutilisation de cinq enceintes implique thoriquement
la combinaison de dix images fantme. La superposition de ces images fantme
a pour consquence un talement spatial des sources apportant une certaine
corrlation des canaux.

Dunod Toute reproduction non autorise est un dlit.

Le concept de la haute rsolution spatiale sinspire de la haute rsolution temporelle


(frquence dchantillonnage leve) qui permet, grce une bande passante leve,
de suivre avec grande prcision les variations du signal dans le temps. Les variations
spatiales sont dfinies par la rpartition angulaire du champ acoustique autour du
microphone et pour suivre ces variations, le systme denregistrement doit pouvoir
enregistrer les frquences spatiales leves et donc avoir une bande passante spatiale
considrable. La frquence spatiale correspond une figurede directivit dont la
slectivit des lobes dtermine directement la prcision spatiale. Plus la figurede
directivit est slective, plus la rsolution spatiale quelle offre est leve. Ces
frquences spatiales sont classes en fonction de leur slectivit appele lordre,
voici ci-dessous cette classification, de lordre 0 lordre 5.

Figure5.89Les directivits classes en fonction de lordre ou frquences


spatiales, les zones fonces reprsentent les lobes positifs, les zones claires,
les lobes ngatifs, Trinnov Audio.

230

Chapitre 5 La

prise de son

5.6.1 Haute rsolution spatiale et Trinnov SRP


La prcision spatiale obtenue avec un systme dordre 5 est cinq fois suprieure un
systme utilisant des directivits dordre 1. La figure5.90 compare les directivits
cardiodes et hypercardiodes lordre 1 et lordre 5.

Figure5.90Comparaison cardiode et hypercardiode ordre 1 et ordre 5, les


zones fonces reprsentent les lobes positifs, les zones claires, les
lobes ngatifs, Trinnov Audio.

Aujourdhui, nous ne disposons pas de microphone dune directivit aussi slective que
la prcision obtenue lordre 5. Si nous disposions de tels microphones, il serait alors
simple de positionner nos microphones pour obtenir les directivits idales adaptes
au format5.1. La loi panoramique idale 5.0 est dfinie par cinq figures de directivits
qui expriment lintensit des canaux pour former une image fantme optimale dans
chacune des directions des enceintes.
Voici un comparatif donn par Trinnov entre les deux types de rendus de spatialisation
multicanal obtenus avec un systme concident rsolution standard, en diffrence
dintensit uniquement (la diffrence de temps nest pas prise en compte), et avec un
systme haute rsolution type SRP (Surround Recording Plateform) Trinnov Audio.
Ce schma illustre la diaphonie acoustique existante dans un systme5.1 ITU concident
rsolution standard.
Sont reprsentes sur la figure5.92 les lois de panoramique dintensit utilises pour le
mixage mono dirig, le panoramique dintensit dordre 5, et la loi continuous surround
panning dordre 4 (P. Craven, 2003). Ces lois ont sensiblement la mme forme gnrale.

5.6 La

231

haute rsolution spatiale

Figure5.91Comparaison
des prises de son 5.0
haute rsolution spatiale
et rsolution spatiale
standard, Trinnov Audio.
Encouleursurdunod.com

Dunod Toute reproduction non autorise est un dlit.

Figure5.92Lois de panoramique quivalentes, panoramique


dintensit de source mono, panoramique dintensit dordre 5, continuous surround
panning dordre 4, Trinnov Audio. Encouleursurdunod.com

232

Chapitre 5 La

prise de son

La figure5.93 compare diffrentes lois de panoramique pour une restitution en5.1 ITU,
ordre 1 standard en cardiodes concidents, ordre 5, et ordre suprieur 5, avec leurs
rendus sonores, insuffisant pour lordre 1, optimal pour lordre 5, trop slectif pour
les ordres suprieurs. La haute rsolution spatiale repose sur la sparation optimale
et non maximale des canaux. Une trop forte sparation des canaux ne permet plus le
fonctionnement de limage fantme.

Figure5.93Sparation optimale des canaux suivant l'ordre de


slectivit, Trinnov Audio. Encouleursurdunod.com

On constate cependant que les lois panoramiques utilises par les systmes de prise de
son multicanal dordre 1, abords en dbut de chapitre (OCTS, MMAD, DMS, DORTF,
Soundfield) sont en gnral mixs des microphones dappoint qui travaillent avec
des lois panoramiques dintensit comparables lordre 5 dfini par le SRP. La rsolution
spatiale des images sonores ainsi combines nest en effet pas la mme que celle obtenue
pour un systme principal unique travaillant diffrence d'intensit seulement.
Ceci dfinit donc un systme de prise de son 5.0 idal qui reproduirait la meilleure
image fantme possible dans la mme direction. Pour obtenir ce type de directivit 5.0
idale, il est ncessaire de renoncer lapproche traditionnelle qui consiste utiliser un
microphone pour un haut-parleur. Il faut sorienter vers un procd de matriage sur
un rseau de microphones. Afin datteindre une qualit spatiale maximale, le SRP effectue un filtrage matriciel total. Chaque canal est obtenu en tirant profit de lensemble des
microphones. Le signal de chaque microphone est filtr de manire spcifique, puis lensemble des signaux ainsi forms est combin de manire produire un canal optimal.
Les avantages dun tel systme denregistrement haute rsolution spatiale permettent
une sparation optimale des canaux tout en gardant une certaine corrlation
indispensable au fonctionnement de limage fantme. Le systme augmente la

5.6 La

233

haute rsolution spatiale

ponctualit des sources, car limage fantme sollicite par la reproduction dune
source est fabrique par la contribution de seulement deux canaux (voir figure5.94 la
reprsentation des deux types de rsolutions spatiales).


Figure5.94Comparaison
de la ponctualit des
sources entre systme
rsolution spatiale
standard et systme
haute rsolution spatiale,
Trinnov Audio.

Le systme largit aussi la zone dcoute obtenue du fait de la contribution de deux


canaux seulement pour la fabrication de limage fantme. Dautre part, les downmix
stro ou mono sont de trs bonne qualit, sans distorsion dangle dans les images
fantme ni de modification de timbres, car les systmes haute rsolution spatiale
reposent sur un principe de concidence.

Dunod Toute reproduction non autorise est un dlit.

La haute rsolution permet de contrler finement toutes les directions de la sphre


grce aux 36 directivits ou frquences spatiales illustres par la figure5.95.

Figure5.95Reprsentation des 36 frquences spatiales jusqu lordre 5, Trinnov Audio.


En couleur sur Dunod.com

234

Chapitre 5 La

prise de son

La perception dlvation nest pas envisage par la prise de son avec le SRP, car les
directivits virtuelles obtenues sont tablies sur un plan horizontal, compatible avec
le dispositif5.1.
Principe dchantillonnage spatial, recomposition des directivits slectives
Comme les microphones usuels ne permettent pas dobtenir des directivits
trs slectives comme celles obtenues au degr 5, il convient de recomposer ces
directivits grce un filtrage matriciel. Le SRP fonctionne donc en deux tapes,
une tape dacquisition dinformations sur le champ acoustique laide dun rseau
de microphones standards et une tape de traitement permettant de synthtiser les
directivits souhaites. Ltape dacquisition est un chantillonnage spatial du champ
acoustique, ce procd est illustr par la figure5.96.

Figure5.96Principe dchantillonnage spatial du champ


acoustique, Trinnov Audio.

Le SRP est un rseau de huit microphones omnidirectionnels qui analysent les


diffrences de temps sur huit points dont lagencement est optimis. Lapproche du
SRP est de raliser un systme de prise de son haute rsolution tout en utilisant
un nombre de microphones compatible avec lconomie de la production
audiovisuelle. Les travaux de Trinnov ont montr quun systme non concident
ralise une meilleure captation quun rseau concident. Le traitement est ensuite
bas sur 40 filtres 1024 frquences permettant une reconstitution optimale de
chaque canal partir des huit microphones omnidirectionnels. Lensemble du
systme (rseau SRP +unit de traitement) se comporte comme cinq microphones
concidents virtuels ralisant une prise de son haute rsolution spatiale. La capture
se fait donc en diffrence de temps, code par la suite en diffrence dintensit, ce qui
rend le systme concident.
La figure 5.97 reprsente les microphones virtuels obtenus, de directivits
asymtriques, dordre 5 dans le frontal et dordre 2 larrire.

5.6 La

235

haute rsolution spatiale

Figure5.97Microphones virtuels obtenus, Trinnov Audio.

Figure5.98Trinnov Audio
SRP, B.Priaux.

Dunod Toute reproduction non autorise est un dlit.

En conclusion, le systme SRP de Trinnov Audio est un systme de captation


haute rsolution spatiale dordre 5, il recre cinq microphones virtuels concidents,
fonctionnant dans un plan, pour une restitution5.1. La captation en hauteur avec un tel
systme nest pas envisage. La sensation despace reste limite compte tenu peut tre
de la concidence du systme virtuel obtenu et la restitution des timbres ncessiterait
dtre amliore. En revanche la localisation et notamment la zone dcoute sont
dune grande stabilit, bien suprieure aux systmes rsolution standard. Enfin, les
downmix sont de trs bonne qualit.

5.6.2 High Order Ambisonics


Les technologies ambisoniques ont la facult de reproduire ou de crer des environnements
sonores en trois dimensions. Ces techniques ont t principalement dveloppes par
Michael Gerzon dans les annes soixante-dix. Lambisonie est une dcomposition
du champ de pression sonore sous formes de composantes (ou frquences spatiales)
harmoniques sphriques. Le Soundfield, tudi auparavant, est un format ambisonique
dordre 1, il offre une dcomposition du champ sonore en directivits bidirectionnelles
suivant les axes des x, y, et z. Lextension du format ambisonique des ordres suprieurs
est appele High Order Ambisonics (HOA), cette technologie a t dveloppe
conjointement par Orange Labs (Jrme Daniel) et la socit MH Acoustics au dbut
des annes 2000. Cette dernire permet damliorer la reproduction du champ sonore,
notamment en largissant la zone dcoute. Lencodage spatial peut tre envisag sous
deux aspects distincts: la simulation des caractristiques spatiales du champ acoustique
partir de signaux audio monophoniques, il sagit de synthse de source virtuelle, ou
lenregistrement naturel par un dispositif microphonique. Puisque les signaux HOA sont
une reprsentation physique dune scne sonore indpendante du dispositif de restitution,
le dcodage spatial peut sadapter diffrents systmes de diffusion (circulaire, sphrique,
strophonique,5.1, binaural etc.). Le dispositif HOA permet aussi un certain nombre de
traitements possibles comme la rotation ou la distorsion de perspective.

236

Chapitre 5 La

prise de son

Le systme HOA est une sphre comportant gnralement 32 microphones miniatures


omnidirectionnels, dautres systmes fonctionnent avec 20 capteurs, tout dpend de
lordre que lon choisit. Voici les diffrents ordres utiliss en 3D, avec le nombre de
capteurs et de composantes associs:
ordre 1 4 capteurs 4 composantes (Soundfield)
ordre 2 12 capteurs 9 composantes
ordre 3 20 capteurs 16 composantes
ordre 4 32 capteurs 25 composantes
Lordre m du systme HOA dfinit (m + 1)2 composantes en 3D et 2 m+1
composantes en 2D.
Il existe un modle commercialis par la socit MH Acoustics nomm
EigenMike, il est compos de 32 capteurs disposs sur une sphre de diamtre
8,4cm et fonctionne lordre 4.

Figure5.99La sphre EigenMike,


MH Acoustics, MH Acoustics.

Figure5.100Composantes HOA et directivit


virtuelle obtenue, J.Daniel.

Ce rseau de microphones effectue un encodage spatial du champ acoustique en un certain


nombre de composantes ambisoniques selon laxe des x, y, z, constituant le format B.
Lors du dcodage spatial, ces diffrentes composantes sont matrices et galises
afin de fabriquer un ensemble de directivits slectives virtuelles compatibles avec le
format souhait, cinq directivits pour le5.1 par exemple. Le dcodage reconstitue un
microphone virtuel par enceinte.

Figure5.101Directivits virtuelles obtenues lordre 4 pour des


restitutions 5.0, 7.0 et 8.0, J.Daniel.

5.7 Prise

237

de son binaurale

Le systme plutt concident semble limiter la sensation despace (peu de perception de


profondeur) et poserait des contraintes quant la restitution des basses et hautes frquences
(dues lespacement des capteurs). Pour amliorer le rendu dans les basses frquences, il
faudrait augmenter la taille de la sphre, mais ceci augmenterait lespacement des capteurs,
donc limiterait le rendu dans les hautes frquences. En revanche la localisation circulaire
semble trs satisfaisante, stable et le downmix obtenu est de bonne qualit.

5.7

Prise de son binaurale


On dfinit par prise de son binaurale, tout systme de prise de son capable de restituer
un rendu spatial au casque, avec sensation dexternalisation. Cette spatialisation qui
se distingue de la strophonie au casque traditionnelle donnant une perception
intracrnienne, reproduit les fonctions de transfert HRTF de notre tte. Aujourdhui
deux possibilits soffrent au preneur de son: il peut utiliser des ttes artificielles, des
bustes de mannequins ou bien placer des microphones miniatures dans le creux de ses
oreilles et reproduire ainsi ses propres fonctions de transfert. Les rsultats sont souvent
meilleurs avec lutilisation de ttes artificielles (tte Neumann KU100 par exemple)
quavec une paire de microphones de type DPA 4060 par exemple, place dans les
oreilles, trs sensible aux mouvements, et aux bruits de respiration.
Gnralement, on peroit dans cette approche davantage de son sur les cts avec
une localisation limite sur le plan frontal. La perception de distance est en revanche
trs bien restitue et la localisation circulaire et en hauteur est trs cohrente. La
spatialisation des sources est ralise sur le terrain, autour du systme, ce qui ncessite
une ralisation trs prcise.

Dunod Toute reproduction non autorise est un dlit.

La tte artificielle KU 100, reprsente ci-dessous, est la rplique dune tte humaine,
avec un microphone omnidirectionnel plac dans chaque oreille.

Figure5.102Tte artificielle Neumann KU100,


B.Priaux.

Figure5.103Tte artificielle
Neumann KU80, B.Priaux.

238

Chapitre 5 La

prise de son

Il existe dautres systmes tels que la tte artificielle Head Acoustics HMS3 ou HMS4
(celles-ci ne comportent pas de pavillons), le rcent et original systme sans tte Free
Space Pro 3DIO Sound, le mannequin Kemar bien plus ancien constitu de fibre de
verre ou le mannequin B & K 4100.

Figure5.104Systme Free Space Pro 3DIO Sound, 3DIO.

Figure5.105Mannequin Kemar,
GRAS, Sound and Vibration.

Voici un historique de la prise de son binaurale donn par Bernard Lagnel (preneur de
son Radio France):
Petite

histoire de la prise de son binaurale, systmes


anthropomtriques

1930: Creation du mannequin OSCAR par Barlett Jones de la Bell Systems Laboratory a
Chicago, les capteurs sont placs en avant des oreilles.
1969: OSKAR Dummy Head Stereo de Sennheiser.
1974: Dummy Head stro 2 de Sennheiser, MZK2002 et version microphones miniatures
MKE2002.
1972: Kemar, Gras.
1973: Nuemann KU80, quipe de microphones KM83, tte galise pour une rponse linaire
en champ direct, les pavillons ne comportent pas de tragus.
1982: Neumann KU81i, microphones KM83, tte galise pour une rponse linaire en champ
diffus, compatible avec hauts-parleurs, prsence du tragus sur les pavillons.
1992: Neumann KU100, tte galise pour une rponse linaire en champ diffus, compatible
avec hauts-parleurs, prsence du tragus sur les pavillons.
2011: Samrec type 2500s Southern Acoustics Co. Ltd Japon, sorte de clne de la tte
MZK2002?
2013: Free space pro 3DIO Sound.

Ces systmes de prise de son ncessitent une galisation, laquelle est souvent contenue
dans la tte, cest le cas de la Neumann KU100. Cette galisation dgrade quelque peu
les indices spectraux mais minimise les artefacts de dtimbrage, elle peut se faire pour

5.7 Prise

de son binaurale

239

une rponse linaire en champ direct (la mthode gnralement utilise en chambre
anchoque) ou en champ diffus.
Voici le systme exprimental de Bernard Lagnel qui utilise un couple AB avec des
oreilles artificielles:
La prise de son binaurale native donne de bons rsultats, cest une forme de captation
naturelle comparable au systme principal dfini en dbut de chapitre, impliquant
donc une certaine distance avec la source et restituant une image gnrale. Elle contient
les fonctions HRTF du systme utilis (tte artificielle ou tte du preneur de son) et
donne une image spatialise fige. Seule linversion gauche droite de la scne sonore est
possible par inversion des canaux gauche et droite de la piste stro en postproduction,
mais la rotation de la scne sonore nest malheureusement pas possible. Elle peut tre
complte par des microphones dappoint traits alors par synthse mais se pose alors
la question des HRTF utilises pour obtenir la meilleure compatibilit.

Dunod Toute reproduction non autorise est un dlit.

Pour amliorer la perception, il faudrait une individualisation des HRTF (possible


avec lutilisation de microphones dans le creux des oreilles mais valable que pour le
preneur de son) et redonner lauditeur les indices dynamiques de localisation grce
un systme de head tracking (malheureusement quasi-impossible impossible en
prise de son binaurale).

Figures5.106, 5.107, 5.108Configuration



binaurale de Bernard Lagnel, couple
binaural avec oreilles artificielles, ce
systme est ici complt par un couple XY
utilis pour la prcision des plans proches
et pour la compatibilit5.1 (systme
plug and rec studio), B.Lagnel.
Ladeuxime photo reprsente le systme
avec des DPA 4060 et le zoom H4n utilis
pour le reportage et les ambiances.
La troisime photo reprsente le
cyclope ou Headgar, une enceinte
Genelec 8020 B quipe doreilles
artificielles, B.Priaux.

240

Chapitre 5 La

prise de son

Une autre approche consiste alors encoder un flux binaural par synthse:
soit partir dune prise de son ou dun mixage multicanal finaliss, on obtient alors
un format binaural dont les directions restent quantifies par le format multicanal;
soit par le mixage utilisant un logiciel ou un plug-in de synthse, on obtient alors
une image binaurale dont les directions sont quantifies selon la finesse de la base
HRTF ou du systme dcoute mesur. Dans ce dernier cas, la spatialisation comporte gnralement davantage de directions et de ce fait est plus naturelle.

5.8

Prise de son en tournage


Aprs cette tude thorique de la prise de son, abordons maintenant la prsentation
des enregistreurs portables compatibles multicanal. Nous exposerons ensuite quelques
retours dexploitation.

5.8.1 Les enregistreurs


Les enregistreurs multipistes portables se sont multiplis ces dernires annes et
permettent maintenant denregistrer en multicanal de faon nomade. En voici
quelques-uns parmi les plus srieux.
Les appareils sont prsents par le nombre de pistes quils peuvent enregistrer et par
le nombre dentres au niveau micro. Il va de soi quau-dessous de quatre pistes, les
possibilits sont limites. Quatre entres au niveau microphone sont un minimum,
et cest mme un peu juste: on ne peut utiliser que certains systmes de prise de
son et faire en mme temps une prise de son monophonique, grer des microphones
dappoint, et utiliser un systme de prise de son multicanal devient alors impossible.
Do lvolution du nombre dentres micro.

Complment
Web 5.3
Liste denregistreurs utiliss pour la prise de son multicanal.

5.8.2 Les diffrents systmes: piges et astuces, avec la participation de


Vincent Magnier
Voici un retour dexprimentation sur la prise de son multicanal mettant en avant une
mthode de travail, les piges viter et quelques astuces.
Complment
Web 5.4
Les diffrents systmes, piges et astuces.

5.9 Applications

5.9

241

Applications

5.9.1 Film
Gal Nicolas: le point de vue dun monteur son, utilisateur du format B
Gal Nicolas est monteur son pour le film, il pratique lenregistrement ambisonique,
en format B, depuis 2005, date laquelle il achte son premier microphone Soundfield.
Les possibilits de dcodage du format B, mont tout de suite amen dcouvrir toute
une perspective de recherche en matire sonore. Avec un son enregistr au Soundfield,
je pouvais en crer 20 30 autres, selon le paramtrage du dcodage, suivant la gestion
de lespace, des canaux avant et des canaux arrire.

Figure5.109Gal Nicolas, prise de son au Soundfield, G.Nicolas.

Dunod Toute reproduction non autorise est un dlit.

Complment
Web 5.5
Gal Nicolas ITV.

La personne aux deux personnes, Thierry Lebon, mixeur film


Thierry Lebon est mixeur film, il a expriment un systme de captation multicanal
pour lenregistrement de voix off.
Lide de cette prise de son5.1 est venue du scnario. Lhistoire du film La personne
aux deux personnes met en scne Daniel Auteuil, un personnage introverti qui
a un accident avec une personne qui entre littralement dans son corps. Les vingt
premires minutes du film reposent sur un dialogue entre les deux personnes, Daniel
Auteuil et lui-mme. Limage est faite de prises de vues subjectives qui sont la place

242

Chapitre 5 La

prise de son

du personnage, pendant ces images on entend la personne qui se trouve lintrieur de


lui. On sest imagin que lon pouvait faire une prise de son multicanal et pas seulement
restituer une voix en mono, diffuse sur tous les haut-parleurs. Cest un procd que
javais dj utilis sur Mission Cloptre pour faire les enregistrements de la voix off
de Pierre Tchernia, en 2001. Car pour moi, la voix off doit sortir de lcran.

Figure5.110Dispositif de captation voix narrative, La personne aux


deux personnes, C M149, L et R AKG C414, arrire Sony C48 et Lfe AKG
C460, Thierry Lebon.

Complment
Web 5.6
Thierry Lebon ITV.

5.9.2 Documentaire limage


Documentaire animalier, Philippe Barbeau et Martine Todisco, preneurs
de son
Philippe Barbeau et Martine Todisco, sont preneurs de son spcialiss dans le cinma
animalier. Ils ont travaill notamment sur les longs mtrages de Jacques Perrin
Microcosmos, le Peuple de lHerbe, Le Peuple Migrateur, Le Peuple Singe,
Ocans Ce sont de fervents utilisateurs de systmes de prise de son multicanal.
Nous avons commenc nous intresser au multicanal travers la prise de son
simultane sur plusieurs canaux, mais sans penser enveloppement. En 2005 sur un
long-mtrage, Les Animaux Amoureux, nous avons eu lopportunit demprunter
un Cantar et un Deva IV. Jusqualors, nous tournions sur Nagra 5 numrique. Le
tournage dbutait lt 2005, et commenait par le brame du cerf. Lide premire
tait de disposer plusieurs microphones sur les places de brame, et denregistrer

5.9 Applications

243

simultanment au lieu de passer dun couple stro lautre, ceci, afin de ne pas rater
un dplacement danimal. Nous nous sommes rendu compte quil y avait mieux faire:
capter, non pas plusieurs points diffrents, mais un ensemble cohrent avant-arrire.

Figure5.111Philippe Barbeau,
P.Barbeau.

Figure5.112Martine Todisco, P.Barbeau.

Complment
Web 5.7
Philippe Barbeau, Martine Todisco ITV.

Dunod Toute reproduction non autorise est un dlit.

5.9.3 Documentaire, reportage, fiction radiophonique par Guy Senaux,


ingnieur du son Radio France

 Figure5.113Premier jour de
tournage, Les Bonobo, Crespin,
Christine Simone, Boukavou, Guy
Senaux, On Voice.

Guy Senaux ingnieur du son Radio France nous raconte ici les premiers documentaires,
reportages et fictions radiophoniques produits en5.1 Radio France, de 1995 2002.

244

Chapitre 5 La

prise de son

Le Cataclysme Sonore, France Inter

Complment
Web 5.8

Le Singe Soleil, France Inter

Figure5.114Le Singe Soleil, daprs un dessin de Jonathan Kingdon.

Premire mission de radio en son multicanal5.1


Prsentation

En octobre 1996, Jacques Santamaria, Directeur de France Inter, nous a permis


dexplorer la spatialisation totale de sons purs en ralisant la premire mission de
radio, enregistre en son multicanal aux normes5.1, en acceptant, en cinq minutes, le
projet de reportage de Robert Arnaut et Jacques Charreaux: le Singe Soleil.
Pour raliser cette production, nous avons choisi le cadre de la fort africaine, qui par
la richesse de ses dcors sonores, nous plonge dans un monde tonnant.
Nous sommes partis au cur du Gabon, 6000km de Paris, dans la fort des Abeilles,
fort inexplore par lhomme jusquen 1984. cette date les chercheurs du laboratoire de
primatologie et de biologie volutive du CNRS ont dcouvert dans ce lieu unique au monde,
une nouvelle espce de singe, le Singe Soleil (cercopithque avec une queue orange qui ne
vit que dans la fort des Abeilles, au centre du Gabon sur une superficie de 100km sur
100km). Il est semi-terrestre, cest--dire quil marche terre et ne grimpe dans les arbres
que pour manger certains fruits et pour dormir. Cest une espce entirement protge.
Cest sa recherche que nous partons faire ce documentaire, en ayant pour but de mettre
lauditeur au cur du voyage, au centre des cinq enceintes, la place des microphones.

5.9 Applications

245

En son multicanal, vous ncoutez plus les chos dun reportage, mais vous faites
rellement partie de lexpdition. Au milieu de ce dcor sonore, lauditeur devient acteur.
Choix du matriel

Pour des raisons de fret et de portage pendant nos diffrentes marches en fort trs
humide, le poids a t un des lments capitaux de notre slection. Comme ctait en
priode de trs grande humidit (prs de 90% et 30 de temprature au mois doctobre),
nous navons pas choisi le Nagra numrique quatre pistes car il navait pas t utilis
dans de telles conditions et vu le cot de la mission, on ne pouvait pas prendre de risques.
Nous nous sommes dirigs vers le choix de:
2 couples ORTF Schoeps capsules MK5;
2 HHB Portadat 1000 TC, enregistreurs DAT stro, synchroniss par un gnrateur
de time code (voir photo ci-dessous).
Prise de son des voix narratrices

Nous avons utilis un couple de microphones spars Schoeps,


capsules MK5 en directivit cardiode, fixs sur une barrette AKG
(angle entre les deux microphones 45 60 degrs) pour liminer
le trou en trs gros plan du couple ORTF. Avec un couple ORTF,
les sons sont dtimbrs dans le centre du couple ds que lon
sapproche de 18 15cm.

Dunod Toute reproduction non autorise est un dlit.

Prise de son

En pratique la prise de son en multicanal est plus subtile que


la prise de son en stro, mais tout fait accessible. Le preneur
de son est un metteur en scne sonore. Je dtermine dabord le
couple avant de ma prise de son. Je place si cela est possible les
personnages. Par exemple, si on enregistre deux personnes, lune
Figure5.115Matriel de
est place 1/3 gauche et lautre 1/3 droite. Autre exemple
Prise de son baptis 44,
avec deux personnages: on place la personne que lon interviewe
JeanFranoisBernard Sugy.
devant et lintervieweur derrire, avec le preneur de son sur le
ct. Nous aurons un problme si nous devons marcher dans la
fort, car nous entendrons le preneur de son sur un ct. Dans ce cas-l, on donne la
perche au producteur et le preneur de son se met derrire lui, 2mtres, comme cela
on ne lentend pas, ses pas tant couverts par ceux du producteur.
Analysons un autre exemple: la mise leau dune pirogue avec les cris des piroguiers
et les clochettes fixes lavant de la pirogue qui permettent en coutant leurs divers
sons de connatre le tirant deau. Pour lauditeur, je dtermine une mise en place: je
vais la faire venir par le centre de larrire, et la mise leau se fera par devant. Si les
indignes ne suivent pas mon travelling sonore souhait, je tourne mon systme de
prise de son pour quil en soit ainsi et pour ralentir leur dplacement.

246

Chapitre 5 La

prise de son

Lcoute slective doit se faire dabord en coutant sans casque, puis au casque, car
aprs avoir dtermin le choix du positionnement des sons enregistrer, il ne sera
possible dcouter au casque, lors de lenregistrement, que le son provenant soit du
couple avant, soit du couple arrire.
Les mouvements de perches doivent tre adoucis car on dplace simultanment quatre
microphones, ce qui accentue les risques de bruits parasites et les trpidations.
La proximit du preneur de son et des quatre micros, oblige celui-ci ne faire aucun
bruit (vtements, dplacements, respirations, voix). Cette proximit est une grande
contrainte, dautant plus que les housses des PORTADAT ont des fermetures velcro qui
ne sont pas particulirement discrtes.
Dans la fort quatoriale, il ny a pas de grandes montes, mais des petites butes de 3
4 mtres de haut, trs glissantes et lair parat rare. Lors des longs travellings dans
la fort, dans certains cas, il est ncessaire dutiliser une perchette flexible de 30cm
plaant le couple arrire au-dessus de la tte du preneur de son, afin de diminuer au
maximum tous ses bruits de respirations.
Si jai choisi dutiliser le couple ORTF, cest que par ma longue pratique denregistrement
de fictions, cest le meilleur systme de prise de son qui respecte la prcision des plans
sonores et la profondeur en plans moyens et en plans lointains. De plus, ce systme 44
est trs pratique pour les reportages avec la possibilit de sparer les deux couples, comme
par exemple sur les pirogues ou pour la coupe dun arbre Okoum. Jacques Charreaux
tait 40 mtres la chute de larbre avec le couple arrire, et moi-mme, avec le couple
avant, au pied de larbre. On a synchronis les deux enregistrements au mixage.
Prcisons quentre deux
enceintes espaces de 3 mtres,
si la voix est enregistre sur
un seul microphone, elle a une
dimension de 60cm. Enregistre
en stro avec ce systme de
deux microphones, la voix a
une dimension de 1,5 mtre 2
mtres. Elle est dautre part plus
brillante, avec la rsonance du
studio qui lui rajoute une belle
sonorit dans le haut mdium.
linverse du Cataclysme
Sonore, le Singe Soleil est
une mission bio , car
Figure5.116Radeau dOkoum Jacques Charreaux.
nous navons rajout aucun
effet sonore. Seulement de
temps en temps des corrections pour couper le lger vent caressant les capsules ou les
trpidations de la perchette.

5.9 Applications

247

Squence par squence, on procde au mixage puis la mise en place de chaque


lment, dans le temps et dans un espace trs calcul pour une mission de 56 minutes.
Les emplacements taient dj choisis au montage en tenant compte des moments
forts et des moments faibles, des moments en mouvements et des moments fixes, des
moments trs riches en sons et des moments plus lgers.
Par le positionnement des sons, il faut toujours surprendre et tonner lauditeur en son
multicanal, en pensant toujours que lauditeur est au centre du voyage, au centre des
enceintes.
Anecdote

Robert Arnaut ma dit tu vas voir, la chute de larbre, tous les oiseaux sarrtent
de chanter, cest le grand silence Mais pas du tout! Ils sont habitus au bruit de la
trononneuse, car le forestier a une concession de 27km2 et coupe trois okoums de
40 mtres par hectare. Tout lisorel qui arrive en France vient du Gabon. Pour la prise
de son de labattage, jtais la base de larbre avec le couple ORTF avant et Jacques
Charreaux 40 mtres plus loin la chute, avec le couple ORTF arrire. Au mixage,
grande discussion, car certains voulaient garder la vraie prise de son. Celle-ci restituait
le son de la scie devant mais aussi larrire, ce qui faussait compltement la mise en
scne. Nous avons donc choisi de mettre le couple avant que sur le frontal avec une
ambiance 4.0 de fort fournie et, lors de la chute, on a bascul le couple vers larrire,
sur le couple plac la chute de larbre avec une ambiance 4.0 de fort trs calme. Pour
certains, cela sappelle tricher, pour dautre cela sappelle crer un dcor sonore.
Remarques

Dunod Toute reproduction non autorise est un dlit.

Comme il est impossible denregistrer une pluie en fort quatoriale car on mouille les
microphones, et si on a un parapluie, on entend les gouttes sur le parapluie, jai trouv
une solution. Jai enregistr labri dun petit toit du cabanon o nous dormions, la
pluie tombant sur des grandes feuilles, avec le couple avant de mon systme 4x4, le
couple arrire captait la rsonance de la pluie sur labri en bois.
Au mixage on a pris cet enregistrement (quatre pistes) et on a matric la pluie du couple
sur lavant et une partie entre lavant et larrire. On a pris cette mme pluie 30 secondes
plus loin et on a fait linverse. On la mise (sur 4 autres pistes) sur larrire en matriant une
partie au milieu, entre larrire et lavant. On a mix les 8 pistes et comme cela on a form
un ciel et il pleut sur lauditeur. Vous rajoutez un chasseur qui marche dans la fort en se
faisant un passage coups de machette, et lauditeur avance dans la fort, sous la pluie, en ne
se rendant pas compte que cette dernire est fixe et tombe toujours sur les mmes feuilles.
Prcisons que, dans le canal Lfe, nous navons pas mis volontairement toute lmission.
Nous avons choisi que les sons frquences basses : orage, intrieur de camion,
intrieur de 4x4, passage dun train dans un tunnel, etc.
Pour produire cette mission bio de 56 minutes, il aura fallu 10 jours de tournage,
voyage compris, 24heures denregistrements, 2 semaines de drushage et montage

248

Chapitre 5 La

prise de son

et 4 semaines de mixage. Cette mission a t diffuse le


19mai 1998 en version Dolby Surround sur France Inter dans
lmission Zinzin. loccasion du SATIS qui se droulait
pour la premire fois dans la Maison Ronde de Radio France
en 1998, le Singe Soleil a t encod en DTS, avec un tirage
numrot de 200cd.
Cette mission a obtenu le Prix Jean Thvenot en 1997, prix
cr en 1984 linitiative des Chasseurs de sons, mission
culte pour les preneurs de son, sous lgide de Paul Robert et
de Dominique Calace de Ferluc.
quipe

Figure5.117Enregistrement des
abeilles, J.Charreaux.

Producteurs Robert Arnaut et Jacques Charreaux, Prise de son


et mixageGuy Senaux, Montage et mixagePhilippe Carminati,
Charg de ralisationEmmanuel Geoffroy.

Complment
Web 5.9
Bonobo: le hippie des Grands Singes, France Inter Interception.

Complment
Web 5.10

Matre matresse de ma passion, Les Sonnets de Shakespeare selon


Pierre-Jean Jouve, France Culture.

5.9.4 Autres expriences Radio


Reportage France Culture Interception par Herv Djardin, ingnieur du son
Radio France
France Inter a renouvel diverses expriences de reportages en5.1 en 2011 avec son
magazine Interception. Le premier de la srie, La Transhumance, est ici dcrit.
Particularit de cet enregistrement: il ne doit pas ajouter de contraintes. La prsence
du preneur de son aux cts du journaliste doit rester discrte. Lenregistrement doit
donc se faire de manire souple et fiable.
Le dispositif technique dcrit ci-aprs a t valid lors dun reportage pour Interception,
le magazine de la rdaction de France Inter. Un reportage de 45 minutes dans lequel les
ambiances tiennent une place importante. Pour valider ce dispositif denregistrement

5.9 Applications

249

en5.1, cest un reportage sur la transhumance qui a t choisi, justement pour la


richesse de ses ambiances: moutons, chiens de berger, paysage de montagne

Figure5.118Tournage sur La Transhumance, Interception France Inter, P.Dervieux

Complment
Web 5.11
Herv Djardin Tournage Interception.

Dunod Toute reproduction non autorise est un dlit.

5.9.5 Sport
Complment
Web 5.12
Application Sport: football (VCF) et tennis (BBC, FTV).

5.9.6 Musique
Complment
Web 5.13

Application Musique : film (Requiem pour une tueuse) et TVHD


(Passion selon Saint Matthieu).

Chapitre 6
La postproduction

Points

essentiels

- Gnralits: monitoring, normes, montage, DAW, consoles.


- La mesure en5.1.
- Le manager multicanal: comment grer une piste5.1?
- Bass Management, gestion du Lfe.
- Le pan-pot, gestion du centre et des canaux arrire.
- La rverbration.
- Le traitement dynamique.

Dunod Toute reproduction non autorise est un dlit.

- Downmix.
- Upmix.
- Mthodes de mixage et analyses.
- Synthse binaurale.
- Exploitation des nouveaux formats, mixage objets: Auro-3D, WFS,
Dolby Atmos.
- Outils de cration sonore et spatialisation interactive.
- Applications: exemples de ralisation de mixages film, musique, habillages
de chanes HD.
- Points de vue de mixeurs film.

252

Chapitre 6 La

postproduction

La spatialisation en multicanal fait appel aux mmes rgles quen strophonie,


le mixeur ralise la balance des sources (les quilibres), il gre lespace avec les
rverbrations et les ambiances, il travaille leurs intelligibilits, leurs couleurs et affine
lvolution temporelle du mixage par lautomation. La seule grande diffrence consiste
grer trois fois plus de donnes (en pistes, en routing, rverbrations et autres effets)
et crer une nouvelle image sonore. Il est trs courant davoir des sessions de plus
de cent pistes pour le film, la musique tant mixe en gnral part, do la ncessit
davoir une bonne organisation, de simplifier la postproduction par diffrentes tapes
de montage et de mixage, et davoir une automation la plus souple possible. En effet,
la multiplication des directions du 5.1 complexifie la gestion des sources, et une
automation comme celle gre par le Pro Tools, ou par dautres logiciels quivalents,
vont bien simplifier la dmarche et faciliter le travail.
Dune faon gnrale, les outils5.1 prsentent quelques subtilits comme la divergence
centrale, le bass management, le manager multicanal, la mesure des six canaux
Nous abordons dans ce chapitre ces diffrents outils indispensables la gestion dun
mixage, des mthodes de travail sont exposes, des exemples de mixages sont analyss
et enrichies par un retour dexpriences de mixeurs film professionnels.

6.1

Gnralits

6.1.1 Monitoring
Le point de dpart dun mixage repose toujours sur le monitoring et ce dernier, en
multicanal, nest pas simple. Le chapitre2 a introduit les diffrences fondamentales
entre lcoute cinma et lcoute ITU pour la TVHD, la radio, les supports DVD et Bluray. Rappelons que nous avons un niveau de rfrence de 85 dBC SPL en auditorium
cinma, et 79 dBC SPL pour une rgie broadcast. Il ny a pas vraiment de niveau de
rfrence pour la musique ou la radio. Lcoute cinma est sans bass management, en
revanche, lcoute broadcast ncessite un bass management, ainsi que tout produit
diffus sur une installation home-cinma (DVD, SACD, Blu-ray). Certains mixeurs
en TVHD travaillent avec une coute rgle avec bass management, mais il est
intressant davoir deux presets dcoute, un avec et un sans, afin de mieux matriser
le grave. En effet, mixer sans bass management conduirait forcment des problmes
de compatibilit dans le grave, en gnral on obtient trop de basses frquences ce qui
nuit lintelligibilit du mixage. Dautre part, avoir un preset sans bass management
permet de bien identifier le grave issu du canal Lfe seul et celui provenant de la
sommation des canaux principaux. Il est aussi vivement souhaitable davoir un
contrleur de monitoring avec la fonction Solo, Mute sur les diffrents canaux, le
calibrage dun niveau de rfrence, la possibilit de downmixer en stro et en mono
depuis le format5.1 (certains contrleurs proposent un downmix LtRt). Les autres
fonctions telles que la possibilit dactiver un bass management avec une frquence
rglable, le rglage du gain du canal Lfe (0dB ou +10dB) et le recours possible au
filtrage du canal Lfe 120Hz sont aussi trs importantes, elles sont souvent assures

6.1 Gnralits

253

par le processeur dcoute. Lintgration dencodeurs et de dcodeurs (Dolby, DTS,


simulateur de metadata DP570) peut aussi tre associe au contrleur de monitoring,
certains modles le proposent. Une sortie supplmentaire pour le metering5.1 est
prvoir lorsquon utilise des modles hardware.
La plupart des contrleurs de monitoring sont intgrs dans la console de mixage,
quelle soit analogique, numrique ou surface de contrle. Mais il existe cependant des
contrleurs de monitoring5.1 ou7.1 indpendants, lesquels imposent un ordre des
canaux, gnralement ITU ou DTS. Dautre part les cartes son proposent progressivement
un monitoring5.1 ou7.1 contrlable par le DAW ou bien une application ddie la
carte. Enfin, la fonction monitoring5.1 peut proposer une coute des stems spars,
suivant le DAW utilis ou bien laide dun plug-in ddi au monitoring.

6.1.2 Normes sur lordre des canaux


Il existe diffrentes normes sur lordre des canaux, en voici une synthse:
Normes

sur lordre des canaux

- ITU/SMPTE ou Dolby: L R C Lfe Ls Rs.


- Film: L C R Ls Rs Lfe.
- DTS: L R Ls Rs C Lfe.
- QuickTime: C L R Ls Rs Lfe.
- 7.1 SDDS: L Lc C Rc R Ls Rs Lfe.
- 7.1 HD: L C R Ls Rs Lb Rb Lfe.

Dunod Toute reproduction non autorise est un dlit.

Ces normes sont souvent lies un environnement de travail, le cinma, la TVHD, la


Radio, le support, un choix de codage, le Dolby, le DTS, le SDDS, lAAC, lutilisation
de certains logiciels ou priphriques dont lordre des canaux est impos. Une certaine
gymnastique desprit permettra au monteur et au mixeur de bien grer le routing des
bus dans les consoles, les DAW, les priphriques, les supports, les fichiers entrelacs, le
monitoring.Il est en effet trs rare de pouvoir garder le mme ordre sur toute la chane
de production.

6.1.3 Montage son en multicanal


Le montage constitue une tape o convergent diffrents formats de sons: mono,
stro, LCR, quad, 5.0,5.1. cette tape, les sons seront rpartis sur des pistes envoyes
dans des stems spars, avec une bauche de spatialisation5.1.
Le monteur travaille en salle de montage quipe en5.1, il reoit le fichier OMF ou
AAF du monteur image et les rushes de la prise de son, issus denregistreurs Cantar,
Deva, Sound Device et SXR4 (en deuxime enregistreur souvent pour des appoints).
Lesprises de son stro sont devenues quasi systmatiques, elles sont synchrones grce
ces enregistreurs multipistes, on trouve quelques fois des formats B Soundfield.

254

Chapitre 6 La

postproduction

Le monteur organise sa session Pro Tools ou Pyramix avec des stems de monitoring de
diffrents formats quil utilise pour son propre travail et livre ensuite sa ou ses sessions
Pro Tools au mixeur avec des stems dj regroups, ces derniers seront rutiliss au
mixage.
Le contenu sorganise sous forme de sons directs (synchrones), gnralement les
dialogues, les post-synchro, les bruitages, les ambiances, les FX ou effets et la
musique.
Les sons directs sont composs de perches mono et HF, de sons stro synchrones
parfois (couple MS, couple AB) sous forme de plans proches ou plans lointains. Le
tout sera regroup dans un montage denviron 12 16 pistes mono et de 3 ou 4 pistes
stro. Les sons VI sont constitus denviron 4 pistes, des sons de dplacements, des
bruits de portes ou de voitures qui permettent de garder la synchro pour la version
internationale. Les directs peuvent tre travaills dans une session spare dans le
cas o il y a un monteur parole distinct et/ou un premix paroles. Ils peuvent aussi tre
intgrs la session complte selon la mthode du monteur son. Il livre alors des pistes
mono et stro spares que le mixeur positionnera dans lespace. En revanche, deux
bus de monitoring DIALOGUES et VI sont utiliss pour faciliter le monitoring durant
le montage.

Figure6.1Montage des directs et VI, C. Richard. Encouleursurdunod.com

La post-synchro est compose de sons mono, et livre sous formes de pistes mono
spares.
Les bruitages sont constitus de 12 16 pistes, au format mono, stro ou LCR quelques
fois. Ce sont les prsences, les pas et manipulations enregistres en auditorium.
Les ambiances et FX sont organiss en stems au format 5.0 ou5.1 (pour les FX), souvent dcomposs par familles FX A, FX B, FX C, FX DCes stems sont constitus dans

6.1 Gnralits

255

lautomation, par routing, de telle sorte que le mixeur peut toujours accder aux lments spars. Les ambiances et FX sont des sons additionnels, venant de sonothques
(personnelles ou commerciales), de prises de sons du monteur, et des sons seuls enregistrs au tournage. La quantit de ces sons seuls est trs variable, allant de cinq sons
une centaine, ils sont indispensables pour la figuration, les squences de voitures et
doivent raccorder avec laction du direct. Les ambiances sont gnralement au format
stro, bien que le format multicanal intresse de plus en plus les monteurs. Quelques
squences spcifiques avec mouvements sont spatialises. Quelques squences spcifiques avec mouvements sont spatialises ds cette tape.

Dunod Toute reproduction non autorise est un dlit.

Figure6.2Montage des ambiances, C. Richard. Encouleursurdunod.com

Figure6.3Montage des FX, C. Richard. Encouleursurdunod.com

256

Chapitre 6 La

postproduction

La musique pendant le montage est constitue de musiques tmoins, places par le


monteur image. Mais le monteur son rcupre souvent des maquettes du compositeur,
de qualit variable, celle-ci sont de bonnes indications de composition, ce qui vite les
surprises. Au dbut du mixage, le monteur son rcupre ensuite les musiques mixes
en5.1 et les montent comme il gre la rception de tout autre lment de postproduction. La musique est gnralement constitue dun full mix et de 3 stems majeurs ou
plus spars qui peuvent faciliter le mixage de certaines squences trs denses. Il existe
donc au final un stem musique au format5.1, compos de diffrents stems.

Figure6.4Montage des bruitages et musiques, C.Richard. Encouleursurdunod.com

Le monteur a recours lutilisation de rverbrations sur quelques lments secondaires,


par exemple des sons de portes lointaines, elles sont alors processes et spares
du son direct. Leurs formats sont LCR ou 5.0. Les rverbrations convolution de
type Altiverb sont gnralement utilises, elles permettent aussi dutiliser des rponses
impulsionnelles faites dans certains lieux.
Les chanes de tlvision HD comme Canal Plus demandent un5.1 pour toutes les
fictions, cest aussi le cas des tlfilms pour dautres chanes HD. La srie Maison
Close est par exemple une fiction post-produite en5.1, diffuse sur Canal Plus. La
srie est constitue de 8 pisodes de 52min. Le montage de chaque pisode se fait
sur 19 jours, directs et montage son, ce qui est suprieur la moyenne pour cette
catgorie de programmes en France. Ensuite, chaque pisode est mix sur 6jours. Un
PAD Dolby E5.1 pour la chane est fabriqu ainsi quune dition sur DVD. Le format
multicanal apporte sans aucun doute une meilleure intelligibilit du signal, mais le
monteur doit systmatiquement penser, pendant le montage5.1 du film, la version
stro, ce qui suppose de fournir des sons de faon intelligente. Il procde trs souvent
une rduction stro pour se rendre compte du rsultat.

6.1 Gnralits

257

6.1.4 DAW
La gestion du multicanal dans une station audionumrique est tout dabord
conditionne par la compatibilit des formats, les stations sont gnralement toutes
compatibles 5.1, certaines acceptent les formats 6.1, 7.1, ou 10.2. La compatibilit
avec les formats suprieurs est rare mais certains logiciels de cration sonore comme
Reaper les grent. Il est courant de crer des pistes en5.1, ceci facilite le montage et le
mixage. Le rglage de lordre des canaux affichs sur une piste5.1 nest pas toujours
possible, mais les chemins de sortie avec linterface audio peuvent se rgler afin
dadapter lordre aux diffrentes normes. Limport de fichiers entrelacs multicanal
est bien gr par les logiciels qui sont compatibles avec le format entrelac quelque
soit lordre dentrelacement, le logiciel reconnat les canaux du multicanal, autrement,
si ce nest pas le cas, on doit respecter pour plus de commodit lordre des canaux du
logiciel. Le logiciel doit pouvoir exporter des fichiers multicanal entrelacs, compatibles
avec la norme demande, mais dans ce cas galement, lordre des canaux nest pas
toujours paramtrable. Le pan-pot multicanal est un outil primordial, il conditionne
la spatialisation des sources, avec une palette doptions plus ou moins compltes et
abouties (voir outil pan-pot) et intervient de ce fait souvent dans le choix du logiciel.
Le monitoring multicanal intgr dans le logiciel est une option pratique et se prsente
sous forme dun menu part qui gre gnralement le niveau dcoute, les diffrentes
options de downmix et quelques fois, la structure de mixage par stems est prsente.
Complment
Web 6.1
DAW et multicanal.

Dunod Toute reproduction non autorise est un dlit.

6.1.5 Consoles
La plupart des consoles de mixage grent aujourdhui le multicanal, en5.1, et en7.1 pour
certaines, ce qui suppose lintgration dun pan-pot ddi permettant dacheminer le
signal vers un bus multicanal et dune section monitoring multicanal adapte, comme
vu prcdemment dans les stations audionumriques.
Un autre point important est la gestion de la stro pendant le mixage5.1: la Duality
chez SSL permet par exemple dalimenter un dpart stro issu du master bus5.1 par
downmix stro LoRo (voir dfinition section 6.9). Le mixeur peut donc mixer en5.1
et il dispose en parallle dun bus de downmix stro LoRo paramtrable.
Une autre particularit de limplmentation du multicanal dans les consoles, est la
possibilit de grer une piste au format5.1 ou7.1, contrle par un seul fader, ce qui
simplifie le mixage surtout lorsque la session comporte beaucoup de pistes audio. Il est
alors gnralement possible de dgrouper les 6 canaux LCRLsRsLfe de la piste (mode
Spill chez SSL C300, mode Reveal chez Lawo) et daccder individuellement
leurs faders. La particularit du mixage multicanal cinma tant de travailler par

258

Chapitre 6 La

postproduction

stems5.1, limplmentation de cette structure par stems dans la console simplifie alors
considrablement le travail. La console System 5 Fusion par exemple offre une grande
souplesse dans la gestion des stems, la surface de contrle Nuage via Nuendo aussi.

6.2

La mesure
Loutil de mesure est bien abouti lorsquil met en vidence une reprsentation graphique
en cohrence avec la perception de limage sonore. En stro, le niveau lectrique du
signal est analys par le crtemtre qui mesure les quasi-crtes (DIN 45406 QPPM
10ms dintgration) ou les crtes instantanes (PPM fast), ou par le vumtre, plus
en rapport avec le niveau peru par loreille (300ms dintgration). Le corrlateur de
phase donne linformation de corrlation des deux canaux. Nous dvelopperons dans
le chapitre8 la nouvelle norme de mesure du loudness.
La mesure en multicanal intgre les six canaux du bus de mixage5.1 et souvent la version
stro (LtRt ou LoRo) pour le broadcast, soit les huit canaux dun programme5.1+2,
tel quon le nomme dans le broadcast. Se pose alors la question de reprsentation
graphique du niveau des six canaux. Loutil de base comporte en gnral six indicateurs
de niveau (crtes, VU), mais une reprsentation spatiale suivant la disposition des
enceintes, avec le niveau de chaque bus est complmentaire. Gnralement, chacun
des segments des canaux principaux sont relis entre eux pour former une forme de
patatode. Cette forme donne une ide assez prcise de la rpartition nergtique des
canaux, et contient, par un code couleur, linformation de phase. Lutilisateur sait par
la lecture de la forme sil remplit les canaux de faon homogne ou non, et peut vrifier
la construction du centre de limage sonore par exemple.

Figure6.5Reprsentation Surroundscope dans Pro


Tools, Avid.

Figure6.6Mesure dans Pyramix, Merging


Technologies.

6.2 La

259

mesure

La phase est reprsente en gnral par un corrlateur que lon rgle en indiquant
les deux canaux du multicanal mesurs. Cest le mode de mesure propos par
Surroundscope dans Pro Tools. Master Pinguin Surround Meter indique toutes les
informations de phase entre les canaux, elles sont au nombre de 10, tandis que Dk
audio code linformation dans la reprsentation graphique Jellyfish en rouge, pour
indiquer lopposition de phase.

Dunod Toute reproduction non autorise est un dlit.

Figure6.7Mesure Dk Audio, Jellyfish, Dk Audio.

Comme voqu dans le chapitre3, il existe deux types de centres en multicanal, le


centre fantme issu des canaux L et R, et le hard center reprsent par le bus C qui
alimente lenceinte centrale. Ces deux types de centres se combinent toujours, do la
ncessit pour les outils de mesure
avancs, dafficher les niveaux des deux
sortes. La mesure RTW suit ce principe,
nous obtenons donc, dans lespace
frontal, deux reprsentations, celle de
limage fantme LR, et celle de limage
frontale LCR.
Il est aussi intressant de faire figurer
le barycentre de limage fantme LR et
celui de limage frontale LCR (LC et CR).
Cela sappelle chez RTW le PSI (Phantom
Source Indicator), il est reprsent par la
croix blanche et indique le barycentre de
limage fantme, la localisation moyenne
de la source. Nous pouvons lire aussi
linformation de largeur du secteur

Figure6.8Mesure RTW, RTW.

260

Chapitre 6 La

postproduction

(largeur du sujet), elle est reprsente par ltendu de la base du segment. Sa couleur
associe, donne alors linformation de corrlation des canaux:
le vert indique une corrlation entre +0,25 et +1;
le jaune une corrlation entre -0,25 et +0,25;
le rouge, une valeur entre -1 et -0,25.
Le PSI se retrouve sur chacune des paires adjacentes du surround, L/Ls, Ls/Rs, R/Rs.
Lorsque nous considrons lensemble des canaux, nous retrouvons la patatode, chez
RTW plutt en forme de carr, cela sappelle le TVI (Total Volume Indicator). Il donne
ltendu spatiale des canaux L R Ls Rs et intgre le centre C part, pour une meilleure
lecture en relation avec les canaux L et R. La forme du carr varie suivant la corrlation
des canaux, les segments sont incurvs vers lintrieur si cest en opposition de phase,
droits entre -0,25 et +0,25 et orients vers lextrieur pour une corrlation entre +0,25
et +1. Il existe une information trs pertinente, le barycentre global de limage, appel
DMI, Dominance Vector, il est reprsent par la croix blanche centrale. Enfin, RTW a
gradu lchelle des 6 secteurs de la patatode, les positions rouges indiquent la valeur
du niveau dcoute de rfrence (85dBC SPL ou 79dBC SPL). Nous trouvons aussi un
corrlateur de phase pour les canaux arrire Ls/Rs.
Dautres outils, notamment Nebula Surround Scope (Pure Analyzer) dvelopp par
Flux, reprsente la corrlation des canaux adjacents, il traduit par les petites valeurs
(petites longueurs des arcs de cercles entre canaux adjacents) la sensation despace,
lenveloppement, ou bien la fermeture despace, soit limmersion, par les grandes valeurs.
Nous verrons par la suite quun outil de mesure intgre maintenant la mesure true peak
pour les crtes mais aussi le loudness conformment la norme EBU R128.
Mesure

du signal multicanal

- Reprsentation graphique spatiale des niveaux des canaux.


- 8 indicateurs de niveau crte, VU, true peak (program5.1+2).
- Mesure du loudness (gate R128, Dialog Level).
- Reprsentation de la phase par couleurs, par corrlateurs entre 2 canaux.
- Reprsentation des barycentres des images fantme.
- PSI (phantom source indicator RTW).
- Indication de la largeur des images fantme.
- Barycentre global DMI (dominance vector RTW).
- Indication du niveau dcoute de rfrence 85 dBC SPL ou 79 dBC SPL.
- Analyse de la dcorrlation des canaux de limage sonore pour la mesure
de lenveloppement.

6.3 Manager

6.3

multicanal

261

Manager multicanal
Lutilisation de pistes au format multicanal implique des outils de gestion despace
multicanal, on peut les appeler des manager multicanal. Ils permettent de grer
lquilibre en niveau des diffrents canaux, de modifier leurs phases et dajuster les
dlais. La rotation despace peut tre utile pour modifier la polarisation de limage,
on peut alors dcaler limage sur la gauche ou vers la droite ou bien renverser
compltement limage vers larrire. Certains outils analysent la dcorrlation de
limage sonore, il peut tre intressant de recorrler limage, on utilise pour cela la
divergence ou width/depth (largeur/profondeur), ne pas confondre avec la divergence
centrale. La divergence agit sur les diffrents secteurs de limage (frontal, arrire,
latral), elle rinjecte par diffrences dintensit une partie des canaux frontaux par
exemple, vers les canaux arrire de telle sorte que lon recorrle les diffrents bus du
mixage. On pourrait imaginer devoir recorrler un espace issu dune prise de son
multicanal un peu trop large, comme un systme DORTF, ou bien vouloir rinjecter
une partie des canaux arrire vers lavant pour amliorer la compatibilit Dolby
Surround du mixage.
Le changement de routing des diffrents canaux peut tre pratique dans certains cas
o lordre des canaux dune rverbration ou dun effet nest pas conforme celui de la
session de mixage.
Le manager est aussi un outil de monitoring, comportant les fonctions solo, mute,
ce qui permet disoler dans notre session de mixage un bus issu dune piste ou dun
master 5.1. Certains outils manager sont capables de faire du bass management,
lutilisateur peut alors rgler la frquence du bass management et les pentes des filtres.
Dans ce cas, loutil permet dajuster le niveau dcoute, avec des valeurs mmorises,
et de gnrer du bruit rose afin de calibrer lcoute.

Dunod Toute reproduction non autorise est un dlit.

Enfin, loutil peut permettre de downmixer vers des formats infrieurs stro et
mono, avec ajustement des coefficients de downmix.
Dans Pro Tools, il nexiste pas aujourdhui de manager par dfaut, nous pouvons utiliser
le plug-in multi-mono trim pour grer les niveaux des diffrents canaux, autrement il faut
installer des plug-ins comme le manager prsent dans le bundle Waves Surround Tools. Ce
Manager M360 est compatible avec diffrentes configurations pour lcoute multicanal5.1
(possibilit dajuster les angles entre les enceintes), il offre les fonctions suivantes:
solo, mute, opposition de phase, niveaux des canaux;
bass management (send to Sub, ou get Lfe appel aussi distribute ou
extract);
ajustement rapide des niveaux du centre et des canaux arrire par pas de 3dB;

262

Chapitre 6 La

postproduction

adaptation du niveau du canal Lfe (0dB, -10dB, +10dB) suivant la norme utilise;
rotation de limage sonore, diffrents modes de calcul (pair-wise, triple-wise);
divergence vers les autres canaux (width), diffrents modes de calcul (balanced,
front-stage, F/R stage, focus, mono diverge).

Figure6.9Le manager Waves M360, Waves.

Pyramix propose le global channel routing, cest une sorte de grille de routing
basique mais trs pratique. Il gre le niveau des diffrents canaux et permet aussi de
changer le routing interne des canaux de la piste de mixage multicanal.
Le Toolbox est lalgorithme de management multicanal chez TC Electronic, prsent
dans la M6000. Cet outil est un manager complet, il propose toutes les fonctions cites
auparavant. On y retrouve donc les fonctions de gestion du monitoring, avec trois
niveaux dcoute programmables, les solo, les mute, lopposition de phase, le downmix
stro avec limiteur, la calibration dcoute, et le bass management.
La console Studer Vista9 gre des pistes au format multicanal et offre les fonctions de
Manager suivantes:

6.3 Manager

263

multicanal

Center level: gestion du niveau du canal C;


Center: gestion de la divergence centrale en%;
Front LR, Rear LR: rpartition gauche droite pour le frontal et larrire;
F-R: rpartition frontal arrire;
Front width, Rear width: ajustement de la largeur frontale et arrire en%, de 0%
(mono) 200% (super stro);
F-R depth: ajustement de la profondeur frontale arrire en%, de 0% (pas de
profondeur) 200% (super profondeur);
Pan arround: rotation de limage multicanal en degrs, 180;
Lfe level: gestion du niveau du canal Lfe.

Dunod Toute reproduction non autorise est un dlit.

Figure6.10Manager Studer Vista9, Studer.

La possibilit de reprsenter sous forme de six faders les diffrents canaux dune piste
multicanal5.1 (mode spill chez Euphonix ou reveal chez Lawo par exemple)
facilite la gestion des niveaux.
Lhyperpan de Lawo permet de changer la rpartition des diffrents canaux de la
piste multicanal graphiquement, afin de resserrer un canal relativement aux autres,
comme reprsent sur le schma ci-dessous. On peut grer une piste multicanal
comme un objet, et dplacer lobjet vers le frontal par exemple. Nuendo6 reprend
aussi ce type de gestion objet avec le Surround Panner V5 qui fait office de manager
de piste multicanal.

264

Chapitre 6 La

postproduction

Figure6.11Hyperpan Lawo, Lawo.

Manager Multicanal
- Gestion des niveaux des canaux, dlais, filtrage, opposition de phase,
reprsentation des canaux dune piste5.1 ou7.1 sous forme de faders.
- Monitoring: solo, mute des canaux.
- Rotation de limage sonore multicanal.
- Divergence centrale.
- Recorrlation des canaux.
- Divergence vers les autres canaux ajustement des largeurs de chacun des
secteurs (largeurs frontale et arrire, profondeur).
- Changement de routing des canaux.
- Bass management.
- Downmix avec limiteur ou non.

6.4

Gestion du Lfe, bass management


Le Lfe, low frequency effect, comme son nom lindique dfinit le canal deffet basse
frquence, sa bande de frquence stend gnralement de 20Hz 120Hz. Cest un
canal issu du mixage cinma qui a trouv par la suite son intrt dans les autres
applications TVHD, musique, radio. Cest un canal associ au subwoofer, qui interagit
sur le corps de lauditeur par les vibrations quil gnre. Rappelons que son niveau est
augment de +10dB, dans la chane de monitoring des installations limage (cinma,
TVHD, DVD, Blu-ray). Il sajoute, dans la partie monitoring, la sommation basse
frquence des canaux principaux, lorsque lcoute est bass manage. Le filtrage du
bass management est alors indpendant du filtrage du canal Lfe. Le canal Lfe se filtre
en gnral 120Hz dans ltape de mixage. Il peut tre aussi filtr par un contrleur
de monitoring, par un encodeur, par le simulateur de metadata Dolby DP570 ou bien
par un processeur dcoute.

6.4 Gestion

du Lfe, bass management

265

Pour le film, le Lfe est un canal part, que lon va solliciter pour renforcer les squences
daction, la partie design sonore, les effets, il donne plus dimpact aux sons. On lutilise
pour la gestion des frquences infrabasses, mais les graves du mixage ne doivent jamais
reposer sur ce canal. Autrement dit, le mixage doit garder son spectre quilibr lorsque
le Lfe est coup. Lutilisation du canal Lfe en musique par exemple est beaucoup plus
continue que dans le film. On lassocie en gnral des instruments graves si bien qu
chaque intervention, le Lfe est sollicit.
Le bass management est le procd de redistribution du grave des canaux principaux vers le SUB, on le trouve dans la partie monitoring5.1. On parle aussi de bass
management lorsquil est question de grer le grave dun mixage5.1. On peut alors
redistribuer de la mme faon le grave des canaux principaux du mixage vers le
canal Lfe, afin de renforcer ce canal. Une application peut tre loptimisation du
mixage afin de le rendre compatible avec lcoute bass management (en dernier
recours). Ce peut tre aussi le moyen de gnrer un canal Lfe partir dun mixage
5.0. Ce mode de bass management est appel Mode Extract. Lautre mode, appel
Mode Distribute, permet de redistribuer le canal Lfe vers les canaux principaux,
on dplace en quelque sorte le grave du Lfe vers les canaux principaux. On peut ainsi
passer dun format5.1 un format 5.0. On retrouve ces deux modes dans le Toolbox
de la M6000.

Bass

management

Mode extract.
- Passage dun5.1 vers un5.1: le grave des canaux principaux est extrait
et renvoy vers le canal Lfe.
- Passage dun 5.0 vers un5.1: fabrication dun canal Lfe.
Mode distribute.
- Passage dun5.1 vers un5.1: le canal Lfe est redistribu vers les canaux
principaux du mixage.

Dunod Toute reproduction non autorise est un dlit.

- Passage dun5.1 vers un 5.0: le canal Lfe est supprim et redistribu vers
les canaux principaux.

Canal Lfe,

quel filtrage?

- Bande passante du canal Lfe, gnralement: 20Hz 120Hz.


- Suivant les formats dencodage et les applications voici ce qui est prconis
pour le filtrage du Lfe:

266

Chapitre 6 La

postproduction

Dolby
- Dolby Digital: 120Hz.
- Dolby Surround EX 6.1: 120Hz.
- Dolby True HD7.1: pleine bande.
DTS
- DTS Cinma APT- X1005.1, DTS ES Matrix 6.1.
- L, C, R: 20Hz 20kHz.
- Ls, Rs: 80Hz 20kHz, le contenu 20Hz 80Hz est envoy vers le Lfe
lencodage.
- Subwoofer: 20Hz 80Hz, canal Lfe filtr 80Hz et contenu Ls +Rs
infrieur 80Hz dirig vers le Lfe.
- DTS vido Coherent Acoustic.
- DTS Digital Surround: 120Hz.
- DTS ES6.1: 120Hz.
- DTS HD, DTS Master: pleine bande, filtre passe bas 100Hz 60dB/oct au
dcodage.
- MLP (DVD audio): pleine bande.
- DSD/DXD (SACD): pleine bande.
- AAC (MPEG2/MPEG4): variable jusqu 1kHz.
- MPEG2 BC: variable.
- SDDS: variable jusqu 330Hz.

On utilise souvent le filtre Waves Lfe 360 qui peut sinsrer sur une piste5.1, il nagit
que sur le canal Lfe, avec une pente 60dB par octave.
Lfe

et bass management: un compromis

Gnralement, dans le cas o une mme source alimente le canal Lfe et


les canaux principaux, pour bien matriser le niveau de grave provenant
du canal Lfe et celui issu du bass management, il est pratique dans Pro
Tools de dupliquer la piste. Lune alimente les canaux principaux et gnre
le grave par bass management, lautre est route directement vers le
canal Lfe. Ainsi, le travail des deux types de grave est indpendant et on
peut aisment grer le filtre passe haut sur la piste alimentant les canaux
principaux et le niveau envoy vers le canal Lfe

6.5 Pan-Pot,

6.5

gestion du centre et des canaux arrire

267

Pan-Pot, gestion du centre et des canaux arrire

6.5.1 Les lois de pan


Pan-pot damplitude stro
La loi de pan damplitude strophonique est dfinie par une courbe prsentant une
attnuation de -3dB sur les deux canaux gauche et droite, pour un signal positionn
au pan-pot au centre de limage strophonique. La source, pan-pote dune voie
lautre, garde alors un niveau constant. Il existe des lois de pan-pot -4,5dB et
-6dB, qui amliorent la compatibilit mono, mais ces lois font apparatre une perte
de niveau pour un signal plac au centre de limage. Ces lois travaillent en diffrence
damplitude.

Dunod Toute reproduction non autorise est un dlit.

Figure6.12Loi de pan strophonique -3dB, B.Priaux daprs F. Rumsey.

Amplitude, VBAP
La rpartition dun signal sur un nombre de haut-parleurs suprieur deux prsente
quelques difficults psychoacoustiques dont la distribution nergtique du signal, la
prcision de localisation des sources fantmes, lcoute en dehors de laxe central et les
dtimbrages possibles. Michael Gerzon, connu pour son travail de recherche sur le son
ambisonique, dfinit une loi de pan de qualitpar la bonne continuit de localisation
entre les enceintes, sans trou ni focalisation vers une direction particulire.
Il existe diffrents procds de pan-pot multicanal, le premier est une extension
de la loi de pan-pot damplitude dfinie pour un format stro, cest loutil que la
plupart des mixeurs utilisent dans les consoles et les DAW. On la dfinit par la loi de
pan damplitude par paires denceintes (pairwise amplitude panning). Cette loi
damplitude -3dB sapplique chaque paire denceintes adjacentes, de telle sorte que
la puissance est constante lorsque la source est pan-pote dun canal lautre. La

268

Chapitre 6 La

postproduction

perception de niveau reste alors la mme. Cette premire solution est assez efficace et
son implmentation reste simple.

Figure6.13Loi de pan damplitude par paires 3canaux, B.Priaux daprs F.Rumsey.

Le concept de pan-pot damplitude a t tendu un ensemble de plusieurs hautparleurs adjacents distribus sur un cercle ou une sphre au centre desquels se trouve
lauditeur, il sagit du VBAP (Vector Base Amplitude Panning). La technologie VBAP
ncessite de connatre par avance la position des haut-parleurs, et utilise les trois
enceintes les plus proches de la position voulue de la source. Cette approche, dveloppe
par Pulkki en 1997, utilise la composante directionnelle des vecteurs de chacune des 2
ou 3 enceintes les plus proches de la source sonore.
Un autre procd, le DBAP (Distance-Based Amplitude Panning) dfinit un pan-pot
damplitude sur un ensemble de haut-parleurs dont la position na pas besoin dtre
connue. Les facteurs de gains pour chaque haut-parleur sont tablis sur un modle
dattnuation de distance entre la position de la source sonore et chacune des enceintes.

Pan-pot ambisonique
On trouve aussi des lois de pan reposant sur la thorie ambisonique diffrents ordres,
elles offrent une bonne stabilit dimage sonore, un placement des enceintes libre mais
elles peuvent gnrer des oppositions de phase pour certaines positions de pan et la
sparation des canaux semble assez pauvre. Le Spatialisateur de lIrcam est un outil qui
permet de spatialiser au format ambisonique ordres 1 et 2, en 2D et en 3D. La suite B2X
plug-ins (dveloppe par Daniel Courville) permet de spatialiser des sources jusqu
lordre 5, le panner encode une source mono en un format B.
Pan-pot avanc (amplitude, temps, filtrage)
Enfin, il existe des lois de pan qui intgrent des fonctions HRTF de ttes artificielles
ou qui simulent des systmes de prise de son multicanal comportant des diffrences
dintensit et de temps. Certains algorithmes simulent des fonctions HRTF qui
annulent les chemins croiss issus de la diaphonie acoustique. Ainsi, pour un auditeur

6.5 Pan-Pot,

gestion du centre et des canaux arrire

269

plac prcisment au sweet spot, une source positionne sur lenceinte gauche pourrait
tre perue uniquement par loreille gauche, sa perception par loreille droite serait
nettement amoindrie. Le Virtual Surround Panner que lon trouve dans la console
Studer Vista 9 repose sur ce type de fonctionnement. Le VSP intgre diffrents
modles de microphones, la sphre, le modle ORTF, le modle omni AB, utilisant des
diffrences dintensit, de temps, et de frquence.

6.5.2 Le type de pan-pot


Aujourdhui, toutes les consoles et les stations audionumriques sont quipes dun
systme de routing multicanal5.1 voire7.1, accompagn dun pan-pot. Le pan-pot
multicanal gre la position de la source par un point que lon place dans lespace
multicanal, lui-mme reprsent par une disposition denceintes sur un cercle ou un
carr. Il existe diffrentes faons de dplacer le point dfinissant trois types de panpot: le pan-pot amplitude par coordonnes, le pan-pot amplitude pilot par joystick ou
fentre tactile, et le pan-pot volu utilisant des modles psychoacoustiques avec des
diffrences dintensit, de temps et du filtrage.

Dunod Toute reproduction non autorise est un dlit.

Pan-pot amplitude par coordonnes


Lutilisateur dplace la source par une commande de coordonnes spatiales.

Figure6.14 Pan-pot type SSL Duality, SSL

Ce premier type de pan-pot est celui que lon rencontre sur la plupart des consoles et des
logiciels. Il offre trois potentiomtres avec ou sans reprsentation graphique du point de
localisation: un circulaire PAN L/R, pour grer la rpartition gauche/droite des sources,
un circulaire LR/LCR appel aussi Divergence Centrale ou Focus (dfinie par la suite)
et un circulaire PAN F/R (front/rear) pour ajuster la disposition de la source en profondeur, entre le frontal et larrire. On trouve aussi un autre potentiomtre circulaire ddi
au niveau de dpart du canal Lfe. Ces quatre potentiomtres principaux, que lon rencontre par exemple sur la console SSL Duality, constituent la base du fonctionnement.

270

Chapitre 6 La

Figure6.15 Pan-pot Pro Tools, Avid

Figure6.16 Pan-pot type Euphonix Fusion S5, Euphonix

postproduction

6.5 Pan-Pot,

gestion du centre et des canaux arrire

271

On trouve ensuite des potentiomtres complmentaires, comme le Pan Front et


le Pan Rear (exemple Pro Tools, Euphonix Fusion S5), ces derniers ajustent
indpendamment la rpartition gauche/droite dans la zone frontale et dans la zone
arrire. Le pan-pot par coordonnes permet de travailler avec des outils traditionnels
et compatibles stro tels que la rpartition gauche/droite. Compos de trois ou quatre
potentiomtres, il simplmente facilement sur les tranches de consoles. Le travail du
mouvement des sources est simple: par exemple, le dplacement sur une diagonale
avant gauche/arrire droite peut tre ralis avec les potentiomtres Pan Front,
Pan Rear et Pan Front/Rear. Dans ce cas, les Pan Front et Pan Rear dfinissent la diagonale du mouvement et lutilisateur gre le mouvement avec la rpartition frontal/arrire. Gnralement, des ajustements de divergence (divergence vers les
autres canaux) permettent aussi de diverger la source vers les autres canaux adjacents
afin de dlimiter les espaces.
Certains pan-pot proposent la fonction rotation (Rotate chez Euphonix, Panaround chez Studer, Turn chez Lawo), celle-ci permet de faire tourner une source
dans lespace ou bien de faire subir une rotation complte limage sonore quand la
piste est au format multicanal, dans ce cas les cinq points tournent ensemble. Certains
pan-pot, comme celui de la console System 5 Fusion Euphonix, permettent de grer
indpendamment le niveau du canal Lfe et celui des canaux principaux, pour une
piste5.1 (Boom level et Non-boom level). On peut ainsi envoyer tout type de
format de piste directement vers le canal Lfe.

Dunod Toute reproduction non autorise est un dlit.

Les consoles Studer et Lawo proposent les paramtres Front width, Back width
et Depth, lesquels permettent de rgler les largeurs frontales, arrire et la profondeur frontal/arrire. Ceci revient grer la divergence vers les autres canaux.

Figure6.17 Pan-pot type Studer Vista 9 Multi-format Pan, Studer

272

Chapitre 6 La

postproduction

Chez Studer, la divergence centrale est gre par le paramtre Center, la divergence
vers les autres canaux sappelle Diverge.


Figure6.18 Pan-pot type Lawo, Lawo

Figure6.19 Pan-pot Surround Panner V5,


Steinberg

Le Surround Panner V5 de Nuendo est la fois un pan-pot et un manager trs abouti.


On retrouve la divergence centrale avec le paramtre center et la divergence vers
les autres canaux (frontale, arrire et frontal/arrire) reprsente par le terme divergence. Le groupe scale permet de recorrler lespace pour un format multicanal5.1, dans la largeur avec le paramtre width et dans la profondeur avec depth
(les cinq sources se dploient plus ou moins dans lespace). Les sources sont regroupes
dans un objet que lon dplace laide dune poigne de positionnement dont on peut
rgler le rayon par rapport au centre du carr, fonction radius. La fonction rotate
signal permet de faire tourner les cinq sources autour de la poigne de positionnement. On peut restreindre les mouvements sur les diagonales, le latral ou dans la
profondeur, on peut couper les enceintes une par une, faire tourner lobjet constitu des
cinq sources autour du point central grce la fonction orbit center. Il existe aussi
une fonction contrechamp (counter shot) apprciable donnant la position inverse
de lobjet 180.

6.5 Pan-Pot,

273

gestion du centre et des canaux arrire

Pan-pot amplitude pilot par joystick ou fentre tactile


Lutilisateur dplace la source grce un joystick ou de faon digitale, sur une fentre
tactile.


Figure6.20 Pan et Ultipan SSL C300, SSL

Figure6.21 Pan-pot digital type Avid D-Control,


B.Priaux

Dunod Toute reproduction non autorise est un dlit.

Ce deuxime type de pan-pot utilise le joystick qui permet de diriger le point de


localisation comme dans un jeu vido. Ceci permet un positionnement beaucoup plus
naturel et plus ractif par rapport notre perception. Le joystick, comme on le trouve
sur les consoles Yamaha DM2000 ou surfaces de contrle D-Control, saccompagne
de rglages qui permettent davoir tout moment le contrle du point (Grab) ou
bien dattraper le point lorsquon passe par-dessus. Le pan-pot de la console Euphonix
System 5 Fusion permet de contrler la dcorrlation de lespace, par un resserrement
spatial, cest une fonction assez rare et trs utile. La SSL C300 HD offre un joystick
mais aussi un mode alternatif appel Ultipan, lequel permet de faire tourner une
source monophonique et de rgler sa largeur sur le cercle. Le pan-pot des consoles
Lawo permet de bloquer les coordonnes X ou Y du point, ce sont les fonctions Iso
Pan X et Iso Pan Y, elles facilitent le positionnement de la source en gardant par
exemple les coordonnes X (gauche-droite) constantes.

Pan-pot utilisant des modles psychoacoustiques


Le modle pan-pot psychoacoustique intgre lacoustique du lieu dans lequel
on souhaite placer la source, il peut comporter aussi des fonctions de filtrage
pour simuler le modle de perception de la tte. Dans ce cas, lutilisateur gre le
dplacement de la source par un pan-pot volu dans une console, dans un plug-in
spcifique ou bien dans une application autonome. Les modles psychoacoustiques
intgrent souvent la simulation acoustique avec les premires rflexions et le champ
diffus.
LImager de Waves (360 Surround Tools) gre par exemple la disposition circulaire
de la source dtermine par un angle, et sa distance simule par les premires

274

Chapitre 6 La

postproduction

rflexions. Une fois la position circulaire de la source valide, il est possible dagir sur la
divergence vers les autres canaux afin dlargir la source localement sur le cercle. Loutil
est complt par le champ diffus de
la rverbration R360.
Le Virtual Surround Panner de
la console Studer Vista 9 utilise
diffrents modes de pan-pot avec
lintgration de fonctions HRTF. On
trouve les modes suivants:
HRTF : utilisation de courbes
HRTF annulant les chemins
croiss issus de la diaphonie
acoustique;
Sphere : ce mode simule un
microphone sphrique impliquant une diffrence damplitude, de temps et de frquence
Figure6.22 Surround tools Imager Waves,
(simulation de lattnuation des
Waves
frquences aigus par ombrage),
cest un modle de restitution spatial binaural;
User (MST Microphone Simulation Tool): ce mode permet de designer son
propre modle microphonique.
source sonore
(positionnement
par pan et contrle
de distance)

simulation du placement
des microphones


Figure6.23VSP Virtual Surround Panner Studer,
Studer.

acoustique de pice virtuelle


Figure6.24VSP Virtual Surround Panner Studer,
MST, Studer.

6.5 Pan-Pot,

gestion du centre et des canaux arrire

275

LIrcam, associ Flux, a dvelopp sous forme de plug-in une version du Spatialisateur.
Cet outil repose sur un modle perceptif avanc, il permet de spatialiser des sources en
prenant en compte un grand nombre de paramtres acoustiques, comme la variation
du niveau sonore avec la distance, labsorption des frquences aigus qui crot avec la
distance, la directivit de la source, sa prsence, son orientation par rapport lauditeur
(rotation de la source autour de son axe), leffet Doppler, le positionnement des enceintes
de restitution, la prsence de la salle, son enveloppement etc.

Figure6.25Le Spatialisateur de lIrcam, Ircam/Flux.

Dunod Toute reproduction non autorise est un dlit.

Il comporte une section de spatialisation intgrant le son direct et le champ des


premires rflexions ainsi quun module de rverbration par synthse. Il peut
spatialiser jusqu 8 sources mono, les formats de sorties possibles tant la stro, le5.1,
le7.1, le 8.0, et le format binaural avec simulation de fonctions HRTF.
La premire application de ce type de logiciel est de spatialiser des sources pour une
restitution multicanal sur enceintes compatible jusquau format 8.0. Les lois de pan
utilises sont nombreuses: par dfaut la loi de pan damplitude par paires denceintes,
le VBAP 2D et 3D, le DBAP, le format B 2D et 3D, lambisonique ordre 2 2D et 3D, la
stro XY, le MS, et le modle AB.
Lautre application est de synthtiser une version spatialise pour le casque (traitement
binaural) ou un format transaural (spatialisation partir dune coute stro).
LIrcam en collaboration avec le CNSMDP travaille sur une volution du Spatialisateur
afin damliorer le rendu sonore en5.1 (localisations latrales et arrire) grce des
procds transauraux et binauraux. Le downmix stro est fait au format transaural,
il prserve ainsi une partie de linformation despace larrire. Lcoute de ce format
transaural ncessite alors un placement de lauditeur au sweet spot. Cette volution
est intgre dans un module pour le Spat dans Max MSP et dveloppe sous forme
dapplication autonome appele Transpan.

276

Chapitre 6 La

postproduction

Figure6.26Application Transpan, Ircam/CNSMDP.

Longcat Technologies, socit franaise spcialise dans les technologies audio 3D,
dveloppe notamment un logiciel de synthse AudioStage, dont les applications sont
innovantes. Cest une application de modlisation numrique pour lcriture 3D de
scnes sonores animes. Lauditeur se dplace dans la modlisation de lenvironnement,
son point de vue change.

6.5.3 Gestion du centre, divergence centrale


On trouve la fonction divergence centrale, exprime en pourcentage, dans la plupart
des pan-pot, celle-ci permet dquilibrer entre centre fantme et centre physique le type
de centre dans lespace frontal. Avec une valeur de divergence de 100%, une source
centre est envoye dans lenceinte centrale seule, elle est donc perue comme relle,
cest un centre physique. linverse, une valeur de divergence de 0% donne un centre
fantme issu des enceintes gauche et droite. Lorsquil positionne des sources de part
et dautre du centre, lutilisateur peut ajuster la valeur de divergence centrale, il agit
alors sur la combinaison entre les deux types de centres. Pour les positionnements des
sources sur les enceintes L et R, cela na pas dinfluence car aucun centre nest gnr.
On utilise souvent le centre physique pour les dialogues des films, ainsi la voix provient
de lcran, donc des comdiens et reste intelligible quel que soit le placement des
spectateurs dans la salle. Toutefois, il est courant de diverger quelque peu les voix pour
les programmes qui sy prtent, comme le sport ou les films danimation. Dans le film
Ratatouille version Blu-ray, la voix off est spatialise sur les trois canaux frontaux,
tandis que les voix In sont au centre ou quelque peu diverges gauche droite.
Le DVD musical utilise plutt le centre physique, tandis que les programmes musicaux
sans image ou les programmes radio sollicitent le centre fantme. Une valeur de
divergence de 30 40% par exemple, nous permet dlargir la source en intgrant la

6.5 Pan-Pot,

gestion du centre et des canaux arrire

277

voie centrale. Apparaissent alors les problmes de diaphonie acoustique, perus sous
forme de filtrage en peigne. Il est possible de les rduire en retardant les canaux L et R,
mthode propose par Bernard Lagnel, chef oprateur son Radio France. Ce dernier
retarde les canaux L et R denviron 0,7ms lorsquil souhaite gnrer un centre partir
dune captation 4 canaux L R Ls Rs. Il apparat logique par consquent dadjoindre cet
outil divergence centrale le dlai des trois enceintes, afin de dcorrler la source mono
sur les trois canaux LCR.
Ds lors quon utilise un triplet LCR pour la captation de spectacles (opras, orchestres,
thtre, comdies musicales), le routing du canal central se fait sans divergence, en
revanche, les microphones de proximit ou appoints peuvent utiliser la divergence
centrale. Par exemple, un microphone appoint sur une contrebasse dispose au centre
de lorchestre sintgrera plus facilement dans lensemble avec de la divergence centrale.
Dirig vers le centre physique, linstrument sera peru de faon trop ponctuelle. Pour
le mixage dimages sonores virtuelles (fictions radio, musiques acousmatiques et
actuelles), on considre souvent le centre comme une direction sans rel lien avec les
autres, il apporte simplement une diversification des provenances.
Dans le contexte du film, la musique est mixe en amont au format5.1, elle est livre
au mixeur sous forme de stems. On doit considrer le fait quau mixage final, le centre
dun stem musique peut tre considrablement baiss ou mme coup, afin damliorer
lintelligibilit des dialogues. Do la ncessit de ne pas placer de source seulement
dans le centre et de la diverger.
Le

centre en multicanal

- Dialogues film: la plupart du temps en centre physique.


- Dialogues film danimation, sport TVHD: parfois divergs.
- Musique: utilisation du centre fantme plus important que le centre
physique pour exploiter la largeur de limage.

Dunod Toute reproduction non autorise est un dlit.

- La voie centrale peut tre considre comme une voie indpendante sans
rel lien avec les autres canaux (images virtuelles).

6.5.4 Divergence vers les autres canaux, Width ou Depth


La divergence vers les autres canaux est prsente dans la plupart des pan-pots,
reprsente par le paramtre Divergence ou Width et Depth (largeur et
profondeur). Elle permet de dlimiter la spatialisation des sources dans une partie de
lespace multicanal. On peut resserrer lespace frontal de telle sorte que les sources ne
soient pas trop espaces (voir Figure6.27). Le placement dune piste dialogue lgrement
diverge, par exemple, peut utiliser ce type dajustement, dans ce cas on sollicite les
canaux L et R, cela revient utiliser la divergence centrale. Autre application, on peut
aussi resserrer un ensemble de sources dj positionnes dans lespace, sans retoucher

278

Chapitre 6 La

postproduction

leurs placements relatifs, simplement avec cette divergence. Il suffit alors de trouver le
bon paramtrage de divergence et de copier la valeur sur toutes les pistes concernes.

Figure6.27Resserrement de lespace frontal par Divergence dans Pro tools, Avid.

Par continuit sur tous les canaux du multicanal, lorsquon pan-pote les sources
en utilisant la divergence, on recorrle limage sonore, limpression spatiale est alors
diminue. Si lon diverge au maximum la source, elle alimente alors les canaux du
multicanal avec le mme signal.

Dunod Toute reproduction non autorise est un dlit.

6.5 Pan-Pot,

gestion du centre et des canaux arrire

279

Figure6.28Resserrement de lespace complet par Divergence dans Protools, Avid.

6.5.5 Gestion des canaux arrire


Les canaux arrire sont utiliss principalement pour apporter leffet dimpression
spatiale limage sonore et sont indissociables de ce fait des canaux frontaux: il est
souvent efficace de construire lenveloppement du mixage avec des stems au format
quad ou5.1, des ambiances, des FX, des musiques. Cet enveloppement repose alors
soit sur une acoustique ou une ambiance, soit sur du son direct (non rverbr) pour
les contenus qui le permettent. Les canaux arrire sont aussi souvent utiliss pour le
mouvement des sources constituant les FX.

280

6.6

Chapitre 6 La

postproduction

Rverbration
La rverbration en multicanal permet de localiser une source dans lespace par le
champ des premires rflexions quelle synthtise. Le champ diffus cr est constant
dans toute la salle, donc rparti de la mme faon, avec dcorrlation, sur les diffrents
canaux L, C, R, Ls, Rs du multicanal.
La rverbration en mixage multicanal peut se grer de deux faons diffrentes. La
premire consiste travailler avec plusieurs rverbrations stro que lon spatialise
dans limage multicanal : on place gnralement une rverbration dans lespace
frontal et une seconde dans lespace arrire. Cette mthode permet de bien matriser le
dosage de la rverbration du mixage et particulirement son placement, elle est tout
fait applique au travail dune image virtuelle ou une image o la scne est dynamique
(les sources, les personnages bougent et les lieux changent).
Les images relles, en revanche, utilisent plutt une seule rverbration multicanal au
format 5.0, afin dobtenir une meilleure homognit. On peut alimenter la rverbration
par un format 5.0 ou5.1 (le Lfe nest pas rverbr, lutilisation dun chemin5.1 simplifie
le routing), ce qui consiste grer la spatialisation avant la rverbration: un dpart
auxiliaire5.1 permet alors de spatialiser la source grce un pan-pot5.1. Il est courant
de relier le pan denvoi de rverbration et celui de la piste principale, cette fonction
sappelle Follow main pan dans Pro Tools et permet de dplacer la source directe
dans lespace et grer en parallle son placement dans la rverbration.
On peut aussi alimenter lunit de rverbration en stro, ce qui suffit dans certains cas.
La latralisation gauche-droite se fait alors en stro dans le dpart aux, et le placement
frontal/arrire ainsi que lajustement gauche/droite se paramtrent sous forme de
sources placer dans la rverbration (voir M6000, algorithme VSS5.1 source).
On peut ensuite combiner les deux mthodes, rverbration multicanal et plusieurs
rverbrations stro disposes lavant et larrire.
Le paramtrage dune rverbration multicanal se fait selon les critres habituels
utiliss en stro: un temps de rverbration TR global qui peut sajuster par bandes de
frquences (Damping), une taille de salle relie un type de premires rflexions, le
paramtrage de la densit des rflexions, un filtre en sortie et ventuellement en entre, le
rglage dun pre delay, et des effets de modulation. Ensuite, il est possible de modifier par
coefficients multiplicateurs le TR de chaque canal, et rallonger au besoin la rverbration
dans certains secteurs de lespace: on obtient donc cinq valeurs de TR ajuster. On peut
filtrer les canaux frontaux et arrire indpendamment, par dfaut les ajustements sont
relis entre eux. Le Damping du TR peut aussi, dans certaines rverbrations, tre
paramtr de faon diffrente entre le frontal et larrire. On trouve parfois un paramtre
intressant, lquilibre frontal/arrire (chez Waves, Front/Rear), il permet de changer
rapidement la rpartition en niveaux frontal/arrire de la rverbration, autrement on le
gre avec le niveau des diffrents canaux (souvent LR, C, LsRs).
Le positionnement des sources dans lespace en interne dans la rverbration est
propos par certains algorithmes, cest le cas du Spatialisateur de lIrcam, ou de

6.6 Rverbration

281

lalgorithme VSS5.1 source de la TC M6000. Lutilisateur positionne les sources mono


dans la rverbration, il peut aussi agir sur les caractristiques des premires rflexions
de chacune des sources.
Paramtres dune

rverbration multicanal

- TR global, coefficients multiplicateurs par canal L, C, R, Ls, Rs.


- Damping: TR diffrent par bandes de frquences, frontal/arrire.
- Taille, type de premires rflexions.
- Filtrage en sortie des canaux frontaux et arrire.
- quilibre frontal/arrire en niveau.
- Positionnement des sources dans lespace pour certains algorithmes,
caractrisation des premires rflexions pour chaque source.

Dunod Toute reproduction non autorise est un dlit.

6.6.1 Rverbration convolution


Les rverbrations convolution utilisent la mesure de rponse impulsionnelle de
la salle et se paramtrent suivant le type de captation. Une impulsion est diffuse
dans la salle en mono ou en stro, et on utilise un systme de captation multicanal
gnralement au format quad, avec diffrentes directivits et diffrentes distances de
placement.

Figure6.29Altiverb 7, Audio Ease.

Les rglages possibles sur les rverbrations convolution taient au dpart plus
rduits que sur les rverbrations synthse, mais ils ont bien volu depuis. Le TR
est ajustable en gnral en pourcentages ou en rapport multiplicateur (le rapport
multiplie le TR dfini par la rponse impulsionnelle), on trouve la taille de la salle, la
rpartition en niveau des canaux (LR, arrire, centre, Lfe), le Damping, la position
des haut-parleurs dans la salle, le filtrage en sortie. Sur certains plug-ins, il existe un
paramtre (Decorr dans lIR360) qui permet de dcorrler les diffrents canaux

282

Chapitre 6 La

postproduction

afin daugmenter limpression despace. On peut aussi paramtrer dans certains cas
lenveloppe temporelle de la rverbration (Reverb envelope) et crer des cluster
chos (cest le cas de lIR360).
TC Electronic M6000
Algorithme VSS-6.1 Reverb: rverbration dun mixage

Le TC M6000 propose deux algorithmes de rverbration. Le premier, le VSS- 6.1 reverb,


permet de rverbrer un mixage ou un stem compatible jusquau 6.1. Cet algorithme ne
modifie pas la localisation de limage sonore, mais permet dajouter un champ rverbr
au mixage. On peut diter le TR global, ainsi que les coefficients multiplicateurs pour
chacun des canaux, le pre delay, la taille de la salle, le type de premires rflexions, le
filtrage des canaux frontaux et arrire, avec la possibilit de linker les deux espaces,
la modulation de la rverbration qui permet de gnrer des variations temporelles de
lenveloppe de la rverbration, simulant des effets ralistes de salles.

Figure6.30TCM6000VSS6.1 Reverb, B.Priaux daprs TCelectronic.

6.6 Rverbration

283

Algorithme VSS-5.1 Source: spatialisation de sources

Lautre algorithme, VSS-5.1 source, est plus adapt la rverbration de sources spares,
et propose en entre quatre sources S1, S2, S3 et S4 au format mono. Lutilisateur dcide
de la spatialisation de ces quatre sources dans la salle suivant des positions prdfinies
proposes par la rverbration. Cet algorithme prend en compte le champ des premires
rflexions, variable en fonction de la localisation de la source, le champ diffus tant
constant. Il est possible aussi de changer le point dcoute de lauditeur afin de se
rapprocher ou bien de sloigner des sources frontales. Les caractristiques de chacune
des sources peuvent tre paramtres de faon indpendante: les caractristiques
temporelles (dmarrage et extinction), le filtrage des premires rflexions, le niveau du
champ des premires rflexions et du champ diffus. Le TR peut tre rgl pour chacun
des canaux et il est possible dajuster la direction des premires rflexions dans lespace
frontal et dans lespace arrire, les valeurs sont donnes en degrs:
Espace frontal: 22, 30, 45, 90

Dunod Toute reproduction non autorise est un dlit.

Espace arrire: 90, 115

Figure6.31TCM6000VSS5.1Source, B.Priaux daprs TCelectronic.

284

Chapitre 6 La

postproduction

6.6.2 Lexicon 960L, Surround PCM96


Lexicon utilise globalement la mme approche, la 960L permet de rverbrer un
mixage 5.0. Lalgorithme dispose dun pan-pot en entre comme en sortie, lutilisateur
rglera gnralement le pan-pot dans la position standard du canal (L, R, C, Ls, Rs). On
retrouve le paramtre temps de rverbration MidTR de la rverbration Lexicon
480 avec le coefficient multiplicateur dans les basses frquences, les niveaux de sortie
par canal (C, LR, LsRs), le filtrage en sortie pour le frontal et larrire, le paramtrage
de lenveloppe temporelle propre Lexicon, avec le Shape et le Spread (pour les
programmes Chamber, lutilisateur peut ajuster indpendamment les deux paramtres
pour le frontal et larrire). La PCM 96 Surround reprend les mmes paramtres.

6.7

Traitement Dynamique

6.7.1 Compresseurs multicanal


La plupart des consoles qui grent le5.1 intgrent un module de traitement dynamique
des Bus Master5.1, comme les consoles stro de type SSL ou Neve, proposent un
compresseur des Bus Master Stro. La compression fonctionne alors partir dun
side chain. Sil existe un seul side chain, les diffrents canaux du multicanal
sont traits de la mme faon, sil existe plusieurs side chain, alors le traitement des
canaux peut tre diffrent. Lanalyse se fait gnralement sur la somme des canaux ou
bien sur le niveau maximal dun des canaux.
Le Master compresseur de la console SSL Duality fonctionne par exemple sur le mme
modle que la 4000, avec un side chain que lutilisateur va alimenter comme il
le souhaite par les canaux LCR, il peut intgrer
les canaux LsRs et/ou le canal Lfe. Ce nest pas
toujours souhaitable dassocier le Lfe, ce dernier
tant assez indpendant des autres canaux, mis
part le filtrage, on ne le traite gnralement pas.
La fentre danalyse est unique, alimente par les
diffrents canaux (mode somme ou signal maximal
dun canal) et le module de traitement5.1 est pilot
par cette fentre avec les paramtres usuels: le seuil
de compression, le rapport, le temps dattaque, le
temps de retour, le gain de rattrapage. Ce type de
compresseur est illustr par la figure6.32.
AMS-Neve a sorti rcemment un compresseur
analogique 5.1, le 8051 issu de sa console 88RS,
celui-ci travaille de la mme faon (lanalyse se fait
sur le niveau maximal dun des canaux) mais avec
deux side chain indpendants A et B. Ce type de
compresseur offre une plus grande matrise de la

Figure6.32Compresseur Master5.1
analogique type SSL Duality, SSL.

6.7 Traitement Dynamique

285

compression grce aux deux side chain, deux compressions indpendantes peuvent
tre ralises (voir figure6.33). Il est aussi possible de filtrer le side chain par canal
(filtre coupe-bas, sidechain filter) afin de rendre la compression slective en fonction
de la frquence.

Figure6.33Compresseur Master5.1 analogique type Neve8051 comportant deux side chain,


Neve.

Pour obtenir une plus grande matrise dans la compression dun programme5.1 avec
davantage de side chain, il faut se tourner vers des outils numriques comme la TC
M6000 ou dautres plug-ins. Ltape de mastering5.1 peut ncessiter ce type doutils.
La M6000 prsente deux types de compresseurs multicanal5.1 multibandes, le MD5.1
et le MDX5.1. Le paramtrage des side chain fonctionne de la mme faon pour
les deux types de programmes: lalgorithme repose sur un systme de quatre side
chain:

Dunod Toute reproduction non autorise est un dlit.

S1 pour L et R;
S2 pour C;
S3 pour Ls et Rs;
Lfe SC pour le canal Lfe.

Les diffrents canaux du signal multicanal peuvent ainsi tre indpendamment


compresss. Cela peut tre intressant de traiter le centre et les canaux arrire de faon
diffrente des canaux gauche et droite, pour amliorer lintelligibilit des dialogues
(gnralement au centre) et des ambiances ( larrire). Par dfaut, le side chain
est aliment par le canal lui mme, les canaux L et R alimentent ainsi le side chain
SC1, le centre alimente le side chain S2, les canaux Ls et Rs, le side chain SC3 et
le canal Lfe, le side chain Lfe SC. Par ailleurs, le side chain peut tre aliment
par des signaux auxiliaires supplmentaires (voir page Side Chain Feed, SC1 add 1,
SC1 add2, SC1 add3, SC2 add1 etc.) qui se somment au signal de base dfini dans la
page Side Chain Control ou bien par le niveau maximal du signal auxiliaire. Nous
retrouvons alors les deux modes possibles de fonctionnement du side chain dfini
auparavant (somme des canaux ou niveau maximal des canaux).

286

Chapitre 6 La

postproduction

Figure6.34Compresseurs MD5.1, MDX5.1TCM6000, B.Priaux daprs TCelectronic.


Le premier schma reprsente lalgorithme MD5.1, les autres figures reprsentent lalgorithme
MDX5.1.

Les deux algorithmes MD5.1 et MDX5.1 fonctionnent en multibandes, la compression


peut tre modifie de faon relative sur 3 bandes de frquences dfinies dans la page
principale. Le MD 5.1 intgre un compresseur, un expandeur, et un limiteur. Le
MDX5.1 utilise lalgorithme de compression-expansion DXP propre TC electronic
qui fonctionne avec des pentes de courbes de compression pilotes par le paramtre
steer, un seuil dexpansion rgl par le defeat level. Le module DXP est complt
par un limiteur.

6.7 Traitement Dynamique

287

Figure6.35 et 6.36Principe de fonctionnement du compresseur MDX5.1, moduleDXP, TCelectronic.

Dunod Toute reproduction non autorise est un dlit.

Figure6.37Exemple de configuration du compresseur MDX5.1 traitant le canal central de faon


diffrente, TCelectronic.

Le plug-in McDSP Channel G Surround fonctionne de la mme faon que les


algorithmes de la TC M6000, il comporte quatre compresseurs, un pour les canaux L et
R, un pour le centre C, un pour les canaux Ls et RS et un pour le canal Lfe. Lutilisateur
rgle le key pour chacun des compresseurs, ce peut tre LR, C, LsRs ou Lfe, avec
la possibilit de les combiner. On peut ensuite linker les diffrents compresseurs,
on agit alors sur les paramtres de control du Master: le seuil, le rapport, les temps
dattaque et de retour, le gain de rattrapage, le knee. La compression se fera de la
mme faon pour les canaux lis, mais partir de key diffrents ou non, suivant
les rglages.
Le compresseur C360 Surround Tools Waves propose aussi quatre compresseurs, avec
diffrents modes de link, le schma ci-dessous reprsente le mode de link usuel
LR, C, LsRs et Lfe indpendants.

288

Chapitre 6 La

postproduction

Figure6.38Compresseur C360 Surround Tools Waves, Waves.

6.7.2 Limiteurs multicanal


Le limiteur au format5.1 est indispensable pour le traitement du mixage final, afin
de ne pas dpasser le niveau crte maximal. On linsre gnralement sous forme
de plug-in, en traitement hardware ou sur un master de console numrique. Notons
quil devient impratif de pouvoir contrler les crtes en mesure true peak, afin de ne
pas dpasser les -3dBTP pour la diffusion broadcast. La version multicanal de ces
limiteurs na pas de spcificit particulire par rapport au format stro si ce nest le
mode link entre les diffrents canaux, identique au mode link dun compresseur
multicanal.


Figure6.39Pure limiter Flux, Flux.

Figure6.40Limiteurs Broadcast dBTP Elixir Flux,


Flux.

6.9 Downmix

6.8

289

Autres effets

6.8.1 Autopan
Lautopan en multicanal permet de simplifier le travail dautomation que lon pourrait
grer par des courbes de pan-pot. Il existe un autopan dvelopp par Trillium Lane
Labs (Avid) qui permet de faire tourner une source mono sur le cercle ou sur un arc
de cercle, dans un sens ou dans lautre, vitesse rglable (la frquence). Le calage
au tempo est possible, la distance du cercle ou plus prcisment la dcorrlation du
mouvement est paramtrable, le mouvement peut tre continu ou bien quantifi sur
des points prdfinis dans lespace. Dautres fonctions complmentaires sont proposes
par le GRM Space (INA).
6.8.2 Dlais
Il nexiste pas aujourdhui de dlai vraiment optimis pour le5.1. On trouve cependant
le GRM Tools Shuffling (INA), un outil trs cratif qui permet de designer le son
en le dcoupant en fragments de dures variables. Le dlai est paramtrable, ainsi
que les temps de monte et dextinction des fragments (rapide, lent) qui gnrent des
transitoires plus ou moins marqus.
La TC M6000 propose un programme de dlai circulaire, reflector 6. Le son est
dlay sur plusieurs points localiss sur le cercle dcoute.

Dunod Toute reproduction non autorise est un dlit.

6.9

Downmix
Le downmix est le procd de conversion dun format multicanal vers un format
infrieur: passage du5.1 vers la stro ou la mono, ou passage dun7.1 vers un5.1. Cette
tape est importante car elle est associe automatiquement la compatibilit stro dun
format5.1 Dolby Digital ou DTS, en diffusion TVHD, ou sur supports DVD ou Blu-ray.
En effet, la tendance est de proposer un format5.1 Dolby ou DTS sur les supports et de
ne plus intgrer de format stro. Le mixeur doit donc grer la compatibilit stro de
son mixage5.1, cette compatibilit sera porte par des coefficients de rduction dans les
formats Dolby Digital et DTS. Ceci fait lobjet dune metadata quon appelle Downmix,
intgr dans les codages Dolby Digital, Dolby E, DTS
Voici ci-dessous la fabrication dun downmix LoRo (downmix en phase), par simple
sommation des diffrents canaux:
Downmix LoRo
- Lo =L +C (-3dB) +Ls (-3dB) Left only.
- Ro =R +C (-3dB) +Rs (-3dB) Right only.

290

Chapitre 6 La

postproduction

Les coefficients (-3dB, -3dB) sont ceux proposs par dfaut, mais le mixeur peut les
ajuster.
Le canal LFE est gnralement abandonn dans les downmix.
On trouvera dans le chapitre8, les downmix LtRt associs la diffusion Dolby Digital,
pour la compatibilit avec le format Dolby Surround.
Il existe donc des outils de downmix associs aux bus5.1 des consoles ou sous forme de
plug-ins. Le plug-in Neyrinck Soundcode Stereo par exemple permet de downmixer
dans Pro Tools un mixage 5.1, lajustement des coefficients se faisant par pas de
0,1dB. Lintgration du canal Lfe est possible, ce qui permet de rintgrer du grave
supplmentaire dans la stro. Ce plug-in ne simule pas vraiment un downmix de
diffusion, il permet simplement de fabriquer une stro, LoRo ou LtRt, partir dun5.1.
Le LtRt peut tre dcod afin de valider lencodage.

Figure6.41Downmix LoRo SoundCode Stereo Neyrinck, NeyrinckAudio.

Les consoles numriques intgrent une fonction downmix paramtrable, avec des
options intressantes comme le downmix LtRt propos par Studer. Il est possible de
mmoriser plusieurs presets de downmix sur le bus master, ou dans certains cas,
directement sur les stems, comme le propose la console Euphonix Systme5 Fusion.

6.10 Upmix
Lopration inverse, celle qui consiste passer dun format mono ou stro un format
multicanal sappelle lupmix. Lutilisation dun tel procd se justifie lorsque lon
souhaite spatialiser une ambiance stro, par exemple, ou un mixage dont les pistes

6.10 Upmix

291

spares nexistent pas (des archives par exemple) ou bien ne sont plus exploitables.
Cest aussi le cas malheureusement lorsquon ne dispose pas assez de budget pour
envisager un mixage5.1 et surtout dans des applications de diffusion (voir chapitre8).
Il existe de nombreux algorithmes qui, par analyse de la phase, le dlai entre les deux
canaux de la stro et leur contenu frquentiel, produisent une image sonore spatialise.
Linformation hors phase est restitue dans les canaux arrire, linformation en phase,
au centre, et le contenu restant alimente la stro du multicanal. Cest le principe du
dcodage Dolby Surround. Cette analyse de la corrlation des signaux est le principe
de base des algorithmes dupmix, ensuite dautres modules additionnels peuvent tre
intgrs comme lajout de rverbration, la spatialisation dans lespace multicanal par
diffrence dintensit et de temps de la stro, ou la sparation du champ direct et du
champ rverbr dun signal.
Lalgorithme unwrap du TC M6000 (ou DB8) intgre un module de rverbration
dont le mode de dcorrlation des canaux est paramtrable. Il repose sur lanalyse en
phase, dlais, frquence des deux canaux de la stro. On peut ajuster la quantit en
pourcentage de la stro traite, 0% signifie quon laisse la stro dentre en sortie LR
du multicanal sans traitement. Une utilisation de 60% permet de fabriquer un centre,
tout en prservant la largeur du mix original.
Autre exemple, lUpmix5 dvelopp par Arkamys pour Pyramix, ce dernier najoute
pas de rverbration.
Lalgorithme AMBIT, que lon trouve dans les consoles Lawo, spare le procd
dupmix en deux modules, le module Upmix pour le traitement frontal et le module
Spatialize pour la cration des canaux arrire.

Dunod Toute reproduction non autorise est un dlit.

Il existe dautres algorithmes dupmix: Isostem, Penteo, Soundfield

Figure6.42AMBIT Lawo, Lawo.

Figure6.43Upmix Vista9 Studer, Studer.

292

Chapitre 6 La

postproduction

6.11 Mthode de mixage et analyses


6.11.1 Mixage film: les stems
Le mixage film se dcompose en plusieurs tapes de prmixages appels stems. Ces
derniers sont gnralement constitus des dialogues, des bruitages, des FX, des ambiances
et de la musique. Le mixeur rcupre de la session de montage des pistes spares de
ces diffrents lments, il ralise le mixage de la VO puis le mixage de la VI, la version
du mixage sans les dialogues (de la langue originale). Du mixage film sont drives les
versions supports (DVD ou Blu-ray) et TV. On rduit gnralement la dynamique pour
tre compatible avec la diffusion domestique, on vrifie la compatibilit du mixage avec
lcoute ITU5.1 et les compatibilits stro (downmix LtRt gnralement) et mono. Le
mixage TV doit tre compatible avec la norme EBU R128 (voir chapitre8).
Les ambiances, les effets et la musique sont gnralement spatialiss en5.1. Les stems
dialogues et bruitages sont gnralement au format LCR avec rverbration ou LCR
et rverbration 5.0 spare ou 5.0 avec rverbration, plusieurs mthodes existent.
Sparer le son direct de la rverbration permet de garder le contrle du rapport CD/CR.
Voici une reprsentation de la construction des diffrents stems du film et des diffrents
formats de diffusion cinma, TV et supports.
tournage

dialogues

stem dialogues
LCR ou 5.0

montage
son

auditorium

postsynchro

bruitages

stem bruitages
VO LCR ou 5.0

effets

stem FX
5.1

MIX Multicanal 5.1

multi
SDDS 7.1

multi DTS
5.1

multi Dolby
5.1

ambiances

studio
musique

musique

stem ambiances
5.0

stem musique
5.1+ stems sp.

VI Fx amb
spares 5.1

VI
mlanges
5.1

TV VI
5.1

multi DVD
Blu-ray 5.1

TV VI
stro
stro
Dolby LtRt

multi TV
5.1

TV VO
stro

Figure 6.44Stems Film et formats de diffusion, B.Priaux daprs un schma de


WilliamFlageollet.

6.11 M thode

de mixage et analyses

293

6.11.2 Mixage Musique


Pour la musique de film, on procde galement par stems. Le mixeur film demande
gnralement au mixeur musique des premix pour mieux insrer la musique dans
le scnario du film. Pour la musique orchestrale, il convient de sparer les cordes,
les bois, les cuivres, les percussions, les churs, les solistes et les programmations.
Ainsi, lintgration de la musique se fera avec plus de souplesse notamment pour les
solistes comportant la notion de dialogue musical qui peut nuire lintelligibilit des
dialogues. Pour une raison de commodit, il est conseill de fournir des stems en5.1
mme si le canal Lfe nest pas toujours sollicit. Dautre part, le centre peut poser des
problmes de compatibilit avec le reste des lments sonores de la bande son. Il est
conseill alors de ne pas trop fournir le canal central de la musique et diverger les
instruments centrs par anticipation. Le mixeur film peut baisser le centre du stem
musique, ou tout simplement le supprimer, sil va contre lintelligibilit des dialogues.
Pour une cration musicale sans rapport limage, il est aussi intressant daborder
le mixage par stems5.1, cette mthode nous donnera une bonne homognit dans la
spatialisation.

6.11.3 Classement des sources


Dans lanalyse des sources du mixage, il semble primordial de distinguer les lments
qui vont donner le discours, de ceux qui vont apporter lenveloppement (les sources qui
par leur nature ont un intrt tre spatialises sans crer de gne auditive). Certaines
sources travaillent ensemble et peuvent sopposer spatialement.

Dunod Toute reproduction non autorise est un dlit.

le discours en frontal: la voix, un instrument de musique soliste ou tout autre lment mlodique, ce qui attire lattention;
lenveloppement: les ambiances, lacoustique, la musique, les FX, des sources larges
sans transitoires, les sources qui nattirent pas lattention;
lhomognit, la fusion frontale/arrire des sources : des sons qui travaillent
ensemble;
lacoustique: souvent au format multicanal pour donner leffet dune seule salle ou
dun mme lieu, apporte une homognit.
Comme voqu au chapitre3, le choix des sources off localises dans les zones latrales
et larrire se fait en fonction de leur poids attentionnel (le caractre nouveau de
la source, leurs caractristiques dynamiques, le contenu frquentiel), leur degr de
prvisibilit, les contraintes esthtiques de luvre, le poids attentionnel de limage
(scne avec des contraintes ralistes ou image virtuelle avec peu de contraintes, des
images abstraites).

294

Chapitre 6 La

postproduction

6.12 La synthse binaurale


La synthse binaurale est aborde de deux faons diffrentes. La premire consiste
spatialiser les sources dans un espace 3D, ce qui revient mixer en binaural, la
seconde permet dencoder un mixage multicanal gnralement5.1 en binaural 2D.
Le premier cas offre toutes les directions contenues dans les HRTF. Le second cas est
une compatibilit du mixage5.1 au casque, comme le proposent certains casques
multicanal ou lecteurs binauraux pour la diffusion. Dans ce cas, la quantification de
lespace est limite au format du mixage multicanal, do lintrt de lapproche mixage
objets qui permet daborder tous les formats. Pour raliser une image sonore spatialise
au casque compatible5.1 ITU, il convient de placer les sources des canaux LCRLsRsLfe
suivant la norme ITU, en faisant le choix dune distance dcoute. Cette distance peut
tre contenue dans la rponse impulsionnelle de lalgorithme, ou bien elle peut tre
gnre par un module deffet de salle, qui sadditionne au module de localisation
HRTF (la distance de mesure des HRTF est denviron 2m en chambre anchoque,
voir chapitre3).
Complment
Web 6.2
Outils de synthse binaurale.

6.13 Exploitation des nouveaux formats, mixage objets


6.13.1 Auro-3D, 22.2 NHK
LAuro-3D comme le 22.2 de la NHK font partie des formats plutt ddis la salle
de cinma ou la grande salle de diffusion, mais sinscrivent dans les techniques
de spatialisation de la strophonie dfinies au premier chapitre. Ces mthodes de
spatialisation usuellesassocient en gnral un canal de mixage un haut parleur.
La production de ces formats est possible grce lexistence de partenariats entre
industriels et chercheurs. LAuro-3D est compatible avec les consoles AMS-Neve 88D
ou DFC, lesquelles offrent un systme de bus 14 canaux, compatible jusquau format
Auro-3D 13.1. Lutilisateur utilise deux joysticks pour placer une source dans lespace.
Il existe aussi des outils compatibles Pro Tools et Nuendo, comme lAuro-Panner, un
pan-pot compatible 13.1 ou lAuro-verb, une rverbration 3D.
Les ingnieurs du son de la NHK utilisent deux Wiimote de console Nintendo pour
placer les sources dans lespace, une pour lhorizontal, lautre pour le vertical, sur des
consoles Fairlight dont on peut configurer les bus surround.

6.13 Exploitation

des nouveaux formats, mixage objets

295

Figure6.45Spatialisation 22.2 NHK, dmonstration IBC, B.Priaux.

Dunod Toute reproduction non autorise est un dlit.

Spatial Audio Designer (New Audio Technology) est un pan-pot sous forme de plug-in
qui permet de grer des formats suprieurs au 7.1, il est notamment compatible
Auro-3D 13.1, DTS, 22.2, sans limite. Il gre un systme de bus interne dfini par le
format choisi (9.1, 11.1, 13.1, 22.2). Loutil permet de dtourner les possibilits de bus
multicanal dun DAW qui gnralement est limit au7.1. Les sources sont repres par
un code couleur, et deux reprsentations graphiques permettent de placer les sources
dans lespace, une vue de dessus pour lhorizontal et une vue de face pour le vertical.
Cet outil, dvelopp par Tom Ammermann, intgre aussi les divergences centrales des
secteurs qui comportent un centre.

Figure6.46Spatial Audio Designer, New Audio Technology.

Le logiciel Reaper (Cockos) offre un pan-pot trs complet appel ReaSurround. Il permet
de grer des formats allant jusqu 64 canaux prenant en compte llvation. Il existe

296

Chapitre 6 La

postproduction

des presets mais il est possible dditer son propre format en ajustant les paramtres
influences, lesquels permettent de dfinir la corrlation de chaque enceinte. Le schma
ci-dessous reprsente le pan-pot 9.1 (type Auro-3D).

Figure6.47Pan-pot ReaSurround 9.1 Auro-3D dans Reaper, Cockos.

Auro Technologies propose aussi des outils 3D dont lAuro-3D Panner qui travaille avec
le moteur de mixage 3D Auro-3D mixing engine.

Figure6.48Auro-3D Panner, AuroTechnologies.

Le GRM Space (INA) est un panner compatible avec de nombreux formats multicanal
que lutilisateur peut diter, il propose de nombreuses fonctions complmentaires
comme lautopan, ldition de trajectoires, la gestion des sources regroupes en objets.

6.13 Exploitation

des nouveaux formats, mixage objets

297

6.13.2 Exploitation de la WFS


Autre format en pleine volution, la WFS (voir chapitre1 et 2), qui quipe des salles de
spectacles, quelques thtres et certaines salles de cinma. Ce systme utilise le mixage
objet.
Lutilisation pratique de la WFS suppose lutilisation dun processeur ddi qui se place
gnralement la suite de lenvironnement de mixage (table de mixage, DAW), en
amont des canaux damplification et raison dun canal damplification par enceinte.
Le processeur Wave 1 de Sonic Emotion permet de traiter en temps rel et avec une
latence rduite (environ 5 ms) 32 entres qui sont autant de sources virtuelles dont la
position peut tre manipule en temps rel. Le processeur se charge alors de calculer
les signaux de sortie pouvant alimenter jusqu 32 ou 64 haut-parleurs. Plusieurs
processeurs peuvent tre coupls pour adresser un plus grand nombre de haut-parleurs
lorsque la situation le requiert.

Dunod Toute reproduction non autorise est un dlit.

Lenvironnement de mixage doit tre configur de faon sortir un canal audio


spar par tranche, groupe, bus ou piste de console ou DAW. La prsence dinterfaces
multicanal largement rpandues, avec lesquelles le Wave 1 est compatible (ADAT,
MADI), rend cette opration trs aise. chaque tranche ou piste correspond ainsi
une source dont la position spatiale peut tre manipule soit sous forme dautomation
laide de plugin ddis (VST, AU, AAX) soit sous forme de rappels de preset stocks dans
le processeur Wave 1 (interface Wave Performer), soit enfin dans des environnements
interactifs (Max MSP, interface Open Sound Control, dispositifs de tracking, interface
Wave Performer).

Figure6.49WavePerformer, outil de visualisation/manipulation des sources virtuelles en


exploitation, SonicEmotion.

298

Chapitre 6 La

postproduction

La manipulation des sources et la communication avec le processeur Wave 1 repose


sur un protocole rseau propritaire qui permet dinformer de faon instantane
tous les lments du systme lorsque quun changement intervient. Une modification
de la position dune source dans un plugin sera non seulement communique au
processeur mais aussi toutes les interfaces prsentes sur le rseau, notamment la
partie visualisation de linterface WavePerformer.
La description de la scne sonore repose ainsi sur un format objet, largement
indpendant du systme de reproduction physique utilis. Une description spatiale
passant uniquement par les positions de sources sonores rend aussi le systme
compatible avec les formats multicanal usuels (stro, 5.1,7.1). Pour cela, les sources
virtuelles associes aux canaux du format sont positionnes dans les directions
requises (ex: -30/+30 degrs pour la stro) et forment ainsi des haut-parleurs virtuels
diffusant le contenu multicanal. La WFS synthtise alors des ondes planes, loignant
virtuellement les haut-parleurs au del des limites du lieu. Chaque haut-parleur virtuel
est ainsi peru dans la direction requise par le format dans lintgralit de la pice. La
zone dcoute pour la diffusion de formats multicanal standards est ainsi largement
tendue et ne se limite plus au seul sweet spot de la diffusion avec un haut-parleur par
canal.
Au del de ce mode rtro-compatibilit, lutilisation de haut-parleurs virtuels peut
tre utile dans le mixage WFS afin de regrouper un certain nombre de sources issues
de la captation, qui forment plutt larrire plan et ne ncessitent pas un rendu exact de
leur position. On les regroupe alors dans un bus multicanal classique qui sera diffus
sur un ensemble de haut-parleurs virtuels.
Les informations deffet de salle peuvent tre gres soit en interne dans loutil
WavePerformer (dveloppements en cours doutils de gestion du rgime de premires
rflexions et de la rverbration tardive), soit par le biais dun traitement externe
mettant en jeu des units de rverbration traditionnelles, lesquelles alimentent autant
de haut-parleurs virtuels que ncessaire.
Outre les possibilits cratives quoffre le positionnement prcis dobjets sonores
dans lespace, la WFS permet de rconcilier perception visuelle et sonore dun espace
scnique, en assurant la mise en cohrence visuelle et sonore des sources.
Pour la mise en place et le rglage dun systme WFS dans un environnement existant,
linstallateur a sa disposition un outil appel WaveDesigner.

6.13 Exploitation

des nouveaux formats, mixage objets

299

Figure6.50WaveDesigner, outil de configuration/installation du systme WFS, SonicEmotion.

Dunod Toute reproduction non autorise est un dlit.

La fonction premire de cet outil est de positionner les haut-parleurs dans lespace
et de transmettre ces informations au processeur qui se charge alors de calculer les
coefficients de filtrage ncessaire pour le rendu WFS. Un mme mixage peut tre diffus
sur des configurations denceintes diffrentes; lorsque les lieux daccueil ne permettent
pas de placer les enceintes exactement de la mme faon, loutil WaveDesigner, qui
prend en compte les nouvelles positions denceintes, permet dadapter parfaitement le
mixage au nouveau lieu, dans un temps trs court.
Le WaveDesigner met aussi disposition des outils de calibration du systme avec un
galiseur paramtrique (8 filtres peak, low et high shelf, passe haut et passe bas), une
commande de niveau, un limiteur et la possibilit dappliquer des cross over pour
lalimentation des systmes multi voies. Une volution rcente du processeur permet
de plus de dclarer jusqu 4 sous-systmes. Ceux-ci peuvent correspondre par exemple
diffrent lments du systme de diffusion (faade, rappels dans la salle) ou bien des
systmes secondaires (bar, cabine de mixage) avec des rglages de niveau et retard
indpendant pour chaque source de chaque sous-systme.

6.13.3 WFS, Iosono Spatial Audio Workstation


Iosono (Barco) dveloppe des technologies WFS, dont voici le plug-in dvelopp pour
Nuendo, Spatial Audio Workstation:

300

Chapitre 6 La

postproduction

Figure6.51Interface du plug-in Spatial Audio Workstation, Iosono, Iosono.

Cette technologie oriente mixage objet permet de spatialiser des sources sans la
contrainte du systme de diffusion. Le systme gre la position et le dplacement des
objets. Lutilisateur indique la configuration multicanal des enceintes dont tiendra
compte le mixage objet. Cette configuration naffecte en rien le mixage objet labor,
elle indique simplement comment la position des objets est prsente la sortie audio
du DAW. Cela permet aussi de travailler dans diffrentes configurations denceintes
surround sans modifier les donnes de pan-pot ni lautomation. Le plug-in peut
travailler avec le processeur de diffusion WFS Iosono.
Le stage view dtermine la scne sonore de lauditeur, avec la reprsentation des
enceintes (speaker icons). La figure6.51 reprsente diffrents types dobjets, chacun
pouvant tre dplac de faon indpendante par rapport aux autres.
La figure6.52 prsente un exemple de spatialisation dune source par le procd
dupmix:

Figure6.52Paramtres dupmix, Iosono.

6.13 Exploitation

des nouveaux formats, mixage objets

301

6.13.4 Exploitation Dolby Atmos


Dolby Atmos est un procd pour la salle de cinma qui amliore considrablement
la spatialisation dans les salles, notamment en dcorrlant les sources sur les cts
et larrire. Lcoute est plus symtrique et se rapproche en quelque sorte de la
norme5.1 ITU, quant la prcision de restitution. Il combine le mixage objets et le
mixage multicanal traditionnel, ceci afin dobtenir la meilleure compatibilit avec les
diffrentes salles. Lobjet soppose au bed dans le mode de spatialisation. Le
bed est le mixage multicanal adapt un dispositif dcoute tandis que lobjet
est une source audio accompagne de linformation de spatialisation. Ce dernier est
spatialis la diffusion en tenant compte du dispositif. En effet, comme voqu au
chapitre2, chaque salle de cinma a ses propres caractristiques (nombre de hautparleurs, leur disposition, le volume et la forme de la salle), ainsi le processeur
sadapte toutes les configurations, le nombre maximal de haut-parleurs tant de 64.
Notons que les subwoofers placs larrire sont aliments par bass management des
canaux surround, do la ncessit davoir un mixage compatible bass management.

Figure6.53Combinaison objets et beds, Dolby.

Dunod Toute reproduction non autorise est un dlit.

Un bed est compatible 9.1 (7.1 plus 2 canaux de hauteur). Dolby Atmos peut grer
jusqu 128 pistes rparties en beds et objets, soit 10 canaux pour le bed et
118 canaux pour les objets.

Figure6.54Procd de rendu sonore Dolby Atmos, Dolby.

La postproduction est gre par le RMU (rendering and mastering unit), lunit de rendu
et de mastering Dolby, que lon contrle par lapplication Dolby Monitor. Le mixeur gre
la spatialisation des objets par lintermdiaire de metadata gnres par le plug-in Avid
Panner insr sur chaque piste objet. AMS Neve, Euphonix et Harrison intgrent aussi
des outils de spatialisation dans leurs consoles dvelopps conjointement avec Dolby.

302

Chapitre 6 La

postproduction

Figure6.55Panner Dolby Atmos, Dolby.

Le RMU permet tout moment de simuler des downmix en Dolby Surround7.1, en5.1
et en stro LtRt ou LoRo.
Dans la phase de mixage, un stem sera donc compos dun bed principal orient
channel et des objets accompagns de metadata de spatialisation.
La chane de production se dcompose comme suit, en tapes de montage/premix,
mixage final et mastering:

Figure6.56Workflow de production Dolby Atmos, Dolby.

La technologie Dolby Atmos sintgre dans le workflow de postproduction sans ajout


excessif de temps et de cot, elle est compatible avec le DCP et le processeur assure
automatiquement par downmix la compatibilit7.1/5.1 avec les salles traditionnelles.

6.14 Cration

sonore et interactivit avec la participation deThierry

Dilger

303

Figure6.57Production et diffusion Dolby Atmos, Dolby.

6.14 Cration sonore et interactivit avec la participation


deThierry Dilger

Dunod Toute reproduction non autorise est un dlit.

La cration sonore est un domaine o la spatialisation des sons est trs courante, si bien
que la norme5.1 est souvent largement dpasse. La restitution en 3D est aujourdhui
trs sollicite par les compositeurs/sound designers. Linteractivit du contenu
augmente dautre part lintrt pour lespace, de plus en plus dexprimentations
sonores spatialises sont mises en place pour la scnographie.

Figure6.58Sound Island, Virtools technology, Thierry Dilger.

Les outils de cration de contenus interactifs sont passs, en quelques annes, du stade de
la programmation en ligne de codes celui dun environnement graphique trs labor.

304

Chapitre 6 La

postproduction

Le sound designer (responsable de la qualit du son interactif) possde aujourdhui des


logiciels qui lui permettent de mixer et dajuster les comportements sonores (condition
de dclenchement, position dans lespace 3D, effets) pendant que lapplication tourne.
Ces outils se sont rapprochs dans leur forme de ceux que connaissent les ingnieurs
du son et certains utilisent aussi les surfaces de contrle avec la prise en charge de
lautomation (enregistrement des mouvements). Le sound designer est donc moins
sollicit sur la programmation et plus sur le mixage en temps rel.
En multicanal la cration interactive a hrit des outils et mthodes issues du cinma
avec les panner faon Pro Tools mais aussi et surtout des outils et mthodes issues
de la conception graphique 3D. Cest ainsi que de nombreuses crations5.1 interactives
utilisent des sources en mono traduites dans le systme surround par la position du
sound emitter (celui qui produit le son) vis vis du listener (celui qui coute,
en gnral le joueur). Le rapport de distance dans lespace 3D dtermine directement
lattnuation du volume, la position latrale (azimuth) est retransmise fidlement dans
le systme de diffusion, et tout cela en temps rel.
Dans le visuel ci-dessus, vous pouvez observer une carte qui possde 29 sound
emitter, certains tant statiques (position fixe), dautres dynamiques (en mouvement)
comme les mouettes circulant le long du rivage. Ajoutez cela le fait que le joueur est
compltement libre de se dplacer sur cette le et vous comprendrez lextrme difficult
de faire une mise en scne sonore spatiale intressante, cohrente et surtout bien mixe.
Cest pourquoi, mme si les outils de crations sonores interactifs se standardisent de
plus en plus, il reste ncessaire de pouvoir les adapter aux diffrents cas de figures,
voire mme de concevoir ses propres outils et mthodes de travail. Aujourdhui encore,
les sound designers les plus cratifs restent ceux qui ont des comptences en audio,
mais aussi en programmation.
Complment
Web 6.3
Outils pour la cration sonore et linteractivit.

6.15 Applications
6.15.1 Film
Il faut sauver le soldat Ryan (Saving Private Ryan)
Le Film Il faut sauver le soldat Ryan, ralis par Steven Spielberg et mix par Gary
Rydstrom, est connu pour sa premire squence longue dune vingtaine de minutes,
mettant en scne le dbarquement alli du 6juin 1944 sur la plage dOmaha beach
en Normandie. La scne est trs raliste et choquante par sa brutalit. Le film a reu
lOscar du meilleur son et du meilleur mixage en 1998. Cette scne met en vidence le

6.15 Applications

305

contraste soulign par le son, entre la vision externe du personnage principal, avec une
partie FX et ambiances trs fournie, constitus dimpacts de balles, dexplosions dune
grande duret rparties tout autour du spectateur et son ressenti intrieur, exprim par
le point de vue de la camra qui plonge dans leau, et autres courtes squences o lon
perd les sons des tirs pour entrer dans le point de vue subjectif du soldat.
Lanalyse de Gary Rydstrom expose dans Surround Sound de Tomlinson
Holman, explique la ralisation son du film qui consiste placer le spectateur au
milieu du dbarquement, avec le point de vue claustrophobique du soldat tremblant
de peur. Ainsi, le son par son immersion intense, nous fait glisser habilement dans
la peau du personnage. Le son spatialis donne des informations sur lorientation,
lchelle, lmotion, donnes que la camra na pas besoin de prciser. Bien sr,
la bande son est caractrise par la librairie sonore dense des diffrents tirs de
mitraillettes, des sons isols de tirs, de balles, dartillerie, de bateaux, de tanks,
dexplosions, de dbris.
Comme lvoque le mixeur, lorsque lon traite un son in, il suffit de le placer non loin
de limage, dans les canaux frontaux, mais la majorit des sources qui constituent la
bande son du film sont des sons off, ce qui offre une grande libert de spatialisation.
Lauteur voque quelques points intressants sur lintrt de spatialiser un son: la
sparation des canaux permet dviter leffet de masque, lorientation du spectateur
est plus prcise, les possibilits de dynamique sont bien plus grandes, et le mouvement
des sons est possible. Notons aussi lutilisation des diffrents points de vue, le point de
vue sur lextrieur de la scne et celui portant sur le ressenti du personnage.

Dunod Toute reproduction non autorise est un dlit.

La spatialisation permet dviter leffet de masque


Dans son rcit, le mixeur dcrit sa faon de grer leffet de masque et la symtrie des
sons, par exemple lorsquil place une explosion basses frquences dans le frontal, il
positionne en symtrie un bruit grave de bateau larrire. Quand un bruit de dbris
de sable venant dune explosion est plac sur le ct gauche, un son de passage de
balle ayant le mme contenu frquentiel est symtriquement oppos sur la droite ou
larrire. Ainsi, on retrouve ces rgles qui rgissent la cohrence de limage sonore, des
sons qui convergent ensemble, par leur ressemblance, mais disposs dans des zones de
lespace qui sopposent, formant une sorte de fusion.
Le son spatialis oriente le spectateur
Le son spatialis oriente le spectateur: ici, la dfense allemande est sur larrire droite
tandis que les troupes amricaines sont dans le frontal, gauche. Ainsi la camra
souvre dautres champs, des dtails, au-del de linformation de localisation.
Les changements despaces, dynamique du multicanal
Lauteur voque les possibilits de dynamique du multicanal qui servent au contraste
dont le film a besoin. Le ralisateur coupe cette longue scne de guerre par des brves

306

Chapitre 6 La

postproduction

squences: la camra qui plonge sous leau ou les scnes o le personnage perd momentanment loue, symbolis par un sifflement et un resserrement spatial vers la stro.
Les changements despaces offrent ces possibilits de dynamique, sajoutant aux variations de niveaux et aux frquences contrastes.
Le mouvement des sons, une faon de renforcer lmotion
Le spectateur est trs attentif aux changements de localisation des sons, ainsi la
squence comporte de nombreux passages de balles sifflantes, trs souvent de larrire
vers lavant, prcdant limpact de la balle lcran. Les chos des tirs se rpondent
dans des zones opposes. Ces mouvements nous donnent limpression dtre dans
laction, ils nous apportent la proximit avec le sujet trait et nous vhiculent lmotion
du personnage en danger de mort. Le mouvement des sons des explosions, des cris des
soldats accompagnent aussi le mouvement de la camra qui explore le champ autour
du spectateur.
Les limites des canaux surround
Dans la configuration cinma, les sons pan-pots larrire perdent une partie
de leurs frquences, ils perdent de leur qualit et de leur poids compars aux canaux
avant.
Les canaux arrire au cinma sont envoys vers un ensemble de haut-parleurs, qui ne
restituent pas un point prcis de localisation. Le son restitu est plutt ressenti comme
une ambiance (le Dolby Atmos permettrait cette dcorrlation).
Le mixage multicanal repose sur une utilisation intelligente des canaux surround pour
envelopper le spectateur sans le distraire et le sortir du scnario du film. Il y a un temps
pour lenveloppement et un temps sans surround. Comme il existe pour limage des
artifices comme la mise au point, la profondeur de champ, les mouvements de camra
ou le dcoupage, destins orienter lattention du spectateur, il existe des techniques
identiques dans le son, comme lutilisation ou non des canaux arrire.

Didier Lozahic, mixeur film, interview


Didier Lozahic est mixeur film et musique, il aborde le multicanal par le mixage de
musiques de film. Son premier grand projet pour le film a t GoldenEye, dont la
musique a t compose par Eric Serra. Il a ensuite volu vers le mixage film avec
notamment sa collaboration avec Luc Besson.
Pour la plupart des projets sur lesquels je travaille, jai souvent lavantage denregistrer
la musique, de la mixer et de mixer galement le film. La vritable premire exprience
pour moi a t Le Cinquime lment, je me suis retrouv dans un auditorium,
Pacific Ocean Post situ Los Angeles, extrmement bien quip en5.1, dans une
configuration cinma. Il y avait 57 cues de musique mixer, bien remplis, parfois
jusqu 64 pistes, ce qui tait assez inhabituel lpoque, et nous avions une vingtaine
de jours pour mixer lensemble du projet. Lors dun rendez-vous avec le head mixer du

6.15 Applications

307

film, Chris Jenkins, nous avons chang sur la faon damener la musique dans le film,
jtais lpoque assez inexpriment dans limmersion mme du Cinma. Je suis alors
parti du principe o je disposais de six canaux que je pouvais pleinement exploiter, je
ne souhaitais pas mixer avec une utilisation dominante de limage fantme L-R, et un
peu de rverbration place larrire, qui souvent fait la blague. Je souhaitais grer un
vrai centre physique, avec une cohrence spatiale forte. Je me suis battu pour imposer
cette vision, mme avec le compositeur qui a lhabitude de faire des maquettes trs
prcises mais qui pensait lpoque stro largie.
Complment
Web 6.4
Didier Lozahic ITV.

Thierry Lebon, mixeur film, interview


Thierry Lebon est mixeur film et musique, il travaille au dbut de sa carrire dans
lenregistrement musique, directeur du studio Merjithur. Collaborations: Sur la piste
du Marsupilami, Un monstre Paris, Asterix et Obelix: mission Cloptre
En dix ans, le mixage a bien volu, les monteurs son arrivent avec des stems5.1 dj
spatialiss. Comme le temps de mixage se rduit progressivement, on na plus le temps
de spatialiser les sources au mixage, on na pas dailleurs le temps de dmatricer les
formats B, cest fait au montage son. Mais 80% des cas cela reste des ambiances stro,
on utilise souvent deux ambiances stro captes dans le mme lieu.

Dunod Toute reproduction non autorise est un dlit.

Concernant la mthode de travail, je fais toujours un premix paroles, partir de pistes


mono, stro et je fabrique alors trois stems: un stem dialogues directs avec part
les post synchros et les sons directs qui pourraient servir la VI, un stem pour les
foules5.1 avec des paroles franaises, il nalimentera pas la VI, et un stem constitu
des rverbrations 5.0, issues des directs mais spares. Les bruitages sont composs
de 8 48 pistes, au format mono ou stro, je les prmixe sur un stem5.1 avec une
rverbration 5.0, gnralement une Lexicon 960. Pour les musiques, je reois un
mixage complet5.1, ou des stems5.1 spars.
Complment
Web 6.5
Thierry Lebon ITV.

Vincent Arnardi, mixeur film, interview


Vincent Arnardi est mixeur film, il a collabor sur un grand nombre de films tels que
Revolver, Alexandre, Le fabuleux destin dAmlie Poulain.

308

Chapitre 6 La

postproduction

Avec les technologies actuelles et le nombre de pistes grandissantes grer, la nouvelle


gnration de monteurs son prparent dune manire plus sophistique les sources
sonores destines au mixage.
La multiplicit et la demande sonore tant plus fortes de la part des ralisateurs,
lapproche est beaucoup plus prcise, donc le travail de la bande son est bien avance
lissue du montage son pour quau moment du mixage, le mixeur se concentre sur
dautres problmatiques: lharmonie des sons les uns par rapport aux autres.
La colonne vertbrale dun film est le dialogue, le rcit, il se trouve le plus au centre
de la salle. Il arrive que lon spatialise certaines sources dialogues et on met en scne
des espaces, des mouvements. Laspect motionnel est donn par la musique. Les
ambiances et les FX constituent lhabillage, le costume, ils donnent les profondeurs de
champ et sassocient avec la musique aussi dans le contexte motionnel.
Complment
Web 6.6
Vincent Arnardi ITV.

6.15.2 TVHD: habillage sonore Arte HD 2008


Complment
Web 6.7
Thme et moutons Arte 2008.

6.15.3 Musiquede film: Requiem pour une tueuse


Complment
Web 6.8
Musique Requiem pour une tueuse.

Chapitre 7
Le codage et la diffusion

Points

essentiels

- Principes du codage : codage entropique et codage perceptif.


- chantillonnage et quantification.
- Modles psychoacoustiques.
- Mthodes dvaluation subjective.
- Codages MPEG, Dolby, DTS.
- Supports : DVD, SACD, Blu-ray.

Dunod Toute reproduction non autorise est un dlit.

- Diffusion : DVB, DAB, DCP, jeu vido, streaming.

7.1

Introduction

7.1.1

Dfinition

Ce chapitre traite du codage numrique, qui est une transformation du signal audio
afin de rduire son dbit et faciliter sa transmission ou son stockage.
Le format PCM a t le premier codage couramment utilis et adopt par la norme CD
audio. Cette simple numrisation du son est dj un codage puisquen dfinissant une

310

Chapitre 7 Le

codage et la diffusion

frquence dchantillonnage, on limite la frquence la plus haute et en dfinissant la


quantification, on impose une dynamique maximale.
Lavantage incontestable du numrique rside dans la possibilit de conserver, transmettre et dupliquer indfiniment sans dgradation.

7.1.2 Pourquoi rduire le dbit ou la taille?


Quel que soit le support, physique ou virtuel, la taille du contenu ou la bande passante
ncessaire sa transmission, ont un cot et il est gnralement souhaitable den rduire
le dbit, pour des raisons conomiques ou pratiques.

7.2

Principes
Deux voies peuvent sassocier: le codage entropique qui rduit le dbit mais ne supprime aucune information et le codage perceptif conu pour supprimer les informations inaudibles.

7.2.1 Codage entropique


Quand un signal audio est numris sous format PCM, une partie de linformation
numrique est inutile ou redondante: parce que la nature du signal audio nest jamais
totalement alatoire et parce que le canal complet de 0 FS/2 nest pas compltement
occup.
Des informations peuvent tre supprimes sans dgradation par un codage alors appel
codage entropique qui doit satisfaire aux exigences suivantes:
permettre de reconstituer le signal originel;
tre robuste aux erreurs de transmission;
contrler et limiter le dbit maximal.
La rduction de taille possible par ces formats lossless est limite environ 50%
pour les signaux musicaux habituels. Une rduction de dbit plus importante ncessite
des codages perceptifs.

7.2.2 Codage perceptif, enlever linaudible


Dans le signal audio enregistr et numris, une partie du signal cod est inaudible.
Par exemple, pour une quantification linaire, un signal faible, quil soit seul ou en prsence dun signal fort est cod de la mme faon. Pourtant en prsence du signal fort,
certains signaux faibles sont masqus. Les codages perceptuels permettent de rduire
la taille ou le dbit en supprimant ces informations non perceptibles. La complexit et
lvolution de ce type de codage viennent des amliorations de modlisation du systme auditif pour supprimer le maximum dinformation en matrisant la dgradation
audible.

7.2 Principes

311

Paramtres de codage
Qualit

La qualit auditive est un lie diffrentes caractristiques techniques dont principalement le dbit. La mesure de la qualit est aborde ultrieurement et concerne le codage
perceptif et non le codage entropique.
Dbit

Le dbit, donn en bits par seconde, (kbit/s ou Mbps) est une caractristique souvent
utilise pour qualifier un codage.
Complexit

Les complexits du codage et du dcodage sont des lments important des systmes
matriels ou logiciels. Les utilisations tant asymtriques, un codeur et des millions de
dcodeurs pour une diffusion radiophonique ou tlvise, cest la simplicit du dcodage qui est favorise. En principe, les spcifications ne dfinissent que le dcodage,
ce qui permet les progrs du codage en restant compatible avec les dcodeurs en utilisation.
Latence

La latence est un dlai de traitement, prsent au codage et au dcodage. Selon lexploitation, les impratifs de latences sont diffrents: une conversation tlphonique exige
une latence trs faible. Par contre le dlai de codage dun signal audio pour un support
DVD ou Blu-ray na pas dimportance.
Robustesse

Elle caractrise la rsistance du codage aux erreurs et pertes lors des diffusions ou
transferts. Rajouter des codes pour viter les erreurs lors de la reconstruction du signal
est toujours un compromis entre dbit et robustesse.

Dunod Toute reproduction non autorise est un dlit.

7.2.3 Les bases du codage


Traitement du signal
Le signal acoustique peru par notre appareil auditif est de nature mcanique: les
vibrations des molcules dair font vibrer le tympan. Les caractristiques principales
en sont:
la bande passante perue entre 15Hz et 20kHz environ;
la dynamique du signal, estime entre 0dB et 130dB SPL, reprsente lcart entre le
signal le plus faible perceptible et le niveau au seuil de la douleur.
Ces aspects sont associs aux deux principales caractristiques de la numrisation du
signal: lchantillonnage et la quantification.

312

Chapitre 7 Le

codage et la diffusion

Numriser le signal consiste mesurer la valeur instantane du signal un temps


donn et le temps entre deux mesures successives dtermine la frquence dchantillonnage.
chantillonnage
Pour conserver toute linformation dun canal, le thorme de Nyquist-Shannon exige
que la frquence dchantillonnage soit suprieure au double de la frquence maximale
du signal.
Pour viter des phnomnes de repliement de spectre et les distorsions en dcoulant, il
faut strictement limiter la frquence du signal avant numrisation. Compte tenu de la
pente finie du filtrage, la bande passante utile est sensiblement infrieure la frquence
de Nyquist qui est dfinie la moiti de la frquence dchantillonnage.
Les frquences dchantillonnage du CD (44100Hz) ou du DVD (48000Hz) permettent des bandes passantes thoriques respectives de 22050Hz ou 24000Hz qui
satisfont pleinement le critre de la bande passante audible.
Quantification
Chaque valeur instantane du signal, mesure la frquence dchantillonnage, est
reprsente par une valeur de quantification. Pour un codage en N bits, on peut ainsi
coder 2N valeurs.
En quantification uniforme, les intervalles sont gaux et la dynamique se calcule par
20*log (2Q) soit 6.02 * Q, donc 96dB pour 16bits et 144dB pour 24bits.
Dither et Noise-shaping
Les techniques de dithering et de noise-shaping permettent damliorer considrablement les performances objectives et subjectives du codage.
Par troncature lors de la numrisation, un signal de niveau infrieur au premier bit de
quantification disparat. Mais en rajoutant un autre signal de niveau un peu plus lev,
lensemble dpassera le seuil de quantification et aprs numrisation, on retrouvera en
partie le premier signal! Le signal de dither ajout est gnralement un bruit et la technologie du noise-shaping rpartit ce bruit dans les hautes frquences, moins audibles.
Ces technologies sont utiles lors doprations sur le message numrique: rduction de
la quantification, de 24 16 bits par exemple, diminution du gain, mais sont appliquer
avec prcaution afin de limiter le niveau du bruit rajout. Des techniques similaires
sont directement appliques dans certains convertisseurs A/D et D/A.
Complment
Web 7.1
Effet de lajout du signal de dither.

7.2 Principes

313

Transformation temps-frquence
Le signal acoustique volue temporellement mais lanalyse faite par le systme auditif, dont la membrane basilaire de loreille interne, est plutt de nature frquentielle.
Certaines performances de loreille tant plus faciles caractriser dans un domaine
frquentiel, des outils mathmatiques, les transformes, permettent de passer dun
domaine lautre. Dans le cas du codage audionumrique, les transformes sont bases
soit sur des banques de filtres soit sur les transformes de Fourier discrtes (DFT).
Ces transformes permettent de calculer le spectre dun signal stationnaire ou non.
Gnralement on scinde le signal en blocs en imaginant que ceux-ci se rptent priodiquement. Les transformes modifies utilisent une proprit de traitement de
signal appele TDAC (time-domain aliasing cancellation) qui permet de calculer sur
des fentres conscutives se recouvrant et, sous certaines conditions, dviter dintroduire des erreurs dues au repliement temporel.
7.2.4 Bases de psychoacoustique
Les seuils daudibilit
La rponse de loreille nest linaire ni en frquence ni en niveau, ce qui est constat sur
les courbes daudibilit en figure7.1.
Ces rponses sont approximatives et reprsentent une moyenne qui ne correspond pas
forcment la perception individuelle.
Dfinitions
- dBSPL: mesure physique ayant pour rfrence 0dB une pression sonore
de 20 micropascals.
- Phones: mesure du niveau sonore peru rfrenc 1kHz. Un son de
60 phones 300Hz est peru au mme niveau quun son de 60 phones
1kHz alors que leurs niveaux SPL sont trs diffrents.

Dunod Toute reproduction non autorise est un dlit.

- Sones: reprsentation du niveau sonore peru. Un son de 2 sones est


peru comme deux fois fort quun son de 1 sone. Un sone correspond un
son 40 phones donc une pression SPL de 40 dBSPL 1kHz.

Masquage temporel
Le masquage temporel est un processus li loreille interne qui rend inaudibles les
signaux faibles prcdant ou suivant un signal fort. Le temps de post-masquage peut
stendre 100ms, alors que le prmasquage est limit environ 20ms.
Masquage spectral
On parle de masquage frquentiel ou de masquage simultan quand un son nest pas
peru parce quil est couvert par un son de niveau plus lev mais simultan.

314

Chapitre 7 Le

codage et la diffusion

Figure7.1Courbes disophonie WikimediaCommons.

Figure7.2Masquage temporel, J.-L.Ohl.

Le seuil de masquage, diffrence minimale de niveau entre le son masquant et le son


masqu, dpend dun grand nombre de paramtres dont le contenu spectral. Par la
membrane basilaire et ses cils, loreille interne effectue un filtrage, une transformation
temps vers frquence, qui induit la notion de bande critique.
Cette notion de Bande Critique est fondamentale en psychoacoustique : quand
une tonalit est prsente, les autres frquences situes dans la bande critique sont
masques.
Sa largeur frquentielle a dabord t exprime en Barks par Zwicker. Moore a approfondi et prcis ces courbes en exprimant la bande de masquage en ERB (Equivalent

7.2 Principes

315

Figure7.3Largeur de bande critique J.-L.Ohl

Dunod Toute reproduction non autorise est un dlit.

Figure7.4Masquage frquentiel, J.-L.Ohl.

Rectangular Bandwidth). Dans les moyennes frquences, les bandes prsentent une
largeur denviron 1/6e doctave. Dans le registre grave, les performances sont bien
moindres.

7.2.5 Modles psychoacoustiques


Un modle psychoacoustique est une base de donnes qui intgre les caractristiques
de laudition, principalement les phnomnes de seuils et de masquage pour les appliquer au traitement du signal de codage. Le signal est coup en blocs temporels filtrs et
analyss frquentiellement. Chaque bloc est alors requantifi en appliquant les paramtres dtermins par le modle.
La taille de la fentre temporelle doit rpondre deux exigences contradictoires: augmenter la taille pour assurer une bonne rsolution frquentielle mais la limiter pour

316

Chapitre 7 Le

codage et la diffusion

suivre fidlement les signaux courts (percussifs, par exemple). En effet, les erreurs sont
dfinies par la notion de bruit de codage, rparti sur la dure du bloc. Ce bruit dans
un bloc court est plus proche temporellement du signal et donc mieux masqu. Leffet
typique d une longueur de bloc trop importante est le pr-cho, une erreur ressemblant au signal coder mais sans bnficier du prmasquage.
Dans les codages volus, la taille des blocs est asservie au signal, des blocs longs tant
plus efficaces pour la rduction de dbit et des blocs plus courts sont utiliss si laudio
a un caractre transitoire (128 chantillons donc 3ms au minimum dans le cas de
lAAC). Les erreurs sont toujours prsentes mais mieux masques subjectivement parce
que plus proches temporellement du signal.
Le spectre instantan extrait du signal est compar aux courbes de masquage frquentiel et le contenu sous le seuil nest pas cod. Le signal restant, nest cod quau-dessus
de la courbe de masquage, en 4 ou 5 bits seulement au lieu des 16 ou 20 de dpart.
La prparation des lments est un aspect primordial du codage: si les signaux sont
bruits, une partie du dbit sera utilise pour coder le bruit de nature alatoire. Il est
donc important, en audio comme en vido, de nettoyer les lments avant toute
compression.
Un aspect des modles psychoacoustiques est li la perception spatiale: la localisation
rsulte des diffrences entre les signaux chaque oreille, des variations de ces signaux
lors des mouvements de la tte et des schmas cognitifs. Les diffrences fondamentales
entre les signaux dichotiques sont celles lies la phase interaurale dans les basses frquences (jusqu environ 700Hz), lcart damplitude et aux carts temporels entre
enveloppes des signaux (dlai de groupe) au-dessus de ces frquences.

Figure7.5Influence de la dure des blocs de quantification, J.-L.Ohl.

7.2 Principes

317

Modle

psychoacoustique

- Seuils daudibilit.
- Limite dans les hautes frquences.
- Masquage temporel.
- Masquage simultan et frquentiel.

Fonctions du systme auditif

Dunod Toute reproduction non autorise est un dlit.

Figure7.6Schma de lappareil auditif, Wikimedia Commons.

Appareil auditif

Organes

Traitement du signal

Oreille externe

pavillon, conduit auditif

filtrage HRTF pour la


localisation

Oreille moyenne

tympan, osselets, fentre


ovale

rduction de la dynamique

Oreille interne

cavit en colimaon, cochle,


membrane basilaire, cellules
cilies

transforme
temps-frquence, filtrage en
bandes critiques

Systme nerveux

nerf auditif, noyau olivaire,


colliculi, cortex

seuil de dtection, filtrage,


verrouillage de phase,
localisation, signification

Figure 7.7 Principales fonctions de lappareil auditif, J. L.Ohl.

318

Chapitre 7 Le

codage et la diffusion

Quantification et codage entropique


Quantification et densit
Une quantification faite avec un dictionnaire de dimension unitaire est appele quantification scalaire, ce qui est le cas en audio. Sinon il sagit dune quantification vectorielle. La quantification scalaire est uniforme quand les pas de quantification (niveaux)
sont gaux.
Si la rpartition de la densit des niveaux du signal est prvisible, il est plus efficace
dutiliser une quantification non linaire. Les codages A-law et mu-law des tlcommunications, utilisent une compression de la dynamique du signal par un codage en
8 bits sur une chelle logarithmique pour coder les 16 bits PCM. En cas destimation
errone de la rpartition, la dgradation peut tre importante.
Complment
Web 7.2
Quantification non linaire.

Codage entropique
Les informations dun signal numris noccupent jamais la totalit du canal de transmission, une partie est inutile ou redondante. Le codage entropique propose de rduire
le dbit de codage sans perdre dinformation, le dcodage retrouvant totalement les
informations dorigine.
Une technique utilise en codage entropique est celle des codes de Huffmann o les
caractres les plus frquents sont cods avec moins de signes. Appliqu la langue
franaise, cela revient coder la lettre e avec le code le plus court et la lettre w avec
un codage long. Lapparition du e tant plus frquente que celle du w, la taille du
texte cod est rduite.
Le codage LZW (Lempel-Ziv-Welch) est comparable celui de Huffmann mais avec un
dictionnaire adaptatif redfini au fur et mesure selon la frquence dapparition des
caractres.
Prdiction linaire
Un signal audio nest pas alatoire et il peut tre partiellement prdit en se rfrant aux
chantillons prcdents. La prdiction linaire est un codage diffrentiel par quantification vectorielle et seule lerreur rsiduelle reste coder.
Cette technologie est efficace sur les signaux musicaux et particulirement sur la
voix, signal constitu de formants (base des voyelles qui sont des signaux sinusodaux
moduls en frquence et en niveau), et des consonnes produites par obstruction du
passage de lair, donc des signaux dune nature plus bruite et plus alatoire. On code

7.2 Principes

319

ainsi conomiquement en termes de dbit les formants auxquels on rajoute les bruits
des consonnes.
Banques de filtres, codage par sous-bandes
Dans ce type de codage, le signal est filtr par bandes de frquences puis cod indpendamment dans chaque bande. Compte tenu du masquage frquentiel, un signal fort va
masquer les signaux plus faibles de la mme bande. Ceci permet de rduire considrablement la quantification par bande: au lieu de 16 ou 24 bits, il est possible de rduire
la quantification 4 ou 6 bits.
Souvent utiliss pour ces applications de filtrage par sous-bandes, les filtres miroirs en
quadrature (PQMF) sont implments en traitement du signal numrique pour sparer
la bande passante par filtre passe-bas et filtre passe-haut complmentaires. En mp3,
ATRAC et MPEG4-AAC-SSR, ces filtres PQMF sont suivis dune transforme MDCT,
on parle alors de filtrage hybride.
Reconstruction de Bande Spectrale (SBR)

nergie

Transposition

Frquence

nergie

Cette technologie supprime une partie du spectre des hautes frquences, procurant
une nette rduction de dbit. Au dcodage, un spectre reconstitu complte les
harmoniques manquantes.

Reconstruction par
rplication de bande
spectrale SBR

Frquence

Dunod Toute reproduction non autorise est un dlit.

Figure7.8Reconstruction de bandes spectrales, CodingTechnologies.

Rservoir (buffer)
Le signal audio tant peu prvisible, il est difficile de connatre par avance le dbit
instantan ncessaire. Un rservoir tampon est permet dabsorber les pics de dbit et
se libre rythme constant. Ainsi le nombre de bits par trame du signal est variable
mais la moyenne reste constante.
Common bit pool

Dans le cas de signaux multicanal, des algorithmes permettent de rpartir les donnes
selon le besoin de chaque canal.

320

Chapitre 7 Le

codage et la diffusion

Codage spatial (Spatial Audio Coding)


Quand plusieurs canaux sont cods, la corrlation entre les canaux permet des rductions de dbit. Lensemble de ces techniques est souvent appel Joint coding et Joint
stro pour 2 canaux. Les formats MPEG Surround reposent sur les technologies SAC.
Codage M/S
Dans un signal strophonique, on peut dcomposer les signaux en signal commun et
en signal diffrentiel. Avec G pour gauche, D pour droite, M.signifiant Mitte (milieu)
et S pour Seite (ct):
M.=(G +D)/2 et S =(G-D)/2
est quivalent : G =M/2 +S/2 et D =M/2 - S/2
Ce codage M/S rduit sensiblement le dbit quand le niveau du signal commun Mest
bien plus important que celui du signal de diffrence S. Un calcul similaire peut sappliquer en multicanal.
Joint Frequency encoding
Au-dessus de 5kHz, loreille est moins performante. La direction apparente est lie
lenveloppe des signaux: partir de 2kHz, la perception binaurale est surtout lie
lILD (Interaural Level Difference). Il est possible de coder le signal comme un signal
monophonique somm, avec un coefficient par canal. Lors du dcodage, le signal mono
est envoy chaque canal selon le coefficient. Pour deux canaux, on parle de stro
intensity.

Codages paramtriques
Pour rduire le dbit, les techniques de codage paramtrique dcomposent le signal
en lments dcrits par des modles et des paramtres. Les lments perceptifs sont
modliss plutt que les seuls paramtres physiques: un signal de base simple est cod
en associant des paramtres complmentaires dcrivant les lments psychoacoustiques plus complexes.
Codage sinusodal
Le modle le plus usit est le codage sinusodal o le signal est reprsent par des
composantes sinusodales, dont on dfinit les frquences et amplitudes instantans.
Un modle hybride rajoute des transitoires et du bruit. Par exemple, le modle MPEG4paramtrique (HILN) dfinit les composantes sinusodales et les composantes harmoniques par leurs frquences et amplitudes, par lenveloppe spectrale des harmoniques
et le bruit par son amplitude et son enveloppe spectrale.
Autre exemple, les mthodes de la stro paramtrique permettent dencoder plusieurs
canaux en un seul flux monophonique associ des informations lies la localisation
spatiale:

7.3 Qualit

321

subjective

diffrence dintensit entre canaux (ILD);


diffrence de phase entre canaux (ITD);
cohrence (intercorrlation) entre canaux (ICC InterChannel Cross Correlation).
Grce linformation de cohrence, la stro paramtrique est utilisable sur lensemble
du spectre, contrairement la stro dintensit. Une technologie similaire lICC mais
applique en multicanal est appele BCC (Binaural Cue Coding). Le signal commun
monophonique est encod et accompagn des paramtres dILD, ITD et ICC permettant de reconstituer les informations de spatialisation. Ces paramtres supplmentaires
sont transmis dans les donnes auxiliaires. Les codages dits hybrides associent
filtrages, transformes et codage paramtrique.
MPEG Surround
Le codage paramtrique est une des bases du MPEG Surround qui permet de coder et
dcoder par tapes en sparant de faon matricielle les informations de base, puis en
ajoutant ces paramtres de directionnalit (side information), tout en conservant une
compatibilit simple entre formats.
Complment
Web 7.3
Codage paramtrique des informations directionnelles du multicanal.

Dunod Toute reproduction non autorise est un dlit.

Dbit variable
Constant Bit Rate et Variable Bit Rate
Le dbit dun flux encod peut tre soit constant (CBR) soit variable (VBR). Un dbit
constant ne sadapte pas la complexit du message et le canal dinformation nest pas
utilis de faon optimale. Un dbit variable suit la difficult de codage du message en
conservant comme cible une valeur moyenne de dbit. Gnralement, un rservoir
assure une constance dans le flux des donnes, en adaptant le dbit instantan. En
dbit variable, la valeur nominale est fixe mais certains codages permettent de dfinir
les dbits minimal et maximal et la taille du rservoir.

7.3

Qualit subjective
Tout codage est un compromis entre diffrents paramtres mais surtout entre dbit et
qualit sonore. Lvaluation de la qualit est dlicate, les tests dcoute tant subjectifs
et donc complexes, longs et couteux. La mesure objective de la qualit subjective
propose de remplacer les coutes par des mesures objectives dont il faut vrifier la
pertinence et les limites.

322

Chapitre 7 Le

codage et la diffusion

7.3.1 Mthodes dvaluation perceptuelle


Selon la qualit du codage, il existe diffrentes mthodes dvaluation adaptes limportance des dfauts. Les dfauts perus facilement sont classs en distinguant les
dfauts inacceptables et ceux bnins. Pour un codage proche de la perfection, cest
plutt la prsence dun dfaut et son audibilit ventuelle qui est tudie.
Les principales mthodes dvaluation sont:
mthodes par dtermination de qualit absolue;
mthodes par dgradation;
mthodes par dtection de diffrence.
Guides gnraux
BS. 1283-1

BS.1284-1

Guide des recommandations IUT-R sur lvaluation


subjective de la qualit du son

Mthodes gnrales dvaluation subjective de la


qualit du son

Mthodes de tests dcoute


BS. 1116-1

BS.1285

BS.1534

BS.1679

Mthodes dvaluation
subjective des faibles
dgradations dans
les systmes audio, y
compris les systmes
sonores multivoies

Mthodes de prslection
pour lvaluation
subjective des faibles
dgradations dans les
systmes audio

Mthode dvaluation
subjective du
niveau de qualit
intermdiaire des
systmes de codage

valuation subjective de
la qualit audio dans les
applications dimagerie
numrique sur grand
cran destines la
prsentation en salle.

Modle objectif
BS.1387-1
Mthode de mesure objective da la qualit du son peru
Audio-visuel
BT.500-13

BS.775-1

BS.1286

Mthodologie dvaluation
subjective de la qualit des
images de tlvision

Systme de son strophonique


multicanal avec ou sans image
associe

Mthodes dvaluation subjective


des systmes audio avec image
daccompagnement

Figure 7.9 Normes ITU-R pour lvaluation subjective, Nick Zacharov.

Complment
Web 7.4
Quelles normes pour quel besoin?

7.3 Qualit

323

subjective

Le document ITU-R BS.1283-1 regroupe le dtail des normes de lUnion


Internationale des Tlcommunications destines aux mthodes dvaluation
subjective de la qualit sonore:
- I TU-R BS.1116-1 Mthodes pour lvaluation subjective de la qualit sonore
dans le cas de dgradation faible, y compris pour les systmes multicanal.
- ITU-R BS.1284-1 Mthodes pour lvaluation subjective de la qualit
sonore.
- ITU-R BS.1285 Mthodes de prslection pour lvaluation subjective
systmes audio dgradation moyenne.
- ITU-R BS.1286 Mthodes pour lvaluation subjective de systmes audio
accompagns par limage.
- ITU-R BS.1387-1 Mthode PEAQ de mesure objective de la qualit du son
peru.
- ITU-R BS.1534-1 Mthode MUSHR A pour lvaluation subjective de
codages de qualit intermdiaire.

MUSHRA
La signification est: MUltiple Stimuli with Hidden Reference and Anchor, qui est une
mthode dvaluation subjective avec comparaison entre stimulis, base sur la norme
ITU-R BS.1534.

Dunod Toute reproduction non autorise est un dlit.

Les diffrents lments sont nots subjectivement sur une chelle de 0 100. Au moins
deux lments de rfrence sont prsents parmi les lments compars: un original
non compress et un codage avec dfauts importants (appel ancre, souvent un
codage avec filtrage passe-bas 3,5kHz). Ce qui permet de forcer ltalement des notes
et dobtenir une chelle quasi absolue.

Figure7.10Exemple de test de codec avec score MUSHRA, EBU.

324

Chapitre 7 Le

codage et la diffusion

Mthodes en double aveugle


Double aveugle signifie que ni lauditeur, ni le testeur ne connaissent lidentit du stimulus cout linstant. Ce qui limine le biais du testeur influenant, mme inconsciemment, le rsultat.
Mthodes pour dgradations lgres
La norme ITU-R BS.1116 (double blind triple stimulus with hidden reference) propose
une mthode pour analyser les dgradations faibles de la qualit. Il est propos trois
stimulis lcoute, A tant le stimulus dorigine non dgrad et B ou C tant alatoirement identique A. Il sagit de noter la qualit perue de B et C sur lchelle de dgradation prsente ci-dessous. Il est intressant de consulter les normes parce quelles
prsentent de faon exhaustive les conditions pour mener correctement les essais.

Figure7.11chelle de dgradation de la norme ITURBS1116 et IEC6026813, J.-L.Ohl


partir de ITURBS1116 et IEC6026813.

Une autre mthode utilise quand il sagit de dterminer si la dgradation est perceptible, est la mthode ABX en double-aveugle. Deux sources, A tant le stimulus dorigine non cod et B le codage sont compares.
Principe du test: X est choisi au hasard, tant A ou B. Lauditeur coute et bascule
entre A, B et X. Ensuite lauditeur dcide si X est A ou X est B. Puis une nouvelle squence est dmarre avec X choisi au hasard. Un score suffisant est ncessaire
pour obtenir un rsultat statistiquement valide: par exemple 15 russites sur 16 essais
correspond une probabilit de russite par hasard infrieure 1/1000. Dans cette
mthode, certains critres objectifs sont respecter: niveaux aligns moins de 0,2dB,
commutations imperceptibles et identiques.
Complment
Web 7.5
Interface dun logiciel de test ABX.

7.3 Qualit

subjective

325

7.3.2 Mesures perceptuelles


Mesure objective de la qualit subjective
Les modles psychoacoustiques permettant de coder en supprimant les lments inaudibles dun signal, peuvent aussi tre utiliss dans le but de vrifier quun codage na
pas supprim une partie audible, ou encore pour mesurer la qualit subjective. La complexit de lorganisation et la difficult des coutes subjectives incitent lutilisation des
tests objectifs qui deviennent plus performants.
Norme ITU-R BS.1387
Comme les mthodes de mesure habituelles (distorsions, bruit) ne sont pas utilisables pour un signal avec codage perceptif, il a t ncessaire de dfinir des normes
permettant une mesure objective de la qualit, si possible en temps rel, pour remplacer
les mesures physiques et les coutes subjectives.
Le modle cognitif calcule une note diffrentielle objective (ODG, Objective Difference
Grade) partir des dgradations mesures:



Rduction de bande passante;


Rapport bruit/masque;
Distorsions linaires, distorsions non linaires et bruit;
Structure harmonique du signal derreur.

Une chelle de dgradation entre 0 (dgradation imperceptible) et -4 (dgradation


gnante) est utilise pour cette note ODG.

Dunod Toute reproduction non autorise est un dlit.

7.3.3 Considrations pratiques


Les conditions dcoute permettant des tests efficaces et valides sont prcises dans les
normes dont lITU-R BS.1116-1 pour les tests subjectifs.
Choix des auditeurs
Surtout pour les dgradations faibles, il est plus efficace de choisir des auditeurs entrans: les dfauts sont plus rapidement dtects et avec une meilleure fiabilit.
Choix des extraits
Certains types sonores sont connus pour mettre en vidence les dfauts: le diapason, le
clavecin, le glockenspiel, les applaudissements sont parmi les squences rputes difficiles coder comme certains extraits SQAM (Sound Quality Assessment Material), disponible sur le site internet de lEBU, associs au document explicatif EBU Tech 3253. Le
site hydrogenaud.io propose aussi des liens vers des squences dlicates pour le codage.

326

Chapitre 7 Le

codage et la diffusion

7.3.4 Comparaison de codage


Les comparaisons peuvent se faire partir de fichiers ou de flux. Lcoute comparative de codage ncessite absolument de sassurer de lgalit des niveaux, qui nest pas
garantie par les dcodeurs. Il est souvent plus simple de reconvertir les fichiers en format PCM, daligner les niveaux et de comparer les fichiers dcods. Sil sagit de flux, il
est prfrable dutiliser des dcodeurs spars afin dviter le temps de latence lors de
la commutation entre formats.
7.3.5 Artefacts typiques de codage
Sans essayer dtre exhaustif, on peut prsenter quelques problmes subjectifs lis aux
codages perceptifs.
Dfaut

Causes possibles

Exemple de signaux de test

Pertes dans laigu

Filtrage passe-bas

Clavecin, cornemuse

Pr-cho

Taille de la fentre de codage

Caisse claire, castagnettes

Distortions des transitoires,


chirp

Taille de la fentre de codage

Caisse claire, castagnettes,


applaudissements

Coloration de timbre

Clarinette, voix, glockenspiel

phasing

Bruit de pluie

Distortions spatiales
(resserrement)

Traitement M/S

Orchestre classique

Pompage
Bruit

Piano
Erreurs par dmasquage
binaural

Source quasi-mono

Figure7.12Tableau des principaux dfauts de codage.

valuation en stro ou en multicanal


En raison du phnomne de dcoloration binaurale, la dtection des artefacts est quelquefois plus aise en monophonie mais certains artefacts de distorsions spatiales (le
resserrement de limage sonore par exemple) ou lapparition dartefacts dans les canaux
adjacents, ne sont mis en vidence que lors dcoutes strophoniques ou multicanal.
7.3.6 Codage en cascade
Certains codages ne sont pas tudis pour une utilisation en cascade qui peut alors
engendrer une dgradation importante. Cette pratique est pourtant frquente dans en
diffusion radio ou tlvise, mais est difficile viter parce que le workflow est fig et
que les fichiers ou les flux ne portent pas les informations des codages prcdents. Dans
un schma de diffusion, entre captation, transport, contribution, montage et diffusion,
il est frquent quun flux ou fichier audio subisse 4 ou 5 codages successifs.

7.4 Codage

327

sans pertes

7.3.7 Canaux discrets et canaux matrics


Un contenu multicanal peut tre prsent de deux faons diffrentes: canaux indpendants (discrets) ou canaux matrics.
Matriage
Le terme matriage est employ dans deux cas trs diffrents:
par exemple en codage M/S, les canaux audio sans compression sont transmis par
le mme nombre de canaux et il ny a pas de gain en dbit lors de cette opration;
dans lautre cas, on parle de matriage pour coder un nombre suprieur de canaux
dans un format ou un flux prvu pour en contenir moins. Ce type de codage est
gnralement conu pour tre compatible avec le format dorigine qui doit pouvoir
tre retrouv sans dgradation si le dmatriage nest pas disponible. Presque tous les
mdias en bandes, disques analogiques ou numriques ont propos des versions
multicanal matrices.

7.4

Codage sans pertes

7.4.1 PCM
Nous avons vu prcdemment le format PCM dfini par la frquence dchantillonnage
et la quantification utilise. La quantification est gnralement linaire, on peut alors
parler de LPCM, Linear Pulse Code Modulation.
Complment
Web 7.6

Dunod Toute reproduction non autorise est un dlit.

Type de fluxPCM selon lutilisation.

7.4.2 Lossless
En appliquant les mthodes de compressions bases sur un codage entropique, diffrents formats sont apparus pour remplacer le PCM en ajoutant des lments complmentaires (tags). Ces formats qualifis de PPCM Packed Pulse Coded Modulation,
proposent les avantages suivants par rapport au LPCM:



une rduction de dbit allant jusqu 50%;


un format plus robuste aux transferts et aux erreurs;
des donnes auxiliaires utilisables pour dcrire le contenu;
une adaptation la diffusion en flux (streaming).

Parmi ces formats, on peut citer FLAC, Apple Lossless, Wavpack, Dolby True HD
(MLP), DTS HD-Master Audio, Merging LRC.

328

Chapitre 7 Le

codage et la diffusion

Si les technologies Lossless sont plus frquentes en mode fichier, les codages de flux
doivent eux satisfaire la contrainte dencodage en temps rel tout en assurant une
constance de dbit.

7.4.3 DSD
Le Super Audio CD propos par Sony sappuie sur une technologie dchantillonnage
en format DSD (Direct Stream Digital) de type One-Bit 64Fs soit 2,88MHz (64 x
44,1kHz), appel aussi DSD64. Ce qui permet une bande passante extrme et lavantage dun filtrage simple lors de la conversion numrique-analogique, au dtriment des
performances en bruit et dynamique.
La production de SA-CD impose des convertisseurs et des stations de montage audionumrique particulires travaillant en DSD et non en PCM. Pour pallier cette limitation, la socit Merging propose le format DXD Digital eXtreme Definition, en 24 bits,
chantillonn 8Fs soit 353kHz et permettant un travail ddition pour DSD, sans
perte en rsolution.

7.5

Codages perceptifs

7.5.1 Famille MPEG Audio


Le projet europen EUREKA 147 est un projet men partir de 1986 pour dvelopper
la diffusion audionumrique DAB (Digital Audio Broadcast). Parmi les propositions
issues de ces recherches, le codage MUSICAM (Masking pattern adapted Universal
Subband Integrated Coding And Multiplexing) ainsi que le codage ASPEC (Adaptive
Spectral Perceptual Entropy Coding) ont mis en commun certaines technologies pour
tre adopts et normaliss par le groupe MPEG pour des applications de stockage et
de diffusion.
De nombreux supports, Vido CD, DVD, Blu-ray ainsi que la diffusion tlvise et
radiodiffuse utilisent ces normes de codage de la vido et de laudio. Puis ces normes
ont volu:






MPEG-1 Audio, norme ISO/IEC 11172-3, 1992;


MPEG-2 Audio, norme ISO/IEC 13818-3, 1994;
MPEG-2 Advanced Audio Coding, AAC, norme ISO/IEC 13818-7, 1997;
MPEG-4 Audio Version 1, norme ISO/IEC 14496-3, 1999;
MPEG-4 Audio Version 2, parametric audio, norme ISO/IEC 14496-3/AMD1, 1999;
HE-AAC Spectral Band Replication (SBR), norme ISO/IEC 14496-3, 2003;
HE-AAC v2 Parametric coding et parametric stereo PS for high quality audio, norme
ISO/IEC 14496-3, 2004;
MPEG-D (MPEG Surround), Spatial audio coding, norme ISO/IEC 23003-1, 2005.

7.5 Codages

perceptifs

329

Couches et profils
Les formats MPEG sont des botes outils permettant de choisir un format avec de
nombreuses options de codage selon lusage. Les profils et les niveaux prsentent un
catalogue homogne et dterminent des configurations du format ce qui permet de
simplifier les dcodeurs qui nont pas supporter toute les variantes.
Les profils
Avec des appellations comme Simple Profile, Main Profile, High Profile, ils dfinissent un degr de complexit du codeur et du dcodeur donc les algorithmes et
options de codage possibles;
Les profils visent des applications spcifiques: HD, applications mobiles, etc.
Les niveaux (levels)
Les niveaux dfinissent un ensemble de paramtres de codage: ainsi pour laudio, le
type de dbit, les valeurs de dbit maximal, les frquences dchantillonnage
Les appellations des niveaux suivent aussi une terminologie dfinie, comme: Low
Level, Main level et High Level.
La notation gnralement utilise pour prsenter une combinaison de profil et de
niveau est par exemple pour le DVD, MP@ML signifiant Main Profile at Main Level.

MPEG 1
MPEG1 Layer 1 est une variante LC Low Complexity du codec MUSICAM faible
latence et optimis pour un dbit de lordre de 192kbit/s, utilis pour la diffusion
satellite.

Dunod Toute reproduction non autorise est un dlit.

MPEG1 Layer 2 est issu de loptimisation de MUSICAM, avec filtrage polyphase 32


sous-bandes, trame fixe de 1152 chantillons, et dbit de 32 384kbit/s Il sagit du
codage retenu pour le DAB en Europe.
MPEG1 Layer 3 repose sur le codage entropique ASPEC, complt par des filtres
hybrides et transformes MDCT, ainsi que limplmentation de la technologie du Joint
Stro Coding.Ladoption du modle Psychoacoustic II a permis lutilisation de deux
fentres: courte de 256 chantillons ou longue de 2048. Avec un dbit allant de 32
320 kbit/s, il est surtout connu sous le nom de mp3 et a volu constamment en
amliorant sa qualit. Il sagit dun codec trs rpandu: lecteurs portables, sites de
tlchargement

MPEG2
A partir du MPEG1 layer 2, le format MPEG2, normalis en 1995 par lISO/IEC 13818part3, a ajout une extension multicanal avec matriage pour conserver une compatibilit de lecture avec les dcodeurs MPEG1. Le codage de 6 canaux est possible avec la

330

Chapitre 7 Le

codage et la diffusion

voie LFE qui est chantillonne Fs/96 soit 500Hz au lieu de 48kHz pour les autres
canaux.
Ce format fait partie de la norme DVD mais les codeurs MPEG2 multicanal nayant
jamais t disponibles pour les studios dauthoring, le format Dolby Digital a t gnralement utilis.
Un autre format normalis pour le MPEG2 en ISO/IEC 13818-part7 mais abandonnant
la compatibilit avec les dcodeurs MPEG1, est lAAC Advanced Audio Coding, aussi
appel MPEG2-NBC (non backward compatible). Cette non-compatibilit a permis une
amlioration importante: un codage AAC de 5canaux 320kbit/s est quivalent en
qualit un codage MPEG2 compatible MPEG1 layer3 640 kbit/s. Le but de lAAC, en
plus de lamlioration qualitative, est doffrir un ensemble de profils afin de rpondre
des applications diverses depuis 8kbit/s.

MPEG4-AAC
Dans la norme MPEG4, le format de codage audio est une volution de lAAC qui supporte un chantillonnage de 8 96kHz, des dbits de 16 576kbit/s et jusqu 48
canaux audio.
Lapport de lAAC repose sur les technologies suivantes:




filtrage MDCT;
deux possibilits de trames temporelles: courte de 128 et longue de 1024 chantillons;
temporal noise shaping;
backward adaptive linear prediction;
stro dintensit;

joint stro par bande de frquence;


stro M/S;
noiseless coding;
bitstream multiplexing;
Support des droits DRM.
Main Profile: version complte mais sans le module de contrle de gain, fournit la
meilleure qualit.
Low-complexity (LC) Profile: sans loutil de prdiction et sans la complexit du
temporal noise shaping.
Sample-rate Scaleable (SRS) Profile: le dcodage le plus simple, version LC avec
contrle de gain.
Nomenclature de lAAC
Compte tenu du nombre important de variantes de lAAC, une codification a t suggre:

7.5 Codages

331

perceptifs

Version

profil

codage

Utilisation

AAC

AAC

AAC-LowComplexity

Qualit en haut dbit

AAC+

HE-AAC

AAC-LC + SBR + Parametric Stro

eAAC+

HE-AACv2

AAC-LC + SBR + Parametric Stro

TV et radio numrique

HD-AAC

HD-AAC

AAC-LC + Scalable Lossless Coding

Blu-Ray

Figure7.13Tableau de codification AAC, J.-L. Ohl.

Dunod Toute reproduction non autorise est un dlit.

Figure7.14Schma de la famille AAC +, J.-L. Ohl.

Figure7.15AAC, qualit compare selon le dbit, CodingTechnologies.

Complment
Web 7.7
valuation comparative de versions AAC.

332

Chapitre 7 Le

codage et la diffusion

Ce codage eAAC +est compatible par un systme de transcodage, avec le DTS et Dolby
Digital, codecs que lon retrouve dans les amplificateurs AV, ce qui permet aux radios
de diffuser un format5.1 compatible avec le parc grand public existant.

MPEG Surround, MPEG-H 3D


Abordes dans le paragraphe des codages paramtriques, les technologies du MPEG
Surround complmentent les codages MPEG1 layer2, AAC et HE-AAC pour tendre ces
formats en multicanal jusquau7.1 en restant compatible avec les dcodeurs stro. Le
dbit supplmentaire pour le codage paramtrique des canaux ajouts est rduit ce qui
rend simple lvolution des transmissions radiophoniques ou tlvises vers ce format.
Complment
Web 7.8
Dcodage MPEG Surround en stro et multicanal.
Complment
Web 7.9
MPEG-H 3D.

7.5.2 Famille Dolby


Dolby Surround
Principe du Dolby Surround
Le format multicanal Dolby Surround matric en stro est aussi nomm LtRt (Left
total, Right total). Dolby Surround en broadcast, il est appel Dolby Stro en cinma.
Le procd repose sur un matriage 4-2-4par lequel le mixage LCRS est matric en
stro LtRt, ce qui permet de stocker et diffuser par les format stro habituels du
cinma, TV (Nicam, cble, satellite) et radio FM. Lencodage 4-2 saccompagne souvent
du procd de rduction de bruit Dolby SR (Spectral Recording).

Figure7.16Encodage Dolby Surround 4-2-4, J.-L.Ohl daprs Dolby.

7.5 Codages

333

perceptifs

Pour le cinma, ce signal est couch en analogique sur la pellicule, puis lu et dcod en
LCRS par un processeur cinma Dolby CP.
Lalgorithme est fig et ne modifie pas directement les canaux L et R mais ajoute le
canal du centre 3dB. Le canal arrire Surround, limit entre 100Hz et 7kHz et
dphas de 90 (surround phase shift), subit une rduction de bruit Dolby B puis est
somm dans les canaux de diffusion LtRt, en opposition de phase.

Dunod Toute reproduction non autorise est un dlit.

Dolby Pro Logic


Le dcodage Dolby Pro Logic est frquemment utilis dans les amplificateurs AV, dans
les tlviseurs et les rcepteurs satellite. Dans le domaine professionnel, cest le processeur analogique SDU-4 qui fut utilis pour le film et on le trouve en diffusion TVHD
dans les processeurs numriques DP570 et DP564. En principe, les sparations L, R et
C, S sont infinies alors que les sparations adjacentes sont de 30dB. Dans ce procd,
les diffrences de phases entre canaux frontaux, issues de la prise de son ou du mixage
(utilisation de rverbration), peuvent engendrer des artefacts, par exemple des transitoires de sources frontales apparaissant dans les canaux arrire.

Figure7.17Dcodeur Dolby Surround Pro Logic avec fonction de steering,


J.-L.Ohl daprs Dolby.

Dolby Pro Logic 2


Le Dolby Pro Logic 2 est une volution du Dolby Surround reposant sur un algorithme
de codage et de dcodage adaptatif, avec des canaux surround stro de 100Hz
18kHz. Les programmes cods en Dolby Pro Logic 2 sont compatibles avec les rcepteurs/dcodeurs Dolby Surround Pro Logic.

334

Chapitre 7 Le

codage et la diffusion

Lencodage est une matrice 6-5-2-5, le canal LFE peut tre intgr dans L et R, avant la
fabrication des canaux Lt Rt. Puis au dcodage, les cinq canaux L C R Ls Rs sont recrs
et le canal LFE est trait par Bass Management.

Figure7.18Encodeur Dolby Surround Pro logic 2, J.-L.Ohl daprs Dolby.

Figure7.19Dcodeur Dolby Surround Pro Logic 2, J.-L.Ohl daprs Dolby

Dcodage adaptatif:
Il existe deux modes de dcodage: le mode movie garde les informations du canal
central dans le haut-parleur du centre et ne permet pas de rglage de postproduction
et le mode music qui propose des rglages pour la postproduction: divergence du
centre Center Width pour rpartir entre centre physique et centre fantme, quilibre frontal/arrire par le rglage Dimension et divergence vers les autres canaux
par le rglage Panorama.
Le dcodeur Dolby Surround Pro Logic2 offre une sparation infinie sur L, R et C,
S, et une meilleure sparation sur les canaux adjacents de 40dB contre 30dB pour le
Dolby Pro Logic1.
Les appareils professionnels DP570 et le DP564 et de nombreux amplificateurs AV et
tlviseurs intgrent les dcodeurs Pro Logic2.

7.5 Codages

335

perceptifs

Complment
Web 7.10
Dcodage adaptatif du Dolby Pro Logic 2, mode movie, mode music.

Steering
Les technologies de matriage reposant principalement sur les signaux communs et
diffrences, les performances de sparation entre canaux sont gnralement assez
faibles. Cet aspect est amlior par une technologie appele steering employe pour
le Dolby Surround et ProLogic: la diffrence de niveau entre canaux est amplifie dans
le canal le plus fort et attnue dans les autres canaux, ce qui accentue la sparation en
conservant une nergie globale quivalente.
Dolby Digital
Principe
Le Dolby Digital, de nom dorigine AC3, est un format de codage audio multicanal
discret (sans matriage), utilis pour la diffusion et devenu courant depuis larrive du
DVD. Cette technologie, apparue en 1992 avec la sortie du film Batman Returns, a
t prvue pour remplacer les matricages Dolby Stro/Dolby Surround. Utilis dans
la diffusion DVB, DVD, au cinma, dans les jeux vido (PS3, PS2, Xbox), la tlphonie
mobile, les tablettes numriques et la radio, le Dolby Digital permet la diffusion du son
multicanal5.1 et reste compatible mono, stro avec dcodeurs Pro Logic des amplificateurs AV. Il transporte la metadata de loudness qui permet duniformiser le niveau
de restitution des programmes, la metadata downmix qui optimise la compatibilit
stro et mono, et la metadata DRC (Dynamic Range Control) qui permet dadapter la
dynamique aux conditions dcoute.

Dunod Toute reproduction non autorise est un dlit.

Caractristiques
Le Dolby Digital comporte de 1 6 canaux et le channel mode prcise le nombre de
canaux transports avec le premier chiffre pour les canaux frontaux et le second pour
les canaux arrire et la lettre L dsigne la prsence du canal LFE: mode 3/2L pour le
5.1, mode 2/0 pour la stro et mode 1/0 en mono. Le canal LFE, filtr entre 3Hz et
120Hz, est chantillonn 240Hz. La rsolution est de 16, 20 ou 24 bits et les dbits
possibles vont de 32 kbit/s (mono) jusqu 640 kbit/s (5.1):
Cinma 320 kbit/s
DVB 384kbit/s
DVD 64 448kbit/s
Blu-ray 64 640kbit/s

336

Chapitre 7 Le

codage et la diffusion

Dolby Digital Cinma


Le Dolby Digital tait prsent au cinma entre les perforations de la pellicule 35mm,
sous formes de pavs cods, conjointement la version stro analogique code LtRt
avec rduction de bruit SR. Le format combin sappelle alors Dolby SR-D. Chaque
bloc de donnes contient une matrice de 7676 pixels, une image contenant 4 blocs
en 24 images par seconde. Le dbit maximal est de 554,5 kbit/s (7676424) dont
320kbit/s pour laudio, le reste en correction derreur. La version analogique sert de
secours en cas de problme de lecture de la piste numrique ou pour les salles non
quipes en Dolby Digital.

Figure7.20Dolby Digital sur pellicule Film 35mm, Dolby.

Complment
Web 7.11
Tableau rsum des formats Dolby.
Dolby Digital
- Codec utilis pour le cinma, le DVB, les supports DVD et Blu-ray.
- Formats du 1.0 jusquau5.1.
- Intgre les metadata Dialnorm, DRC, Downmix.

Dolby Digital Plus


Le Dolby Digital Plus (DD +ou E-AC3) est une volution du codec Dolby Digital,
jusquau format 13.1 avec un dbit jusqu 6 Mbps. Le DD + 224kbit/s remplace
progressivement le Dolby Digital 384kbit/s dans la diffusion du son des chanes TV
HD. Un transcodage est possible de DD +vers Dolby Digital. Prvu pour une liaison

7.5 Codages

337

perceptifs

en HDMI 1.3, il nest pas transportable dans une connexion numrique S/PDIF, sauf
transcodage pralable.

Dolby E
Principe et caractristiques
Le Dolby E est un flux professionnel de contribution, conu pour transporter jusqu
huit canaux audio 48kHz/20 bits, des mtadonnes et du time code dans une trame
PCM stro. Plusieurs rpartitions de programmes sont possibles: 8 1, 4 2,5.1 + 2.
La version la plus utilise, 5.1 + 2, transporte un mixage5.1 et une version stro LtRt
ou LoRo du programme.
Dolby annonce une intgrit de linformation jusqu 10 gnrations de codages. Les
interfaces audio numriques standards (AES/EBU, S/PDIF, SDI etc..) permettent de
transporter ces huit canaux, mais il est ncessaire de dcoder le signal pour tout traitement audio ou coute. Les magntoscopes numriques peuvent enregistrer du Dolby
E sur deux canaux en 20bits. Si lenregistrement est en format 16bits, seuls 6 canaux
peuvent tre cods.

Dunod Toute reproduction non autorise est un dlit.

Le Dolby E est synchrone limage, ce qui simplifie son traitement et permet le montage et la commutation: chaque trame du Dolby E correspond la trame vido en respectant un guard band qui garantit la protection contre la corruption des donnes
audio.

Figure7.21Guard Band signal Dolby E, J.-L.Ohl daprs Dolby.

La commutation du signal doit se faire sur ces guard bands, pour assurer la validit
des donnes. De plus, le dcodeur Dolby E cre un crossfade dune dure de 5ms dans
la zone de recouvrement.
Afin dobtenir un bon alignement du Dolby E sur la trame vido, voici les valeurs des
numros de lignes du signal vido respecter:

338

Chapitre 7 Le

Guard

codage et la diffusion

band: alignement sur la trame vido

- Signal vido SD 25 ips: de la ligne 604 la ligne 11.


- Signal vido HD 25 ips: de la ligne 1087 la ligne 20.

Complment
Web 7.12
Structure de la trame Dolby E.

Le Dolby E accepte diffrentes configurations de canaux, mono, stro, 5.1, un groupe


de canaux formant un programme. Plusieurs types de programmes sont configurables:

Figure7.22Programmes Dolby E, J.-L.Ohl daprs Dolby.

Fichiers Dolby E: MBWF, MXF


Le standard Dolby E nexige pas de fichier spcifique et utilise un fichier .wav standard
ou le format RF64-MBWF spcifi par lEBU. Bas sur un broadcast wav multicanal, il
intgre les huit canaux audio PCM du programme (5.1+2) ainsi que les metadonnes.
Ce format dchange peut sexporter depuis les stations de travail vers des applications
dencodage Dolby comme le DP600.
Traitement du Dolby E
Rglage du niveau audio

Le seul traitement possible sur un signal encod en Dolby E est lajustement du


niveau, tous les autres traitements audio ncessitant un dcodage en PCM puis
un rencodage en Dolby E. Les mots de gain de canal sont transports comme
Professional Metadata, sont modifiables dans le flux et sont utiliss pendant le
dcodage.

7.5 Codages

339

perceptifs

Montage des canaux

Chaque canal tant cod sparment, un canal peut tre remplac sans consquence
sur les autres canaux.
Temps de latence

Lencodage et le dcodage Dolby E dcalent le signal audio dune image exactement


(sauf en lecture dun programme) chaque traitement. Ce retard fixe simplifie lalignement temporel avec la vido.

Figure7.23Synchronisation des signaux vido/audio en DolbyE, J.-L.Ohl.

Dolby E
- Flux professionnel de contribution intgrant jusqu 8 canaux sur des
infrastructures PCM stro.
- Plusieurs configurations de programmes, la configuration5.1 +2 la plus
usuelle intgre le programme multicanal et la version stro LtRt ou LoRo.
- Transport des metadata et du time code.
- Dbit 1920 kbps pour 8 canaux en 48kHz.
- Synchrone limage: la trame du Dolby correspond la trame vido.
- Temps de latence: lencodage ou le dcodage Dolby E prend une image.

Dunod Toute reproduction non autorise est un dlit.

- Ncessit du dcodage pour tout traitement de signal ou coute.

Dolby Pulse
Suite au rachat en 2007 de la socit Audio Coding Technologies par Dolby, le format
Dolby Pulse a t propos pour des applications bas dbit. Ce codage compatible avec
les metadata Dolby fonctionne partir des codecs AAC, HeAAC et HeAACv2.
7.5.3 Famille DTS
Le Digital Theater System a dmarr en prsentant un systme de lecture optique sur
CD synchronis avec un projecteur cinma, utilisant un codec apt-X avec audio5.1 en
44,1kHz et 16 bits.

340

Chapitre 7 Le

codage et la diffusion

Ce codage est bas sur un filtrage polyphase en 32 sous-bandes puis requantification


ADPCM (Adaptative Differential Pulse Code Modulation) et prdiction linaire (LPC).
La technique du Joint Frequency Coding est utilise au-dessus de 2,5kHz mais seulement pour les dbits faibles.
Dans la norme dfinissant le DVD, le format DTS, aussi appel Coherent Acoustic, est
optionnel (il ne peut donc pas tre prsent seul) et accepte une structure multicanal
jusquau7.1 en 48kHz et 24 bits.
Sur le Blu-ray, certains formats DTS peuvent tre utiliss seuls, condition davoir un
dcodage possible de type DTS-Core (DTS Legacy), cest--dire une extraction du flux
de base compatible avec tous les lecteurs.
Complment
Web 7.13
Famille DTS.

Liste des codages de la famille DTS


DTS Digital Surround: le format DTS utilis dans les DVD, de 255 1509kbs ;
DTS Express: format compress bas dbit, de 64kbs 512kbs, jusquau7.1 ;
DTS-HD High Resolution jusqu7.1 canaux en 96kHz et 24 bits, de 2 6 Mbs,
compatible DTS Legacy ;
DTS-HD Master Audio, codage sans pertes jusqu7.1 96kHz ou5.1 192kHz,
compatible DTS Legacy ;
Codages DTS avec traitement sonore
DTS propose aussi diffrents formats comprenant des traitements audio lis au multicanal:
DTS Neo 6: upmix stro vers5.1 ;
DTS NeoX: upmix5.1, 6.1 ou7.1 vers 11.1 ;
Complment
Web 7.14

DTS Neo X, DTS. ;


DTS-ES matrix: ES =Extended Surround, 6.1 avec matriage du centre arrire dans
un flux5.1 ;
DTS-ES discret: 6.1 avec canaux spars, dont le centre arrire, dans un flux5.1 ;
DTS Surround Sensation: virtualisation pour deux enceintes ou casque ;

7.5 Codages

341

perceptifs

DTS Neural Surround: downmix et upmix pour transport jusquau7.1 dans un flux
stro.

7.5.4 Sony ATRAC et SDDS


Le codage perceptif ATRAC dvelopp par Sony a t utilis dans les lecteursenregistreurs minidisc et dans le systme SDDS Sony Dynamic Digital Sound propos
pour le cinma et inscrit sur les bords de la copie 35mm du film. Les huit canaux audio
sont rpartis en 5canaux frontaux, 2canaux surround et un canal LFE.
7.5.5 Auro-3D Octopus codec
Le codec utilis par les formats Auro-3D ne repose pas sur des principes psychoacoustiques de rduction de dbit mais sur lutilisation des bits de faible poids de lchantillon 24bits pour des informations utiles de spatialisation, conjointement un codage
entropique. Un fichier audio quantifi sur 24bits possde une dynamique thorique de
140dB. Le reste du systme lectro-acoustique ne pouvant exploiter au mieux que 110
120dB soit 18 20 bits, ces 4 6bits inutiles sont utiliss pour diffuser les canaux
supplmentaires et les mtadonnes des formats volus type Auro-3D 9.1 ou 11.1.
Complment
Web 7.15
Quantification du signal et dynamique.

Complment
Web 7.16

Principe du codec Auro-3D octopus.


Le codec peut multiplexer jusqu trois formats diffrents en
un seul flux avec 100 % de sparation. Par exemple, un fichier
PCM 5.1 cod en Auro-3D peut tre exploit pour transporter
un format Auro-3D 9.1 et un mixage 5.1 pour le Blu-ray.

Dunod Toute reproduction non autorise est un dlit.

Autres exemples:
11.1 ou 13.1 Auro-3D et mixage5.1, transports par un fichier PCM5.1 cod en
Auro-3D pour le DCP ;
Mixage5.1 et 2.0 stro, transports par un fichier PCM stro cod en Auro-3D
pour le broadcast ;
Mixages7.1 et5.1, transports par un fichier PCM stro cod en Auro-3D pour le
Blu-ray et le DCP ;
9.1 Auro-3D et mixage5.1, transports par un fichier PCM stro cod en Auro-3D
pour le broadcast ;
Le dcodage Auro-3D implique une latence de trois chantillons, soit 60 s pour un
signal 48kHz. Les principales mtadonnes sont:
information des flux audio multiplexs ;

342

Chapitre 7 Le

codage et la diffusion

information sur la rduction de la dynamique ;


information sur les downmix artistiques ;
paramtres utiles pour lalgorithme dupmix Auro-3D ;
metadata Program Loudness, Loudness Range conforme la norme EBU R128 ;
information sur lutilisation de courbes isoX pour lcoute.

Le premier Pure Audio Blu-ray compatible Auro-3D 9.1 en 96kHz est sorti lt 2012
chez 2L, cest un enregistrement de lorchestre de chambre norvgien TrondheimSolistene. Le disque comporte aussi les flux7.1 (96kHz/24 bits),5.1 (192kHz/24 bits) en
DTS Master Audio ainsi quune stro PCM (192kHz/24 bits), la source de lenregistrement tant au format DXD, soit 352,8kHz/24 bits.

7.5.6 Codages libres de droit


Les codages perceptifs prcdemment dcrits sont issus des dveloppements de socits
commerciales ou dorganismes de recherche et lutilisation est rgie par les lgislations
sur la proprit intellectuelle et le droit commercial. Le dveloppement de solutions
ouvertes existe, comme celles proposes par lorganisation Xiph.org dans le projet Ogg
avec deux codecs audio libres de droits, Vorbis et Opus. Leurs qualits sont comparables celles des solutions propritaires et tant open source, les codes sources sont
publis.
7.5.7 volution du codage
Les principales avances sont attendues au niveau des latences, des trs faibles dbits
et des codages hybrides avec/sans pertes.
Concernant le dlai de codage/dcodage, lvolution technologique amne des valeurs
infrieures 10ms tout en gardant une bonne qualit. Quant aux dbits, on peut estimer quentre 1995 et 2015, ceux-ci ont t diviss par 5 qualit sonore constante.
Le codage hybride avec/sans pertes permet de travailler avec un flux ou fichier dbit
rduit et dy associer un algorithme de correction pour retrouver le format complet
sans pertes.

7.5.8 Droit et protections


DRM
Le premier support numrique grand public, le CD audio fut conu avant lavnement
de lordinateur grand public avec graveur: la ncessit dune protection contre la copie
ne faisait pas partie du cahier des charges. Pour la gnration suivante, le DVD, diffrents systmes de protection (zones, CSS Content Scrambling,...) ont t inclus dans
les spcifications mais en sous-estimant les capacits techniques des contrefacteurs.
La copie illgale de CD et DVD a impos des protections et la gestion des droits ds
la dfinition de nouveaux supports ou formats de diffusion. Les SACD et les disques
Blu-ray, ont des protections anti-copies bien plus solides que les formats antrieurs.

7.5 Codages

perceptifs

343

Les quipements Blu-ray utilisent la norme HDCP qui tablit un change dinformations entre deux appareils connects et qui impose de nenvoyer la meilleure qualit de
flux audio ou vido qu un appareil sannonant aussi HDCP. Les sorties non protges sont limites un dbit rduit : une sortie audio numrique est dgrade par
exemple 48 Hz et 16 bits.
Le cinma numrique propose une norme de protection de contenu DCP qui dfinit les
formats des mdias, des descripteurs et aussi les clefs de protection KDM sur 128 bits,
qui sont ncessaires au dcodage des contenus MXF crypts.

Watermarking
La technologie du tatouage, Watermarking, a pour but de signer un contenu audio
afin de suivre sa diffusion, den authentifier son contenu ou didentifier les ayants
droit.
Ce marquage, sans altrer la nature du signal, doit tre suffisamment robuste pour
rsister des traitements du signal en cascade tels que les conversions numriques
analogiques, les traitements dynamiques ou frquentiels et, bien entendu, les codages.
Ces impratifs sont videmment contradictoires: un codage tant prvu pour enlever
la partie inaudible du signal, comment le marquage pourrait-il rsister?

Dunod Toute reproduction non autorise est un dlit.

Diffrentes technologies sont susceptibles dtre utilises et souvent talent les informations ajoutes soit dans le domaine temporel, soit dans le domaine frquentiel: les
effets de masquage sont alors mis profit pour cacher ces modifications. Parmi les
diverses possibilits, on trouve:
Codage des LSB: des bits de poids faible peuvent tre rservs au watermarking
indpendamment du signal audio. Cette technique manque de robustesse: elle est
dgrade par la plupart des traitements audio;
Codage par modulation de la phase: la perception auditive tant peu sensibles la
phase, le signal peut tre modul en phase soit temporellement soit par bande de
frquence;
Echo hiding: le signal dorigine est rajout lui-mme, attnu et dlay. Ces
chos sont auditivement masqus mais les dlais sont analysables par calcul
dauto-corrlation et reprsentent linformation de tatouage;
la technique de spread spectrum watermarking qui est laddition dun signal de
bruit faible niveau mais rparti sur une bande de frquence tendue. La rpartition
du tatouage est importante pour cacher ce marquage, rduire le risque daudibilit
et amliorer la robustesse aux traitements ultrieurs.

7.5.9 Vido et audio


Multiplexage
On parle de multiplexage des donnes quand diffrents contenus, audio, vido, soustitres, sont organiss par paquets dans un seul flux ou fichier pour tre prsents de

344

Chapitre 7 Le

codage et la diffusion

faon synchrone. Chaque type de donnes occupe alternativement une place dans le
train des donnes. Il est aussi possible, comme pour le DVD, le Blu-ray ou les transmissions satellites, de multiplexer plusieurs flux de type identique: plusieurs programmes
vidos par exemple associs aux flux audio correspondant.
Formats de multiplexage MPEG

Elementary stream: (.mpv, .mp2, .mpg), ce format ne contient quun type de donnes soit audio soit vido ;
le Program Stream (MPEG-PS) est un format de flux ou de fichier multiplex vido
+audio comprenant les informations de code temporel. Ce multiplexage qui peut
comprendre plusieurs flux audio-vido est utilis en tant que conteneur VOB dans
les DVD. Les fichiers sont gnralement pourvus des extensions .mpg, .mpeg ou .ps ;
le Transport Stream (MPEG-TS) est aussi un format multiplex vido +audio mais
plus robuste que le Program Stream vis vis des erreurs de transmission, donc
particulirement adapt la diffusion. Ce format est aussi prsent sur les disques
Blu-ray. Quand le Transport Stream est prsent en tant que fichier, les extensions
gnralement utilises sont .ts, .m2ts ou .m2t.

Figure7.24Structure dun flux TS, J.-L.Ohl.

Structures logiques
Indpendamment du format physique dun support, les donnes sont organises selon
des structures logiques qui peuvent tre totalement diffrentes. Ainsi, la normalisation
du CD-Audio (Red Book) est antrieure lutilisation des ordinateurs personnels:
un ordinateur ne comprend pas cette structure et ne peut pas prsenter un CD audio
comme une arborescence de rpertoires et de fichiers. Le CD-ROM (Yellow Book),
cr plus tard, a la mme structure physique que le CD-Audio mais possde une structure logique compatible avec les systmes informatiques. Les supports ultrieurs DVD,

7.5 Codages

perceptifs

345

Blu-ray, ont t prvus selon des normes ISO-UDF assurant la compatibilit avec les
principaux systmes informatiques ou plateformes de jeux.

7.5.10 Supports physiques


Nous ne nous intresserons quaux principaux supports ayant eu une dclinaison
ddie au multicanal.
Disque 33t
Diffrentes solutions ont t proposes mais sans grand succs: le CD4 de JVC codait
quatre canaux discrets, deux par la gravure strophonique habituelle (sillon modul
horizontalement et verticalement) et deux canaux supplmentaires en ajoutant une
modulation haute frquence flanc de sillon. Le SQ Quadraphonic de RCA et le QS
de Sansui taient des formats multiplexs avec de faibles performances de sparation
entre canaux.
Laserdisc
Le Laserdisc (LD) est un support vido analogique avec son numrique sur disque de
30cm. Certains LD contiennent un flux audio multicanal cod en Dolby Surround, en
Dolby Digital5.1 ou en DTS.

Dunod Toute reproduction non autorise est un dlit.

CD DTS
Le CD dorigine contient deux canaux audio en 16 bits 44,1kHz. La socit Digital
Theater System a propos un format presque conforme au standard Red Book, mais
avec le son cod en apt-X (dbit de 1234kbit/s pour un format5.1) pour encoder un
signal multicanal. Si le lecteur nintgre pas de dcodeur DTS, sa sortie analogique est
inutilisable et il faut envoyer le signal numrique par une sortie optique ou coaxiale
vers le dcodeur.
DVD
Le DVD, premier standard grand public avec format multicanal, a connu un succs
considrable amenant limage la qualit et la facilit demploi que le CD audio a
apport au son.
Deux propositions, le MMCD (Multimedia CD) de Sony et Philips et le SD (Super Density) dun consortium concurrent comprenant Toshiba, se sont opposes avant dopter
pour un format unique en 1995, le DVD (Digital Versatile Disc), versatile pour
signifier que ds la dfinition du format, diffrentes dclinaisons taient prvues.
Un ensemble dvolutions marquantes a permis ce format:
lamlioration technologique des supports optiques, la densit dinformation est
multiplie par 5 par rapport au CD;

346

Chapitre 7 Le

codage et la diffusion

le format vido MPEG2 conserve une trs bonne qualit dimage en divisant le dbit
par 50 par compression spatiale intra-image et compression temporelle supprimant
les redondances entre images;
les codages audio MPEG, Dolby Digital ou DTS autorisent une rduction de dbit
jusqu un facteur 10;
la norme DVD arrivant alors que le parc informatique est dj trs large, sa structure
a t choisie pour tre compatible avec la plupart des systmes dexploitation.
Possibilits du format
Les caractristiques du DVD permettent jusqu 2heures de vido, une possibilit de
vido multi angles (jusqu 9 angles), et 8flux audio. Un flux se dfinit par son format
(LPCM, MPEG, Dolby Digital, DTS...) et par le nombre de canaux (de 1 8).
Codes et protections
Les protections sont optionnelles: il sagit dun choix dditeur et non dun choix
technique.
Code rgional: Cette notion de zone permet une mise sur le march des titres respectant la chronologie des mdias propre chaque pays, 8zones gographiques sont
dfinies, indpendamment du format vido PAL ou NTSC.
Protections contre la copie: la protection contre la copie est prsente dans la norme
par trois systmes dont le principal est le CSS Content Scrambling. Les donnes audio/
vido sont cryptes et une clef en 40bits prsente dans le lecteur permet le dcryptage.
Laudio du DVD Vido
Un flux5.1 en PCM 48kHz et 20bits occupe 5.76Mbps soit autant quun flux vido de
dbit moyen. Pour rduire le dbit audio et ne pas trop perdre en dure de programme
sur le DVD, diffrentes solutions ont t prvues:
codage MPEG1 layer 2 ou MPEG2 : de la monophonie jusquau format 7.1, trs
peu utilis parce que les encodeurs nont jamais t disponibles pour les studios
dauthoring;
Dolby Digital avec des possibilits allant du 1/0 (mono) jusquau 3/2 + 1 (5.1 surround) et un dbit entre 92kbit/s et 448kbit/s en 48kHz avec mtadonnes renseignes lencodage et permettant la gestion de la dynamique;
DTS: format en 48kHz ou 96kHz, 24bits avec dbit 754 ou 1509 kbps, incluant
aussi la gestion de mtadonnes. Le DTS tant optionnel, un autre format doit, en
principe, tre prsent (MPEG ou PCM avec une vido PAL, Dolby ou PCM avec une
vido NTSC);
Le format PCM est possible jusqu 8 canaux en 48 ou 96kHz, 16, 20 ou 24 bits. Mais
le dbit maximal pour laudio tant dfini par la norme DVD 6.144 Mbs, la limite
est de 8 canaux 48kHz, 20 bits ou 2 canaux 96kHz, 24 bits.

7.5 Codages

perceptifs

347

Remarque: lchantillonnage 96kHz fait partie de la norme et donc tous les lecteurs
DVD lisent ce format mais sans obligation ce que la sortie numrique dlivre effectivement du 96kHz.
DVD-Audio
Le DVD-Vido favorisant plutt limage, un format plus orient vers le son a t
dfini: le DVD-Audio. Le DVD Vido limitant le dbit audio 6.144 Mbps, le DVDAudio permet un dbit de 9.6 Mbps. Les frquences dchantillonnages possibles sont
44.1/48/88.2/96/176.4/192kHz en 16/20/24 bits. Une rduction de dbit sans pertes
Packet PCM de type MLP (Meridian Lossless Packing) est possible pour 8 canaux MLP
en 96kHz, 24 bits par exemple. Les canaux peuvent tre spars en deux groupes et
utiliser des frquences et quantification diffrentes pour chaque groupe: par exemple,
gauche, droite et centre 192kHz, 24bits et le second groupe (surround et subwoofer)
en 48kHz, 24 bits.
Une fonction SMART permet de prdfinir lauthoring une table des coefficients de
rduction en stro (downmix). Autre diffrence par rapport au DVD-Vido, la possibilit de diaporama (nomm ASV pour Audio Still Video): en lisant continuellement
le flux audio, on peut naviguer entre des images fixes (textes, biographie...) de faon
squentielle ou alatoire.
Malgr sa compatibilit technique avec les systmes DVD-vido existants de stations de
montage, lignes de mastering et pressage, ce format na pas eu de succs commercial.

Dunod Toute reproduction non autorise est un dlit.

Super Audio CD
Les disques SA-CD utilisent un format One-bit sigma-delta 2,8224MHz dnomm
DSD (Direct Stream Digital). Ce procd permet une bande passante trs leve et
la possibilit dutiliser un filtre passe-bas minimal en lecture. Par contre, le rapport
signal/bruit est moins bon quen PCM mais par lutilisation de noise-shaping rejetant le
bruit de quantification dans les hautes frquences, une dynamique de lordre de 120dB
peut tre obtenue. Cette technologie impose lutilisation de matriels spcifiques dans
lensemble de la chane depuis la prise de son jusquau pressage. En pratique, un passage en PCM est frquent en mixage ou montage.
Jusqu six canaux (format5.1) en format DSD sont permis sur ce support. Comme il
ny a pas de matrice de downmix, les pistes stro sont prsentes indpendamment des
pistes multicanal.
La protection anti-copie est prsente sous plusieurs aspects:
ces disques ne sont pas lisibles par un ordinateur;
il nexiste pas de graveur pour flux DSD;
un encryptage des donnes avec la clef inscrite sur le disque et lisible seulement par
un lecteur agr;

348

Chapitre 7 Le

codage et la diffusion

par construction, un lecteur Super Audio CD noffre pas de sortie numrique pleine
rsolution.
La fabrication est gnralement en double couche hybride collant une couche SA-CD
et une couche CD. La couche CD est lue travers la couche SA-CD semi-transparente.

Blu-ray Disc
Comme souvent, une bataille de format a prcd ladoption du format: Blu-ray (Sony)
contre HD-DVD (Toshiba et Microsoft).
Grce un laser bleu-violet et une gravure bien plus fine que pour le DVD, la densit
dinformation est 10fois plus importante et le dbit maximal 5fois suprieur (54Mbps
au lieu de 10Mbps).
Rsumons lapport de cette technologie par rapport au DVD:
Vido HD en dfinition 1920x1080 aux formats MPEG2, MPEG4-AVC ou VC1;
augmentation de la capacit de stockage jusqu 50Go;
nouvelles fonctionnalits dinteractivit (diaporama, animation des menus, programmation BD-java, liens vers internet avec BD-live);
Protection anti-copie Advanced Access Content System (AACS) et BD +, cryptographie dynamique (physique);
watermarking ROM-Mark vitant la copie vers un disque BD enregistrable;
Protection HDCP;
Un choix important de formats audio multicanal: LPCM, Packed PCM (lossless)
et codages avec pertes.
Dolby et DTS ayant propos diffrents formats de codage avec/sans pertes afin de satisfaire les besoins de qualit ou de dure, voici les formats autoriss pour le maximum
de canaux:
Format

Version Dolby

Version DTS

PPCM 8 canaux

Dolby True HD

DTS-HD Master audio

Avec pertes 5.1

Dolby Digital

DTS Digital Surround

Avec pertes 7.1

Dolby Digital +

DTS-HD High resolution audio

LPCM 8 canaux

Figure7.25Formats audio multicanal sur Blu-ray, J.-L. Ohl.

Des versions enregistrables sont disponibles en BD-R (enregistrable une seule fois) et
BD-RE (r-enregistrable). Si la finalit est larchivage, il faut rester prudent quand aux
dures de vie, en particulier pour les versions r-enregistrables.

7.5 Codages

perceptifs

349

Production de supports optiques


Pour tous les supports optiques, le premastering est une tape entre postproduction et
le mastering, dcompose en deux phases: lencodage correspond la transformation
des sources en fichiers compatibles avec le format final et lauthoring permet dassembler les flux et de crer la navigation et linteractivit.
Bit Budgeting
En fonction de la dure des programmes, des langues, des flux audio (format et nombre
de canaux), des sous-titres, des menus le calcul des dbits de la vido et de laudio
tient compte de la capacit du disque et du dbit instantan admissible. Souvent en
fonction de ces impratifs se fait le choix du format audio: sans pertes ou avec rduction de dbit.
Encodage et compression
Selon le budget des donnes, il est possible de choisir des qualits diffrentes pour les
lments: par exemple privilgier la qualit du film et de la bande-son et rduire les
dbits des bonus.
Pour les formats multicanal, certains points doivent tre vrifis: lordre des pistes, la
correspondance des codes temporels avec la vido, la validit des mtadonnes. Trop
frquemment, des informations manquent et le studio encode avec les valeurs par
dfaut du logiciel! Dans ce cas, la qualit du mixage du film nest pas reproduite de
faon optimale chez le spectateur.

Dunod Toute reproduction non autorise est un dlit.

Supports bandes
Les bandes ne sont plus prsentes ni en grand public ni en professionnel: les formats
multicanal ADAT et TDIF (8 pistes Tascam) ne sont plus utiliss. En vido, les cassettes
Digital Betacam, 4 canaux audionumriques en 48kHz et 20 bits, compatibles avec le
format multicanal Dolby E sont remplaces par des fichiers.
Connexions
Vous trouverez ci-aprs une liste non exhaustive de standards grand public et professionnels utiliss en multicanal.
S/PDIF et TOSlink

Le nom du format S/PDIF est labrviation de Sony-Philips Digital Interface, il sagit


dune norme de liaison numrique grand public asymtrique sur cble 75 Ohms, avec
un niveau nominal 0.5V et dfinie par la norme IEC60958.
Sa version optique est la liaison TOSlink (Toshiba Link) qui utilise une diode lectroluminescente et une fibre plastique. Lattnuation importante de ce type de fibre limite
la distance environ 15m.

350

Chapitre 7 Le

codage et la diffusion

Les formats Dolby Digital et DTS, transportables dans un format PCM stro, sont
compatibles avec les liaisons S/PDIF ou TOSlink condition que le rcepteur sache
dcoder le flux.
AES

Le format professionnel AES3, dfini aussi par la norme IEC60958, est similaire au S/
PDIF mais avec tension nominale de 5V par liaison symtrique 110 Ohms ou par liaison asymtrique sur connecteur BNC en 75 Ohms.

Figure7.26Structure de la trame AES, J.-L.Ohl.

ADAT

Le format Alesis Digital Audio Tape a t utilis pour des enregistreurs et permet de
vhiculer 8 canaux en 48kHz/24 bits sur liaison optique ADAT Lightpipe identique
physiquement celle utilise pour le TOSlink.
DTRS

Le format DTRS Digital Tape Recording System de Tascam permet denregistrer 8


canaux sur bande Hi-8 jusqu 24 bits/48kHz. De plus hautes frquences dchantillonnage sont possibles avec moins de pistes. Ce support tait utilis par les stations
dauthoring DVD. La liaison bidirectionnelle TDIF (Tascam Digital Interface Format),
utilise un cble multiconducteurs pour transmettre 8 canaux dentre et 8 de sortie.
MADI

Le Multichannel Audio Digital Interface est un format standardis par lAES10-2003


pour transmettre 56 ou 64 canaux, en 44.1, 48kHz ou 96kHz (limite alors 32 canaux).
La connexion peut seffectuer en liaison cuivre coaxiale BNC ou en fibre optique.
SDI

Laudio multicanal est souvent transmis comme un signal AES dans les VANC (Vertical
Ancillaries Data) dun signal vido SDISerial Digital Interface, SD, HD ou 3G.On
parle de signal audio embedd qui signifie intgr qui peut transmettre jusqu
16 canaux audio 48kHz, 24 bits. Ces signaux sont prsents par 4 groupes de 2 AES

7.5 Codages

351

perceptifs

chacun (4 canaux). Dans un signal HD, les groupes peuvent tre diffrents en frquence
et en quantification.

Figure7.27Structure dune image vido, J.-L. Ohl.

Les signaux Dolby E, tant compatibles avec les trames AES, peuvent tre contenus
dans un ou plusieurs groupes, chaque groupe pouvant contenir la fois des flux AES
comme des flux Dolby E.
HDMI High Definition Multimedia Interface

Cette norme dinterfaage entre appareils grand public permet de transporter vido
et audio numriques multiplexs et crypts ainsi que des informations de commande.
La protection HDCP (High-bandwidth Digital Content Protection) agit en empchant
lmetteur de transmettre en pleine dfinition si le rcepteur nest pas conforme cette
norme. Nombreux sont les formats audio pouvant tre transmis en HDMI.
Complment
Web 7.17
Dunod Toute reproduction non autorise est un dlit.

Tableau des contenus audio selon version de la norme HDMI.

7.5.11 Diffusion
Fichiers audio
Sur support informatique, les donnes audio, dans les diffrents formats physiques et
logiques, sans ou avec codage perceptif. sont prsent en tant que fichiers.
Un fichier LPCM peut tre sous format brut, .pcm ou .raw mais plus souvent en .wav ou
.aif, formats qui ont lavantage de contenir aussi les informations de frquence dchantillonnage, quantification, nombre de canaux, paramtres qui facilitent la lecture. Plus
prcisment, le format WAV est un conteneur (voir ci-dessous) de type RIFF.

352

Chapitre 7 Le

codage et la diffusion

LEBU a normalis le standard BWF par le document Tech-3285, qui constitue une
extension du format WAV avec ajout des mtadonnes et dun code temporel pour
faciliter la liaison avec la vido dans les stations de montage. La version RF64 permet
de surmonter la limitation 4 Go du format BWF de base. noter quun fichier BWF
peut aussi contenir de laudio cod en MPEG.

Formats Conteneurs
Un format conteneur (wrapper ou container en anglais) dcrit et contient un
ensemble de donnes organises. Les conteneurs sont utiliss pour des donnes multimdias laide de codecs normaliss accompagns de mtadonnes auxiliaires comme
le sous-titrage, le chaptrage, le time code, etc. Les principaux formats conteneurs
actuels sont wav, avi, Quicktime, MXF, Ogg, VOB, MKV. Il faut bien comprendre que
le conteneur nest pas un codec et ne contient pas le codec mais donne linformation
sur le codec utiliser pour la lecture.
En postproduction ainsi que dans les normes du cinma numrique, le conteneur MXF
(Material eXchange Format) est gnralement utilis. Les flux contenus sont appels
essences. Ce conteneur inclut les informations de code temporel ainsi que des mtadonnes. Le format MXF est complexe et a connu des problmes de compatibilit et dchange
qui, depuis la redfinition de la norme en 2009, ont t majoritairement rsolus.

Audio sur rseau


La diffusion audio sur rseau informatique a connu de nombreuses variantes surtout
au niveau professionnel. Ces standards se diffrencient dabord par la couche OSI (Open
Systems Interconnection, prescription issue des organismes ISO et ITU) qui dfinit la
couche physique ou logicielle des protocoles rseau.
Modle OSI Open Systems Interconnection
- Couche 7: Application.
- Couche 6: Prsentation et encryptage.
- Couche 5: Session: gestion des sessions entre applications.
- Couche 4: Transport: transfert des donnes, contrle de flux.
- Couche 3: Rseau: adressage, routage.
- Couche 2: Liaison: syntaxe et erreurs.
- Couche 1: Couche physique, lectrique et fonctionnelle.

En couche 1 OSI: A-Net, SuperMac, Rocknet, laudio utilise le cblage Ethernet mais
pas son routage ;
En couche 2 OSI: Cobranet, Ethersound, AES51, AVB laudio est encapsule dans
des trames Ethernet ce qui permet souvent dutiliser une partie de linfrastructure
rseau (commutateurs par exemple).

7.5 Codages

perceptifs

353

En couche 3 OSI: Dante, Ravenna, Q-LAN, Livewire,laudio est prsente dans des
paquets IP, gnralement en UDP, ce qui assure une bonne compatibilit avec une
structure locale mais empche un routage internet.
On peut donc globalement distinguer laudio sur Ethernet (AoE) et laudio sur IP (AoIP)
qui occupent deux couches OSI diffrentes.
Les protocoles se diffrencient par de nombreux paramtres:




La couche OSI dcrite prcdemment;


La compatibilit avec un routage local ou global;
La topologie du rseau: anneau, toile;
la diffusion unicast ou multicast;
Le nombre et type (frquence et chantillonnage) des canaux transports, lis la
bande passante utile du rseau;
La latence;
La synchronicit et le transport dhorloge;
La robustesse.
Lincompatibilit des propositions a frein ladoption de ces technologies mais la norme
dinteroprabilit AES67 pourrait changer cette situation.

Tlchargement et streaming
Les rseaux informatiques privs ou publics (LAN, internet) permettent deux types
dchanges de donnes audio: le tlchargement et le streaming.
Le tlchargement est une transmission asynchrone de donnes qui nest pas soumise
aux contraintes de lcoute en temps rel et permet dchanger, plus ou moins rapidement nimporte quel format compress ou non.

Dunod Toute reproduction non autorise est un dlit.

Par contre, le streaming, une diffusion en flux, est limite par la bande passante disponible, do des contraintes sur le dbit et donc sur le format des donnes.

DVB: Tlvision numrique


Alors que la tlvision hertzienne analogique limitait les formats audio aux codages
matrics en strophonie comme le Dolby Surround, les principaux standards de diffusion sont issus dune norme DVB ouverte et volutive. Cette norme sappuie sur des
formats MPEG-2 et MPEG-4 qui permettent dinclure un signal multicanal dans les
codage audio prvus en MPEG-2 et les variantes de lAAC.
Lensemble des normes DVB se dcline selon le type de diffusion:
DVB-T diffusion TNT terrestre;
DVB-S diffusion satellite;
DVB-C diffusion par cble;

354

Chapitre 7 Le

codage et la diffusion

DVB-H diffusion pour rcepteurs portables;


DVB-IPTV diffusion sur rseaux IP.
En pratique, les tlvisons mettant dans des formats HD se limitent au multicanal5.1
avec une partie des programmes obtenus par traitement dupmix de programmes
stro.

DAB: radio numrique


Dans la plupart des pays, la radio numrique Digital Audio Broadcasting est base sur
une norme DAB +qui contient un format audio MPEG Audio Layer 2 ou HE-AAC V2.
La France a aussi opt pour DAB +tout en autorisant ce qui fut un premier choix trs
contest, le format T-DMB qui impose la prsence dun flux vido en MPEG4.
Cinma
Le cinma est lorigine des premires diffusions en multicanal. Fantasia, dessin
anim de Disney, fut en 1940 un prcurseur en employant 3 canaux, le FantasiaSound.
Le cinma avec diffusion par serveur informatique a remplac le 35mm. Ce cinma
numrique est bas sur la recommandation DCI (Digital Cinema Initiative) qui
rgit lensemble de la chane de production, tournage, postproduction et projection
numrique.
Trois tapes sont prsentes:
Le DSM (Digital Source Master) est le master numrique issu de la postproduction;
Le DCDM (Digital Cinema Distribution Master) est cr pour raliser les DCP en
rajoutant les informations ncessaires pour la projection: images, sons, sous-titrage;
Le DCP (Digital Cinema Package) est destin lexploitation en salle. Les images
vido sont compresses en format JPEG2000, multiplexes en MXF puis cryptes.
Cet ensemble de fichiers est transmis aux salles pour tre stock dans le serveur
D-Cinema de la cabine de projection.
Pour attirer le public, le cinma doit conserver une avance technologique par rapport
aux installations domestiques. Les configurations multicanal5.1 tant devenues courantes chez le particulier, le cinma a besoin dun nouveau saut qualitatif.
Le format DCP prvoit jusqu 16 canaux sonores. Au-del du format7.1, diverses volutions sont proposes, toutes ayant vocation daugmenter la sensation dimmersion,
en rajoutant en particulier une dimension de hauteur.
On peut regrouper les technologies en trois concepts:
Canal: la notion habituelle dite core mix ou beds o un canal de stockage/transmission est associ un canal de diffusion, une piste correspond un
haut-parleur;

7.5 Codages

355

perceptifs

Objets sonores: le signal dune piste peut tre rpartie dynamiquement par le
processeur audio dans les canaux de diffusion selon des mtadonnes inscrites dans
le flux et selon la configuration, nombre et emplacements des haut-parleurs;
Scnes : le concept High Order Ambisonics HOA simule prcisment le champ
acoustique par un ensemble rduit de vecteurs de pression.
Les propositions en partie bases sur ces concepts, sont:
Barco Auro-3D: du 9.1 au 13.1, ce codage propose une dimension verticale en rajoutant en hauteur des canaux frontaux et surround ainsi que des canaux de plafond,
avec empaquetage et compatibilit dans un flux LPCM de 6 canaux et solution dupmix;
Dolby Atmos avec comme canaux supplmentaires: Lc et Rc en canaux dcran
centraux, des canaux Side surround, deux ranges de canaux au plafond et un bassmanagement des surrounds avec 2 SUB arrire. Le format est variable selon la taille
de la salle, avec un rendu sur 64 enceintes maximum. Dolby a rachet le procd
Imm Sound qui permettait un dploiement de formats 14.1 23.1 avec au moins 3
canaux de plafond, les canaux supplmentaires permettant un placement plus fin
des sources sonores;
Iosono 3D : bas sur la technologie WFS Wave Field Synthesis, avec rendu de
64 sources sur 128 canaux au maximum;
DTS MDA: un format ouvert avec audio lossless et la possibilit dintgrer pistes,
objets et scnes.
Complment
Web 7.18

MDA (Multi-Dimensional Audio, un format de contenus ouverts pour


le son immersif).

Les dispositions correspondantes des enceintes sont prcises aux chapitres1 et 2.

Dunod Toute reproduction non autorise est un dlit.

Processeurs de cinma
La chane de traitement comprend un serveur de lecture comme le Doremi DCP-2K4
ou le Dolby DSS200, qui dcryptent et dcodent les fichiers vido, audio, sous-titrage
pour les envoyer vers le projecteur d-cinma et le processeur audio.
Les fonctions du processeur audio sont les suivantes:



gestion des entres et sorties aux diffrents formats;


dcodage du flux multicanal entrant;
traitement spatial;
filtrage et galisation des enceintes;

356

Chapitre 7 Le

codage et la diffusion

possibilit dinsrer un autre traitement de dcodage externe pour les formats non
pris en charge nativement;
gestion des niveaux;
commandes externes (pilotage, GPIO).
Quelques exemples de processeurs audio rpandus:
Dolby CP850, le successeur du CP750, propose un dcodage Atmos;
Datasat AP20: avec correction par processeur Dirac-Live, travaillant en convolution
base sur des mesures audio releves en plusieurs points de la salle;
le processeur Trinnov Ovation permet une galisation fine par convolution du signal
audio aprs mesures acoustiques mono ou multipoints.

Jeux vido
Depuis les flippers, les machines sous puis les premiers jeux lectroniques, le son a
toujours eu une place importante dans les sensations du jeu. En ralit virtuelle, laudio
est un lment fondamental de limmersion et du ralisme. De plus, la musique et
les effets dans les jeux vido sont dynamiques: le rythme, les timbres, la localisation
sont lis lvolution de la partie et appuient linteractivit. Les sources virtuelles et
lenvironnement sonore participent incontestablement la qualit perue et une bande
multicanal reprsente un atout incontestable pour la russite dun jeu.
Certaines consoles de jeu sont conues pour supporter nativement des formats multicanal. Par exemple, la console Wii admet le Dolby Pro Logic II, la Xbox 360 supporte
le Dolby Digital et la PlayStation 3 est prvue pour le Dolby TrueHD et le DTS-HD,
jusquau7.1 et 192kHz. La console portable PSP dispose dun traitement audio 3D.
Certains tlphones portables sont suffisamment puissants en traitement DSP pour
intgrer la lecture de flux multicanal et les diffuser sur casque ou haut-parleurs intgrs, avec ventuellement un traitement transaural.
La plupart des jeux rcents sur ordinateur sont crs en multicanal, mais les qualit
dimmersion et de ralisme dpendent des possibilits des cartes son et du nombre
denceintes acoustiques. Dans ce domaine, les traitements de rematriage peuvent
savrer intressants et le joueur tant une place fixe devant lcran, les technologies
de spatialisation transaurale proposent une excellente immersion auditive avec seulement deux haut-parleurs.

Dunod Toute reproduction non autorise est un dlit.

7.5 Codages

357

perceptifs

Pistes

Affectation
standard
en 7 canaux
max.

48kHz, 24bits
1130kbps

L R C LFE Ls Rs

LCR
Ls Rs LFE

48kHz, 24bits
1152kbps

C L R Ls Rs LFE

LCR
Ls Rs LFE

4.0

Lt Rt

LCR
S

Matric

5.0

Lt Rt

LCR
Ls Rs

Dolby Digital

Perceptif

5.1

48kHz, 24bits
640kbps

L C R Ls Rs LFE

LCR
Ls Rs LFE

Dolby EX

Perceptif,
matric

7.1

48kHz, 24bits
640kbps

L C R Ls Rs LFE

LCR
Ls Cs Rs LFE

Dolby Digital Plus

Perceptif

7.1
(13.1)

48kHz, 24bits
6Mbps

L C R Ls Rs LFE

LCR
Ls Cs Rs LFE

Dolby True HD

Sans
pertes

7.1
(14.0)

192kHz, 24bits
18Mbps

L R C LFE Ls Rs

LCR
Ls Cs Rs LFE

DTS

Perceptif

5.1

48kHz, 24bits
1509kbps

C L R Ls Rs LFE

LCR
Ls Rs LFE

DTS2496

Perceptif

5.1

96kHz, 24bits
1509kbps

L R C LFE Ls Rs

LCR
Ls Rs LFE

DTS-ES

Perceptif

6.1

48kHz, 24bits
1509kbps

L R C LFE Ls Rs Cs

LCR
Ls Cs Rs LFE

DTS Express

Perceptif

7.1

48kHz, 24bits
512kbps

L R C LFE Ls Rs
Lb Rb

LCR
Ls Rb Lb Rs
LFE

DTS-HD High
Resolution

Perceptif

7.1

192kHz, 24bits
6Mbps

L R C LFE Ls Rs
Lb Rb

LCR
Ls Rb Lb Rs
LFE

DTS-HD Master
Audio

Sans
pertes

7.1

192kHz, 24bits
24.5Mbps

L R C LFE Ls Rs
Lb Rb

LCR
Ls Rb Lb Rs
LFE

Sony SDDS

Perceptif

7.1

44.1kHz, 20bits
2.2Mbps

L Lc C Rc R LFE
Ls Rs

L Lc C Rc R
LFE Ls Rs

Codage multicanal

Codage

Format

MPEG Multichannel
(MPEG1 layer 2
extended)

Perceptif

5.1

MPEG2 AAC-LC
MPEG4 HE-AAC

Perceptif

7.1

Dolby Surround
ProLogic

Matric

Dolby ProLogic II

Echantillonnage
et dbit max.

Figure7.28Tableau des principaux codages multicanal, J.-L. Ohl.

Chapitre 8
Exploitation Son
Broadcast, supports,
nouveaux mdias

Points

essentiels

- Chane dexploitation broadcast.


- Dolby Surround.
- Metadata Dolby : loudness, downmix, DRC.
- Metadata AAC, DTS.
- Mesure du loudness.
Dunod Toute reproduction non autorise est un dlit.

- Normes PAD TVHD, mesure des niveaux, recommandations CST, EBU, R128.
- Exploitation des outils de mesure et de traitement broadcast 5.1 :
traitement loudness, gestion des metadata, upmix de diffusion.
- Les formats DTS pour le support, DTS Neural.
- Diffusion 5.1 et binaurale pour les nouveaux mdias.

La phase de mixage multicanal saccompagne de mtadonnes (metadata) qui facilitent la diffusion et permet une meilleure matrise de celle-ci chez le particulier.
Ces metadata, associes principalement au flux Dolby Digital, se retrouvent sur le
support home-cinma DVD, Blu-ray et sont notamment prsentes dans la diffusion

360

Chapitre 8 Exploitation Son Broadcast,

supports, nouveaux mdias

broadcast mais ne touchent pas le secteur du cinma. Ces mtadonnes transportent la mesure loudness du programme afin dharmoniser les niveaux entre
diffrents programmes ou diffrentes chanes. Elles permettent ladaptation au lieu
dcoute domestique travers des profils dynamiques que lon peut attribuer au
programme ainsi quelles traitent de la compatibilit stro et mono par des coefficients de downmix.

8.1

La chane dexploitation Broadcast

8.1.1 Synoptique du signal depuis la captation la diffusion


Le schma ci-dessous reprsente le cheminement du signal audio depuis la captation
dun vnement sportif dans un car HD, jusqu la diffusion chez le particulier. Il
illustre le transport des programmes 1 et 2 en Dolby E (5.1 +2), le dcodage Dolby
E en PCM pour la postproduction avec lajout ventuel de commentaires, lencodage
Dolby E pour le stockage sur cassette HDCAM ou sur serveur, le dcodage Dolby E en
PCM pour la vrification PAD et lencodage Dolby Digital suivi du multiplexage avec
la vido pour la diffusion.

Figure8.1De la captation la diffusion, B.Priaux. Encouleursurdunod.com

8.1 La

chane dexploitation

Broadcast

361

8.1.2 Dolby Surround


Les formats Dolby Surround, lencodage et le dcodage Pro Logic 1 et 2 ont t dcrits
dans le chapitre7. Lencodage Dolby Surround offre la compatibilit multicanal sur
deux canaux, mais pose nanmoins des contraintes lors du mixage. Certains artefacts
peuvent survenir lorsque le mixage est trs spatialis, avec notamment lutilisation de
rverbrations. Ces artefacts se produisent aussi lorsque trop dinformation de phase
est gnre dans lespace frontal. Ainsi, des prises de son avec diffrences de phase
(systmes de microphones distants, type AB), des squences avec une rverbration
importante, risquent dtre dnatures par lencodage/dcodage car certains lments
peuvent se retrouver larrire, notamment des transitoires. En effet, le dcodeur
analyse la diffrence de phase entre Lt et Rt, et spatialise des informations frontales
pertinentes vers larrire, en plus des canaux Ls et Rs ayant subi le dcalage de phase.
Lencodage Dolby Surround (Pro Logic 1) rduit la spatialisation arrire puisque les
canaux arrire sont en mono, lquilibre spectral arrire est modifi (bande passante
restreinte de 100Hz 7kHz). Lencodage Dolby Pro Logic 2 amliore le rendu de limage
sonore et respecte lquilibre spectral de la zone arrire. En revanche, cet algorithme a
toujours tendance rduire limpression spatiale et produire une focalisation vers le
canal central. Les dcodeurs Dolby Surround et Dolby Surround Pro Logic 2 retardent
les canaux Ls et Rs de 15ms ce qui, grce leffet de prcdence, permet de conserver
les canaux frontaux comme tant le premier front donde et limite ainsi les artefacts
de localisation. Ce rglage de 15ms est renseign par dfaut dans le DP570, le DP564
et les dcodeurs dans les amplificateurs AV et les tlviseurs.
Dans la spatialisation multicanal Dolby Surround, il faut viter de positionner des
sources dans le dernier quart de la zone arrire, parce que le downmix mono somme
les canaux Lt et Rt, qui eux-mmes contiennent Ls +Rs en opposition de phase, lesquels sannulent lors de cette addition.
Dolby Surround
- Signal stro LtRt compatible5.1: Dolby pro logic1, Dolby pro logic2.

Dunod Toute reproduction non autorise est un dlit.

- Canaux arrire en opposition de phase.


- viter la spatialisation de sources dans le dernier quart arrire pour la
compatibilit mono.
- Le recours une grande spatialisation de phase peut induire des artefacts
lors du dcodage.
- Aprs dcodage, limage sonore est focalise vers le canal central, avec
impression spatiale rduite (diaphonie entre les canaux).

8.1.3 Les metadata Dolby


Les metadata contenues dans le flux Dolby Digital permettent de restituer une coute
de qualit chez le particulier, en fonction des caractristiques acoustiques du lieu

362

Chapitre 8 Exploitation Son Broadcast,

supports, nouveaux mdias

dcoute. Les metadata sont transportes dans chacune des trames, travers les interfaces AES ou SPDIFF. Elles jouent un rle de description du contenu audio et servent
aussi contrler le signal audio lors du dcodage. Ces metadata sont renseignes par
le mixeur du programme et sont utilises au dcodage, combines avec le rglage de
lcoute de lutilisateur sur lamplificateur AV home-cinma (Bass management, ajustement optionnel des metadata loudness et DRC). La premire metadata, le Dialnorm,
porte la valeur de loudness du programme, la deuxime, les DRC (Dynamic Range
Control), intgre des profils de compression dynamique et la troisime, le Downmix,
permet la compatibilit stro et mono du signal.

Dialnorm
Le Dialnorm est la metadata qui porte la valeur de loudness du programme, cest--dire
le niveau moyen mesur sur toute la dure du programme (voir mesure du Loudness).
Le plus souvent, cest le niveau de la parole qui sert de rfrence, do le nom de Dialog
level. On distingue donc, le Dialog level qui mesure le niveau moyen des dialogues dun
programme de type film, du loudness, qui mesure le niveau moyen dun programme
sans dialogue sur toute sa dure. La metadata Dialnorm sera un Dialog level pour la
mesure dun film, dun documentaire, elle sera un loudness pour la mesure dun programme musical ou une publicit.
Nous aborderons les metadata Dolby par la mesure loudness telle quelle a t pense
par Dolby lorigine, cest--dire le Dialog level. Nous verrons ultrieurement que la
metadata Dialnorm en Europe se mesure depuis 2011-2012 suivant la norme de loudness EBU R128.
Voici ci-dessous la reprsentation de niveaux de loudness (mesure du Dialog level
Dolby) de programmes courants:

Figure8.2Niveaux de loudness de programmes courants, Dolby.

La diffusion analogique TV ou radio FM est un vecteur de transmission avec un niveau


de bruit et une rserve dynamique rduite. Le niveau de rfrence est +4 dBu (0 VU) ou

8.1 La

chane dexploitation

Broadcast

363

- 18 dBFS, le niveau crte max est +13 dBu ou - 9 dBFS ou 0 crte, lcart rfrence/
crte est donc de +9dB, cest une valeur trs rduite.
De lanalyse des films les plus dlicats, Dolby prconise une valeur moyenne de loudness de - 31 dBFS (31dB au-dessous du niveau de loudness maximal 0 dBFS) mesur
avec la pondration K soit -31 LKFS (voir paragraphe mesure du loudness). Cette
valeur permet dexprimer pleinement toute la dynamique du programme, notamment
sur les passages daction (forts transitoires, explosions).
Lorsquon mesure le Dialnorm dun programme, prenons - 24 LKFS par exemple, le
dcodeur Dolby Digital appliquera alors la diffusion une attnuation de 7dB pour
restituer le programme la valeur moyenne de - 31 LKFS. Pour un programme de - 21
LKFS, le dcodeur appliquera une attnuation de 10dB, ainsi de suite. Les programmes
- 31 LKFS ne seront pas attnus et seront diffuss tels quels.
On dfinit donc le Dialnorm comme suit.
31 +Dialnorm =attnuation applique
La diffusion Dolby Digital des programmes courants sera la suivante, tous les programmes sont ramens - 31 LKFS avec leur dynamique originale prserve:

Dunod Toute reproduction non autorise est un dlit.

Figure8.3Diffusion Dolby Digital des programmes courants, Dolby.

En rsum, la metadata Dialnorm, par la mesure systmatique du loudness de chaque


programme, homognise le niveau moyen de restitution la diffusion, sans que lutilisateur ait besoin de changer le niveau dcoute, et prserve la dynamique originale
des programmes sans faire appel des traitements dynamiques dantennes (limiteurs,
compresseurs).
Les diffrentes interfaces de rception
Les signaux de rception la diffusion TV utilisent diffrentes interfaces en fonction
de la nature analogique ou numrique du signal, le nombre de canaux mono, stro,

364

Chapitre 8 Exploitation Son Broadcast,

supports, nouveaux mdias

5.1. Le dcodeur alimente une sortie remodule RF analogique en mono, une sortie
analogique stro ou LtRt compatible Dolby Surround sur Pritel, une sortie numrique stro PCM sur coaxial, optique ou HDMI (stro et5.1) et enfin une sortie5.1
numrique Dolby Digital sur coaxial ou optique ou HDMI.

DRC
Les divers environnements dcoute domestiques introduisent de nombreuses
contraintes pour la dynamique de reproduction. La dynamique acceptable dans un
salon est limite par sa taille, son isolation, les bruits environnants. Dautre part, suivant la nature du programme, lheure, les conditions dcoute ou simplement ses gots
personnels, un auditeur ne dsirera pas bnficier de la mme dynamique. Au lieu de
compresser le signal audio pour quil se comporte au mieux sur les plus mauvais systmes dcoute, une metadata appele DRC est vhicule dans le Dolby Digital jusquau
dcodeur, ce dernier applique alors le profile de compression renseign par le mixeur
afin de rduire la dynamique du signal.
Les profils de traitement dynamique associs la metadata DRC, compressent des
taux variables les hauts niveaux et relvent les bas niveaux. Le seuil de compression est
la valeur renseigne dans le Dialnorm, do limportance de bien lindiquer pour viter
une dtrioration du signal.
La plupart des dcodeurs Dolby Digital offrent la possibilit dactiver ou de dsactiver les DRC, mais certains ne le permettent pas. Tous les dcodeurs avec sorties5.1
discrtes le proposent gnralement. Les dcodeurs avec sorties stro, mono, ou RF
remodule sur les lecteurs DVD ou set-top boxes activent automatiquement la metadata
DRC en sortie analogique. On peut cependant rcuprer le flux Dolby Digital numrique et le dcoder sur un ampli home-cinma plus complet.
Le flux Dolby Digital transporte deux profils de compression suivant les deux modes
Line mode et RF mode. Ces modes sont identifis par le type de sortie que le dcodeur
alimente. Gnralement, le Line Mode gre les sorties de niveaux lignes sur les dcodeurs en5.1 ou stro, le RF mode est associ aux dcodeurs qui alimentent une entre
mono RF/antenne dun tlviseur.
Les dcodeurs avancs proposent dactiver ou dsactiver les DRC et de slectionner
le Line mode ou le RF mode. Gnralement, les options proposes sont off, light
compression et heavy compression pour dsigner pas de compression (DRC dsactivs), Line mode, et RF mode. Sur les dcodeurs complets lutilisateur pourra mme
rgler par lui-mme le taux de compression des hauts et bas niveaux (mode Custom
DRC). Le RF mode est gnralement associ un profil de compression importante
pour alimenter les coutes avec des enceintes de petite dimension, pour les ordinateurs
portables, ou les tlphones portables.
Les sorties lignes analogiques sur connecteurs RCA des lecteurs DVD, des set-top
boxes, des tlvisions, des amplificateurs AV sont associes au Line mode.

8.1 La

chane dexploitation

Broadcast

365

Lors du dcodage du flux Dolby Digital et quel que soit le mode choisi, la normalisation
du dialogue se fait chaque fois et en premier. Lorsque le programme est ajust au bon
niveau la compression sapplique. Normalement (sauf si erreur dans le renseignement
des mtadonnes) la Null Band du profil DRC doit tre centre sur la valeur de
Dialogue Level (- 31 LKFS dans tous les dcodeurs Dolby Digital).
DRC:

dynrng et compr

La compression DRC fonctionne par blocs audio, dont le niveau est contrl
par des variables dynrng et compr. La variable dynrng correspond un
fonctionnement du dcodeur en Line Mode. Ainsi, chaque bloc audio
(5,3ms) une valeur de dynrng indique le gain appliquer au bloc concern.
Ce gain peut varier entre +/- 24dB avec une rsolution de 0,25dB. La
variable compr correspond un fonctionnement du dcodeur en RF Mode.
Le mot compr est envoy non pas chaque bloc, mais chaque trame
(32ms). Il commande un gain de +/- 48dB avec une rsolution de 0,5dB.

Dunod Toute reproduction non autorise est un dlit.

En mode5.1, lutilisateur choisit de dsactiver les DRC et profite pleinement de la dynamique du programme, ou de les activer avec le Night mode (light ou heavy, soit Line
Mode ou RF Mode). En revanche, en sortie stro downmix, les DRC sont automatiquement activs, avec le profil RF mode.

Figure8.4Compression Line Mode, A. Libolt, Dolby

Le RF mode associe une compression permanente des hauts et bas niveaux, il limite
les crtes, avec un gain de +11dB pour tre conforme aux niveaux transports en
tlvision analogique RF. Le dialogue, rgl suivant la valeur de Dialnorm - 31 LKFS
et combin avec le changement de gain de +11dB, est reproduit au niveau constant
de - 20 LKFS.

366

Chapitre 8 Exploitation Son Broadcast,

supports, nouveaux mdias

Figure8.5Compression RF Mode, A.Libolt, Dolby.

Profils DRC
Il existe six profils DRC: film standard, film light, music standard, music light, speech
et none.

Figure8.6Profils de compression DRC, Dolby.

8.1 La

chane dexploitation

Broadcast

367

Figure8.7Profils de compression DRC, EBUTech 3343.

Dunod Toute reproduction non autorise est un dlit.

Comme indiqu sur la figure8.7, les profils comportent tous une zone linaire appele
la Null Band o le gain est unitaire, il ny a pas de compression. Cette zone, centre
sur la valeur du Dialog level, est plus ou moins large suivant le rglage choisi. Ainsi, si
la valeur du Dialog level est correctement renseigne par loprateur, la compression
du signal sera cohrente. De part et dautre de la Null Band, une compression est
applique afin de rduire les forts niveaux et de remonter les bas niveaux. Les paramtres pour ces deux oprations dpendent du profil choisi mais sont dfinis sur le
mme modle: un rglage pour lamplification des bas niveaux (Boost Range) et
deux rglages pour lattnuation des forts niveaux (Early Cut Range avec un rapport
2: 1 et Cut Range avec un rapport 20 : 1). Le sixime choix est None, soit aucun
profil DRC slectionn. Cependant cela nempche pas de rduire la dynamique pour
viter les saturations lors des downmix.

Downmix
La metadata Downmix permet la diffusion travers le flux Dolby Digital vers tous
les formats dcoute: stro, mono et LtRt compatible Dolby Surround. Le flux Dolby
Digital est transmis en5.1, il assure une compatibilit stro par une opration de
Downmix qui consiste sommer les canaux arrire en phase dans le mode LoRo ou
hors phase dans le mode LtRt. Le LtRt peut tre alors cout tel quel, en stro, ou redirig vers un dcodeur Dolby Prologic pour une coute multicanal matrice. Le choix
du mode de Downmix est fait par le mixeur, en conformit avec le cahier des charges
du diffuseur. Le mixeur active ou non le mode Phase shift, qui dcale la phase des
canaux arrire de 90 ds lencodage. la diffusion, linformation hors phase entre les
canaux Lt et Rt est analyse et redistribue vers les canaux arrire Ls et Rs.
la diffusion chez le particulier, le flux Dolby Digital est dcod en5.1 ou sadapte au
mode de diffusion grce la metadata Downmix:
les modes LoRo ou LtRt pour les formats stro;
la sommation Lo +Ro ou Lt +Rt pour le format mono;
le dcodage Dolby Pro Logic du LtRt pour le mode Dolby Surround.

368

Chapitre 8 Exploitation Son Broadcast,

supports, nouveaux mdias

Figure8.8Les diffrents downmix issus du Dolby Digital, B.Priaux.

Le mode de downmix est renseign dans la metadata preferred downmix, il utilise


les coefficients de rduction pour le canal central et les canaux arrire, associs au mode
choisi. On trouve ainsi les coefficients Center et Surround pour les modes LoRo et LtRt.
Par dfaut, ces coefficients sont -3dB mais ils peuvent tre modifis si les downmix
stro ou mono ne fonctionnent pas de faon optimale. Le changement se fait par pas
de 1,5dB, ce qui donne des coefficients de -, -6dB, -4,5dB, -3dB, -1,5dB, 0dB,
+1,5dB, +3dB. Dans la pratique, il arrive frquemment dattnuer le coefficient du
canal central -4,5dB, et dattnuer les canaux arrire avec un coefficient de -4,5dB
ou -6dB lorsque les ambiances arrire gnent lintelligibilit du signal. Le canal Lfe
nest pas rintgr dans les downmix du Dolby Digital.
Voici les quations de downmix:
quations

de

Downmix Dolby

- Lo =L +(Cmix)C +(Smix)Ls.
- Ro =R +(Cmix)C +(Smix)Rs.
- Lt =L +(Cmix)C - (Smix) (Ls +Rs).
- Rt =R +(Cmix)C +(Smix) (Ls +Rs).

Figure8.9Le downmix stro


LoRo, B.Priaux.

Figure8.10Le downmix stro LtRt,


B.Priaux.

8.1 La

chane dexploitation

Broadcast

369

Figure8.11Le downmix mono, B.Priaux.

Figure8.12Metadata Downmix dans


linterface DolbyDP570Remote, Dolby.

Le mixage5.1 pour un programme TV doit par consquent tre compatible stro et


mono, le mixeur doit assurer un compromis entre limage sonore multicanal et limage
stro. Les difficults portent essentiellement sur les critres dhomognit, dintelligibilit et dimpression spatiale. Une image multicanal trs enveloppante peut donner
une image stro downmixe manquant dhomognit. Si les downmix ne donnent
pas de rsultats satisfaisants, il convient de modifier dabord lquilibre des sources
dans le mixage5.1 puis, en dernier recours, dajuster les coefficients de downmix.
Metadata Dolby
- Dialnorm: renseigner le loudness du programme mesur en fonction de la
norme de loudness, le Dialog level Dolby (films, documentaires), le loudness
Dolby (musique, publicits), ou le loudness R128 (mesure universelle).
- DRC: renseigner les profils de compression associs au Line Mode et au
RF Mode.

Dunod Toute reproduction non autorise est un dlit.

- Downmix: renseigner le mode de downmix, LoRo ou LtRt (surround phase


shift activ) ainsi que les coefficients de rduction associs.

8.1.4 Les metadata AAC


On trouve aussi des metadata dans la famille de codecs AAC, elles sont quivalentes
celles de Dolby, avec quelques modifications. Les tableaux ci-dessous font la synthse
des diffrences concernant la gestion du loudness, les DRC et le downmix. La metadata
loudness sappelle le program reference level, comparable au Dialnorm, ses
valeurs varient par pas de 0,25dB contre 1dB pour le Dialnorm. Le niveau de sortie du
dcodeur nest pas fixe contrairement aux modes line et RF imposant - 31 ou - 20dB.
La gestion des DRC est comparable dans les deux familles. En revanche, le downmix
propose deux modes en AAC, le mode matrix-mixdown imposant - 3dB pour le

370

Chapitre 8 Exploitation Son Broadcast,

supports, nouveaux mdias

centre et (- -6 -3 0) dB pour les canaux surround, ou bien un mode plus souple,


mode auxiliaire, avec la possibilit de renseigner les coefficients (- -9 -7,5 -6 -4,5
-3 -1,5 0) dB pour le centre et larrire.
Comparaison des metadata Dolby et AAC, cf. Fraunhofer.
AC3

(HE)-AAC

Loudness Normalization

Dialnorm

Program Reference Level

Dinamic Range Control :


light compression

Line Mode

Dynamic Range Control

Dinamic Range Control :


heavy compression

RF Mode

compression value

Downmix

Downmix

matrix-mixdown
Downmixing levels

Comparaison du loudness Dolby et AAC, cf. Fraunhofer.


AC3

(HE)-AAC

Loudness Normalization

Dialnorm

Program Reference Level

Bitstream field name

dialnorm

prog_ref_level

-1 -31dB

0 -31,75dB

Granularity

1dB

0,25dB

Bits per Value

5 bits

7 bits

Repetition rate

1 value per Frame

1 value per Frame

(1536 samples)

(1024/2048 samples)

-31dB Line Mode

0 -31,75dB

Range

Decoder Output Level

-20dB RF Mode

Comparaison des DRC Dolby et AAC, cf. Fraunhofer.


Light Compression
Bitstream field name
Range
Granularity
Repetition rate

AC3

(HE)-AAC

Line Mode

MPEG dynamic Range


Control

dynrng

dyn_rng_ctl, dyn_rng_sgn

-24 +24dB

-31,75 +31,75dB

0,25dB

0,25dB

6 values per Frame

1 value per Frame

(1536 samples)

(1024/2048 samples)
+interpolation scheme

8.1 La

chane dexploitation

Broadcast

371

Heavy Compression
Bitstream field name
Range
Granularity
Repetition rate

AC3

(HE)-AAC

RF Mode

DVB compression_value

compr

compression_value

-48 +48dB

-48 +48dB

0,5dB

0,5dB

1 value per Frame

1 value per Frame

(1536 samples)

(1024/2048 samples)

Comparaison du Downmix Dolby et AAC, cf. Fraunhofer.


AC3

(HE)-AAC

(-6 -4,5 -3 -1,5 0 +1,5 +3) dB

matrix-mixdown

Coefficients
Center

-3dB
Surround

(- -6 -4,5 -3 -1,5) dB

matrix-mixdown
(- -6 -3 0) dB

Center

Ancillary Data
(- -9 -7,5 -6 -4,5 -3 -1,5 0) dB

Surround

Ancillary Data
(- -9 -7,5 -6 -4,5 -3 -1,5 0) dB

Dunod Toute reproduction non autorise est un dlit.

Le flux HeAAC peut tre utilis pour transporter le son sur une chane TVHD, le CSA
a communiqu sur cette option en 2009. Il est prconis de pouvoir alors le transcoder
en Dolby Digital ou en DTS avec conversion des metadata. Aujourdhui, peu damplificateurs AV semblent intgrer des DSP de dcodage compatibles AAC.

8.1.5 Metadata DTS


Le DTS intgre depuis peu des metadata comparables celles du Dolby Digital, ou
de lAAC. Ainsi, lorsque lon encode un programme en DTS pour les supports CD ou
DVD Vido, on doit renseigner un Loudness. Le Loudness est renseign comme pour
le Dialnorm de Dolby, en revanche le Downmix nest compatible que LoRo et les coefficients de downmix sont fixes (-3dB, -3dB). Pour les formats volus DTS HD Master
que lon trouve sur le Blu-ray, lutilisateur peut fabriquer une matrice de Downmix par
lutilisation de faders, par pas de 0,1dB. Ainsi, les formats7.1 dun Blu-ray en DTS HD
ou DTS HD Master sont compatibles5.1, et les formats5.1 sont compatibles stro, par
le biais de cette matrice. La gestion de la dynamique du programme en DTS diffre des
DRC Dolby ou AAC, on nattribue pas au programme de profiles dynamiques types,
mais une courbe de niveau plus prcise comparable une automation de niveau. Cette
courbe de niveau est exporte dans un fichier AAF depuis un Pro Tools et simporte

372

Chapitre 8 Exploitation Son Broadcast,

supports, nouveaux mdias

dans le flux secondaire lors de lencodage DTS, dans la suite DTS HD Master Audio
Suite (voir exploitation des formats DTS).

8.1.6 Intgration des encodeurs Dolby E


Le DP570 est le processeur qui simule les metadata, il pilote les encodeurs Dolby Surround DP563, et Dolby E DP571. Il permet de renseigner les metadata du flux Dolby
E et de simuler lcoute des diffrents flux. La fabrication du signal Dolby E est faite
partir de ces trois botiers dans les cars HD ou dans les rgies de postproduction5.1.
Le DP570 comporte une section monitoring5.1+2 analogique ou numrique pour
couter les diffrents flux: le full5.1, le Dolby Surround simul en5.1, les downmix
stro LtRt ou LoRo, et le downmix mono. Son intgration en rgie de mixage peut
ou non associer le signal LtRt aux metadata et au flux Dolby E. Le DP570 se cble en
sortie de console de mixage ou en sortie dune station audionumrique, sur le signal
de mixage5.1 et sur la stro LtRt. Gnralement, le5.1 fera lobjet du programme 1
et la stro LtRt sera le programme 2. Le programme5.1+2 est le programme le plus
souvent utilis, mais il est possible dutiliser dautres configurations de programmes,
il en existe 24 au total.
Les diffrentes configurations de programmes
5.1+2

4+2

5.1+21

4+21

4+4

32

4+22

22+21

4+2+21

2+41

4+41

61

42

32+21

2+2

22+41

2+21

2+61

41

81

7.1

5.1

7.1Scrn

Figure8.13Configurations des programmes du DP570, Dolby.

8.1 La

chane dexploitation

Broadcast

373

Les botiers Dolby se raccordent en BNC 75 ohms, et se synchronisent sur une rfrence
vido, il convient donc dutiliser des botiers transformateurs dimpdance 110 ohms75 ohms. Le DP570 comporte une section router qui permet de redistribuer les
canaux de mixage5.1 qui alimentent les entres, comme le proposent tous les botiers.
La redistribution peut alimenter lencodeur Dolby Surround DP563 qui distribue le
mixage5.1 vers lencodeur Dolby E DP571. Dans le mode o le signal LtRt est intgr
au flux Dolby E, la sortie principale Main Out LtRt du DP563 est redistribu lentre
7/8 du DP570, elle alimente alors le programme 2 du flux Dolby E et on utilise la sortie
router 7/8 du DP570 pour alimenter lentre 7/8 de lencodeur Dolby E DP571. Enfin,
la sortie metadata du DP570 permet de vhiculer les metadata lencodeur DP571, sur
une interface srie RS485.

Dunod Toute reproduction non autorise est un dlit.

Figure8.14Chane dencodage Dolby E associant le LtRt gnralement utilise, B.Priaux.

Lautre mode qui nassocie pas le signal LtRt au flux Dolby E, permet de sortir deux
signaux, le Dolby E et la sortie LtRt synchroniss pour un report sur bande. La sortie
Main Out du DP563 est cble sur lentre LtRt in du DP570 pour tre monitore et alimente lentre PCM delay du DP571, via la sortie LtRt thru. Lentre PCM delay permet
de garder la synchronisation des deux signaux, compte tenu du retard dune image
induit par lencodage Dolby E. Le DP572 alimente le PCM delay, le signal stro LtRt,
vers lentre 1/2 du VTR, et la sortie principale Main Out, le Dolby E5.1, vers lentre
3/4 du VTR.

374

Chapitre 8 Exploitation Son Broadcast,

supports, nouveaux mdias

Figure8.15Chane dencodage Dolby E nassociant pas le LtRt, Dolby.

8.1.7 DM100, vrification de la bonne synchronisation des trames Dolby


E et vido
Le DM100 Dolby Bitstream Analyser est un outil tout particulirement adapt au test
de bout en bout de la chane dexploitation Dolby. Il se synchronise sur la rfrence
vido dune installation, et grce son gnrateur de signaux tests interne, il permet
de contrler rapidement lintgrit et la composition des signaux Dolby Digital,
Dolby E et PCM achemins par des quipements de production. Son utilisation valide
particulirement la bonne synchronisation des trames Dolby E et vido.
8.1.8 Utilisation du DP570, metadata Dolby
Le DP570 est contrl par une application Windows DP570 Dolby Remote via le port
RS-232 sur le devant, ou via le port RS-485 larrire de lappareil. Cette application
comporte une section monitoring qui permet dcouter les diffrents flux: le mixage5.1
en position Full mix, la simulation5.1 du Dolby Surround Pro Logic 1 et 2 (PL et PL2),
la stro LtRt en mode Pro Logic 1 ou 2 ou le LoRo, et la mono issue du LtRt ou du
LoRo. On trouve ensuite les deux modes associs aux DRC, le Line mode et le RF mode.
Cette section monitoring comporte des fonctions Mute et Solo ainsi que la gestion du
niveau dcoute valable pour la sortie analogique uniquement, avec une position de
rfrence. Le DP570 comporte une page de rglage de monitoring permettant dajuster
les niveaux et les dlais pour chaque canal, avec la possibilit de gnrer un bruit rose
pour vrifier lcoute. La partie monitoring Dolby Surround permet dajuster les dlais
des canaux arrire, ils sont rgls 15ms par dfaut.

8.1 La

chane dexploitation

Broadcast

375

Figure8.16DP570 Dolby Remote, Dolby.

Dunod Toute reproduction non autorise est un dlit.

Figure8.17Section Monitoring, Metering, Dolby.

Le DP570 permet le rglage du Bass Management avec diffrentes possibilits de renvois vers les Sub ainsi que trois frquences de coupure 80, 100 ou 120Hz.
Lutilisateur doit renseigner dans la page principale en haut gauche le type de programme du signal Dolby E (5.1 + 2 par exemple) puis, juste au-dessous, il accde la
slection du programme (program select), ici 1 et 2.
Lorsquon renseigne les metadata, le mode interne est activ, cela signifie que les metadata sont librement renseignes par lutilisateur, les autres modes Ext1 et Ext2 permettent de lire les metadata dun flux externe cbl en RS-485 Ext1 ou Ext2, et de
les verrouiller sur ces entres. Il est possible dactiver ces modes pour chacune des
metadata et de rectifier une metadata spcifique, que lon passerait alors en interne.

376

Chapitre 8 Exploitation Son Broadcast,

supports, nouveaux mdias

Loudness
Comme reprsent sur la figure8.16, la page principale du DP570 gre la mesure du
loudness: on y trouve les deux modes de mesure short term ou infinite ainsi que
le mode de slection des canaux qui alimentent la mesure (tous les canaux, ou simplement le centre, le canal LFE tant abandonn). La fonction accept permet dassocier
la valeur de Loudness mesure la metadata Dialnorm, lutilisateur peut aussi rgler
manuellement la valeur. Comme dans tout outil de mesure de loudness, on trouve les
fonctions start, pause et reset.
Audio Processing
Sur le mme schma 8.16, la page de droite gre les autres metadata, tout dabord le
nom du programme que lon retrouvera lors du dcodage du signal Dolby E, puis un
premier groupe de metadata appeles les metadata Audio Processing.Dans ce premier
groupe, on renseigne le channel mode, le mode du format multicanal (3/2 ou 2/0
gnralement), lactivation du canal LFE ou non, le mode de fabrication du downmix
LoRo ou LtRt intgrant la fonction surround phase shift, lattnuation -3dB des
canaux arrire (valable pour lencodage dun mixage film afin dassurer la compatibilit
avec lcoute ITU TVHD). Attention, au lancement de lapplication Dolby Remote, lattnuation de 3dB des canaux arrire est valide. Le mode LtRt preferred stereo Downmix (mode surround phase shift) garantit la compatibilit LtRt du Dolby Digital.
Les autres metadata sont gnralement actives: le filtre passe haut DC High pass
filter bloque la composante continue dun signal audio 3Hz sur les entres, le filtre
passe bas Lowpass filter coupe en entre les hautes frquences 20kHz vitant
laliasing au dcodage, le filtre passe bas Lfe filter coupe 120Hz le canal LFE, cest
un filtre avec une pente trs raide.

Figure8.18Metadata Audio processing, Dolby.

DRC
La page DRC du DP570 permet daffecter le profil de compression pour chacun des
modes Line mode et RF mode, elle intgre des indicateurs de niveau qui reprsentent

8.1 La

chane dexploitation

Broadcast

377

lactivit des profils, lors de la compression ou de lexpansion. Le paramtre RF overmodulation protection dclenche une protection contre la saturation si le flux Dolby
Digital dcod est raccord un appareil RF/antenne. Ce paramtre doit toujours tre
dsactiv.

Figure8.19Metadata DRC, Dolby.

Dunod Toute reproduction non autorise est un dlit.

Bitstream info
Le bitstream mode dcrit le type de service transport par le flux Dolby Digital. Un
programme audio complet peut comprendre un service audio principal (un mixage
complet du programme audio) et un service associ ou un service principal avec un
service associ. Gnralement, la plupart des programmes utilisent le rglage par
dfaut, complete main, qui correspond au programme audio complet (de la mono
au5.1). Le programme constitu dun service audio principal et dun service associ
peut tre utilis pour transporter plusieurs langues, un voice over, des commentaires,
une description sonore de limage, une version karaok, sur un dbit total maximal de
512kbps.
Sur cette page bitstream info figureaussi le Dolby Surround mode, il convient de
prciser ici si le signal est un LtRt Dolby Surround ou non. Dans le programme5.1,
on valide not indicated et sur le programme stro LtRt, on prcise bien le mode
Dolby Surround encoded. Ce mode force le dcodage Dolby Pro Logic, aprs dcodage Dolby Digital dun signal Dolby 2.0 la rception sur un ampli home-cinma par
exemple.
Ensuite figurent des metadata de description, lecopyright bit indique si le flux
Dolby Digital est protg par un copyright, loriginal bitstream indique si le flux
Dolby Digital est une version master ou copie. LAudio Production Information
prcise le niveau maximal SPL atteint dans la rgie de mixage afin de contrler le
niveau dcoute sur les quipements haut de gamme ainsi que le type dacoustique de
lauditorium, le rglage small tant une courbe de rponse plate, le rglage large
correspondant une correction ISO-X type cinma.

378

Chapitre 8 Exploitation Son Broadcast,

supports, nouveaux mdias

Figure8.20Bitstream info, Dolby.

Figure8.21Extended BSI, Dolby.

Extended BSI
Lesextended BSI sont des metadata supplmentaires intgres au flux Dolby Digital, elles agissent essentiellement sur le paramtrage des downmix. Lepreferred stereo downmix indique si le flux Dolby Digital est downmix en LtRt ou LoRo, la sortie
stro du dcodeur sera donc pilote par cette metadata sans que lauditeur ait le
rgler. Les coefficients de downmix du LtRt sont renseigns dans les metadata Lt/Rt
Center Mix level pour le canal central et Lt/Rt Surround Mix level pour les canaux
surround. Les coefficients de downmix LoRo sont renseigns dans les metadata Lo/
Ro Center Mix Level et Lo/Ro Surround Mix Level. Comme indiqu prcdemment, les coefficients possibles sont: -6dB, -4,5dB, -3dB, -1,5dB, 0dB, +1,5dB,
+3dB pour le centre et les canaux arrire.
Le Dolby Digital est compatible Dolby Surround EX, il existe une metadata appele
Dolby Surround EX, qui indique si le flux est encod dans ce format. Le Dolby
Surround EX est un format 6.1 qui encode un canal arrire central supplmentaire BS,
matric dans les canaux Ls et Rs, identique au Dolby Surround

8.1 La

chane dexploitation

Broadcast

379

Dans les extended BSI figureaussi la metadata AD converter type qui indique si
le signal transport a t converti par la technologie HDCD, cette technologie tant
pratique sur certains master CD.
Ensemble des Metadata Dolby, cf. Dolby.

Dunod Toute reproduction non autorise est un dlit.

Paramtres Metadata

Production

Program Configuration

Program Description Text

Diffusion

Dialog Level

Channel Mode

Lfe Channel

Bitstream Mode

Line Mode Compression

RF Mode Compression

RF Overmodulation Protection

Center Downmix Level

Surround Downmix Level

Dolby Surround Mode

Audio Production Information

Mix Level

Room Type

Copyright Bit

Original Bitstream

Preferred Stereo Downmix

Lt/Rt Center Downmix Level

Lt/Rt Surround Downmix Level

Lo/Ro Center Downmix Level

Lo/Ro Surround Downmix Level

Dolby Surround EX Mode

/D Converter Type

DC Filter

Lowpass Filter

LFE Lowpass Filter

Surround 3dB Attenuation

Surround Phase Shift

380

Chapitre 8 Exploitation Son Broadcast,

supports, nouveaux mdias

8.1.9 Encodage/dcodage Dolby Digital, Dolby Digital Plus, Dolby Pulse


Lencodage Dolby Digital pour la diffusion se fait avec le botier Dolby DP569, pilot par
les metadata du DP570. Il existe une application Dolby DP569 Remote qui permet de
contrler lencodeur par un PC. Voici le schma reprsentant la chane dencodageDolby
Digital depuis un signal Dolby E transmettant les metadata, lissu, deux signaux Dolby
Digital sont encods, le programme 1 (5.1) et le programme 2 (stro LtRt ou LoRo):
Dolby a rcemment dvelopp le DP568, un dcodeur pour la diffusion, compatible
Dolby Digital, Dolby Digital +et Dolby Pulse (codec He AAC v2 +metadata, voir chapitre7). Ce dcodeur compatible avec la mesure loudness EBU R128, pourrait terme
remplacer le DP564.

Figure8.22Chane dencodage Dolby Digital, Dolby

8.1.10 Solutions Logiciels


Complment
Web 8.1

8.2

Mesure du loudness

8.2.1 Principe, mesure Dolby


Le loudness est une nouvelle mesure apparue avec les formats Dolby, elle exprime
le niveau dun signal audio rellement peru par loreille et repose sur un niveau

8.2 M esure

du loudness

381

quivalent Leq, moyenn sur des temps variables. Cette mesure permet tout simplement denchaner des programmes lors de la diffusion, la mme valeur, de
telle sorte quil ny ait plus de sauts de niveaux. En effet, dans la chane de fabrication audiovisuelle, les produits ont tous des niveaux de loudness diffrents. Par
exemple, le film a son niveau de loudness assez bas, avec une grande dynamique,
cest le cas aussi de la musique classique. En revanche, la publicit a des niveaux
plus forts, quant au CD de musique actuelle, il a considrablement repouss les
niveaux vers le haut et rduit la dynamique. Le particulier est dailleurs contraint
de baisser le niveau sonore pendant la page de publicit et de remonter le niveau
la reprise du programme. A partir de 2013 en France, la norme loudness permet
un enchanement fluide en niveau des diffrents programmes et des diffrentes
chanes de tlvision.
Le loudness sexprime par un Leq, moyenn au dpart sur une fentre glissante de 10
secondes et dont lchelle sexprimait en dBA (courbe de pondration A). La fentre
glissante de 10 secondes dfinit le mode de mesure du loudness short term chez
Dolby. Cest une valeur qui volue sur toute la dure du programme. Si lon souhaite
mesurer un programme entier, il faut procder la mesure long term, cest la
moyenne du loudness sur toute la dure.

Dunod Toute reproduction non autorise est un dlit.

La mthode de mesure Dolby diffre suivant la nature du programme, si cest un film,


un documentaire, on fait la mesure sur les parties avec dialogues, la mesure sappelle
alors le dialog level, ou niveau de dialogue. Le dialogue est llment primordial de
ce type de programmes, il doit tre intelligible sur toute la longueur du film et garder
un niveau constant. Pour tout autre programme sans dialogues notamment les programmes musicaux, on procde la mesure de toute la dure du programme, cela sappelle la mesure loudness. Afin de simplifier la mthode de mesure du Dialog level,
Dolby a dvelopp un algorithme de mesure Dialog Intelligence que lon trouve
sur la plupart des outils Dolby (LM100, Dolby Media Meter). Il permet disoler les
parties avec dialogues, et ne prend pas en compte les passages intermdiaires. Autrement, sans Dialog Intelligence, il convient disoler quatre passages reprsentatifs
du programme, et den moyenner les quatre valeurs obtenues, en combinant la mesure
des passages en continu.

8.2.2 Recommandation ITU BS 1770-1


La mesure de loudness a ensuite volu, utilisant une courbe de pondration diffrente,
la courbe RLB, donnant des valeurs plus proches de la ralit. La courbe RLB est une
extension de la courbe B dans les basses frquences (Revised Low Frequency B curve).
Puis, depuis dbut 2009, la mesure intgre la courbe R2LB ou courbe K, qui diffre
quelque peu de la courbe RLB avec une praccentuation dans laigu. La courbe K est
aujourdhui la courbe retenue pour la mesure du loudness, elle donne alors lchelle
logarithmique de mesure en LKFS.

382

Chapitre 8 Exploitation Son Broadcast,

supports, nouveaux mdias

Figure8.23Courbes de pondration A, B, RLB, R2LB (K), TCelectronic.

La mthode de mesure fait lobjet dune norme ITU-R BS1770-1 dont la figure8.24
dcrit lalgorithme.

Figure8.24 Norme ITU-R BS1770-1, ITU.

Cette norme intgre la courbe de pondration K sur lanalyse des niveaux des cinq
canaux du multicanal, le canal LFE ntant pas pris en compte. Les canaux arrire ont
un coefficient plus lev, +1,5dB, car ils ont un pouvoir attentionnel plus important.
En effet, comme prcdemment voqu, tout son provenant de la zone arrire est
synonyme de danger et attire lattention.

8.2 M esure

383

du loudness

Dialog Range
Le Dialog Range permet simplement de suivre lexcursion du Dialog level, il donne les
valeurs minimum et maximum du Dialog level sur la dure du programme mesur.
On le trouve sur les outils Dolby, il est corrl au Dialog Intelligence. Ces valeurs permettent de vrifier si le niveau des dialogues reste constant ou bien sil volue beaucoup.
Mesure Loudness Dolby
- Mesure short term: Leq sur 10secondes.
- Mesure long term ou infinite all: moyenne du Leq sur toute la dure du
programme.
- Short term Dialog: Leq sur 10secondes avec Dialog Intelligence.

Dunod Toute reproduction non autorise est un dlit.

- Infinite Dialog: moyenne du short term Dialog sur tous les passages de
dialogues.

8.2.3 Loudness EBU R128 Europe, recommandation ITU BS 1770-3


En 2008, lEBU cre un groupe de travail nomm le PLOUD dont la finalit est de mettre
en place une norme europenne de loudness. Aujourdhui, il regroupe lensemble des
chanes de tlvisions et radios europennes. Cette norme intgre des notions nouvelles
dans la mesure du loudness notamment lutilisation dun outil universel permettant
de mesurer tous les programmes, on ne fait plus alors de diffrence entre un film et
un programme sans dialogues. Pour cela, cet outil intgre un gate avec un seuil relatif.
Cest donc tout dabord une simplification dans la mesure des programmes. Par ailleurs, lancienne norme Dolby ne prenait pas en compte les passages intermdiaires,
entre squences avec dialogues, si bien quelle ne mesurait pas rellement lensemble du
programme. De plus, il sest avr que les programmes de grande dynamique, ramens
une valeur de loudness cible, sonnaient plus forts que ceux dynamique rduite,
do la ncessit dintgrer le gate. Le gate permet donc dcarter les passages dont le
niveau de loudness dcrot subitement, ce sont des passages dont le niveau passe au
second plan, derrire des passages plus reprsentatifs du programme. Par exemple,
un match de tennis comporte ce type de changements dans les niveaux de loudness,
loreille sappuie sur les passages forts, marqus par les bruits de foule, les commentaires, pour estimer le niveau peru, les autres passages silencieux passent au second
plan. Lalgorithme de mesure avec gate, permet justement disoler les passages forts,
utiles loreille et dcarter les passages faibles.
La norme R128 dfinit trois mesures qui permettent de mieux suivre lvolution du
loudness:
Momentary: mesure instantane du loudness, moyenne sur 400ms;
Short Term: mesure de courte dure, moyenne sur 3secondes;

384

Chapitre 8 Exploitation Son Broadcast,

supports, nouveaux mdias

Program loudness ou Integrated: mesure de toute la dure du programme, avec


utilisation du gate.
Le gate est dfini par un seuil variable, gal 10dB en dessous du loudness momentan (momentary 400ms).
Le canal LFE nest toujours pas intgr dans la mesure loudness bien que des interrogations au sein du PLOUD sur cette option soient dactualit aujourdhui.

Figure8.25Recommandation ITU-R BS 1770-2 intgrant le gate dans la mesure, EBU PLOUD.

Une nouvelle chelle exprime en LUFS (Loudness Unit referenced to Full Scale) remplace lancienne, exprime en LKFS. Lchelle LUFS est donne pour les valeurs absolues, le LU est utilis pour les valeurs relatives.
Nous pouvons exprimer les valeurs en LUFS ou bien en LU, avec la correspondance
suivante, conformment la recommandation ITU-R BS 1771:
0 LU =-23.0 LUFS
Deux chelles sont possibles, suivant les valeurs mesures: lchelle +18 LUFS utilise
pour les programmes grande dynamique, et lchelle +9 LUFS pour les programmes
dynamique plus rduite.

8.3 Normes

franaises

PAD TVHD

385

Figure8.26chelles LUFS, +18 LUFS et +9 LUFS, EBU Tech 33430.

La valeur du program loudness pour chacun des programmes est norme :


Program loudness =- 23.0 LUFS
Pour les programmes en postproduction, la valeur du loudness doit tre de - 23.0LUFS,
pour les programmes Live une tolrance de 1 LU autour de la valeur cible est admise.
Loudness EBU R128
- Mesure sur toute la dure du programme.
- Nintgre quun seul mode de mesure, compatible avec tout programme
comportant des dialogues ou non.
- Compatible avec les programmes de grande dynamique.
- 3 valeurs de loudness.
Momentary: mesure instantane 400ms.
Short term: mesure courte dure, moyenne sur 3secondes.
Integrated ou program loudness: mesure du programme avec gate 10
LU, conformment la norme ITU-R BS1770-3.
- Program Loudness =- 23.0 LUFS 1 LU pour les programmes Live.

Dunod Toute reproduction non autorise est un dlit.

- 0 LU =- 23 LUFS.

8.3

Normes franaises PAD TVHD


Le concept de normalisation des niveaux crtes en rfrence un niveau maximum
permis ( -9dBFS) a men des niveaux de loudness trs varis. La variation du loudness dpend du niveau de compression des programmes. La normalisation du loudness
des programmes, intgre dans les nouvelles recommandations, permet dobtenir un
niveau moyen constant du loudness, avec des crtes variant en fonction du contenu des
programmes. Le spectateur peroit alors un niveau moyen de loudness gal sur tous les

386

Chapitre 8 Exploitation Son Broadcast,

supports, nouveaux mdias

programmes, il na plus besoin de changer le niveau de monitoring. Lcoute se fait sans


gne la condition que la variation du loudness du programme soit adapte au lieu.

8.3.1 Mesure des niveaux


Rappel sur la mesure crte DIN 45406 QPPM
Le contrle des niveaux des programmes stro est assur par un crte mtre quasiinstantan de 10ms de temps de monte suivant la norme DIN 45406. On appelle cette
mesure de crte un QPPM ce qui signifie quasi peak program meter (quasi crte mtre).
En diffusion broadcast analogique stro, le niveau des crtes du signal ne doit pas
dpasser 0 QPPM sur le crte mtre DIN 45406 quivalent - 9 dBFS. Pour rappel, le
niveau dalignement 0 VU (+4 dBu) en analogique doit correspondre - 9 QPPM sur
le crte mtre, ce qui doit correspondre sur lchelle numrique - 18 dBFS en PPM.
Le PPM signifie que la mesure du niveau crte est instantane, elle se fait pendant la
dure dun chantillon.
Mesure crte instantane PPM
Le crte mtre numrique contrle gnralement un niveau de crte instantan 0ms
que lon appelle le niveau PPM. Sa mesure est faite sur chacun des chantillons, et gnralement, le 0 dBFS se dclenche lorsquau minimum trois chantillons successifs ont
une valeur de 0 dBFS. Mais il existe dautres crte-mtres qui dclenchent le 0 dBFS au
premier chantillon dont la valeur est 0 dBFS. Dans la recommandation CST RT17-TV
v2 dite en 2009 (voir le paragraphe Normes PAD TVHD), le niveau du signal multicanal ne doit pas dpasser - 3 dBFS PPM instantan.
Voici un schma reprsentant lalignement des niveaux exprims en VU, crte-mtre
QPPM et crte-mtre numrique avec leur correspondance:

Figure8.27Alignement des niveaux VU, QPPM, PPM numrique et dBU, CST.

8.3 Normes

franaises

PAD TVHD

387

Mesure True Peak dBTP


De nombreuses tudes dans le contrle du signal la conversion numrique-analogique ont rvl le manque de prcision du crte mtre instantan. Le 0 dBFS mesur en
PPM peut engendrer la saturation du signal analogique en sortie de convertisseur. Les
tudes ont valu une valeur maximale proche de 3dB dincertitude dans la mesure,
ce qui a remis en cause la mesure crte instantane. Elle est remplace par une nouvelle
mesure crte appele True Peak (crtes vraies). Cette mesure est ralise entre chacun
des chantillons, ce qui revient surchantillonner quatre fois le signal original afin
dinsrer des mesures supplmentaires et mieux suivre lvolution du signal. Le
schma ci-dessous reprsente lalgorithme de la mesure True Peak:

Figure8.28Algorithme de mesure True Peak, EBU PLOUD.

Les valeurs sont donnes en dBTP et lchelle du crte mtre True Peak stend alors
de - 60 dBTP +3 dBTP.

8.3.2 Anciennes normes franaises PAD CST RT16, CST RT17 v2, CST RT19

Dunod Toute reproduction non autorise est un dlit.

Complment
Web 8.2
Anciennes normes franaises PAD CST RT16, RT17, RT19.

8.3.3 Norme europenne actuelle EBU R128


La norme EBU R128 est une norme europenne en cours de validation dans les pays
europens. Elle est laboutissement du groupe de travail PLOUD au sein de lEBU,
actif sur ce sujet depuis 2010. Des tudes portant sur lenchanement de programmes
de grande dynamique et de dynamique rduite ont rvl que les carts de niveaux
taient moins importants lorsque la normalisation de loudness se fait avec une mesure
universelle de type EBU R128, quavec une mesure dialogue Leq (K) ou une mesure

388

Chapitre 8 Exploitation Son Broadcast,

supports, nouveaux mdias

dialogue Leq (A). Le manque de prcision dans la mesure du dialogue sexplique en


partie par des esthtiques de mixages trs diffrentes observes sur les programmes.
Un seul paramtre, le loudness, nest pas suffisant pour caractriser diffrents genres
de programmes et diffrents styles de mixage. Trois caractristiques doivent tre
mesures:
le niveau des crtes du signal ne doit pas dpasser un certain seuil afin dviter la
distorsion du signal tout le long de la chane (processeurs, codecs, convertisseurs),
dans le domaine numrique on utilise la mesure True Peak;
le niveau de Loudness du programme mesur doit tre conforme la valeur cible
retenue par le diffuseur. Cette valeur doit tre suffisamment basse afin de laisser
vivre la dynamique du signal sans atteindre la saturation. La mesure est faite par
le Program Loudness ou Integrated Loudness, avec lutilisation dun gate
relatif;
lenchanement des programmes doit se faire sans saut de niveaux, et la variation
de loudness dans un programme doit tre adapte aux capacits en dynamique
du systme dcoute de lauditeur. Le Loudness Range permet de quantifier cette
excursion.

Loudness, LRA
La mesure du loudness aborde dans le paragraphe Loudness met en vidence les
points suivants:
la mesure est faite sur toute la dure du programme, elle nintgre quun seul mode
de mesure, compatible avec tout programme comportant des dialogues ou non;
elle est compatible avec les programmes de grande dynamique;
elle repose sur 3 valeurs de loudness:
Momentary (M): la mesure instantane 400ms, la mesure se fait sans gate
Short term (S): la mesure courte dure, moyenne sur 3secondes, la mesure se fait
sans gate
Integrated ou Program Loudness (I): la mesure du programme avec gate - 10 LU,
conformment la norme ITU-R BS 1770-2, utilisation du start et du stop pour dmarrer et stopper la mesure. La valeur cible du Program Loudness est- 23.0 LUFS et 23.0
LUFS 1 LU pour les programmes Live. Lchelle LU sexprime avec la correspondance
suivante, conformment la norme ITU-R BS 1771: 0 LU =- 23 LUFS
Cette norme utilise donc une mthode de mesure de loudness intgrant deux gate en
cascade, la gate absolue de - 70 LUFS et la gate relative - 10 LU relatif au niveau de
loudness utilisant le gate absolu.

8.3 Normes

franaises

PAD TVHD

389

Principe

du seuil de mesure relatif

- On effectue intervalles rguliers une mesure glissante de lnergie


moyenne de chaque canal du programme sur une fentre de 400ms. La
recommandation prcise que le chevauchement entre deux fentres de
mesure successives doit tre gal 75%. Un chevauchement de 75%
implique de faire une mesure toutes les 100ms.
- On peut donc calculer le loudness de chaque fentre (ou bloc). Les blocs
dont le loudness est infrieur -70 LUFS (absolute gating threshold) sont
purement et simplement ignors. Pour les autres, on mmorise la mesure
dnergie moyenne par canal dans une table.
- On peut ainsi calculer le loudness que produirait un signal compos
uniquement des blocs mmoriss dans la table. Le seuil relatif de mesure
est plac 10dB en dessous de cette mesure.
- On peut maintenant dterminer le relative gated loudness: cest celui que
produirait un signal compos uniquement des blocs mmoriss dans la
table et dont le loudness est suprieur au seuil relatif.
- Lobjectif du seuil relatif est de produire un rsultat plus fiable en ignorant
les passages faibles relativement au loudness moyen du programme.

Dunod Toute reproduction non autorise est un dlit.

- Dans la figuresuivante, les zones bleues sont celles qui ne seront pas prise
en compte, aprs application du seuil de mesure.

Figure8.29Principe du seuil de mesure relatif, FranceTlvisions.


Guide de loudness France Tlvisions, Manuel Naudin et Claire Mrienne.

Cette mthode de mesure intgre dans la norme ITU-R BS 1770-2 permet dcarter
les moments de silence, les passages de bas niveau qui sont perus en second plan par
rapport un premier plan constitu des dialogues par exemple. La distribution des
niveaux de loudness mesurs avec lutilisation des deux gate est alors quantifie suivant
une chelle statistique exprime en pourcentage. Le Loudness Range (LRA) est alors
dfini par lcart de Loudness exprim en LU sur la distribution entre 10% et 95%,

390

Chapitre 8 Exploitation Son Broadcast,

supports, nouveaux mdias

les valeurs de loudness extrmes tant cartes. La valeur 10% permet par exemple
dcarter les fades out de fin dune musique et la valeur 95% permet de ne pas tenir
compte des coups de pistolets dans un film. Le LRA traduit lexcursion du loudness sur
toute la dure du programme, les valeurs de loudness les plus basses reprsentent alors
les niveaux les plus faibles du contenu pertinent du programme, les passages de silence
et les ambiances de faible niveau tant carts.
Le Loudness Range permet de mesurer la dynamique dun programme et de sassurer
quelle est conforme la dynamique maximale accepte suivant le lieu de diffusion. La
figure8.30 reprsente les diffrentes valeurs de LRA retenues pour ces diffrents lieux,
le cinma, le home-cinma, la voiture etc. La norme R128 nimpose pas une valeur de
LRA maximale, elle encourage lutilisation du LRA pour suivre lvolution du loudness
du programme, les valeurs types tant laisses la discrtion des diffuseurs, en tenant
compte du genre de programme, du type daudience et du mode de distribution.

Figure8.30Exemples de valeurs de LRA maximales acceptes suivant les lieux de diffusion,


EBU. Cf. EBU Tech 3343.

Niveaux crte
Les niveaux crtes sont mesurs suivant un crte-mtre True Peak, et un maximum
de - 1 dBTP ne doit pas tre dpass, ceci est valable pour les niveaux de mixage en
production. La mthode de mesure True Peak est dfinie par la norme ITU-R BS 1770-3.
En France les niveaux crte maximums pour des signaux encods sont plus bas, environ - 3 dBTP (cf. EBU guide de distribution 3344).
Programmes courts
Sont considrs comme programmes courts, les publicits ou bandes annonces dune
dure infrieure 30secondes. La valeur du Program Loudness doit tre normalise -23.0LUFS0.5 LU. Pour ce type de programmes, on introduit les valeurs
maximales de loudness Momentary et loudness Short Term, qui permettent dviter
davoir des publicits trop fortes. Il convient alors de ne pas dpasser les valeurs
suivantes:

8.3 Normes

franaises

PAD TVHD

391

- Maximum Short Term Loudness.


MAX SL =+5 LU =- 18 LUFS.
- Ou de faon alternative Maximum Momentary Loudness
MAX ML =+8 LU =- 15 LUFS.

Lune ou lautre des deux valeurs limites maximales doit tre respecte, pas les deux
en mme temps. Les valeurs loudness Max Short Term et loudness Max Momentary sont respectes gnralement par le travail des niveaux des diffrentes sources
sur les passages concerns. Dans les cas les plus difficiles, le traitement dynamique
simpose.
Synthse

pour les programmes courts normaliss

r128

- Program Loudness -23.0 LUFS 0.5 LU


- Max True Peak -1 dBTP
- Max Short Term Loudness -18.0 LUFS
- Le LRA nest pas applicable
Ou de faon alternative :
- Program Loudness -23.0 LUFS 0.5 LU
- Max True Peak -1 dBTP
- Max Momentary Loudness -15.0 LUFS

Dunod Toute reproduction non autorise est un dlit.

- Le LRA nest pas applicable

Mthode de travail et traitements dynamiques


Lapproche recommande par le PLOUD de lEBU, consiste intgrer directement les
nouveaux outils de mesure pendant la phase de mixage. Elle permet dobtenir une
dynamique plus importante des programmes et, aprs un certain temps dexprimentation, de mixer loreille, un niveau constant de -23LUFS.
La plupart des programmes saccommodent dune lgre attnuation sur le master de
la console afin dobtenir le niveau cible de -23.0LUFS. Pour certains programmes
grande dynamique, il convient de limiter les crtes avec des outils compatibles True
Peak et de compresser le signal afin dobtenir un LRA adquat.
Suivant la norme R128, le traitement dynamique pour la compression du LRA
recommande un seuil bas, infrieur - 40 dBFS, un rapport de compression
bas, entre 1:1,2 et 1:1,5, et lutilisation du gain de rattrapage afin dobtenir la
cible-23LUFS.

392

Chapitre 8 Exploitation Son Broadcast,

supports, nouveaux mdias

Figure8.31Traitement du LRA, EBU Tech 3343.

EBU R128
- 3 paramtres caractrisent le signal.
le Program Loudness.
le Loudness Range (LRA).
les niveaux crtes max True Peak.
- Le Program Loudness doit tre normalis - 23.0 LUFS 0,5 LU.
- Une tolrance de 1 LU pour les programmes pour lesquels il est difficile
dobtenir une normalisation exacte comme le Live.
- Loutil de mesure doit tre conforme la norme ITU-R BS 1770-3 et EBU
Tech Doc 3341.
- La mesure du LRA permet de savoir si une compression du signal est
ncessaire suivant le genre du programme, le type daudience et le mode
de distribution.
- Le niveau crte True Peak maximal est de 1 dBTP en production.
- La metadata loudness doit tre renseigne - 23.0 LUFS, si pour une
raison particulire il nest pas possible de normaliser - 23.0 LUFS, la
metadata loudness doit toujours indiquer la valeur mesure.

8.3.4 Normes franaises PAD R128 2011 CST RT-17-TV version V3


Voici les principaux lments retenir sur les normes PAD actuelles. Attention, la
norme franaise reprend la norme EBU R128 mais elle ajoute des spcificits comme
par exemple la prise en compte des dialogues.
Installations5.1
Le niveau dcoute de rfrence pour une installation TVHD Son est autour de 79dBC
SPL par canal, pour un bruit rose gnr - 18dBFS RMS, le canal LFE est rgl
83dBC SPL (sonomtre pleine bande).

8.3 Normes

franaises

PAD TVHD

Niveau

393

rfrence dcoute et norme

EBU R128

- En consquence de la normalisation des niveaux de loudness des mixages


23LUFS, le niveau rfrence dcoute est autour de 79 dBC SPL
par canal. On garde une certaine souplesse dans le rglage du niveau
dcoute, autour de 79 dBC SPL, suivant la taille de la rgie et la distance
des enceintes. LEBU travaille actuellement sur la mise jour du rglage du
niveau de rfrence (Tech 3343):
- Lref =73 dBA SPL par canal pour un bruit rose filtr entre 500Hz et 2kHz
dont le program loudness est de -23.0LUFS (ce fichier est fourni dans la
session Pro Tools test au chapitre 2).

Niveau dalignement
Le niveau dalignement lu sur un crte-mtre numrique Full Scale est de -18dBFS
pour un signal sinusodal la frquence de 1000Hz.
Un signal dalignement 1000Hz -18dBFS crte doit afficher un niveau de loudness
de -18LUFS sur un quipement de mesure EBU, si le signal est prsent sur les canaux
frontaux gauche et droite dun programme stro ou dun programme5.1.
Si le signal nest prsent que sur un seul canal frontal, le niveau affich sera de
-21 LUFS.

Niveaux crte
Le niveau des crtes du signal audio, mesur en True Peak, ne doit pas dpasser
-3 dBTP (compatible production PCM et diffusion Dolby).
Niveau de Loudness
La valeur cible du loudness intgr est:

Dunod Toute reproduction non autorise est un dlit.

- 23.0 LUFS 1 LU pour les programmes de dure suprieure 2 minutes;


- 23.0 LUFS prcisment pour les programmes de dure infrieure 2 minutes.

Dynamique
Pour les programmes de dure suprieure 2 minutes, le LRA doit tre infrieur ou gal
20LU, et au minimum gal 5LU. Les dialogues doivent moduler autour de la valeur
cible de loudness sur une dynamique de 7LU, mesur en short term (3secondes), soit
entre - 30 et - 16LUFS.
Pour les programmes de dure infrieure 2minutes, le niveau maximal Short Term
ne doit pas dpasser +3LU, soit 20LUFS, pour lensemble du programme. On ne
mesure pas le LRA de ce type de programmes.

394

Chapitre 8 Exploitation Son Broadcast,

supports, nouveaux mdias

Synthse CST RT17 V3.


programmes dure
2minutes

programmes dure
> 2minutes

- 3 dBTP

- 3dB TP

- 23.0 LUFS

- 23.0 LUFS 1 LU

LRA

non spcifi

entre 5 LU et 20 LU

Max Short Term


Loudness

- 20 LUFS

non spcifi

Dynamique loudness
des paroles

non spcifi

7 LU autour de - 23
LUFS

Max True Peak


Program Loudness

entre - 30 et - 16 LUFS

La synthse des metadata Dolby est donne par le schma ci-dessous, reprenant les
donnes de la CST RT17 V2 avec les mesures de loudness R128:

Figure8.32Tableau de synthse des metadata Dolby E, CSTRT17V3.

8.3 Normes

franaises

PAD TVHD

395

Autres donnes
Synchronisation vido et audio

Les signaux vido et audio sont synchrones entre eux dans la tolrance suivante:
Soit une avance maximale du son sur limage de 20ms;
Soit un retard maximum du son sur limage de 40ms.
Format audionumrique

Le format audionumrique est 48kHz 16bits pour le PCM, 48kHz 20bits obligatoire
pour le DolbyE. Le signal DolbyE doit tre imprativement exempte derreur CRC
(Cyclic Redundance Code).
Fiches de Mixage et dencodage

Chaque livraison dun mixage doit tre accompagne dune Fiche dinformation de
mixage standardise.
Chaque support PAD contenant une deux pistes Dolby E doit tre accompagn dune
Fiche dencodage Dolby E standardise.
Dolby Surround

Comme le signale la recommandation, les rductions Surround (LCRS) stro


Lt/Rt doivent conserver la cohrence spatiale de limage sonore et ne doivent pas altrer
lintelligibilit ni le timbre du message sonore. Les produits dont lorigine est un signal
Lt/Rt Surround ne doivent en aucun cas tre dcods en LCRS pour alimenter les
canaux du Dolby E en configuration5.1. De plus, ils ne doivent pas subir une gnration de dcodage et de re-matriage Lt/Rt..
Synchronisation des trames Dolby E et de la vido

Le positionnement relatif du dbut de la trame Dolby E et de la vido doit tre conforme


aux recommandations du tableau ci-dessous.
Dunod Toute reproduction non autorise est un dlit.

Synchronisation des trames Dolby E et de la vido.


Format Vido

Dbut de la trame Dolby E

tolrance

SD

Ligne 12

1 ligne

HD

Ligne 20

3 lignes

Affectation des canaux

Le Dolby E prvoit 4 ou 8canaux suivant la configuration mono/stro ou5.1.


En stro, la configuration du programme est 2 + 2, les programmes 1 et 2 tant en
channel mode 2/0, les canaux 1 et 2 reoivent la double mono ou la stro, et les

396

Chapitre 8 Exploitation Son Broadcast,

supports, nouveaux mdias

spcifications du contenu des pistes 7 et 8 du Dolby E sont laisses au choix des diffuseurs.
En multicanal, la configuration du programme est5.1 + 2, le programme 1 tant en
channel mode 3/2L, le programme 2 tant en 2/0, la rpartition des canaux se faisant comme indiqu dans la figuresuivante, gnralement la stro LtRt ou LoRo est
affecte aux canaux 7 et 8, on peut trouver pour certains diffuseurs laudio description:
Affectation des canaux pour les signaux Dolby E5.1 + 2.
Paire AES dorigine

Piste dans le Dolby E

Contenu

AES 1

Piste 1

Piste Gauche

Piste 2

Piste Droite

Piste 3

Piste Centre

Piste 4

Piste LFE

Piste 5

Piste Arrire Gauche

Piste 6

Piste Arrire Droite

Piste 7

Voie optionnelle A

AES 2

AES 3

AES 4

contenu prciser par le


diffuseur
Piste 8

Voie optionnelle B
contenu prciser par le
diffuseur

Compatibilit des downmix stro


La recommandation prcise que les downmix stro doiventconserver:



la cohrence spatiale de limage sonore;


le niveau et lintelligibilit de la voix;
lquilibre entre les lments du mixage;
lquilibre frquentiel du mixage.

Metadata Dolby E
La recommandation distingue deux familles de programmes, les programmes musicaux qui sont susceptibles de poser problme pour leur downmix stro, on les encode
gnralement en LoRo, et les autres programmes. Elle prcise les points suivants pour
le renseignement du Dialnorm.
La mesure seffectuera selon la recommandation EBU R128
La valeur exacte mesure devra tre renseigne dans les mtadonnes

8.3 Normes

franaises

PAD TVHD

397

Dans le cas des programmes courts dont la valeur de Loudness est inferieure a
23LUFS, la valeur reelle mesuree sera affiche.
Organisation du contenu du programme HD
Lorganisation du contenu du programme HD se fait comme prsent dans la figure8.33.

Figure8.33Organisation du contenu dun programme HD, CST.

De 09 :58 :22:00 (inclus) 09 :59 :51:24 (inclus)


Signaux didentification
Ces signaux didentification en dbut de bande sont les suivants:
Pour un programme mono : frquence 1 000 Hz continu au niveau de rfrence
18dBFS, les tonalits des 2pistes doivent tre cohrentes (mme source) et en phase.

Dunod Toute reproduction non autorise est un dlit.

Pour un programme multicanal et stro: les signaux audio didentification et dalignement multicanal et stro doivent correspondre la recommandation EBU Tech
3304 Multichannel Audio line-up Tone, en voici la reprsentation pour un signal
multicanal:

Figure8.34Signal didentification EBU, EBUTech3304.

398

Chapitre 8 Exploitation Son Broadcast,

supports, nouveaux mdias

Lidentification des canaux se fait avec lordre L, C, R, Rs, Ls, pour un signal de
frquence pure 1kHz. Le canal LFE est identifi par un signal de frquence pure de
80Hz.
Les metadata du Dolby E, sur la dure des signaux de tests doivent tre paramtres
comme suit:
Dialog level =-31 LKFS
Line mode =none
RF mode =none
Surround 3dB attenuation =disable
De 09:59:52:00 (inclus) 09:59:59:24 (inclus)

Format PCM: Silence dune dure de huit secondes (8)


Format Dolby E: Silence dune dure de huit secondes (8) cod Dolby E avec les
metadata du programme utile
partir de 10 :00 :00:00 (inclus)

Dbut du programme utile.


Du TC de fin de programme

Du TC de fin de programme utile, et pendant une dure de trente secondes (30) : noir
cod et muet.
Lors de la vrification dun PAD, lcoute se fait en stro et en multicanal (Dolby
Surround, Dolby-E), la compatibilit du Downmix Stro et Mono est vrifie et
doit tre valide en RF Mode Film Standard. Les valeurs des metadata Dolby sont
vrifies.
Voici des exemples de PAD sous forme de cassette HDCAM et HDCAM-SR indiquant
la rpartition des pistes audio, avec une ou plusieurs versions5.1 (VF et VO), dans
tous les cas, la premire paire AES de la casette sera obligatoirement utilise pour une
version stro PCM.
Exemple dun PAD HDCAM avec version stro et5.1
AES 1

AES 2

Pistes

1-2

3-4

Format

Stro

Dolby E5.1

Contenu

LR

5.1 +(LtRt)

8.3 Normes

franaises

PAD TVHD

399

Exemple dun PAD HDCAM SR avec versions stro et5.1 VF et VO


AES 1

AES 2

AES 3

AES 4

Pistes

1-2

3-4

5-6

7-8

Format

Stro
VF

Stro VO

Dolby E5.1 VF

Dolby E5.1 VO

Contenu

LR

LR

5.1 +(LtRt)

5.1 +(LtRt)

Le BLITS est un autre type de signal didentification du5.1 souvent utilis en broadcast, il est fourni dans la session Pro Tools test (chapitre2).
Signal didentification BLITS
- Le signal didentification BLITS permet didentifier les canaux surround
dans un signal5.1. Il permet aussi didentifier la prsence ou labsence
dun canal pour un downmix stro. Ce signal est souvent utilis en dbut
de programme pour identifier les canaux dans les cars HD.
- Les frquences utilises sont indiques sur le schma ci-dessous, elles
diffrent suivant les canaux, 880Hz pour L et R, 1320Hz pour C, 660Hz
pour Ls et Rs et 82,5Hz pour le LFE. Elles sont ordonnes dans lordre de
rotation sens horaire pour un meilleur suivi.

Dunod Toute reproduction non autorise est un dlit.

Figure8.35Signal didentification BLITS, DK technologies.

8.3.5 Gestion du loudness des diffrents flux la diffusion


Le signal5.1 issu du DVB peut tre diffus en Dolby Digital ou Dolby Digital +, ou bien
en HeAAC. Dans le cas dune diffusion HeAAC, le signal est transcod en Dolby Digital
ou en DTS (optionnel). Le niveau de loudness associ au signal5.1 prsent sur une sortie
HDMI cod ou PCM, coaxiale SPIDF (cod Dolby D ou DTS) et analogique est dans
tous les cas 31LUFS. Le niveau de loudness dun signal stro dans les autres cas
est de 23LUFS. Cest pourquoi il est prvu un systme dattnuations pour respecter
ces niveaux. Le RF mode dun signal Dolby Digital associ un downmix impose

400

Chapitre 8 Exploitation Son Broadcast,

supports, nouveaux mdias

un niveau de 20LUFS, do la ncessit de prvoir une attnuation de 3dB pour


tre raccord avec le niveau 23LUFS. Certains programmes en Dolby Digital taient
auparavant renseigns avec un niveau de loudness de 27LUFS, une attnuation de
4dB les feront passer au niveau 31LUFS.
Les schmas 8.36 et 8.37 issus du document Tech 3344 de lEBU synthtisent la
diffusion DVB pour la partie qui nous intresse en Dolby D dans le premier cas et en
HeAAC dans le second.

Figure8.36Gestion des niveaux loudness la diffusion, Dolby D, EBUTech3344.

Dolby Volume, DTS Neural Loudness Control


Dolby et DTS ont dvelopp des algorithmes de mesure de loudness appels
Dolby Volume et DTS Neural Loudness Control que lon trouve progressivement
sur les amplificateurs home-cinma. Ils permettent dharmoniser en fin de
chane les niveaux de loudness de toutes les sources audio prsentes en
entre.

8.4 Exploitation

des outils de traitement broadcast5.1

401

Figure8.37Gestion des niveaux loudness la diffusion, HeAAC, EBUTech3344.

Dunod Toute reproduction non autorise est un dlit.

8.4

Exploitation des outils de traitement broadcast5.1


On utilise des processeurs de diffusion dans les cars HD et en rgie de diffusion, ceuxci permettent de traiter automatiquement le loudness du programme et la dynamique
du signal5.1 (compression multibandes). Ces processeurs de diffusion limitent les
crtes du signal en dB True Peak, intgrent un module dupmix pour enchaner des
programmes stro upmixs en5.1, ils comportent un module de downmix pour vrifier la compatibilit stro du programme5.1, et, pour certains, ils encodent le signal
en Dolby E, Dolby Digital, Dolby Pulse. On trouve en fin de chane dans le processeur
un module de mesure Loudness R128 pour valider la diffusion la norme.

8.4.1 Traitement du Loudness et de la dynamique5.1


Ces processeurs broadcast permettent de traiter le loudness, et limitent les crtes du
signal pour faciliter la mesure en direct dans les cars HD ou en rgie de diffusion. Ces

402

Chapitre 8 Exploitation Son Broadcast,

supports, nouveaux mdias

traitements sont compatibles5.1, ils intgrent en gnral un module de correction de


loudness automatique ALC (automatic loudness correction) qui sort automatiquement un signal -23.0 LUFS, ils comportent un module de traitement dynamique5.1
multi bandes, un limiteur true peak rgl -3dBTP ou -1dBTP, et un module de
mesure de loudness. Parmi les processeurs compatibles5.1, on trouve gnralement le
TC DB8, DB6 ou DB4, et le Jnger TAP. Les traitements dynamiques multi bandes5.1
ont t traits au chapitre6, le principe de fonctionnement est le mme.
Exposons les bases du principe de fonctionnement du module de traitement ALC du DB8.
Lutilisateur renseigne la valeur de loudness cible, - 23.0LUFS, et dfinit des valeurs maximales et minimales de gain qui limitent le traitement de loudness (les valeurs max
reduction, max boost). Il doit prciser le temps avec lequel le changement de loudness
va se faire, le rate (dB/s) et le paramtre slow window (dB). Ce dernier dtermine une
chelle en dB autour de la valeur cible, lintrieur de laquelle les variations de loudness
seront plus lentes. Cela permet de stabiliser le procd vers la valeur voulue 23.0LUFS.
Enfin, un seuil supplmentaire appel freeze level, dfinit un domaine en niveaux
au-dessous duquel rien ne se passe, les bas niveaux restent intacts. Afin dobtenir une
continuit du signal, le passage par le niveau de freeze se fait avec un temps de maintien
appel freeze hold, le processeur revient au gain 0dB au bout de ce temps.

Figure8.38Mode de fonctionnement de lALC DB8, TCelectronic.

Le correcteur automatique de loudness comporte un limiteur true peak plac en sortie


du module de loudness.

8.4.2 Upmixeurs
Il existe de nombreux processeurs dupmix pour la diffusion, lesquels permettent de
fabriquer un flux5.1 dune chane HD partir de programmes stro. Ces procds
sont utiliss de faon provisoire, avant la mise en place de nouvelles rgies de diffusion

8.4 Exploitation

des outils de traitement broadcast5.1

403

compatibles5.1. Ces processeurs servent aussi spatialiser des programmes disponibles quen stro. On peut penser que ces processeurs serviront toujours en secours
ou dans le cas darchives.
Dans les rgies de diffusion TVHD ou dans les cars HD, on trouve ces traitements
dupmix. En France beaucoup de cars sont quips de processeurs TC DB8, France 2 et
NRJ12 utilisent des processeurs Isostem, Arte exploite un processeur Linear Acoustic
Aeromax. La chane anglaise SKY utilise par exemple des processeurs UPM1 Soundfield.
Certains des processeurs fabriquent un upmix compatible 100% avec le downmix
stro LoRo, cest dire que la version stro downmixe en LoRo du flux5.1 obtenue
est 100% identique la stro dorigine (voir procd Isostem). Dautres, fabriquent un
programme5.1 sans obtenir un downmix 100% compatible.
Comme voqu au chapitre6, ces procds reposent sur lanalyse de la phase entre les
canaux gauche et droite de la stro, tel un dcodeur Dolby Pro logic. Certains algorithmes rajoutent de la rverbration, dautres nen rajoutent pas et permettent de sparer le champ acoustique direct du champ rverbr et de les spatialiser comme souhait.
Il existe de nombreux processeurs dupmix, citons les principaux: Isostem, Soundfield
UPM1, TC Upcon/Unwrap (DB8, DB6, DB4), Junger TAP, Penteo, Aeromax (Linear
Acoustic).
LIsostem a la particularit innovante de sparer, dans un mixage stro, le champ
direct du champ rverbr. Il donne des rsultats intressants, compatibles 100% avec
la stro dorigine par downmix LoRo.

Dunod Toute reproduction non autorise est un dlit.

Isostem

Figure8.39Interface de contrle dIsostem, Isostem. Encouleursurdunod.com

404

Chapitre 8 Exploitation Son Broadcast,

supports, nouveaux mdias

Isostem est un processeur dupmix de diffusion qui repose sur un principe acoustique
avec un downmix ISO gal la strophonie. La technologie dupmix est fonde sur
lanalyse des changes dnergie acoustique au point dcoute. Le point de dpart du
rglage repose sur lanalyseur panoramique PA, qui analyse la largeur ou la dcorrlation en temps rel de la stro dorigine et qui permet disoler en quelque sorte la source
de son environnement.

Figure8.40Analyseur panoramique et microphone virtuel, Isostem.

Le travail sur les paramtres de lanalyseur panoramique nous permet disoler


linformation trs corrle et de lextraire de limage fantme LR du multicanal pour
en crer un centre. Nous procdons de la mme faon pour linformation des canaux
surround avec la gestion du niveau dextraction du canal C et des canaux L, R. Ce
rglage est dpendant de la profondeur de la loi panoramique et de langle douverture
de la stro. Loptimisation du rglage peut se faire en monitorant les diffrents lments
de lanalyseur grce aux solo et aux mute.
Le module suivant est le microphone virtuel VM, une sorte de simulation dun systme
de prise de son multicanal, qui permet de dcorrler limage sonore grce lintgration de dlais et des directivits des microphones. Lapproche est intressante, elle
permet dajuster la dcorrlation spatiale mais les dlais peuvent induire quelques problmes de filtrage en peigne.
Le module ISO nous permet doptimiser le procd dupmix de telle sorte que le downmix soit identique la stro dorigine, en rintgrant lintermix, la diffrence entre la
stro et le downmix.
Le module de sortie intgre les fonctions de monitoring (les diffrents canaux du multicanal, la stro dorigine, le downmix avec les mmes coefficients de Dolby et lintermix)
avec les diffrentes options ISO (optimisation du downmix), HCF (attnuation des aigus
larrire), SUB (cration du SUB par Bass Management), PHA (correction de phase).
Mis part la qualit dupmix, lIsostem gre aussi de faon indpendante plusieurs flux
stro pouvant recevoir des stems diffrents (musique, ambiances, VO, VI) jusqu

8.4 Exploitation

des outils de traitement broadcast5.1

405

4 entres stro ce qui permet doptimiser le rendu sonore de lupmix en fonction des
diffrentes versions dun programme ou des stems disponibles.

Upcon
LUpcon est un processeur automatique dupmix dans le DB8 qui gre les transitions de programmes5.1 aux programmes stro upmixs. Le processeur repose
sur lalgorithme Unwrap que lon trouve aussi dans la M6000 (voir chapitre6). Le
programme analyse en temps rel le format audio en entre et, si le signal dentre
passe en stro, il enchane avec crossfade sans interruption ou artefact sur un
programme stro upmix. Le processeur assure ainsi la diffusion dun signal5.1
ininterrompue.

Dunod Toute reproduction non autorise est un dlit.

Figure8.41Mode de fonctionnement de lUpcon DB8, TC electronic.

8.4.3 Encodage Dolby D, Dolby D +, Dolby pulse et gestion des metadata


Parmi les solutions hardware exposes ci-dessus, certaines proposent lencodage Dolby
E, Dolby Digital +, et Dolby Pulse avec la gestion des metadata: le DP600, le Jnger
TAP, et lOptimod le proposent. Ces processeurs grent aussi les metadata Dolby des
programmes et forment ainsi des solutions dAsset Management de fichiers: le DP600,
ou le Minnetonka Audio Tools Server le proposent. Ces solutions fonctionnent partir de tches programmes, elles peuvent analyser et corriger le loudness de fichiers
de faon automatique, encoder ou dcoder un signal Dolby, modifier une metadata
particulire, traiter les fichiers MXF, upmixer en5.1 ou7.1, downmixer etc.
Elles quipent progressivement les chanes de tlvision et facilitent la diffusion. Lasset
management des fichiers est contrl chez Arte par le Minnetonka Audio Tools Server.

406

8.5

Chapitre 8 Exploitation Son Broadcast,

supports, nouveaux mdias

Exploitation des formats DTS

8.5.1 DTS Neural


Le format DTS Neural existe depuis le rachat de Neural Audio par DTS en 2009, cest un
format compatible5.1 ou7.1, matric en deux canaux, de type LtRt. Neural Audio dveloppait auparavant des processeurs dupmix5.1 pour la diffusion. Le DTS Neural a t conu
pour la diffusion broadcast, il est assez rpandu aux Etats Unis notamment pour la fabrication du multicanal, la diffusion se faisant en Dolby E. Lencodeur appel le DTS Neural
Downmix, produit un flux stro de type LtRt PCM qui peut tre monitor tel quel en
stro, ou bien dcod en DTS Neural. On trouve des dcodeurs DTS Neural sur certains
amplificateurs home-cinma rcents (Onkyo par exemple). Le dcodeur professionnel,
le DTS Neural Upmix, restitue les diffrents canaux du multicanal avec paramtrage de
limage sonore comme le rglage de lquilibre frontal/arrire, le rglage de la largeur frontale. Le DTS Neural upmix peut aussi servir upmixer des programmes stro.
On trouve aussi depuis 2012 des solutions DTS Express utilisant des dbits appropris
pour la diffusion broadcast.

8.5.2 Exploitation des formats DTS pour le support


Le DTS est un codage trs rpandu pour le support, on le trouve dans le film, la
musique, la radio. Cest un codec de trs bonne qualit, son dbit comme mentionn
au chapitre7 est de 1,5 Mbps. DTS propose des encodeurs hardware, les CAE-4 DTS et
CAD-4 DTS, ainsi que des solutions software avec notamment la suite DTS HD Master
Audio pour encoder un DVD ou un Blu-ray.
Il existe aussi le plug-in Soundcode DTS Neyrinck pour encoder depuis Pro Tools, ou
lapplication Minnetonka Surcode DTS. Le plug-in permet dencoder la metadata de
loudness (Dialog norm), le downmix tant de type LoRo et utilisant les coefficients
de downmix 3dB pour le centre et les canaux arrire.

8.6

Diffusion5.1 et binaural pour les nouveaux mdias


lheure o le broadcast et Internet convergent vers des solutions multimdia, se pose
la question de diffuser des fichiers vido HD son5.1 sur Internet, sur mobile ou sur
tablette numrique. Lvolution des codecs permet aujourdhui de diffuser un son5.1
de plutt bonne qualit avec un dbit de 192kbps. Lcoute binaurale accompagne progressivement ces solutions de diffusion du son en5.1, grce des systmes de codage
utilisant des fonctions de transfert HRTF. On peut citer le mp3surround parmi les premires solutions qui sont apparues ou le MPEG Surround. Ces technologies proposes
par Fraunhofer sont compatibles5.1, stro et binaural.
Ltude de ces procds met en vidence la diversit des codecs, la compatibilit avec les
lecteurs, la compatibilit avec les metadata Loudness, Downmix, DRC afin doptimiser

8.6 Diffusion5.1

et binaural pour les nouveaux mdias

407

un downmix stro par exemple, et la possibilit dactiver un mode dcoute spatialise


pour le casque.

8.6.1 Quelques recommandations


Voici tout dabord quelques recommandations utiles avant dencoder un flux audio5.1
pour Internet. Rappelons lordre de grandeur du dbit que demanderait la lecture dun
fichier5.1 PCM en 48kHz, 24 bits.
D =6 48000 24 =6,912 Mbps
La lecture du flux5.1 suppose lutilisation dune carte son 6 canaux connecte un
ordinateur ou bien la prsence dun port HDMI que lon connecte sur un ampli homecinma.
Le fichier, avant lencodage doit tre entrelac, mais il nexiste aujourdhui aucune
norme pour Internet, ce qui ne facilite pas du tout la lecture. Lordre des canaux, par
exemple, est variable entre le Dolby, le DTS, lAAC, le fichier QuickTime do lintrt davoir un lecteur qui permette de choisir lordre la lecture, bien quil soit possible
de le changer dans le paramtrage de la carte son. Si aucune contrainte dordre nest
impose par le codec, il est peut tre prfrable de choisir lordre que lon trouve en
TVHD pour assurer la compatibilit entre les deux modes de diffusion TV et Internet, lordre ITU SMPTE tant LRCLfeLsRs. La lecture de fichiers 4.0, LRLsRs, ou
5.0 LRCLsRs, est possible si lencodeur renseigne le mode 4.0 ou 5.0 comme dans
le flux Dolby Digital, le lecteur reconnatra alors le channel mode. Mais pour les
autres codecs, linformation de channel mode nexiste pas forcment, il convient
alors de convertir tous les flux en5.1 avec des pistes silencieuses en respectant lordre
des canaux. Notons que les fichiers QuickTime largement utiliss, imposent lordre
CLRLsRs Lfe.

Dunod Toute reproduction non autorise est un dlit.

8.6.2 Les codecs


Il existe aujourdhui une dizaine de codecs compatibles5.1 que lon peut utiliser un
dbit variant entre 160 et 600kbps. Voici les applications des principaux codecs que
lon utilise pour la diffusion des contenus sur ces nouveaux mdias (Internet, mobiles,
tablettes numriques).
Mp3surround, mp3D
Le mp3surround est lvolution du mp3 en multicanal, dvelopp par Fraunhofer. Le
dbit utilis est normalis 192kbps, les fichiers ont des extensions .mp3 comme pour
la stro. Fraunhofer met disposition pour lencodage lapplication mp3 encoder et
le plug-in Sonnox Pro Codec. Les lecteurs compatibles sont lapplication Fraunhofer
mplayer, Winamp avec le plug-in mp3surround, ainsi que les applications Internet
Explorer, Firefox, et Safari avec le plug-in mp3surround. Il existe par exemple deux
webradios allemandes qui proposent des flux mp3surround: Rock Antenne et Antenne
Bayern. Radio Classique a propos un temps sur son site Internet un flux Internet

408

Chapitre 8 Exploitation Son Broadcast,

supports, nouveaux mdias

Radio Classique HD, compatible mp3surround. Le mp3D est un codec compatible mp3
et mp3surround qui permet la restitution du son en binaural. Il comporte un algorithme dupmix pour les flux stro et propose diffrents rglages HRTF.

Dolby Surround
Le Dolby Surround est une solution trs peu exploite sur Internet, car peu dapplications sont compatibles ce jour, VLC Player affiche ltre.
Dolby Digital, Dolby Digital +, Dolby Headphone
Les codecs Dolby Digital et Dolby Digital Plus permettent de diffuser un son5.1
de qualit comparable au DVD, un dbit de 384kbps ou 256kbps pour le Dolby
Digital Plus. Les fichiers Dolby Digital sont des .ac3, compatibles5.1 et les fichiers
Dolby Digital Plus sont des .ec3 compatibles5.1 et7.1. Ces codecs sont compatibles
avec VLC player. Lencodage peut se faire avec des applications ou plug-ins tels que
Dolby Media Encoder, Neyrinck Soundcode et Minnetonka Surcode. Les metadata
Dolby ne sont en revanche pas exploites par VLC Player ce jour, VLC Player cre
par exemple son propre downmix LoRo lorsque lapplication voit en sortie une
configuration stro. On trouve aussi ces codecs dans certains mobiles et tablettes
numriques. Le mode binaural peut tre activ dans un flux Dolby Digital avec le
procd Dolby Headphone, certains mobiles lintgrent (Dolby mobile utilisant le
Dolby Digital Plus).
DTS Neural, DTS express, DTS Surround sensation headphones
Le DTS Neural est un format PCM matric de type LtRt compatible5.1 et7.1, il existe
des encodeurs logiciels dvelopps par DTS mais aucun lecteur nest vraiment compatible ce jour, seul lamplificateur compatible DTS Neural complte la chane. Quelques
radios HD diffusent aux tats-Unis un son DTS Neural, encod en mp3 sur Internet.
dfaut de dcodeur DTS Neural, un dcodeur Dolby Pro logic 1 ou 2 dcodera le signal
compatible LtRt. Dautre part DTS communique depuis 2012 sur le DTS Express adapt
aux applications bas dbit, mais peu dexprimentations ont pu tre menes ce jour.
DTS propose aussi une solution de diffusion binaurale apparue en 2012 appele le DTS
Surround sensation headphones qui malheureusement nest pas encore trs accessible
ce jour.
AAC (AAC LC), HeAAC, HeAACv2, HD AAC
Le codec AAC LC, fichier .aac, est un format assez rpandu sur Internet, il est exploit
par Apple pour le son des bandes annonces de certains Films HD5.1. Ce codec est directement compatible avec les lecteurs QuickTime Player, VLC Player et iTunes. Les applications QuickTime Pro, Adobe Media Encoder ou les plug-ins Sonnox Pro Codec/Codec
Toolbox permettent dencoder en AAC LC. Il nexiste pas encore de solution accessible
pour intgrer des metadata dans le flux. Le downmix stro est directement fabriqu

8.6 Diffusion5.1

et binaural pour les nouveaux mdias

409

par le lecteur, gnralement avec les coefficients par dfaut pour le centre et les arrires
(-3dB, -3dB).
Le codec HeAACv2 est aujourdhui un des codecs les plus performants, prsentant une grande efficacit. La qualit est tonnante pour un taux de compression
de rapport 40 correspondant un dbit de 192kbps. Les fichiers sont des .mp4 et
.m4a. Il nexiste pas encore de solution accessible pour intgrer des metadata dans
le flux. Il existe aujourdhui quelques applications accessibles capables dencoder en
HeAACv2, parmi elles on citera QuickTime Pro, Adobe Media Encoder, VLC Player,
Orban, les applications Sonnox Pro Codec/Codec Toolbox. Les fichiers encods sont
compatibles avec VLC Player, QuickTime Player et iTunes. Il existe aussi un codec
AAC sans perte, le HD AAC qui utilise les applications Sonnox Pro Codec/Codec
Toolbox.

MPEG Surround
Le MPEG Surround, dvelopp par Fraunhofer en collaboration avec LSI Corp., Dolby
Laboratories et Philips Applied Technologies, fonctionne partir de nimporte quel
codec, gnralement lAAC, le HeAAC et le Mpeg layer2, des dbits comparables
ceux de la stro. Linformation de lespace est gnralement code par un flux de
32kbps. Les applications Sonnox Pro codec/Codec Toolbox permettent dencoder en
MPEG Surround utilisant lAAC-LC et lHeAAC. Aujourdhui peu dapplications sont
compatibles MPEG Surround, seul Winamp Media Player supporte le MPEG Surround
en lecture, ce nest pas encore le cas des lecteurs Apple (iTunes, QuickTime). Dautre part,
Fraunhofer met disposition une license pour des applications sur mobile ou tablette
numrique.

Dunod Toute reproduction non autorise est un dlit.

MPEG-H 3D
Le MPEG-H 3D en cours de dveloppement apportera sans doute une solution de diffusion complte, compatible 3D, binaural des dbits variables.
Dolby Pulse
Le Dolby Pulse utilise les codec HeAACv1 et HeAACv2 et intgre les metadata Dolby.
Lencodage se fait avec le DP600 ou lapplication AudioTools Server Minnetonka. Il est
compatible avec les lecteurs QuickTime Player et iTunes.
WMA
Le WMA (Windows Media Audio, fichier .wma) est un codec Microsoft compatible
jusquau7.1. Lencodage se fait avec lapplication Windows Media Encoder. Ce codec
intgre une metadata downmix qui permet de contrler la version stro downmixe
LoRo si le fichier est lu avec Windows Media Player. Le WMA supporte aussi la metadata DRC. Le fichier .wma peut tre lu avec VLC Player.

410

Chapitre 8 Exploitation Son Broadcast,

supports, nouveaux mdias

8.6.3 Les lecteurs compatibles5.1


Aujourdhui le5.1 nest pas toujours compatible avec les navigateurs Internet, un downmix stro est gnralement fabriqu par le lecteur. Il existe en revanche des plug-ins pour
la compatibilit mp3surround. Lapplication Flash player, prsente sous forme de plug-in
dans les navigateurs, nest pas ce jour compatible5.1, elle fabrique un downmix stro.
Dautre part, le langage HTML 4 nest compatible quavec le codec mp3. Le langage HTML
5 reprsente une grande volution pour la diffusion5.1 car il est directement compatible
avec les codecs AAC et avec les fichiers .wav5.1 ou7.1. Aujourdhui, les navigateurs ne
sont pas tous compatibles, ce jour Internet Explorer 9, Safari et Chrome le sont. Le codec
HeAAC est nativement compatible dans Android depuis la version 4.1, le mobile et la
tablette numrique peuvent donc facilement dlivrer un flux5.1 en HeAAC. Ct Apple,
il semblerait que la sortie5.1 en iOS8 reste encore limite au flux Dolby Digital.
CODAGE
FICHIER
Dolby
Surround
Dolby
Surround 2X
Dolby
surround 2Z
Dolby D
Dolby D +
Dolby D
TrueHD

DTS express
DTS HD
DTS Master
DTS Neural
DTS Suround
sensation
headphones
AAC LC
HeAAC

DEBIT
EXTENSION
approximatif
habituelles
utilis

TYPE

FORMAT

perte

matric

matric
2.0, 5.1

perte

matric

matric
2.0, 7.1

amplis AV
Dolby PL1,
Dolby PL2
amplis AV
Dolby PL2X

perte

matric

matric
2.0, 9.1

amplis AV
Dolby PL2Z

perte

discret

VLC

384 kbps
640 kbps max

.ac3

perte

discret

1.0 5.1,
Dolby EX
6.1
1.0 13.1

VLC

256 kbps
3Mbps max

.ec3

sans perte

discret

jusqu
16 canaux

VLC

jusqu
18 Mbps

perte

binaural

amplis AV,
PC, mobiles

perte

binaural
associ
au Dolby
Surround,
Dolby
Digital,
DD+
discret

5.1

VLC

perte

discret

jusquau 5.1

perte

discret

jusquau 7.1

VLC

sans perte

discret

jusquau 7.1

VLC

perte

matric

matric 2.0

Dolby PL2 ou
DTS Neural
ampls AV
amplis AV,
PC, mobiles

Dolby
Headphone

DTS

DECODAGE
possible

COMPRESSION

perte

perte
perte

binaural
binaural
associ au
DTS (5.1 ou
upmix)
discret
jusquau 7.1
discret

jusquau 5.1

.wav
.wav
.wav

1509 kbps

Loudness/
Downmix/
DRC
Loudness/
Downmix/
DRC
Loudness/
Downmix/
DRC
Loudness/
Downmix/
DRC
Loudness/
Downmix/
DRC
Loudness/
Downmix/
DRC

.cpt

Loudness/
Downmix

2 6 Mbps

.dtshd

jusqu
24 Mbps

.dtshd
.wav

Loudness/
Downmix
Loudness/
Downmix
non

32 800 bbps

.mp4a

non

192 kbps
640 kbps max

.mp4

metadata
Fraunhofer

64 768 kbps

QT, iTunes,
VLC
QT, iTunes,
VLC

METADATA

8.6 Diffusion5.1

CODAGE
FICHIER
HEAAC V2
Dolby Pulse
HDAAC
Windows
Media Audio

et binaural pour les nouveaux mdias

mp3D
MPEG
Surround
(AAC LC ou
HeAAC)

DECODAGE
possible

COMPRESSION

TYPE

FORMAT

perte

discret

jusquau 7.1

perte

discret

1.0 2.0 5.1

sans perte

discret

1.0 2.0 5.1

perte

discret

jusquau 7.1

WMP, VLC

perte

discret,
binaural
associ

5.1

sans perte

discret

jusquau 7.1

Mplayer,
Winamp,
plug-in
Fraunhofer
VLC

perte

binaural
(5.1 ou
upmix)
discret,
binaural
associ

binaural

Mplayer

mp3surround
FLAC

411

perte

QT, iTunes,
VLC
QT, iTunes

jusquau 7.1 Winamp, Orban

DEBIT
EXTENSION
approximatif
habituelles
utilis
192 kbps
640 kbps max
192 kbps
640 kbps max

.mp4

la moiti du
dbit PCM
192 kbps
768 kbps max
192 kbps
320 kbps max

.mp4

.mp4

.wma

METADATA
metadata
Fraunhofer
Loudness/
Downmix/
DRC
non

.mp3

Downmix/
DRC
non

la moiti du
dbit PCM

.flac

non

128 kbps
320 kbps max

.m4a

non
compatible
stro

Figure8.42Synthse des principaux codecs5.1 pour la diffusion des nouveaux mdias.

8.6.4 Les lecteurs compatibles5.1, 3D et binaural


Il existe des solutions de lecteurs multimdia compatibles5.1 et binaural, comme
lapplication Fraunhofer Mplayer. Le lecteur propose trois flux possibles: le5.1 pour
une coute sur home-cinma, la stro downmixe ou stro originale, et la version
binaurale dont lencodage peut tre ralis avec trois rglages HRTF dry room,
living room et cinma . Le codec exploit par lapplication Mplayer est le
mp3surround, mais il existe des solutions analogues avec le MPEG Surround.
enregistrement
stro (option)

coute stro

encodeur
AAC

flux AAC stro


flux Mpeg Surround

dcodeur
AAC

Dunod Toute reproduction non autorise est un dlit.

downmix
stro

enregistrement
multicanal

downmix
stro
coute multicanal
encodeur
Mpeg
Surround

dcodeur
Mpeg
Surround
coute binaurale

Figure8.43Encodage dcodage Fraunhofer MPEG Surround, Fraunhofer.

412

Chapitre 8 Exploitation Son Broadcast,

supports, nouveaux mdias

Le schma ci-dessous reprsente les diffrents modes dexploitation dun mme fichier
MPEG Surround en5.1 diffus depuis un mobile/iPod dans une voiture, sur un homecinma depuis le mme lecteur mobile ou depuis un pc, et spatialis en binaural.

Figure8.44Exploitation dun fichier MPEG Surround en5.1 compatible binaural, Fraunhofer.

La diffusion sur Nouvoson utilise la mme approche, les fichiers sont encods en
HeAACv2, lauditeur peut alors choisir entre les 3 formats5.1, stro ou binaural. La
synthse binaurale est opre par la web API qui gre aussi la norme de diffusion R128.
Une application comme Orange Radio complte le procd pour lcoute binaurale sur
mobile ou tablette numrique, il suffit de pointer vers les flux de diffusion des sites
concerns. Une diffusion5.1 via HDMI est aussi envisage pour une coute sur home
cinma.
terme, le codec MPEG-H 3D aura des possibilits largies pour une diffusion 3D
channel ou objets, avec compatibilit HOA et downmix binaural possible.

Conclusion
La spatialisation du son met en scne des nouveaux concepts de fabrication par la
prise de son, le mixage et la diffusion. Ces notions en constante volution sont au cur
des technologies numriques que laudiovisuel connat aujourdhui. Le multicanal est
depuis une vingtaine dannes abord dans les sminaires de recherche sur laudio, il
senrichit chaque anne de nouvelles publications. Nous avons derrire nous vingt ans
dexprimentations sur la strophonie et sommes laube du dveloppement du son
3D pour le cinma, accompagn de reprsentations par objets sonores qui simplifient la
diffusion. Dautres procds reposant sur lanalyse complexe du champ sonore entrent
en scne et sont appliqus dans la diffusion WFS par exemple, ou dans des systmes
de captation haute rsolution spatiale tels que le HOA. Les rcents dveloppements
du binaural convergent vers cette prise en compte de lespace et modifient, du fait de
leur accessibilit pour tous, les modes dcoute au casque. Ces technologies sur le son
spatialis constituent trs certainement les modes de diffusion de demain.

Dunod Toute reproduction non autorise est un dlit.

De nombreuses rflexions et exprimentations ont abouti sur la recherche de nouvelles


formes dcriture pour diffrents champs dapplication: le film, le documentaire, la
musique, la radio, le spectacle, la scnographie, linteractivit. Le son 3D ouvre vers
dautres formes dcritures encore plus sophistiques. Cest pourquoi la ralisation
sonore de lespace est une tape complexe, elle ncessite une criture avant la production.
Le dispositif dcoute shomognise progressivement, le cinma tend vers une coute
3D plus dcorrle, plus universelle, offrant une meilleure compatibilit avec dautres
contenus comme lvnementiel diffus en direct. Le cinma explore ces nouvelles
possibilits avec une longueur davance sur le broadcast, lui-mme la recherche de
nouveaux formats son 3D accompagnant limage HD 4K ou 8K.
Par ailleurs, lcoute5.1 domestique pose toujours la contrainte de la place quelle
occupe chez le particulier, cest pourquoi la miniaturisation des enceintes et lutilisation
dun subwoofer facilitent les installations la maison. La simplification de la diffusion
est aussi indispensable, la prsence du port HDMI sur les lecteurs Blu-ray, sur les
ordinateurs portables, les tablettes numriques, le mobile ou les set-top box, permet la
liaison vers lampli home-cinma.

414

Le

son multicanal

Si nous regardons derrire nous, sur quoi repose lchec de la quadriphonie dans les
annes 1970? Une technologie pas encore mre, non compatible avec le film, trs
coteuse et surtout le manque daccessibilit aux contenus (supports, diffusion).
Aujourdhui, la norme 5.1ITU existe et le numrique simplifie la diffusion grce
la rduction de dbit. Dautre part, la diffusion sur Internet semble progresser avec
lapparition de webradios et de webtv.
Le son5.1 est souvent accompagn dune image. La convergence de limage et du son est
de plus en plus forte, notamment grce lvolution des lecteurs audiovisuels mobiles
comme la tablette numrique et le tlphone portable. La prsentation dinformations
sur lcran, dimages fixes ou en mouvement est une demande croissante, cest aussi
ce que lon voit sur les plates-formes comme YouTube ou Dailymotion. La radio numrique sadapte cette volution vers les nouveaux mdias en proposant de limage.
Le cheminement vers lcoute spatialise est port essentiellement par la reproduction la plus exacte possible dune scne sonore et par lcriture de nouvelles formes
immersives interactives. Les images diffuses sont aussi de plus en plus grandes et il
est cohrent de faire correspondre langle de vision avec langle auditif.
Finalement, cest lapport dmotions nouvelles, plus fortes qui motive.
Bien sr, la spatialisation rpond une coute attentive du spectateur, lui-mme en
attente de dcouvertes et de divertissement. Mais lorsque lcriture est pense pour
lespace, il est difficile de revenir vers une coute en stro, lauditeur perd alors
beaucoup dinformations et le rendu sonore est bien pauvre. La comparaison dune
ambiance multicanal et de son format en stro nous laisse toujours rveur! Lespace
est confortable et la nature a bien fait les choses, nous lentendons!

Bibliographie
Le lecteur est invit consulter la bibliographie complte disponible gratuitement sur
le site www.dunod.com.
BECH S., ZACHAROV N., Perceptual Audio Evaluation: Theory, Method and
Application, Wiley, 2006
BLAUERT Jens, Spatial Hearing, MIT Press, 1996
BOSI M., GOLDBERG R.E., Introduction to Digital Audio Coding and Standards,
Kluwer Academic Publishers, 2002
CAMERER F., Storytelling with Surround-Sound, Audio Design and Esthetics, ORF,
UDT, 2005
DANIEL J., High Order Ambisonics, une approche complte de la spatialisation
sonore, Orange Labs, 2009
FUCHS J. & THEVENOT P., De la monophonie la synthse de front donde WFS,
Prsentation lInstitut du Monde Arabe, 2012

Dunod Toute reproduction non autorise est un dlit.

GUILLON P., Individualisation des indices spectraux pour la synthese binaurale:


recherche et exploitation des similarites inter-individuelles pour ladaptation ou
la reconstruction de HRTF, thse Universit du Maine, 2009
HAMASAKI K., Three dimensional sound recording and reproduction of natural
sound field, NHK, VDT, 2005
HOLMANN Tomlinson, Surround Sound: Up and Running, Focal Press, 2008
HUGONNET C. & WALDER P., Prise de Son, strophonie et multicanal, Eyrolles,
2012
LAGNEL B., Mthodes de prise de son et de mixage dveloppes en multicanal,
prsentation AES section franaise, 2013
LIBOLT A., La cration des mtadonnes du Dolby E en prvision dune diffusion
multicanal en Dolby Digital, Mmoire de fin dtude, ENSLL, 2006
MOORE B. C. J., An Introduction to the Psychology of Hearing, Emerald, 2008

416

Le

son multicanal

MOREAU N., LOrientation rflexe de lattention dans le cinma multicanal,


Mmoire de fin dtude, ENSLL, 1999
NICOL R., Binaural Technologies, AES monograph 2011, Perception sonore spatialise,
Orange Labs
Proceedings of ICSA, International Conference on Spatial Audio VDT, 2011 & 2014
RUMSEY F., Spatial Audio, Focal Press, 2001
SCHOEPS, Surround Recording Techniques, 2006
STEINKE G., High Definition Surround Sound with Accompanying HD Picture,
VDT, 2005
THEILE G., Multichannel Natural Music Recording Based on Psychoacoustic
Principles, IRT, 2001
TRINNOV AUDIO, La prise de son 5.0 en haute rsolution spatiale
WILLIAMS M., Microphone Arrays for Stereo and Multichannel Sound Recording,
Volume 1 & 2, Il Rostro, Milan, voir www.mmad.info
WITTEK H., Systems and Technics for 3D recording, Schoeps, 2011

Index
5.1 cinma, 27
5.1 ITU, 26
6.1 cinma, 29
7.1 Blu-ray, 31, 32
7.1 cinma, 30
8.1, 35
10.2, 38
22.2 NHK, 39, 102

Dunod Toute reproduction non autorise est un dlit.

AAC, 330, 408


ABX, 324
AC3, 335
Acousmatique, 162
Acousmonium, 9, 162
ADAT, 350
AES, 350
AES67, 353
ambiances, 254
Ambisonie/Ambisonics, 18, 211, 268
angle minimum audible, 126
Arbre Decca, 201
Arbre Fukada, 204
artefacts, 326
ASPEC, 328
ATRAC, 341
Attention auditive, 139
Auro-3D, 36, 37, 341, 355
autopan, 289

Bande Critique, 314


Barks, 314

bass management, 59, 77, 252


bed, 301
BiLi, 46
binaural, 19, 406
BLITS, 399
Blu-ray, 7, 348
BRIR, 133
bruitages, 254
Bruit rose, 51
BSI, 138
BWF, 352

C20, 66
cadres sonores, 143
Carr Hamasaki, 224
cascade, 326
casque multicanal, 84
CBR, 321
channel mode, 335
channel oriented, 17
Cinma, 2, 354
codage, 309
codage entropique, 310, 318
Codage M/S, 320
codage paramtrique, 321
codage sinusodal, 320
Codage spatial, 320
Code rgional, 346
Coherent Acoustic, 340
compensation, 91
compresseur, 284
cne de confusion, 117
conteneur, 352

418

Correction, 91
Courbes ISO X, 82
cration sonore, 303
Critres, 48, 146
Croix IRT, 222
CSI, 138
CSS, 342
CST RT-17-TV version V3, 393
CST RT17 v2, 387
CST RT19, 387

DAB, 354
Dante, 353
DBAP, 268
DCI, 354
DCP, 354
dbit, 311
dcorrlation, 261
dcorrlation interaurale, 138
Dialnorm, 362
Dialog Intelligence, 381
Dialog level, 362, 381
Dialog Range, 383
diaphonie acoustique, 111, 113
Digital Theater System, 339, 345
directs, 254
dislocalisation, 141, 153
dispositif5.1, 113
distance, 127
distraction, 142, 153
dither, 312
divergence, 261, 271
divergence centrale, 261, 269, 276
divergence vers les autres canaux, 271, 277
Dolby Atmos, 42, 101, 301, 355
Dolby Digital, 335, 363, 380
Dolby Digital Plus, 336
Dolby Digital Surround EX, 4
Dolby E, 337, 360
Dolby Pro Logic, 333
Dolby Pro Logic 2, 333
Dolby Pulse, 339, 409
Dolby SR, 3
Dolby SRD, 3
Dolby Stro, 3, 28
Dolby Surround, 26, 332, 361

Le

son multicanal

Dolby Surround7.1, 5, 30
Dolby Surround EX, 378
Dolby Surround IIX, 35
Double MS, 207
Double ORTF, 219
downmix, 289, 360, 362, 367
DPA 5100, 227
DRC, 335, 362, 364, 376
DRM, 342
DSD, 328, 347
DTRS, 350
DTS, 32, 340, 406
DTS-Core, 340
DTS ES7.1, 4
DTS express, 408
DTS HD, 371
DTS HD Master, 371
DTS Neo X, 39
DTS Neural, 406, 408
DTS Surround sensation headphones, 408
DVB, 353
DVD, 345
DVD-Audio, 347
DXD, 328

EBU R128, 383, 387


chantillonnage, 311
Ecouter, 2
Edison, 46
effet cocktail party, 139
effet de fusion, 63
effet Haas, 66, 130
galisation physiotemporelle, 65
Elementary stream, 344
elevation, 118
enveloppement, 136, 138, 151
quilibre CD/CR, 153
quilibre frontal/arrire, 152
quilibre spectral, 153
ERB, 314
ESI, 138
Esthtique, 147
esthtique quirpartie, 147
esthtique frontale, 147
externalisation, 131
extradigtique, 142

419

Index

Fantasound, 2
FEC, 134
filtres FIR, 92
filtres IIR, 92
Focus. Voir divergence centrale
formants, 318
Format A, 212
Format B, 212
Formats multicanal, 20
fusion frontale/arrire, 140, 144
FX, 254

GRM, 9, 163
guard bands, 337

haute rsolution spatiale, 229


HDCP, 343
HDMI, 351
HE-AAC, 328
head tracking, 133
High Order Ambisonics (HOA), 134, 235, 355, 412
Holophone, 226
home-cinma, 7
HPTF, 133
HRIR, 119, 133
HRTF, 118, 133, 237, 268
HRTF personnalises, 135

Dunod Toute reproduction non autorise est un dlit.

IACC, 138
ILD, 115, 321
image fantme, 110
image relle, 110, 147
image virtuelle, 111, 147, 148, 149
IMAX, 3, 29
immersion, 110
Imm Sound, 40, 100
impression spatiale, 136, 150
INA5, 204
incertitude de localisation, 125
indices de localisation dynamiques, 118

indices spectraux, 118, 119, 120


Intensit acoustique, 95
interactivit, 303
internalisation, 110, 131, 149
Iosono, 299, 355
IPD, 115
Ircam, 10
ISO-UDF, 345
ITD, 115, 321
ITU BS 1770-1, 381
ITU BS 1770-2, 383
ITU-R BS.775, 76
ITU-R BS.1116, 324
ITU-R BS.1283-1, 323
ITU-R BS.1387, 325
ITU-R BS 2051, 41

jeu vido, 15, 165, 166, 167, 168, 169, 170

K, 381
KFM 360, 217
KU 100, 237

largeur apparente, 136


latence, 311, 353
LEDE, 69
LF, 138
Lfe, 3, 252, 264, 265, 335
limiteur, 288
Line mode, 364
LKFS, 381
loi de pan, 230, 267
long term, 381
loreille ipsilatrale, 115
LoRo, 289, 367, 372
Lossless, 328
loudness, 360, 362, 376,380, 388, 401
Loudness Range, 389
LPCM, 327
LRA, 388, 391
LtRt, 290, 332, 367, 372
LUFS, 384

420

MADI, 350
manager, 261
masquage frquentiel, 313
masquage temporel, 313
matriage, 327
mesure, 258
mesure loudness, 381
metadata, 16, 17, 359
metadata AAC, 369
metadata Dolby, 374
Metadata DTS, 371
mtadonnes. Voir metadata
MLS, 51
MMAD, 183
modle psychoacoustique, 315
Momentary loudness, 383, 388
montage son multicanal, 253
mp3D, 407
Mp3surround, 407
MPEG, 328
MPEG2, 329, 346
MPEG4, 330
MPEG-H 3D, 409, 412
MPEG Surround, 321, 328, 332, 409, 412
Multichannel Stereo, 17
multiplexage, 343
MUSHRA, 323
MUSICAM, 328
musique, 256
MXF, 352

Night mode, 365


niveaux, 329
noise-shaping, 312
Normes cinma, 80
Nouvoson, 412

object oriented, 19
objet, 19, 300, 301
OCT Surround, 197
ODG, 325
Ogg, 342
Opus, 342

Le

Orange Radio, 412


ordre, 229, 236
ordre des canaux, 253
oreille controlatrale, 115
ORTF Surround, 220
OSI, 352

PAD CST RT16, 387


Pan-Pot, 269, 267
PDR, 134
Phase shift, 367
PLoud, 383
post-synchro, 254
PPCM, 327
prdiction linaire, 318
Profils DRC, 366
Program loudness, 384, 388
Program Stream, 344
Pro Logic, 361
puissance acoustique, 95
Pure Audio Blu-ray, 7

quadriphonie, 5, 25
quantification, 311

R2LB, 381
raction dorientation rflexe
de lattention, 139, 140
ralisation, 171
Realiser A8, 133
rendement, 57
rservoir, 321
rverbrance, 136
rverbration, 280
RF mode, 364
RLB, 381
rotation, 271

Saillance cognitive physique, 140


scene oriented, 18
SDDS, 30, 341

son multicanal

421

Index

SDI, 350
sensibilit, 57
short term loudness, 381, 383, 388
SMART, 347
SMPTE, 80
SOFA, 133
sonde intensimtrique, 94
son hors champ, 142
son in, 142
son off, 142
Soundfield, 211
sonde physio-angulaire, 94
S/PDIF, 349
SPS 200, 216
SQAM, 325
ST350/ST450, 214
standard stro, 110
steering, 335
stems, 254, 292
streaming, 353
Super Audio CD, 328, 347
Super Hi-Vision, 14
Supra High Vision, 12
sweet spot, 111
synthse binaurale, 294

Dunod Toute reproduction non autorise est un dlit.

taille apparente, 136


tatouage, 343
TDS, 51
tte artificielle, 237
TG, 58, 59
THX, 89

TOSlink, 349
Transaural, 105, 275
transformes de Fourier, 313
Transport Stream, 344
Trinnov SRP, 230
true peak, 288, 387, 390
TVHD, 7, 14, 44

UHDTV, 14
Upcon, 405
upmix, 290, 402

VBAP, 267
VBR, 321
VI, 292
vision, 131
Vorbis, 342

Waterfall, 56
Watermarking, 343
Wavelet, 56
WFS, 18, 43, 103, 297
WMA, 409

zone dcoute, 129, 152