Le Signal Video Numerique

Par : Jean DANIEL (Canada) http://pages.videotron.
com/danjean/
Guide Simplifié du signal vidéo Analogique NTSC

En Amérique du Nord, le standard pour les signaux vidéo analogique est appelé
NTSC, qui n’est pas le même que pour les ordinateurs (VGA). Le vidéo étant un
médium linéaire, tout comme l’audio, mais au contraire du film ou de la
photographie, il a été créé à l’origine pour être transmis "via les airs". Les images
doivent donc être séparées et transmises ou enregistrées en une série de lignes, une
après l’autre. Ce qui fait qu’à n’importe quelle milliseconde, une image vidéo ne sera
simplement qu’un point se "promenant" sur un moniteur.
Le système analogique que nous utilisons présentement à été établi dans les années
30, la couleur y a été ajoutée au début des années 50. C’est à ce moment que le nom
NTSC est apparu, représentant le National Television Systems Committee, qui est le
comité qui à établi les standards utilisés en télévision analogique actuellement. Il est
formé de 525 lignes, avec un taux de rafraîchissement de ±30 frames/secondes
(29,97f/s).
Avec la télévision numérique, le signal vidéo est représenté par des chiffres (0 & 1).
Mais avec le signal analogique tout est représenté par des voltages, et les voltages
sont affectés par les longueurs de câbles, les connecteurs, la chaleur, les rubans, etc
& Idots; C’est pourquoi plusieurs ingénieurs vidéo affirment, à la blague (???), que
NTSC veut plutôt dire "Never Twice The Same Color"(jamais deux fois la même
couleur). Deux autres systèmes sont également utilisés comme standards de
diffusion analogique, PAL (Phase Alteration Line), composé de 625 lignes, mais avec
un taux de rafraîchissement de 25 frames/secondes et SECAM (Système Électronique
pour Couleur Avec Mémoire), qui a la même composition que PAL, mais dont la
couleur (Chrominance) est modulée en FM. PAL, comme NTSC, est aussi utilisé pour
les enregistrements vidéo alors que SECAM est essentiellement un standard de
transmission.
Différents pays utilisent différents standards, c’est pourquoi un signal de test a
finalement été développé, qu’on a appelé les "barres de couleur"(Color Bars) et qui
sont utilisées comme standard pour assurer la consistance des images présentées.
Les barres de couleurs "SMPTE" sont celles que nous rencontrons le plus souvent en
Amérique du Nord. SMPTE est l’abréviation de Society of Motion Picture and
Television Engineers , qui sont responsables d’établir la majorité des standards
utilisés en télévision et au cinéma. Ce signal est généré par un générateur de barres
ou par une caméra vidéo professionnelle. On les insère au début d’une cassette afin
de permettre l'ajustement des couleurs et du niveau vidéo du document enregistré
sur la cassette. Pour l’ajustement, on utilise essentiellement deux outils;
Le Moniteur "Waveform":
Le moniteur waveform est un oscilloscope qui a été configuré pour le signal vidéo. On
l’utilise pour mesurer le voltage du signal et pour s’assurer que toutes les pulsations
et tous les balayages du signal apparaissent au bon moment. L’utilisation première
du waveform est de mesurer les différents niveaux de l’image. Ces niveaux ne
doivent pas dépasser 100%(IRE), ni descendre sous la barre de 7.5%(IRE). Un signal
qui serait trop haut sera surexposé, alors qu’un signal qui serait trop bas sera trop
noir. En général, la couleur de la peau se situe autour de 70%, alors qu’un blanc avec
peu de détails sera autour de 90-100% et des ombres seront en bas de 30% sur
l’échelle.
Le "Vectorscope" :
Le vectorscope est un autre oscilloscope spécialisé. Sa fonction est de mesurer
l’information relative aux couleurs. Dans le signal vidéo analogique, la couleur est
encodée dans le signal principal à l’aide d’un "sous-transporteur"(SubCarrier). C’est
l’information des couleurs inscrites sur ce "sous-transporteur" qui est mesurée par le
vectorscope. Elle est présentée à l’intérieur d’un cercle. Au lieu de mesurer l’intensité
des couleurs, elle mesure la saturation et la teinte (Hue). Le centre du cercle est
neutre, donc plus une couleur est près du centre, moins elle est saturée ou plus près
du blanc et plus elle est loin du centre, plus elle est saturée, ou foncée. Une couleur
peut être foncée et très saturée ou claire et moins saturée. Un noir ou un blanc
seront représenté par un point au centre du cercle.
Le Correcteur de base de temps("Time Base Corrector ou TBC"):

De lui-même, un magnétoscope est incapable de jouer un signal assez stable pour
être transmis correctement ou même coupé à un autre signal (ex: en montage), sans
"débarrer". Un TBC est donc utilisé pour synchroniser le magnétoscope avec les
autres signaux à l’intérieur du système. Tous les équipements de diffusion (ou
montage) sont synchronisés à partir d’un signal commun, généré par un générateur
de synchronisation (master sync generator). Sinon il y aurait perte de
synchronisation (l’image roule et se détériore) à chaque fois qu’on change de source
et les fondues entre différentes sources seront impossibles.
Les TBC ont également une autre fonction. Ils sont utilisés pour ajuster les niveaux
vidéo et de couleurs sur les magnétoscopes. Quatre ajustements sont alors utilisés
qui ressemblent assez à ceux d’un moniteur télé. Chrominance/Saturation, Teinte
(Hue)/Phase, Luminosité (Brightness)/Black level et Contrast/Video level. On utilise
les barres de couleurs, normalement enregistrées au début d’un document, et la
combinaison Waveform/Vectorscope pour faire les ajustements nécessaires.
Le niveau vidéo est ajusté grâce au Waveform, de façon à ce que la barre la plus
haute soit à 100%(IRE) et le niveau de noir soit à 7.5%(ligne pointillée juste sous la
barre des 10%). Ensuite, on ajuste les niveaux de Chroma et Hue/Phase, avec le
Vectorscope, de façon à ce que les 6 points soient à l’intérieur des 6 petites boites
étiquetées R, G, B et Y, C, M, les couleurs primaires et leur compléments (Red,
Green, Blue, Yellow, Cyan et Magenta).
Le Code Temporel("Time Code"):

Le code temporel facilite l'assemblage des images lors du pré-montage et du
montage en assurant le repérage précis des plans à monter par l'indication de la
position en heure (HH :), minute(MM :), seconde(SS :) et numéro d'image(FF: F pour
Frame). Le nombre d'images par seconde varie en fonction du support utilisé: 24
images par seconde pour le cinéma; 25 images par seconde pour la télévision
européenne; 30 images par seconde pour la télévision noir et blanc américaine et
pour les applications strictement musicales; 30 images drop frame* par seconde pour
la télévision couleur nord-américaine. Ce code permet aussi la synchronisation entre
l'image et le son lorsqu'ils se présentent sur deux supports différents, bande vidéo et
bande audio, disquette, etc.
Le code temporel longitudinal (LTC: Longitudinal Time Code) est destiné à être
enregistré sur la piste audio d'un magnétoscope. Le code temporel vertical(VITC :
Vertical Interval Time Code) est destiné à être enregistré dans l'image vidéo(pendant
l'intervalle vertical, normalement sur les lignes 16 & 18) et peut être lu à des vitesses
très lentes, même lors d'un arrêt sur image. Le code temporel MIDI (MTC: MIDI Time
Code) est destiné à être lu par les appareils répondant à la norme MIDI et à la norme
de synchronisme sur le code SMPTE. Il nécessite la présence d'un convertisseur
SMPTE/MTC. Le code temporel SMPTE est un signal binaire de 80 bits, enregistré
sous forme analogique où les valeurs des 0(zéro) correspondent à une tension faible
et les valeurs des 1 à une tension élevée. On dit aussi chronocode.
Le premier codage temporel date de 1967(société EECO). Deux ans plus tard, un
code temporel normalisé est adopté aux États-Unis par la Society of Motion Picture
and Television Engineers (SMPTE), et en Europe par l'Union européenne de
radiodiffusion(UER, en anglais EBU: European Broadcasting Union).
* Time code Drop Frame: Le signal vidéo comprend en réalité 29,97

frames/secondes, pour compenser ceci et arriver à une durée réelle précise, on laisse
tomber des frames à chaque minute, pour un total de 4 secondes/heure.
Le Signal Vidéo Numérique

Le principe de la numérisation d'une image vidéo est assez simple. La première étape
consiste à sous diviser chaque image vidéo selon une résolution donnée
(normalement 720 x 576 pixels pour une image vidéo normale) et à associer une
valeur numérique à chacun des éléments qui forment la couleur de ce pixel (YUV ou
RGB) en utilisant une table de conversion de couleurs (normalement 24 bits par
pixels pour 16 millions de couleurs possibles en chaque point).
Ce procédé de conversion doit se faire très rapidement étant donné qu'une image
vidéo traditionnelle contient plusieurs milliers de pixels et que la vidéo analogique
PAL défile à 25 images par seconde. Heureusement, il existe actuellement sur le
marché plusieurs puces permettant d'accomplir cette tâche en temps réel.
L'image vidéo non compressée:

Si un signal vidéo (en NTSC) de 720x486 pixels de résolution est numérisé en
utilisant la norme YUV 4:2:2, le fichier résultant sera de 683.44 Ko par image ou
20.02 Mo/sec. C'est ce qu'on appelle le format non compressé de ratio 1:1. Ces
valeurs sont calculées de la façon suivante:
720 pixels X 486 pixels X 16 bits/pixel= 699,840 octets/image.
Conversion octets/image en Koctets/image,
699,840 octets/image x 1 Ko/1024 octets= 683.44 Ko.
Conversion Koctets par image en Koctets par seconde,
683.4 Ko/image X 30 images/sec.= 20502 Ko/sec.
Conversion Koctets par seconde en Moctets par seconde,
20503.2 Ko/sec. X 1 Mo/1024 Ko = 20.02 Mo/sec.
Note: Ces calculs sont valides pour le format NTSC. Pour le PAL, les calculs donneront
environ 19.78 Mo/sec. en se basant sur la résolution 720 x 576 pixels à 25
images/sec.
Les limitations techniques:
La capacité de stockage:
Avec un débit d'environ 20 Mo/sec, la vidéo numérique non-compressée exigerait
donc plus de 1.2 Go d'espace disque pour capter 1 seule minute de vidéo.
La rapidité de transmission:
L'autre problème auquel on doit actuellement faire face avec la vidéo numérique est
le transfert de ces données en format numérique. Certaines technologies permettent
actuellement le transfert des données vidéo numériques non-compressées sauf
qu'elles ne sont pas toujours facilement accessibles. Pour les technologies plus
accessibles il faut donc penser a réduire le débit des données.
Les solutions pour réduire le débit:

Le problème est donc de diminuer au maximum le nombre de bits ou d'octets utilisés
pour représenter une image et, par là, de réduire le débit binaire nécessaire pour la
transmettre. La première solution est de diminuer le nombre d'images par secondes,
sauf qu'en dessous de 15 à 18 images par secondes notre oeil commencera à capter
une saccade plutôt désagréable.
La deuxième possibilité est de réduire le nombre de points de l'image par 2 ou par 4
sauf que la qualité visuelle de l'image résultante sera passablement réduite, voire
même inacceptable. La troisième possibilité est de coder moins d'informations de
couleur, sur 2 octets (16 bits) par pixel en 64 000 couleurs, par exemple, ou encore
sur un seul octet par pixel en palette de 256 couleurs. Pour les applications
multimédia, cette solution est acceptable et d'ailleurs très recommandée pour les
présentations multimédia, mais pas pour le montage vidéo, même amateur.
Toutes ces méthodes auront bel et bien pour effet de réduire le débit des données,
mais la dégradation de l'image sera si importante que même un amateur la
rejetterait. La seule vraie solution au problème de débit est apportée par la
compression, aussi appelée Bit Rate Reduction (Réduction du débit binaire). Plusieurs
méthodes ont été mises au point avec plus ou moins de succès.
La compression des données:

Tout d'abord, il est important de savoir que les techniques de compression du flux de
données numériques sont principalement basées sur une constatation : une image
contient énormément d'informations redondantes, redondance dont on peut
distinguer deux types:
La redondance spatiale:
Lorsque des informations sont similaires ou se répètent dans des zones de l'image
proches l'une de l'autre (dans une image, deux points voisins sont souvent
similaires).
La redondance temporelle:
Lorsque des informations se ressemblent ou se répètent dans le temps, même si leur
position dans l'image a changé (deux images successives sont souvent relativement
similaires).
La compression va donc consister à déterminer ces redondances et à les éliminer. La
contrainte liée à la qualité de l'image nous oblige à être capables de reproduire
l'image originale intacte ou, tout au moins, une image très proche de celle-ci. Cette
définition nous amène à envisager deux types de techniques pour la compression.
La compression avec perte d'information:

Il existe différentes techniques permettant d'obtenir des facteurs de compression
nettement plus élevés qu'avec les techniques réversibles. Mais, avec de telles
méthodes, l'image reconstruite après décompression, bien qu'elle reste proche de
l'image originale, n'est plus identique. On parlera alors de méthodes de compression
irréversibles.
Cependant, même si elles induisent des pertes d'informations dans les images, en
choisissant judicieusement le type d'informations qui seront perdues ou dégradées, il
est néanmoins possible de reconstruire des images d'une qualité telle que l'oeil
humain ne pourra les distinguer des images originales. En effet, l'oeil est plus
sensible à certaines notions qu'à d'autres. Ainsi, une dégradation des couleurs dans
une scène remplie d'objets en mouvement rapide passera inaperçue alors qu'une
faible perte de qualité dans une image fixe comportant un dégradé de couleurs sera
immédiatement perçue. Ces particularités de l'oeil humain sont exploitées depuis le
début de la vidéo.
La vidéo numérique utilise également au maximum les particularités de l'oeil humain
lorsqu'il s'agit de compression d'images. Nous obtenons ainsi une compression
visuellement sans perte d'informations. De ces constatations sont nées plusieurs
classes de méthodes de compression:
Le Variable Length Coding(VLC):

Il se base sur la constatation que certaines combinaisons de pixels sont plus
fréquentes que d'autres. Dès lors, en recensant toutes les combinaisons possibles
d'un nombre donné de pixels, il est possible d'en étudier leur fréquence d'apparition
dans une image. On attribue alors à chaque combinaison un code dont la
longueur(nombre de bits) est d'autant plus faible que la combinaison apparaît
souvent dans l'image. La première application de cette méthode est bien antérieure à
la vidéo. Le code morse rejoint la même idée.
Le Differential Pulse Code Modulation(DPCM):

Il se base sur la constatation que, dans la plupart des images, les différences entre
deux pixels adjacents sont souvent faibles, les transitions franches (par exemple: un
rectangle noir sur un fond blanc) étant assez rares. Il est donc envisageable,
connaissant la valeur d'un pixel, de prédire la valeur de son voisin.
La Discrete Cosine Transform(DCT):
Elle se base sur la transformation d'une représentation spatiale d'un bloc de pixels,
c'est-à-dire position horizontale, verticale ainsi que l'amplitude, en une
représentation sous forme mathématique différente. Cette représentation plus
compacte de l'image requiert de traiter moins d'informations. En effet, cette nouvelle
représentation ne se base plus sur une analyse spatiale (positions horizontale,
verticale et amplitude) mais sur une analyse fréquentielle savamment calculée. Cette
technique est rendue possible grâce à l'utilisation d'une variante des séries de
Fourier. Celles-ci permettent de reconstruire une fonction à partir d'une somme de
sinusoïdes multipliées chacune par un certain coefficient dit "de Fourier". La DCT
s'apparente à cette méthode. La DCT, en elle-même, ne comprime donc pas l'image.
Elle la représente simplement sous une forme qui se prête beaucoup mieux à la
compression. Il ne reste alors plus qu'à appliquer un codage intelligent des différents
coefficients.
La compression sans perte d'informations(Lossless):

Pour plusieurs personnes, rien ne peut rivaliser avec un original. En fait, la
compression "Lossless" est supérieure à la vidéo non-compressé dans le sens que la
qualité est identique et qu'en plus on sauve de l'espace disque étant donné que le
signal est compressé. Le problème est qu'étant donné qu'il y a très peu de
redondance dans une image vidéo, le gain n'est seulement que de 50% en moyenne.
Les standards actuels de compression:

Plusieurs standards de compression ont déjà été développés. Voici une liste non
exhaustive des méthodes de compression rencontrées le plus fréquemment ainsi que
leurs champs d'application.
Le JPEG(Joint Photographic Experts Group):

Il s'agit d'un standard international pour la compression d'images couleurs fixes
stockées sous forme digitale. À la base, ce standard fut conçu pour le monde de
l'impression et de la photocomposition. Il accepte n'importe quelle définition, tant
verticale qu'horizontale et autorise un nombre de bits par pixel compris entre 1 et 32.
La technique de compression utilisée est basée sur la Discrete Cosine Transform
(DCT). Cependant, conçu pour les images fixes, il ne convient pas à la compression
de séquences vidéo.
Le Motion JPEG:
Il s'agit d'une extension du JPEG qui permet de traiter des séquences d'images. En
réalité, il se contente de considérer une séquence vidéo comme une succession
d'images fixes, chacune d'elles compressée séparément en utilisant le standard JPEG.
Puisque chaque image est compressée indépendamment des autres, le Motion JPEG
permet le montage à l'image près. Tant que l'on se contente de facteurs de
compression relativement faibles (de 2:1 à 4:1) il peut s'appliquer à du travail de
production ou de postproduction de qualité et, optimisé, il est quasi transparent.
Toutefois, lorsque le facteur de compression devient plus important (au delà de
10:1), la dégradation des images devient telle qu'elle est aisément perceptible par
l'oeil humain. En outre, ces dégradations s'additionnent d'une génération à l'autre,
jusqu'à devenir rapidement inacceptables.
Le MPEG(Moving Pictures Experts Group):

Comme nous venons de le voir, tant que l'on se contente de compresser des
séquences vidéo en considérant chaque image séparément, le facteur de compression
peut difficilement dépasser 4:1 si l'on souhaite conserver un niveau de qualité
compatible avec un usage professionnel. Pour atteindre des facteurs de compression
supérieurs, il faut se baser sur les similitudes existant entre plusieurs images
successives. Cette constatation a donné naissance au standard MPEG. À l'origine, le
standard MPEG prévoyait 4 niveaux (d'autres s'y sont ajoutés depuis):
MPEG-1: destiné aux applications multimédia.
MPEG-2: extension de MPEG-1 permettant d'obtenir une qualité d'image supérieure.
MPEG-3: destiné à la télévision haute définition. Cependant, MPEG-2 s'est révélé
tellement performant qu'il a rendu inutile le développement de MPEG-3.
MPEG-4: Originalement destiné aux communications mobiles, sa forme originale n'a
rien à voir avec le monde de la vidéo broadcast. D'autres développements futurs
seront à surveiller.
Le but du MPEG-1 était de produire des images de qualité équivalente au VHS tout en
parvenant à descendre à un débit binaire de l'ordre de 1.2 Mbits/seconde(1.5
Mbits/seconde en incluant le son).
Le MPEG-2 fut conçu pour traiter des séquences d'images entrelacées. Le but était de
produire des images de la qualité d'un système vidéo composite avec un débit binaire
de l'ordre de 4 à 8 Mbits/seconde ou des images de haute qualité avec un débit de 10
à 15 Mbits/seconde. Les domaines d'application principaux de MPEG-2 sont liés à la
distribution de programmes vidéo: diffusion par satellite, télédistribution, Digital
Video Disc.
Comme on peut le voir, le MPEG offre un vaste éventail de possibilités, semble
flexible et permet d'atteindre une bonne qualité d'image. Dès lors, pourquoi ne pas
l'utiliser tout au long d'une chaîne de production vidéo professionnelle? Les raisons
sont multiples: MPEG conduit à des systèmes fortement asymétriques; le processus
de compression est beaucoup plus complexe que le processus de décompression. Il
faut donc une puissance de calcul de loin supérieure pour la compression que pour la
décompression. Ceci ne pose pas de problème lorsqu'il s'agit de distribuer des images
car, par définition, on compresse à un seul endroit, lors de l'émission, puis l'on
diffuse les images qui sont décompressées sur de multiples récepteurs. Dans le cas
d'une chaîne de postproduction, il en va tout autrement; il faut pouvoir compresser et
décompresser à chaque maillon de la chaîne. De plus, le système MPEG n'a pas été
conçu pour faire du montage à l'image près, ce qui est un des pré-requis majeurs
pour faire de la postproduction. Des générations successives, entrecoupées de
traitements (effets), peuvent induire une perte de qualité qui s'avérera rapidement
inacceptable. MPEG n'a pas été conçu pour permettre des opérations telles que le
"chroma key".
Parallèlement aux travaux de MPEG, le secteur informatique a développé ses propres
solutions pour amener la vidéo sur les écrans des micro-ordinateurs. Les possibilités
d'affichage et de traitement permettaient, dès la fin des années quatre-vingt,
d'afficher des images (fixes) de haute qualité, et de créer des animations
élémentaires.
Quicktime:
Apparu en 1991, Quicktime a été intégré au Système 7 des Macintosh. Il s'agit d'un
environnement de développement et d'exécution qui permet d'associer à des données
classiques des fichiers représentant des séquences sonores ou vidéo. Quicktime
comprend essentiellement des formats de données standardisés, des procédés de
compression/décompression, et une interface utilisateur spécifique. L'extension
système utilisée est fondée sur le principe du maintien de l'isochronie des données,
et introduit donc le temps comme élément principal du système d'exploitation.
Quicktime est surtout conçu comme un ensemble de spécifications très ouvert,
capable d'intégrer facilement un grand nombre d'évolutions matérielles et logicielles,
sans remettre en cause les applications existantes.
Vidéo pour Windows:

Vidéo pour Windows est un ensemble logiciel commercialisé par Microsoft permettant
la captation et la restitution de vidéo animée sur PC. L'exécution de séquences vidéo
est possible sans matériel spécifique, alors que la captation doit être faite au moyen
d'une carte de numérisation. Une large compatibilité est permise grâce à la définition
de spécifications permettant d'intégrer des matériels aux fonctionnalités différentes.
Ainsi, à travers un ensemble de pilotes, Vidéo pour Windows sera capable de
supporter des périphériques aux fonctionnalités diverses tout en assurant, autant que
possible, les fonctions manquantes au niveau logiciel.
Pas plus que Quicktime, Vidéo pour Windows n'est pas un algorithme de
compression. Il s'agit plutôt d'une interface standardisée entre le matériel et les
procédés de codage et de compression, qui offre des API (interfaces de
programmation) relativement indépendantes du matériel. Cependant, comme Apple,
Microsoft a également défini des algorithmes de compression adaptés à différentes
situations (Microsoft Vidéo 1, Microsoft RLE compressor), et intègre ceux proposés
par des sociétés tierces, comme Indeo d'Intel. Plus qu'une technique de compression,
Vidéo pour Windows fournit en fait une plate-forme commune sur laquelle pourront
s'articuler divers procédés de codage.
Le Digital BETACAM:
Proposé par Sony, il est dérivé de techniques JPEG qui ont été soigneusement
adaptées aux travaux de post-production de haute qualité. Il utilise des signaux vidéo
4:2:2 et leur applique un facteur de compression faible de 2:1. Chaque trame étant
compressée séparément, il offre toutes les possibilités de montage requises pour un
usage professionnel. Son principal inconvénient est son faible facteur de
compression. Il est principalement utilisé pour les applications de type Broadcast.
La Digital Video Cassette (DVC):

Il s'agit d'un nouveau format de cassette vidéo digitale développé par le HD Digital
VCR Consortium formé à l'origine par Sony, Matsushita, Philips, Thomson, Toshiba,
Hitachi, JVC, Sanyo, Sharp et Mitsubishi. Ces 10 sociétés ont uni leurs efforts pour
proposer, en juillet 1993, la première spécification du format DV. Par la suite, de
nombreuses autres sociétés se sont jointes au consortium qui compte aujourd'hui
plus d'une soixantaine de membres. Ce nouveau format utilise certains éléments du
standard JPEG pour le codage de la vidéo.
La compression DV ne joue que sur les redondances spatiales à l'intérieur de l'image
complète. Elle ne cherche pas à réduire les redondances temporelles comme le fait le
MPEG. Elle utilise un facteur de compression de 5:1. Elle permet donc d'obtenir une
excellente qualité d'image en première génération, ce qui est l'idéal pour un usage
grand public. Une heure de vidéo numérique en format composante(Y, R-Y, B-Y) peut
être sauvegardé sur une mini-cassette plus petite qu'une cassette audio DAT. La
qualité est considérée comme supérieure au BetacamSP. Une autre cassette DV
légèrement plus grosse qu'une cassette 8mm peut contenir jusqu'à 270 minutes
d'enregistrement numérique!
La technologie FireWire:
La norme FireWire, aussi connue sous le nom de IEEE-1394, a été introduite comme
une interface universelle pour la transmission des données séries à haute vitesse
entre différentes composantes électroniques telles que les disque rigides, les lecteurs
CD-ROM, les scanners et les cartes de capture vidéo. La technologie FireWire
supporte trois vitesses de transfert; 100, 200 et 400Mbits/sec. 16 périphériques
peuvent s'interconnecter avec une distance pouvant aller jusqu'à 4 mètres entre
chaque périphérique. Le branchement se fait grâce à un fil à 6 conducteurs regroupés
en paires. Deux paires transmettent les données et les caractères de contrôle tandis
que l'autre paire se charge de transporter l'alimentation (max. 60 W). Il existe aussi
des connecteurs à quatre conducteurs dépourvus d'alimentation.
Il est important de faire la distinction entre la technologie FireWire et le DV. Les
termes sont souvent interchangeables, mais ont une fonction bien différente. En gros
on peut dire que la technologie Firewire est une affaire de plomberie. C'est un
standard de transmission. C'est une nouvelle manière de transmettre des
informations numériques à travers un câble et une prise spéciaux entre des
périphériques et un ordinateur. Le DV, quant à lui, est un nouveau standard
d'enregistrement. C'est une nouvelle manière d'écrire un signal vidéo compressé sur
la bande magnétique.
La télévision numérique:
La télévision numérique n'est plus dans le domaine du futur, elle est maintenant une
réalité dans le monde. Aux États-Unis d'abord, où des satellites offrent depuis
quelques années plusieurs dizaines de chaînes de télévision en numérique; en Europe
ensuite, où on assiste à une véritable mobilisation depuis les premières semaines de
l'année 1996. Ce qui a permis la révolution numérique, ce sont les progrès réalisés
dans la compression des données et plus particulièrement les travaux du groupe de
normalisation MPEG (Moving Pictures Experts Group) dont furent issues entre autres
les normes MPEG-1 et MPEG-2.
Les avantages du numérique en matière de télévision par satellite:

Grâce à la technologie du numérique, il est aujourd'hui possible de faire transiter
simultanément plusieurs programmes dans un même canal satellite, là où on ne
pouvait en loger, en analogique, qu'un seul et unique. Cette possibilité d'acheminer
plusieurs chaînes de télévision numériques sur un même répétiteur de satellite
permet de diffuser non plus quelques dizaines, mais quelques centaines de
programmes sur chaque satellite. Parmi les autres avantages du numérique, on peut
également noter:
- La qualité constante des images et des sons en terme de transmission: Le
numérique est moins sujet aux perturbations extérieures que l'analogique et offre
une meilleure résistance au bruit, au brouillage ou aux phénomènes d'écho.
- La facilitation de la compatibilité entre tous les pays: Plus de standards disparates

(NTSC, PAL, SECAM...) et une compatibilité accrue avec les équipements de
production qui sont déjà numériques depuis longtemps.
- La réduction des coûts: Cette multiplicité des canaux va de pair avec une réduction
du coût de la retransmission des programmes puisque, en toute théorie, on devrait
pouvoir diviser le prix actuel de la location de chacun des transpondeurs des satellites
par le nombre de programmes qui pourront y transiter.
Le codage Audio Numérique
L'Audio Engineering Society (AES) et l'European Broadcasting Union (EBU) ont établi
conjointement une norme audio numérique connue sous le terme d'interface
AES/EBU. Cette norme propose des formats pour l'échange d'informations audio-
numériques entre appareils audio professionnels, tout en garantissant la souplesse
nécessaire aux applications spéciales. L'International Electrotechnical Commission
(IEC) a également adopté un format basé sur la norme AES/EBU pour les appareils
audio grand public.
En bref, la norme de format AES/EBU définit comment deux canaux d'informations
audio sont périodiquement échantillonnés et transmis sur une paire de fils torsadés.
Les canaux audio Gauche et Droit sont multiplexés et sont auto-cadencés et auto-
synchronisés. Le format de mesure est indépendant de la fréquence d'échantillonnage
recommandée par l'AES et supporte, sur 24 bits, 32 kHz, 44,1 kHz et 48 kHz.
"Ne jamais transmettre ce que l'on ne peut pas entendre."
Cette compression audio, qui est entièrement basée sur les caractéristiques de
l'audition humaine, s'accompagne de pertes et ne peut être abordée sans une étude
préalable de ce sens. Il est surprenant de constater que l'audition humaine, et
particulièrement en stéréo, a un pouvoir discriminatoire bien supérieur à celui de la
vision et c'est pourquoi la compression audio doit être envisagée avec encore plus de
précautions. Comme la compression vidéo, la compression audio nécessite plusieurs
niveaux de complexité en fonction du facteur de compression souhaité.
Une autre considération importante dans l'enregistrement et la diffusion numériques
d'aujourd'hui est le monitoring du "point de crash" ou point d'atteinte du "niveau
d'entrée maximum" admissible par un système ou un équipement. Le format
d'enregistrement numérique est quelque peu plus tolérant, dans le sens où quelques
pointes "hors tolérance" tombent simplement hors de la gamme de l'appareil
numérique et ne sont pas échantillonnées. Une série de "pops" ou de "sifflements"
qui pourraient sérieusement compromettre un enregistrement analogique peuvent
être automatiquement "atténués". Ce phénomène a entraîné quelques personnes
vers la fausse notion que les niveaux audio numériques pouvaient être appréhendés
de manière plus simpliste. Les appareils de mesure rudimentaires intégrés dans la
plupart des appareils numériques reflètent cette attitude. Il est aussi nécessaire de
produire un volume plus consistant dans les enregistrements numériques que dans
les enregistrements analogiques. Avoir quelques prises "plus fortes" que d'autres est
plus acceptable dans le nouveau monde numérique que cela n'était dans
l'environnement analogique. Il y a également la même nécessité de protéger les
CRÊTES. L'idée qu'un "certain nombre" de crashs soit tolérable est simplement
fausse. Obtenir le volume au détriment des crêtes résulte en une perte de dimension
et de clarté.
Le mécanisme de l'audition:
L'audition se compose d'un processus physique à l'intérieur de l'oreille et d'un
processus nerveux et mental qui se combinent pour donner une impression sonore.
L'impression que nous recevons n'est pas exactement similaire à la forme d'onde
acoustique présente dans le conduit auditif parce qu'une certaine entropie est
perdue. Les systèmes de compression audio qui donneront de bons résultats seront
donc ceux qui ne perdront que la partie de l'entropie qui est perdue dans le
mécanisme de l'audition.
Le mécanisme physique de l'audition se répartit en trois parties: l'oreille externe,
l'oreille moyenne et l'oreille interne. En plus du pavillon, l'oreille externe comprend le
conduit auditif et le tympan. Le tympan transforme les sons incidents en une
vibration comme le fait un diaphragme de microphone. L'oreille interne opère en
utilisant ces vibrations transmises à travers un fluide. L'impédance du fluide est bien
supérieure à celle de l'air et l'oreille moyenne agit comme un transformateur
d'impédance qui effectue le transfert d'énergie.
On voit ci-dessus que les vibrations sont transférées à l'oreille interne par l'étrier, qui
agit sur la fenêtre ovale. Les vibrations du fluide de l'oreille interne parviennent au
limaçon, une cavité du crâne en forme de spirale (présentée déroulée sur la figure,
pour plus de clarté). La membrane basilaire est étirée sur toute la longueur du
limaçon. Le poids et la consistance de cette membrane varient d'un bout à l'autre.
Près de la fenêtre ovale, la membrane est rigide et légère et sa fréquence de
résonance est élevée. À l'autre extrémité, la membrane est lourde et souple, ce qui
fait qu'elle résonne aux fréquences basses.
La gamme de fréquences disponibles détermine la plage de l'audition humaine qui,
pour la plupart des gens, s'étend de 60 Hz à 15 Khz. Les différentes fréquences du
son incident provoquent la vibration de différentes parties de la membrane. Toutes
les zones de la membrane sont reliées à différentes terminaisons nerveuses qui
permettent une discrimination très fine. La membrane basilaire est également munie
de fins muscles commandés par les nerfs et qui agissent ensemble dans une sorte de
contre-réaction positive qui aurait tendance à augmenter le facteur de résonance Q.
Le comportement résonnant de la membrane basilaire constitue une réplique exacte
d'un analyseur de transformées.
En raison de la théorie de l'incertitude, plus le domaine de fréquences d'un signal est
connu, moins son domaine temporel est connu. En conséquence, plus un système est
apte à déterminer la différence entre deux fréquences, moins il est capable de
séparer le temps qui les sépare. L'audition humaine a développé un certain
compromis entre la discrimination incertitude temporelle et la discrimination de
fréquence; ce compromis impliquant qu'aucune perfection n'est atteinte. La
discrimination imparfaite de fréquences résulte du fait de l'incapacité de séparer deux
fréquences proches. Cette incapacité est connue comme un effet de masquage auditif
qui réduit la sensibilité d'un son en présence d'un autre. La figure 3.2a montre que le
seuil d'audition est fonction de la fréquence. La plus grande sensibilité se situe
naturellement dans la gamme de fréquences de la parole.
En présence d'une note pure, le seuil est modifié, tel qu’indiqué sur la figure 3.2b. Le
seuil est relevé non seulement pour des fréquences hautes, mais aussi pour quelques
fréquences basses. En présence d'une source sonore au spectre plus complexe,
comme de la musique, le seuil est relevé à presque toutes les fréquences. Une
conséquence de ce comportement est que le sifflement d'une cassette audio n'est
audible que pendant les passages très doux de la musique.
La compression utilise ce principe en amplifiant les fréquences basses avant
l'enregistrement ou la transmission et en les ramenant ultérieurement à leur niveau
convenable. La discrimination imparfaite de temps montrée par l'oreille est due à sa
réponse résonante. Le facteur de résonance Q est tel qu'il faut qu'un son donné soit
présent au moins 1 milliseconde avant qu'il ne devienne audible. À cause de cette
réponse lente, le masquage peut se produire même si les deux signaux concernés ne
sont pas simultanés. Les masquages avant et arrière peuvent se produire quand le
son de masquage continue à agir à des niveaux plus faibles avant et après la durée
courante du son de masquage. La figure 3.3 démontre ce concept. Le masquage
relève le seuil d'audition et les systèmes de compression tirent parti de cet effet en
rehaussant le niveau "plancher" de bruit, permettant ainsi au signal audio d'être
exprimé avec moins de bits. Le plancher de bruit ne peut être relevé que pour les
fréquences auxquelles le masquage agit. Pour maximaliser le masquage actif, il faut
découper le spectre audio en différentes bandes de fréquence pour permettre
l'introduction des différentes quantités de compression et de bruit dans chacune
d'elles.
Codage en sous-bandes:
La figure suivante montre un compresseur à bandes séparées. Le filtre séparateur de
bandes est un jeu de filtres à phase linéaire, ayant tous la même largeur de bande et
qui se recouvrent. La sortie de chaque bande consiste en des échantillons
représentatifs de la forme d'onde. Dans chaque bande de fréquence, l'entrée audio
est amplifiée au maximum avant la transmission. Chaque niveau est ensuite ramené
à sa valeur initiale. Le bruit introduit par la transmission est ainsi réduit dans chaque
bande. Si l'on compare la réduction de bruit au seuil d'audition, on s'aperçoit qu'un
bruit plus important peut être toléré dans certaines bandes du fait de l'action du
masquage. Par conséquent, il est possible, dans chaque bande, de réduire la
longueur des mots d'échantillons après la compression. Cette technique réalise une
compression parce que le bruit introduit par la perte de résolution est masqué. La
figure ci-dessous présente un codeur simple à bandes séparées, comme ceux utilisés
dans la Couche 1 du MPEG. L'entrée audio-numérique alimente un filtre de séparation
de bandes qui divise le spectre du signal en un certain nombre de bandes.
En MPEG, ce nombre est de 32. L'axe des temps est divisé en blocs d'égale longueur.
Dans la couche 1 de MPEG, il y a donc 384 échantillons du signal d'entrée, ce qui se
traduira, en sortie du filtre, par 12 échantillons dans chacune des 32 bandes. A
l'intérieur de chaque bande, le niveau est amplifié par multiplication jusqu'à sa valeur
maximale. Le gain nécessaire est constant pour la durée du bloc et un seul facteur
d'échelle est transmis avec chaque bloc, pour chaque bande, de façon à pouvoir
renverser le processus au décodage.
La sortie du groupe de filtres est également analysée afin de déterminer le spectre du
signal d'entrée. Cette analyse permet de réaliser un modèle de masquage permettant
de déterminer le degré de masquage que l'on peut attendre dans chaque bande.
Dans chaque bande, plus le masquage est agissant, moins l'échantillon doit être
précis. La précision d'échantillon est alors réduite par re-quantification en vue de
diminuer la longueur des mots. Cette réduction est aussi constante pour chaque mot
dans la bande, mais les différentes bandes peuvent utiliser des longueurs de mots
différentes. La longueur de mots doit être transmise comme un code d'affectation de
bits afin de permettre au décodeur de dé-sérialiser convenablement le flux de bits.
Couche 1 du MPEG:
La figure suivante montre un flux de bits audio MPEG Niveau 1.
Après le mot de synchronisation et l'en-tête, il y a 32 codes d'affectation de bits de 4

bits chacun. Ces codes décrivent la longueur des mots des échantillons dans chaque
sous-bande. Viennent ensuite les 32 facteurs d'échelle utilisés par la compression
dans chaque bande. Ces facteurs d'échelle sont indispensables pour rétablir le bon
niveau au décodage. Les facteurs d'échelle sont suivis des données audio de chaque
bande. Voici un décodeur du type Couche 1.
Le mot de synchronisation est détecté par le générateur de temps qui dé-sérialise les
bits d'affectation et les données de facteur d'échelle. L'affectation de bits permet
ensuite la dé-sérialisation des échantillons à longueurs variables. La re-quantification
inverse et la multiplication par l'inverse du facteur de compression sont appliquées de
façon à ramener le niveau de chaque bande à sa bonne valeur. Les 32 bandes sont
ensuite rassemblées dans un filtre de recombinaison pour rétablir la sortie audio.
Couche 2 du MPEG:
Cette figure montre que, lorsque le filtre de séparation de bandes est utilisé pour
créer le modèle de masquage, l'analyse de spectre n'est pas très précise dans la
mesure où il n'y a que 32 sous-bandes et que l'énergie est répartie dans la totalité de
la bande. On ne peut pas trop augmenter le plancher de bruit car, dans le pire des
cas, le masquage n'agirait pas. Une analyse spectrale plus précise autoriserait un
facteur de compression plus élevé. Dans la couche 2 du MPEG, l'analyse spectrale est
effectuée à l'aide d'un processus séparé.
Une FFT à 512 points est effectuée directement à partir du signal d'entrée pour le
modèle de masquage. Pour améliorer la précision de la résolution de fréquence, il
faut augmenter l'excursion temporelle de la transformée, ce qui est effectué en
portant la taille du bloc à 1152 échantillons. Bien que le synoptique de la compression
de bloc soit identique à celui de la couche 1 du MPEG, tous les facteurs d'échelle ne
sont pas transmis dans la mesure où, dans les images de programme, ils présentent
un degré de redondance non négligeable.
Le facteur d'échelle de blocs successifs excède 2dB dans moins de 10 % des cas et
on a avantage à tirer parti de cette caractéristique en analysant les groupes de 3
facteurs d'échelle successifs. Sur les programmes fixes, seul un facteur d'échelle sur
trois est transmis. À mesure de l'augmentation de la variation dans une bande
donnée, deux ou trois facteurs d'échelle sont transmis. Un code de sélection est
également transmis pour permettre au décodeur de déterminer ce qui a été émis
dans chaque bande. Cette technique permet de diviser par deux le débit du facteur
d'échelle.
Codage de transformée:
Les couches 1 et 2 du MPEG sont basées sur les filtres séparateurs de bandes dans
lesquels le signal est toujours représenté comme une forme d'onde. La couche 3
utilise de son côté un codage de transformée comme celui utilisé en vidéo. Comme
indiqué plus haut, l'oreille effectue une espèce de transformée sur le son incident et,
du fait du facteur de résonance Q de la membrane basilaire, la réponse ne peut
augmenter ou diminuer rapidement. Par conséquent, si un signal audio est
transformé dans le domaine fréquentiel, il n'est plus nécessaire de transmettre les
coefficients trop souvent. Ce principe constitue la base du codage de transformée.
Pour des facteurs de compression plus élevés, les coefficients peuvent être re-
quantifiés, ce qui les rend moins précis. Ce processus génère du bruit qui pourra être
placé à des fréquences où le masquage est le plus fort. Une caractéristique
secondaire d'un codeur de transformée est donc que le spectre d'entrée est connu
très précisément, ce qui permet de créer un modèle de masquage très fidèle.
Couche 3 du MPEG:
Ce niveau complexe de codage n'est en réalité utilisé que lorsque les facteurs de
compression les plus élevés sont nécessaires. Il comporte quelques points communs
avec la couche 2. Une transformée cosinus discrète à 384 coefficients de sortie par
bloc est utilisée. On peut obtenir ce résultat par un traitement direct des échantillons
d'entrée mais, dans un codeur multi-niveaux, il est possible d'utiliser une transformée
hybride incorporant le filtrage 32 bandes des couches 1 et 2. Dans ce cas, les 32
sous-bandes du filtre QMF (Quadrature Mirror Filter) sont ensuite traitées par une
Transformée Cosinus Discrète Modifiée(Modified Discrete Cosine Transform) à 32
bandes pour obtenir les 384 coefficients. Deux tailles de fenêtres sont utilisées pour
éviter les pré-oscillations à la transmission. La commutation de fenêtres est
commandée par le modèle psycho-acoustique. On a trouvé que le pré-écho
n'apparaissait dans l'entropie que lorsqu’elle était supérieure au niveau moyen. Pour
obtenir le facteur de compression le plus élevé, une quantification non-uniforme des
coefficients est effectuée selon le codage de Huffman. Cette technique attribue les
mots les plus courts aux valeurs de code les plus fréquentes.
Le codage AC-3:
La technique de codage audio AC-3 est utilisée avec le système ATSC à la place d'un
des systèmes de codage audio MPEG. DVB a aussi dû l'adopter sous la pression des
industriels. Le système AC-3 est basé sur une transformée et obtient le gain de
codage en re-quantifiant les coefficients de fréquence. L'entrée PCM d'un codeur AC-3
est divisée en blocs par des fenêtres qui se chevauchent comme indiqué ci dessous.
Ces blocs contiennent chacun 512 échantillons mais, du fait du chevauchement total,
il existe une redondance de 100%. Après la transformée, il existe donc 512
coefficients qui peuvent, du fait de la redondance, être ramenés à 256 à l'aide d'une
technique appelée Suppression par aliasing dans le domaine temporel (TDAC, Time
Domain Aliasing Cancelation).
La forme du signal d'entrée est analysée et, s'il existe une évolution significative dans
la seconde moitié du bloc, le signal sera séparé en deux pour éviter les pré-échos.
Dans ce cas, le nombre de coefficients reste le même mais la résolution de fréquence
sera divisée par deux et la résolution temporelle doublée. Un indicateur (flag) est
placé dans le flux de bits pour signaler que cette opération a été effectuée. Les
coefficients sont émis sous un format à virgule flottante avec une mantisse et un
exposant. La représentation est l'équivalent binaire de la notation scientifique.
Les exposants constituent en fait les facteurs d'échelle. Le jeu d'exposants d'un bloc
produit l'analyse spectrale d'un signal d'entrée avec une précision finie sur une
échelle logarithmique appelée enveloppe spectrale. Cette analyse spectrale est le
signal d'entrée du modèle de masquage définissant, pour chaque fréquence, le
niveau jusqu'où le bruit peut être augmenté. Le modèle de masquage pilote le
processus de re-quantification qui diminue la précision de chaque coefficient en
arrondissant la mantisse. Cette mantisse constitue une partie significative de la
donnée transmise. Les exposants sont également transmis mais pas intégralement
dans la mesure où la redondance qu'ils comportent peut être ultérieurement
exploitée.
A l'intérieur d'un bloc, seul le premier exposant (celui de la fréquence la plus base)
est transmis dans sa forme absolue. Les autres sont transmis de façon différentielle
et le décodeur ajoute la différence avec l'exposant précédent. Quand le signal audio
présente un spectre assez aplati, les exposants peuvent être identiques pour
plusieurs bandes de fréquences. Les exposants peuvent alors être assemblés en
groupes de deux à quatre avec un indicateur décrivant leur mode de groupement.
Des jeux de six blocs sont assemblés dans une trame de synchro AC-3. Le premier
bloc de la trame comporte la donnée complète pour l'exposant mais, dans le cas de
signaux constants, les blocs suivants de la trame peuvent utiliser le même exposant.
Voici un schéma du fonctionnement de l'encodeur AC-3:
Alors que celui-ci démontre le fonctionnement du Décodeur AC-3:
Le schéma suivant montre comment le signal AC-3 est transmis et reçu en DVB:
La Compression Vidéo MPEG-2
(Codage générique de films, vidéo et informations audio associées):
MPEG (Motion Picture Expert Group), formé en 1988 d'un groupe d'experts en vidéo,
a eu la tâche de définir les standards de compression des signaux audio-visuels. Le
grand principe du MPEG vidéo étant de "Ne jamais transmettre un élément d'image
déjà transmis", son premier projet, MPEG-1, à été publié en 1993. MPEG-1 supporte
principalement l'encodage vidéo allant jusqu'à environ 1.5 Mbits/s, donnant une
qualité similaire au VHS et de l'audio stéréo à 192 bits/s. Il est utilisé pour les
systèmes CD-i (compact disc interactive) et Vidéo-CD pour enregistrer le vidéo et
l'audio sur CD-ROM.
MPEG-2 est une extension du standard MPEG-1. Il est principalement un format
"broadcast" à des taux de données ("data rate") supérieurs. Il propose des outils
algorithmiques pour encoder efficacement le vidéo entrelacé, supporte une grande
échelle de "bits rate" et permet l'encodage "surround sound" à multiples canaux.
Le format vidéo de postproduction numérique utilise 270 Mbit/s de débit pour coder
les images. Sachant qu'un canal satellite accepte autour de 45 Mbit/s(valeur la plus
courante), on voit rapidement qu'il va falloir faire suivre un sérieux régime à nos
images. Le standard MPEG-2 est capable d'encoder un signal télévision standard à un
"bit rate" allant de 3-15 Mbits/s(audio multi-canaux + vidéo + données auxiliaires) et
un signal télévision haute définition de 15-30 Mbits/s. Les décodeurs MPEG-2 sont
également capables de décoder les signaux MPEG-1.
Principes de la diffusion vidéo:

Les stations de télévision européennes diffusent présentement à un "frame rate" de
25Hz. Chaque frame (cadre) est formé de deux champs "entrelacés", donnant un
taux de champs ("field rate") de 50Hz. Le premier champ de chaque "frame" contient
seulement les lignes impaires du "frame"(la première du haut sera la #1). Le second
champ contient quant à lui les lignes paires (environ 20 ms après le premier champ).
Le signal télévision nord-américain est lui aussi "entrelacé", mais avec un "frame
rate" d’un peu moins de 30 Hz (29,97 Hz).
Pour les systèmes vidéo autres que la télévision, on retrouve souvent un signal vidéo
"non-entrelacé"(par exemple pour la majorité des ordinateurs). En vidéo "non-
entrelacé", toutes les lignes d'un "frame" sont lues au même instant. Le vidéo "non-
entrelacé" est également appelé "progressively scanned video" ou "sequentially
scanned video". Le signal RGB (red, green and blue) peut être exprimé en
composantes de luminance(Y) et de chrominance (UV). La largeur de la bande
passante de la chrominance peut être réduite en fonction de la luminance sans
affecter de manière significative la qualité de l'image. En vidéo standard, le signal
vidéo component (YUV) sera échantillonné et numérisé pour former des "pixels" (voir
CCIR recommandation 601). Les termes 4:2:2 et 4:2:0 sont souvent utilisés pour
décrire la structure d'une image numérique. 4:2:2 signifie que la chrominance est
sous-échantillonnée horizontalement par un facteur de deux relatif à la luminance.
4:2:0 signifie que la chrominance est sous-échantillonnée horizontalement et
verticalement par un facteur de deux relatif à la luminance.
La région active d'une image vidéo numérique standard est de 720 pixels X 576
lignes, pour un "frame rate" de 25 Hz. En utilisant 8 bits pour chaque pixels Y, U ou
V, le "bit rate" non compressé pour les signaux 4:2:2 et 4:2:0 sera donc:
4:2:2 - 720x576x25x8 + 360x576x25x(8+8) = 166 Mbits/s
4:2:0 - 720x576x25x8 + 360x288x25x(8+8) = 124 Mbits/s
MPEG-2 est capable de compresser le "bit rate" d'un signal vidéo standard 4:2:0
jusqu'à un taux de 3 Mbits/s. Plus le "bit rate" est bas, plus la qualité du signal
encodé devient compromise. Pour un signal de diffusion numérique terrestre
standard, un "bit rate" d'environ 6 Mbits/s est généralement accepté comme un bon
compromis entre la qualité d'image et les impératifs de bande passante du
transmetteur (Câbles, Satellites).
Principes de réduction du "bit rate":
Le système de réduction du "bit rate" fonctionne en enlevant l'information
redondante du signal avant la transmission, grâce au codeur et en la réinsérant grâce
au décodeur. Deux types de redondances ont été ciblés pour y arriver:
La redondance spatiale et temporelle où un élément commun à plusieurs images
consécutives n'est transmis qu'avec la première image. Pour les autres images, on ne
transporte que sa position dans l'image. C'est le cas d'un plan fixe, où l'on voit une
voiture qui va de gauche à droite. On transmet une fois le décor et la voiture et, pour
les images suivantes, on indique seulement la position de la voiture.
L'autre redondance exploitée est la redondance spatiale. Si, dans la même image, il y
a trois voitures identiques, elle n'est codée qu'une seule fois. En y ajoutant la position
de chacune dans l'image, on peut reconstituer la scène. La valeur de chaque pixel
n'est donc pas indépendante, mais reliée à ses voisins, autant à l'intérieur de la
même image que par rapport aux images voisines. Jusqu'à un certain point, la valeur
d'un pixel est prédictible en tenant compte de ses voisins.
La redondance psycho-visuelle:
L'oeil humain à une réponse limitée aux détails spatiaux fins et est moins sensible
aux détails près du bord des objets ou des changements de plans. En conséquence,
une réduction contrôlée, à l'intérieur d'une image décodée par le procédé de
réduction du "bit rate" ne devrait pas être visible par un observateur humain. La
figure ci-dessous montre que la perception humaine du bruit n’est pas uniforme mais
est une fonction de la fréquence spatiale.
Un niveau de bruit supérieur est acceptable pour des fréquences spatiales élevées. Il
s’ensuit que le bruit vidéo est effectivement masqué par un fin détail d’image alors
qu’il sera plus apparent pour les vastes zones unicolores. Sachant que les mesures de
bruit sont toujours pondérées, on comprendra que cette méthode de mesure se
rapporte à ce résultat subjectif.
Codage spatial ou temporel:

Comme nous l’avons dit, la compression vidéo utilise les avantages des deux
redondances (spatiale et temporelle). En MPEG-2, la redondance temporelle est
d’abord réduite en utilisant les similitudes entre deux images successives. La plus
grande partie possible de l’image courante est créée (ou prédite) en utilisant
l’information de l’image déjà émise. Quand on utilise cette technique, il suffit de
transmettre une image de différence qui élimine les différences entre l’image actuelle
et l’image de prédiction. L’image de différence est ensuite soumise à une
compression spatiale. Pour des raisons pratiques, il est plus facile d’expliquer la
compression spatiale avant d’aborder la compression temporelle.
La compression spatiale utilise la similarité entre des pixels adjacents sur une surface
unie et tient compte des fréquences spatiales dominantes existant dans les zones en
amont. Le JPEG utilise uniquement la compression spatiale dans la mesure où ce
système est conçu pour la transmission des images fixes. Le JPEG peut cependant
être employé pour la transmission de séquences d’images fixes. Dans cette
application, appelée Motion JPEG, le facteur de compression n’est pas aussi bon que
si l’on utilisait le codage temporel, mais il sera cependant possible d’effectuer un
montage du flux de bits pour effectuer un montage image par image.
Codage spatial:
En codage spatial, la première étape consiste à effectuer une analyse de fréquence
spatiale à l’aide d’une transformée. Une transformée est un outil mathématique
permettant de traduire une forme d’onde en différents domaines et, dans notre cas,
dans le domaine fréquentiel. Le résultat d’une transformée est une suite de
coefficients décrivant l’amplitude de chaque composante fréquentielle présente dans
le signal. Une transformée inverse reproduit le signal initial. Si les coefficients sont
gérés avec une précision suffisante, la sortie de la transformée inverse doit être
identique à la forme d’onde originale. La transformée la plus répandue est la
transformée de Fourrier. Cette transformée cherche chaque fréquence comprise dans
le signal d’entrée. Elle caractérise chaque fréquence en multipliant le signal d’entrée
par un exemple de la fréquence cible appelée fonction de base et en intégrant le
produit obtenu. La figure ci-dessous montre que, lorsque la forme de signal d’entrée
ne contient pas de composante à la fréquence cible, l’intégrale sera nulle, mais s’il en
comporte une, l’intégrale constituera un coefficient caractérisant l’amplitude de cette
composante.
La transformée de Fourrier présente l’inconvénient de nécessiter des coefficients pour
les composantes sinus et cosinus de chaque fréquence.
Dans la transformée cosinus, la forme de signal d’entrée est complétée avec son
image temporelle avant multiplication par la fonction de base.
L'illustration ci-dessus montre que cette opération de «miroir» élimine toutes les
composantes sinus et double les composantes cosinus. La fonction de base sinus ne
se révèle donc plus utile et un seul coefficient reste alors nécessaire pour chaque
fréquence.
"Intra-Frame DCT coding":

La Transformée Cosinus Discrète (DCT, Discrete Cosine Transform) est la version
échantillonnée de la transformée cosinus, elle est utilisée sous forme
bidimensionnelle en MPEG-2. Le bloc de 8x8 pixels est changé en bloc de 8x8
coefficients. Comme la transformation réside en une multiplication par une fraction, il
se produit un allongement du mot provenant du fait que les coefficients ont une
longueur supérieure à celle des valeurs de pixels. Un bloc de pixels 8 bits devient
alors un bloc de coefficients 11 bits. Une DCT ne constitue pas alors une
compression, mais elle obtient, en fait, le résultat inverse. Cependant, la DCT
convertit la source de pixels en une forme facilitant la compression.
La figure suivante montre le résultat d’une transformée inverse des coefficients
individuels d’une DCT pour un bloc 8x8. Dans les images réelles, diverses fréquences
spatiales verticales et horizontales peuvent se produire simultanément et un
coefficient en un certain point en représente toutes les combinaisons possibles.
La figure montre également les coefficients sous une forme d’onde horizontale
unidimensionnelle. La combinaison de ces formes d’onde avec diverses amplitudes et
une polarité quelconque doit permettre de reproduire toutes combinaisons des 8
pixels. La combinaison des 64 coefficients de la DCT-2D permettra de reconstituer le
bloc initial de 8x8 pixels.
En ce qui concerne les images couleurs, il est clair que les signaux de différence de
couleur devront également être traités. Les signaux Y, Cr et Cb seront donc
assemblés en réseaux séparés de 8x8 pixels et traités séparément. Dans la plupart
des signaux correspondant aux images de programme, la majorité des coefficients a
une valeur nulle ou proche de zéro. Il ne sera donc pas nécessaire de les
transmettre. Il en résulte une compression non négligeable sans perte véritablement
conséquente.
Motion-compensated inter-frame prediction:

Cette technique exploite la redondance temporelle en essayant de prédire le "frame"
à être codé à partir d'un "frame" de référence. La prédiction ne peut être basée sur
une image "source" car la prédiction doit pouvoir être répétée dans le décodeur, là où
les images "sources" n'existent pas( L'image décodée n'est pas identique à l'image
source car le procédé de réduction du "bit rate" introduit des petites distorsions dans
l'image décodée). En conséquence, l'encodeur contient lui-même un décodeur qui
reconstruit l'image exactement comme elle sera dans le décodeur, ce qui permet de
faire des prédictions.
La prédiction la plus simple du bloc à encoder est celle qui utilise le bloc le plus près
de l'image de référence. Ceci permet de réaliser une bonne prédiction pour les
régions stationnaires de l'image, mais réussissent moins bien dans les régions où il y
a mouvement. Quand un objet se déplace sur l’écran TV, il apparaît à un endroit
différent, mais il ne change pas beaucoup d’aspect. On introduit donc une méthode
plus sophistiquée, appelée motion-compensated inter-frame prediction, qui consiste à
copier(offset) tout mouvement translationnel qui existe entre le bloc qui est encodé
et le "frame" de référence et à utiliser le bloc ainsi créé comme prédiction. La
différence d’image peut être réduite en mesurant le déplacement au codeur. Ce
déplacement est transmis au décodeur sous la forme d’un vecteur. Le décodeur
utilise ce vecteur pour décaler une partie de l’image précédente vers l’emplacement
approprié dans la nouvelle image. Un vecteur concerne le déplacement d’une zone
entière de l’image appelée «macrobloc». La taille d’un macrobloc est déterminée par
le codage DCT et la structure de sous-échantillonnage couleur.
Les blocs de prédiction sont créés de plusieurs manières différentes. Par exemple, un
bloc pourra être prédit à partir d'une image précédente (forward predicted), d'une
image suivante (backward predicted) ou bi-directionnellement(bidirectionnally
predicted) en faisant une moyenne des prédictions précédentes et suivantes. La
méthode utilisée peut changer d'un bloc à l'autre. Le codage bidirectionnel réduit
considérablement la quantité de données de différence nécessaire à l’amélioration du
degré possible de prédiction. Pour chaque bloc à coder, l'encodeur choisit la meilleure
méthode pour maximiser la qualité de l'image selon les contraintes du "bit rate". La
méthode choisie est ensuite transmise au décodeur pour reconstituer l'image
correctement.
Dans les images caractéristiques de programme, les coefficients les plus significatifs
de la DCT se trouvent généralement dans le coin supérieur gauche de la matrice.
Après pondération, les coefficients de faible valeur seront tronqués à zéro. On
obtiendra une transmission plus efficace si on émet d’abord tous les coefficients non-
nuls et qu’un code indique ensuite que tous les autres sont à zéro. La scrutation
constitue une technique qui augmente la probabilité d’obtenir ce résultat car elle
émet les coefficients dans l’ordre probable d’amplitude décroissante.
La figure ci-dessus montre que, dans un système non entrelacé, la probabilité d’avoir
un coefficient de forte valeur est très élevée dans le coin supérieur gauche et très
faible dans le coin inférieur droit. Une scrutation à 45 degrés constitue, dans ce cas,
la meilleure solution. Dans la figure de droite, on peut voir la scrutation adaptée à
une source entrelacée. Dans une image entrelacée, un bloc de 8x8 pixels d’une trame
couvre deux fois sa surface sur l’écran, ce qui fait que, pour une définition donnée de
l’image, les fréquences verticales paraîtront le double de leurs homologues
horizontales. C’est pourquoi le balayage idéal, pour une source entrelacée, sera
effectué en diagonale à pente doublée. La figure de droite montre qu’une fréquence
spatiale verticale est balayée avant la fréquence spatiale horizontale identique.
Codage de l’entropie:
Dans une image vidéo animée, toutes les fréquences spatiales ne sont pas présentes
simultanément, la matrice de coefficients de la DCT comportera donc des termes
nuls. Malgré la scrutation, des termes nuls apparaîtront encore au milieu des
coefficients non-nuls. Le codage RLC (Run Length Coding) permet de gérer plus
efficacement ces coefficients. Quand une suite de valeurs identiques, comme des
zéros, existe, le codage RLC émet simplement le nombre de zéros plutôt que toute la
suite de bits nuls. On peut étudier la probabilité de répétition de certaines valeurs
particulières de coefficients dans la vidéo réelle. En pratique, certaines valeurs se
rencontrent fréquemment et d’autres moins souvent. Cette information statistique
peut être utilisée pour effectuer ultérieurement une compression à longueur variable
(VLC). Les valeurs les plus fréquentes sont codées en mots de code courts et les
autres en mots plus longs. Pour faciliter la dé-sérialisation on peut utiliser un mot de
code comme préfixe pour les autres.
Un codeur spatial:
La figure suivante regroupe l’ensemble des concepts de codage précédemment
évoqués.
Le signal d’entrée est supposé être à la norme 4:2:2 série en 8 ou 10 bits(SDI). Le

MPEG n’utilise cependant qu’une résolution de 8 bits; aussi, un étage de traitement
sera nécessaire pour arrondir les valeurs si le signal entrant est à 10 bits. Les profils
MPEG effectuent un échantillonnage du type 4:2:0; un étage d’interpolation
verticale/filtre passe-bas sera alors nécessaire. L’arrondi et le sous-échantillonnage
couleur introduisent une légère mais irréversible perte d’informations, mais aussi une
réduction du débit. Le format d’entrée de la scrutation d’écran doit être tel qu’il
puisse être converti en blocs de 8x8 pixels. L’étage DCT transforme l’information
d’image dans le domaine fréquentiel. La DCT n’effectue pas de compression par elle
même. Après la DCT, les coefficients sont tronqués et pondérés, ce qui correspond à
une première compression. Les coefficients sont ensuite scrutés en zigzag pour
accroître la probabilité de commencer par les coefficients les plus significatifs. Après
le dernier coefficient non-nul, un code de fin de bloc (EOB, End of Block) est généré.
Les données afférentes aux coefficients sont ensuite compressées à l’aide de codages
RLC et VLC. Dans les systèmes à débit variable, la quantification est fixe mais, dans
un système à débit constant, une mémoire tampon est utilisée pour absorber les
variations intervenant au cours du codage. À la suite de la transformée inverse, le
bloc de 8x8 pixels est recréé. Pour obtenir un signal de sortie d’écran balayé, les
blocs sont stockés dans une RAM qui est lue ligne par ligne. Pour avoir une sortie
4:2:2 à partir de données 4:2:0, il faudra utiliser une interpolation verticale comme
indiqué sur la figure suivante:
Dans un système 4:2:0, les échantillons de chrominance sont intercalés
verticalement entre les échantillons de luminance de façon à ce qu’ils soient
régulièrement espacés quand un système entrelacé est utilisé.
Images I, P et B(I-Frames, P-Frames, B-Frames):

En MPEG-2, trois différents types d’images sont nécessaires pour effectuer le codage
différentiel et le codage bidirectionnel avec un minimum d’erreurs de propagation:
Les images I(I-Frames):

Sont intra-codées et ne nécessitent pas d’informations supplémentaires pour être
décodées. Elles nécessitent beaucoup de données comparativement aux autres types
d’images et c’est pourquoi elles ne sont transmises que lorsque cela est nécessaire.
Elles consistent essentiellement en coefficients de transformées et n’ont pas de
vecteur de mouvement. Elles autorisent la commutation de voies et bloquent la
propagation des erreurs.
Les images P(P-Frames):
Sont celles qui sont déduites d’une image antérieure qui peut être de type I ou P. Les
données d’une image P sont constituées de vecteurs décrivant où chaque macrobloc
doit être pris dans l’image précédente et des coefficients non transformés décrivant la
correction ou les données de différence à ajouter à ce macrobloc. Les images P
comportent pratiquement la moitié des données d’une image I.
Les images B(B-Frames):

Sont prédites bi-directionnellement à partir d’images antérieures ou postérieures et
de type I ou P. Les données des images de type B consistent en vecteurs décrivant
l’endroit où les données doivent être prises dans les images antérieures ou
postérieures. Elles contiennent également les coefficients de transformées fournissant
la correction. La prédiction bidirectionnelle est si efficace que les données de
correction sont minimes et que l’image de type P utilise pratiquement le quart des
données par rapport à une image de type I.
À partir de ces frames a été introduit le concept de Groupe d’Images(GOP, Group Of
Pictures). Le GOP commence par une image I, suivie de quelques images P espacées
et entre lesquelles se placent les images restantes qui sont de type B. La fin du GOP
se situe à la dernière image précédant immédiatement une nouvelle image I. La
longueur d’un GOP est variable, mais la valeur la plus courante se situe entre 12 et
15. En fait, si les données d’une image B doivent être utilisées pour construire une
image ultérieure, ces données doivent rester disponibles dans le décodeur. Par
conséquent, le codage bidirectionnel implique que les données soient extraites de la
séquence et provisoirement sauvegardées.
La figure ci-dessus montre également que les données de l’image P sont émises
avant celles de l’image B. Notez également que les dernières images B du GOP ne
peuvent être transmises qu’après la première image I du GOP suivant, dans la
mesure où elles ont besoin de son contenu pour être décodées bi-directionnellement.
Afin de replacer convenablement les images dans leur ordre, une référence
temporelle est incluse dans chaque image. Comme des en-têtes sont régulièrement
insérés dans le flux de données, un fichier MPEG-2 peut être affiché dans l’ordre
chronologique sur un ordinateur, par exemple. L’extraction des données d’images
d’une séquence, non seulement nécessite un supplément de mémoire dans le codeur
et le décodeur mais aussi génère du retard. Le nombre d’images bidirectionnelles
insérées entre des images d’autres types doit être réduit pour diminuer le coût des
équipements et limiter le retard si celui-ci doit répondre à des contingences. Un
compromis doit être fait entre le facteur de compression et le retard de codage.
Pour une qualité donnée, l’émission d’images I uniquement double pratiquement le

débit par rapport à une séquence IBBP. Quand les facilités de montage sont
essentielles, une séquence IB constitue un compromis pratique.
Pré-traitement:
Un compresseur essaie d’éliminer la redondance à l’intérieur de l’image et entre les
images. Tout phénomène diminuant la redondance est indésirable. Le bruit et le grain
du film sont particulièrement pénalisants car ils concernent la totalité de l’image.
Après le processus de DCT, le bruit induit la présence de plus de coefficients non-
nuls, coefficients que le codeur ne peut pas distinguer des véritables données de
l’image.
Une quantification plus sévère sera alors nécessaire pour coder tous les coefficients,
réduisant alors la qualité de l’image. Le bruit réduit également la similitude entre des
images successives, accroissant par ce phénomène les données de différence
nécessaires. Tout artefact composite de décodage, visible à l’entrée d’un codeur
MPEG-2, se retrouve naturellement reproduit par le décodeur. Toute pratique
génératrice de mouvement indésirable doit être évitée. L’instabilité d’un support de
caméra pourra créer, en plus de tremblements de l’image, une augmentation des
différences d’images et des nécessités de transmission de vecteurs. Ceci se produit
également sur des signaux provenant d’un télécinéma dont les images tremblent si,
par exemple, les perforations du film sont endommagées.
En général, il est important que la vidéo qui est susceptible d’être compressée soit de
la meilleure qualité possible. Si cette qualité ne peut pas être atteinte, il est
souhaitable d’utiliser une réduction de bruit ou tout autre procédé de stabilisation. Si
un facteur de compression élevé est nécessaire, le niveau d’artefacts peut
augmenter, particulièrement si la qualité du signal est faible. Dans ce cas, il est
souhaitable de réduire l’entropie en effectuant un pré-filtrage avant l’entrée dans le
codeur. Le signal est donc soumis à un filtrage passe-bas (low pass filter)
bidimensionnel qui réduit le nombre de coefficients et diminue le niveau des
artefacts. L’image sera moins fine mais une perte de finesse est préférable à un
niveau élevé d’artefacts.
Dans la plupart des applications en MPEG-2, on utilise l’échantillonnage 4:2:0 qui
nécessite un sous-échantillonnage du chroma si le signal d’origine est en 4:2:2. En
MPEG-1, un sous-échantillonnage supplémentaire est appliqué afin de produire un
signal d’entrée ou SIF (Source Input Format) comprenant seulement 532 pixels.
Cette technique divise encore l’entropie par un facteur supplémentaire. Pour des
facteurs de compression plus élevés, on utilise un signal à 176 pixels appelé QSIF
(Quarter Source Input Format). Le sous-échantillonnage est un processus combinant
un filtre spatial passe-bas et un interpolateur.
En vidéo 50 Hz, deux trames successives représentent la même image de film et il
n’existe pas de mouvement entre elles. Le mouvement alterne donc entre zéro(entre
deux trames) et sa valeur de mouvement(entre deux images). Comme le mouvement
est transmis différentiellement, ceci se traduit par une sérieuse augmentation des
données de vecteurs. En vidéo 60 Hz, un défilement intermittent 3:2 est utilisé pour
obtenir du 60 Hz à partir de film à 24 images par seconde: une image est constituée
de 2 trames, la suivante de 3, et ainsi de suite. Par conséquent, une trame sur 5 est
complètement redondante. Le MPEG gère mieux les images de télécinéma en
supprimant la troisième du système 3:2. Un code spécifique au 24 Hz alerte le
décodeur qui recrée la séquence 3:2 en relisant une mémoire de trame.
Profils et niveaux:
À l’aide des outils de codage définis dans MPEG-2, il existe des milliers de
combinaisons possibles. Dans un but de simplification, le MPEG-2 est divisé en Profils,
chaque profil étant lui-même subdivisé en Niveaux.Un profil constitue à la base la
palette des caractéristiques d’un codage d’une certaine complexité. Un niveau est en
fait un paramètre définissant par exemple la taille de l’image ou le débit du flux de
bits. Il existe en principe 24 combinaisons possibles mais toutes n’ont pas été
définies.
Un décodeur MPEG possédant un profil et un niveau donnés doit pouvoir décoder les
signaux émanant d’un profil et d’un niveau inférieurs. Le Profil Simple(Simple Profile)
ne comporte pas de codage bidirectionnel, c’est pourquoi seules les images de type I
et P pourront être générées par le codeur. Les délais de codage et de décodage sont
ici réduits et le matériel correspondant est plus simple. Le profil simple n’a été
seulement défini qu’au niveau Principal (Simple Profile at Main Level, SP@ML). Le
Profil Principal (Main Profile) est conçu pour une vaste gamme d’utilisations. Le
niveau Bas utilise un signal d’entrée à faible résolution ne possédant que 352 pixels
par ligne. La plupart des applications de diffusion nécessite le Profil principal au
Niveau Principal (Main Profile at Main Level, MP@ML), appellation du MPEG utilisé en
télévision standard.
Le niveau Haut-1440 est un système à haute définition qui double la définition par
rapport au niveau principal. Le niveau Haut double non seulement la définition
horizontale, mais maintient cette résolution pour le format 16:9 en portant à 1920 le
nombre d’échantillons horizontaux. Dans les systèmes de compression utilisant les
transformées spatiales et la re-quantification, il est possible de produire des signaux
adaptables. Un processus d’adaptabilité est celui où le signal d’entrée résulte d’un
signal principal et d’un signal complémentaire. Le signal principal peut être décodé
seul pour donner une image d’une certaine qualité mais, si l’information du signal
complémentaire est ajoutée, un certain aspect de la qualité peut être amélioré. Un
codeur MPEG conventionnel peut, en re-quantifiant fortement les coefficients par
exemple, coder une image avec un rapport signal/bruit modéré. Si cette image est
localement décodée et soustraite pixel par pixel de l’image originale, le résultat
constituera l’image de bruit de quantification. Cette image peut être compressée et
transmise en tant que signal complémentaire.
Un décodeur simple utilisera seulement le flux principal avec son niveau de bruit mais
un décodeur plus élaboré peut décoder les deux flux de bits et produire une image
moins bruitée. Ceci constitue le principe de l’adaptabilité SNR. D’autre part, le codage
des fréquences spatiales les plus basses d’une image HDTV(High Definition
Television) peut produire un flux principal qu’un récepteur ordinaire SDTV(Standard
Definition television) peut décoder. Si l’image à faible définition est décodée
localement et soustraite de l’image originale, une image d’amélioration de la
définition est obtenue. Cette image peut être codée comme signal complémentaire.
Un décodeur adéquat sera capable de restituer l’image haute définition. Ceci
constitue le principe de l’adaptabilité Spatiale. Le profil Haut est compatible avec les
adaptabilités SNR et Spatiale et accepte l’échantillonnage 4:2:2.
Le profil 4:2:2 a été développé dans le sens d’une plus grande compatibilité avec le
matériel de production numérique. Ce profil permet l’exploitation en 4:2:2 sans
exiger la complexité supplémentaire du profil Haut. Un décodeur HP@ML peut
accepter une adaptabilité SNR qui ne constitue pas en soi un impératif de production.
Le niveau 4:2:2 a la même liberté de structure de GOP que les autres profils mais, en
pratique, il est plus souvent utilisé avec des GOPs courts pour faciliter les opérations
de montage. Le 4.2.2 nécessite un flux de bits supérieur au 4.2.0 et l'utilisation de
GOP impose quand même un débit supérieur pour une qualité donnée.

(Codage d’objets audio-visuels)
MPEG-4 est un standard ISO/IEC développé par MPEG (Moving Picture Experts
Group), comité développant aussi les normes MPEG-1 et MPEG-2. C'est notamment
grâce à ces standards que la vidéo sur CD-ROM et la télévision numérique sont
aujourd'hui possibles. L'objectif premier de la norme MPEG-4 était de succéder aux
normes MPEG-1 pour la compression et le transfert audio/vidéo et MPEG-2 pour la
télévision numérique. Mais lors de l'élaboration de la norme, il a été défini un champ
d'applications et de fonctionnalités dépassant largement le cadre d'une simple
évolution, la norme devient alors une véritable révolution tant au niveau même de
son concept qu'au nombre d'applications qu'elle touche. MPEG-4 devient la fusion de
trois mondes: l'informatique, les télécommunications et la télévision. Elle sera le
résultat d'un effort international regroupant des centaines d'ingénieurs et de
chercheurs du monde entier et de divers milieux: universités, centres de recherche,
grands groupes informatiques (IBM, Microsoft, Sun, ...) et de télécommunications
(AT&T, France Telecom, ...) et autres grands groupes industriels (Phillips, Sony, ...).
MPEG-4 a été finalisé en octobre 1998. Cette norme est bâtie sur le succès futur de la
télévision numérique, des applications graphiques interactives et du multimédia
(WWW), son but étant d'assurer une standardisation technologique à tous les
niveaux; production, distribution et diffusion. Voici une vue d'ensemble du standard
MPEG-4, expliquant sur quelles technologies il se base, et quelles applications
supportent cette technologie. Nous ne développerons pas la partie audio de MPEG-4
pour nous concentrer uniquement sur la partie vidéo.
Objectifs de la norme, cahier des charges et fonctionnalités:

Les objectifs de la norme sont assez vastes du fait du nombre important
d'applications touchées. Le cahier des charges n'en est que plus précis et complet:
Il décrit de manière précise tout ce qui touche au codage de la norme suivant une
nouvelle approche orientée objet. Une scène devient alors une composition d'objets
média hiérarchisés, chaque objet étant décomposé en paramètres. Suit l'interactivité
de la norme. Le codage objet simplifiant l'accès aux objets, la manipulation et
l'organisation ainsi que l'intégration harmonieuse d'objets naturels et synthétiques.
Puis l'adaptabilité, qui est un des points forts de la norme qui se veut universelle
(toutes les applications, pour tout le monde).
L'Adaptabilité (scalability) permet la multi-résolution basée sur le contenu, la prise en
compte des échelles spatiales, temporelles, qualitatives, et de complexité.
L'adaptabilité du codage, du décodage, du transfert. Il définit également tout ce qui
concerne les problèmes plus techniques comme la compression, la robustesse aux
erreurs, notamment pour les transferts et les environnements peu fiables, le transfert
(synchronisation des données, audio et vidéo) et la sécurité. Ce cahier des charges
très complet a pour but de satisfaire un grand nombre d'applications qui vont
maintenant être développées.
Les applications:
Le standard MPEG-4 fourni un ensemble de technologies satisfaisant le besoin des
auteurs, des fournisseurs et, finalement, des utilisateurs.
Pour les auteurs, MPEG-4 permettra la production de séquences réutilisables. Il leur
permettra une grande flexibilité, autorisant l'amalgame de la télévision numérique,
des animations graphiques et des pages web. En outre, ils auront la possibilité de
protéger leurs œuvres.
Pour les fournisseurs d'accès Internet, MPEG-4 offrira des informations transparentes,
qu'ils pourront aisément adapter à la demande de l'utilisateur (par exemple:
l'adaptation en fonction de la langue de l'utilisateur), ainsi que le contrôle des
transferts(gestion des pertes de données).
Pour les utilisateurs, MPEG-4 aura de nombreuses possibilités qui pourront être
accessibles à partir d'un simple terminal. Voici un large éventail de toutes les
applications concernées par les apports d’une telle standardisation:
1. La communication temps réel (vidéophone, ...)
2. La surveillance.
3. Le multimédia mobile (mini portable faisant office de téléphone, fax, agenda,
... par liaison GSM ou satellite).
4. Le stockage et la recherche d’informations basés sur le contenu.
5. La lecture de vidéo sur Internet/Intranet sans avoir à télécharger toute la
source.
6. La visualisation de scènes simultanément à plusieurs endroits (téléconférence
...).
7. La transmission (tout types de données : vidéo, audio, ...).
8. La postproduction (cinéma et télé).
9. Le DVD.
10. Les applications de l’animation de visages: réunions virtuelles, ...
11. La hiérarchisation et la gestion des objets audio dans une scène.
Buts de la standardisation:
Pour toutes ces applications, les buts de la standardisation MPEG-4 sont:
• Empêcher la non-portabilité par l'harmonisation des moyens de codage et de
décodage.
• Représenter des "objets médias"(unités sonore, visuelle et audiovisuelle), ces
unités peuvent être enregistrées par un appareil photo, un microphone ou
générées par un ordinateur.
• Décrire la composition des objets formant une scène audiovisuelle.
• Synchroniser les différents objets média pour qu'ils puissent être
transportables.
• Permettre l'interaction entre l'utilisateur et le diffuseur.
Description Technique (essentiellement, l'aspect visuel de la norme.):
Structure générale, description:

La norme MPEG-4 propose une solution radicalement différente pour le codage des
vidéos afin de satisfaire à tous ses besoins dans les différentes applications qu’elle
propose. Les scènes audiovisuelles sont ainsi composées de plusieurs objets médias
hiérarchisés. Ainsi, dans l'arborescence de cette hiérarchie, on trouve:
• Des images fixes (background).
• Des objets vidéo (objets en mouvement sans background).
• Des objets audio (la voix associée à l'objet en mouvement).
MPEG-4 définit donc précisément la manière de décrire une scène. La description
d'une scène codée par MPEG-4 peut être comparée au langage VRML dans sa
structure et ses fonctionnalités.
Description d’une scène:
Une scène audiovisuelle, codée par MPEG-4, est décrite comme un ensemble
d'éléments individualisés. Elle contient des composants "média" simples regroupés
par type. Ces groupes correspondent aux branches d’un arbre de découpage où
chaque feuille représente un élément simple. Par exemple, si cette branche
correspondait à une personne qui parle, elle serait divisée en feuilles contenant le
fond, la parole et les divers composants graphiques représentant la personne en train
de parler. Une telle construction permet ainsi la construction de scènes complexes
tout en autorisant l'utilisateur à ne manipuler qu'une partie des objets. Un objet
média peut donc être associé à une information. MPEG-4 fournit des méthodes de
codage pour les objets individuels.
La norme permet également d’optimiser le codage de plusieurs objets dans une
scène. L’information nécessaire à la composition d’une scène est contenue dans la
description de la scène. Celle-ci est codée et transmise avec les objets média. Ainsi,
pour faciliter l’interactivité, la description de la scène est codée indépendamment des
"Objets média" primitifs. Une grande attention est portée sur l’identification des
paramètres relatifs à la scène. Ces paramètres sont donnés par différents
algorithmes qui codent de façon optimale les objets. MPEG-4 autorise la modification
de ces paramètres sans avoir à décoder les objets média. Pour cela, ils sont placés
dans la partie description de la scène et non avec les objets média. Plus
généralement, MPEG-4 standardise la façon de décrire une scène, en permettant par
exemple:
• de placer un objet n'importe où dans un système de coordonnées.
• d'effectuer des transformations géométriques ou acoustiques sur un objet.
• de grouper des éléments "média" simples pour former un composant "média"
complexe.
• de modifier les attributs d'un objet en transformant ses données.
• de changer, interactivement, la vue et l'écoute d'une scène.
Mais quelles sont exactement les informations données dans la description d’une
scène?
La première information donne la façon de coder un groupement d’objets. Une scène

MPEG-4 suit une structure hiérarchique qui peut être représentée comme un graphe
acyclique. Chaque feuille du graphe représente un objet média. La structure de
l’arborescence n’est pas nécessairement statique; les "feuilles"(avec leurs paramètres
de positionnement) peuvent être changées. On peut aussi envisager d’en supprimer,
d’en remplacer ou même d’en ajouter.
La deuxième information donne le positionnement spatial et temporel des objets.

Dans le modèle MPEG-4, les objets audiovisuels sont à la fois spatiaux et temporels.
Chaque objet média a un système de coordonnées locales. Par ce système il est
possible d’attribuer un "état" spatio-temporel et une échelle à chaque objet. Les
objets média sont disposés dans la scène après avoir subi une transformation du
repère local au repère global, transformation définie par un de ses parents.
La troisième information donne la valeur qui est attribuée à la sélection. Chaque

nœud et feuille de l’arbre contient un panel d’informations. Certaines sont accessibles
et d’autres restent fixes. Il est donc possible de les paramétrer à loisir suivant les
informations données par l’acteur et des contraintes définies par l’auteur.
Enfin, la dernière information autorise une autre transformation pour les objets
média. La structure d’une scène MPEG-4 est fortement influencée par le concept de
VRML et ses possibilités d’interaction. Ceci représente l’ambition majeure de MPEG-4.
Interaction avec les objets "média" dans une scène MPEG-4:
L'utilisateur visualise en général des scènes respectant le dessein de leur auteur.
Mais, suivant la liberté que ce dernier autorise, l'utilisateur a la possibilité d'interagir
avec la scène, ce qui lui permet entre autres:
• de changer le point de vue ou d'écoute d'une scène(par la navigation au
travers de la scène).
• de déplacer un objet dans une scène.
• de cliquer sur un objet pour obtenir des informations complémentaires sur
l'objet ou lui faire effectuer des actions spécifiques.
• de sélectionner une langue parmi celles qui sont proposées.
• d'effectuer beaucoup d'autres actions complexes comme établir une
communication entre deux personnes par un simple clic de souris ....
Codage des objets vidéo (VOP):

Vidéo naturelle, des outils standard:
Les outils servant à représenter les objets visuels naturels avec MPEG-4 doivent
provenir d'une technologie standardisée permettant le stockage, la transmission et la
manipulation de toutes les données de manière simple et efficace. Ces outils doivent
permettre également de décoder et représenter les images ou les vidéos contenues
dans des VO (Vidéo Objects) et de les associer à d'autres AVO (Audio-Video Objects)
pour créer une scène. Pour atteindre ce but et éviter d'avoir une multitude
d'applications non conventionnées qui effectueraient quelques-unes de ces fonctions,
MPEG-4 propose des solutions et des algorithmes, regroupant la plupart des
fonctionnalités demandées par MPEG-4 comme pour:
• La compression des images et des vidéos.
• La compression des textures mapping pour les maillages 2D et 3D.
• La compression des maillages 2D implicites.
• La compression des champs d'animation géométrique des maillages.
• L'accès aléatoire de tous types de VO.
• L'extension des fonctionnalités de manipulation des images et des séquences
vidéo.
• Le codage des vidéos et des images basé sur le contenu.
• Le re-dimensionnement des objets basé sur le contenu.
• Le re-dimensionnement spatial, temporel et qualitatif.
• La robustesse et la résistance aux erreurs quel que soit l'environnement.
Toutes ces solutions seront fournies dans la partie visuelle de la norme MPEG-4.
Structure des outils de représentation des vidéos "naturelles":

Les algorithmes de codage des images et des vidéos MPEG-4 donneront une
représentation rationnelle des objets vidéo, avec pour but de respecter les
fonctionnalités basées sur le contenu. Mais MPEG-4 devra également supporter les
fonctionnalités déjà fournies par MPEG-1 et MPEG-2, soit la compression efficace des
images traditionnelles rectangulaires de différents formats, la fréquence des images,
la profondeur des pixels, le taux de transfert, et les possibilités de re-
dimensionnements spatial, temporel et qualitatif. MPEG-4 veut supporter les
algorithmes permettant un transfert efficace à très faible taux de transmission (VLBV:
Very Low Bit-rate Video, entre 5 et 64kBit/s) avec un taux de compression
satisfaisant, une grande résistance aux erreurs et une faible complexité pour les
applications multimédia temps réel.
Toutes ces applications, prévues pour de faible débit, devront être aussi efficaces à
haut débit de transfert (jusqu'à 4MBit/s). L'idée d'un codage basé sur le contenu
implique que MPEG-4 puisse coder et décoder séparément les différents "objets
vidéo"(VO) d'une scène, afin de permettre une gestion simplifiée de l'interactivité, la
manipulation et la représentation des objets vidéo, ainsi que le mélange entre objets
naturels et objets synthétiques (comme par exemple une scène avec un fond virtuel
et des personnages réels). Mais les algorithmes supplémentaires nécessaires à la
gestion du codage basé sur le contenu ne devront être qu'un ensemble additionnel
d'outils aux VLBV et HBV déjà utilisés dans MPEG-1 et MPEG-2.
Codage des textures et des images fixes:

MPEG-4 utilise les algorithmes basés sur la méthode des ondelettes (wavelet) pour
compresser ce type d'images. En effet, cette compression est très efficace quel que
soit le taux de transfert, tout en conservant ses capacités d'adaptabilité spatiale et
qualitative, ce qui est non négligeable pour résoudre les problèmes d'interactivités
(notamment pour les changement de vue) et de texture des objets 2D et 3D dans les
images virtuelles.
Objets synthétiques:
Les objets synthétiques englobent une importante partie de l'imagerie par ordinateur.
Ces objets sont décrits de façon paramétrique, suivant un modèle que l'on peut
diviser en 4 parties:
• La description synthétique du visage et du corps humain.
• L'animation des champs du visage et du corps.
• Le codage dynamique et statique du maillage avec les textures.
• Le codage des textures suivant les vues.
Animation du visage:
L'animation d'un visage se fait à partir d'un modèle ayant une expression neutre
(FDP: Facial Definition Parameter) contrôlé par une série de paramètres contenus
dans le FAP (Facial Animation Parameter). Pour animer un visage, il suffira donc de
télécharger le modèle, et d'envoyer les paramètres contrôlant le mouvement du
visage qui se traduiront alors sur le visage neutre à l'aide d'un système prévu à cet
effet par MPEG-4 (FIT: Face Interpolation Technique). Ce système possède l'avantage
de n'avoir besoin que d'un visage neutre permettant d'une part d'accélérer la
formation des mouvements et, d'autre part, de pouvoir en créer de nouveau sans
avoir de modèle d'expression prédéfini. La partie du standard relative à l'animation
des visages permet d'envoyer des paramètres de calibrage et d'animation des
visages synthétiques. Ces modèles ne sont pas standardisés par la norme MPEG-4,
seuls les paramètres le sont:
• Définition et codage des paramètres d'animation.
• Positions et orientations des points caractéristiques (points-clefs) pour
l'animation du maillage (modélisation "fil de fer") du visage.
• Configuration des lèvres correspondant aux phonèmes de la parole.
• Positions 3D des points caractéristiques.
• Calibration du maillage 3D pour l'animation.
• Carte des textures du visage.
• Caractéristiques personnelles.
• Codage des textures du visage.
Animation du corps:
La technologie d'animation du corps proviendra directement de celle du visage, afin
de garder l'esprit de standardisation de la norme MPEG-4.
Animation des maillages 2D:

Le maillage 2D est une partition d'un espace 2D par des polygones eux-mêmes
référencés par une liste de nœuds. La norme MPEG-4 utilise uniquement le type de
maillage triangulaire, longtemps utilisé pour la représentation d'objets 3D. Ainsi, la
modélisation par maillage triangulaire peut être considérée comme la projection d'un
maillage 3D sur une image plane. MPEG-4 a voulu utiliser un maillage dynamique
triangulaire pour conserver la facilité de manipulation et les multiples fonctionnalités
qu'offre cette solution pour les objets 3D, comme pour la manipulation d'objet vidéo:
• Améliorer le réalisme des scènes.
• Modifier ou remplacer des objets.
• Rendre plus robuste l'interpolation spatio-temporelle lors de la reconstruction
des images (en cas de pertes d'informations).
Pour la compression:
• le maillage permet d'augmenter le taux de compression avec un faible taux
d'erreur.
Pour le codage des maillages 2D à structure implicite:

• Prédiction basée sur le maillage et transfiguration de texture animée.
• Modélisation 2D de Delaunay ou maillage régulier avec suivi de mouvement
pour les objets animés.
• Prédiction de mouvement et suspension de transmission des textures avec les
maillages dynamiques.
• Compression géométrique pour les vecteurs de déplacement.
• Compression de maillage 2D à reconstruction implicite de la structure et du
décodeur.
Échelonnage en fonction des vues:
En fonction de la façon dont on regarde une scène, toutes les informations ne sont
pas nécessaires. L'échelonnage permet de sélectionner uniquement la partie utile de
l'information, et donc de transférer une masse d'informations considérablement
réduite entre la base de données et l'utilisateur, données qui seront traitées sous
cette forme réduite au codage et au décodage(compression). Cette méthode est de
plus applicable aussi bien avec les ondelettes qu'avec le codeur DCT (Discrete Cosine
transform).
Codage des formes et de la transparence:

Le codage des formes sera supporté dans l'assistance à la description et à la
composition des images et des vidéos conventionnelles aussi bien qu'à celles des
objets vidéo. Les applications bénéficiant des cartes binaires de formes sont surtout
les représentations d'images basées sur le contenu pour les images des bases de
données, des jeux interactifs, la surveillance et l'animation. Des techniques sont
fournies pour permettre un codage efficace des formes binaires. Une carte de
transparence binaire définit si un pixel appartient ou non à un objet.
Le codage des formes en "niveaux de gris" ou en "transparence". Une carte "alpha"
définit la transparence d'un objet, qui n'est pas nécessairement uniforme. Des cartes
de transparence multi-niveaux sont fréquemment utilisées pour superposer les
différents "calques" des séquences d'images. D'autres applications bénéficiant des
cartes binaires de transparence sont les représentations d'images basées sur le
contenu pour les images des bases de données, des jeux interactifs, la surveillance et
l'animation. Des techniques efficaces sont prévues, permettant un codage efficace
aussi bien en niveaux de gris qu'en transparence. Une carte de transparence binaire
définit si un pixel appartient ou non à un objet. Une carte des niveaux de gris définit
la transparence exacte de chaque pixel.
Les outils de MPEG-4:

Le standard visuel de la norme MPEG-4 permettra de coder des images et des vidéos
avec des scènes synthétiques créées par ordinateur. A cette fin, le standard visuel
contiendra aussi bien des outils et des algorithmes supportant le codage d'images
réelles et de vidéos que des outils supportant la compression de paramètres
synthétiques 2D et 3D(maillages, textes, ...). Voici un aperçu des fonctionnalités qui
seront supportées par les différents outils et algorithmes du standard visuel de la
norme MPEG-4.
Fonctionnalités supportées par les outils de MPEG-4:

Fonctionnalités conventionnelles et basées sur le contenu:
La différence entre un codeur VLBV, et un codeur MPEG-4 tient compte de l'aspect
basé sur le contenu. Les deux codeurs présentent de nombreuses similitudes, mais le
codeur basé sur le contenu possède une extension pour la gestion des formes(shape)
et de la transparence. Les avantages des fonctionnalités basées sur le contenu sont:
• Codage des images et de la vidéo basé sur le contenu pour permettre un
décodage et une reconstruction adaptés à chaque type d'objet vidéo.
• Accès aléatoire au contenu des séquences vidéos pour permettre des
fonctionnalités telles que la pause, l'avance et le retour rapides.
• Accroissement des possibilités de manipulation du contenu des séquences
vidéos pour permettre des fonctionnalités telles que les déformations de
textes, textures, images et séquences vidéos synthétiques ou naturelles lors
de la reconstruction du contenu de la vidéo.
Adaptabilité du codage des "objets vidéo":

MPEG-4 code tous les types d'images (images naturelles rectangulaires ou objets à
contours complexes). L'adaptabilité de ce codage vient des préférences qu'on peut lui
donner en fonction des besoins, comme par exemple:
• Réduction de la complexité du décodeur, et donc réduction de la qualité pour
des images dont la qualité n'est pas primordiale.
• Réduction de la résolution pour une utilisation en petite taille de grands
objets.
• Réduction de la résolution temporelle: séquence vidéo lue avec moins
d'images par secondes.
• Réduction de la qualité sans perte de taille ou de cadence.
• Etc ...
Le but du codage MPEG-4 étant de donner à n’importe quel utilisateur les mêmes
possibilités d’utilisation, quelles que soient ses capacités matérielles, la norme est
donc faite de manière à pouvoir s’adapter aux besoins et aux exigences de
l’utilisateur. Ainsi, l’adaptabilité de la norme se fait sur différents champs:
• Adaptabilité de la complexité au niveau de l'encodeur pour permettre aux
encodeurs de complexité plus ou moins élevée de générer un flux de données
valide pour une texture, image ou vidéo donnée.
• Adaptabilité de la complexité au niveau du décodeur pour permettre à un flux
de données représentant une texture, image ou vidéo, d'être décodé par des
décodeurs de niveaux de complexité différents. La qualité de la reconstruction
est, en général, relative à la complexité du décodeur utilisé. Ceci pourrait
entraîner le fait que des décodeurs moins puissants ne puissent décoder
qu'une partie du flux de données.
• Adaptabilité spatiale qui permet aux décodeurs de décoder un sous-ensemble
du flux de données global généré par l'encodeur pour reconstruire et afficher
les textures, images et vidéos, à une résolution spatiale plus faible. Pour les
textures et images fixes, un maximum de 11 niveaux d'échelonnage spatial
sera supporté. Pour les séquences vidéo, un maximum de trois niveaux sera
supporté.
• Adaptabilité temporelle pour permettre aux décodeurs de décoder un sous-
ensemble du flux de données global généré par l'encodeur pour reconstruire
et afficher une séquence vidéo à une résolution temporelle plus faible. Un
maximum de trois niveaux sera supporté.
• Adaptabilité qualitative qui permet de séparer un flux de données en un
certain nombre de couches de façon à ce que la combinaison d'un sous-
ensemble de ces couches puisse être décodée en un signal significatif. Cette
division au sein du flux de données peut s'effectuer aussi bien au cours de la
transmission que dans le décodeur. La qualité de reconstruction est, en
général, relative au nombre de couches utilisées pour le décodage et la
reconstruction.
Cette adaptabilité permettra à tous les utilisateurs du réseau d'avoir accès aux
applications temps-réel quelle que soit la configuration de leur machine (surtout si
celle-ci est limitée).
L’interaction:
MPEG-4 permet à l’utilisateur de ne plus être passif. L’utilisateur gère les
informations qu’il désire. Il y a deux types d’interactions :
• Celle du client.
• Celle du serveur.
Le but est de permettre au client de pouvoir supprimer des informations qu’il ne
désire pas ou bien d’accéder à une surcharge d’information (ex : changement de
langage ...). En outre, l’utilisateur peut modifier les attributs de la scène en
changeant la position des objets, les rendant visibles ou invisibles, en changeant la
police des caractères, la couleur ou encore le volume sonore d’un acteur de la scène
(par exemple un acteur peut être isolé dans une scène, il sera possible d’isoler
également ses dires et de supprimer toute autre source sonore). Du côté du serveur,
son action peut permettre par exemple de changer de publicité au cours d’un match
de hockey automatiquement, il peut accéder aux mêmes données que le client, mais
peut se réserver le droit d’empêcher certaines interactions.
Les droits de propriétés intellectuelles:

MPEG-4 traite le problème des droits de propriétés intellectuelles par insertion dans
les objets d'un code d'identification(IPI) donnant des informations sur le contenu, le
type du contenu et les droits attenant à l'objet en question. Les données contenues
dans l'IPI et associées à chaque objet peuvent différer, même pour des objets
appartenant à une même image (par ex: droits libres sur le fond, mais restreints sur
le personnage). L'insertion de l'IPI au moment du codage implique également
l'insertion des mécanismes de protection équivalent aux droits sur l'image (protection
contre les copies, facturation). Pour réaliser une protection efficace, les mécanismes
utilisés sont très complexes et sont développés sous le titre de "IPMP" ...
Informations contenues dans les objets:

MPEG-4 permettra aussi d'attacher aux objets des informations complémentaires sur
eux et leur contenu. Ces informations (OCI) pourront être envoyées textuellement en
même temps que les objets, et pourront être classifiées suivant des tables
prédéfinies même en dehors de la norme.
Les formats supportés:

• Taux de transfert: entre 5 kbits/s et 4 Mbits/s
• Formats: vidéo progressive et entrelacée
• Résolutions: du format sub-QCIF au format TV
Efficacité de la compression:
• Compression efficace de la vidéo quel que soit le taux de transfert.
• Compression efficace des textures pour le plaquage de textures sur les
maillages 2D et 3D.
Les outils de MPEG-4 version 1:

MPEG-4 fournit un large et riche éventail d'outils pour le codage des objets
audiovisuels. Dans le but de permettre une implantation effective du standard, des
sous-ensembles des outils Système, Vidéo et Audio de MPEG-4 ont été identifiés afin
de n'être utilisés que pour des applications spécifiques. Ces sous-ensembles, appelés
"profils", limitent l'ensemble d'outils qu'un codeur aura à implanter. Pour chacun de
ces profils, un ou deux "niveaux" ont été mis en place pour restreindre la complexité
de calcul.
L'approche est similaire à celle de MPEG-2, alors que la plus connue des
combinaisons Profil/Niveaux est: "Profil principal @ Niveau principal". Une
combinaison "Profil@Niveau" permet à un programmeur de codeur de n'implanter
que les sous-ensembles du standard dont il a besoin, tant qu'il maintient la
compatibilité avec d'autres outils MPEG-4 construit sur la même combinaison. De
tester si ce module MPEG-4 respecte le standard (test de la conformité). Les profils
existent pour différents types de médias (audio, vidéo et graphiques) et pour la
description de scènes. MPEG ne conseille pas de procéder à des combinaisons de ces
profils mais toutes les précautions ont été prises pour que les différents types de
médias se complètent aisément.
Profils visuels:
La partie visuelle du standard fournit des profils pour le codage des contenus visuels
naturels, synthétiques et hybrides naturel/synthétique. Il y a en tout cinq profils pour
le visuel naturel:
• Le profil visuel simple fournit un codeur, efficace et résistant aux erreurs,
d'objets vidéo
• rectangulaires, adapté pour les applications de réseaux mobiles, tels que PCS
et IMT2000.
• Le profil visuel simple adaptable ajoute au précédent un support pour coder
des objets adaptables aux niveaux temporel et spatial. Il est très utile pour les
applications qui fournissent des services sur plus d'un niveau de qualité à
cause du débit ou des possibilités limitées du décodeur, par exemple une
application Internet.
• Le profil visuel 'noyau' ajoute au profil visuel simple un support pour coder des
objets adaptables de formes arbitraires et temporaires. Il est très utile pour
les applications telle que celles qui fournissent une interactivité avec le
contenu relativement simple (applications multimédias sur Internet).
• Le profil visuel principal ajoute au profil précédent un support de codage pour
les sprites entrelacés et semi-transparents. Il est utile pour les applications
ludiques et interactives de grande qualité comme sur DVD par exemple.
• Le profil visuel N-Bit ajoute un support pour coder les objets qui ont des
profondeurs pixelliques de 4 à 12 bits. Il est adapté à l'utilisation en vidéo
surveillance.
Les profils pour les contenus visuels synthétiques et hybrides naturel/synthétique
sont:
• Le profil visuel d'animation faciale simple fournit un moyen simple d'animer un
modèle de visage, adapté aux applications telles qu'une présentation
audio/vidéo pour les malentendants.
• Le profil visuel adaptable dédié aux textures fournit des outils pour coder des
objets images fixes(texturés) aux dimensions adaptables utilisés pour les
applications ayant besoin de multiple niveau d'adaptation, tel que le plaquage
de texture sur un objet dans un jeu ou bien les caméras numériques haute
résolution fixes.
• Le profil visuel basique d'animation 2D fournit une adaptabilité de l'espace, du
SNR et l'animation d'objets fil de fer pour des objets images fixes, ainsi que
l'animation simple d'objets visage.
• Le profil visuel hybride combine les possibilités du profil visuel 'noyau' vu
précédemment et décode également plusieurs objets synthétiques et hybrides,
objets image fixe à face simple et animés inclus.
Profils audio:
Quatre profils audio ont été définis:
• Le profil parole fournit le HVXC qui est un codeur paramétrique de la parole à
très faible débit, un codeur CELP bande étroite/bande large et une interface
Text-To-Speech.
• Le profil synthèse fournit une synthèse par partition utilisant le SAOL et des
tables de sons ainsi qu'une interface Text-To-Speech pour produire des sons
et de la parole à de très faibles débits.
• Le profil adaptable est un super ensemble du profil parole. Il est adapté pour
le codage adaptable de la musique et de la parole pour les réseaux tels que
Internet et le Narrow band Audio Digital Broadcasting (NADIB). Le débit est
compris entre 6 kBits/s et 24 kBits/s avec des bandes larges entre 3.5 et 9
kHz.
• Le profil principal est un super ensemble très riche de tous les autres profils,
contenant des outils pour l'audio naturelle et synthétique.
Profils graphiques:
Les profils graphiques définissent quels éléments graphiques et textuels peuvent être
utilisés dans une scène. Ces profils sont définis dans la partie Système du standard:
• Le profil simple graphique 2D fournit seulement les outils du BIFS (Binary
Format for Scene Description) nécessaires pour placer un ou plusieurs objets
dans une scène.
• Le profil graphique 2D complet fournit toutes les fonctionnalités graphiques 2D
et supporte quelques fonctions comme les graphiques et les textes arbitraires,
qui peuvent être en conjonction avec des objets visuels.
• Le profil graphique complet fournit des éléments graphiques avancés tels que
les extrusions et permet de créer une scène avec des lumières sophistiquées.
Le profil graphique complet permet des applications telles que des mondes
virtuels complexes d'un très haut réalisme.
Les profils de description de scène:

Les profils de description de scène, définis dans la partie système du standard,
permettent de créer des scènes audiovisuelles avec seulement de l'audio, du 2D, du
3D ou du 2D/3D mixés:
• Le profil 3D est appelé VRML car il optimise l'interaction avec le langage VRML.
• Le profil de scène audio prévoit un ensemble d'outils du BIFS (Binary Format
for Scene Description) pour l'audio seulement. Ce profil supporte des
applications de type radio diffusion.
• Le profil de scène 2D simple fournit seulement les outils du BIFS pour placer
un ou plusieurs éléments audiovisuels dans une scène. Ce profil permet de
créer des présentations audiovisuelles mais sans possibilité d'interactions. Il
peut être utilisé pour des applications type télédiffusion.
• Le profil de scène 2D complet fournit tous les outils du BIFS nécessaires à la
réalisation d'une scène 2D. Ce profil est utilisé pour des applications 2D qui
nécessitent une interactivité grande et spécifique.
• Le profil de scène complet fournit le jeu complet d'outils du BIFS. Ce profil sert
à réaliser des applications telles que des mondes 3D virtuels dynamiques et
des jeux.
Les profils de description d'objets:

Ils comprennent les outils suivants:
• Outil descripteur d'objet (OD).
• Outil de synchronisation (SL).
• Outil d'information sur les objets (OCI).
• Outil de propriété intellectuelle et de protection (IPMP).
Actuellement, seul un profil est défini et inclut tous ces outils. La raison principale de
la création de ce profil n'est pas de créer des sous-ensembles d'outils mais plutôt de
leur définir des niveaux. Ceci s'applique spécialement à l'outil de synchronisation des
couches, MPEG-4 utilisant différentes bases de temps. En introduisant des niveaux, il
est alors possible, par exemple, de n'autoriser qu'une seule base de temps.
Problèmes ouverts:
MPEG-4 est une révolution, tant du point de vue de sa structure physique, que de
l'idéologie qui en découle. C'est la base de tout ce qui touchera la communication et
le multimédia dans les années à venir, et quand on voit l'explosion de toutes ces
technologies, on imagine l'importance d'une telle norme. MPEG-4 n'en est qu'à ses
débuts, mais ses applications sont vastes et beaucoup de choses ont déjà été
réalisées. Malgré tout, le travail à effectuer est encore long avant d’obtenir des
résultats convainquant pour tous les compartiments de la norme. En particulier, il
reste deux problèmes majeurs à résoudre pour le codage des vidéos naturelles, à
savoir, l'estimation de mouvement et la segmentation de la vidéo en objets.
De plus en plus d'informations audiovisuelles sont accessibles sous forme numérique,
en tout endroit de part le monde et de plus en plus de gens souhaitent les exploiter.
Mais avant que quiconque ne puisse utiliser de telles informations, il sera nécessaire
de commencer par les localiser. Au même moment, l'augmentation du nombre
d'informations potentiellement intéressantes rend la recherche de plus en plus
difficile.
Des solutions sont dors et déjà proposées pour faciliter la recherche d'information de
type texte. En effet, de nombreux moteur de recherche sont accessibles sur le Web
et font même partie des sites les plus visités, ce qui montre une réelle demande pour
ce type de produit. Il n'est cependant pas pour autant possible de chercher des
informations sur un contenu audiovisuel, puisqu'il n'existe en général pas de
descriptions reconnaissable de ce type d'information. En règle générale, il n'est pas
possible de trouver de façon efficace une image de "la moto de Terminator II" sur le
Web, pour prendre un exemple. Dans certain cas particuliers, des solutions existent
cependant. Des bases de donnée multimédias permettent aujourd'hui de chercher sur
le marché des images à partir de certaines caractéristiques comme la couleur, la
texture ou la forme d'objet dans l'image.
Objectifs de MPEG-7
MPEG a commencé à mettre au point un nouvel outil de travail pour répondre au
problème décrit précédemment. Ce nouveau membre de la famille MPEG, appelé
"Multimédia Content Description Interface"(MPEG-7) étendra les capacités de
recherche limitées d'aujourd'hui pour inclure d'autres types d'informations. En
d'autres termes, MPEG-7 va spécifier une description standard de différents types
d'informations multimédia. Cette description devra être associée au contenu lui-
même pour permettre la recherche rapide et efficace des informations qui intéressent
l'utilisateur.
Ces "matériaux" incluent; images, graphiques, audio, vidéo et de l'information sur
comment ces éléments sont combinés dans une présentation multimédia (scénario).
La description peut être attachée à n'importe quel matériau multimédia, quel que soit
le format de la représentation. Même si la description de MPEG-7 ne dépend pas de la
représentation du matériau, le standard s'appuie en un certain sens sur le standard
MPEG-4 qui fourni quand à lui les moyens de coder des matériaux audiovisuel.
La description standardisée des différents types d'information peut résider en un
certain nombre de niveaux sémantiques. Pour prendre l'exemple d'un matériau
visuel, un niveau d'abstraction bas pourrait être la description de la forme, taille,
texture, couleur et composition. Les plus hauts niveaux donneraient des informations
sémantiques comme; "il s'agit d'une scène avec une voiture rouge à gauche et un
oiseau qui vole (dans le ciel)", codées sous une forme efficace. Des niveaux
intermédiaires pourraient aussi exister.
En plus de la description du contenu, il peut être également nécessaire d'inclure
d'autres informations, comme Le format (par exemple le type de compression
utilisée) ou la taille. Cette information aide à déterminer si le matériau peut être lu
par l'utilisateur. On peut aussi penser aux conditions d'accès aux matériaux, qui
pourrait inclure des informations concernant le copyright et le prix, ou des liens vers
d'autres matériaux intéressant.
Contrairement aux précédentes versions du MPEG, MPEG-7 n'est pas un format de
compression. Ou en tout cas, pas seulement. Destiné au multimédia au sens large du
terme, il vise à encoder toute forme de données audiovisuelles, du texte à la vidéo,
du modèle 3D aux présentations interactives. Mais surtout, le standard propose de
compléter les données par leur description. MPEG-7 c'est, en résumé, "des bits à
propos des bits". Autrement dit, un ensemble de données supplémentaires décrivant
le contenu, son auteur, sa structure, ou même les éléments sémantiques qu'il
représente. Le principe est à la fois ambitieux et novateur et on imagine bien la
puissance d'un tel standard, notamment en matière de recherche sur le Web. C'est
d'ailleurs ce qui semble motiver ses concepteurs: "La principale ambition de MPEG-7
est de rendre les informations multimédias aussi faciles à trouver sur le Web que le
texte l'est aujourd'hui." Par exemple, on pourrait imaginer un moteur qui parcourt le
Web à la recherche d'une phrase musicale précise: tapez quelques notes de musique
au clavier, et vous obtiendrez tous les morceaux comportant les mêmes notes. Même
chose avec les images, il sera possible d'identifier les fichiers comprenant un objet
d'une couleur donnée, même s'il ne s'agit que d'une partie de l'image. Du reste,
l'intérêt n'est pas négligeable en matière d'intégrité des données, et donc de respect
des droits d'auteur. Mais, bien qu'intellectuellement plaisant, MPEG-7 soulève
quelques interrogations.
D'abord, le poids final des fichiers encodés avec ce format, dont on peut supposer
qu'il sera, par essence, plus important que celui de la description des données en
elle-même. Ensuite la base existante, si l'on considère les milliards d'informations
numériques (fichiers image, audio et vidéo) déjà encodées à d'autres formats, on
peut s'inquiéter de la vitesse à laquelle se répandrait un nouveau standard, encore en
cours de conception aujourd'hui.
Enfin, et surtout, on peut se poser la question de l'utilité réelle d'une telle solution. La
recherche d'une succession de notes dans l'océan de la musique mondiale peut
s'avérer intéressante, mais sûrement pas pour le commun des mortels, qui se
satisfait très bien d'une recherche plus classique par auteur ou par titre. En plus, il
existe d'autres solutions pour indexer, au besoin, des données multimédias. Qui ne
se souvient pas de l'affaire Clinton/Lewinsky. Peu après l'audition du Président, les
enregistrements vidéo des témoignages étaient disponibles sur AltaVista. Tronçonnés
en courtes séquences, ils étaient indexés à la fois automatiquement (à l'aide d'un
outil spécifique) et manuellement. Le résultat était probant; la saisie d'un texte
permettait d'identifier rapidement tous les extraits vidéo dans lesquels la phrase
correspondante avait été prononcée (souvent, curieusement, le dispositif était utilisé
pour trouver le mot "cigare").
Il n'est donc pas certain qu'il soit légitime de chercher à imposer(et généraliser) un
standard surpuissant, là où d'autres solutions "sur mesure" peuvent suffire. Décrire
les données tout en les compressant est pourtant une tentative logique d'organisation
et de structuration du contenu numérique. Mais il est bien dommage que l'on s'en
préoccupe si tard. Car finalement, le vrai problème de MPEG-7, c'est sans doute le
"7".
Présentation du standard MPEG-7
Les données multimédia sont dispersées dans de nombreuses bases de données.
Dans ce contexte, MPEG-7 se propose de standardiser la représentation de leur
contenu pour la recherche et le filtrage d'information. Beaucoup d'applications
peuvent bénéficier de MPEG-7, telles que la recherche dans les bases de données
audiovisuelles (pour le médical, l'éducatif, les loisirs, la surveillance, &Idots;), ou la
sélection de programmes diffusés.
Qu'est ce que la norme MPEG-7?

- Un standard de description:
Le format MPEG-7 est complètement indépendant de la technique de codage ou de
stockage du contenu du document multimédia. On peut établir une description MPEG-
7 d'un fichier MPEG-2 ou MPEG-4 bien sûr, mais on peut faire de même avec un film
analogique ou un journal papier. Il s'agit uniquement d'un standard de représentation
du contenu des documents. L'utilisation principale de MPEG-7 concernera
évidemment les documents multimédia (contenant à la fois vidéo et audio). Les
informations qui apparaîtront dans un document MPEG-7 seront de 5 natures
différentes, résumées dans le tableau suivant:
Ensemble des
Fonctionnalité
éléments
Création et Des méta-informations qui décrivent la création et la production du
production contenu, elles décrivent le titre, le créateur, le but de la création.
Des méta-informations reliées à l'utilisation du contenu: Elles
comportent les droits d'accès, des informations financières, des droits
Utilisation
de publication. Ces informations peuvent faire l'objet de changement
durant la durée de vie du contenu audio-visuel.
Ces informations décrivent les caractéristiques de stockage: Format,
Média
éléments pour identifier le média&Idots;
Des descriptions d'un point de vue contenu: Ces informations
décrivent les segments qui peuvent représenter des composantes
Aspects spatiales, temporelles ou spatio-temporelles du contenu audio-visuel.
structurels Chaque segment peut être décrit par les caractéristiques suivantes(la
couleur, la texture, la forme, la motion, d'autres caractéristiques
audio&Idots;) et quelques informations sémantiques élémentaires.
Des descriptions du contenu audio-visuel d'un point de vue
Aspect conceptuel. Ces informations ne sont pas indiquées dans les
Conceptuels documents techniques du standard MPEG, car elles sont en cours de
standardisation.
- Les Limites:
Le standard MPEG-7 ne concerne absolument pas les aspects production et utilisation
des descriptions. C'est d'ailleurs dans cette optique que l'exemple suivant à été créé,
il s'agit de produire et utiliser une description MPEG-7 sommaire(à partir d'un ou
deux descripteurs).
Principe de description MPEG-7

- La philosophie:
Toute description MPEG-7, étant basée sur le langage XML, est constituée d'objets
imbriqués. Cette imbrication se fait selon un certain schéma descripteur, lui-même
établi à partir d'un langage de définition de descriptions comprenant les éléments
suivants;
Les descripteurs (D):
Ce sont des présentations de caractéristiques des éléments. Ils définissent la syntaxe
et les sémantiques de chaque représentation de ces caractéristiques.
Les schémas descripteurs (SD):
Ils spécifient la structure et les sémantiques des relations entre leurs composantes,
qui peuvent être soit des descripteurs soit des schémas descripteurs.
Un langage de définition des descriptions (LDD):
Il permet la création de nouveaux descripteurs ou schémas descripteurs. Il permet
également d'étendre et de modifier les descripteurs et les schémas descripteurs
existants. Les outils et les systèmes qui permettent de générer les descripteurs et les
schémas descripteurs du standard MPEG-7, qui permettent de les gérer, les
manipuler&Idots;
Valeur d'un descripteur:
Instance d'un descripteur pour un ensemble de données Rq, les valeurs sont
combinées avec les schémas de descriptions pour former une description.
Description:
Consiste en un SD et en un ensemble de valeurs de descripteurs décrivant la donnée.
- Hiérarchie:
Les objets imbriqués formant une description MPEG-7 peuvent aussi bien être des
descripteurs que des schémas descripteur(eux-mêmes à l'origine d'autres
descripteurs). Le diagramme suivant traduit cette hiérarchie tout en nous rappelant
que le langage de définition des description permet une totale extensibilité du
standard.
De MPEG-1 à MPEG-21
Création d'une infrastructure Multimédia Inter-opérable

Le débat au sujet du MPEG-4 se continue, ses spécifications sont disponibles depuis
quelques temps déjà et le Internet Streaming Media Alliance (ISMA) à publié ses
spécification sur le "streaming" Internet en se basant sur le MPEG-4. MPEG-4 est le
premier standard de contenu multimédia ouvert et compréhensible qui supporte
plusieurs industries du multimédia, comme MPEG-2 supporte l'industrie du DVD et de
la télévision. Le standard basé objet qu'est MPEG-4 est à la fois à fine pointe de la
technologie et prêt pour le futur; il pourras aisément incorporer les améliorations
technologiques si et quand elles se matérialises. En fait, une équipe conjointe du
MPEG/ ITU-T est à incorporer un nouveau codec vidéo d'ici peu, demeurant ainsi à la
fine pointe de la technologie du codec vidéo. Cette partie sera également un standard
du International Telecommunication Union (ITU-T).
Le but demeure l'interopérabilité:
Pendant ce temps, le Moving Picture Experts Group n'est pas resté assis sur ses
lauriers. Il a récemment finalisé la première version du standard international MPEG-
7 pour la description du contenu, qui sera publié par ISO sous peu. MPEG-7
complémentera MPEG-4 et ne tentera pas de le supplanter. MPEG-4 défini comment
représenter un contenu; MPEG-7 spécifie comment le décrire. Et à l'horizon pointe un
autre standard ISO/MPEG, MPEG-21, qui visera à apporter un cadre multimédia
réellement inter-opérable. L'essentiel de tous les efforts du MPEG est
l'interopérabilité, inter-opérabilité pour le consommateur. De façon à s'assurer que
celui-ci sera capable d'utiliser le contenu et ne pas avoir à s'en faire avec la
compatibilité des formats, codecs, metadata, etc...
MPEG-1 et MPEG-2 proposent des manières inter-opérables de représenter un
contenu audio-visuel, communément utilisés avec les médias digitaux et en diffusion.
MPEG-4 étends ceci à beaucoup plus d'applications à travers des fonctions comme un
champ étendu du taux de transfert, son adaptabilité, sa résistance aux erreurs, son
intégration homogène de différents types d'objets dans la même scène, son interface
de gestion des systèmes de droits digitaux et ses puissantes possibilités d'intégration
de l'interactivité à l'intérieur du contenu. MPEG-7 défini un cadre d'inter-opérabilité
bien au-dessus du "metadata" traditionnel. MPEG-7 possède des éléments descriptifs
qui vont des caractéristiques de base comme les caractéristiques des couleurs, des
formes et des sons, jusqu'aux structures d'information de contenu de haut niveau. Il
est aussi unique pour ses outils pour structurer l'information de contenu. MPEG-7 et
MPEG4 forment un excellent couple, spécialement lorsque sont utilisés les objets de
MPEG-4. Avec MPEG-7 il est désormais possible d'échanger de l'information au sujet
de contenus multimédias d'une manière inter-opérable, rendant plus aisée la
recherche de contenu et l'identification de seulement ce que vous voulez utiliser.
L'information contenu dans MPEG-7 sera ajouté aux signaux "broadcast"; les VCR et
les engins de recherches pourrons l'utiliser, et il facilitera grandement l'administration
des contenus multimédias dans ce qui est souvent un large "entreposage". Les
archives audio-visuelles seront accessible beaucoup plus aisément grâce à MPEG-7.
Faire face aux problèmes:
Dès le début, MPEG à compris que plus d'inter-opérabilité dans les DRM(Digital rights
managements) est crucial à une infrastructure multimédia ouverte. Il y a quelques
années, MPEG à pensé intégrer, profondément l'intérieur des systèmes de MPEG-4,
une série de "plug-ins", appelés "Interfaces to proprietary Intellectual Property
Management and Protection (IPMP)". Ceux-ci permettent, lorsque l'on veut jouer un
contenu particulier, d'utiliser le "plug-in" IPMP approprié. Où l'obtenir pourra être
signalé à l'intérieur du flux de données.
Mais ce n'est pas toujours assez, un lecteur de musique portable ne peut pas
télécharger le bon système IPMP, donc perte d'inter-opérabilité. Le problème réside
dans la standardisation des permissions. Chaque propriétaire de contenu doit, par
exemple, pouvoir faire confiance à tous les utilisateurs du contenu. Ce genre de
confiance est très difficile à standardiser, MPEG continu de travailler à standardiser le
tout.
6 Milliards de producteurs de contenu:

Ceci nous amène au cadre multimédia MPEG-21. Pour arriver à une réelle inter-
opérabilité, on aura besoin de plus que l’architecture IPMP dont nous parlions plus
haut. Selon son rapport technique, le but de MPEG-21 est de décrire une image
générale de comment les différents éléments servant à construire une infrastructure
destiné à transmettre et "consommer" les contenus multimédia (existants et en
développement) sont en relation l’un avec l’autre. En présentant cette vision et en
commençant à y travailler, MPEG-21 à amené beaucoup de sang neuf au MPEG,
incluant des représentants de l’industrie du film, les géants de la musique et les
fournisseurs en technologie.
Le monde du MPEG-21 consiste en des utilisateurs qui interagissent avec des items
numérique (Digital Items). Un item numérique peut être n’importe quoi, d’une partie
de contenu élémentaire (une simple photo, une piste audio) jusqu’à une collection
complète d’oeuvres audio-visuelles. Un utilisateur peut être qui que ce soit qui utilise
un item numérique, du producteur au vendeur au consommateur. Avec MPEG-21,
tous les utilisateurs sont égaux en ce sens qu’ils ont tous leurs droits et intérêts dans
les items numériques, et qu’ils ont tous le besoins d’être capable de les exprimer. La
force motrice derrière MPEG-21 est la notion que la révolution numérique donne à
chacun des consommateurs la chance de jouer un nouveau rôle dans la "chaîne
alimentaire" du multimédia. Il y a donc potentiellement 6 milliards d’utilisateurs du
MPEG-21.
MPEG-21 cherche à utiliser les standards existants lorsque c’est possible, en faciliter
leur intégration et remplir les vides. MPEG est présentement à préparer une série de
"parties" du standard MPEG-21. En contant le rapport technique comme la partie #1,
la seconde partie sera la "Digital Item Declaration", un schéma concis et puissant,
basé sur le XML, pour démontrer les items numériques. Un peu plus ambitieux est la
troisième partie de MPEG-21, la "Digital Item Identification and Description". Celle-ci
réglera le problème d’identification unique des contenu numérique, d’une manière
globale, et de donner un mécanisme de résolution en même temps que l’identification
unique. Imaginez que vous avez trouvé une pièce de contenu (trouvé sur le web,
reçu d’un ami, trouvé sur un CD, etc...) et que vous voulez le "consommer". Le
contenu est protégé, mais une "digital item identification" vous indiquera où trouver
l’information sur ses droits. L’information sur les droits est codée en utilisant les deux
parties suivantes du MPEG-21, le "the Rights Expression Language, REL (part 5)" et
le "Rights Data Dictionary, RDD (part 6)". Ces deux parties ensemble permettent
l’expression des droits dans une forme interchangeable, en utilisant une syntaxe
standardisée (REL) et des termes standardisés (RDD). Ces standards devraient être
prêt au début de 2003. Il est probable que le "Right expression language" sera basé
sur le XML, mais il tout aussi probable qu’il possède également une représentation
binaire compacte, qui pourra être utilisé avec les contraintes de bande passante, en
condition de traitement en temps réel. Entre les parties 3 et 5, vues plus haut, le
travail sur un IPMP plus inter-opérable à l’intérieur de MPEG-4 à été récemment
inclus dans MPEG-21 comme la partie #4, parce qu’il s’applique tout aussi bien à
MPEG-7, MPEG-2 et MPEG-1.
Un contenu qui s’adapte à l’environnement:

Le 7ème élément du cadre d’application sera une description unifiée de
l’environnement dans lequel le contenu sera utilisé. Ceci couvre les conditions
d’accès, de terminaux et de réseaux. Le but étant d’arriver à un accès multimédia
universel (Universal Multimedia Access), ou le contenu s’adaptera de lui-même, d’une
manière transparente et dynamique, aux circonstances. MPEG-21 est développé en
utilisant une approche par vagues, les différentes parties se suivant l’une l’autres
dans le temps. Les travaux futurs sur le MPEG-21 devrait vraisemblablement inclure:
"Content Representation"(comment les ressources médias sont représentés au delà
des standards MPEG éxistants), "Content Handling and Usage"(Interfaces pour gérer
le contenu), et "Event reporting"(rapport d’évènements).
Tous les utilisateurs bénéficieront:

MPEG-4 prouve sa viabilité dans le marché comme un standard multimédia ouvert.
L’"écosystème" prends vie: serveurs, joueurs, "hardware" et "software", systèmes de
test, noyau IP et outils d’auteurs sont mis en oeuvre. Ceci représentera un pas de
géant vers une plus grande inter-opérabilité dans le monde du multimédia. MPEG-7
aidera à gérer l’abondance sans cesse grandissante de contenu et MPEG-21 rendra
l’interaction protégée avec le contenu de plus en plus transparent, égalisant ainsi les
chances pour tous les participants dans la "chaîne alimentaire" multimédia. Les
différents utilisateurs ne peuvent qu’en retirer les bénéfices.
Le Flux Elémentaire (Elementary Stream):

Première couche syntaxique du MPEG, l'ES (Elementary Stream) est le signal brut en
sortie de compression. Dans la réalité, on ne travaille jamais directement avec ce
type de signal. Il reste caché au coeur des codeurs.
Un flux élémentaire ne contient rien de plus que ce qui est nécessaire au décodeur
pour s'approcher au mieux de l'image. En MPEG, la syntaxe du signal compressé est
strictement définie de façon à s'assurer que les décodeurs puissent l'interpréter. Le
codeur n'a pas d'autre définition que l'obligation d'émettre selon la syntaxe
convenable. L'avantage de ce concept est qu'il s'approche du monde réel dans lequel
il y a vraisemblablement plus de décodeurs que de codeurs. En standardisant le
décodeur, on peut diminuer sensiblement le coût de sa fabrication. Inversement, le
codeur peut être bien plus compliqué et plus onéreux et il peut procurer une forte
amélioration de l'image sans être pénalisé par un coût excessif. Quand le codeur et le
décodeur présentent des degrés de complexité différents, le système est dit
"asymétrique".
L'approche MPEG donne également la possibilité d'améliorer la qualité de l'image en
redéfinissant les algorithmes tout en conservant des flux de bits susceptibles d'être
interprétés par des décodeurs de fabrication plus ancienne. Cette approche permet
également d'utiliser des algorithmes privés de codage qui n'ont pas à entrer dans le
domaine public.
Flux élémentaire vidéo:

L'illustration ci-dessous montre la structure du flux élémentaire vidéo. L'unité
fondamentale de l'information d'image est le bloc DCT qui représente un réseau de 8
x 8 pixels pouvant être Y, Cr ou Cb. La composante continue est d'abord émise avec
une précision supérieure à celle des autres coefficients. Viennent ensuite les autres
coefficients et le code de fin de bloc (EOB, end of bloc). Les blocs sont groupés en
macroblocs qui constituent l'unité fondamentale d'une image et qui peuvent faire
l'objet de la compensation de mouvement. Chaque macrobloc comporte, dans son
en-tête, un vecteur de mouvement bi-dimensionnel.
Dans les images B, les vecteurs peuvent être vers l'avant ou l'arrière. La
compensation de mouvement peut être basée sur l'image ou la trame et cela est
indiqué, ainsi que l'échelle utilisée pour la re-quantification des coefficients. Le
décodeur se sert des vecteurs pour prendre les informations des images précédente
et suivante pour bâtir une image prédite. Les blocs subissent la transformée inverse
pour produire l'image de correction qui est ajoutée à l'image prédite afin d'obtenir le
signal de sortie du décodeur.
En codage 4:2:0, chaque macrobloc comporte quatre blocs Y et deux blocs de
différence de couleurs. Pour rendre possible l'identification de leur contenu(Y, Cr ou
Cb), les blocs sont émis dans un ordre particulier. Les macroblocs sont assemblés en
tranches représentant toujours des bandes horizontales balayant l'image de la
gauche vers la droite. En MPEG, les tranches peuvent commencer n'importe où et
être d'une taille quelconque. En ATSC, elles doivent commencer du côté gauche de
l'image.
Plusieurs tranches peuvent se placer sur la largeur de l'écran. La tranche est l'unité
fondamentale de synchronisation pour les longueurs variables et le codage
différentiel. Les premiers vecteurs d'une tranche sont émis intégralement tandis que
les autres sont transmis en mode différentiel. Dans les images I, les premiers
coefficients de composante continue de la tranche sont transmis intégralement et les
coefficients de composante continue suivants le sont différentiellement. Dans les
images de différence, cette technique ne se justifie pas. Si une erreur de bits se
produit dans un flux élémentaire, cela créera soit une rupture dans la dé-sérialisation
des symboles à longueur variable, soit une erreur des coefficients ou des vecteurs
émis ultérieurement en mode différentiel. La structure en tranches permet de
retrouver rapidement le bon décodage en fournissant un point de re-synchronisation
dans le flux de bits. Plusieurs tranches sont groupées pour constituer une image qui
est la part active d'une trame.
L'entête de l'image précise si le codage de l'image est de type I, P ou B et comporte
une référence temporelle de façon que l'image soit présentée à la bonne place. Dans
le cas de panoramiques ou de travellings verticaux, les vecteurs seront identiques
dans tous les macroblocs. Un vecteur global peut alors être émis pour l'ensemble de
l'image et les vecteurs individuels deviennent des différences de cette valeur globale.
Les images peuvent être combinées pour constituer un groupe d'images (GOP, Group
Of Pictures) qui commencera par une image I.
Le GOP est l'unité fondamentale d'un codage temporel. En standard MPEG,
l'utilisation de GOPs est optionnelle mais elle est pratiquement nécessaire. Entre les
images I peuvent être placées diverses images de type P et B. Un GOP peut être
ouvert ou fermé. Dans un GOP fermé, la dernière image B n'a pas besoin de l'image I
du groupe suivant pour être décodée et le flux de bits peut être coupé à la fin de ce
GOP. Si on utilise des GOPs, plusieurs GOPs peuvent être combinés pour produire une
séquence vidéo.
La séquence commence par un code de début de séquence, suivi par un en-tête et se
termine par un code de fin de séquence. Des en-têtes supplémentaires peuvent être
placés au cours de la séquence. Cette disposition permet de commencer un décodage
n'importe où dans la séquence comme cela peut se produire dans la lecture de
disques vidéo numériques ou de cassettes. L'en-tête de séquence définit les tailles
horizontale et verticale de l'image, le rapport d'image, le format de sous-
échantillonage de chroma, la fréquence d'image, le type de balayage (progressif ou
entrelacé), le profil, le niveau et le débit de bits ainsi que les matrices de
quantification utilisées dans les images intra-codées et inter-codées. Sans la donnée
d'en-tête de séquence, un décodeur ne peut interpréter le flux de bits et c'est
pourquoi les en-têtes de séquence deviennent des points d'entrée où les décodeurs
peuvent démarrer correctement leur opération. L'espacement entre les points
d'entrée influence directement le temps que met le décodeur à opérer
convenablement après une commutation d'un canal à l'autre.
Flux élémentaires audio:

Plusieurs sortes d'audio peuvent être insérées dans un multiplex MPEG-2. Ces
catégories comprennent l'audio codée selon les normes des couches 1, 2 ou 3 du
MPEG ou l'ATSC. Le type de codage doit être inclus dans un indicateur que le
décodeur lira de façon à faire appel au type de décodage approprié.
Le processus de compression audio est sensiblement différent de celui de la vidéo. Il
ne comporte rien d'équivalent aux différents types d'image I, P ou B et les trames
audio contiennent toujours la même quantité de données audio. Il n'y a également
pas d'équivalence au codage bi-directionnel et les trames audio ne sont pas
transmises autrement qu'en séquence naturelle.
En MPEG-2 audio, l'indicateur de l'en-tête de séquence contient le numéro de la
couche utilisée pour la compression audio et le type de compression employé (stéréo
par exemple), ainsi que la fréquence d'échantillonnage initiale. La séquence audio est
organisée en unités d'accès (AU, Access Units) qui constitueront les trames audio
codées. Si le codage AC-3 est utilisé, cette disposition est répétée dans l'en-tête de
séquence. L'unité d'accès audio est une trame synchronisée en AC-3. La trame AC-3
représente une excursion de temps équivalente à 1536 échantillons audio, ce qui fait
32 ms pour un échantillonnage à 48 KHz et 48 ms en 32 KHz.
Le Packet Elementary Stream:

Pour des raisons de commodité, les flux élémentaires continus transportant de l'audio
ou de la vidéo en provenance de compresseurs doivent être divisés en paquets. Ces
paquets sont identifiés par des en-têtes contenant des marqueurs temporels pour la
synchronisation. A partir des PES, on peut créer des Flux de Programme et des Flux
de Transport.
Paquets PES:
Dans le flux élémentaire en paquets (PES), un flux élémentaire continu est divisé en
paquets d'une taille adaptée à l'application. La taille peut atteindre plusieurs
centaines de kilo-octets et varie en fonction de l'application. Chaque paquet est
précédé par un en-tête PES. Le paquet commence par un préfixe de 24 bits (préfixe
de départ) et un identificateur de flux caractérisant le contenu du paquet(audio ou
vidéo), et si nécessaire, le type de codage audio.
Ces deux paramètres (préfixe de départ et identificateur de flux) constituent le code
de départ identifiant le code de début du paquet. Il est important de ne pas
confondre le paquet d'un PES et le paquet plus petit utilisé dans les flux de transport,
ces deux éléments portant malheureusement le même nom. Comme le MPEG ne
définit que le flux de transport, et non le codeur, un concepteur peut décider de
fabriquer un multiplexeur convertissant les flux élémentaires en flux de transport en
une seule étape. Dans ce cas, les paquets PES ne peuvent exister sous une forme
identifiable, mais ils font logiquement partie intégrante de la charge du flux de
transport. C'est d'ailleurs majoritairement le cas.
Marqueurs temporels:
Après la compression, les images sont extraites de la séquence à cause du codage bi-
directionnel. Elles nécessitent une quantité variable de données et sont sujettes à un
retard variable en raison du multiplexage et de la transmission. Des marqueurs
temporels sont périodiquement incorporés dans chaque image afin de verrouiller la
synchronisation entre l'audio et la vidéo.
Un marqueur temporel est un nombre de 33 bits constitué par la valeur d'un
compteur piloté par une horloge à 90 KHz. Cette horloge est le résultat de la division
par 300 de l'horloge de programme à 27 MHz. Comme les temps sont régulièrement
espacés à la présentation, il n'est pas indispensable d'inclure un marqueur temporel à
chaque unité de présentation en sortie. Les marqueurs de temps peuvent, au lieu de
cela, être interpolés par le décodeur mais ils ne doivent jamais être séparés de plus
de 700 ms, que ce soit dans le flux de programme ou le flux de transport.
Les marqueurs de temps indiquent à quelle référence temporelle une unité d'accès
particulière appartient. La synchronisation des mouvements de lèvres est obtenue en
incorporant des marqueurs de temps simultanément dans les paquets PES vidéo et
audio.
Quand un décodeur reçoit un paquet PES sélectionné, il décode chaque unité d'accès
et la sauvegarde dans une mémoire tampon en RAM. Quand la valeur du code
temporel de ligne atteint celle du marqueur temporel, la RAM est lue. Cette opération
a deux résultats attendus. Primo, une correction de base de temps est effectivement
réalisée dans chaque flux élémentaire. Secundo, les flux élémentaires vidéo et audio
peuvent être synchronisés pour constituer un programme.
PTS/DTS:
Quand on utilise un code bidirectionnel, une image doit avoir été décodée quelque
temps avant d'être présentée de façon à pouvoir être utilisée comme source de
données pour une image B. Bien que, par exemple, l'on puisse présenter les images
dans l'ordre IBBP, elles seront transmises dans l'ordre IPBB. Il existera donc deux
types de marqueurs temporels.
Le marqueur temporel de décodage (DTS, Decode Time Stamp) indique quand une
image doit être décodée, tandis que le marqueur temporel de présentation (PTS,
Presentation Time Stamp) indique quand l'image doit être présentée à la sortie du
décodeur. Les images B sont décodées et présentées simultanément, c'est pourquoi
ils ne comportent qu'un PTS. Quand une séquence IPBB est reçue, les images I et P
doivent être décodées avant la première image B. Pendant que l'image P est en cours
de décodage, l'image I est présentée en sortie de façon à pouvoir être suivie des
images B.
La figure précédente démontre que, quand une unité d'accès contenant une image I
est reçue, les deux marqueurs DTS et PTS doivent exister dans l'en-tête et qu'ils
doivent être séparés d'au moins une période d'images. Si le codage bidirectionnel est
utilisé, une image P doit venir ensuite et cette image est également dotée d'un PTS et
d'un DTS, mais la séparation entre les deux marqueurs doit être de trois périodes
d'images pour permettre l'intervention des images B. Ainsi, si une séquence IPBB est
reçue, l'image I est retardée d'une image, l'image P de trois images et les deux
images B n'ont aucun retard. La présentation devient alors IBBP.
En clair, si la structure de GOP est changée de façon à ce qu'il y ait plus d'images B
insérées entre les images I et P, la différence entre le DTS et le PTS des images P
sera augmentée. Les indicateurs PTS/DTS de l'en-tête du paquet sont placés de façon
à indiquer la présence d'un PTS seul ou des deux marqueurs PTS et DTS. Les paquets
audio peuvent contenir plusieurs unités d'accès et l'en-tête de paquet contient un
PTS. Comme les paquets audio ne sont pas transmis autrement qu'en séquence
naturelle, il n'y a pas de DTS dans un paquet audio.
Le Flux de Programme et le Flux de Transport:

Les flux de programme et de transport constituent deux façons d'assembler plusieurs
flux de paquets PES.
Enregistrement contre transmission:
Pour une qualité d'image donnée, le débit de données variera selon le contenu de
l'image. Un canal à débit variable donnera donc un meilleur résultat. Dans le domaine
des transmissions, la plupart des canaux sont fixes et le débit global de bits est
maintenu constant par l'addition d'un bourrage (données sans signification).
Dans le cas du DVD, l'utilisation de ce bourrage constitue un gaspillage d'espace de
stockage. Cependant, on peut accélérer ou ralentir la vitesse d'un moyen de stockage
soit physiquement soit, dans le cas d'une unité de disque, en changeant les
demandes de transfert de données. Cette approche permet d'avoir un canal à débit
variable sans perte de capacité. Quand un support est relu, on peut ajuster la vitesse
de façon à conserver le tampon à moitié plein quel que soit le débit dynamique qui
peut être dynamiquement ajusté.
Si le décodeur lit dans le tampon à une vitesse croissante, cela a tendance à le vider
et le système de l'unité de disque augmentera simplement le débit d'accès pour
rétablir l'équilibre. Cette technique ne peut s'utiliser que si l'audio et la vidéo ont été
codés à partir de la même horloge, sinon elles se décaleront dans le temps au cours
de l'enregistrement. Pour répondre à ces impératifs conflictuels, les Flux de Transport
et les Flux de Programme ont été imaginés comme deux possibilités.
Un flux de programme est bien adapté à un unique programme à débit variable dans
un contexte d'enregistrement (DVD); un flux de transport conviendra mieux à la
transmission de programmes multiples à débit constant (Bouquet satellite et câble).
Dans le cas de la transmission, le décodeur doit recréer la base de temps sous peine
de devoir supporter un défaut ou un excès de charge. C'est pourquoi un flux de
transport utilise comme référence une Horloge de Programme (PCR, Program Clock
Reference) tandis que flux de programme n'a pas besoin d'horloge de programme.
Introduction aux flux de programme:

Un flux de programme est un multiplex de paquets PES qui véhicule plusieurs flux
élémentaires préalablement codés à partir de la même horloge-mère ou de la même
référence. Le flux peut être constitué d'un flux vidéo et de ses flux audio associés ou
seulement un canal de multi-programmes audio.
Le flux élémentaire vidéo est divisé en unités d'accès contenant chacune des données
compressées décrivant une image. Ces images sont du type I, P ou B et chacune
comporte un numéro d'unité d'accès qui indique la séquence d'affichage convenable.
Une unité d'accès vidéo devient un paquet de flux de programme. En vidéo, la taille
de ces paquets varie. Un paquet d'images I sera, par exemple, plus grand que celui
d'une image B. Les unités d'accès de l'audionumérique sont généralement de la
même taille et plusieurs d'entre elles constituent un paquet de flux de programme.
Ces paquets ne doivent pas être confondus avec les paquets de flux de transport qui
sont de taille inférieure et fixes. Les limites des unités d'accès vidéo et audio
coïncident rarement sur l'axe des temps mais cette absence de coïncidence n'est pas
un problème car chaque limite possède sa propre structure de marqueur temporel.
Flux de transport:
Un flux de transport est bien plus qu'un simple multiplexage de plusieurs paquets
PES. Dans les flux de programme, les marqueurs temporels sont suffisants pour
recréer l'axe des temps parce que l'audio et la vidéo sont verrouillés sur une
référence commune. Pour télécharger des données dans un réseau éloigné, un
impératif supplémentaire est nécessaire dans le décodeur pour recréer l'horloge de
chaque programme. Cela impose un élément supplémentaire dans la syntaxe afin de
fournir la référence d'horloge de programme (PCR, Program Clock Reference).
Le flux de transport véhicule plusieurs programmes différents utilisant chacun un
débit et un facteur de compression susceptibles de varier dynamiquement, même si
le débit global reste constant. Cette propriété est appelée multiplexage statistique et
permet à un programme supportant des images difficiles de prendre de la bande à un
programme supportant des images plus statiques.
A chaque PES vidéo peut être associé un certain nombre de PES audio et de PES de
données. En dépit de cette souplesse, un décodeur doit être capable de passer d'un
programme à l'autre et sélectionner convenablement les canaux de l'audio et des
données. Certains programmes sont protégés et ne doivent être accessibles qu'aux
personnes ayant souscrit un abonnement ou acquitté une redevance. Le flux de
transport doit donc comporter l'information d'accés conditionnel (Conditional access
table) pour gérer cette protection. Le flux de transport contient des informations
spécifiques de programme (PSI, Program Specific Information) pour s'acquitter de
ces tâches.
La couche de transport convertit les PES de données en petits paquets autonomes de
longueur constante de 188 octets. Quand ces paquets parviennent au décodeur, il se
peut qu'ils soient affectés d'une certaine jigue. Le multiplexage temporel est aussi
une cause de retard mais son amplitude n'est pas fixe car l'allocation de bits n'est
pas fixe pour chaque programme. Les marqueurs temporels constituent une partie de
la solution mais à la seule condition qu'une horloge disponible soit stable. Le flux de
transport doit donc comporter d'autres données permettant la reconstitution d'une
horloge stable.
L'exploitation d'un équipement vidéo numérique dépend grandement de la
distribution d'un système d'horloge stable pour la synchronisation. En production
vidéo, le genlock est utilisé mais, sur des grandes distances, la distribution d'une
horloge séparée n'est pas commode. Dans un flux de transport, les programmes
peuvent provenir de différentes origines qui ne sont pas nécessairement synchrones.
Par conséquent, le flux de transport doit être capable de fournir des moyens de
synchro pour chacun des programmes. Cette synchro supplémentaire est appelée
Référence d'Horloge de Programme(PCR, Program Clock Reference) et permet de
reconstituer une référence d'horloge stable à partir de laquelle, par division, on
recrée une fréquence ligne dans le décodeur de façon à pouvoir utiliser
convenablement les marqueurs temporels dans chaque flux élémentaire.
On définit par conséquent un programme comme un jeu de flux élémentaires
partageant la même référence temporelle. Dans un flux de transport de programme
simple (SPTS, Single Program Transport Stream), il y aura un canal PCR qui recrée
une horloge de programme pour l'audio et la vidéo.
Les Paquets:
La figure suivante montre la structure d'un paquet de flux de transport. La longueur
constante est de 188 octets répartis entre un en-tête et une charge utile. La figure A
montre l'en-tête minimal de 4 octets. Les informations les plus importantes de cet
en-tête sont:
L'octet de synchro:
Cet octet est reconnu par le décodeur de façon à pouvoir dé-sérialiser l'en-tête et la
charge utile.
L'indicateur d'erreur de transport:

Cet indicateur est validé si le système de correction d'erreur gérant la fonction de
transport détecte un taux d'erreurs de bits trop élevé pour être corrigé. Il indique que
le paquet est susceptible de contenir des erreurs.
L'identification de paquet (PID):

Ce code de 13 bits sert à faire la distinction entre les différents types de paquet. Il
sera détaillé ultérieurement.
Le compteur de continuité:
Sa valeur sur 4 bits est incrémentée par le codeur chaque fois qu'un nouveau paquet
ayant le même PID est émis. Il sert à déterminer si un paquet particulier est perdu,
répété ou hors séquence. L'en-tête a parfois besoin de plus d'informations et, si c'est
le cas, les bits de contrôle du champ d'adaptation sont placés pour indiquer que la
taille de l'en-tête est supérieure à la normale. La longueur supplémentaire de l'en-
tête est alors définie par la longueur du champ d'adaptation. Quand l'en-tête est
allongé, la charge utile est diminuée pour conserver une longueur constante au
paquet.
Référence d'horloge de programme:

Le codeur utilisé pour un programme particulier sera piloté par une horloge de
programme à 27 Mhz. Si l'entrée provient d'une interface numérique série (SDI,
Serial Digital Interface), la fréquence d'horloge est divisée par 10 pour générer
l'horloge de programme. Quand plusieurs programmes parviennent à la même unité
de production, il est possible qu'ils aient tous la même référence. Si l'entrée vidéo est
analogique, la fréquence ligne sera multipliée par une constante dans une boucle de
phase verrouillée (PLL, Phase Locked Loop) pour obtenir du 27 MHz.
Dans l'en-tête du paquet, le champ d'adaptation sert périodiquement à introduire le
code PCR qui permet la génération d'une horloge verrouillée dans le décodeur. Si le
codeur ou un multiplexeur change de source, il peut se produire une discontinuité
dans la référence PCR. Le compteur de continuité peut également être perturbé.
Cette situation est gérée par l'indicateur de discontinuité qui avertit le décodeur de la
possibilité d'une perturbation. Sinon, la discontinuité créera une condition d'erreur.
La figure suivante montre comment le décodeur utilise la PCR pour recréer une
version déportée de l'horloge 27 MHz pour chaque programme.
L'horloge du codeur pilote un compteur binaire permanent dont les valeurs sont
périodiquement lues et placées dans le champ d'adaptation de l'en-tête en tant que
PCR. Comme le marqueur de temps de présentation (PTS, Presentation Time Stamp),
le PCR comporte 33 bits et représente une valeur du compteur piloté par une horloge
à 90 Khz.
Chaque codeur génère des paquets ayant une identification de paquet (PID)
différente. Le décodeur reconnaît les paquets associés à l'identification correspondant
au programme sélectionné et ignore les autres. Dans le décodeur, un oscillateur local
(VCO) génère une horloge nominale à 27 Mhz qui pilote le compteur PCR. La valeur
du PCR local est comparée au PCR de l'en-tête du paquet et la différence constitue
l'erreur de phase PCR. Cette erreur est filtrée pour piloter le VCO afin que le PCR local
se verrouille sur le PCR de l'en-tête.
Un puissant filtrage du VCO évite au VCO d'être modulé par une jigue éventuelle
dans la transmission du PCR. L'indicateur de discontinuité réinitialise le compteur
local et peut être éventuellement utilisé pour atténuer le filtrage afin d'accélérer le
verrouillage du compteur local sur la nouvelle valeur temporelle.
Le MPEG implique que le PCR soit émis au moins 10 fois par seconde tandis que la
Diffusion Vidéo Numérique (DVB, Digital Video Broadcasting) spécifie une cadence
minimale de 25 PCR par seconde.
Identification de paquet (PID):

Dans l'en-tête du paquet de transport, un champ de 13 bits contient le code
d'identification de paquet (PID). Le PID est utilisé par le décodeur pour faire la
distinction entre les paquets contenant divers types d'information. Le débit de bits du
flux de transport doit être constant, bien que la somme des débits de tous les
différents flux puisse varier. Cet impératif est réalisé par l'adjonction de bits nuls
(contenant des " 0 ") dans la partie utile. Si le débit utile diminue, plus de paquets
nuls sont ajoutés. Les paquets nuls ont toujours la même identification qui est 8191,
soit 13 " 1 ".
Dans un flux de transport donné, tous les paquets appartenant à un flux élémentaire
donné comportent la même identification. Les paquets appartenant à un autre flux
élémentaire auront une identification différente. Le dé-multiplexeur peut aisément
sélectionner toutes les données d'un flux élémentaire donné en acceptant seulement
les paquets porteurs de l'identification convenable. On peut sélectionner les données
d'un programme complet grâce aux PIDs de l'audio, la vidéo et les données de
télétexte. Le dé-multiplexeur ne peut convenablement sélectionner les paquets que
s'il peut les associer au flux de transport auquel ils appartiennent. Il ne peut exécuter
cette tâche que s'il connaît les PIDs. C'est le rôle de l'information spécifique de
programme (PSI, Program Specific Information).
La Transmission en DVB
Une des principales caractéristiques des canaux de diffusion numérique tient au fait
qu'ils peuvent subir des grandes dégradations sans que cela ne soit visible. Mais
lorsque l'on dépasse un certain seuil, la rupture de service est brutale et totale. C'est
tout ou rien.
Le BER (Bite Error Rate): Trois voies de transmission sont possibles; le satellite, le
câble et le réseau de diffusion hertzien. Il faut aussi garder à l'esprit deux impératifs;
premièrement, on doit employer les canaux déjà existant (la largeur du canal est
imposée) et deuxièmement, la télévision numérique demande une transmission
qualifiée de QEF(Quasi Error Free, quasiment sans erreur). Pour réaliser cette
deuxième contrainte, il convient d'introduire une nouvelle notion; le BER(Bite Error
Rate ou TEB Taux Erreur Binaire). C'est tout simple. On va compter, à la réception, le
nombre de bit erroné reçus sur le nombre total de bit reçus. Si sur 1000 bits reçus, il
y en a un de faux, on a un BER de 1/1000.
Les modulations employées seront donc choisies de manière très attentive en

fonction du type du canal de transmission et un arsenal de technique de correction
d'erreur sera également mis en place.
Caractéristiques des canaux:

Satellite: Largeur de canal fréquemment égale à 36 MHz. Un signal provenant d'un
satellite subit une atténuation de plus de 200dB. On reçoit donc un signal très faible
et bruité.
Câble: Largeur de canal très réduite, 8 MHz(rappelons que le débit en sortie de
multiplexeur est d'environ 40MBit/s). Par contre c'est un milieu très protégé.
Réseau terrestre: Largeur de canal très réduite, 8 MHz. Le système choisi doit être
insensible aux phénomènes d'échos.
Solutions:
Pour chacune des voies de transmission, DVB a défini une chaîne de traitement et de
codes de correction d'erreurs suivi d'un type de modulation adaptées.
Modulation: QPSK pour le DVB S, QAM pour le DVB C et COFDM pour le DVB T.
Traitement: Brassage, entrelacement et filtre de Nyquist.
Correction d'erreur: Code Reed Solomon et code convolutif associé à un décodeur
de Viterbi.
C'est une combinaison de ces différentes techniques qui formera notre canal de
transmission. Voyons les étapes préliminaires indispensables qui vont permettre de
sécuriser notre train TS et cela quelque soit notre canal de transmission.
Le brassage: Ici on veut répartir l'énergie sur l'ensemble du canal de transmission.
En clair, éviter les longues suites de 1 ou de 0 qui créeraient une raie à forte énergie
dans le spectre.Un signal connu qui possède cette caractéristique est le bruit qui par
nature est aléatoire et donc une énergie uniformément répartie. Nous allons rendre
notre signal TS semblable à du bruit en le multipliant par la sortie d'un générateur
Pseudo aléatoire. C'est un dispositif simple formé de 15 registres à décalage et d'un
OU exclusif.
Pour pouvoir faire le traitement inverse en réception, nous allons employer deux
mécanismes de synchronisation. Au premier paquet TS qui se présente, on charge le
générateur avec un mot connu (le mot d'initialisation) et l'octet de synchro du paquet
(0x47) est complété pour devenir 0xB8. Huit paquets d'affilés sont ainsi brassés. Au
neuvième paquet, le mot d'initialisation est de nouveau chargé et l'octet de synchro
complété. La porte AND est activée à chaque octet de synchro pour ne pas les
brasser et ainsi conserver ces points de repère. L'énergie de notre signal est
maintenant répartie sur tout le spectre et ceci même si il n'y a pas de signal en
entrée. En réception c'est le même circuit qui est employé, on attend un octet ayant
le mot de synchro 0xB8 pour charger le mot d'initialisation et dé-brasser les huit
paquets.
Codage Reed Solomon: Ce code est noté RS(188,204,t=8), ce qui veut dire 188
octets en entrée, 204 en sortie du codeur et 8 octets sur 188 peuvent être corrigés.
C'est un code en bloc qui va ajouter 16 octets de redondance derrière chaque paquet
TS. Si plus de 8 octets sont détectés comme erronés, le paquet est marqué comme
défectueux. Pour comprendre l'esprit de ce code, on va l'illustrer avec un exemple
très simple. Imaginons que nos paquets TS fassent 3 octets de long et que l'on
transmette le paquet suivant: 03 10 15 on va rajouté deux octets de redondance. Le
premier est la somme de nos trois données soit 28, le deuxième est la somme
pondérée des 3 octets. Chaque octet est multiplié par son rang : 3*1 + 10*2 + 15*3
soit 68. Notre paquet à la sortie du codeur devient donc : 03 10 15 28 68 Après
transmission et perturbation, le récepteur reçoit le paquet : 03 12 15 28 68 On refait
la somme simple 03+12+15=30 et la somme pondérée 8*1 + 12*2 + 15*3=72.La
différence des sommes simples(28-30) nous donne la valeur de l'erreur et la
différence des sommes pondérées divisé par l'erreur est égale à au rang de
l'erreur(7268)/2=2). On peut corriger notre paquet.
L'entrelacement: Une des choses les plus difficiles à corriger est une longue suite
de bit ou d'octet consécutifs erronés. On va donc répartir, à l'émission, les octets d'un
paquet dans d'autres paquets. Imaginons la suite de paquet de 5 octets suivante:
niche
chien
poule
tasse
fours
balles
video
audio
petit
porte
Chaque paquet est mis en mémoire horizontalement et relu verticalement. Ainsi si on

relit les paquets depuis le e de niche, cela donne les paquets suivants:
eeuaf nlsob esuav erlia sldup eedep soito
A la suite de la transmission, on reçoit la séquence suivante affectée d'erreur:
eeuaf nlsob esuav **lia s***p eedep soito
Aprés désentrelacement, on retrouve les mots suivants :

e ---- tass* fou*s bal*es vi*eo ----
On voit nettement que l'entrelacement a permis de répartir les erreurs sur plusieurs
paquets. Seul un octet par paquet est affecté et le code Reed Solomon, vu avant,
peut facilement corriger ces erreurs. Sans entrelacement, ce sont les mots complets
qui auraient été affectés sans espoir de pouvoir les récupérer. Dans la pratique on
utilise un jeu de registre à décalage et de commutateur pour placer chacun des
octets d'un paquet dans des 12 paquets différents.
A gauche l'entrelaceur et à droite le desentrelaceur. Ce qui d'un point de vue paquet

se traduit par:
A: avant entrelacement,
B: après entrelacement,
C: après désentrelacement.
Code convolutif: Lorsque l'on affronte des milieux très bruités comme dans le cas
des liaisons satellites ou terrestres, il convient de renforcer encore les mesures de
protection des données à transmettre. Nous allons mettre en oeuvre maintenant un
code convolutif. Si l'on regarde bit à bit le signal, aucun lien ne les relie. Chaque bit
est rigoureusement indépendant. L'idée du code convolutif est de lier un bit à un ou
plusieurs bits précédents de sorte à pouvoir retrouver sa valeur en cas de problème.
Voici le codeur utilisé par DVB. On voit que chaque bit incident va générer deux bits
sortants et qu'il sera lié aux 6 bit précédents. Le bit 1 de sortie est un "OU exclusif"
entre les bits 1,2,3,4 et 7 tandis que le bit 2 de sortie est un "OU exclusif" des bits
1,3,4,6 et 7.
Avantage: Ce code dit "en treillis" va permettre de retrouver la valeur la plus
probable d'un bit en observant les bits précédemment reçus. C'est pas très évident à
expliquer mais c'est très efficace dans la réalité.
Inconvénient: On vient de doubler le débit du train TS. Quand on connaît le prix du
bit transmis, on se doute que l'on va trouver une astuce pour améliorer le
rendement. L'opération de décodage est réalisé en réception par le décodeur de
Viterbi.
Le poinçonnage: Le rendement du codeur vu ci-dessus est de 1/2, 1 bit d'entrée, 2
bits de sortie. Le poinçonnage consiste à améliorer ce rendement en ne transmettant
pas certains bits sortant du codeur convolutif. Si trois bits se présente en entrée de
codeur, on va en retrouver 6 en sortie mais on en transmettra que 4. Le rendement
sera alors de 3/4. On parle aussi de FEC 3/4 (FEC = Forward Error Correction).
Bien sur, ce poinçonnage crée des erreurs puisque l'on ne transmet pas tous les bits.
En réception, dans le décodeur de Viterbi, on remplace ces bits par des zéros. De part
la robustesse et la nature du code convolutif choisi, on retrouve leurs valeurs la plus
probable. On est maintenant presque prêt à attaquer un modulateur numérique. Un
problème subsiste cependant. Le signal numérique est de forme rectangulaire et si on
le module ainsi, on obtient un spectre en fréquence infini (un sin x/x). On va
résoudre le problème en filtrant le signal de façon à réduire la bande occupée. Le
filtre choisit est le filtre de Nyquist. Attention, dans le cas de la transmission par
câble, qui est considéré comme un milieu protégé, il n'y a pas d'application du code
convolutif et donc du poinçonnage.
Filtre de Nyquist: Une explication plus complète viendra en son temps. Pour le
moment, on dira juste que ce filtrage va diminuer le débit utile de notre signal en
fonction d'un coefficient appelé Roll Off. La largeur de bande occupée sera égale à:
W= Débit utile x(1+Roll Off)
Les exemples de calcul de débit, vu plus loin, illustrerons son emploi.
Le QPSK: La transmission satellite demande des codes de corrections puissants et

une modulation la moins sensible possible aux distorsions de phase et d'amplitude.
En effet la transmission est énormément bruitée, et les tubes des transpondeurs
travaillant en saturation, il est hors de question de travailler avec une information
modulée en amplitude.
Principe: Le choix s'est donc porté sur une modulation QPSK(Quaternary Phase Shift
Keying ou modulation à déplacement de phase à 4 états). C'est en fait une
combinaison de deux modulations d'amplitude à porteuse supprimée. Les deux
porteuses, appelé I et Q, sont, bien sûr, déphasées de 90°.
x valant +X pour un bit à 0 et -X pour un bit à 1 et y valant +Y pour un bit à 0 et -Y

pour un bit à 1. Un symbole transmis contient deux bits d'informations. On voit
également, sur ce diagramme des constellations, que même si les points deviennent
des tâches, à cause du bruit, ce n'est pas très grave. Il suffit de savoir dans quel
quadrant se situe le point pour retrouver l'information.
Calcul du débit utile: Pour revenir à des considérations pratiques, nous allons
calculer le débit utile en sortie de multiplexeur, en fonction de la largeur du canal
satellite. La largeur d'un canal satellite à -3 dB est de 36 MHz. On a vu que, de part
le filtrage de Niquyst, le débit du signal binaire que l'on va pouvoir transporter est
égale à :
En satellite, le Roll Off a été choisi égale à 0.35 (valeur qui est compromis entre une
bonne efficacité du filtre et un bon rendement). Donc pour une largeur de canal de
36MHz, on obtient un débit utile de 26,6 Mbit/s. En pratique, on prend une largeur de
canal un peu plus importante, ce qui permet d'obtenir un débit binaire de 27.5
Mbit/s. Cette valeur étant le débit en sortie du modulateur, elle est égale au Débit
Symbole (Symbol Rate) du transpondeur. Pour un transpondeur de 36 MHz de
largeur de bande, le Symbol Rate est de 27,5 MSymbol/s. On a employé une
modulation de type QPSK, un symbole transporte deux bits donc le débit binaire brut
est de 55 Mbit/s. Dans cette valeur sont compris les bits de redondance apportés par
le codage Reed Solomon et le code convolutif. Le débit utile, en sortie de
multiplexeur, est égale à: Débit utile= débit brute x rendement du code Reed
Solomon x rendement du code convolutif. Le rendement du code Reed Solomon est
égale à 188/204 Le rendement du code convolutif est égale au FEC. D'où le tableau
suivant;
Pour un Débit Symbole de 27.5 MSymbol/s sur un transpondeur de 36MHz de largeur
de bande
Le FEC sera choisi par l'opérateur, en fonction de critère technique et économique.

Technique, car il faut un FEC adapté à la puissance du transpondeur vu du sol, et à la
taille des paraboles de réception. Un transpondeur en Wide Beam aura un FEC de
l'ordre de 2/3, 3/4 alors qu'un transpondeur en Super Beam pourra avoir un FEC de
3/4 ou 5/6. Un feed peut travailler en 7/8, les paraboles de réception professionnelle
faisant souvent plus de 2 mètres de diamètre. Economique, car au prix de location
d'un transpondeur, il vaut mieux passer le plus grand débit utile.
Le QAM: Sur le câble, la problématique est différente. C'est un milieu bien protégé
mais à bande réduite. On va donc choisir une modulation à efficacité maximale, c'est
à dire transportant un maximum de bit par symbole.
Modulation QAM: On va utiliser une modulation QAM (Quadrature Amplitude
Modulation) composée de deux modulations d'amplitude à porteuse supprimée en
quadrature comme pour le QPSK. L'équation reste donc:
La différence tient dans le fait que l'on va augmenter le rendement du code en

augmentant les valeurs que peuvent prendre x et y. Si chaque axe code maintenant
deux bits, on va transporter 4 bits par symbole et définir une QAM 16:
Si on veut 5 bits par symbole, on obtient une QAM 32:
Et si l'on code 6 bits par symbole, une QAM 64:

On pourrait aller loin comme ça, mais l'on voit que plus on code de bit par symbole,
plus les symboles sont rapprochés et donc plus on est sensible au bruit. Un symbole
très bruité et donc éloigné de son emplacement d'origine, peut être confondu avec le
symbole adjacent (d'ou l'utilité des opérations d'entrelacement et de correction
d'erreurs). En pratique, la plupart des réseaux câblés travaillent en QAM 64.
Calcul du débit utile: Ici la largeur du canal de transmission est de 8MHz (largeur
des anciens canaux analogique). On a vu que, de part le filtrage de Nyquist, le débit
du signal binaire que l'on va pouvoir transporter est égale à:
Le Roll Off choisi est de 0.15 (milieu protégé et bande faible). Donc pour une largeur
de 8 MHz, le débit binaire est au maximum de 6,96. Ce débit est égale au Débit
Symbole en sortie du modulateur QAM. Si nous travaillons en QAM 64, un symbole
représente 6 bits et donc le débit brut, en sortie du multiplexeur est égal à 6 x 6.96
soit 41.76 Mbit/s, codage Reed Solomon compris. Ici, je vous le rappelle, il n'y a pas
de codage convolutif. Le débit utile est donc: débit binaire utile = débit binaire brute
x rendement du code Reed Solomon, soit dans notre exemple 41.76 x (188/204) ou
38.48Mbit/s. Sur un réseau câblé, le débit binaire utile sera au maximum de 38.5
Mbit/s.
Transmodulation: Pour un opérateur câble, il est très intéressant de diffuser à ses

abonnés des transpondeurs complets provenant d'opérateur satellite. Il démodule le
signal QPSK et re-module le train MPEG en QAM 64 en effectuant un transnitage
(changement dans les tables SI). Seule contrainte, le débit utile du transpondeur doit
être inférieur à 38.5 Mbit/s. Ce qui revient à dire que pour les transpondeurs
courants, le FEC doit être inférieur ou égal à 3/4(Voir Modulation QPSK).
Prenons le cas d'un transpondeur classique de FEC 2/3. Son débit utile est de 33.79
Mbit/s. On passe à la moulinette de Reed Solomon. Le débit devient 33.79 x
(204/188)= 36.66 Mbit/s. La modulation QAM 64 transporte 6 bits par symbole donc
le Symbol Rate est de 36.66/6 = 6.11 MSymbol/s. La bande passante occupée sur le
câble sera égale à 6.11 x (1+Roll Off), c'est à dire 6.11 x 1.15=7.03 MHz. On est
bien dans le gabarit des 8MHz.
Transnitage: C'est l'opération qui consiste à remplacer la NIT d'un flux DVB par une
autre pour changer le réseau d'appartenance d'un flux. En clair le câblo remplace la
NIT incidente de l'opérateur satellitaire par la sienne.
Le COFDM: Transmettre un train numérique par voie hertzienne n'est pas une mince
affaire et c'est pourquoi c'est la technologie qui a demandée le plus de temps pour
émerger. C'est celle du DAB (Digital Audio Broadcasting) qui a été adaptée à la
télévision numérique. Voici quelques éléments et avantages utilisés par le DVBT.
Aperçu du COFDM (Coded Orthogonal Frequency Division Multiplex):

Le challenge relevé est qu'à la réception on puisse retrouver les symboles transmis
indépendamment des chemins multiples(réflexions, échos , antenne recevant deux
émetteurs différents, effet doppler dans le cas de la réception mobile) empruntés
depuis le ou les émetteurs. Par définition, les caractéristiques d'un canal de
transmission ne sont pas constantes dans le temps. Mais durant un court laps de
temps, les caractéristiques d'un canal hertzien sont stables. Le COFDM découpe le
canal en cellule selon les axes du temps et des fréquences.
Le canal est alors constitué d'une suite de sous bandes de fréquence et d'une suite de
segments temporels.
À chaque cellule fréquence/temps est attribuée une porteuse dédiée qui représente
un symbole COFDM. On va donc répartir l'information à transporter sur un ensemble
de ces porteuses, modulée chacune à faible débit par une modulation du type QPSK
ou QAM. Deux choix existent, le mode dit 8K(6817 porteuses dans le canal) ou le
mode dit 2k(1705 porteuses dans le canal). Chacune des porteuses est orthogonale à
la précédente.
Une même suite de symbole arrivant à un récepteur par deux chemins différents se
présente comme la même information arrivant à deux instants différents et qui
s'additionnent. Ces échos provoquent deux types de défauts:
L'interférence intra symbole: Addition d'un symbole avec lui-même légèrement

déphasé.
L'interférence inter symbole: Addition d'un symbole avec le suivant plus le

précédent légèrement déphasé. Entre chaque symbole transmis, on insère une zone
"morte" appelée intervalle de garde. De plus la durée utile d'un symbole sera choisie
suffisamment grande par rapport à l'étalement des échos. Ces deux précautions vont
limiter l'interférence inter symbole (celle ci se produisant au début des symboles,
c'est l'intervalle de garde qui est affecté).
Synoptique d'un modulateur DVBT:
Un signal arrivant d'un multiplexeur subit les étapes suivantes: Un brassage, Un
codage Reed Solomon(204,188, t=8) Un entrelacement, Un code convolutif, Un
poinçonnage Un filtrage, une modulation QAM ou QPSK, une modulation COFDM.
Quelques chiffres:
DVB a défini les paramètres suivants: L'intervalle de garde Delta peut être égale à: 7,
14, 28, 56, 112 ou 224 µs. Plus l'intervalle est grand plus le symbole est protégé. La
durée utile d'un symbole est égale à: 4, 8, 16, 32 fois Delta. La modulation des
porteuses peut être: QPSK, QAM 16 ou QAM 64.
Avantages:
Le DVBT est compatible avec les installations de réception analogique déjà en place
(antenne, distribution collectives) Le système est insensible aux échos, il n'y a plus
de canaux interdits. Avec 25 Mbit/s utiles dans un canal, on diffuse 5 à 6
programmes où passe aujourd'hui un seul programme analogique. Possibilité de
gérer des décrochages locaux pour des chaînes ou des programmes locaux.
Possibilité de réception hertzienne mobile de qualité. Introduction de réseaux dit SFN
(Single Frequency Network).Un programme est disponible sur une seule et même
fréquence sur tout le territoire. Possibilité d'une réception mobile parfaite.
Inconvénients:
Moins de canaux disponibles que sur le satellite. Coût de l'infrastructure des
émetteurs terrestres. Complexité des démodulateurs.
Les réseaux mono-fréquence:

Les avantages de la modulation COFDM sont nombreux, mais un de ses intérêts
principaux est sa capacité à faire face aux échos, produits par des réflexions dues à
l'environnement ou à plusieurs émetteurs fonctionnant sur le même canal RF. En fait,
le COFDM peut employer des échos constructifs (c.-à-d.: ceux qui augmentent la
puissance reçue) et négliger les effets négatifs des autres.
La modulation de COFDM offre aux radio-diffuseurs une nouvelle manière d'utiliser
leurs réseaux terrestres, soit la multiplication d'émetteur sur le même canal pour
augmenter la zone de couverture et transmettre plus de canaux. Pour réaliser un
réseau mono fréquence, il faut que les émetteurs qui opèrent sur la même fréquence,
en même temps, transportent les mêmes bits d'informations. Tous les émetteurs du
réseau doivent être synchronisés dans le domaine fréquentiel aussi bien que dans le
domaine temporel. C'est par l'emploi du système GPS que l'on résout le problème.
Synchronisation temporelle:
La valeur d'intervalle de garde choisie pour le réseau a une grande importante sur la
topologie du réseau même, sa durée régit le temps maximum d'échos admissible par
le système et, donc, détermine la distance maximum entre les émetteurs de co-
canal. La fenêtre de temps, pendant laquelle les récepteurs échantillonnent le signal
utile exclue la période d'intervalle de garde, où le signal est fait d'un mélange de
deux symboles consécutifs de COFDM.
L'intervalle de garde doit être considéré globalement comme "budget de temps". Ce
sera sur cet intervalle non utilisé que l'on pourra compenser une mauvaise
synchronisation temporelle d'un émetteur du réseau. En pratique, l'opérateur de
réseau utilise 1 impulsion par seconde(1PPS, Pulse Per Second) issue d'un récepteur
GPS. Cette référence de temps autorise à insérer un marqueur de temps dans le
multiplex à l'entrée du réseau de distribution primaire pour permettre, dans chaque
émetteur, au processeur de COFDM de retarder le multiplex entrant jusqu'à ce qu'un
instant commun de temps de diffusion se produise.
Synchronisation fréquentielle:
La fréquence de chaque sous porteuse du canal sera étroitement contrôlée et

surveillée pour chaque émetteur du réseau. Voici quelques petits schémas pour
résumer les choses:
A: Dispersion d'énergie
B: Code Reed Solomon
C: Entrelacement
D: Code convolutif et
poinçonnage
E: Filtrage de Nyquist
F: Modulation QPSK ou QAM
Les Tables SI/PSI(Service

Information/Program Specific
Information):
En analogique, un canal de
transmission transporte un programme de télévision. Votre récepteur, c'est-à-dire
votre téléviseur, se cale sur la fréquence (qu'il a en mémoire) de la chaîne et décode
le service qui est toujours de même type, soit un service de télévision.
Le cas du numérique est très différent. Un canal de transmission transporte plusieurs
services de natures différentes. Décoder un service de télévision ne fait pas appel aux
mêmes ressources du terminal que décoder un service interactif. On transportera
donc dans le signal des informations qui permettront au terminal de connaître la
nature et la composition des services présents dans un TS(transport stream). Par
extension, on inclura aussi des informations sur les autres TS de l'offre. Et, comme
on l'aura deviné, ces informations seront transportées dans les tables.
Les tables sont diffusées régulièrement, chacune avec une récurrence jugée
suffisante par l'opérateur pour rafraîchir les informations au niveau du terminal en
fonction du type de table, cela va de 100ms à 30s.
Structure des tables

La structure est simple et générique, DVB a réservé une plage de PID pour les
transporter: 0 à 20. Une table est composée de sous-tables, qui peuvent elles-
mêmes être composées de section.
Chaque section est composée d'un en-tête puis de boucles contenant des
descripteurs, ou Tag. Ces tags sont l'élément unitaire d'information. Comme à son
habitude, DVB définit des tables et tags publics et laisse la possibilité de transporter
des tables et tags privés définis pour les besoins particuliers de l'opérateur. Enfin la
taille d'une section est limitée à 1024 octets pour la plupart des tables et à 4096 pour
les autres. Voyons tout de suite la composition d'un en-tête de section.
En principe, une table est lue une fois puis le terminal se contente de surveiller son
numéro de section. Si celui-ci change, il lit de nouveau la table. La description des
boucles sera abordée lors de la description de chaque table.
Les Tables PSI

PAT(Programme Association Table):
Elle porte le PID 0 et son table id est de 0. Pour chaque service physiquement
présent sur le TS, elle associe le service, repéré par son Program Number, à un Pid
de PMT.
PMT (Program Map Table):
Son Pid est choisi par l'opérateur et son table id est égal à 2. Il y en a une pour
chaque service physiquement présent sur le TS. Elle décrira les caractéristiques du
service et de ses composantes.
CAT (Control Access Table):

A pour PID et table id 1. Elle permet au terminal de connaître les PID des voies EMM
qui sont présentes sur le TS. On se rappellera que les EMMs transportent le
renouvellement des droits pour chaque carte d'abonnés.
Les Tables SI (Service Information)
Pour ses besoins, DVB a ajouté de nouvelles tables dites SI(Service Information) qui
peuvent être utilisées par le terminal et l'utilisateur pour naviguer à travers les
services reçus. Certaines sont obligatoires dans un flux DVB, d'autre sont
optionnelles.
Tables Obligatoires
NIT (Network Information Table):
A pour PID 16 et pour table id 64 ou 65. Cette table regroupe l'ensemble des
transpondeurs et des services rendus accessibles à l'abonné par un opérateur. Toutes
les informations nécessaires au calage du terminal sont contenues dans cette table
(fréquence, polarisation, FEC, SR, position). La table id est égale à 64 si la table
décrit le réseau de l'opérateur qui émet cette table (NIT Actual )et égale à 65 si la
table décrit le réseau d'un autre opérateur(NIT Other).
SDT (Service Description Table):
A pour PID 17 et pour table id 66 et 70. Renseigne sur les services présents sur un
multiplex; La table id est égale à 66 si la section décrit un service présent sur le TS
(SDT Actual) et égale à 70 si la section décrit un service présent sur un autre
transpondeur (SDT Other).
EIT present/following (Event Information table):
A pour PID 18 et table id 78 et 79. Donne des informations sur les événements en
cours ou à venir juste après l'événement en cours (nom de l'émission, nom des
invités, heure de début, durée...) sur les services du multiplex ou des multiplex d'un
opérateur. La table id est égale à 78 si la section décrit les événements d'un
programme du TS (EIT Actual) et égale à 79 si la section décrit les événements d'un
programme d'un autre transpondeur.
TDT (Time and Date Table):

A pour PID 20 et table id 112. Donne la date et l'heure Universelles.
Tables optionnelles
BAT (Bouquet Association Table):
A pour PID 17 et table id 74. Cette table permet de grouper les services autrement
que par la notion de réseau (NIT). Un service peut appartenir à plusieurs bouquets.
On peut faire, par exemple, des bouquets pour regrouper les chaînes par thèmes ou
encore faire des bouquets par zone géographique de réceptions.
EIT schedule (Event Information table) :
A pour PID 18 et table id de 80 à 95 et 96 à 111. Donne des informations concernant
les événements à venir sur une semaine, sur les services du multiplex ou des
multiplex d'un opérateur. Cela doit permettre de constituer un EPG (Electronic
Program Guide) c'est à dire un guide électronique des programmes.
RST (Running Status Table):
A pour PID 19 et table id 113. Permet de modifier le statut d'un événement
rapidement. Un événement est un élément de programme (une émission par
exemple). L'événement peut être stoppé, démarré dans quelques secondes, en pause
ou en cours.
ST (Stuffing Table):
A pour PID 19 et table id 114. Cette table dite de bourrage permet de venir
remplacer n'importe quelle section d'autres tables pour l'invalider.
TOT (Time Offset Table):

A pour PID 20 et table id 115. Transporte la date et l'heure Universelles, plus le
décalage horaire pour le fuseau horaire de diffusion.
Les tables privées

Toutes sections de tables ayant un PID supérieur à 20 et un table id compris entre
128 et 255 sont des tables privées dont le contenu a été défini par l'opérateur. C'est
dans ce type de structure que sont transportées les informations des applications
interactives type Open TV ou MediaHighway.
Introduction à la télévision haute définition(HDTV)

Lorsqu'on entend parler de télévision numérique (DTV, Digital Television), on parle
généralement de transmission de signaux de télévision purement numérique, ainsi
que la réception et la présentation de ces signaux sur un téléviseur numérique.
Plusieurs des nouveaux systèmes satellite, ainsi que le câble numérique et les DVD
utilisent un schéma d'encodage numérique qui permet de présenter une image de
meilleure qualité par rapport aux images analogiques. Par contre, l'information
numérique est convertie en format analogique pour pouvoir être présentée sur un
téléviseur analogique (les plus répandus actuellement). L'image ainsi présentée
représente une grande amélioration, si on la compare au VHS ou au câble
analogique, mais elle serait encore meilleure si on éliminait la conversion à
l'analogique.
Les signaux numériques pouvant être diffusés soit par des moyens terrestres, par
câble ou par satellites avant d'être captés chez vous. Après réception, un décodeur
transforme le signal numérique et en alimente directement votre téléviseur
numérique. Une nouvelle classe de signaux numérique commence à prendre sa place
dans l'échiquier de la télévision numérique, il s'agit du format de Télévision Haute
définition (HDTV, High Definition Television).
HDTV est un signal vidéo numérique (DTV, Digital Television) haute résolution,
combiné avec un son numérique ambiophonique (Dolby Digital Surround Sound, AC-
3). Il représente le standard de résolution vidéo numérique le plus élevé
présentement sur le marché. Cette combinaison crée une expérience audio-visuelle
extrêmement enrichissante. Cependant, le HDTV requière de la part des stations de
télévision qu'ils s'équipent de tout nouveaux équipements de production et de
diffusion, et les consommateurs devront faire de même pour recevoir le signal. Il
s'agit d'ailleurs là d'une des principale raisons pour laquelle l'implantation de ce
standard est plus lente que prévue initialement.
HDTV offre une résolution d'image beaucoup plus élevée que ce qui se fait pour le
moment, c'est d'ailleurs son principal avantage par rapport aux signaux numériques
standard. On parle ici de 720 ou 1080 lignes de résolution, comparé aux 525 lignes
auxquels les gens sont habitués en format NTSC, la différence est énorme.
Des 18 formats DTV, 6 sont des formats HDTV et 5 de ceux-ci sont basés sur une
"analyse"(scanning) progressive et 1 autre sur une analyse "entrelacée"(Interlaced).
Les 12 formats restants comprennent 1 format SDTV (Standard Digital Television) et
les 11 autres sont des formats EDTV (Enhance Digital Television(4 avec un ration de
16:9 et 7 formats conventionnels avec un ratio de 4:3). Les réseaux et stations de
télévision ont le choix d'utiliser l'un ou l'autre de ces formats. Les principaux formats
susceptibles d'êtres utilisés en HDTV sont:
720p – 1280 X 720 pixels progressifs
1080i – 1920 X 1080 pixels entrelacés(Interlaced)
1080p – 1920 X 1080 pixels progressifs
Voici un tableau comparatif des différents standards existants:
SDTV (Standard Digital Television) consiste en un format digital standard de
480i/30Hz. Ce format est principalement utilisé lorsque la largeur de bande passante
est une préoccupation importante. SDTV utilise un taux de transfert d'environ 4-
7Mbps.
EDTV (Enhance Digital Television) représente une amélioration par rapport au

SDTV, mais pas tout à fait aussi bon que le HDTV. La résolution verticale est limitée à
480 lignes, mais la résolution horizontale varie de 640 à 704 lignes. Le standard
comprends des rapports de dimension de 4:3 et 16:9 et des taux de rafraîchissement
de 24-30 et 60Hz, en plus de comprendre des signaux progressifs et entrelacés.
EDTV sera utilisé lorsqu'une meilleure qualité d'image est désiré, mais sans utiliser la
même largeur de bande que le HDTV.
HDTV (High Definition Television) utilise une bande passante d'environ 19 à

27Mbps* pour assurer une image de la meilleure qualité possible. Tous les formats
HDTV ont un rapport de dimension de 16:9, à des taux de rafraîchissement variant
également de 24-30 et 60Hz.
"Entrelacé (Interlaced)" et "progressif (progressive)" réfèrent au système

d'analyse(scanning) de l'image. En format entrelacé, le système présente d'abord les
lignes impaires puis, dans une deuxième analyse (scan), les lignes paires. Lorsqu'il y
a 30 images par secondes, le moniteur montrera donc un demi frame chaque
soixantième de secondes. Pour des moniteurs plus petit, cela est moins visible, mais
lorsque les moniteurs deviennent plus gros, un problème peut apparaître dans
l'image, qui est appelé "papillottement(flicker)". Le format progressif montre une
image entière à chaque soixantième de seconde. Ce qui permet une image beaucoup
plus douce, mais utilise plus de bande passante.
Tous les formats DTV utilisent présentement MPEG2 comme leur standard de
compression vidéo, tout comme les DVD-Vidéo. MPEG2 est un algorithme de
compression flexible qui s'adapte aisément aux hautes résolutions du DTV.
En format de télévision NTSC analogique (Amérique du Nord), l'image vidéo a 525
lignes, mais 480 seulement sont effectivement visibles. Un téléviseur normal aura
donc une résolution effective d'environ 210,000 pixels. La résolution maximum des
formats numériques (HDTV) permet une résolution d'environ 2 000 000 de pixels, ce
qui représente environ
10 fois plus de détails pour une image en Haute définition. On peut utiliser des ratios
de 4:3 ou 16:9, tel que montré dans la figure suivante:
Une émission de télévision typique est enregistré directement en vidéo NTSC, ou
utilise un format film 35mm. Dans le cas du film, le signal est converti en signaux
analogues pour la diffusion. Le format d'image film (35mm) est de 1.37:1, ce qui
veut dire qu'il est 1.37 fois plus large qu'il est haut. Un téléviseur standard a un
format de 4:3(1.33:1), alors la conversion est assez facilement réalisable.
La télévision haute définition, quand à elle, offre une image contenant beaucoup plus
de détails, ce qui permet un résultat plus "propre". Les images que nous voyons dans
nos téléviseurs sont composées de petit éléments appelés "pixels". Chacun de ces
pixels est composé de trois "points de couleur" très rapprochés (rouge, bleu et vert).
Avec les signaux NTSC analogiques traditionnel, 256 degrés d'intensité sont possible
pour chacune de ces 3 couleurs. Le résultat donne une possibilité de 16,8 millions de
couleurs pour chaque pixel. Dans un système analogique, les pixels sont un peu plus
haut que large. Par contre, avec un signal en HDTV, les pixels sont carrés et sont
également plus petits et plus rapprochés entre eux. 1920 pixels horizontaux en
luminance Y (noir et blanc) et 960 pixels pour chacune des deux couleurs Pb et Pr
(soit la luminance moins le rouge, et la luminance moins le bleu). La définition
verticale est donc de 1080 lignes utiles. Cette définition permet d'obtenir des pixels
carrés, pour une image au format 16/9, puisque 1920/16 = 120 et 1080/9 = 120. Le
rapport étant identique si les points sont carrés, ce qui facilite toutes les opérations
numériques qui pourraient être réalisées à partir de ces images. On pourra ainsi
mettre 4.5 pixels HDTV dans le même espace qu'aurait occupé un pixel NTSC. Il en
résulte qu'un téléviseur HD peut présenter 4.5 fois plus de détails qu'un téléviseur
analogique NTSC.
Pour opérer avec les nouveaux standards HDTV, les diffuseurs devront se ré-équiper
de a à z, car les formats digitaux HDTV ont:
- Une image plus large.
- Une image beaucoup plus détaillée.
- Une qualité audio supérieure (5.1 canaux Dolby Digital, AC-3).
- La possibilité d'envoyer de l'information directement à votre moniteur ou PC (la
transmission HDTV est basée sur un flux de données digitale de 19.3 Mbps*).
En HDTV, le ratio utilisé est de 16:9(1.78:1), ce qui est plus près de celui utilisé dans
les salles de cinéma (1.85:1 ou 2.35:1). Présentement les diffuseurs doivent utiliser
une méthode appelée "pan and scan"(découper l'image complète à un ratio de 4:3,
en éliminant une partie de l'image), ou "letterbox" (présenter l'image complète
seulement dans la partie centrale de l'image). Avec le format 16:9, utiliser le "pan
and scan" n'élimine qu'une infime partie de l'image et le "letterbox" ne bloque que
très peu de l'image. Le ATSC (Advanced Television Systems Committee) à adopté le
ratio 16:9 "wide-screen" comme standard pour la télévision haute définition
numérique car cela permet de présenter beaucoup plus d'information dans votre
téléviseur. De plus, comme de plus en plus de films sont présentés à la télévision
et/ou en vidéo (DVD, VHS, etc...), cela permet de présenter l'information au complet.
Au préalable on devait faire un "pan and scan" du document et, donc, couper une
partie de l'image. L'"association" cinéma et vidéo/télévision est donc plus facilement
réalisable.
Il est important de souligner que la diffusion des deux ratios(16:9 et 4:3) de signaux
numériques est possible, même s'il est présumé que tous les signaux DTV seront
diffusés en ratio 16:9 dans un avenir peut-être pas si lointain. Votre téléviseur
numérique pourra décoder les deux ratios sans égard a son ratio "natif". Lorsqu'un
programme est transmit en 4:3, sur un téléviseur 16:9, l'image sera présentée en
"window-box", centrée dans l'image, avec des barres noires verticales de chaque
côté. Lorsque vous regarderez un programme 16:9 sur un téléviseur 4:3, l'image
sera présentée en "letter-box", avec des bandes noires horizontales au dessus et en
dessous de l'image.
Non seulement l'arrivée du DTV nous offre une qualité d'image presque parfaite, mais
le format inclus également l'encodage audio numérique, qui améliore grandement la
qualité. Le standard audio numérique pour tous les formats DTV est le "Dolby
Digital". Ce qui permet au standard une vaste gamme d'algorithmes, selon les
besoins. "Dolby Digital" est un format beaucoup plus flexible que simplement le
format 5.1 canaux surround sound, il offre la possibilité d'encoder en formats 1.0
canaux (mono), 2.0 canaux (stéréo, incluant les option Dolby Pro-Logic et Pro-Logic
II). Les fans du cinéma maison pourrons également profiter du format 6.1 Extended
Surround Sound et le Dolby Digital EX. Dolby Digital utilisera seulement la quantité
de data nécessaire, selon les paramètres choisis.
Il est également à noter que le câble numérique, tel qu'offert présentement, n'est pas
un signal DTV (à quelques exceptions près). Il s'agit d'un signal analogique,
transformé en numérique pour sa transmission et retransformé en format analogique
de façon à ce que votre téléviseur puisse le présenter.
*- La largeur de bande passante utilisée pour diffuser les signaux numériques n'est
pas fixe. Elle évoluera en fonction de différents facteurs, dont les plus importants
sont le prix de la bande passante versus la qualité d'image et l'évolution des
algorithmes d'encodage qui permettrons de réduire la taille du signal sans affecter la
qualité. Présentement on prévoit utiliser entre 12 et 19 Mbps, mais ce chiffre pourrait
encore baisser.
Glossaire des termes et abréviations:
4:1:1 : Méthode d'échantillonnage de vidéo numérique par composante qui utilise un

échantillon luminance/Bleu Cb(composante bleue) et un échantillon luminance/Rouge
Cr (composante rouge) pour 4 échantillons de luminance(Y).
4:2:0 : Méthode d'échantillonnage de vidéo numérique par composante qui utilise un
seul échantillon Cb (composante bleue) et Cr(composante rouge), soit 1 ligne sur
deux, pour 4 échantillons de luminance.
4:2:2 : Méthode professionnelle d'échantillonnage de vidéo numérique par
composante. Tous les pixels sont échantillonnés sur leur valeur de luminance(Y). Un
pixel sur deux est échantillonné pour la différence luminance/Bleu Cb(composante
bleue) et luminance/rouge Cr(composante rouge).
4:3 : Format de télévision écran large dont le rapport d'écran largeur sur hauteur
d'image est 4 / 3 soit 1.33 fois plus large que haut.
5.1 : Configuration de haut-parleurs la plus classique du "Cinéma maison" sur 4
enceintes plus 1 caisson spécial pour les effets de type explosion et effets spéciaux
(sub-woofer).
16:9 : Format de télévision écran large dont le rapport d'écran largeur sur hauteur
d'image est 16/9 soit 1.78 fois plus large que haut.
525/60 : Système de diffusion TV de 525 lignes par image et 60 trames entrelacées
(30 images) par seconde. Correspond au standard de télévision NTSC.
625/50 : Système de diffusion TV de 625 lignes par image et 50 trames entrelacées
(25 images) par seconde. Correspond aux standards de télévision PAL et SECAM.
1/2 D1 : Une des résolutions d'image MPEG-2 de 352 x 576 (PAL/SECAM) ou 352 x
480(NTSC) utilisée dans le format DVD-Video.
2/3 D1 : Résolution d'image MPEG-2 de 480 x 576 (PAL/SECAM) ou 480 x
480(NTSC) exploitée dans le format SVCD.
2-2 pulldown : Le processus de transfert d'un film cinéma 24 images par seconde
en vidéo PAL/SECAM 25 images par seconde. Le film est enregistré avec une
augmentation de sa vitesse de lecture de 4 %.
2-3 pulldown : Le processus de transfert d'un film cinéma 24 images par seconde
en vidéo NTSC 30 images par seconde en diffusant une des images en deux trames
puis la suivante en trois trames.
3-2 pulldown : Variation du 2-3 pulldown. La première image est diffusée sur 3
trames au lieu de deux.
8/16 modulation : Une des étapes de la transformation de données brutes en
données stockées sur un DVD, aussi appelée EFM+.
8-VSB : Acronyme pour la méthode de transmission utilisée pour la télédiffusion
numérique terrestre au Canada et aux états-Unis. Huit niveaux d'amplitude séparés.
La technologie de diffusion "vestigial side-band" ou par bande latérale résiduelle est
une technique de modulation analogique utilisée pour réduire la largeur de spectre
requise pour la diffusion d'informations par câble ou terrestre.
AAU(Audio Access Unit/Unité d'Accès Audio) : Voir Access Unit.

A/B Roll Editing(Montage A/B RoLL) : Montage effectué en utilisant deux sources
vidéo, A & B, et un "mixeur" qui permet une variété de transitions entre elles.
A/B Switch : Équipement qui accepte les signaux (Optiques ou électriques) de deux
sources (A & B) et qui permet d'aiguiller de un à l'autre, automatiquement ou
manuellement.
AC-3 : Standard audio pour 5.1 canaux approuvé pour la télévision numérique au
Canada. AC-3 offre une qualité audio numérique similaire au CD et fournit cinq
canaux de pleine largeur de bande: Gauche, Droite, Centre, Arrière (ou côté) gauche,
Arrière (ou côté) droit, plus un caisson d'extrèmes graves, LFE, (effets de basse
fréquence), pour un total de 5.1 canaux. AC-3 est un membre de la famille de
systèmes de son développés par Dolby Labs.
ACATS : Advisory Committee on Advanced Television Service.
Access Unit: Dans le cas de l'audio, un "access unit" est la représentation codée
d'un "frame" audio. Dans le cas du vidéo, un "access unit" inclut toute l'information
codée pour une image et tous les "bits" de remplissage qui suivent, jusqu'au prochain
"access unit"(non inclus).
ACL (écran d'affichage à cristaux liquides) : Cette technologie offre un format
d'écran plat et utilise une couche de cristaux liquides très mince. Elle offre une
brillance d'image très élevée et une bonne reproduction des couleurs. La taille des
écrans HD ACL peut atteindre jusqu'à 96 cm (38 po). La technologie ACL est
également utilisée dans plusieurs télé-projecteurs.
A/D : Convertisseur Analogue à numérique (Analogue/Digital).
ADPCM (Adaptive differential pulse code modulation) : Technique de
compression d'un fichier audio qui encode la différence entre un échantillon sonore et
le suivant par prédiction, de manière non destructive ou destructive selon ses
déclinaisons.
AES/EBU (Audio Engineering Society /European Broadcasting union) :
Standard professionnel régissant la vitesse de transfert d'information
audionumérique, et ce, à travers deux canaux.
Afterburner : Dispositif permettant d'extraire l'information incorporée dans le signal
vidéo et de le transformer en format texte. Ce "texte" est alors "brûlé" sur l'écran
vidéo à l'intérieur d'une fenêtre. Surtout utilisé pour brûler le "time code", mais aussi
pour d'autres informations pouvant servir à la post-production, par exemple.
AIF (Audio Interchange File) : Un format de fichier audio développé par Apple.
Les fichiers .AIF sont populaires pour transférer entre les ordinateurs Macintosh et les
PC.
Aliasing : Défauts ou distorsion de l'image télé ou de l'audio. Les défauts
apparaissent souvent comme des lignes diagonales en escalier et des sautillements
ou points brillants. En vidéo numérique, l'aliasing est causé par un échantillonnage
insuffisant ou un mauvais filtrage du signal numérique.
Alpha channel : Information attachée à chaque pixel qui représente comment ce
pixel doit être "mixé" avec le background et/ou vidéo (transparence).
Analogique (signal)[Analogue Signal] : Méthode de transmission d'un signal
vidéo par la variation continue d'un signal électrique.
Anamorphique (Anamorphic) : La compression horizontale d'une image 16:9 dans
un plein écran 4:3 qui entraine la distorsion verticale de l'image.
Anchor Frame : Un frame vidéo utilisé pour les prédictions. Les "I-Frames" et les "P-
Frames" sont généralement utilisés comme "anchor frames", mais jamais les "B-
Frames".
Ancillary Time Code (ATC) : Cette information de contrôle de temps et d'adressage
(SMPTE RP188) est encodée dans l'espace réservé au métadata d'un signal vidéo
numérique. Elle contient le même type d'information que le LTC et remplace le VITC
dans les système de télévision haute définition.
ANSI : American National Standards Institute.
API (Application Program Interface) : Une interface entre le système d'opération
et les applications incluant la manière utilisée par les applications pour communiquer
avec le système d'opération et les services que celui-ci met à la disposition des
applications. Par exemple un API pourrais rendre possible a un programme qui
l'utilise d'ouvrir des fenêtres sous Windows.
Artefact : Terme générique pour définir les éléments indésirables et/ou défectueux
dans une image vidéo (effets de blocs, bruits vidéo, etc.) et indépendant des réglages
du téléviseur. Les plus communs en vidéo analogue ont trait à la couleur et/ou la
luminance. En numérique, ils consistent en macroblocks, qui ressemblent à de la
pixellisation de l'image vidéo.
ASCII (American Standard Code for Information Interchange) : Un code
standard pour la transmission d'information consistant en 128 lettres, nombres,
symboles et codes spéciaux qui sont chacun représentés par un nombre binaire
unique.
Aspect Ratio (Format de l'image) : Rapport entre la largeur et la hauteur d'un
écran de télévision ou de visualisation.
Asynchrone (Asynchronous) : Qui manque de synchronisation. En vidéo, un signal
est dit asynchrone lorsqu'il n'est pas en synchronisation avec le signal de référence
du système.
Asynchronous Transfer Mode (ATM) : Protocole de transport de signaux

numériques permettant de transporter efficacement, à l'intérieur d'un réseau à
large bande, autant l'information à flux constant que par vagues (constant rate and
bursty information).
ATEL : Advanced Television Evaluation Laboratory.
ATSC (Advanced Television Standard[Systems] Commitee) : Organisme
américain chargé des normes de diffusion numériques en télévision. ATSC est devenu
le terme désignant toute la nomenclature sur les standards de diffusion en
numérique.
ATTC : Advanced Television Technology Center.
AU(aussi SND) : Format de fichiers audio interchangeable utilisé dans les
ordinateurs Sun Sparcstation, Nest et Silicon Graphics(SGI).
Authoring : Terme général employé pour désigner la création d'un titre vidéo (DVD,
Video-CD, SVCD, etc...), cela comprend l'encodage de la vidéo et des images, le
dessin des interfaces, l'organisation de l'interactivité, etc... Les logiciels qui réalisent
ce type d'opération sont appelés des systèmes auteurs.
AVI (Audio-Video Interleave) : Format de fichier utilisé par Windows pour le
stockage des images vidéo et du son, dans lequel les données vidéo alternent avec
les données audio, accélérant ainsi la vitesse de restitution.
Axis : Le centre d'un câble de fibre optique.

Balanced Audio (signal Audio balancé) : Méthode de transmission d'un signal
audio résistant aux interférences qui consiste à transmettre un signal et sa
contrepartie électrique inverse. L'accumulation de bruit durant la transmission est
alors cancellée alors que les deux signaux sont re-combinés à la réception. Cette
méthode de transmission est surtout utilisé pour dans le cas de câbles long et/ou
exposés.
Balayage entrelacé : Certains téléviseurs HD et la plupart des téléviseurs
traditionnels utilisent la méthode de balayage "entrelacé". Chaque cadre ou image est
affiché en deux champs. L'image est affichée 30 fois par seconde en deux étapes.
Dans la première étape, les lignes impaires sont affichées, et dans la deuxième, les
lignes paires. Chaque champ affiche la moitié de l'image avec les lignes de balayage
paires dans l'un et impaires dans l'autre. Le téléviseur n'affiche en réalité que la
moitié de l'image mais en raison du défilement des cadres à une vitesse de 30
cadres/s, l'oeil humain ne détecte pas la moitié manquante.
Balayage Progressif : Le cadre où l'image apparaît en entier immédiatement (un
seul champ, par rapport au balayage entrelacé). Chaque ligne est balayée
progressivement en ordre. Certains téléviseurs HD utilisent la méthode de balayage
progressif. Cette méthode transmet et affiche l'image 60 fois par seconde en une
seule étape. L'image qui en résulte est ainsi sans scintillements et sans artefacts, ce
qui lui confère plus de réalisme. Certains types d'écrans, tels que ACL, plasma et
DLP, utilisent le balayage progressif, tandis que les écrans CRT peuvent utiliser ce
type de balayage (ex. : écrans d'ordinateurs) ou le balayage entrelacé.
Bandwith (largeur de Bande) : L'intervalle complet de fréquences requises pour le
fonctionnement d'un système électronique. Six megaHertz ont été alloués aux
signaux de télévision analogiques. Cependant, à l'aide de la compression numérique,
beaucoup plus de données numériques peuvent être transmises dans la même
largeur de bande passante.
Baud : Unité de vitesse de transmission équivalent au nombre "d'éléments de
signaux" par secondes. Baud est équivalent a "bits per second" dans le cas ou chaque
"élément de signaux" est égal à exactement 1 bit. Le terme "baud rate" est utilisé en
référence à la vitesse de transfert utilisée dans un transfert entre deux ordinateurs.
Normalement, le taux de transfert doit être identique entre les deux ordinateurs si on
veut avoir une communication réussie.
BER (Bit Error Rate) : Portion de bits transmise dans un signal qui est reçu
incorrectement.
Bi-directional pictures ou B-pictures ou B-frames : Images (frames) qui utilisent
un frame futur et passé comme référence. Utilisés en compression numérique pour
augmenter le taux de compression.
Bitmap : Rangée de pixels bi-dimensionnels représentant la vidéo et les illustrations
graphiques.
Bit : La plus petite unité d'information selon laquelle la communication numérique est
basée. Aussi l'impulsion (électrique ou optique) qui transporte cette information.
Bit rate : La vitesse à laquelle le flux d'information compressé est envoyé dans le
canal de transmission.
Blanking level : Dans un signal vidéo composite, indique le niveau séparant l'image
proprement dite de l'information de synchronisation.
Block : Un block est un ensemble de 8X8 pixels ou un coefficient DCT représentant la
luminance et la chrominance.
BNC : Connecteur coaxial utilisé principalement en
vidéo.
Bouquet : Ensemble de programmes composant une

offre commerciale.
Bps : Bits per second.
Brightness (Brillance) : [Réglage de]Luminosité d'une image.
Broadband (Bande passante large) : Services de transmission en mesure de
maîtriser plus de fréquences que celles requises pour la transmission de qualité de la
voix.
Brouillage : Codage d'un signal destiné à empêcher sa réception sans un dispositif
spécifique assurant la fonction inverse.
Bytes (Octet) : Un groupe de bits de données traités ensemble. Un octet est
composé de 8 bits. Il y a les kilo-octets, les Méga-octets, les Giga-octets, les Téra-
octets, etc...
1 octet= 8 bits, 1 Kilo-octet (Ko)= 1000 octets,
1 Méga-octet (Mo)= 1 000 000 octets (1 million),
1 Giga-octet (Go)= 1 000 000 000 octets (1 milliard), etc...
Byte-aligned : Un bit, à l'intérieur d'un flux de bits codés (bit stream), est aligné si
sa position est un multiple de 8 bits à partir du premier bit du flux.
C : Abréviation pour chrominance.
Cadre : Voir Frame.
Canal : Un segment du spectre de 6MHz(largeur de bande) utilisé pour la
transmission terrestre (chaînes 2-69) ou par câble, qui transmet un programme
analogique NTSC ou encore un ou plusieurs programmes numériques.
CEA (Consumer Electronics Association): Association américaine regroupant les
fabricants de produits électroniques.
CAT (Conditionnal Access Table) : Table d'Accès Conditionnel. Indique au terminal
les pids transportant les EMM (les droits de chaque abonné).
CATV (Community Antenna Television, Câble TV) : Dans sa forme initiale, la
télévision par câble était un système d'antennes desservant une communauté
spécifique.
Cb, Cr : Signaux de différence de couleur entre la luminance et la couleur bleue (Cb)
ainsi que la luminance et la couleur rouge (Cr).
CCD (Charged coupled device) : Capteur qui, à l'intérieur une caméra, transforme
les signaux lumineux et de couleurs en signaux électriques susceptibles d'être
enregistrés ou numérisés.
CCIR (Comite Consultatif International des Radiocommunications) A été
transformé en ITU (International Telecommunication Union).
CCIR 601 : paramètres de codage en studio de la télévision numérique pour des
formats standards d'image 4:3(normalisé) et 16:9(écran panoramique). Traitement
de la vidéo en composante 4:2:2. Ce standard est maintenant nommé ITU-R BT.601.
CD (compact Disc) : Un moyen de stockage optique inventé par Philips et Sony.
CD-DA (Compact Disc Digital Audio) : Le format original de musique numérique
sur CD définis par le RED BOOK (stockage de l'information sous forme PCM) et à
l'origine de tous les autres formats de CD.
CD+G (Compact disc plus Graphics) : Une variation du format CD qui incorpore
des informations graphiques dans les données audio ce qui permet l'affichage sur
lecteurs compatibles (CD-i par exemple) d'images ou de textes simplifiés. Utilisé
principalement pour des applications karaokés.
CD-i (Compact Disc interactif) : Standard de disques et de lecteurs multimédias
définis par le Green book en 1987 premiers lecteurs en 1991. Le CD-i supporte un
ensemble d'applications; films, jeux, éducatifs, culturels et bornes interactives et est
également compatibles avec les disques Video-CD (avec carte FMV), Photo-CD, CD+G
et CD-Audio. A été principalement soutenu par Philips jusqu'à son arrêt en 1999.
CD-R : Disque CD enregistrable une fois. Défini par le Orange Book.
CD-ROM (Compact disc read-only memory): Disque CD qui permet le stockage
de données informatiques.
CD-ROM XA (CD-ROM extended architecture) : Version hybride du CD-ROM,

avec un formatage de secteurs différents facilitant l'utilisation de données audio et
vidéo. Utilisé pour les CD-i, Video-CD, Photo-CD.
CDTV : Canadian Digital television Inc.
CEMA (Consumer Electronics Manufacturers Association) : Association
américaine regroupant les fabricants de produits électroniques.
Channel : Un médium numérique qui stock où transporte un flux (stream) de
signaux de télévision numérique.
Character Generator (Générateur de Caractères) : Appareil utilisé pour générer
des mots et/ou nombres en format vidéo. Les caractères seront subséquemment
surimposés sur le signal vidéo ou le "background".
Checksum : Une valeur simple de vérification de l'information, calculée en
additionnant tous les bytes d'un bloc. Peu fiable car elle ne vérifie que le total de bits
et non la validité de l'information.
Chroma : Caractéristique de l'information couleur, indépendante de l'intensité de
luminance. Le "hue" et la saturation sont des qualités du chroma. Les objets noirs,
gris et blanc n'ont pas de caractéristiques de chroma.
Chroma Key : Filtre qui permet à une couleur spécifique déterminée dans une
séquence d'être rendue transparente.
Chrominance(C) : La composante couleur de la lumière, indépendante de la
luminance (Y). La chrominance est ajoutée à un signal noir et blanc pour produire
une image couleur, ce qui est le principe de diffusion des systèmes de télévision PAL,
SECAM et NTSC.
CIF (Common image/Interchange format) : Utilisé pour l'échange de contenu
mondialement.
1- Pour les ordinateurs, en 352x240 pixels.
2- Pour la haute définition numérique, la structure d'échantillonnage numérique
1920x1080 est le format établi mondialement. Tous les paramètres techniques
relatifs au "scanning", la colorimétrie, les caractéristiques de transfert, etc... sont
universels. Le standard est identifié comme ITU-R BT 709-3.
Cinch : Voir RCA.
Cliff effect (ou Digital cliff) : Réfère à un phénomène que l'on retrouve dans les
systèmes vidéo numérique décrivant la détérioration soudaine de la qualité du signal
due à des erreurs de bit excessives, souvent causé par une longueur de câble
excessive, ou un problème de transmission. Le signal restera parfait même si un de
ses paramètres approche sa capacité limite d'erreur. Par contre, à un certain
moment, ces paramètres arrivent au point ou ils ne peuvent plus interpréter
l'information de manière correcte et l'image devient totalement perdue.
Closed GOP (GOP fermé) : Groupe d'images fermées, c'est-à-dire dont la dernière
image n'a pas besoin de la première image du groupe suivant pour être décodée. Un
GOP fermé est destiné à permettre le placement d'un point de montage dans un flux
MPEG.
Closed Captioning : Voir Sous-titrage code.
Coarse Wave Division Multiplexing (CWDM) : Permet de transporter jusqu'à 16
canaux d'information séparés sur un unique câble optique en utilisant des longueurs
d'ondes différentes. D’une manière générale les longueurs d'ondes sont séparées par
un intervalle de 20 nanomètres.
Coaxial : Câble composé d'un fil central isolé transportant l'information entouré
d'une tresse métallique servant de fil de masse, immunisant par là le signal véhiculé
contre les parasites.
Codage statistique (Stat Mux): Procédé de codage permettant de faire varier le

débit numérique représentant l'information à transmettre en fonction de la richesse
de cette information. Le débit baisse lorsque l'information est peu riche (correspond
à peu de mouvement ou à un contenu simple comme les dessins animés), et
augmente lorsque l'information est riche (correspond à des mouvements rapides
comme les émissions de sport ou à un contenu riche comme les films).
Code Temporel ("Time Code"): Facilite l'assemblage des images lors du pré-
montage et du montage en assurant le repérage précis des plans à monter par
l'indication de la position en heure (HH :), minute (MM :), seconde (SS :) et numéro
d’image (FF: F pour Frame).
Codec (Codeur-décodeur) : Un appareil ou logiciel qui convertit les signaux audio
et vidéo analogiques en format numérique pour la transmission. Le codec reconvertit
aussi le signal numérique reçu en format analogique.
Coded representation: Un élément d'information tel que représenté dans sa forme
encodée.
Coefficient: Nombre caractérisant l'amplitude d'une fréquence particulière dans une
transformée.
COFDM (Coded Othogonal Frequency Division Multiplex) : Multiplex par division
de fréquence orthogonale codée. COFDM peut transmettre simultanément plusieurs
flux de données, chacun occupant seulement une petite portion de la largeur de
bande totale disponible. Son principal avantage est de rendre les échos constructifs,
offrant ainsi une réception sans interférences, même dans des conditions de
propagation difficiles. C'est le standard TVN européen auquel on a préféré le 8-VSB
en Amérique.
Color Black : Signal vidéo analogique présentant une image noire. Ce signal est
souvent utilisé en tant que signal de référence pour la synchronisation des
équipements.
Color Subcarrier (sous-porteuse couleur) : Fréquence qui transporte
l'information sur la couleur dans un signal vidéo composite de base. Un signal de
synchronisation de 3.58MHz est ajouté au début des lignes horizontales pour
permettre de synchroniser les circuits de décodage des moniteurs de visionnement
avec la source vidéo.
Compensation de mouvement : Lors du décodage d'un fichier MPEG, action de
reconstruire une image à partir de vecteurs de mouvements appliqués sur des blocs
déjà décodés.
Component Video (Composante): En produisant une image couleur, un système
de télévision commence avec trois canaux d'informations; Rouge (Red), Vert (Green)
et Bleu (Blue), que l'on appelle aussi RGB. Il s'agit d'une forme de vidéo component.
Dans le procédé de transformer ces canaux pour la distribution, ils sont souvent
convertis à Y, R-Y, et B-Y ou Y Pb Pr. Il s'agit là d'une autre forme de vidéo
component. Le terme component représente un certain nombre d'éléments
nécessaires à la formation d'une image.
Composite Video : Un seul signal vidéo qui contient l'information sur la luminance,
la couleur et la synchronisation. NTSC, PAL, et SECAM sont des exemples de
systèmes vidéo composite.
Compression : Méthode de réduction du nombre de bits requis pour enregistrer ou
pour transmettre des programmes en enlevant les données redondantes et/ou les
données jugées non essentielles de l'image et du son numérique. Le standard de
transmission de TVN au Canada utilise la compression vidéo MPEG-2 et le code de
compression audio AC-3. La compression permet la transmission de plus de
programmes sur un seul canal.
Compression à débit fixe : Techniques conçues pour produire un flux de données
à débit constant.
Compression des données : Procédé de réduction du débit des données
numériques réalisé en enlevant les données redondantes et/ou les données jugées
non essentielles. Les données étant les éléments d'information vidéo, audio et autres.
Conditionnal Access (Accès conditionnel) : Technique alliant des opérations de
brouillage et de gestion d'abonnement limitant l'accès aux programmes en diffusion
grâce à une carte à puces assurant le débrouillage dans le terminal de l'abonné.
Connecteur DB (Data Bus): Connecteurs situés à l'arrière d'un ordinateur et
caractérisé par son nombre de broches (DB 9 ou DB 25, 15, 50 etc.).
Connexion vidéo à composantes (Component Video Connections) : Maintenant

commune sur la plupart des téléviseurs de meilleure qualité, la vidéo à composantes
n'entraîne qu'une très légère compression. Les connexions vidéo à composantes
possèdent un câble pour la luminance (noir et blanc) et deux pour les signaux de
différentes couleurs.
Connexion vidéo composite (Composite Video Connections) : Méthode utilisée
pour interconnecter appareils et périphériques vidéo (décodeur numérique et
téléviseur analogique par exemple) qui transmettent le signal sur un seul câble. Cette
méthode n'est appropriée que pour transmettre des signaux analogiques NTSC.
Connection S-Vidéo : Méthode d'interconnexion des équipements de vidéo (tels que
le DVD et le téléviseur analogique) par l'envoi d'un signal à deux composants
séparés, luminance (Y) et chrominance ou couleur encodée (C). La connexion S-Vidéo
utilise un câble qui se termine en un connecteur miniature à 4 voies (parfois un
connecteur à 7 voies utilisé pour les ordinateurs afin de permettre la transmission
d'un signal composite NTSC). La connexion S-Vidéo améliore de beaucoup la qualité
de l'image.
Constant bit rate (CBR) : Mode d'encodage vidéo du MPEG ou le flux de données
est compressé à un débit constant. Un même débit d'information est affecté pour
traiter les scènes simples et complexes à encoder, ce qui limite la qualité de certaines
scènes.
Constant angular velocity (CAV): Système de rotation de disque dans lequel la
vitesse de rotation du disque est constante. Les autres systèmes sont le CLV et ZCLV.
Constant linear velocity (CLV): Système de rotation de disque dans lequel la
vitesse linéaire parcourue sur le disque est maintenue constante en augmentant ou
réduisant la vitesse de rotation du disque.
Content Protection for Prerecorded Media (CPPM) : Système de protection du
DVD-Audio.
Content Protection for Recordable Media (CPRM) : Système de protection des
DVD enregistrables.
Contraste : Différence de luminance entre les parties les plus claires et les plus
sombres d'une image.
Conventional definition television (CDTV) : Terme utilisé pour décrire le système
de télévision analogue NTSC. Voir aussi Standard definition television.
Conversion du format (Format Conversion) : Procédé de codage/décodage et de
ré-échantillonnage de l'image permettant de changer le format des données
numériques.
Conversion vers le bas (downconversion) : Procédé qui consiste à réduire le
nombre de pixels et/ou format d'affichage (Voir conversion vers le haut).
Conversion vers le haut (Upconverting) : Procédé qui accroît le nombre de pixels
ou le débit d'images ou le format de balayage pour afficher une image. On y arrive
par interpolation des pixels existants pour en créer de nouveaux plus rapprochés. Le
procédé n'accroît pas la résolution de l'image. Utilisé pour la conversion de la
définition standard en haute définition.
Convertisseur numérique : Appareil assurant la réception, le décodage et l'envoi
au téléviseur (NTSC) désigné de l'image et du son de la transmission TVN
sélectionnée.
Convertisseur (set-top box) : Boîtier non intégré au téléviseur permettant au
téléspectateur de recevoir sur son téléviseur analogique les signaux numériques.
Convertisseur numérique/analogique (D/A, digital to analog) : Boîtier non
intégré au téléviseur permettant au téléspectateur de recevoir sur son téléviseur
analogique les signaux numériques.
Couche (Layer) : En MPEG-1 Audio, le numéro de couche (1, 2, 3) correspond

à l'utilisation d'algorithmes de compression différents.
CRC (Cyclic Redundancy Check) : Cycle redondant de vérification de la correction
de l'information.
Cross-interleaved Reed Solomon code (CIRC) : Méthode de correction d'erreur
utilisée sur les CD.
CSA (Common Scrambling Algorithm): Algorithme d'embrouillage spécifié par le
standard DVB.
CTL (Control Track) : Piste de contrôle permettant au magnétoscope de retrouver
plus facilement la piste vidéo et lui fournissant également des indications sur le time
code lorsque le VITC ou le LTC n'est plus lisible. Si le time code fait défaut, le CTL
fonctionne au moins comme un compteur image relatif.
DARS (Digital Audio Reference Signal) : Signal de référence audio utilisé pour la
synchronisation des studios audio numériques.
DAT (Digital Audio Tape) : Système d'enregistrement numérique (32, 44.1 ou 48
KhZ, 16 bits, 2 canaux) sur bande magnétiques (débit 273.1Kbs, vitesse 8.15 mm/s)
initialement prévu pour l'enregistrement audio/son numérique (pro) mais aussi
souvent détourné de sa fonction première pour de l'enregistrement de données
"informatiques". Les lecteurs/enregistreurs DAT informatiques/audio sont bien sûr
incompatibles entre eux.
Data element : Un élément d'information tel que représenté avant l'encodage et
après le décodage.
dB (Decibel) : L'unité standard utilisée pour indiquer les gains et/ou perte de
courant le long d'un signal. Elle indique le ratio logarithmique du courant
"sortant"(output) divisé par le courant "entrant"(input). Cette méthode d'échelonnage
des niveaux est importante étant donné que la sensitivité visuelle et sonore de
l'homme est logarithmique, ce qui représente une large gamme dynamique.
DBS (Direct Broadcast Satellite ou DTH, Direct to Home): Transmission directe
par satellite. Transmission faisant habituellement appel au codage MPEG-2 et à la
transmission QPSK.
DCT (Discrete Cosine Transform) : Transformée Cosinus Discrète.
Débit (taux) de transfert des données : Vitesse de transmission des données
exprimée en "bits" par seconde (bps). Plus grande est la vitesse, plus de données
sont transmises, ce qui se traduit généralement par une meilleure qualité d'image et
de son. La vitesse de transmission des données vidéo est exprimée en mégabits par
seconde (Mbps, 106) et celle des données audio en kilobits par seconde (kbps, 103).
Decoded stream : La reconstruction d'un flux de bits compressés.
Decoder (décodeur): Outils de décodage d'un signal compressé.
Decoding (process) : Procédé défini par le standard de télévision numérique
consistant à lire un flux de bits encodés et à recréer une image ou un signal audio.
De-embedding : Procédé permettant d'extraire un signal d'un autre et de générer
deux signaux séparés. Les deux peuvent être des standards différents. Ce terme est
souvent utilisé pour décrire le procédé d'extraction d'un signal AES audio qui est
intégré dans un signal vidéo numérique.
Degauss (démagnétisation) : Procédé de démagnétisation d'un moniteur. Des
champs magnétiques sont utilisés pour bouger le flux d'électrons sur la surface du
tube écran. Un champ Magnétique défectueux peut parfois causer le flux d'électron
d'aller là où il n'est pas supposé. Pour corriger cela, la plupart des moniteurs ont une
fonction de démagnétisation automatique lorsque le moniteur est ouvert. Les plus
sophistiqués ont la capacité additionnelle de le faire manuellement.
Delay (délai) : Retard du signal. Le traitement de l'image au moyen des
générateurs d'effet vidéo, de convertisseurs analogique/numérique et du TBC
entraîne un retard d'une à plusieurs images. Les systèmes de montage doivent tenir
compte de ce retard pour garantir le montage image à l'image près et de manière
synchrone.
Demux : Abréviation de "De-multiplexing", qui est la séparation de flux de data
"multiplexés" en signal distincts. Peut aussi référer à la séparation de signaux AES
audio d'un signal vidéo numérique (voir de-embedding).
D-frame : "Frame" code selon le mode MPEG-1 en utilisant les coefficients DC
seulement.
Diffusion de données parallèles (Datacasting): Transmission de données ou
d'informations supplémentaires reliées ou non au programme.
Diffusion terrestre : Distribution des signaux de télévision et de radio sur les ondes
de fréquences UHF/VHF. Les diffusions peuvent être analogiques ou numériques.
Digital Betacam (Beta numérique) : Format numérique en composantes. Son
faible taux de compression (2:1) garantit une image de haute qualité (4:2:2 pour 10
bits). Les caméras peuvent enregistrer en 4:3 et 16:9.
Digital S : Format numérique en composantes de JVC. Basé sur la cassette VHS.
Taux de compression relativement faible (2.3:1).
DIN : Format de connecteur 5 broches.
Dispersion d'énergie (brassage) : Combinaison logique d'un signal numérique

avec une séquence pseudo-aléatoire pour rendre son spectre uniforme après
modulation.
DLP (Digital Light Processing/Traitement numérique de la lumière) :
Technique où l'image affichée est produite par un ensemble de micro miroirs
dynamiques formé sur une plaquette, chacun pouvant refléter la lumière source pour
former un pixel sur l'écran. Chaque micro miroir contrôle le niveau de lumière
transmis à l'écran pour le pixel. La résolution est définie par la taille de la plaquette
de micro miroirs. Cette technique est utilisée par certains téléviseurs et projecteurs
HD de haute gamme.
Dolby Digital (auparavant Dolby AC-3) : Standard audio 5.1 canaux approuvé
pour la télévision numérique ATSC utilisant un rapport de compression approximatif
de 13:1. Fait appel à six canaux audio séparés: Gauche, Centre, Droite, Arrière (ou
côté) gauche, arrière (ou côté) droit et caisson d'extrêmes graves-LFE "effets de
basse fréquence"(considéré comme le .1 en raison de sa largeur de bande limitée).
Dans bon nombre de téléviseurs, les 5.1 canaux sont convertis en deux canaux
stéréo et ne fournissent pas le son complet ambiophonique des 5.1 canaux.
Downconverter : Convertisseur qui prends un signal Haute définition (HDTV) et le
converti en signal vidéo numérique standard (SDTV).
(Voir: Conversion vers le bas).
Downstream : Terme utilisé en diffusion indiquant un point (équipement ou autre)
plus prêt du point final de transmission.
Dpi (Dot per Inch, point par pouce [ppp]) : C'est le nombre de pixels créés sur
une surface d'un pouce. Plus ce nombre est grand, meilleure sera la résolution et la
définition de l'image.
Drop Out : Défaut d'enregistrement ou de lecture de la cassette vidéo. Sur les
bandes analogiques, il se manifeste par une ligne horizontale blanche, qui peut être
partiellement corrigée par le TBC. Sur les bandes numériques, un correcteur d'erreur
masque les drop outs. De plus, les informations de l'image étant réparties sur
l'ensemble de la piste vidéo, un drop out ne fait qu'élever légèrement le niveau du
bruit de l'image. S'il y a trop de drop outs, le correcteur d'erreur ne suit plus et des
blocs de mosaïques apparaissent.
DSL (Digital Subscriber Line ou Digital Subscriber Loop) : Une manière de
transmettre de l'information par lignes téléphoniques ordinaires de cuivre, également
appelé High-speed DSL (HDSL, DSL haute vitesse).
DSM : Digital storage media.
DTH (auparavant DBS) : Service de télévision livré directement à la maison par
satellite.
DTS (Digital Theatre Sound System) : Standard audio ambiophonique multicanal
5.1 similaire à Dolby Digital (Dolby AC-3) qui est le standard reconnu de la TVN. DTS
est utilisé dans les cinémas et est présent sur plusieurs DVD.
DTS (Decoding Time Stamp) : Marqueur Temporel de Décodage en compression
MPEG-2. Indique quand une unité d'accès doit être décodée.
DVB (Digital Video Broadcasting) : Diffusion vidéo numérique.
DVC (Digital Video Cassette) : Cassette vidéo numérique.
DVCR : Digital video cassette recorder.
DVD (Digital Versatile Disk) : Disque de même format que le DC mais possédant
une capacité de stockage 7 fois supérieure sur un seul côté. Peut contenir des longs
métrages et prises complémentaires en plus d'une bande audio plurilingue de haute
qualité.
DVE (Digital Video effects, Effets Vidéo Numérique) : Un DVE est créé en
prenant n'importe quelle source vidéo et en la manipulant à l'intérieur d'un cadre
vidéo.
DVI (Digital Video Interactive, Vidéo Numérique Interactive) : Système
interactif d'information multimédia où la vidéo numérique offre une image animée
plein écran avec la fréquence d'images de la télévision actuelle (jusqu'à une heure
de vidéo). Les systèmes CD-I et DVI proposent, outre le texte, son et graphique, des
images de qualité photographique et le moyen de se déplacer à l'intérieur de cet
ensemble d'informations.
EBU : European Broadcasting Union.
ECM (Entitlement Control Message) : Composante de contrôle d'accès permettant
de désembrouiller une composante cryptée. Transporte le mot de contrôle et les
conditions commerciales du programme.
Écran 4:3 : Format d'écran traditionnel d'un téléviseur NTSC de 4x de largeur sur 3x
de hauteur.
Écran 16:9 : Format grand écran des téléviseurs numériques en Haute Définition et
de certains en définition standard, de 16x de largeur sur 9x de hauteur.
Écran à plasma (PDP): Cette technique construit une image d'après un grand
nombre de pixels formés dans un panneau en verre. Les pixels sont contrôlés
individuellement, offrant une image sans scintillements de brillance élevée. L'écran
à plasma s'installe au mur. Les écrans PDP sont disponibles en tailles jusqu'à 160 cm
et conviennent ainsi au home cinéma.
Écran de télévision à tube Cathodique (CRC/Cathode Ray Tube) : Téléviseur
utilisant le tube cathodique pour l'affichage, une technologie utilisée depuis des
années. L'image s'affiche sur un écran luminescent à couche de phosphore balayé par
un faisceau d'électrons. Il peut produire des images lumineuses d'une excellente
résolution.
EDH (Error Detection and Handling) : Méthode permettant de déterminer quand
une error de bit s'est produite dans un réseau vidéo numérique (SMPTE RP-165). On
inclus dans le "anciliary data" des bit de références permettant de vérifier la qualité
de la transmission du signal.
Editing : Procédé par lequel un ou plusieurs signaux vidéo (numériques ou
analogues) sont manipulés et/ou mélangés pour donner un nouveau signal à la
sortie.
EIT (Event Information Table): Table d'Information d'évènement. Renseigne le
téléspectateur sur les programmes en cours et à venir.
Electromagnetic Spectrum (Spectre électromagnétique) : Gamme des
fréquences des radiations électromagnétiques, de zéro à l'infini.
Elementary Stream (Flux élémentaire) : Flux élémentaire de sortie d'un

compresseur et véhiculant un seul signal vidéo ou audio.
Elementary stream clock reference (ESCR) : Référence temporelle servant
à synchroniser les décodeurs du flux d'information.
Embedding : Procédé permettant de combiner un type de signal avec un autre de
manière à ce que les deux puissent être transportés en utilisant le standard d'un seul
des deux. Souvent utilisé pour décrire le procédé permettant d'inséré un signal audio
AES à l'intérieur d'un signal vidéo numérique.
EMM (Entitlement Management Message) : Information d'accès conditionnel
déterminant les niveaux d'autorisation des services pour un décodeur particulier. On
peut adresser un décodeur ou un groupe de décodeurs.
Encoder : Outils d'encodage d'un signal compressé.
Encoding (process) : Procédé défini par le standard de télévision numérique
consistant à lire une image ou un signal audio et recréer un flux de bits encodés.
Encryptage : Procédé de codage des signaux qui requiert un code ou une clé
particulière pour la pleine représentation de la programmation et du contenu
disponible à l'abonné du service de télévision interactive ou téléspectateur qui
possède un téléviseur numérique.
ENG (Electronic News Gathering) : Terme utilisé pour décrire les moyens
électroniques de reportage.
Entropie : Quantité d'information contenue dans un symbole de communication.
C'est aussi la limite inférieure de la compression sans pertes. Si une image est
compressée davantage que son entropie, il y a perte d'information. En théorie de
l'information, mesure de la perte d'information causée par les erreurs dues au
hasard, qui peuvent se produire pendant la transmission de signaux ou de messages.
Entropy coding : Encodage à moindre perte, de longueur variable, d'une
représentation numérique d'un signal pour réduire la redondance.
Entry point : Réfère à un point, dans un flux de données, après lequel un décodeur
s'initialise et peut commencer le décodage.
EPG (Electronic Program Guide/Guide de programmation électronique) :
Affichage à l'écran des canaux et des horaires des programmes.
ETSI (European Telecommunications Standards Institute) : Organisme
établissant les normes européennes de télécommunications.
Ethernet : Protocole standardisé (IEEE 802.3) pour un LAN à 10Mb/s. Ethernet est
utilisé comme standard pour la transmission de média tel le câble coaxial et la fibre
optique.
Event (événement) : Un "évènement" est défini comme une collection de flux
élémentaires ayant une base de temps commune, étant associés à la même heure de
départ et de fin.
FEC (Forward Error Correction) : Système dans lequel une redondance est
ajoutée au message, à l'émission, de façon à ce que les erreurs soient corrigées
dynamiquement à la réception dans le décodeur.
FFT (Fast Fourier Transform) : Transformée de Fourier Rapide.

Fibre Channel (Fiber Channel) : Lien data haute vitesse capable de soutenir un
taux de transfert de 2 Giga bytes/sec en utilisant un câble de fibre optique. Le
standard supporte la transmission d'information pour les canaux les plus populaires
et les réseaux standard, incluant SCSI, HIPPI, Ethernet, Internet Protocol, et ATM.
Fiber-optic Cable (Câble de fibre optique) : Un câble transportant un faisceau de
lumière laser, encodé de signaux numériques, plutôt que de l'énergie électrique. Fait
de fibre de verre léger, les câbles de fibre optique peuvent transmettre de grande
quantité d'information par secondes.
Field (champ) : Dans le signal vidéo entrelacé, un champ est l'assemblage des
lignes alternatives dans un "frame". Un frame "entrelacé" est donc composé de deux
champs: pair et impair.
FireWire : Interface de transmission série à haut débit à la norme IEEE1394,
développée au départ par la société Apple. L'échange des données se fait à une
vitesse de 12, 25 ou 100 Mo/seconde. Connectable "à chaud", c'est à dire sans
éteindre l'ordinateur, l'interface accepte jusqu'à 63 périphériques connectés
simultanément. Appelée plus communément en vidéo, entrée ou sortie DV, cette
interface a été également renommée iLink par Sony.
Flux (Stream) : Envoi de données sur un réseau, tel que l'Internet, de façon à
procurer ou simuler la transmission en temps réel de vidéo et/ou d'audio.
FM (Frequency Modulation) : Méthode de transmission dans laquelle la fréquence
du transporteur varie selon le signal.
Format d'écran : Le rapport de la largeur d'écran sur la hauteur. Le terme

s'applique aussi à l'image ou à sa présentation (Voir 16:9, 4:3, etc...). Les écrans et
l'affichage traditionnels possèdent un rapport de 4 sur 3. La TVSD autorise l'affichage
en 16:9, un format requis pour la TVHD.
FPLL : Frequency and phase locked loop.
Frame : Un frame contient des lignes d'information "spatiale" d'un signal vidéo. En
vidéo NTSC, il est composé de deux champs: pair et impair.
Frame Synchronizer : Équipement qui re-synchronise un signal vidéo à un signal de
référence, tel qu'un "genlock", bi-level ou tri-level sync.
Gamma : Le "niveau vidéo de sortie"(light output) d'un CRT(cathode ray tube/tube à
rayons cathodique) est non linéaire par rapport au voltage entrant. Cette "non-
linéarité" représente une fonction exponentielle appelée Gamma. Plus simplement,
plus les couleurs deviennent pâles, plus l'oeil humain à de la difficulté à les discerner.
Un ajustement Gamma est alors utilisé pour compenser ce problème, de façon à ce
que les gammes de couleurs d'un objet, tel les ombres, puissent être discernés
correctement. Un ajustement incorrect du Gamma peut causer les couleurs d'avoir
l'air trop sombre ou trop claire, causant une perte des détails.
Génération : L'enregistrement original d'une image sera appelé la première
génération. Une copie de cet original sera la deuxième génération, etc...
Genlock : La synchronisation d'une pièce d'équipement avec une autre en utilisant
un signal vidéo (ou autre) externe. Dans les systèmes de diffusion et de
vidéoconférence, toutes les sources doivent être synchronisés entres elles.
GIF (Graphics interchange format) : Fichiers d'information graphique, utilisés par
les ordinateurs et développé par Compuserve pour la compression graphique
d'images. Maintenant communément utilisé en Internet, la compression GIF est sans
pertes et supporte la transparence, mais ne permet qu'un maximum de 256 couleurs.
GOP (Group Of Pictures, Groupe d'images): Consiste en une ou plusieurs images
en séquences. Un GOP commence par une image I et se termine par la dernière
image précédant l'image I suivante.
GUI (Graphic User Interface): Interface de commande et contrôle numérique pour

les usagés d'un système donné. Mac OS (Apple) et Windows (Microsoft) sont des
exemples de GUI, ainsi que les menus interactifs d'un lecteur DVD.
Half-Duplex transmission: Lien bidirectionnel dont le transfert de données est
limité à un sens à la fois. Aussi nommé "simplex transmission".
HDMI (High-Definition Multimedia Interface) : HDMI est une technologie utilisée

pour le transport des signaux numériques TVHD (décompressés), TVSD, audio et
contrôle entre les appareils à la maison comme le convertisseur et l'écran. Le
protocole est compatible avec celui de DVI mais les connecteurs sont plus petits. Les
donnés sont encryptées sous le protocole HDCP afin de les protéger.
High definition television (HDTV) : La télévision haute définition à une résolution
d'approximativement le double de la télévision conventionnelle autant dans les
dimensions horizontales (H) et verticales (V) et un ratio (HxV) de 16:9.
High level : L'échelle des paramètres d'encodage de l'image, tel que définis en
MPEG-2, qui correspondent à la télévision haute définition.
Hot Swap : Action ou procédé d'enlever une composante électronique d'un
équipement sans avoir au préalable fermé l'équipement.
HTML (HyperText Markup Language) : Langage de programmation
communément utilisé pour la création de pages Web sur Internet.
http (HyperText Transport Protocol) : Méthode utilisé pour l'adressage de
domaines sur Internet.
Hue (teinte): Rouge, jaune, bleu, etc... représentent des "teintes" de couleur, ou
types de couleur. Hue est un paramètre de couleurs qui nous permet de distinguer
les couleurs entre elles.
IEC : International Electrotechnical Commission.

Input (Entrée) : L'introduction d'un signal dans un appareil.
ISO (International Standard Organisation) : Organisme de normalisation
mondial.
Inter-coding (Intercodage) : Compression utilisant la redondance entre images
successives, également appelée codage temporel.
Interleaving (Entrelacement) : Technique associée à la correction d'erreurs et qui
répartit les paquets d'erreurs en plusieurs paquets plus petits. Aussi; réfèrent au
système d'analyse (scanning) de l'image. En format entrelacé, le système présente
d'abord les lignes impaires puis, dans une deuxième analyse (scan), les lignes paires.
Lorsqu'il y a 30 images par secondes, le moniteur montrera donc un demi frame
chaque soixantième de secondes.
Intra-coding (Intracodage): Compression travaillant entièrement à l'intérieur
d'une image, également appelée codage spatial.
Intra-coded pictures ou I-pictures ou I-frames : Images qui sont codées en
utilisant exclusivement l'information présente seulement dans l'image elle-même et
ne dépendant pas de l'information des autres images.
IRD (Integrated Receiver Decoder) : Décodeur Récepteur Intégré. Appareil
combinant le récepteur HF et le décodeur MPEG.
IRE (Institute of Radio Engineers): Unité de mesure vidéo de 1 Volt (Peak), le
Peak Vidéo est divisé en 140 unités IRE. Ceci a été fait pour rendre plus efficace la
communication des niveaux de luminance. L'amplitude du signal vidéo, du noir
(blanking, zéro volts) au peak des blancs est de 0.714286 volts ou 100 unités IRE. Le
signal de synchronisation s'étend du noir (blanking) à -0.285714 volts, ou -40 unités
IRE.
Picture Black Level : 7.5 IRE (au dessus de zéro volts)

Picture White Level : 100.0 IRE (au dessus de zéro volts)
Blanking Level : 0.0 IRE (niveau zéro volt)
Burst Pedestal : 0.0 IRE (niveau zéro volt)
Synchronization : - 40.0 IRE (sous zéro volts)
Le niveau des noirs a été élevé au-dessus de 0 IRE dans les premiers temps de la
télévision couleur pour palier à certains problèmes de transmission. La pratique se
continue toujours de nos jours. Le signal vidéo SMPTE component utilise également le
système IRE. Il est basé sur un système de 700mVolt, par rapport à 714mVolt en
vidéo composite.
ISDN (Integrated Services Digital Network) : Permet aux données d'être
transmises à haute vitesse sur le réseau téléphonique publique. ISDN opère à partir
d'un taux de transfert de base de 64 Kbits/sec, jusqu'à un taux de 2 Mbps
(communément appelé ISDN-30, car il comprend 30 canaux de transfert de base). La
plupart du monde occidental à présentement la capacité d'installer le ISDN-2, avec
128 Kbps et une croissance très rapide est prévue en général pour ISDN.
ITU : International Telecommunication Union.
Jack : Connecteur audio faisant transiter un signal mono ou stéréo, utilisé
principalement pour les micros et les casques, les prises jacks existent en plusieurs
diamètres: 6.35, mais aussi 3.5mm pour les appareils Hi-Fi de salon et 2.5mm pour
les Walkman, les magnétoscopes ou les cartes son informatiques (appelé aussi Mini-
Phone ou Mini-Jack).
Java : Un langage de programmation d'usage général développé par Sun
Microsystems plus connu pour son utilisation sur l'internet. Contrairement à d'autre
logiciels, les programmes écrit en langage Java peuvent fonctionner sur n'importe
laquelle plate-forme (incluant les set-top box), en autant qu'elles contiennent un
"java virtual machine" (java.sun.com).
JEC : Joint Engineering Committee.
Jitter : Variation de synchronisation d'un signal causé par la perte du signal de
référence de temps.
Jog : Fonction de montage permettant de se positionner précisément sur une bande
vidéo (à l'image prés) grâce, généralement, à une molette shuttle.
JPEG (Joint Photographic[Picture] Expert Group) : Groupe ayant développé la
norme de compression d'images fixes. Algorithme de compression d'images fixes
stockées sous forme numérique. C'est le format d'image le plus couramment utilisé.
Keyframe : Suite de paramètres qui définissent un point dans une transition, tel un
DVE. Par exemple, un Keyframe pourrais définir la grandeur de l'image, sa position
ou sa rotation. Tout effets DVE doit avoir un minimum de deux keyframes, début et
fin, bien que la majorité en utilisera plus que cela.
Khz (Kilohertz) : Mille cycles par secondes.
LAN (Local Area Network) : Un réseau qui connecte physiquement chaque

ordinateur ensemble, de façon à permettre à chaque utilisateur connecté le partage
de fichier et/ou d'information.
layer : Un des niveaux dans la hiérarchie des spécifications de systèmes et de la

vidéo.
Level (Niveau) : Taille de l'image d'entrée utilisée avec un profil déterminé.
Letterbox (Boite aux lettres) : Lorsqu'une image en format 16:9 est affichée sur
un écran de format 4:3, deux barres noires s'affichent, l'une au-dessus de l'image et
l'autre au-dessous. Cet effet ou format d'affichage est désigné par boîte aux lettres et
il apparaît souvent lors de la transmission de films.
LTC (Longitudinal Time Code) : Manière de coder le time code (enregistrement en
horizontal le long de la bande).
Luminance : Partie Noir & Blanc d'un signal vidéo, transporte les informations sur la
brillance, le contraste, les qualités de lumière (et d'ombres) de l'image vidéo mais
pas les informations de couleur.
Lux : Unité de mesure de l'intensité de la lumière.
Macroblock : Zone de l'image représentée par plusieurs blocs DCT de luminance ou
de différence de couleurs, blocs qui sont tous déplacés par un vecteur de
mouvement.
Main level : Paramètres de compressions numériques MPEG-2 correspondant à une
résolution maximum.
Main profile : Profile de spécifications d'encodage MPEG-2 qui devrait supporter un
large éventail d'applications.
Masking (Masquage) : Phénomène psycho-acoustique dans lequel certains sons ne
peuvent être entendus en la présence d'autres sons.
Mbps : 1 000 000 bits par secondes.
MCPC (Multiple Channel Per Carrier) : Plusieurs canaux par porteuse. Se dit
lorsqu'un transpondeur contient un ensemble de programmes multiplexés transporté
sur une seule fréquence.
Métadonnées : Données complémentaires à celles comprises dans un signal vidéo
mais non-visibles à l'écran.
MHz (Megahertz) : Un million de cycles par secondes.
Microsoft DirectX : API de bas niveau qui permet une interface média utilisateur
pour les jeux et autres applications multimédias nécessitant de haute performance.
DirectX procure un accès aux services matériels (hardware), et utilise les
accélérateurs matériels ou les émules si les accélérateurs ne sont pas présents.
MIDI (Musical Instrument Digital Interface) : Standard de connexion
professionnel pour le contrôle informatique des instruments et périphériques de
musique. La plupart des références n'invoquent que le standard â«donnée", qui est
un flux de donnée utilisé pour contrôler les instruments de musique et conserver la
"sortie"(output) de ces instruments.
M-JPEG (Abréviation de Motion Jpeg) : Norme de compression dérivée du Jpeg et
du Mpeg complètement adaptée à la vidéo. Chaque image est comprimée, comme
une photo, ce qui autorise le montage image par image.
MMDS : Système de distribution multipoints, multivoies. Système de
"Câblodistribution" sans fil pouvant être codé pour les services de télévision à la
carte.
Modem câble : Modem de données qui utilise la largeur de bande d'un système de
câble. L'accès Internet par modem câble est beaucoup plus rapide qu'avec un modem
relié à une ligne téléphonique régulière.
Moniteur : Désigne un écran dépourvu de démodulateur (tuner). Il existe des
moniteurs de type vidéo ou informatiques. Par dérivation, on emploie également le
terme moniteur pour désigner un téléviseur de diagonale réduite qu'on utilise
essentiellement à des fins de contrôle de l'image.
Monochrome : Signal de télévision noir et blanc.
Montage off line (Off-line editing) : Première étape du montage vidéo au cours
duquel on détermine la structure du montage; elle s'achève par la confection d'une
liste de montage. Elle s'effectue souvent sur un format vidéo plus avantageux ou
dans une résolution plus basse.
Montage on line (On-line editing) : Montage du matériel original effectué en
haute qualité sur un système de montage linéaire ou non linéaire d'après une liste de
décision de montage provenant du montage off line. A ce stade s'effectuent
également l'étalonnage, les effets et les titres.
Motion vector : Une paire de nombres qui représentent les déplacements
horizontaux et verticaux d'une région d'une image de référence pour prédiction.
MP3 (MPEG-1, Layer 3) : Format de compression qui utilise la couche audio de
MPEG-1. La technologie MP3 compresse les fichiers audio jusqu'à environ 1/10 de sa
taille originale, tout en offrant une bonne qualité sonore. MP3 est devenu un CODEC
très populaire pour la musique échangée sur Internet.
MP@HL(Main Profile at High Level) : Format vidéo principal du standard haute
définition.
MP@ML(Main Profile at Main Level) : Format vidéo principal du standard DVB.
MPEG (Motion Pictures Expert Group) : Groupe ayant défini les standards de
compression d'images animées.
MPEG-1 : Réfère au standard ISO/IEC 11172-1 (Systèmes), 11172-2 (Vidéo),
11172-3 (Audio), 11172-4 (Compliance Testing) et 11172-5 (Technical Report).
MPEG-2 : Réfère au standard ISO/IEC 13818-1 (Systèmes), 13818-2 (Vidéo),
13818-3 (Audio), 13818-4 (Compliance).
Multidiffusion : Terme désignant la diffusion sur un canal numérique de 2, 3 ou 4
programmes et/ou services de données à l'intérieur de la bande de 6 mégaHertz de
base allouée.
Multiplexage statistique (Statistical multiplexing ou StatMux) : Multiplexage
de débits de plusieurs programmes soumis au codage statistique précédent, visant
à exploiter les variations en sens opposé des débits des programmes pour
optimiser(minimiser) le débit global.
Multiplex de programmes (Multiplexing ou Mux) : Technique permettant de
transporter plusieurs programmes dans un seul canal de télévision au lieu d'un seul
programme diffusé, dans le cas de la télévision analogique.
Network (Réseau): Interconnexion de deux ou plus entités de communication et

habituellement un ou plus nodes de communication.
NIT (Network Information Table) : Table d'Information de Réseau. Information

véhiculée par un flux de transport et décrivant plusieurs flux de transport.
Noise reduction (réduction du bruit): Le bruit constitue la part non signifiante de
l'information; il provient de l'enregistrement, de la compression (dans les systèmes
analogiques, de l'enregistrement et du transfert). Une réduction ciblée du bruit
facilite la compression de l'image et améliore aussi la représentation de l'image
vidéo.
Nonlinear editing (montage Non linéaire) : Non linéaire réfère à ce qu'on a pas
besoin de faire le montage d'une séquence dans l'ordre final et ne demande pas de
copier les parties à mesure. Permet d'accéder à n'importe quelle partie du montage
sans avoir à re-copier ou recommencer le montage. C'est une méthode dite "non
destructive" en ce sens que ce n'est pas la vidéo que l'on change pour le montage
mais seulement la liste de montage.
NTSC (North America Systems[Standards] Committee) : Responsable de la
création des normes de production et de diffusion de la programmation analogique au
Canada et aux États-Unis, normes qui seront bientôt remplacées par les normes de
diffusion numérique ATSC.
Null paquets (Paquets nuls) : Paquets de bourrage ne transportant aucune
donnée et qui sont nécessaires au maintien d'un débit constant quand la partie utile
varie. Les paquets nuls ont toujours un PID égale à 8191.
NVOD (Near video on demand) : Accès rapide à un programme (film, sports, etc)
réalisé en répétant le dit programme sur plusieurs canaux avec un décalage entre
chaque présentations. Le tout réalisé grâce à un serveur vidéo numérique.
Octet : Voir Bytes.
Omnidirectionnel : Pour un micro; capte le son venant de toutes les directions.
Output (Sortie) : Processus qui permet à un système d'exploitation ou à un
programme d'application de transférer des données vers un périphérique de sortie tel
que l'écran ou l'imprimante, ou de les stocker sur disque ou dans un fichier, ou
encore de les envoyer vers un autre ordinateur par un réseau.
Pack : Un pack consiste en un en-tête suivi de zéro ou plus paquets. C'est une
couche dans le système d'encodage de la syntaxe.
Packet (Paquets) : Terme utilisé dans deux contextes. Dans les flux de
programmes, un paquet est une unité contenant une ou plusieurs unités de
présentation. Dans les flux de transports, un paquet est une quantité faible et de
taille fixe de données (188 ou 204 octets).
Packet data : Bits d'information contigus à un flux d'information élémentaire présent
dans un paquet.
Padding : Méthode consistant à ajuster la longueur moyenne, en temps, d'un frame
audio avec la durée de l'échantillonnage PCM correspondant.
PAL (Phase Alteration Line) : Format vidéo analogique comportant 625 lignes par
cadres(frames), utilisé comme standard par la plupart des diffuseurs européens et
dans d'autres partie du globe, sauf en Amérique du Nord et au Japon.
Parity (Parité) : Méthode pour la vérification de l'exactitude de l'information
transmise et/ou enregistrée. Un bit de donnée est ajouté à un ensemble de données
en tant qu'élément de vérification de la transmission. La parité peut être paire ou
impaire. Pour la parité impaire, si le nombre de "1" de l'ensemble de données est
pair, un "1" est ajouté au total pour le rendre impair. La même chose est faite pour
un total pair afin de le rendre impair. L'ordinateur qui réceptionne le signal vérifie le
nombre de "1" et indique une erreur si le total est incorrect.
Pas de Pixel : Le pas de pixel est le nombre de pixels ou points de l'image dans un
tube écran. Plus il y a de pixels, plus l'image est nette. Les écrans de télévision HD
à tube présentent un pas de pixel variant généralement entre 0.25 et 0.3 mm.
PAT (Program Association Table) : Table d'Association de Programme. Table qui
indique quels sont les PID de PMT des programmes du TS.
Payload : Réfère aux bytes qui suivent immédiatement le bit d'en-tête dans un
packet (paquet).
PCM (Pulse Code Modulation) : Système de numérisation d'une source analogique
audio ou vidéo. PCM est un signal numérique non compressé.
PCR (Program Clock Reference) : Valeur instantanée de l'horloge du codeur qui
est placée dans l'en-tête des paquets TS afin de synchroniser l'horloge du décodeur.
PDF (Portable Document Format) : Format de fichiers utilisé par Adobe Acrobat.
Les fichiers PDF contiennent une représentation très compacte de texte et de
graphiques, et permettent aux documents avec du texte et des graphiques
complexes d'être lus et imprimés sur les systèmes d'opération DOS, MacIntosh,
Windows et UNIX(SGI, Sun Solaris et Linux).
Pedestal (décollement du niveau du noir) : Différence entre le niveau du noir et
le niveau de suppression, que l'on observe dans un signal vidéo composite transmis
à un récepteur de télévision.
PES (Packetized Elementary Stream) : Flux élémentaire MPEG sous forme de
paquets.
Picture (Image): Image source, codée ou reconstruite, consiste en trois matrices
rectangulaires qui représentent la luminance et deux signaux de chrominance.
PID (Program/packet Identifier) : Identification de programme. Codé sur 13 bits
et placé dans l'en-tête du paquet de transport pour pouvoir l'identifier.
PING (Packet InterNet Gopher) : Protocole, faisant parti du standard TCP/IP,
permettant de vérifier votre connectivité avec un autre équipement, ou de vérifier si
votre connexion TCP/IP fonctionne correctement. Très utile pour "troubleshooter" des
problèmes à l'intérieur d'un réseau. Normalement, on "tape" quelque chose comme;
"ping 203.110.225.01", et on obtiens une réponse de cette adresse IP ... ou non.
Pixel (PEL, Picture Element) : Un pixel est un échantillonnage numérique d'une
image à un point fixe.
Pixels : Points de lumière individuels rouges, verts et bleus qui constituent une
image.
PMT(Program Map Table) : Table de répartition de programmes. Table qui indique
quels PID transportent les composantes d'un service (un PID par composante, bien
sûr).
Point-to-point transmission : Transmission entre deux stations désignées.
Port Série (Com/serial Port) : Prise sur un appareil (ordinateur) permettant de le

relier à un autre appareil via une ligne série.
Predicted pictures ou P-pictures ou P-frames : Images codées par prédiction, en
fonction de l'image "I" ou "P" précédente. La technique est appelée "forward
prediction". Elles permettent une meilleure compression et servent de références aux
images "P" et "B" à suivre.
Pre-processing (Pré-traitement) : Traitement du signal vidéo précédent le codage
MPEG. La réduction de bruit, le sous échantillonnage sont des exemples de
prétraitement.
Presentation time-stamp (PTS) : Un champ qui peut être présent à l'intérieur d'un
Paquet PES et qui indique le temps de présentation au décodeur.
Profile (Profil) : Spécifie le niveau de syntaxe utilisé.
Program Stream : Flux contenant des informations temporelles, vidéo et audio
compressées (DVD par exemple).
PSI (Program Specific Information) : Information spécifique de programme.
Information gardant la trace des différents programmes dans un flux de transport
MPEG.
PSI/SI : Terme générique pour les informations spécifiques MPEG PSI et DVB SI.
PSIP (Prononcer P-SIP, Program and system information protocol) : Une
spécification TVN de l'ATSC qui permet à un récepteur vidéo numérique de
reconnaître les informations des programmes des éditeurs de contenu et de créer des
guides de programmation électroniques à l'écran.
PU (Presentation Unit) : Unité de présentation. Image ou bloc audio compressé.
Pulse (Impulsion) : Courant ou voltage qui change abruptement d'une valeur à une
autre, et reviens à la valeur originelle dans un laps de temps défini. Utilisé pour
décrire une variation dans une série d'ondes. Les parties de l'impulsion sont la durée
de montée, la durée de descente ainsi que la largeur et l'amplitude de l'impulsion. La
période de l'impulsion se réfère à la durée entre les impulsions.
QAM (Quadrature Amplitude Modulation, Modulation d'amplitude en
quadrature) : Technique de modulation qui modifie l'amplitude de deux porteuses
de même fréquence, déphasées de 90 degrés ou en quart de cycle, en deux signaux
distincts qui emprunteront deux voies différentes.
QCIF (Quarter-resolution Common Interchange Format) : Format commun
d'échange au quart de résolution (176 x 144 pixels). Voir CIF.
QPSK (Quadrature Phase Shift Keying) : Modulation de phase à quatre états.
QSIF (Quarter-resolution Source Input Format): Format d'entrée de source
à quart de résolution. Voir SIF.
Quantizer : Une étape de la compression qui, intentionnellement, réduit la précision
des coefficients DCT.
QuickTime : Développé par Apple, QuickTime est un standard d'enregistrement du
son, des images fixes ou animées. Les fichiers QuickTime se distinguent par leur
suffixe MOV, lorsqu'ils sont diffusés par Internet ou sur un CD-Rom.
RAID (Redundant Array of Inexpensive/Independent Disks) : Système qui
organise les données parmi plusieurs disques durs afin d'assurer une plus grande
zone de stockage, une meilleure sécurité des données et une meilleure performance
(temps d'accès et duplication des données plus rapides. Les données sont protégées
grâce à la redondance des données, permettant de les extraire malgré une perte de
disques. Voici quelques exemples de Raids:
RAID 0: Pas de redondance ni de parité dans les disques. Si un disque est
endommagé, toute l'information contenue sur la totalité des disques est perdue. Par
contre, comme la méthode n'a pas de système de redondance, elle est généralement
plus rapide que les autres méthodes.
RAID 3: Utilise un entrelacement des données similaire à Raid 0, excepté que la
méthode utilise un système de parité pour entreposer les données redondantes.
Cette méthode est plus efficacement utilisée pour les images et graphiques.
RAID 5: Cette méthode utilise une approche différente pour la segmentation et la
parité par rapport à RAID 0 et RAID 3. La mémoire complète est séparée en
plusieurs ensembles de disques et on assigne un disque de parité à un certain
ensemble de disques. Cette méthode est excellente pour le traitement transactionnel.
RAM (Random access memory) : Mémoire temporaire et volatile sur laquelle de
l'information peut être écrite, ou de laquelle l'information peut être accédée en
spécifiant une adresse.
Random access : Procédé consistant à commencer à lire et à décoder un flux de
bits en un point arbitraire.
Rapport d'écran : Le rapport largeur/hauteur d'une image. Les téléviseurs standard
ont un rapport d'écran de 4:3. Ils sont 1.33 fois plus larges que hauts (4/3). Les
écrans 16:9 ont un rapport d'écran de 1.78:1 environ. Le cinéma généralement
1.85:1. Le passage d'un format à l'autre s'effectue par des traitements de type
Letterbox ou Pan and Scan.
RCA (Cinch) : Connecteur utilisé en audio et en vidéo pour faire transiter un signal
entre deux appareils, via un câble coaxial. Présent sur tous les caméscopes ou
magnétoscopes grand public ainsi que sur les chaînes
Hi-Fi.
Réémetteur isofréquence : émetteur numérique de faible ou très faible puissance,

reprenant le signal reçu d'un autre émetteur numérique en service (dit émetteur
pilote) et rediffusant le même signal sur la même fréquence que l'émetteur pilote.
Rendering (rendu d'architecture) : Procédé de rendu d'une image, ou séquence
d'image en temps non réel, dépendant de la vitesse du processeur de l'ordinateur
pour les rendus graphique et de composition.
Résolution : Le nombre total de pixels disponibles pour l'affichage d'une image. Les
résolutions plus élevées autorisent un affichage plus détaillé résultant en une qualité
d'image supérieure.
Résolution maximale : Signal à la résolution la plus élevée qu'un téléviseur ou un
écran peut accepter à l'entrée. Certains appareils d'affichage ne sont pas en mesure
d'afficher une telle résolution et, en conséquence, doivent convertir les signaux à une
résolution inférieure avant l'affichage.
Réseau SFN (Single Frequency Network, réseau à fréquence unique) :
Ensemble organisé d'émetteurs numériques utilisant la même fréquence et diffusant
obligatoirement le même contenu de programmes, avec synchronisation des signaux
diffusés.
Réseau MFN(Multiple Frequency Network, Réseau à fréquence multiple) :
Ensemble organisé d'émetteurs, analogiques ou numériques, utilisant des fréquences
différentes, diffusant ou non le même contenu de programmes.
Réseau primaire : Partie d'un réseau de diffusion utilisant principalement des sites
points hauts et conçu de manière à assurer le maximum de couverture avec un
nombre minimal de sites.
Réseau secondaire : Partie complémentaire du réseau primaire dans un réseau de
diffusion destinée à couvrir les zones non couvertes par le réseau primaire en raison
du relief du terrain ou à renforcer localement le signal.
Router : Équipement comportant plusieurs entrées et sorties permettant de changer
de sources vidéo rapidement sans avoir à re-câbler.
RLC (Run Length Coding) : Système de codage comptant le nombre de bits
similaires plutôt que de les émettre individuellement.
RS : Notation abrégée du codage de Reed-Solomon.
RS-232 : Standard de définition de ligne série le plus répandu. RS-232 spécifie les
signaux électriques et la manière de les connecter.
RS-422 : En principe, standard pour la transmission sérielle des données. Est utilisé
comme synonyme pour le protocole de pilotage des magnétoscopes Sony. Tous les
magnétoscopes et les systèmes de montage professionnels travaillent avec RS-422. Il
existe en différentes versions, les plus répandu étant le format Betacam.
RU (Rack Unit) : Unité de mesurement standard équivalent à 1.75 pouces, ou
45mm, utilisé pour les bâti d'équipements audio-visuels.
Safe Title Area : Standard d'ajustement des titres et génériques pour un moniteur.
Correspond à environ 80% de l'image totale. Les titres et le texte sont généralement
gardés à l'intérieur de cette région pour s'assurer qu'ils puissent être vu en entier.
SAP (Secondary Audio Programming) : Signal audio secondaire qui est transmit
en même temps que le signal primaire. Activé à même le téléviseur, il permet
notamment de transmettre la portion audio d'une émission dans un autre langage, ou
d'inclure une piste descriptive.
Scalability (Adaptabilité) : Caractéristique du MPEG-2 proposant différents niveaux
de qualité par la répartition en plusieurs niveaux des données vidéo. Un décodeur
complexe pourra alors produire une image de qualité à partir de tous les niveaux de
données tandis qu'un décodeur plus simple produira quand même une image en
utilisant seulement le premier niveau de données.
Scanner : Appareil permettant de numériser/digitaliser des images ou des textes
écrits.
SCPC (Simple Channel Per Carrier) : Un seul programme par porteuse. Se dit
lorsqu'un transpondeur contient un ensemble de programmes transportés chacun sur
une fréquence différente.
Scrambling : Opération consistant à brouiller les caractéristiques d'un flux vidéo,
audio ou d'information, de façon à prévenir la réception non autorisée de
l'information en clair. La gestion du procédé est effectuée sous le contrôle du système
d'accès conditionnel (conditional access system).
SCSI (Small Computer System Interface) : Technologie d'interface pour la
transmission de données informatiques à haut débit. Se prononce également
"Skozy". Le haut de gamme, l'ultra 160 SCSI, garantit un taux de transfert de 160
Mo/seconde et permet de connecter de 7 à 15 périphériques. Un port SCSI se
reconnaît à son connecteur 50 broches (un port IDE est doté d'un connecteur 40
broches).
SDI (Serial Digital Interface) : Norme d'interface pour la transmission série par
câble coaxial pour les signaux vidéo numériques en production, basée sur un taux de
transfert de 270 Mbps.
SDT (Service Description Table) : Table décrivant chaque service dans un flux de
transport.
SECAM (Système électronique pour Couleur Avec Mémoire): Standard
Européen qui a la même composition que PAL, mais dont la couleur (Chrominance)
est modulée en FM.
Serial Interface (Interface série): Interface de communication numérique dans
laquelle l'information est transmise et reçue séquentiellement à l'intérieur d'un seul
câble, ou une paire de câbles. Les standards â«serial interface" les plus communs
sont RS-422 et RS-232.
Server (vidéo) : Ordinateur ayant une grande capacité de mémoire et de
traitement, qui est destiné à distribuer de la vidéo à la demande sur un réseau à un
moment spécifié par l'usager.
Set-Top-Box : Voir Convertisseur.
Shuttle : Fonction de montage vidéo généralement implantée sur une molette en
face avant de magnétoscope et permettant de se positionner très rapidement et
précisément sur une bande que ce soit vers l'avant ou vers l'arrière.
SI (Service Information) : Information de Service. Informations incluses dans un
multiplex et décrivant les contenus des différents services.
SIF (Source Input Format) : Format d'entrée de source. Signal d'entrée à demi-
résolution utilisé en MPEG-1.
Simulcast : Diffusion simultanée en analogique et numérique d'un même
programme, sur les mêmes zones de couverture et sur deux fréquences distinctes,
afin d'assurer une continuité de service en cas de remplacement par le téléspectateur
du récepteur analogique par un récepteur numérique. Les règlements de la CRTC
exigent que les diffuseurs transmettent la plupart de leurs programmes en simultcast
au fur et à mesure qu'ils lancent les services TVHD.
Site point haut : Site de diffusion implanté sur un point géographique élevé par
rapport à l'ensemble des points dans une région donnée ou disposant d'un pylône de
grande hauteur, et utilisé pour diffuser un signal sur une zone étendue.
Slot (Encoche) : Entaille pratiquée dans une carte de circuit imprimé.
SMPTE : Society of Motion Picture and Television Engineers.
SNMP (Simple Network Management Protocol) : Protocole d'administration de
réseau définissant les interactions entre le gestionnaire et les agents.
SNR (Signal-To-Noise Ratio, Rapport signal/bruit) : Rapport établi entre la
puissance du signal d'origine et la puissance du bruit, à un point donné du système.
SONET (Synchronous Optical NETwork, Réseau Optique Synchrone) : Mode de
transmission de données sur fibre optique, normalisé aux États-Unis, dans lequel des
canaux de transmission sont intégrés progressivement, par multiplexage temporel,
à des canaux plus grands, au sein d'une hiérarchie de niveaux basée sur un codage
à 51,84 Mbit/s, dont tous les éléments sont parfaitement synchronisés. Le réseau
optique synchrone, qui est d'origine américaine, a été adapté pour l'Europe et a pris,
sur ce continent, le nom de hiérarchie numérique synchrone. Le sigle anglais SDH,
mis pour synchronous digital hierarchy, est souvent employé. Dans le réseau optique
synchrone, le débit de base, utilisé pour déterminer les niveaux, est de 51,84 Mbit/s.
La hiérarchie des principaux débits est la suivante: 155,52 Mbit/s, 622,08 Mbit/s,
2,488 Gbit/s, 9,953 Gbit/s et 13,271 Gbit/s. Ces débits correspondent
respectivement aux niveaux OC-3, OC-12, OC-48, OC-192 et OC-256. Dans ce mode
de transmission synchronisée, il est possible d'extraire une seule unité de l'ensemble
des flux de données multiplexés, sans qu'il soit nécessaire de les séparer.
Source stream : Flux unique, non-multiplexé, d'informations avant compression.
Sous-titrage codé : Flux des données compris dans le signal de diffusion qui
procure une description narrative textuelle du dialogue, des sons et des autres
éléments de l'image dans le but d'aider les téléspectateurs avec des problèmes
auditifs. Peut aussi servir dans d'autres applications audio secondaires.
Spectre de fréquences : Le spectre de fréquences est défini par l'ensemble des
fréquences utilisées ou utilisables par les ondes radioélectriques. Suivant leur
fréquence, les ondes radioélectriques présentent des propriétés particulières. C'est
pourquoi le spectre de fréquences a été découpé en bandes dans lesquelles on peut
considérer que les propriétés restent relativement homogènes. Les fréquences
utilisées pour la diffusion TV sont situées dans les bandes métriques (VHF, longueur
d'onde de 10 m à 1 m, fréquences de 30 Mhz à 300 MHz) et surtout décimétriques
(UHF, longueur d'onde de 1 m à 10 cm, fréquences de 300 MHz à 3 000 MHz).
Splicing : L'enchaînement effectué au niveau du système de deux différents flux
élémentaires. Le flux résultant devra être conforme aux standards de télévision
numérique.
ST (Stuffing Table) : Table de bourrage. Remplissage des espaces libres, dans un
flux de données, avec de l'information autre (ex: réseau Internet ou données sans
signification).
Standard definition television (SDTV) : Terme utilisé pour designer un système
de télévision dont la qualité est équivalente au NTSC. Aussi appelé Standard Digital
Television, ou également Conventional definition television.
Start codes : Codes de 32 bits insérés à l'intérieur d'un flux encodé qui sont uniques
à ce flux. Ils sont utilisés pour différents usages, notamment pour identifier les
couches dans la syntaxe du codage. Ils consistent en un préfixe de 24 bits
(0x000001) et un identificateur de flux (stream ID) de 8 bits.
STC (System Time Clock) : Horloge commune utilisée pour coder la vidéo et l'audio
dans un même programme.
STD input buffer : Mémoire tampon, à l'entrée d'un décodeur cible, utilisé pour
stocker l'information compressée avant le décodage.
Streaming (lecture en transit) : Technique de lecture de fichier multimédia
permettant à un internaute de lire le fichier en temps réel, sans avoir à attendre son
téléchargement complet. Lors de la lecture en transit, une mémoire tampon
emmagasine suffisamment de paquets de données pour permettre leur lecture en
continu au moyen d'un plugiciel (plug-in) de décompression (le lecteur de contenu
multimédia) situé sur le poste client. RealAudio de Real Networks, Vivo Software,
NetShow de Microsoft et VDONet sont des appellations commerciales associées à la
lecture en transit. Imaginée au départ par Netscape pour afficher le texte d'une page
Web sans que l'internaute ait à attendre la fin de l'affichage des images, l'idée du
streaming a ensuite été reprise et popularisée par Real Networks pour la transmission
et la lecture de fichiers en transit. Aujourd'hui, cependant, la notion de "streaming"
en anglais a évolué vers le concept de "streaming media" et ne désigne plus
seulement la lecture de fichiers lors de leur téléchargement, mais la diffusion sans
téléchargement de contenus multimédias compressés et leur lecture en temps réel,
ce qui restreint l'utilisation du terme français lecture en transit aux seuls fichiers
téléchargés.
Stuffing (Bourrage) : Addition de données sans signification pour maintenir un
débit constant.
Still picture : Une image fixe codée consiste en une séquence vidéo contenant une
seule image intra codée.
Surround Sound : Implique normalement un système audio comprenant plus de

deux canaux d'information. Les canaux additionnels fournissent l'ambiance, ou
l'information sonore ayant lieu ailleurs que dans les canaux droit et gauche.
S-Video : Type de signal qui transmet la luminance (Y) et la chrominance (C) par
des fils séparés évitant par là le codage NTSC, PAL ou SECAM et l'inévitable perte de
qualité en résultant.
Symbol Rate (Débit Symbole) : Débit du signal en sortie de modulateur.
Sync (Synchronization Signals) : Le taux a lequel l'image est tracée sur le
moniteur doit être synchronise avec la source vidéo. Il y a 3 types de signal de
synchronisation en vidéo composite; salve de couleur (color burst), synchronisation
horizontale et verticale.
Synchronous (Synchrone) : Procédé de transmission selon lequel les bits et le flux
de caractères sont réglés sur des horloges parfaitement synchronisées, tant au point
de départ qu'à l'arrivée.
System clock reference (SCR) : Code temporel à l'intérieur du flux de données

permettant aux décodeurs de se synchroniser.
System header : "L'en-tête système" est une structure de données contenant
l'information qui résume les caractéristiques du flux DTS multiplexé.
System target decoder (STD) : Un modèle de référence hypothétique d'un procédé
de décodage utilisé pour décrire la sémantique d'un flux DTS multiplexé.
TCP/IP (Transmission Control Protocol/Internet Protocol) : Un ensemble de
protocoles qui assurent les transferts de données entre deux ordinateurs développé
par le département de la défense US dans les années 1970. TCP gouverne l'échange
d'information séquentielle, alors que IP dirige les messages sortant et reconnaît les
messages entrants.
TDAC (Time Domain Aliasing Cancellation) : Technique de codage utilisé dans le
système de compression AC-3.
TDT (Time and Date Table) : Information temporelle utilisée en DVB-SI.
Télévision à la carte : Lorsque des émissions peuvent être commandées en tout
temps à la seule discrétion du téléspectateur.
Télévision interactive : Programmation télévisée au contenu interactif qui ajoute
à la télévision traditionnelle l'interactivité qu'offre l'ordinateur.
TIFF (Tagged Image File Format) : Un format graphique largement utilisé. Il
permet en effet un échange facile des images entre différentes plates-formes (Mac,
PC, Unix). Les fichiers, relativement volumineux, peuvent toutefois être compressés
sans aucune perte d'informations (compression LZW).
Time-stamp : Terme qui indique le temps d'une action spécifique telle l'arrivée d'un
byte ou la présentation d'une image de référence.
Throughput : Mesure indiquant quel flux de média peut être transmit par un serveur
donné.
Time Base Corrector (TBC/Correcteur de Base de temps) : De lui-même, un
magnétoscope est incapable de jouer un signal assez stable pour être transmis
correctement ou même coupé à un autre signal (ex: en montage), sans "débarrer".
Un TBC est donc utilisé pour synchroniser le magnétoscope avec les autres signaux
à l'intérieur du système. Ils sont également utilisés pour ajuster les niveaux vidéo et
de couleurs sur les magnétoscopes.
Time Code : voir Code temporel.
TOV (Threshold of visibility) : Point limite de ce qui est visible.
Traitement cinéma progressif (Inversion 3:2) : Technique utilisée afin
d'améliorer la qualité de l'image affichée lorsqu'il s'agit d'un film à l'origine.
Transnitage : Opération qui consiste à remplacer la NIT d'un flux DVB par une autre
pour changer le réseau d'appartenance du flux.
Transport stream (TS) : Signal multiplexé composé de plusieurs programmes
véhiculés par paquets. Le dé-multiplexage est effectué par l'identification des paquets
(PIDs).
Transport Stream packet header : Le premier champ d'un flux de transport.
Tri-level Sync : Signal de synchronisation utilisé en HDTV.
Truncation (Troncature) : Raccourcissement de la longueur des mots par
suppression des bits les moins significatifs.
TSTD (Transport Stream Target Decoder) : Modèle théorique de décodeur de flux
de transport. Décodeur censé avoir suffisamment de mémoire tampon de façon à être
compatible avec tous les codeurs.
TVED: Télévision à définition élevée ou rehaussée par rapport à la télévision
numérique de définition standard. Ne s'applique que lorsque l'on parle d'affichage de
formats à définition standard suivant la norme ATSC. Offre une image de 480 lignes
en balayage progressif ou plus, au format 4:3 ou 16:9 et un son Dolby Digital.
TVHD (Télévision Haute Définition/High Definition Television) : Le signal de
télévision numérique qui utilise 720 lignes en balayage progressif ou 1,080 en
balayage entrelacé pour l'affichage de l'image. L'image doit être au format 16:9 et
posséder une résolution minimale d'environ 1 million de pixels. Doit pouvoir recevoir,
reproduire et/ou offrir le format audio numérique Dolby Digital 5+1. Le syntoniseur
est en mesure de recevoir tous les formats ATSC 3 et de les afficher dans leur format
d'origine.
TVN (Télévision Numérique) : Englobe toutes les composantes de la télévision
numérique dont TVHD, TVSD, diffusion parallèle de données et multidiffusion
répondant aux normes établies par l'ATSC.
TVNC (Télévision Numérique Canadienne) : Société à but non-lucratif reconnue
par le gouvernement et composée de membres des différents secteurs de l'industrie
ayant pour mandat de conseiller Industrie Canada sur le déploiement de la télévision
numérique au Canada.
TVSD (Standard Definition Television/Télévision à définition standard): Se
caractérise par une image de format 4:3 ou 16:9 et un son ambiophonique. Des
variations dans le nombre de cadres/s, les lignes de résolution et le type de balayage
(progressif ou entrelacé) distinguent les 12 formats TVSD dans la norme ATSC.
UBR (Unspecified Bit rate, Débit binaire non spécifié) : Dans un réseau ATM,
classe de service réservée aux communications non stratégiques, dans laquelle la
quantité de données pouvant être transmises par unité de temps ne peut être
déterminée à l'avance et varie en fonction des possibilités du réseau.
UHF (Ultra High Frequency, Ultra haute fréquence) : Bande d'ondes
décimétriques dont la longueur d'ondes varie de 1 m à 10 cm et la fréquence de 300
Mhz à 3000 Mhz. Cette bande comprend les bandes IV et V (470 Mhz - 830 Mhz :
canaux 21 à 65) utilisées pour la télévision.
UMTS (Universal Mobile Telecommunications System) : Terme désignant la
troisième génération de systèmes de radiocommunications mobiles (la deuxième
comportait les systèmes numériques comme le GSM, et la première les anciens
systèmes analogiques). L'UMTS est spécifié de manière à offrir des services de
communication bidirectionnelle étendus allant des messages courts jusqu'aux images
mobiles en passant par la voix.
Unbalanced Audio (audio non balancé) : Méthode de transmission d'un signal
audio en utilisant un câble coaxial normal de 75Ohms d'impédance.
Unidirectionnel : Pour un micro; ne capte que le son ne venant que d'une seule
direction.
Upconverter : Convertisseur qui prends un signal vidéo numérique standard (SDTV)
et le converti en signal vidéo Haute définition (HDTV). (voir: Conversion vers le
haut).
Upconversion (Conversion vers le haut) : Procédé qui accroît le nombre de pixels
ou le débit d'images ou le format de balayage pour afficher une image. (Voir
conversion vers le haut).
URL (Uniformed Resource Locator) : Manière standard de donner l'adresse de
n'importe quelle ressource qui est sur Internet et fait partie du World Wide Web.
User Name : Un nom court et unique servant à vous identifier chez votre
distributeur de services Internet ou tout autre réseau protégé.
Variable bit rate (VBR) : Opération par laquelle le flux de bits varie en temps
durant le décodage d'un flux compressé.
VAU (Video Access Unit) : Unité d'accès vidéo. Une image compressée dans un
flux de programme.
VBI (Vertical Blanking Interval) : Période de temps entre les images télévisées,
que l'on peut voir comme une ligne noire lorsque l'image roule. Le VBI contient les
signaux qui permettent aux syntonisateurs de conserver la stabilité de l'image
(synchro). Ils sont également utilisés pour transporter d'autres informations tel que
le sous-titrage, v-chip, signaux de tests ou de contrôle, etc...
V-Chip : Information sur le classement du programme encodé à l'intérieur d'un
signal vidéo diffusé(ligne 21, champs 2) sous la forme d'un paquet XDS. Grâce à un
décodeur (Set-top-box ou intégré), le téléviseur pourra empêcher certaines émissions
d'être vue en empêchant certain classements.
Vector (Vecteur) : paramètre de compensation de mouvement qui indique au
décodeur le sens et l'amplitude du déplacement d'une partie de l'image précédente
(macrobloc) pour prédire au mieux l'image courante.
VGA (Video Graphics Array) : Mode d'affichage graphique des moniteurs
d'ordinateurs avec une résolution d'au moins 640 X 480 pixels.
VHF (Very High Frequency, Très haute fréquence) : Bande d'ondes métriques
dont la longueur d'ondes varie de 10 m à 1 m et la fréquence de 30 Mhz à 300 Mhz.
Cette bande comprend la bande III (174Mhz - 223Mhz: canaux 5 à 10) utilisée pour
la télévision.
VITC (Vertical Interval Time Code) : Manière de coder le time code
(enregistrement en vertical sur la bande, entre deux images).
VLC (Variable Length Coding) : Codage à longueur variable. Technique de
compression affectant un code court aux valeurs les plus fréquentes et un code long
aux valeurs les plus rares.
VOD (Video On Demand) : Télévision à la carte. Mode de diffusion de programmes
vidéo où chaque téléspectateur peut recevoir le programme qu'il souhaite au moment
où il le souhaite.
VRML (Virtual reality modeling language) : Standard ISO pour le Multimédia 3D
et les mondes virtuels sur Internet.
VSB (vestigial side-band, Bande latérale résiduelle) : Technique de modulation
analogique visant à réduire la largeur de bande du spectre requise pour la
transmission d'informations par câblodistribution ou par voie terrestre.
WAV (se prononce wave) : Format de fichiers audio compatible avec Windows. Un
fichier WAV peut être enregistré à 11KHz, 22 kHz, et 44 kHz, et en 8-bit ou 16-bit
mono et stéréo.
Wavelet (Vaguelette) : Type de transformée où la longueur de la fonction base
n'est pas fixe mais augmente quand la fréquence décroît.
Weighting (Pondération) : Méthode consistant à changer la distribution du bruit
par la troncature amenée par la multiplication de valeurs.
WYSIWYG (What you see is what you get) : Abréviation, "ce que vous voyez est
ce que vous avez".
X-Band : Fréquences comprises entre 8.0 et 8.4 GHz.
XDS (Extended Data Service) : Utilise un système de paquets d'information
incluent dans le signal vidéo diffusé et pouvant comprendre l'heure, l'information de
classement de l'émission, un rapport météo, un site web, etc...
XLR : Format de connecteur audio 3 broches.
Y : Abréviation pour luminance.
Y/C-Video : alias S-Video.
YUV : Modèle de couleurs utilisés principalement en vidéo dans lequel les couleurs
sont spécifiés en fonction de leur luminance(Y) et leur degré de saturation des teintes
(composantes U et V).
Jean DANIEL http://pages.videotron.com/danjean/

Le Signal Video Numerique

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Le Signal Video Numerique

Diunggah oleh

Hak Cipta:

Format Tersedia

Par : Jean DANIEL (Canada) http://pages.videotron.

Guide Simplifié du signal vidéo Analogique NTSC

Le Correcteur de base de temps("Time Base Corrector ou TBC"):

Le Code Temporel("Time Code"):

* Time code Drop Frame: Le signal vidéo comprend en réalité 29,97

Le Signal Vidéo Numérique

L'image vidéo non compressée:

Les limitations techniques:

Les solutions pour réduire le débit:

La compression des données:

La compression avec perte d'information:

Le Variable Length Coding(VLC):

Le Differential Pulse Code Modulation(DPCM):

La compression sans perte d'informations(Lossless):

Les standards actuels de compression:

Le JPEG(Joint Photographic Experts Group):

Le MPEG(Moving Pictures Experts Group):

Vidéo pour Windows:

La Digital Video Cassette (DVC):

Les avantages du numérique en matière de télévision par satellite:

- La facilitation de la compatibilité entre tous les pays: Plus de standards disparates

Après le mot de synchronisation et l'en-tête, il y a 32 codes d'affectation de bits de 4

Alors que celui-ci démontre le fonctionnement du Décodeur AC-3:

Principes de la diffusion vidéo:

Codage spatial ou temporel:

"Intra-Frame DCT coding":

Motion-compensated inter-frame prediction:

Le signal d’entrée est supposé être à la norme 4:2:2 série en 8 ou 10 bits(SDI). Le

Images I, P et B(I-Frames, P-Frames, B-Frames):

Les images I(I-Frames):

Les images B(B-Frames):

Pour une qualité donnée, l’émission d’images I uniquement double pratiquement le

La Compression Vidéo MPEG-4

Objectifs de la norme, cahier des charges et fonctionnalités:

Description Technique (essentiellement, l'aspect visuel de la norme.):

Structure générale, description:

La première information donne la façon de coder un groupement d’objets. Une scène

La deuxième information donne le positionnement spatial et temporel des objets.

La troisième information donne la valeur qui est attribuée à la sélection. Chaque

Codage des objets vidéo (VOP):

Structure des outils de représentation des vidéos "naturelles":

Codage des textures et des images fixes:

Animation des maillages 2D:

Pour le codage des maillages 2D à structure implicite:

Codage des formes et de la transparence:

Les outils de MPEG-4:

Fonctionnalités supportées par les outils de MPEG-4:

Adaptabilité du codage des "objets vidéo":

Les droits de propriétés intellectuelles:

Informations contenues dans les objets:

Les formats supportés:

Les outils de MPEG-4 version 1:

Les profils de description de scène:

Les profils de description d'objets:

Qu'est ce que la norme MPEG-7?

Principe de description MPEG-7

Création d'une infrastructure Multimédia Inter-opérable

6 Milliards de producteurs de contenu:

Un contenu qui s’adapte à l’environnement:

Tous les utilisateurs bénéficieront:

Le Flux Elémentaire (Elementary Stream):

Flux élémentaire vidéo:

Flux élémentaires audio:

Le Packet Elementary Stream: