com/danjean/
Le Moniteur "Waveform":
Le moniteur waveform est un oscilloscope qui a été configuré pour le signal vidéo. On
l’utilise pour mesurer le voltage du signal et pour s’assurer que toutes les pulsations
et tous les balayages du signal apparaissent au bon moment. L’utilisation première
du waveform est de mesurer les différents niveaux de l’image. Ces niveaux ne
doivent pas dépasser 100%(IRE), ni descendre sous la barre de 7.5%(IRE). Un signal
qui serait trop haut sera surexposé, alors qu’un signal qui serait trop bas sera trop
noir. En général, la couleur de la peau se situe autour de 70%, alors qu’un blanc avec
peu de détails sera autour de 90-100% et des ombres seront en bas de 30% sur
l’échelle.
Le "Vectorscope" :
Le vectorscope est un autre oscilloscope spécialisé. Sa fonction est de mesurer
l’information relative aux couleurs. Dans le signal vidéo analogique, la couleur est
encodée dans le signal principal à l’aide d’un "sous-transporteur"(SubCarrier). C’est
l’information des couleurs inscrites sur ce "sous-transporteur" qui est mesurée par le
vectorscope. Elle est présentée à l’intérieur d’un cercle. Au lieu de mesurer l’intensité
des couleurs, elle mesure la saturation et la teinte (Hue). Le centre du cercle est
neutre, donc plus une couleur est près du centre, moins elle est saturée ou plus près
du blanc et plus elle est loin du centre, plus elle est saturée, ou foncée. Une couleur
peut être foncée et très saturée ou claire et moins saturée. Un noir ou un blanc
seront représenté par un point au centre du cercle.
Note: Ces calculs sont valides pour le format NTSC. Pour le PAL, les calculs donneront
environ 19.78 Mo/sec. en se basant sur la résolution 720 x 576 pixels à 25
images/sec.
La capacité de stockage:
Avec un débit d'environ 20 Mo/sec, la vidéo numérique non-compressée exigerait
donc plus de 1.2 Go d'espace disque pour capter 1 seule minute de vidéo.
La rapidité de transmission:
L'autre problème auquel on doit actuellement faire face avec la vidéo numérique est
le transfert de ces données en format numérique. Certaines technologies permettent
actuellement le transfert des données vidéo numériques non-compressées sauf
qu'elles ne sont pas toujours facilement accessibles. Pour les technologies plus
accessibles il faut donc penser a réduire le débit des données.
La redondance spatiale:
Lorsque des informations sont similaires ou se répètent dans des zones de l'image
proches l'une de l'autre (dans une image, deux points voisins sont souvent
similaires).
La redondance temporelle:
Lorsque des informations se ressemblent ou se répètent dans le temps, même si leur
position dans l'image a changé (deux images successives sont souvent relativement
similaires).
La compression va donc consister à déterminer ces redondances et à les éliminer. La
contrainte liée à la qualité de l'image nous oblige à être capables de reproduire
l'image originale intacte ou, tout au moins, une image très proche de celle-ci. Cette
définition nous amène à envisager deux types de techniques pour la compression.
Quicktime:
Apparu en 1991, Quicktime a été intégré au Système 7 des Macintosh. Il s'agit d'un
environnement de développement et d'exécution qui permet d'associer à des données
classiques des fichiers représentant des séquences sonores ou vidéo. Quicktime
comprend essentiellement des formats de données standardisés, des procédés de
compression/décompression, et une interface utilisateur spécifique. L'extension
système utilisée est fondée sur le principe du maintien de l'isochronie des données,
et introduit donc le temps comme élément principal du système d'exploitation.
Quicktime est surtout conçu comme un ensemble de spécifications très ouvert,
capable d'intégrer facilement un grand nombre d'évolutions matérielles et logicielles,
sans remettre en cause les applications existantes.
Le Digital BETACAM:
Proposé par Sony, il est dérivé de techniques JPEG qui ont été soigneusement
adaptées aux travaux de post-production de haute qualité. Il utilise des signaux vidéo
4:2:2 et leur applique un facteur de compression faible de 2:1. Chaque trame étant
compressée séparément, il offre toutes les possibilités de montage requises pour un
usage professionnel. Son principal inconvénient est son faible facteur de
compression. Il est principalement utilisé pour les applications de type Broadcast.
La technologie FireWire:
La norme FireWire, aussi connue sous le nom de IEEE-1394, a été introduite comme
une interface universelle pour la transmission des données séries à haute vitesse
entre différentes composantes électroniques telles que les disque rigides, les lecteurs
CD-ROM, les scanners et les cartes de capture vidéo. La technologie FireWire
supporte trois vitesses de transfert; 100, 200 et 400Mbits/sec. 16 périphériques
peuvent s'interconnecter avec une distance pouvant aller jusqu'à 4 mètres entre
chaque périphérique. Le branchement se fait grâce à un fil à 6 conducteurs regroupés
en paires. Deux paires transmettent les données et les caractères de contrôle tandis
que l'autre paire se charge de transporter l'alimentation (max. 60 W). Il existe aussi
des connecteurs à quatre conducteurs dépourvus d'alimentation.
Il est important de faire la distinction entre la technologie FireWire et le DV. Les
termes sont souvent interchangeables, mais ont une fonction bien différente. En gros
on peut dire que la technologie Firewire est une affaire de plomberie. C'est un
standard de transmission. C'est une nouvelle manière de transmettre des
informations numériques à travers un câble et une prise spéciaux entre des
périphériques et un ordinateur. Le DV, quant à lui, est un nouveau standard
d'enregistrement. C'est une nouvelle manière d'écrire un signal vidéo compressé sur
la bande magnétique.
La télévision numérique:
La télévision numérique n'est plus dans le domaine du futur, elle est maintenant une
réalité dans le monde. Aux États-Unis d'abord, où des satellites offrent depuis
quelques années plusieurs dizaines de chaînes de télévision en numérique; en Europe
ensuite, où on assiste à une véritable mobilisation depuis les premières semaines de
l'année 1996. Ce qui a permis la révolution numérique, ce sont les progrès réalisés
dans la compression des données et plus particulièrement les travaux du groupe de
normalisation MPEG (Moving Pictures Experts Group) dont furent issues entre autres
les normes MPEG-1 et MPEG-2.
- La réduction des coûts: Cette multiplicité des canaux va de pair avec une réduction
du coût de la retransmission des programmes puisque, en toute théorie, on devrait
pouvoir diviser le prix actuel de la location de chacun des transpondeurs des satellites
par le nombre de programmes qui pourront y transiter.
Le codage Audio Numérique
L'Audio Engineering Society (AES) et l'European Broadcasting Union (EBU) ont établi
conjointement une norme audio numérique connue sous le terme d'interface
AES/EBU. Cette norme propose des formats pour l'échange d'informations audio-
numériques entre appareils audio professionnels, tout en garantissant la souplesse
nécessaire aux applications spéciales. L'International Electrotechnical Commission
(IEC) a également adopté un format basé sur la norme AES/EBU pour les appareils
audio grand public.
En bref, la norme de format AES/EBU définit comment deux canaux d'informations
audio sont périodiquement échantillonnés et transmis sur une paire de fils torsadés.
Les canaux audio Gauche et Droit sont multiplexés et sont auto-cadencés et auto-
synchronisés. Le format de mesure est indépendant de la fréquence d'échantillonnage
recommandée par l'AES et supporte, sur 24 bits, 32 kHz, 44,1 kHz et 48 kHz.
"Ne jamais transmettre ce que l'on ne peut pas entendre."
Cette compression audio, qui est entièrement basée sur les caractéristiques de
l'audition humaine, s'accompagne de pertes et ne peut être abordée sans une étude
préalable de ce sens. Il est surprenant de constater que l'audition humaine, et
particulièrement en stéréo, a un pouvoir discriminatoire bien supérieur à celui de la
vision et c'est pourquoi la compression audio doit être envisagée avec encore plus de
précautions. Comme la compression vidéo, la compression audio nécessite plusieurs
niveaux de complexité en fonction du facteur de compression souhaité.
Une autre considération importante dans l'enregistrement et la diffusion numériques
d'aujourd'hui est le monitoring du "point de crash" ou point d'atteinte du "niveau
d'entrée maximum" admissible par un système ou un équipement. Le format
d'enregistrement numérique est quelque peu plus tolérant, dans le sens où quelques
pointes "hors tolérance" tombent simplement hors de la gamme de l'appareil
numérique et ne sont pas échantillonnées. Une série de "pops" ou de "sifflements"
qui pourraient sérieusement compromettre un enregistrement analogique peuvent
être automatiquement "atténués". Ce phénomène a entraîné quelques personnes
vers la fausse notion que les niveaux audio numériques pouvaient être appréhendés
de manière plus simpliste. Les appareils de mesure rudimentaires intégrés dans la
plupart des appareils numériques reflètent cette attitude. Il est aussi nécessaire de
produire un volume plus consistant dans les enregistrements numériques que dans
les enregistrements analogiques. Avoir quelques prises "plus fortes" que d'autres est
plus acceptable dans le nouveau monde numérique que cela n'était dans
l'environnement analogique. Il y a également la même nécessité de protéger les
CRÊTES. L'idée qu'un "certain nombre" de crashs soit tolérable est simplement
fausse. Obtenir le volume au détriment des crêtes résulte en une perte de dimension
et de clarté.
Le mécanisme de l'audition:
L'audition se compose d'un processus physique à l'intérieur de l'oreille et d'un
processus nerveux et mental qui se combinent pour donner une impression sonore.
L'impression que nous recevons n'est pas exactement similaire à la forme d'onde
acoustique présente dans le conduit auditif parce qu'une certaine entropie est
perdue. Les systèmes de compression audio qui donneront de bons résultats seront
donc ceux qui ne perdront que la partie de l'entropie qui est perdue dans le
mécanisme de l'audition.
Le mécanisme physique de l'audition se répartit en trois parties: l'oreille externe,
l'oreille moyenne et l'oreille interne. En plus du pavillon, l'oreille externe comprend le
conduit auditif et le tympan. Le tympan transforme les sons incidents en une
vibration comme le fait un diaphragme de microphone. L'oreille interne opère en
utilisant ces vibrations transmises à travers un fluide. L'impédance du fluide est bien
supérieure à celle de l'air et l'oreille moyenne agit comme un transformateur
d'impédance qui effectue le transfert d'énergie.
On voit ci-dessus que les vibrations sont transférées à l'oreille interne par l'étrier, qui
agit sur la fenêtre ovale. Les vibrations du fluide de l'oreille interne parviennent au
limaçon, une cavité du crâne en forme de spirale (présentée déroulée sur la figure,
pour plus de clarté). La membrane basilaire est étirée sur toute la longueur du
limaçon. Le poids et la consistance de cette membrane varient d'un bout à l'autre.
Près de la fenêtre ovale, la membrane est rigide et légère et sa fréquence de
résonance est élevée. À l'autre extrémité, la membrane est lourde et souple, ce qui
fait qu'elle résonne aux fréquences basses.
La gamme de fréquences disponibles détermine la plage de l'audition humaine qui,
pour la plupart des gens, s'étend de 60 Hz à 15 Khz. Les différentes fréquences du
son incident provoquent la vibration de différentes parties de la membrane. Toutes
les zones de la membrane sont reliées à différentes terminaisons nerveuses qui
permettent une discrimination très fine. La membrane basilaire est également munie
de fins muscles commandés par les nerfs et qui agissent ensemble dans une sorte de
contre-réaction positive qui aurait tendance à augmenter le facteur de résonance Q.
Le comportement résonnant de la membrane basilaire constitue une réplique exacte
d'un analyseur de transformées.
En raison de la théorie de l'incertitude, plus le domaine de fréquences d'un signal est
connu, moins son domaine temporel est connu. En conséquence, plus un système est
apte à déterminer la différence entre deux fréquences, moins il est capable de
séparer le temps qui les sépare. L'audition humaine a développé un certain
compromis entre la discrimination incertitude temporelle et la discrimination de
fréquence; ce compromis impliquant qu'aucune perfection n'est atteinte. La
discrimination imparfaite de fréquences résulte du fait de l'incapacité de séparer deux
fréquences proches. Cette incapacité est connue comme un effet de masquage auditif
qui réduit la sensibilité d'un son en présence d'un autre. La figure 3.2a montre que le
seuil d'audition est fonction de la fréquence. La plus grande sensibilité se situe
naturellement dans la gamme de fréquences de la parole.
En présence d'une note pure, le seuil est modifié, tel qu’indiqué sur la figure 3.2b. Le
seuil est relevé non seulement pour des fréquences hautes, mais aussi pour quelques
fréquences basses. En présence d'une source sonore au spectre plus complexe,
comme de la musique, le seuil est relevé à presque toutes les fréquences. Une
conséquence de ce comportement est que le sifflement d'une cassette audio n'est
audible que pendant les passages très doux de la musique.
La compression utilise ce principe en amplifiant les fréquences basses avant
l'enregistrement ou la transmission et en les ramenant ultérieurement à leur niveau
convenable. La discrimination imparfaite de temps montrée par l'oreille est due à sa
réponse résonante. Le facteur de résonance Q est tel qu'il faut qu'un son donné soit
présent au moins 1 milliseconde avant qu'il ne devienne audible. À cause de cette
réponse lente, le masquage peut se produire même si les deux signaux concernés ne
sont pas simultanés. Les masquages avant et arrière peuvent se produire quand le
son de masquage continue à agir à des niveaux plus faibles avant et après la durée
courante du son de masquage. La figure 3.3 démontre ce concept. Le masquage
relève le seuil d'audition et les systèmes de compression tirent parti de cet effet en
rehaussant le niveau "plancher" de bruit, permettant ainsi au signal audio d'être
exprimé avec moins de bits. Le plancher de bruit ne peut être relevé que pour les
fréquences auxquelles le masquage agit. Pour maximaliser le masquage actif, il faut
découper le spectre audio en différentes bandes de fréquence pour permettre
l'introduction des différentes quantités de compression et de bruit dans chacune
d'elles.
Codage en sous-bandes:
La figure suivante montre un compresseur à bandes séparées. Le filtre séparateur de
bandes est un jeu de filtres à phase linéaire, ayant tous la même largeur de bande et
qui se recouvrent. La sortie de chaque bande consiste en des échantillons
représentatifs de la forme d'onde. Dans chaque bande de fréquence, l'entrée audio
est amplifiée au maximum avant la transmission. Chaque niveau est ensuite ramené
à sa valeur initiale. Le bruit introduit par la transmission est ainsi réduit dans chaque
bande. Si l'on compare la réduction de bruit au seuil d'audition, on s'aperçoit qu'un
bruit plus important peut être toléré dans certaines bandes du fait de l'action du
masquage. Par conséquent, il est possible, dans chaque bande, de réduire la
longueur des mots d'échantillons après la compression. Cette technique réalise une
compression parce que le bruit introduit par la perte de résolution est masqué. La
figure ci-dessous présente un codeur simple à bandes séparées, comme ceux utilisés
dans la Couche 1 du MPEG. L'entrée audio-numérique alimente un filtre de séparation
de bandes qui divise le spectre du signal en un certain nombre de bandes.
En MPEG, ce nombre est de 32. L'axe des temps est divisé en blocs d'égale longueur.
Dans la couche 1 de MPEG, il y a donc 384 échantillons du signal d'entrée, ce qui se
traduira, en sortie du filtre, par 12 échantillons dans chacune des 32 bandes. A
l'intérieur de chaque bande, le niveau est amplifié par multiplication jusqu'à sa valeur
maximale. Le gain nécessaire est constant pour la durée du bloc et un seul facteur
d'échelle est transmis avec chaque bloc, pour chaque bande, de façon à pouvoir
renverser le processus au décodage.
La sortie du groupe de filtres est également analysée afin de déterminer le spectre du
signal d'entrée. Cette analyse permet de réaliser un modèle de masquage permettant
de déterminer le degré de masquage que l'on peut attendre dans chaque bande.
Dans chaque bande, plus le masquage est agissant, moins l'échantillon doit être
précis. La précision d'échantillon est alors réduite par re-quantification en vue de
diminuer la longueur des mots. Cette réduction est aussi constante pour chaque mot
dans la bande, mais les différentes bandes peuvent utiliser des longueurs de mots
différentes. La longueur de mots doit être transmise comme un code d'affectation de
bits afin de permettre au décodeur de dé-sérialiser convenablement le flux de bits.
Couche 1 du MPEG:
La figure suivante montre un flux de bits audio MPEG Niveau 1.
Le mot de synchronisation est détecté par le générateur de temps qui dé-sérialise les
bits d'affectation et les données de facteur d'échelle. L'affectation de bits permet
ensuite la dé-sérialisation des échantillons à longueurs variables. La re-quantification
inverse et la multiplication par l'inverse du facteur de compression sont appliquées de
façon à ramener le niveau de chaque bande à sa bonne valeur. Les 32 bandes sont
ensuite rassemblées dans un filtre de recombinaison pour rétablir la sortie audio.
Couche 2 du MPEG:
Cette figure montre que, lorsque le filtre de séparation de bandes est utilisé pour
créer le modèle de masquage, l'analyse de spectre n'est pas très précise dans la
mesure où il n'y a que 32 sous-bandes et que l'énergie est répartie dans la totalité de
la bande. On ne peut pas trop augmenter le plancher de bruit car, dans le pire des
cas, le masquage n'agirait pas. Une analyse spectrale plus précise autoriserait un
facteur de compression plus élevé. Dans la couche 2 du MPEG, l'analyse spectrale est
effectuée à l'aide d'un processus séparé.
Une FFT à 512 points est effectuée directement à partir du signal d'entrée pour le
modèle de masquage. Pour améliorer la précision de la résolution de fréquence, il
faut augmenter l'excursion temporelle de la transformée, ce qui est effectué en
portant la taille du bloc à 1152 échantillons. Bien que le synoptique de la compression
de bloc soit identique à celui de la couche 1 du MPEG, tous les facteurs d'échelle ne
sont pas transmis dans la mesure où, dans les images de programme, ils présentent
un degré de redondance non négligeable.
Le facteur d'échelle de blocs successifs excède 2dB dans moins de 10 % des cas et
on a avantage à tirer parti de cette caractéristique en analysant les groupes de 3
facteurs d'échelle successifs. Sur les programmes fixes, seul un facteur d'échelle sur
trois est transmis. À mesure de l'augmentation de la variation dans une bande
donnée, deux ou trois facteurs d'échelle sont transmis. Un code de sélection est
également transmis pour permettre au décodeur de déterminer ce qui a été émis
dans chaque bande. Cette technique permet de diviser par deux le débit du facteur
d'échelle.
Codage de transformée:
Les couches 1 et 2 du MPEG sont basées sur les filtres séparateurs de bandes dans
lesquels le signal est toujours représenté comme une forme d'onde. La couche 3
utilise de son côté un codage de transformée comme celui utilisé en vidéo. Comme
indiqué plus haut, l'oreille effectue une espèce de transformée sur le son incident et,
du fait du facteur de résonance Q de la membrane basilaire, la réponse ne peut
augmenter ou diminuer rapidement. Par conséquent, si un signal audio est
transformé dans le domaine fréquentiel, il n'est plus nécessaire de transmettre les
coefficients trop souvent. Ce principe constitue la base du codage de transformée.
Pour des facteurs de compression plus élevés, les coefficients peuvent être re-
quantifiés, ce qui les rend moins précis. Ce processus génère du bruit qui pourra être
placé à des fréquences où le masquage est le plus fort. Une caractéristique
secondaire d'un codeur de transformée est donc que le spectre d'entrée est connu
très précisément, ce qui permet de créer un modèle de masquage très fidèle.
Couche 3 du MPEG:
Ce niveau complexe de codage n'est en réalité utilisé que lorsque les facteurs de
compression les plus élevés sont nécessaires. Il comporte quelques points communs
avec la couche 2. Une transformée cosinus discrète à 384 coefficients de sortie par
bloc est utilisée. On peut obtenir ce résultat par un traitement direct des échantillons
d'entrée mais, dans un codeur multi-niveaux, il est possible d'utiliser une transformée
hybride incorporant le filtrage 32 bandes des couches 1 et 2. Dans ce cas, les 32
sous-bandes du filtre QMF (Quadrature Mirror Filter) sont ensuite traitées par une
Transformée Cosinus Discrète Modifiée(Modified Discrete Cosine Transform) à 32
bandes pour obtenir les 384 coefficients. Deux tailles de fenêtres sont utilisées pour
éviter les pré-oscillations à la transmission. La commutation de fenêtres est
commandée par le modèle psycho-acoustique. On a trouvé que le pré-écho
n'apparaissait dans l'entropie que lorsqu’elle était supérieure au niveau moyen. Pour
obtenir le facteur de compression le plus élevé, une quantification non-uniforme des
coefficients est effectuée selon le codage de Huffman. Cette technique attribue les
mots les plus courts aux valeurs de code les plus fréquentes.
Le codage AC-3:
La technique de codage audio AC-3 est utilisée avec le système ATSC à la place d'un
des systèmes de codage audio MPEG. DVB a aussi dû l'adopter sous la pression des
industriels. Le système AC-3 est basé sur une transformée et obtient le gain de
codage en re-quantifiant les coefficients de fréquence. L'entrée PCM d'un codeur AC-3
est divisée en blocs par des fenêtres qui se chevauchent comme indiqué ci dessous.
Ces blocs contiennent chacun 512 échantillons mais, du fait du chevauchement total,
il existe une redondance de 100%. Après la transformée, il existe donc 512
coefficients qui peuvent, du fait de la redondance, être ramenés à 256 à l'aide d'une
technique appelée Suppression par aliasing dans le domaine temporel (TDAC, Time
Domain Aliasing Cancelation).
La forme du signal d'entrée est analysée et, s'il existe une évolution significative dans
la seconde moitié du bloc, le signal sera séparé en deux pour éviter les pré-échos.
Dans ce cas, le nombre de coefficients reste le même mais la résolution de fréquence
sera divisée par deux et la résolution temporelle doublée. Un indicateur (flag) est
placé dans le flux de bits pour signaler que cette opération a été effectuée. Les
coefficients sont émis sous un format à virgule flottante avec une mantisse et un
exposant. La représentation est l'équivalent binaire de la notation scientifique.
Les exposants constituent en fait les facteurs d'échelle. Le jeu d'exposants d'un bloc
produit l'analyse spectrale d'un signal d'entrée avec une précision finie sur une
échelle logarithmique appelée enveloppe spectrale. Cette analyse spectrale est le
signal d'entrée du modèle de masquage définissant, pour chaque fréquence, le
niveau jusqu'où le bruit peut être augmenté. Le modèle de masquage pilote le
processus de re-quantification qui diminue la précision de chaque coefficient en
arrondissant la mantisse. Cette mantisse constitue une partie significative de la
donnée transmise. Les exposants sont également transmis mais pas intégralement
dans la mesure où la redondance qu'ils comportent peut être ultérieurement
exploitée.
A l'intérieur d'un bloc, seul le premier exposant (celui de la fréquence la plus base)
est transmis dans sa forme absolue. Les autres sont transmis de façon différentielle
et le décodeur ajoute la différence avec l'exposant précédent. Quand le signal audio
présente un spectre assez aplati, les exposants peuvent être identiques pour
plusieurs bandes de fréquences. Les exposants peuvent alors être assemblés en
groupes de deux à quatre avec un indicateur décrivant leur mode de groupement.
Des jeux de six blocs sont assemblés dans une trame de synchro AC-3. Le premier
bloc de la trame comporte la donnée complète pour l'exposant mais, dans le cas de
signaux constants, les blocs suivants de la trame peuvent utiliser le même exposant.
Voici un schéma du fonctionnement de l'encodeur AC-3:
Le schéma suivant montre comment le signal AC-3 est transmis et reçu en DVB:
La Compression Vidéo MPEG-2
(Codage générique de films, vidéo et informations audio associées):
MPEG (Motion Picture Expert Group), formé en 1988 d'un groupe d'experts en vidéo,
a eu la tâche de définir les standards de compression des signaux audio-visuels. Le
grand principe du MPEG vidéo étant de "Ne jamais transmettre un élément d'image
déjà transmis", son premier projet, MPEG-1, à été publié en 1993. MPEG-1 supporte
principalement l'encodage vidéo allant jusqu'à environ 1.5 Mbits/s, donnant une
qualité similaire au VHS et de l'audio stéréo à 192 bits/s. Il est utilisé pour les
systèmes CD-i (compact disc interactive) et Vidéo-CD pour enregistrer le vidéo et
l'audio sur CD-ROM.
MPEG-2 est une extension du standard MPEG-1. Il est principalement un format
"broadcast" à des taux de données ("data rate") supérieurs. Il propose des outils
algorithmiques pour encoder efficacement le vidéo entrelacé, supporte une grande
échelle de "bits rate" et permet l'encodage "surround sound" à multiples canaux.
Le format vidéo de postproduction numérique utilise 270 Mbit/s de débit pour coder
les images. Sachant qu'un canal satellite accepte autour de 45 Mbit/s(valeur la plus
courante), on voit rapidement qu'il va falloir faire suivre un sérieux régime à nos
images. Le standard MPEG-2 est capable d'encoder un signal télévision standard à un
"bit rate" allant de 3-15 Mbits/s(audio multi-canaux + vidéo + données auxiliaires) et
un signal télévision haute définition de 15-30 Mbits/s. Les décodeurs MPEG-2 sont
également capables de décoder les signaux MPEG-1.
La redondance psycho-visuelle:
L'oeil humain à une réponse limitée aux détails spatiaux fins et est moins sensible
aux détails près du bord des objets ou des changements de plans. En conséquence,
une réduction contrôlée, à l'intérieur d'une image décodée par le procédé de
réduction du "bit rate" ne devrait pas être visible par un observateur humain. La
figure ci-dessous montre que la perception humaine du bruit n’est pas uniforme mais
est une fonction de la fréquence spatiale.
Un niveau de bruit supérieur est acceptable pour des fréquences spatiales élevées. Il
s’ensuit que le bruit vidéo est effectivement masqué par un fin détail d’image alors
qu’il sera plus apparent pour les vastes zones unicolores. Sachant que les mesures de
bruit sont toujours pondérées, on comprendra que cette méthode de mesure se
rapporte à ce résultat subjectif.
Codage spatial:
En codage spatial, la première étape consiste à effectuer une analyse de fréquence
spatiale à l’aide d’une transformée. Une transformée est un outil mathématique
permettant de traduire une forme d’onde en différents domaines et, dans notre cas,
dans le domaine fréquentiel. Le résultat d’une transformée est une suite de
coefficients décrivant l’amplitude de chaque composante fréquentielle présente dans
le signal. Une transformée inverse reproduit le signal initial. Si les coefficients sont
gérés avec une précision suffisante, la sortie de la transformée inverse doit être
identique à la forme d’onde originale. La transformée la plus répandue est la
transformée de Fourrier. Cette transformée cherche chaque fréquence comprise dans
le signal d’entrée. Elle caractérise chaque fréquence en multipliant le signal d’entrée
par un exemple de la fréquence cible appelée fonction de base et en intégrant le
produit obtenu. La figure ci-dessous montre que, lorsque la forme de signal d’entrée
ne contient pas de composante à la fréquence cible, l’intégrale sera nulle, mais s’il en
comporte une, l’intégrale constituera un coefficient caractérisant l’amplitude de cette
composante.
La transformée de Fourrier présente l’inconvénient de nécessiter des coefficients pour
les composantes sinus et cosinus de chaque fréquence.
Dans la transformée cosinus, la forme de signal d’entrée est complétée avec son
image temporelle avant multiplication par la fonction de base.
L'illustration ci-dessus montre que cette opération de «miroir» élimine toutes les
composantes sinus et double les composantes cosinus. La fonction de base sinus ne
se révèle donc plus utile et un seul coefficient reste alors nécessaire pour chaque
fréquence.
Dans les images caractéristiques de programme, les coefficients les plus significatifs
de la DCT se trouvent généralement dans le coin supérieur gauche de la matrice.
Après pondération, les coefficients de faible valeur seront tronqués à zéro. On
obtiendra une transmission plus efficace si on émet d’abord tous les coefficients non-
nuls et qu’un code indique ensuite que tous les autres sont à zéro. La scrutation
constitue une technique qui augmente la probabilité d’obtenir ce résultat car elle
émet les coefficients dans l’ordre probable d’amplitude décroissante.
La figure ci-dessus montre que, dans un système non entrelacé, la probabilité d’avoir
un coefficient de forte valeur est très élevée dans le coin supérieur gauche et très
faible dans le coin inférieur droit. Une scrutation à 45 degrés constitue, dans ce cas,
la meilleure solution. Dans la figure de droite, on peut voir la scrutation adaptée à
une source entrelacée. Dans une image entrelacée, un bloc de 8x8 pixels d’une trame
couvre deux fois sa surface sur l’écran, ce qui fait que, pour une définition donnée de
l’image, les fréquences verticales paraîtront le double de leurs homologues
horizontales. C’est pourquoi le balayage idéal, pour une source entrelacée, sera
effectué en diagonale à pente doublée. La figure de droite montre qu’une fréquence
spatiale verticale est balayée avant la fréquence spatiale horizontale identique.
Codage de l’entropie:
Dans une image vidéo animée, toutes les fréquences spatiales ne sont pas présentes
simultanément, la matrice de coefficients de la DCT comportera donc des termes
nuls. Malgré la scrutation, des termes nuls apparaîtront encore au milieu des
coefficients non-nuls. Le codage RLC (Run Length Coding) permet de gérer plus
efficacement ces coefficients. Quand une suite de valeurs identiques, comme des
zéros, existe, le codage RLC émet simplement le nombre de zéros plutôt que toute la
suite de bits nuls. On peut étudier la probabilité de répétition de certaines valeurs
particulières de coefficients dans la vidéo réelle. En pratique, certaines valeurs se
rencontrent fréquemment et d’autres moins souvent. Cette information statistique
peut être utilisée pour effectuer ultérieurement une compression à longueur variable
(VLC). Les valeurs les plus fréquentes sont codées en mots de code courts et les
autres en mots plus longs. Pour faciliter la dé-sérialisation on peut utiliser un mot de
code comme préfixe pour les autres.
Un codeur spatial:
La figure suivante regroupe l’ensemble des concepts de codage précédemment
évoqués.
La figure ci-dessus montre également que les données de l’image P sont émises
avant celles de l’image B. Notez également que les dernières images B du GOP ne
peuvent être transmises qu’après la première image I du GOP suivant, dans la
mesure où elles ont besoin de son contenu pour être décodées bi-directionnellement.
Afin de replacer convenablement les images dans leur ordre, une référence
temporelle est incluse dans chaque image. Comme des en-têtes sont régulièrement
insérés dans le flux de données, un fichier MPEG-2 peut être affiché dans l’ordre
chronologique sur un ordinateur, par exemple. L’extraction des données d’images
d’une séquence, non seulement nécessite un supplément de mémoire dans le codeur
et le décodeur mais aussi génère du retard. Le nombre d’images bidirectionnelles
insérées entre des images d’autres types doit être réduit pour diminuer le coût des
équipements et limiter le retard si celui-ci doit répondre à des contingences. Un
compromis doit être fait entre le facteur de compression et le retard de codage.
Pré-traitement:
Un compresseur essaie d’éliminer la redondance à l’intérieur de l’image et entre les
images. Tout phénomène diminuant la redondance est indésirable. Le bruit et le grain
du film sont particulièrement pénalisants car ils concernent la totalité de l’image.
Après le processus de DCT, le bruit induit la présence de plus de coefficients non-
nuls, coefficients que le codeur ne peut pas distinguer des véritables données de
l’image.
Une quantification plus sévère sera alors nécessaire pour coder tous les coefficients,
réduisant alors la qualité de l’image. Le bruit réduit également la similitude entre des
images successives, accroissant par ce phénomène les données de différence
nécessaires. Tout artefact composite de décodage, visible à l’entrée d’un codeur
MPEG-2, se retrouve naturellement reproduit par le décodeur. Toute pratique
génératrice de mouvement indésirable doit être évitée. L’instabilité d’un support de
caméra pourra créer, en plus de tremblements de l’image, une augmentation des
différences d’images et des nécessités de transmission de vecteurs. Ceci se produit
également sur des signaux provenant d’un télécinéma dont les images tremblent si,
par exemple, les perforations du film sont endommagées.
En général, il est important que la vidéo qui est susceptible d’être compressée soit de
la meilleure qualité possible. Si cette qualité ne peut pas être atteinte, il est
souhaitable d’utiliser une réduction de bruit ou tout autre procédé de stabilisation. Si
un facteur de compression élevé est nécessaire, le niveau d’artefacts peut
augmenter, particulièrement si la qualité du signal est faible. Dans ce cas, il est
souhaitable de réduire l’entropie en effectuant un pré-filtrage avant l’entrée dans le
codeur. Le signal est donc soumis à un filtrage passe-bas (low pass filter)
bidimensionnel qui réduit le nombre de coefficients et diminue le niveau des
artefacts. L’image sera moins fine mais une perte de finesse est préférable à un
niveau élevé d’artefacts.
Dans la plupart des applications en MPEG-2, on utilise l’échantillonnage 4:2:0 qui
nécessite un sous-échantillonnage du chroma si le signal d’origine est en 4:2:2. En
MPEG-1, un sous-échantillonnage supplémentaire est appliqué afin de produire un
signal d’entrée ou SIF (Source Input Format) comprenant seulement 532 pixels.
Cette technique divise encore l’entropie par un facteur supplémentaire. Pour des
facteurs de compression plus élevés, on utilise un signal à 176 pixels appelé QSIF
(Quarter Source Input Format). Le sous-échantillonnage est un processus combinant
un filtre spatial passe-bas et un interpolateur.
En vidéo 50 Hz, deux trames successives représentent la même image de film et il
n’existe pas de mouvement entre elles. Le mouvement alterne donc entre zéro(entre
deux trames) et sa valeur de mouvement(entre deux images). Comme le mouvement
est transmis différentiellement, ceci se traduit par une sérieuse augmentation des
données de vecteurs. En vidéo 60 Hz, un défilement intermittent 3:2 est utilisé pour
obtenir du 60 Hz à partir de film à 24 images par seconde: une image est constituée
de 2 trames, la suivante de 3, et ainsi de suite. Par conséquent, une trame sur 5 est
complètement redondante. Le MPEG gère mieux les images de télécinéma en
supprimant la troisième du système 3:2. Un code spécifique au 24 Hz alerte le
décodeur qui recrée la séquence 3:2 en relisant une mémoire de trame.
Profils et niveaux:
À l’aide des outils de codage définis dans MPEG-2, il existe des milliers de
combinaisons possibles. Dans un but de simplification, le MPEG-2 est divisé en Profils,
chaque profil étant lui-même subdivisé en Niveaux.Un profil constitue à la base la
palette des caractéristiques d’un codage d’une certaine complexité. Un niveau est en
fait un paramètre définissant par exemple la taille de l’image ou le débit du flux de
bits. Il existe en principe 24 combinaisons possibles mais toutes n’ont pas été
définies.
Un décodeur MPEG possédant un profil et un niveau donnés doit pouvoir décoder les
signaux émanant d’un profil et d’un niveau inférieurs. Le Profil Simple(Simple Profile)
ne comporte pas de codage bidirectionnel, c’est pourquoi seules les images de type I
et P pourront être générées par le codeur. Les délais de codage et de décodage sont
ici réduits et le matériel correspondant est plus simple. Le profil simple n’a été
seulement défini qu’au niveau Principal (Simple Profile at Main Level, SP@ML). Le
Profil Principal (Main Profile) est conçu pour une vaste gamme d’utilisations. Le
niveau Bas utilise un signal d’entrée à faible résolution ne possédant que 352 pixels
par ligne. La plupart des applications de diffusion nécessite le Profil principal au
Niveau Principal (Main Profile at Main Level, MP@ML), appellation du MPEG utilisé en
télévision standard.
Le niveau Haut-1440 est un système à haute définition qui double la définition par
rapport au niveau principal. Le niveau Haut double non seulement la définition
horizontale, mais maintient cette résolution pour le format 16:9 en portant à 1920 le
nombre d’échantillons horizontaux. Dans les systèmes de compression utilisant les
transformées spatiales et la re-quantification, il est possible de produire des signaux
adaptables. Un processus d’adaptabilité est celui où le signal d’entrée résulte d’un
signal principal et d’un signal complémentaire. Le signal principal peut être décodé
seul pour donner une image d’une certaine qualité mais, si l’information du signal
complémentaire est ajoutée, un certain aspect de la qualité peut être amélioré. Un
codeur MPEG conventionnel peut, en re-quantifiant fortement les coefficients par
exemple, coder une image avec un rapport signal/bruit modéré. Si cette image est
localement décodée et soustraite pixel par pixel de l’image originale, le résultat
constituera l’image de bruit de quantification. Cette image peut être compressée et
transmise en tant que signal complémentaire.
Un décodeur simple utilisera seulement le flux principal avec son niveau de bruit mais
un décodeur plus élaboré peut décoder les deux flux de bits et produire une image
moins bruitée. Ceci constitue le principe de l’adaptabilité SNR. D’autre part, le codage
des fréquences spatiales les plus basses d’une image HDTV(High Definition
Television) peut produire un flux principal qu’un récepteur ordinaire SDTV(Standard
Definition television) peut décoder. Si l’image à faible définition est décodée
localement et soustraite de l’image originale, une image d’amélioration de la
définition est obtenue. Cette image peut être codée comme signal complémentaire.
Un décodeur adéquat sera capable de restituer l’image haute définition. Ceci
constitue le principe de l’adaptabilité Spatiale. Le profil Haut est compatible avec les
adaptabilités SNR et Spatiale et accepte l’échantillonnage 4:2:2.
Le profil 4:2:2 a été développé dans le sens d’une plus grande compatibilité avec le
matériel de production numérique. Ce profil permet l’exploitation en 4:2:2 sans
exiger la complexité supplémentaire du profil Haut. Un décodeur HP@ML peut
accepter une adaptabilité SNR qui ne constitue pas en soi un impératif de production.
Le niveau 4:2:2 a la même liberté de structure de GOP que les autres profils mais, en
pratique, il est plus souvent utilisé avec des GOPs courts pour faciliter les opérations
de montage. Le 4.2.2 nécessite un flux de bits supérieur au 4.2.0 et l'utilisation de
GOP impose quand même un débit supérieur pour une qualité donnée.
Buts de la standardisation:
Pour toutes ces applications, les buts de la standardisation MPEG-4 sont:
• Empêcher la non-portabilité par l'harmonisation des moyens de codage et de
décodage.
• Représenter des "objets médias"(unités sonore, visuelle et audiovisuelle), ces
unités peuvent être enregistrées par un appareil photo, un microphone ou
générées par un ordinateur.
• Décrire la composition des objets formant une scène audiovisuelle.
• Synchroniser les différents objets média pour qu'ils puissent être
transportables.
• Permettre l'interaction entre l'utilisateur et le diffuseur.
Mais quelles sont exactement les informations données dans la description d’une
scène?
Objets synthétiques:
Les objets synthétiques englobent une importante partie de l'imagerie par ordinateur.
Ces objets sont décrits de façon paramétrique, suivant un modèle que l'on peut
diviser en 4 parties:
• La description synthétique du visage et du corps humain.
• L'animation des champs du visage et du corps.
• Le codage dynamique et statique du maillage avec les textures.
• Le codage des textures suivant les vues.
Animation du visage:
L'animation d'un visage se fait à partir d'un modèle ayant une expression neutre
(FDP: Facial Definition Parameter) contrôlé par une série de paramètres contenus
dans le FAP (Facial Animation Parameter). Pour animer un visage, il suffira donc de
télécharger le modèle, et d'envoyer les paramètres contrôlant le mouvement du
visage qui se traduiront alors sur le visage neutre à l'aide d'un système prévu à cet
effet par MPEG-4 (FIT: Face Interpolation Technique). Ce système possède l'avantage
de n'avoir besoin que d'un visage neutre permettant d'une part d'accélérer la
formation des mouvements et, d'autre part, de pouvoir en créer de nouveau sans
avoir de modèle d'expression prédéfini. La partie du standard relative à l'animation
des visages permet d'envoyer des paramètres de calibrage et d'animation des
visages synthétiques. Ces modèles ne sont pas standardisés par la norme MPEG-4,
seuls les paramètres le sont:
• Définition et codage des paramètres d'animation.
• Positions et orientations des points caractéristiques (points-clefs) pour
l'animation du maillage (modélisation "fil de fer") du visage.
• Configuration des lèvres correspondant aux phonèmes de la parole.
• Positions 3D des points caractéristiques.
• Calibration du maillage 3D pour l'animation.
• Carte des textures du visage.
• Caractéristiques personnelles.
• Codage des textures du visage.
Animation du corps:
La technologie d'animation du corps proviendra directement de celle du visage, afin
de garder l'esprit de standardisation de la norme MPEG-4.
Pour la compression:
• le maillage permet d'augmenter le taux de compression avec un faible taux
d'erreur.
Le but du codage MPEG-4 étant de donner à n’importe quel utilisateur les mêmes
possibilités d’utilisation, quelles que soient ses capacités matérielles, la norme est
donc faite de manière à pouvoir s’adapter aux besoins et aux exigences de
l’utilisateur. Ainsi, l’adaptabilité de la norme se fait sur différents champs:
• Adaptabilité de la complexité au niveau de l'encodeur pour permettre aux
encodeurs de complexité plus ou moins élevée de générer un flux de données
valide pour une texture, image ou vidéo donnée.
• Adaptabilité de la complexité au niveau du décodeur pour permettre à un flux
de données représentant une texture, image ou vidéo, d'être décodé par des
décodeurs de niveaux de complexité différents. La qualité de la reconstruction
est, en général, relative à la complexité du décodeur utilisé. Ceci pourrait
entraîner le fait que des décodeurs moins puissants ne puissent décoder
qu'une partie du flux de données.
• Adaptabilité spatiale qui permet aux décodeurs de décoder un sous-ensemble
du flux de données global généré par l'encodeur pour reconstruire et afficher
les textures, images et vidéos, à une résolution spatiale plus faible. Pour les
textures et images fixes, un maximum de 11 niveaux d'échelonnage spatial
sera supporté. Pour les séquences vidéo, un maximum de trois niveaux sera
supporté.
• Adaptabilité temporelle pour permettre aux décodeurs de décoder un sous-
ensemble du flux de données global généré par l'encodeur pour reconstruire
et afficher une séquence vidéo à une résolution temporelle plus faible. Un
maximum de trois niveaux sera supporté.
• Adaptabilité qualitative qui permet de séparer un flux de données en un
certain nombre de couches de façon à ce que la combinaison d'un sous-
ensemble de ces couches puisse être décodée en un signal significatif. Cette
division au sein du flux de données peut s'effectuer aussi bien au cours de la
transmission que dans le décodeur. La qualité de reconstruction est, en
général, relative au nombre de couches utilisées pour le décodage et la
reconstruction.
Cette adaptabilité permettra à tous les utilisateurs du réseau d'avoir accès aux
applications temps-réel quelle que soit la configuration de leur machine (surtout si
celle-ci est limitée).
L’interaction:
MPEG-4 permet à l’utilisateur de ne plus être passif. L’utilisateur gère les
informations qu’il désire. Il y a deux types d’interactions :
• Celle du client.
• Celle du serveur.
Le but est de permettre au client de pouvoir supprimer des informations qu’il ne
désire pas ou bien d’accéder à une surcharge d’information (ex : changement de
langage ...). En outre, l’utilisateur peut modifier les attributs de la scène en
changeant la position des objets, les rendant visibles ou invisibles, en changeant la
police des caractères, la couleur ou encore le volume sonore d’un acteur de la scène
(par exemple un acteur peut être isolé dans une scène, il sera possible d’isoler
également ses dires et de supprimer toute autre source sonore). Du côté du serveur,
son action peut permettre par exemple de changer de publicité au cours d’un match
de hockey automatiquement, il peut accéder aux mêmes données que le client, mais
peut se réserver le droit d’empêcher certaines interactions.
Efficacité de la compression:
• Compression efficace de la vidéo quel que soit le taux de transfert.
• Compression efficace des textures pour le plaquage de textures sur les
maillages 2D et 3D.
Profils visuels:
La partie visuelle du standard fournit des profils pour le codage des contenus visuels
naturels, synthétiques et hybrides naturel/synthétique. Il y a en tout cinq profils pour
le visuel naturel:
• Le profil visuel simple fournit un codeur, efficace et résistant aux erreurs,
d'objets vidéo
• rectangulaires, adapté pour les applications de réseaux mobiles, tels que PCS
et IMT2000.
• Le profil visuel simple adaptable ajoute au précédent un support pour coder
des objets adaptables aux niveaux temporel et spatial. Il est très utile pour les
applications qui fournissent des services sur plus d'un niveau de qualité à
cause du débit ou des possibilités limitées du décodeur, par exemple une
application Internet.
• Le profil visuel 'noyau' ajoute au profil visuel simple un support pour coder des
objets adaptables de formes arbitraires et temporaires. Il est très utile pour
les applications telle que celles qui fournissent une interactivité avec le
contenu relativement simple (applications multimédias sur Internet).
• Le profil visuel principal ajoute au profil précédent un support de codage pour
les sprites entrelacés et semi-transparents. Il est utile pour les applications
ludiques et interactives de grande qualité comme sur DVD par exemple.
• Le profil visuel N-Bit ajoute un support pour coder les objets qui ont des
profondeurs pixelliques de 4 à 12 bits. Il est adapté à l'utilisation en vidéo
surveillance.
Les profils pour les contenus visuels synthétiques et hybrides naturel/synthétique
sont:
• Le profil visuel d'animation faciale simple fournit un moyen simple d'animer un
modèle de visage, adapté aux applications telles qu'une présentation
audio/vidéo pour les malentendants.
• Le profil visuel adaptable dédié aux textures fournit des outils pour coder des
objets images fixes(texturés) aux dimensions adaptables utilisés pour les
applications ayant besoin de multiple niveau d'adaptation, tel que le plaquage
de texture sur un objet dans un jeu ou bien les caméras numériques haute
résolution fixes.
• Le profil visuel basique d'animation 2D fournit une adaptabilité de l'espace, du
SNR et l'animation d'objets fil de fer pour des objets images fixes, ainsi que
l'animation simple d'objets visage.
• Le profil visuel hybride combine les possibilités du profil visuel 'noyau' vu
précédemment et décode également plusieurs objets synthétiques et hybrides,
objets image fixe à face simple et animés inclus.
Profils audio:
Quatre profils audio ont été définis:
• Le profil parole fournit le HVXC qui est un codeur paramétrique de la parole à
très faible débit, un codeur CELP bande étroite/bande large et une interface
Text-To-Speech.
• Le profil synthèse fournit une synthèse par partition utilisant le SAOL et des
tables de sons ainsi qu'une interface Text-To-Speech pour produire des sons
et de la parole à de très faibles débits.
• Le profil adaptable est un super ensemble du profil parole. Il est adapté pour
le codage adaptable de la musique et de la parole pour les réseaux tels que
Internet et le Narrow band Audio Digital Broadcasting (NADIB). Le débit est
compris entre 6 kBits/s et 24 kBits/s avec des bandes larges entre 3.5 et 9
kHz.
• Le profil principal est un super ensemble très riche de tous les autres profils,
contenant des outils pour l'audio naturelle et synthétique.
Profils graphiques:
Les profils graphiques définissent quels éléments graphiques et textuels peuvent être
utilisés dans une scène. Ces profils sont définis dans la partie Système du standard:
• Le profil simple graphique 2D fournit seulement les outils du BIFS (Binary
Format for Scene Description) nécessaires pour placer un ou plusieurs objets
dans une scène.
• Le profil graphique 2D complet fournit toutes les fonctionnalités graphiques 2D
et supporte quelques fonctions comme les graphiques et les textes arbitraires,
qui peuvent être en conjonction avec des objets visuels.
• Le profil graphique complet fournit des éléments graphiques avancés tels que
les extrusions et permet de créer une scène avec des lumières sophistiquées.
Le profil graphique complet permet des applications telles que des mondes
virtuels complexes d'un très haut réalisme.
Problèmes ouverts:
MPEG-4 est une révolution, tant du point de vue de sa structure physique, que de
l'idéologie qui en découle. C'est la base de tout ce qui touchera la communication et
le multimédia dans les années à venir, et quand on voit l'explosion de toutes ces
technologies, on imagine l'importance d'une telle norme. MPEG-4 n'en est qu'à ses
débuts, mais ses applications sont vastes et beaucoup de choses ont déjà été
réalisées. Malgré tout, le travail à effectuer est encore long avant d’obtenir des
résultats convainquant pour tous les compartiments de la norme. En particulier, il
reste deux problèmes majeurs à résoudre pour le codage des vidéos naturelles, à
savoir, l'estimation de mouvement et la segmentation de la vidéo en objets.
La Compression Vidéo MPEG-7
De plus en plus d'informations audiovisuelles sont accessibles sous forme numérique,
en tout endroit de part le monde et de plus en plus de gens souhaitent les exploiter.
Mais avant que quiconque ne puisse utiliser de telles informations, il sera nécessaire
de commencer par les localiser. Au même moment, l'augmentation du nombre
d'informations potentiellement intéressantes rend la recherche de plus en plus
difficile.
Des solutions sont dors et déjà proposées pour faciliter la recherche d'information de
type texte. En effet, de nombreux moteur de recherche sont accessibles sur le Web
et font même partie des sites les plus visités, ce qui montre une réelle demande pour
ce type de produit. Il n'est cependant pas pour autant possible de chercher des
informations sur un contenu audiovisuel, puisqu'il n'existe en général pas de
descriptions reconnaissable de ce type d'information. En règle générale, il n'est pas
possible de trouver de façon efficace une image de "la moto de Terminator II" sur le
Web, pour prendre un exemple. Dans certain cas particuliers, des solutions existent
cependant. Des bases de donnée multimédias permettent aujourd'hui de chercher sur
le marché des images à partir de certaines caractéristiques comme la couleur, la
texture ou la forme d'objet dans l'image.
Objectifs de MPEG-7
MPEG a commencé à mettre au point un nouvel outil de travail pour répondre au
problème décrit précédemment. Ce nouveau membre de la famille MPEG, appelé
"Multimédia Content Description Interface"(MPEG-7) étendra les capacités de
recherche limitées d'aujourd'hui pour inclure d'autres types d'informations. En
d'autres termes, MPEG-7 va spécifier une description standard de différents types
d'informations multimédia. Cette description devra être associée au contenu lui-
même pour permettre la recherche rapide et efficace des informations qui intéressent
l'utilisateur.
Ces "matériaux" incluent; images, graphiques, audio, vidéo et de l'information sur
comment ces éléments sont combinés dans une présentation multimédia (scénario).
La description peut être attachée à n'importe quel matériau multimédia, quel que soit
le format de la représentation. Même si la description de MPEG-7 ne dépend pas de la
représentation du matériau, le standard s'appuie en un certain sens sur le standard
MPEG-4 qui fourni quand à lui les moyens de coder des matériaux audiovisuel.
La description standardisée des différents types d'information peut résider en un
certain nombre de niveaux sémantiques. Pour prendre l'exemple d'un matériau
visuel, un niveau d'abstraction bas pourrait être la description de la forme, taille,
texture, couleur et composition. Les plus hauts niveaux donneraient des informations
sémantiques comme; "il s'agit d'une scène avec une voiture rouge à gauche et un
oiseau qui vole (dans le ciel)", codées sous une forme efficace. Des niveaux
intermédiaires pourraient aussi exister.
En plus de la description du contenu, il peut être également nécessaire d'inclure
d'autres informations, comme Le format (par exemple le type de compression
utilisée) ou la taille. Cette information aide à déterminer si le matériau peut être lu
par l'utilisateur. On peut aussi penser aux conditions d'accès aux matériaux, qui
pourrait inclure des informations concernant le copyright et le prix, ou des liens vers
d'autres matériaux intéressant.
Contrairement aux précédentes versions du MPEG, MPEG-7 n'est pas un format de
compression. Ou en tout cas, pas seulement. Destiné au multimédia au sens large du
terme, il vise à encoder toute forme de données audiovisuelles, du texte à la vidéo,
du modèle 3D aux présentations interactives. Mais surtout, le standard propose de
compléter les données par leur description. MPEG-7 c'est, en résumé, "des bits à
propos des bits". Autrement dit, un ensemble de données supplémentaires décrivant
le contenu, son auteur, sa structure, ou même les éléments sémantiques qu'il
représente. Le principe est à la fois ambitieux et novateur et on imagine bien la
puissance d'un tel standard, notamment en matière de recherche sur le Web. C'est
d'ailleurs ce qui semble motiver ses concepteurs: "La principale ambition de MPEG-7
est de rendre les informations multimédias aussi faciles à trouver sur le Web que le
texte l'est aujourd'hui." Par exemple, on pourrait imaginer un moteur qui parcourt le
Web à la recherche d'une phrase musicale précise: tapez quelques notes de musique
au clavier, et vous obtiendrez tous les morceaux comportant les mêmes notes. Même
chose avec les images, il sera possible d'identifier les fichiers comprenant un objet
d'une couleur donnée, même s'il ne s'agit que d'une partie de l'image. Du reste,
l'intérêt n'est pas négligeable en matière d'intégrité des données, et donc de respect
des droits d'auteur. Mais, bien qu'intellectuellement plaisant, MPEG-7 soulève
quelques interrogations.
D'abord, le poids final des fichiers encodés avec ce format, dont on peut supposer
qu'il sera, par essence, plus important que celui de la description des données en
elle-même. Ensuite la base existante, si l'on considère les milliards d'informations
numériques (fichiers image, audio et vidéo) déjà encodées à d'autres formats, on
peut s'inquiéter de la vitesse à laquelle se répandrait un nouveau standard, encore en
cours de conception aujourd'hui.
Enfin, et surtout, on peut se poser la question de l'utilité réelle d'une telle solution. La
recherche d'une succession de notes dans l'océan de la musique mondiale peut
s'avérer intéressante, mais sûrement pas pour le commun des mortels, qui se
satisfait très bien d'une recherche plus classique par auteur ou par titre. En plus, il
existe d'autres solutions pour indexer, au besoin, des données multimédias. Qui ne
se souvient pas de l'affaire Clinton/Lewinsky. Peu après l'audition du Président, les
enregistrements vidéo des témoignages étaient disponibles sur AltaVista. Tronçonnés
en courtes séquences, ils étaient indexés à la fois automatiquement (à l'aide d'un
outil spécifique) et manuellement. Le résultat était probant; la saisie d'un texte
permettait d'identifier rapidement tous les extraits vidéo dans lesquels la phrase
correspondante avait été prononcée (souvent, curieusement, le dispositif était utilisé
pour trouver le mot "cigare").
Il n'est donc pas certain qu'il soit légitime de chercher à imposer(et généraliser) un
standard surpuissant, là où d'autres solutions "sur mesure" peuvent suffire. Décrire
les données tout en les compressant est pourtant une tentative logique d'organisation
et de structuration du contenu numérique. Mais il est bien dommage que l'on s'en
préoccupe si tard. Car finalement, le vrai problème de MPEG-7, c'est sans doute le
"7".
Présentation du standard MPEG-7
Les données multimédia sont dispersées dans de nombreuses bases de données.
Dans ce contexte, MPEG-7 se propose de standardiser la représentation de leur
contenu pour la recherche et le filtrage d'information. Beaucoup d'applications
peuvent bénéficier de MPEG-7, telles que la recherche dans les bases de données
audiovisuelles (pour le médical, l'éducatif, les loisirs, la surveillance, &Idots;), ou la
sélection de programmes diffusés.
- Les Limites:
Le standard MPEG-7 ne concerne absolument pas les aspects production et utilisation
des descriptions. C'est d'ailleurs dans cette optique que l'exemple suivant à été créé,
il s'agit de produire et utiliser une description MPEG-7 sommaire(à partir d'un ou
deux descripteurs).
De MPEG-1 à MPEG-21
Dans les images B, les vecteurs peuvent être vers l'avant ou l'arrière. La
compensation de mouvement peut être basée sur l'image ou la trame et cela est
indiqué, ainsi que l'échelle utilisée pour la re-quantification des coefficients. Le
décodeur se sert des vecteurs pour prendre les informations des images précédente
et suivante pour bâtir une image prédite. Les blocs subissent la transformée inverse
pour produire l'image de correction qui est ajoutée à l'image prédite afin d'obtenir le
signal de sortie du décodeur.
En codage 4:2:0, chaque macrobloc comporte quatre blocs Y et deux blocs de
différence de couleurs. Pour rendre possible l'identification de leur contenu(Y, Cr ou
Cb), les blocs sont émis dans un ordre particulier. Les macroblocs sont assemblés en
tranches représentant toujours des bandes horizontales balayant l'image de la
gauche vers la droite. En MPEG, les tranches peuvent commencer n'importe où et
être d'une taille quelconque. En ATSC, elles doivent commencer du côté gauche de
l'image.
Plusieurs tranches peuvent se placer sur la largeur de l'écran. La tranche est l'unité
fondamentale de synchronisation pour les longueurs variables et le codage
différentiel. Les premiers vecteurs d'une tranche sont émis intégralement tandis que
les autres sont transmis en mode différentiel. Dans les images I, les premiers
coefficients de composante continue de la tranche sont transmis intégralement et les
coefficients de composante continue suivants le sont différentiellement. Dans les
images de différence, cette technique ne se justifie pas. Si une erreur de bits se
produit dans un flux élémentaire, cela créera soit une rupture dans la dé-sérialisation
des symboles à longueur variable, soit une erreur des coefficients ou des vecteurs
émis ultérieurement en mode différentiel. La structure en tranches permet de
retrouver rapidement le bon décodage en fournissant un point de re-synchronisation
dans le flux de bits. Plusieurs tranches sont groupées pour constituer une image qui
est la part active d'une trame.
L'entête de l'image précise si le codage de l'image est de type I, P ou B et comporte
une référence temporelle de façon que l'image soit présentée à la bonne place. Dans
le cas de panoramiques ou de travellings verticaux, les vecteurs seront identiques
dans tous les macroblocs. Un vecteur global peut alors être émis pour l'ensemble de
l'image et les vecteurs individuels deviennent des différences de cette valeur globale.
Les images peuvent être combinées pour constituer un groupe d'images (GOP, Group
Of Pictures) qui commencera par une image I.
Le GOP est l'unité fondamentale d'un codage temporel. En standard MPEG,
l'utilisation de GOPs est optionnelle mais elle est pratiquement nécessaire. Entre les
images I peuvent être placées diverses images de type P et B. Un GOP peut être
ouvert ou fermé. Dans un GOP fermé, la dernière image B n'a pas besoin de l'image I
du groupe suivant pour être décodée et le flux de bits peut être coupé à la fin de ce
GOP. Si on utilise des GOPs, plusieurs GOPs peuvent être combinés pour produire une
séquence vidéo.
La séquence commence par un code de début de séquence, suivi par un en-tête et se
termine par un code de fin de séquence. Des en-têtes supplémentaires peuvent être
placés au cours de la séquence. Cette disposition permet de commencer un décodage
n'importe où dans la séquence comme cela peut se produire dans la lecture de
disques vidéo numériques ou de cassettes. L'en-tête de séquence définit les tailles
horizontale et verticale de l'image, le rapport d'image, le format de sous-
échantillonage de chroma, la fréquence d'image, le type de balayage (progressif ou
entrelacé), le profil, le niveau et le débit de bits ainsi que les matrices de
quantification utilisées dans les images intra-codées et inter-codées. Sans la donnée
d'en-tête de séquence, un décodeur ne peut interpréter le flux de bits et c'est
pourquoi les en-têtes de séquence deviennent des points d'entrée où les décodeurs
peuvent démarrer correctement leur opération. L'espacement entre les points
d'entrée influence directement le temps que met le décodeur à opérer
convenablement après une commutation d'un canal à l'autre.
Marqueurs temporels:
Après la compression, les images sont extraites de la séquence à cause du codage bi-
directionnel. Elles nécessitent une quantité variable de données et sont sujettes à un
retard variable en raison du multiplexage et de la transmission. Des marqueurs
temporels sont périodiquement incorporés dans chaque image afin de verrouiller la
synchronisation entre l'audio et la vidéo.
Un marqueur temporel est un nombre de 33 bits constitué par la valeur d'un
compteur piloté par une horloge à 90 KHz. Cette horloge est le résultat de la division
par 300 de l'horloge de programme à 27 MHz. Comme les temps sont régulièrement
espacés à la présentation, il n'est pas indispensable d'inclure un marqueur temporel à
chaque unité de présentation en sortie. Les marqueurs de temps peuvent, au lieu de
cela, être interpolés par le décodeur mais ils ne doivent jamais être séparés de plus
de 700 ms, que ce soit dans le flux de programme ou le flux de transport.
Les marqueurs de temps indiquent à quelle référence temporelle une unité d'accès
particulière appartient. La synchronisation des mouvements de lèvres est obtenue en
incorporant des marqueurs de temps simultanément dans les paquets PES vidéo et
audio.
Quand un décodeur reçoit un paquet PES sélectionné, il décode chaque unité d'accès
et la sauvegarde dans une mémoire tampon en RAM. Quand la valeur du code
temporel de ligne atteint celle du marqueur temporel, la RAM est lue. Cette opération
a deux résultats attendus. Primo, une correction de base de temps est effectivement
réalisée dans chaque flux élémentaire. Secundo, les flux élémentaires vidéo et audio
peuvent être synchronisés pour constituer un programme.
PTS/DTS:
Quand on utilise un code bidirectionnel, une image doit avoir été décodée quelque
temps avant d'être présentée de façon à pouvoir être utilisée comme source de
données pour une image B. Bien que, par exemple, l'on puisse présenter les images
dans l'ordre IBBP, elles seront transmises dans l'ordre IPBB. Il existera donc deux
types de marqueurs temporels.
Le marqueur temporel de décodage (DTS, Decode Time Stamp) indique quand une
image doit être décodée, tandis que le marqueur temporel de présentation (PTS,
Presentation Time Stamp) indique quand l'image doit être présentée à la sortie du
décodeur. Les images B sont décodées et présentées simultanément, c'est pourquoi
ils ne comportent qu'un PTS. Quand une séquence IPBB est reçue, les images I et P
doivent être décodées avant la première image B. Pendant que l'image P est en cours
de décodage, l'image I est présentée en sortie de façon à pouvoir être suivie des
images B.
La figure précédente démontre que, quand une unité d'accès contenant une image I
est reçue, les deux marqueurs DTS et PTS doivent exister dans l'en-tête et qu'ils
doivent être séparés d'au moins une période d'images. Si le codage bidirectionnel est
utilisé, une image P doit venir ensuite et cette image est également dotée d'un PTS et
d'un DTS, mais la séparation entre les deux marqueurs doit être de trois périodes
d'images pour permettre l'intervention des images B. Ainsi, si une séquence IPBB est
reçue, l'image I est retardée d'une image, l'image P de trois images et les deux
images B n'ont aucun retard. La présentation devient alors IBBP.
En clair, si la structure de GOP est changée de façon à ce qu'il y ait plus d'images B
insérées entre les images I et P, la différence entre le DTS et le PTS des images P
sera augmentée. Les indicateurs PTS/DTS de l'en-tête du paquet sont placés de façon
à indiquer la présence d'un PTS seul ou des deux marqueurs PTS et DTS. Les paquets
audio peuvent contenir plusieurs unités d'accès et l'en-tête de paquet contient un
PTS. Comme les paquets audio ne sont pas transmis autrement qu'en séquence
naturelle, il n'y a pas de DTS dans un paquet audio.
Flux de transport:
Un flux de transport est bien plus qu'un simple multiplexage de plusieurs paquets
PES. Dans les flux de programme, les marqueurs temporels sont suffisants pour
recréer l'axe des temps parce que l'audio et la vidéo sont verrouillés sur une
référence commune. Pour télécharger des données dans un réseau éloigné, un
impératif supplémentaire est nécessaire dans le décodeur pour recréer l'horloge de
chaque programme. Cela impose un élément supplémentaire dans la syntaxe afin de
fournir la référence d'horloge de programme (PCR, Program Clock Reference).
Le flux de transport véhicule plusieurs programmes différents utilisant chacun un
débit et un facteur de compression susceptibles de varier dynamiquement, même si
le débit global reste constant. Cette propriété est appelée multiplexage statistique et
permet à un programme supportant des images difficiles de prendre de la bande à un
programme supportant des images plus statiques.
A chaque PES vidéo peut être associé un certain nombre de PES audio et de PES de
données. En dépit de cette souplesse, un décodeur doit être capable de passer d'un
programme à l'autre et sélectionner convenablement les canaux de l'audio et des
données. Certains programmes sont protégés et ne doivent être accessibles qu'aux
personnes ayant souscrit un abonnement ou acquitté une redevance. Le flux de
transport doit donc comporter l'information d'accés conditionnel (Conditional access
table) pour gérer cette protection. Le flux de transport contient des informations
spécifiques de programme (PSI, Program Specific Information) pour s'acquitter de
ces tâches.
La couche de transport convertit les PES de données en petits paquets autonomes de
longueur constante de 188 octets. Quand ces paquets parviennent au décodeur, il se
peut qu'ils soient affectés d'une certaine jigue. Le multiplexage temporel est aussi
une cause de retard mais son amplitude n'est pas fixe car l'allocation de bits n'est
pas fixe pour chaque programme. Les marqueurs temporels constituent une partie de
la solution mais à la seule condition qu'une horloge disponible soit stable. Le flux de
transport doit donc comporter d'autres données permettant la reconstitution d'une
horloge stable.
L'exploitation d'un équipement vidéo numérique dépend grandement de la
distribution d'un système d'horloge stable pour la synchronisation. En production
vidéo, le genlock est utilisé mais, sur des grandes distances, la distribution d'une
horloge séparée n'est pas commode. Dans un flux de transport, les programmes
peuvent provenir de différentes origines qui ne sont pas nécessairement synchrones.
Par conséquent, le flux de transport doit être capable de fournir des moyens de
synchro pour chacun des programmes. Cette synchro supplémentaire est appelée
Référence d'Horloge de Programme(PCR, Program Clock Reference) et permet de
reconstituer une référence d'horloge stable à partir de laquelle, par division, on
recrée une fréquence ligne dans le décodeur de façon à pouvoir utiliser
convenablement les marqueurs temporels dans chaque flux élémentaire.
On définit par conséquent un programme comme un jeu de flux élémentaires
partageant la même référence temporelle. Dans un flux de transport de programme
simple (SPTS, Single Program Transport Stream), il y aura un canal PCR qui recrée
une horloge de programme pour l'audio et la vidéo.
Les Paquets:
La figure suivante montre la structure d'un paquet de flux de transport. La longueur
constante est de 188 octets répartis entre un en-tête et une charge utile. La figure A
montre l'en-tête minimal de 4 octets. Les informations les plus importantes de cet
en-tête sont:
L'octet de synchro:
Cet octet est reconnu par le décodeur de façon à pouvoir dé-sérialiser l'en-tête et la
charge utile.
Le compteur de continuité:
Sa valeur sur 4 bits est incrémentée par le codeur chaque fois qu'un nouveau paquet
ayant le même PID est émis. Il sert à déterminer si un paquet particulier est perdu,
répété ou hors séquence. L'en-tête a parfois besoin de plus d'informations et, si c'est
le cas, les bits de contrôle du champ d'adaptation sont placés pour indiquer que la
taille de l'en-tête est supérieure à la normale. La longueur supplémentaire de l'en-
tête est alors définie par la longueur du champ d'adaptation. Quand l'en-tête est
allongé, la charge utile est diminuée pour conserver une longueur constante au
paquet.
La figure suivante montre comment le décodeur utilise la PCR pour recréer une
version déportée de l'horloge 27 MHz pour chaque programme.
L'horloge du codeur pilote un compteur binaire permanent dont les valeurs sont
périodiquement lues et placées dans le champ d'adaptation de l'en-tête en tant que
PCR. Comme le marqueur de temps de présentation (PTS, Presentation Time Stamp),
le PCR comporte 33 bits et représente une valeur du compteur piloté par une horloge
à 90 Khz.
Chaque codeur génère des paquets ayant une identification de paquet (PID)
différente. Le décodeur reconnaît les paquets associés à l'identification correspondant
au programme sélectionné et ignore les autres. Dans le décodeur, un oscillateur local
(VCO) génère une horloge nominale à 27 Mhz qui pilote le compteur PCR. La valeur
du PCR local est comparée au PCR de l'en-tête du paquet et la différence constitue
l'erreur de phase PCR. Cette erreur est filtrée pour piloter le VCO afin que le PCR local
se verrouille sur le PCR de l'en-tête.
Un puissant filtrage du VCO évite au VCO d'être modulé par une jigue éventuelle
dans la transmission du PCR. L'indicateur de discontinuité réinitialise le compteur
local et peut être éventuellement utilisé pour atténuer le filtrage afin d'accélérer le
verrouillage du compteur local sur la nouvelle valeur temporelle.
Le MPEG implique que le PCR soit émis au moins 10 fois par seconde tandis que la
Diffusion Vidéo Numérique (DVB, Digital Video Broadcasting) spécifie une cadence
minimale de 25 PCR par seconde.
La Transmission en DVB
Une des principales caractéristiques des canaux de diffusion numérique tient au fait
qu'ils peuvent subir des grandes dégradations sans que cela ne soit visible. Mais
lorsque l'on dépasse un certain seuil, la rupture de service est brutale et totale. C'est
tout ou rien.
Le BER (Bite Error Rate): Trois voies de transmission sont possibles; le satellite, le
câble et le réseau de diffusion hertzien. Il faut aussi garder à l'esprit deux impératifs;
premièrement, on doit employer les canaux déjà existant (la largeur du canal est
imposée) et deuxièmement, la télévision numérique demande une transmission
qualifiée de QEF(Quasi Error Free, quasiment sans erreur). Pour réaliser cette
deuxième contrainte, il convient d'introduire une nouvelle notion; le BER(Bite Error
Rate ou TEB Taux Erreur Binaire). C'est tout simple. On va compter, à la réception, le
nombre de bit erroné reçus sur le nombre total de bit reçus. Si sur 1000 bits reçus, il
y en a un de faux, on a un BER de 1/1000.
Pour pouvoir faire le traitement inverse en réception, nous allons employer deux
mécanismes de synchronisation. Au premier paquet TS qui se présente, on charge le
générateur avec un mot connu (le mot d'initialisation) et l'octet de synchro du paquet
(0x47) est complété pour devenir 0xB8. Huit paquets d'affilés sont ainsi brassés. Au
neuvième paquet, le mot d'initialisation est de nouveau chargé et l'octet de synchro
complété. La porte AND est activée à chaque octet de synchro pour ne pas les
brasser et ainsi conserver ces points de repère. L'énergie de notre signal est
maintenant répartie sur tout le spectre et ceci même si il n'y a pas de signal en
entrée. En réception c'est le même circuit qui est employé, on attend un octet ayant
le mot de synchro 0xB8 pour charger le mot d'initialisation et dé-brasser les huit
paquets.
Codage Reed Solomon: Ce code est noté RS(188,204,t=8), ce qui veut dire 188
octets en entrée, 204 en sortie du codeur et 8 octets sur 188 peuvent être corrigés.
C'est un code en bloc qui va ajouter 16 octets de redondance derrière chaque paquet
TS. Si plus de 8 octets sont détectés comme erronés, le paquet est marqué comme
défectueux. Pour comprendre l'esprit de ce code, on va l'illustrer avec un exemple
très simple. Imaginons que nos paquets TS fassent 3 octets de long et que l'on
transmette le paquet suivant: 03 10 15 on va rajouté deux octets de redondance. Le
premier est la somme de nos trois données soit 28, le deuxième est la somme
pondérée des 3 octets. Chaque octet est multiplié par son rang : 3*1 + 10*2 + 15*3
soit 68. Notre paquet à la sortie du codeur devient donc : 03 10 15 28 68 Après
transmission et perturbation, le récepteur reçoit le paquet : 03 12 15 28 68 On refait
la somme simple 03+12+15=30 et la somme pondérée 8*1 + 12*2 + 15*3=72.La
différence des sommes simples(28-30) nous donne la valeur de l'erreur et la
différence des sommes pondérées divisé par l'erreur est égale à au rang de
l'erreur(7268)/2=2). On peut corriger notre paquet.
L'entrelacement: Une des choses les plus difficiles à corriger est une longue suite
de bit ou d'octet consécutifs erronés. On va donc répartir, à l'émission, les octets d'un
paquet dans d'autres paquets. Imaginons la suite de paquet de 5 octets suivante:
niche
chien
poule
tasse
fours
balles
video
audio
petit
porte
A: avant entrelacement,
B: après entrelacement,
C: après désentrelacement.
Code convolutif: Lorsque l'on affronte des milieux très bruités comme dans le cas
des liaisons satellites ou terrestres, il convient de renforcer encore les mesures de
protection des données à transmettre. Nous allons mettre en oeuvre maintenant un
code convolutif. Si l'on regarde bit à bit le signal, aucun lien ne les relie. Chaque bit
est rigoureusement indépendant. L'idée du code convolutif est de lier un bit à un ou
plusieurs bits précédents de sorte à pouvoir retrouver sa valeur en cas de problème.
Voici le codeur utilisé par DVB. On voit que chaque bit incident va générer deux bits
sortants et qu'il sera lié aux 6 bit précédents. Le bit 1 de sortie est un "OU exclusif"
entre les bits 1,2,3,4 et 7 tandis que le bit 2 de sortie est un "OU exclusif" des bits
1,3,4,6 et 7.
Avantage: Ce code dit "en treillis" va permettre de retrouver la valeur la plus
probable d'un bit en observant les bits précédemment reçus. C'est pas très évident à
expliquer mais c'est très efficace dans la réalité.
Inconvénient: On vient de doubler le débit du train TS. Quand on connaît le prix du
bit transmis, on se doute que l'on va trouver une astuce pour améliorer le
rendement. L'opération de décodage est réalisé en réception par le décodeur de
Viterbi.
Le poinçonnage: Le rendement du codeur vu ci-dessus est de 1/2, 1 bit d'entrée, 2
bits de sortie. Le poinçonnage consiste à améliorer ce rendement en ne transmettant
pas certains bits sortant du codeur convolutif. Si trois bits se présente en entrée de
codeur, on va en retrouver 6 en sortie mais on en transmettra que 4. Le rendement
sera alors de 3/4. On parle aussi de FEC 3/4 (FEC = Forward Error Correction).
Bien sur, ce poinçonnage crée des erreurs puisque l'on ne transmet pas tous les bits.
En réception, dans le décodeur de Viterbi, on remplace ces bits par des zéros. De part
la robustesse et la nature du code convolutif choisi, on retrouve leurs valeurs la plus
probable. On est maintenant presque prêt à attaquer un modulateur numérique. Un
problème subsiste cependant. Le signal numérique est de forme rectangulaire et si on
le module ainsi, on obtient un spectre en fréquence infini (un sin x/x). On va
résoudre le problème en filtrant le signal de façon à réduire la bande occupée. Le
filtre choisit est le filtre de Nyquist. Attention, dans le cas de la transmission par
câble, qui est considéré comme un milieu protégé, il n'y a pas d'application du code
convolutif et donc du poinçonnage.
Filtre de Nyquist: Une explication plus complète viendra en son temps. Pour le
moment, on dira juste que ce filtrage va diminuer le débit utile de notre signal en
fonction d'un coefficient appelé Roll Off. La largeur de bande occupée sera égale à:
W= Débit utile x(1+Roll Off)
Les exemples de calcul de débit, vu plus loin, illustrerons son emploi.
Calcul du débit utile: Pour revenir à des considérations pratiques, nous allons
calculer le débit utile en sortie de multiplexeur, en fonction de la largeur du canal
satellite. La largeur d'un canal satellite à -3 dB est de 36 MHz. On a vu que, de part
le filtrage de Niquyst, le débit du signal binaire que l'on va pouvoir transporter est
égale à :
En satellite, le Roll Off a été choisi égale à 0.35 (valeur qui est compromis entre une
bonne efficacité du filtre et un bon rendement). Donc pour une largeur de canal de
36MHz, on obtient un débit utile de 26,6 Mbit/s. En pratique, on prend une largeur de
canal un peu plus importante, ce qui permet d'obtenir un débit binaire de 27.5
Mbit/s. Cette valeur étant le débit en sortie du modulateur, elle est égale au Débit
Symbole (Symbol Rate) du transpondeur. Pour un transpondeur de 36 MHz de
largeur de bande, le Symbol Rate est de 27,5 MSymbol/s. On a employé une
modulation de type QPSK, un symbole transporte deux bits donc le débit binaire brut
est de 55 Mbit/s. Dans cette valeur sont compris les bits de redondance apportés par
le codage Reed Solomon et le code convolutif. Le débit utile, en sortie de
multiplexeur, est égale à: Débit utile= débit brute x rendement du code Reed
Solomon x rendement du code convolutif. Le rendement du code Reed Solomon est
égale à 188/204 Le rendement du code convolutif est égale au FEC. D'où le tableau
suivant;
Pour un Débit Symbole de 27.5 MSymbol/s sur un transpondeur de 36MHz de largeur
de bande
Calcul du débit utile: Ici la largeur du canal de transmission est de 8MHz (largeur
des anciens canaux analogique). On a vu que, de part le filtrage de Nyquist, le débit
du signal binaire que l'on va pouvoir transporter est égale à:
Le Roll Off choisi est de 0.15 (milieu protégé et bande faible). Donc pour une largeur
de 8 MHz, le débit binaire est au maximum de 6,96. Ce débit est égale au Débit
Symbole en sortie du modulateur QAM. Si nous travaillons en QAM 64, un symbole
représente 6 bits et donc le débit brut, en sortie du multiplexeur est égal à 6 x 6.96
soit 41.76 Mbit/s, codage Reed Solomon compris. Ici, je vous le rappelle, il n'y a pas
de codage convolutif. Le débit utile est donc: débit binaire utile = débit binaire brute
x rendement du code Reed Solomon, soit dans notre exemple 41.76 x (188/204) ou
38.48Mbit/s. Sur un réseau câblé, le débit binaire utile sera au maximum de 38.5
Mbit/s.
Transnitage: C'est l'opération qui consiste à remplacer la NIT d'un flux DVB par une
autre pour changer le réseau d'appartenance d'un flux. En clair le câblo remplace la
NIT incidente de l'opérateur satellitaire par la sienne.
Le COFDM: Transmettre un train numérique par voie hertzienne n'est pas une mince
affaire et c'est pourquoi c'est la technologie qui a demandée le plus de temps pour
émerger. C'est celle du DAB (Digital Audio Broadcasting) qui a été adaptée à la
télévision numérique. Voici quelques éléments et avantages utilisés par le DVBT.
À chaque cellule fréquence/temps est attribuée une porteuse dédiée qui représente
un symbole COFDM. On va donc répartir l'information à transporter sur un ensemble
de ces porteuses, modulée chacune à faible débit par une modulation du type QPSK
ou QAM. Deux choix existent, le mode dit 8K(6817 porteuses dans le canal) ou le
mode dit 2k(1705 porteuses dans le canal). Chacune des porteuses est orthogonale à
la précédente.
Une même suite de symbole arrivant à un récepteur par deux chemins différents se
présente comme la même information arrivant à deux instants différents et qui
s'additionnent. Ces échos provoquent deux types de défauts:
Avantages:
Le DVBT est compatible avec les installations de réception analogique déjà en place
(antenne, distribution collectives) Le système est insensible aux échos, il n'y a plus
de canaux interdits. Avec 25 Mbit/s utiles dans un canal, on diffuse 5 à 6
programmes où passe aujourd'hui un seul programme analogique. Possibilité de
gérer des décrochages locaux pour des chaînes ou des programmes locaux.
Possibilité de réception hertzienne mobile de qualité. Introduction de réseaux dit SFN
(Single Frequency Network).Un programme est disponible sur une seule et même
fréquence sur tout le territoire. Possibilité d'une réception mobile parfaite.
Inconvénients:
Moins de canaux disponibles que sur le satellite. Coût de l'infrastructure des
émetteurs terrestres. Complexité des démodulateurs.
Synchronisation temporelle:
La valeur d'intervalle de garde choisie pour le réseau a une grande importante sur la
topologie du réseau même, sa durée régit le temps maximum d'échos admissible par
le système et, donc, détermine la distance maximum entre les émetteurs de co-
canal. La fenêtre de temps, pendant laquelle les récepteurs échantillonnent le signal
utile exclue la période d'intervalle de garde, où le signal est fait d'un mélange de
deux symboles consécutifs de COFDM.
L'intervalle de garde doit être considéré globalement comme "budget de temps". Ce
sera sur cet intervalle non utilisé que l'on pourra compenser une mauvaise
synchronisation temporelle d'un émetteur du réseau. En pratique, l'opérateur de
réseau utilise 1 impulsion par seconde(1PPS, Pulse Per Second) issue d'un récepteur
GPS. Cette référence de temps autorise à insérer un marqueur de temps dans le
multiplex à l'entrée du réseau de distribution primaire pour permettre, dans chaque
émetteur, au processeur de COFDM de retarder le multiplex entrant jusqu'à ce qu'un
instant commun de temps de diffusion se produise.
Synchronisation fréquentielle:
A: Dispersion d'énergie
B: Code Reed Solomon
C: Entrelacement
D: Code convolutif et
poinçonnage
E: Filtrage de Nyquist
F: Modulation QPSK ou QAM
Tables optionnelles
BAT (Bouquet Association Table):
A pour PID 17 et table id 74. Cette table permet de grouper les services autrement
que par la notion de réseau (NIT). Un service peut appartenir à plusieurs bouquets.
On peut faire, par exemple, des bouquets pour regrouper les chaînes par thèmes ou
encore faire des bouquets par zone géographique de réceptions.
EIT schedule (Event Information table) :
A pour PID 18 et table id de 80 à 95 et 96 à 111. Donne des informations concernant
les événements à venir sur une semaine, sur les services du multiplex ou des
multiplex d'un opérateur. Cela doit permettre de constituer un EPG (Electronic
Program Guide) c'est à dire un guide électronique des programmes.
RST (Running Status Table):
A pour PID 19 et table id 113. Permet de modifier le statut d'un événement
rapidement. Un événement est un élément de programme (une émission par
exemple). L'événement peut être stoppé, démarré dans quelques secondes, en pause
ou en cours.
ST (Stuffing Table):
A pour PID 19 et table id 114. Cette table dite de bourrage permet de venir
remplacer n'importe quelle section d'autres tables pour l'invalider.
Tous les formats DTV utilisent présentement MPEG2 comme leur standard de
compression vidéo, tout comme les DVD-Vidéo. MPEG2 est un algorithme de
compression flexible qui s'adapte aisément aux hautes résolutions du DTV.
En format de télévision NTSC analogique (Amérique du Nord), l'image vidéo a 525
lignes, mais 480 seulement sont effectivement visibles. Un téléviseur normal aura
donc une résolution effective d'environ 210,000 pixels. La résolution maximum des
formats numériques (HDTV) permet une résolution d'environ 2 000 000 de pixels, ce
qui représente environ
10 fois plus de détails pour une image en Haute définition. On peut utiliser des ratios
de 4:3 ou 16:9, tel que montré dans la figure suivante:
Une émission de télévision typique est enregistré directement en vidéo NTSC, ou
utilise un format film 35mm. Dans le cas du film, le signal est converti en signaux
analogues pour la diffusion. Le format d'image film (35mm) est de 1.37:1, ce qui
veut dire qu'il est 1.37 fois plus large qu'il est haut. Un téléviseur standard a un
format de 4:3(1.33:1), alors la conversion est assez facilement réalisable.
La télévision haute définition, quand à elle, offre une image contenant beaucoup plus
de détails, ce qui permet un résultat plus "propre". Les images que nous voyons dans
nos téléviseurs sont composées de petit éléments appelés "pixels". Chacun de ces
pixels est composé de trois "points de couleur" très rapprochés (rouge, bleu et vert).
Avec les signaux NTSC analogiques traditionnel, 256 degrés d'intensité sont possible
pour chacune de ces 3 couleurs. Le résultat donne une possibilité de 16,8 millions de
couleurs pour chaque pixel. Dans un système analogique, les pixels sont un peu plus
haut que large. Par contre, avec un signal en HDTV, les pixels sont carrés et sont
également plus petits et plus rapprochés entre eux. 1920 pixels horizontaux en
luminance Y (noir et blanc) et 960 pixels pour chacune des deux couleurs Pb et Pr
(soit la luminance moins le rouge, et la luminance moins le bleu). La définition
verticale est donc de 1080 lignes utiles. Cette définition permet d'obtenir des pixels
carrés, pour une image au format 16/9, puisque 1920/16 = 120 et 1080/9 = 120. Le
rapport étant identique si les points sont carrés, ce qui facilite toutes les opérations
numériques qui pourraient être réalisées à partir de ces images. On pourra ainsi
mettre 4.5 pixels HDTV dans le même espace qu'aurait occupé un pixel NTSC. Il en
résulte qu'un téléviseur HD peut présenter 4.5 fois plus de détails qu'un téléviseur
analogique NTSC.
Pour opérer avec les nouveaux standards HDTV, les diffuseurs devront se ré-équiper
de a à z, car les formats digitaux HDTV ont:
- Une image plus large.
- Une image beaucoup plus détaillée.
- Une qualité audio supérieure (5.1 canaux Dolby Digital, AC-3).
- La possibilité d'envoyer de l'information directement à votre moniteur ou PC (la
transmission HDTV est basée sur un flux de données digitale de 19.3 Mbps*).
En HDTV, le ratio utilisé est de 16:9(1.78:1), ce qui est plus près de celui utilisé dans
les salles de cinéma (1.85:1 ou 2.35:1). Présentement les diffuseurs doivent utiliser
une méthode appelée "pan and scan"(découper l'image complète à un ratio de 4:3,
en éliminant une partie de l'image), ou "letterbox" (présenter l'image complète
seulement dans la partie centrale de l'image). Avec le format 16:9, utiliser le "pan
and scan" n'élimine qu'une infime partie de l'image et le "letterbox" ne bloque que
très peu de l'image. Le ATSC (Advanced Television Systems Committee) à adopté le
ratio 16:9 "wide-screen" comme standard pour la télévision haute définition
numérique car cela permet de présenter beaucoup plus d'information dans votre
téléviseur. De plus, comme de plus en plus de films sont présentés à la télévision
et/ou en vidéo (DVD, VHS, etc...), cela permet de présenter l'information au complet.
Au préalable on devait faire un "pan and scan" du document et, donc, couper une
partie de l'image. L'"association" cinéma et vidéo/télévision est donc plus facilement
réalisable.
Il est important de souligner que la diffusion des deux ratios(16:9 et 4:3) de signaux
numériques est possible, même s'il est présumé que tous les signaux DTV seront
diffusés en ratio 16:9 dans un avenir peut-être pas si lointain. Votre téléviseur
numérique pourra décoder les deux ratios sans égard a son ratio "natif". Lorsqu'un
programme est transmit en 4:3, sur un téléviseur 16:9, l'image sera présentée en
"window-box", centrée dans l'image, avec des barres noires verticales de chaque
côté. Lorsque vous regarderez un programme 16:9 sur un téléviseur 4:3, l'image
sera présentée en "letter-box", avec des bandes noires horizontales au dessus et en
dessous de l'image.
Non seulement l'arrivée du DTV nous offre une qualité d'image presque parfaite, mais
le format inclus également l'encodage audio numérique, qui améliore grandement la
qualité. Le standard audio numérique pour tous les formats DTV est le "Dolby
Digital". Ce qui permet au standard une vaste gamme d'algorithmes, selon les
besoins. "Dolby Digital" est un format beaucoup plus flexible que simplement le
format 5.1 canaux surround sound, il offre la possibilité d'encoder en formats 1.0
canaux (mono), 2.0 canaux (stéréo, incluant les option Dolby Pro-Logic et Pro-Logic
II). Les fans du cinéma maison pourrons également profiter du format 6.1 Extended
Surround Sound et le Dolby Digital EX. Dolby Digital utilisera seulement la quantité
de data nécessaire, selon les paramètres choisis.
Il est également à noter que le câble numérique, tel qu'offert présentement, n'est pas
un signal DTV (à quelques exceptions près). Il s'agit d'un signal analogique,
transformé en numérique pour sa transmission et retransformé en format analogique
de façon à ce que votre téléviseur puisse le présenter.
*- La largeur de bande passante utilisée pour diffuser les signaux numériques n'est
pas fixe. Elle évoluera en fonction de différents facteurs, dont les plus importants
sont le prix de la bande passante versus la qualité d'image et l'évolution des
algorithmes d'encodage qui permettrons de réduire la taille du signal sans affecter la
qualité. Présentement on prévoit utiliser entre 12 et 19 Mbps, mais ce chiffre pourrait
encore baisser.
Glossaire des termes et abréviations:
4:3 : Format de télévision écran large dont le rapport d'écran largeur sur hauteur
d'image est 4 / 3 soit 1.33 fois plus large que haut.
5.1 : Configuration de haut-parleurs la plus classique du "Cinéma maison" sur 4
enceintes plus 1 caisson spécial pour les effets de type explosion et effets spéciaux
(sub-woofer).
16:9 : Format de télévision écran large dont le rapport d'écran largeur sur hauteur
d'image est 16/9 soit 1.78 fois plus large que haut.
525/60 : Système de diffusion TV de 525 lignes par image et 60 trames entrelacées
(30 images) par seconde. Correspond au standard de télévision NTSC.
625/50 : Système de diffusion TV de 625 lignes par image et 50 trames entrelacées
(25 images) par seconde. Correspond aux standards de télévision PAL et SECAM.
1/2 D1 : Une des résolutions d'image MPEG-2 de 352 x 576 (PAL/SECAM) ou 352 x
480(NTSC) utilisée dans le format DVD-Video.
2/3 D1 : Résolution d'image MPEG-2 de 480 x 576 (PAL/SECAM) ou 480 x
480(NTSC) exploitée dans le format SVCD.
2-2 pulldown : Le processus de transfert d'un film cinéma 24 images par seconde
en vidéo PAL/SECAM 25 images par seconde. Le film est enregistré avec une
augmentation de sa vitesse de lecture de 4 %.
2-3 pulldown : Le processus de transfert d'un film cinéma 24 images par seconde
en vidéo NTSC 30 images par seconde en diffusant une des images en deux trames
puis la suivante en trois trames.
3-2 pulldown : Variation du 2-3 pulldown. La première image est diffusée sur 3
trames au lieu de deux.
8/16 modulation : Une des étapes de la transformation de données brutes en
données stockées sur un DVD, aussi appelée EFM+.
8-VSB : Acronyme pour la méthode de transmission utilisée pour la télédiffusion
numérique terrestre au Canada et aux états-Unis. Huit niveaux d'amplitude séparés.
La technologie de diffusion "vestigial side-band" ou par bande latérale résiduelle est
une technique de modulation analogique utilisée pour réduire la largeur de spectre
requise pour la diffusion d'informations par câble ou terrestre.
AC-3 : Standard audio pour 5.1 canaux approuvé pour la télévision numérique au
Canada. AC-3 offre une qualité audio numérique similaire au CD et fournit cinq
canaux de pleine largeur de bande: Gauche, Droite, Centre, Arrière (ou côté) gauche,
Arrière (ou côté) droit, plus un caisson d'extrèmes graves, LFE, (effets de basse
fréquence), pour un total de 5.1 canaux. AC-3 est un membre de la famille de
systèmes de son développés par Dolby Labs.
ACATS : Advisory Committee on Advanced Television Service.
Access Unit: Dans le cas de l'audio, un "access unit" est la représentation codée
d'un "frame" audio. Dans le cas du vidéo, un "access unit" inclut toute l'information
codée pour une image et tous les "bits" de remplissage qui suivent, jusqu'au prochain
"access unit"(non inclus).
ACL (écran d'affichage à cristaux liquides) : Cette technologie offre un format
d'écran plat et utilise une couche de cristaux liquides très mince. Elle offre une
brillance d'image très élevée et une bonne reproduction des couleurs. La taille des
écrans HD ACL peut atteindre jusqu'à 96 cm (38 po). La technologie ACL est
également utilisée dans plusieurs télé-projecteurs.
A/D : Convertisseur Analogue à numérique (Analogue/Digital).
ADPCM (Adaptive differential pulse code modulation) : Technique de
compression d'un fichier audio qui encode la différence entre un échantillon sonore et
le suivant par prédiction, de manière non destructive ou destructive selon ses
déclinaisons.
AES/EBU (Audio Engineering Society /European Broadcasting union) :
Standard professionnel régissant la vitesse de transfert d'information
audionumérique, et ce, à travers deux canaux.
Afterburner : Dispositif permettant d'extraire l'information incorporée dans le signal
vidéo et de le transformer en format texte. Ce "texte" est alors "brûlé" sur l'écran
vidéo à l'intérieur d'une fenêtre. Surtout utilisé pour brûler le "time code", mais aussi
pour d'autres informations pouvant servir à la post-production, par exemple.
AIF (Audio Interchange File) : Un format de fichier audio développé par Apple.
Les fichiers .AIF sont populaires pour transférer entre les ordinateurs Macintosh et les
PC.
Aliasing : Défauts ou distorsion de l'image télé ou de l'audio. Les défauts
apparaissent souvent comme des lignes diagonales en escalier et des sautillements
ou points brillants. En vidéo numérique, l'aliasing est causé par un échantillonnage
insuffisant ou un mauvais filtrage du signal numérique.
Alpha channel : Information attachée à chaque pixel qui représente comment ce
pixel doit être "mixé" avec le background et/ou vidéo (transparence).
Analogique (signal)[Analogue Signal] : Méthode de transmission d'un signal
vidéo par la variation continue d'un signal électrique.
Anamorphique (Anamorphic) : La compression horizontale d'une image 16:9 dans
un plein écran 4:3 qui entraine la distorsion verticale de l'image.
Anchor Frame : Un frame vidéo utilisé pour les prédictions. Les "I-Frames" et les "P-
Frames" sont généralement utilisés comme "anchor frames", mais jamais les "B-
Frames".
Ancillary Time Code (ATC) : Cette information de contrôle de temps et d'adressage
(SMPTE RP188) est encodée dans l'espace réservé au métadata d'un signal vidéo
numérique. Elle contient le même type d'information que le LTC et remplace le VITC
dans les système de télévision haute définition.
ANSI : American National Standards Institute.
API (Application Program Interface) : Une interface entre le système d'opération
et les applications incluant la manière utilisée par les applications pour communiquer
avec le système d'opération et les services que celui-ci met à la disposition des
applications. Par exemple un API pourrais rendre possible a un programme qui
l'utilise d'ouvrir des fenêtres sous Windows.
Artefact : Terme générique pour définir les éléments indésirables et/ou défectueux
dans une image vidéo (effets de blocs, bruits vidéo, etc.) et indépendant des réglages
du téléviseur. Les plus communs en vidéo analogue ont trait à la couleur et/ou la
luminance. En numérique, ils consistent en macroblocks, qui ressemblent à de la
pixellisation de l'image vidéo.
ASCII (American Standard Code for Information Interchange) : Un code
standard pour la transmission d'information consistant en 128 lettres, nombres,
symboles et codes spéciaux qui sont chacun représentés par un nombre binaire
unique.
Aspect Ratio (Format de l'image) : Rapport entre la largeur et la hauteur d'un
écran de télévision ou de visualisation.
Asynchrone (Asynchronous) : Qui manque de synchronisation. En vidéo, un signal
est dit asynchrone lorsqu'il n'est pas en synchronisation avec le signal de référence
du système.
Bit rate : La vitesse à laquelle le flux d'information compressé est envoyé dans le
canal de transmission.
Blanking level : Dans un signal vidéo composite, indique le niveau séparant l'image
proprement dite de l'information de synchronisation.
Block : Un block est un ensemble de 8X8 pixels ou un coefficient DCT représentant la
luminance et la chrominance.
BNC : Connecteur coaxial utilisé principalement en
vidéo.
Pas de Pixel : Le pas de pixel est le nombre de pixels ou points de l'image dans un
tube écran. Plus il y a de pixels, plus l'image est nette. Les écrans de télévision HD
à tube présentent un pas de pixel variant généralement entre 0.25 et 0.3 mm.
PAT (Program Association Table) : Table d'Association de Programme. Table qui
indique quels sont les PID de PMT des programmes du TS.
Payload : Réfère aux bytes qui suivent immédiatement le bit d'en-tête dans un
packet (paquet).
PCM (Pulse Code Modulation) : Système de numérisation d'une source analogique
audio ou vidéo. PCM est un signal numérique non compressé.
PCR (Program Clock Reference) : Valeur instantanée de l'horloge du codeur qui
est placée dans l'en-tête des paquets TS afin de synchroniser l'horloge du décodeur.
PDF (Portable Document Format) : Format de fichiers utilisé par Adobe Acrobat.
Les fichiers PDF contiennent une représentation très compacte de texte et de
graphiques, et permettent aux documents avec du texte et des graphiques
complexes d'être lus et imprimés sur les systèmes d'opération DOS, MacIntosh,
Windows et UNIX(SGI, Sun Solaris et Linux).
Pedestal (décollement du niveau du noir) : Différence entre le niveau du noir et
le niveau de suppression, que l'on observe dans un signal vidéo composite transmis
à un récepteur de télévision.
PES (Packetized Elementary Stream) : Flux élémentaire MPEG sous forme de
paquets.
Picture (Image): Image source, codée ou reconstruite, consiste en trois matrices
rectangulaires qui représentent la luminance et deux signaux de chrominance.
PID (Program/packet Identifier) : Identification de programme. Codé sur 13 bits
et placé dans l'en-tête du paquet de transport pour pouvoir l'identifier.
PING (Packet InterNet Gopher) : Protocole, faisant parti du standard TCP/IP,
permettant de vérifier votre connectivité avec un autre équipement, ou de vérifier si
votre connexion TCP/IP fonctionne correctement. Très utile pour "troubleshooter" des
problèmes à l'intérieur d'un réseau. Normalement, on "tape" quelque chose comme;
"ping 203.110.225.01", et on obtiens une réponse de cette adresse IP ... ou non.
Pixel (PEL, Picture Element) : Un pixel est un échantillonnage numérique d'une
image à un point fixe.
Pixels : Points de lumière individuels rouges, verts et bleus qui constituent une
image.
PMT(Program Map Table) : Table de répartition de programmes. Table qui indique
quels PID transportent les composantes d'un service (un PID par composante, bien
sûr).
Point-to-point transmission : Transmission entre deux stations désignées.