O p(E) est la probabilit de E On remarque que la fonction I vrifie bien les requis exprims plus haut : si p(E) diminue, I(E) augmente et si p(E) = 1 alors I(E) = 0. Le choix du logarithme en base 2 n'est pas anodin : dfinissons le bit (binary unit) comme la quantit d'information apporte par le choix entre deux valeurs quiprobables.
1
Thorie de linformation
Donc, si on a une variable E qui prend deux valeurs quiprobables (par exemple pile ou face pour une pice non truque) alors la quantit d'information apporte par la ralisation de {E = pile} est de 1 bit par dfinition du bit. Et on a bien 1 = -log2 1/2 L'unit de quantit d'information est le bit. Pour reprsenter une information de n bits, il faut alors n symboles binaires. Par exemple, si on 16 valeurs possibles quiprobables, alors une valeur a une quantit d'information gal 4 et il faut 4 bits (binary digit) pour reprsenter toutes les valeurs. Mais ce ne sera pas toujours le cas si la distribution de probabilit est ingale. On montre maintenant que cette dfinition rpond l'additivit requise pour I. Proprit 2.1 Si E et F sont 2 vnements indpendants alors I(E F) = I(E) + I(F). La quantit d'informations apportes par 2 vnements indpendants est la somme de leurs quantits d'information respectives. preuve : I(E F) = -log2 p(E F) = -log2 p(E) p(F) = -log2 p(E) -log2 p(F) = I(E)+ I(F) Exemple 2.1 : Soit un jeu de 32 cartes dans lequel on effectue des tirages et les vnements E = {la carte tire est un valet de cur} et F = {la carte tire est un cur} On a pour E, p(E) = 1/32 et I(E) = 5, et pour F, p(F) = 1/4 et I(F) = 2. E et F ne sont pas indpendants car p(E/F) = p(EF) / p(F) = (1/32)/(1/4) = 1/8 Cela nous mne dfinir l'information mutuelle pour 2 vnements. 3.2 Information mutuelle On veut mesurer l'apport d'information de l'vnement F sur l'vnement E. Si la ralisation de F augment la probabilit de ralisation de E on veut que cette mesure soit positive et inversement si F augmente l'incertitude sur E cette mesure doit tre ngative. Enfin si les deux vnements sont indpendants cette mesure doit tre nulle. Dfinition 2.2 Soient E et F 2 vnements. L'information apporte par F sur E est dfini par
Contrairement la quantit d'information, l'information mutuelle n'est pas toujours un rel positif.
Thorie de linformation
I(E, F) > 0 alors la ralisation d'un des 2 vnements augmente la probabilit de l'autre (diminue son incertitude) I(E ; F) = 0 alors E et F sont indpendants, l'information mutuelle est nulle I(E, F) < 0 alors la ralisation d'un des 2 vnements diminue la probabilit de l'autre (augmente son incertitude) p(E F) = 0 alors la ralisation d'un des 2 vnements rend impossible la ralisation de l'autre et I(E, F) = -
La proprit suivante tablit un lien entre la quantit d'information et l'information mutuelle. Proprit 2.3 I(EF) = I(E) + I(F) - I(E, F) 3.3 Entropie 3.3.1 Entropie d'une variable alatoire Prenons l'exemple d'un d. On voudrait connatre comme contenu d'information la valeur du d aprs un lancer. Soit alors X la variable alatoire valeurs dans {1, 2, 3, 4, 5, 6}. X peut prendre 6 valeurs et si le d n'est pas truqu, les valeurs sont quiprobables. Donc chaque valeur correspond une quantit d'information de 2,58 bits (= -log2(1/6)) Mais supposons maintenant que le d soit truqu et que la valeur 6 sorte avec une probabilit 0,5 et que les autres valeurs soient quiprobables. La quantit d'information pour chaque valeur n'est pas la mme et pour avoir une vision globale on peut tre intress connatre l'information moyenne soit l'esprance de I(X). Elle vaut ici :
H(X) est un rel positif comme I(X = x). H(X) correspond au nombre moyen d'lments binaires pour coder les diffrentes valeurs de X. H(X) n'est fonction que de la loi de probabilit de X, pas des valeurs prises par X.
Exemple 2.2 : pour un jeu de 32 cartes, on dfinit la variable alatoire X par X = 0 si la carte est rouge, X = 1 si la carte est un pique et X = 2 si la carte est un trfle. On a alors
3
Thorie de linformation
H(X) = -( log2 + log2 + log2 ) = + 2 + 2 = 1,5 bits Le rsultat suivant aura pour consquence de pouvoir mesurer l'efficacit d'un code Thorme 2.4 H(X) < = - log2 n si X prend n valeurs.
H(X) = - log2 n si et seulement si X a une loi uniforme (c'est--dire p(X = x) = 1/n pour tout x). Proprit 2.5 L'entropie augmente lorsque le nombre de valeurs possibles augmente. 3.3.2 Entropie conditionnelle Soient X; Y 2 variables alatoires discrtes. Dfinition 2.4 On appelle entropie de X conditionnelle Y = y
Enfin on dfinit l'entropie mutuelle comme l'entropie d'un couple de variables alatoires Dfinition 2.6 On appelle entropie mutuelle de X, Y
Entropie de X sachant Y et entropie mutuelle sont deux valeurs positives. Le lien entre entropie mutuelle et conditionnelle est donne par Proprit 2.6 H(X, Y) = H(X) + H (Y/X) = H(Y ) + H(X/Y )
Pour quantifier l'apport d'information X fournie par Y, on mesure la diffrence entre l'entropie de X (l'information moyenne de X) et l'entropie conditionnelle de X sachant Y, soit H(X)-H(X/Y). Il est facile de montrer que H(X)-H(X/Y) = H(Y)-H (Y/X) c'est--dire ce que Y apporte X est gal ce que X peut apporter Y .
4
Thorie de linformation
En effet H(X)-H(X/Y ) = H(X,Y )-H(Y/X)-H(X=Y ) d'aprs la proposition prcdente. En l'appliquant de nouveau on dduit H(X) - H(X/Y) = H(Y) - H (Y/X). On peut montrer que cette quantit est gale l'esprance de I(X = x, Y = y) dfini plus haut comme information mutuelle. O I(X ; Y) est l'esprance de I(X = x, Y = y) On peut montrer aussi que cette esprance est toujours positive contrairement l'information mutuelle. Proprit 2.7 I(X; Y) >= 0 Remarque : si X et Y sont indpendants alors I(X, Y) = 0. On dduit de ce rsultat Proprit 2.8 H(X/Y) <= H(X) Consquence : le conditionnement diminue l'incertitude : on a besoin de moins de bit pour coder X en moyenne sachant Y.