Anda di halaman 1dari 5

Thorie de linformation

Chapitre 3 : Mesure de linformation


Un message reu n'apporte de l'information que si son contenu n'est pas connu l'avance de son destinataire. Par exemple, si je connais le prochain bit recevoir, je n'ai pas besoin de le recevoir. On va supposer que l'ensemble de tous les messages possibles est fini. Alors fournir une information c'est lever l'incertitude l'issue d'une exprience alatoire. Cette incertitude peut varier pour un mme vnement si on a connaissance d'une autre information : pour 2 vnements E et F, si - p(E/F) < p(E) alors l'incertitude sur E augmente si on sait que F s'est ralis - p(E/F) = p(E) alors E et F sont indpendants, l'information apporte par F n'influence pas l'incertitude sur la survenue de E - p(E/F) > p(E) alors E devient plus probable si on sait que F s'est ralis L'ide de Shannon est de quantifier cette donne sachant que plus le contenu du message est rare plus l'information apporte est importante. A contrario, si on est sr de recevoir un certain message il n'apporte aucune information et la mesure de l'information apporte devra alors tre nulle. On voit alors qu'il y a un lien entre la probabilit de recevoir une information et la mesure que l'on veut en donner : ce lien que l'on cherche tablir doit respecter les ides ci-dessus. De plus on souhaite que la quantit d'information apporte par 2 vnements indpendants soit la somme des quantits d'information apportes par chacun. Rappel : si E et F sont 2 vnements la probabilit conditionnelle est gale p(E/F) = p(E F) / p(F) E et F sont indpendants si et seulement si p(E F) = p(E)p(F) ce qui quivaut p(E/F) = p(E) 3.1 Quantit dinformation Dfinition 2.1 Soit E un vnement. On appelle quantit d'information de E la valeur

O p(E) est la probabilit de E On remarque que la fonction I vrifie bien les requis exprims plus haut : si p(E) diminue, I(E) augmente et si p(E) = 1 alors I(E) = 0. Le choix du logarithme en base 2 n'est pas anodin : dfinissons le bit (binary unit) comme la quantit d'information apporte par le choix entre deux valeurs quiprobables.
1

Thorie de linformation

Donc, si on a une variable E qui prend deux valeurs quiprobables (par exemple pile ou face pour une pice non truque) alors la quantit d'information apporte par la ralisation de {E = pile} est de 1 bit par dfinition du bit. Et on a bien 1 = -log2 1/2 L'unit de quantit d'information est le bit. Pour reprsenter une information de n bits, il faut alors n symboles binaires. Par exemple, si on 16 valeurs possibles quiprobables, alors une valeur a une quantit d'information gal 4 et il faut 4 bits (binary digit) pour reprsenter toutes les valeurs. Mais ce ne sera pas toujours le cas si la distribution de probabilit est ingale. On montre maintenant que cette dfinition rpond l'additivit requise pour I. Proprit 2.1 Si E et F sont 2 vnements indpendants alors I(E F) = I(E) + I(F). La quantit d'informations apportes par 2 vnements indpendants est la somme de leurs quantits d'information respectives. preuve : I(E F) = -log2 p(E F) = -log2 p(E) p(F) = -log2 p(E) -log2 p(F) = I(E)+ I(F) Exemple 2.1 : Soit un jeu de 32 cartes dans lequel on effectue des tirages et les vnements E = {la carte tire est un valet de cur} et F = {la carte tire est un cur} On a pour E, p(E) = 1/32 et I(E) = 5, et pour F, p(F) = 1/4 et I(F) = 2. E et F ne sont pas indpendants car p(E/F) = p(EF) / p(F) = (1/32)/(1/4) = 1/8 Cela nous mne dfinir l'information mutuelle pour 2 vnements. 3.2 Information mutuelle On veut mesurer l'apport d'information de l'vnement F sur l'vnement E. Si la ralisation de F augment la probabilit de ralisation de E on veut que cette mesure soit positive et inversement si F augmente l'incertitude sur E cette mesure doit tre ngative. Enfin si les deux vnements sont indpendants cette mesure doit tre nulle. Dfinition 2.2 Soient E et F 2 vnements. L'information apporte par F sur E est dfini par

Contrairement la quantit d'information, l'information mutuelle n'est pas toujours un rel positif.

Thorie de linformation

On notera alors I(F E et F. On remarque que si -

E) = I(E, F) = I(F,E) et on l'appellera information mutuelle entre

I(E, F) > 0 alors la ralisation d'un des 2 vnements augmente la probabilit de l'autre (diminue son incertitude) I(E ; F) = 0 alors E et F sont indpendants, l'information mutuelle est nulle I(E, F) < 0 alors la ralisation d'un des 2 vnements diminue la probabilit de l'autre (augmente son incertitude) p(E F) = 0 alors la ralisation d'un des 2 vnements rend impossible la ralisation de l'autre et I(E, F) = -

La proprit suivante tablit un lien entre la quantit d'information et l'information mutuelle. Proprit 2.3 I(EF) = I(E) + I(F) - I(E, F) 3.3 Entropie 3.3.1 Entropie d'une variable alatoire Prenons l'exemple d'un d. On voudrait connatre comme contenu d'information la valeur du d aprs un lancer. Soit alors X la variable alatoire valeurs dans {1, 2, 3, 4, 5, 6}. X peut prendre 6 valeurs et si le d n'est pas truqu, les valeurs sont quiprobables. Donc chaque valeur correspond une quantit d'information de 2,58 bits (= -log2(1/6)) Mais supposons maintenant que le d soit truqu et que la valeur 6 sorte avec une probabilit 0,5 et que les autres valeurs soient quiprobables. La quantit d'information pour chaque valeur n'est pas la mme et pour avoir une vision globale on peut tre intress connatre l'information moyenne soit l'esprance de I(X). Elle vaut ici :

Dfinition 2.3 On appelle entropie de X l'esprance de I(X) note H(X).

H(X) est un rel positif comme I(X = x). H(X) correspond au nombre moyen d'lments binaires pour coder les diffrentes valeurs de X. H(X) n'est fonction que de la loi de probabilit de X, pas des valeurs prises par X.

Exemple 2.2 : pour un jeu de 32 cartes, on dfinit la variable alatoire X par X = 0 si la carte est rouge, X = 1 si la carte est un pique et X = 2 si la carte est un trfle. On a alors
3

Thorie de linformation

H(X) = -( log2 + log2 + log2 ) = + 2 + 2 = 1,5 bits Le rsultat suivant aura pour consquence de pouvoir mesurer l'efficacit d'un code Thorme 2.4 H(X) < = - log2 n si X prend n valeurs.

H(X) = - log2 n si et seulement si X a une loi uniforme (c'est--dire p(X = x) = 1/n pour tout x). Proprit 2.5 L'entropie augmente lorsque le nombre de valeurs possibles augmente. 3.3.2 Entropie conditionnelle Soient X; Y 2 variables alatoires discrtes. Dfinition 2.4 On appelle entropie de X conditionnelle Y = y

On a alors : Dfinition 2.5 On appelle entropie de X sachant Y

Enfin on dfinit l'entropie mutuelle comme l'entropie d'un couple de variables alatoires Dfinition 2.6 On appelle entropie mutuelle de X, Y

Entropie de X sachant Y et entropie mutuelle sont deux valeurs positives. Le lien entre entropie mutuelle et conditionnelle est donne par Proprit 2.6 H(X, Y) = H(X) + H (Y/X) = H(Y ) + H(X/Y )

Pour quantifier l'apport d'information X fournie par Y, on mesure la diffrence entre l'entropie de X (l'information moyenne de X) et l'entropie conditionnelle de X sachant Y, soit H(X)-H(X/Y). Il est facile de montrer que H(X)-H(X/Y) = H(Y)-H (Y/X) c'est--dire ce que Y apporte X est gal ce que X peut apporter Y .
4

Thorie de linformation

En effet H(X)-H(X/Y ) = H(X,Y )-H(Y/X)-H(X=Y ) d'aprs la proposition prcdente. En l'appliquant de nouveau on dduit H(X) - H(X/Y) = H(Y) - H (Y/X). On peut montrer que cette quantit est gale l'esprance de I(X = x, Y = y) dfini plus haut comme information mutuelle. O I(X ; Y) est l'esprance de I(X = x, Y = y) On peut montrer aussi que cette esprance est toujours positive contrairement l'information mutuelle. Proprit 2.7 I(X; Y) >= 0 Remarque : si X et Y sont indpendants alors I(X, Y) = 0. On dduit de ce rsultat Proprit 2.8 H(X/Y) <= H(X) Consquence : le conditionnement diminue l'incertitude : on a besoin de moins de bit pour coder X en moyenne sachant Y.

Anda mungkin juga menyukai