Proba Et Chaines de Markov Rennes

Universit de Rennes 2 Licence MASS 3
Anne 2007/2008 Second Semestre
Esprance conditionnelle & Chanes de Markov

Arnaud Guyader
Table des matires

1 Esprance conditionnelle 1.1 Cas discret . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Cas absolument continu . . . . . . . . . . . . . . . . . . 1.3 Applications . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.1 Probabilits conditionnelles . . . . . . . . . . . . 1.3.2 La rgression . . . . . . . . . . . . . . . . . . . . 1.4 Interprtation gomtrique de lesprance conditionnelle 1.5 Esprance conditionnelle : le cas gnral . . . . . . . . . 1.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Vecteurs gaussiens et conditionnement 2.1 Rappels sur les vecteurs gaussiens . . . . . . . . . 2.1.1 Variables gaussiennes . . . . . . . . . . . . 2.1.2 Vecteurs gaussiens . . . . . . . . . . . . . 2.2 Conditionnement des vecteurs gaussiens . . . . . 2.2.1 Conditionnement pour un couple gaussien 2.2.2 Hyperplan de rgression . . . . . . . . . . 2.2.3 Esprance conditionnelle gaussienne . . . 2.3 Exercices . . . . . . . . . . . . . . . . . . . . . . 3 Chanes de Markov 3.1 Dnition dune chane de Markov . 3.2 Equations de Chapman-Kolmogorov 3.3 Classication des tats . . . . . . . . 3.4 Comportement asymptotique . . . . 3.5 Exercices . . . . . . . . . . . . . . . A Annales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 7 14 14 15 20 27 28 55 55 55 59 70 70 72 75 78 99 99 101 105 109 119 133
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
Chapitre 1
Esprance conditionnelle
Introduction
Lesprance conditionnelle est un outil dusage constant en probabilits et statistiques. Nanmoins, sa dnition dans le cas gnral nest pas simple. Cest pourquoi ce chapitre prsente lide par tapes et de faon intuitive : cas discret, cas absolument continu, interprtation gomtrique dans L2 et enn extension L1 .
1.1
Cas discret
(, F, ) X Y (X(), Y ())
On considre un couple alatoire discret (X, Y ), cest--dire une application mesurable (X, Y ) :
avec les ensembles X = (xi )iI et Y = (yj )jJ au plus dnombrables (i.e. nis ou dnombrables). Autrement dit, les ensembles dindices I et J sont au plus dnombrables : penser des ensembles nis, , . Pour calculer des quantits lies ce couple alatoire, il faut bien sr connatre la probabilit de tomber sur un couple (xi , yj ). Nous adoptons la notation : pij = (X = xi , Y = yj ). La suite double (pij )iI,jJ est appele loi jointe du couple (X, Y ). Il est clair que : 0 pij 1 iI,jJ pij = 1 Exemple. On tire deux chires au hasard, indpendamment et de faon quiprobable entre 1 et 3. Soit X le maximum des chires obtenus et Y la somme des chires obtenus. La loi jointe du couple (X, Y ) se reprsente sous forme dun tableau (voir gure 1.1). Dnition 1.1 (Lois marginales) Soit (X, Y ) un couple alatoire. Les variables alatoires X et Y sont dites marginales. La loi de X, dite loi marginale, est entirement dtermine par les probabilits pi. de tomber sur les points xi : (X = xi , Y = yj ) = pij pi. = (X = xi ) =
jJ jJ
De mme pour la loi marginale de Y et les probabilits p.j de tomber sur les points yj : p.j = (Y = yj ) =
iI
(X = xi , Y = yj ) =
iI
pij
2
Y X 1
1 9
Chapitre 1. Esprance conditionnelle
2 9
1 9
2 9
2 9
1 9
Fig. 1.1 Loi jointe pour le max et la somme.
Exemple. Pour lexemple prcdent, on calcule aisment les lois marginales de X et Y : il sut de sommer sur chaque ligne pour la loi de X et sur chaque colonne pour la loi de Y (voir gure 1.1).
5 9
4 9 3 9
2 9 1 9
2 1 2 3
Fig. 1.2 Loi jointe et lois marginales pour le max et la somme.
Achtung ! La connaissance des lois marginales ne sut pas dterminer la loi du couple (X, Y ). Autrement dit, on peut trouver deux couples (X1 , Y1 ) et (X2 , Y2 ) nayant pas mme loi jointe, mais tels que les lois de X1 et X2 soient gales, ainsi que les lois de Y1 et Y2 (cf. gure 1.3). La situation agrable est celle o les variables marginales X et Y sont indpendantes. Celle-ci se vrie facilement une fois connues la loi jointe et les lois marginales. Proposition 1.1 (Lois marginales et indpendance) Les variables alatoires marginales X et Y sont indpendantes si et seulement si : (i, j) I J Arnaud Guyader - Rennes 2
(X = xi , Y = yj ) = (X = xi )(Y = yj ),
1.1. Cas discret
Y1 X1 1
Y2 X2
1 4
1 16
1 8
1 16
1 4
1 4
1 8
1 4
1 8
1 4
1 16
1 8
1 16
Fig. 1.3 Mmes lois marginales mais loi jointe dirente.
cest--dire avec nos notations : pij = pi. p.j . Exemples : 1. Sur lexemple prcdent du max et de la somme, il est clair que X et Y ne sont pas indpendantes puisque par exemple : p12 = 1 1 1 1 = p1. p.2 = = 9 9 9 81
2. Jeu de cartes : on tire une carte au hasard dans un jeu de 32 cartes. Le rsultat de ce tirage est reprsent par le couple alatoire (X, Y ), o X est la couleur et Y la valeur. Autrement dit, X appartient lensemble {Pique, Cur, Carreau, Tre} et Y lensemble {7, 8, 9, 10, Valet, Dame, Roi, As}. Il est clair que : (i, j) I J
(X = xi , Y = yj ) =
1 1 1 = = (X = xi )(Y = yj ), 32 4 8
donc X et Y sont indpendantes. Remarque. Soit i I x. Notons quon peut avoir pij = 0, cest--dire que lvnement {X = xi , Y = yj } ne se ralise jamais. Par contre, on exclut le cas o pi. = 0 : ceci signierait que X ne prend jamais la valeur xi , auquel cas cette valeur naurait rien faire dans X . Puisque chacune des probabilits pi. est non nulle, on peut dnir la probabilit conditionnelle de Y = yj sachant X = xi par la formule : pj|i = (Y = yj |X = xi ) =
(X = xi , Y = yj ) pij = (X = xi ) pi.
Dnition 1.2 (Probabilits conditionnelles) Soit xi X . La loi conditionnelle de Y sachant X = xi est la loi discrte prenant les valeurs yj avec les probabilits pj|i = (Y = yj |X = xi ). Exemple : Lois de Poisson. Soit Y P() et Z P() deux variables alatoires de Poisson indpendantes. On sintresse leur somme X = Y + Z. X est bien sr une variable alatoire. On rappelle que Y suit une loi de Poisson de paramtre si Y est valeurs dans , avec (voir aussi gure 1.4) : n
(Y = n) = e
n . n!
Arnaud Guyader - Rennes 2
0.28
0.09
0.08 0.24
P(2)
0.07 0.06
P(20)
0.20
0.16
0.05
0.12
0.04
0.03 0.08 0.02 0.04 0.01
0.00 0 1 2 3 4 5 6 7 8 9 10
0.00 0 4 8 12 16 20 24 28 32 36 40
Fig. 1.4 Lois de Poisson de paramtres 2 et 20.
1. Loi de X ? La variable alatoire X est valeurs dans en tant que somme de variables alatoires valeurs dans . On commence par dterminer sa loi. Soit donc n x, alors :
(X = n) = (Y + Z = n) =
k=0
{Y = k, Z = n k}
=
k=0
(Y = k, Z = n k).
n k Cn k nk , k=0
Or Y et Z sont indpendantes, donc :
(X = n) =
n k=0
(Y = k)(Z = nk) =
e
k=0
k nk e(+) e = k! (n k)! n! ( + )n . n!
et on reconnat la formule du binme :
(X = n) = e(+)
Cest--dire que X suit une loi de Poisson de paramtre ( + ). Ce rsultat se gnralise dailleurs sans problme : si les Xi P(i ) sont globalement indpendantes, alors leur somme S suit encore une loi de Poisson : S P(1 + + n ). Dun point de vue thorie de la mesure, on vient de montrer que le produit de convolution de deux lois de Poisson est une loi de Poisson. 2. Loi de Y sachant X ? Soit n , dterminons la loi de Y sachant X = n. Puisque X = Y + Z, il est clair que, sachant X = n, Y est valeurs dans {0, 1, . . . , n}. Soit donc k {0, 1, . . . , n} :
(Y = k|X = n) =
(Y = k, X = n) (Y = k, Z = n k) (Y = k)(Z = n k) = = . (X = n) (X = n) (X = n)
Et il sut alors dexprimer tout ceci grce aux lois de Poisson, ce qui donne aprs simplications : k nk k (Y = k|X = n) = Cn . + + Arnaud Guyader - Rennes 2 Esprance conditionnelle & Chanes de Markov
1.1. Cas discret

Ainsi, sachant X = n, Y suit une loi binmiale B n, + .
Revenons au cas gnral et supposons que Y soit intgrable. Si X est ge xi , il est naturel de considrer la valeur moyenne de la variable alatoire Y lorsque X = xi : cest ce quon appelle lesprance conditionnelle de Y sachant X = xi . Elle scrit : E[Y |X = xi ] = pj|i yj
jJ
Or on sait que X prend la valeur X = xi avec la probabilit pi. . Dnition 1.3 (Esprance conditionnelle) Supposons Y intgrable. La variable alatoire qui prend les valeurs E[Y |X = xi ] avec les probabilits pi. est appele esprance conditionnelle de Y sachant X et note E[Y |X]. Nota Bene. Il faut noter quen gnral lesprance conditionnelle E[Y |X] est une variable alatoire et non un nombre. On peut linterprter comme la valeur moyenne prise par Y lorsque lon connat X. Elle pourra donc scrire comme une fonction de X. Exemple. On reprend lexemple prcdent. Lesprance de Y sachant X = n est lesprance dune loi binmiale B(n, + ). Donc pour tout n 0 : E[Y |X = n] = n . +
Puisque ceci est vrai pour tout entier naturel n, lesprance conditionnelle de Y sachant X est : E[Y |X] = X , +
qui est bien une fonction de X, donc une variable alatoire, et non un nombre. Thorme 1.1 (Calcul desprance par conditionnement) Si Y est intgrable, alors la variable alatoire E[Y |X] aussi et on a : E[E[Y |X]] = E[Y ]. Exemple. Sur lexemple prcdent, les paramtres et tant des constantes, on peut crire : E[E[Y |X]] = E[X], + or lesprance dune loi de Poisson de paramtre ( + ) est tout simplement ( + ), donc : E[E[Y |X]] Preuve. Cest lne qui trotte : E[E[Y |X]] = or pj|i =
pij pi. ,
( + ) = = E[Y ]. +
iI
pi. E[Y |X = xi ] =
iI
donc : E[E[Y |X]] =
pi.
jJ
pj|iyj , yj , Arnaud Guyader - Rennes 2
iI
jJ
pij yj =
pij
jJ iI
6 or, par dnition, p.j = pij , donc : E[E[Y |X]] =
iI
p.j yj = E[Y ].
jJ
Remarque. Ce rsultat permet souvent de calculer lesprance de Y en deux tapes : on exprime dabord E[Y |X] comme une fonction (X) de la variable alatoire X. Puis, si cette fonction et la loi de X sont assez simples, on calcule E[(X)]. Voir par exemple les exercices Un d et une pice et Somme alatoire de variables alatoires en n de chapitre. On vient de dire que, dans le cas gnral, lesprance conditionnelle E[Y |X] est une variable alatoire et pas un nombre. Il existe cependant un cas particulier : lorsque X et Y sont indpendantes. Proprits 1.1 (Esprance conditionnelle et indpendance) Si Y est intgrable, si X et Y sont indpendantes, alors la variable alatoire E[Y |X] est constante, gale E[Y ]. Preuve. Si X et Y sont indpendantes, alors pour tout couple (i, j) I J : pij = pi. p.j . On en dduit que : donc pour tout xi X : (i, j) I J E[Y |X = xi ] = pj|iyj =
jJ jJ
pj|i = p.j ,
p.j yj = E[Y ],
or par dnition E[Y |X] est la variable alatoire qui prend les valeurs E[Y |X = xi ] avec les probabilits pi. . On en dduit que E[Y |X] est la variable alatoire constante gale E[Y ]. Dans de nombreuses situations, on dsire calculer la valeur moyenne prise par une fonction du couple (X, Y ), cest--dire : E[h(X, Y )] =
h(X, Y ) d,
o h est une fonction de 2 dans . Par exemple si on veut calculer la moyenne de la somme de deux variables, ou la moyenne de leur produit. Rappel : Thorme de transfert Sous rserve dintgrabilit, le thorme de transfert assure que lesprance prcdente scrit comme une somme double : E[h(X, Y )] = h(xi , yj )pij
iI,jJ
Le cas simple est celui o, dune, h se dcompose en produit : h(x, y) = f (x)g(y), et, de deux, X et Y sont indpendantes. Dans ce cas, on a immdiatement : E[h(X, Y )] = f (xi )pi.
iI
jJ
g(yj )p.j = E[f (X)]E[g(Y )],
1.2. Cas absolument continu cest--dire quil sut de calculer deux esprances discrtes classiques. Dans le cas gnral, h ne se dcompose pas aussi simplement et les variables X et Y ne sont pas indpendantes. Nanmoins, sous les hypothses usuelles dintgrabilit, on peut toujours crire : E[h(X, Y )] =
iI
Ceci est une autre faon de dire que :
jJ
h(xi , yj )pj|i pi. =
E[h(xi , Y )|X = xi ](X = xi )
iI
E[h(X, Y )] = E[E[h(X, Y )|X]] o E[h(X, Y )|X] est la variable alatoire qui prend les valeurs E[h(xi , Y )|X = xi ] avec les probabilits pi. . On a ainsi ramen le calcul dune somme double deux calculs de sommes simples.
1.2
Cas absolument continu
Pour une variable alatoire relle X, les deux situations classiques sont les suivantes : X est discrte ou X est absolument continue, cest--dire quelle admet une densit. Dans le paragraphe prcdent, on a vu le pendant dune loi discrte pour un couple alatoire. Etudions maintenant lanalogue dune loi absolument continue pour un couple alatoire (X, Y ) valeurs dans 2 (ou un sous-ensemble de 2 ). Par dnition, la loi jointe PX,Y du couple est la mesure de probabilit sur (2 , B2 ) dnie par : B B2 , PX,Y (B) = ((X, Y ) B),
que lon peut voir comme la probabilit que le point alatoire M de coordonnes (X, Y ) tombe dans lensemble borlien B. Dnition 1.4 (Loi jointe absolument continue) On dit que la loi PX,Y est absolument continue1 sil existe une fonction mesurable f : (2 , B2 ) (, B) telle que : B B2 , PX,Y (B) =
B
f (x, y) dx dy.
La fonction f est appele densit de probabilit du couple (X, Y ). On la note parfois fX,Y . Pour quune fonction f soit une densit de probabilit, il faut et il sut quelle soit positive et intgre 1 : f (x, y) 0 2 f (x, y) dx dy = 1 Remarque. En pratique, dans tout ce paragraphe, on peut faire le parallle avec ce qui a t vu dans le cas discret : il sut de remplacer xi par x, yj par y, pij par f (x, y) et les sommes par des intgrales. Exemple. On considre un couple (X, Y ) de densit : f (x, y) = 2e(x+y) {0xy}
1
sous-entendu : par rapport la mesure de Lebesgue sur
.
2
8 z
2.0 1.8 1.6 1.4 1.2 1.0 0.8 0.6 0.4 0.2 0
y
0 1 2 3
x
0 1 2 3 4 4 5
Fig. 1.5 Reprsentation de la densit jointe f (x, y) = 2e(x+y) {0xy} . On vrie que ceci dnit bien une densit de probabilit sur 2 . En eet, f est positive et par le thorme de Fubini-Tonelli, on a pour le calcul de lintgrale double :
+ y 0
f (x, y) dx dy =
2
2e(x+y) dx
+ x
dy =
0
2e(x+y) dy
dx.
Prenons par exemple la premire expression :

+
f (x, y) dx dy =
0
2ey ex
y 0
dy =
0
(2ey 2e2y ) dy,
ce qui donne nalement :
f (x, y) dx dy = 2ey + e2y
+ 0
= 1.
La reprsentation de la densit f est donne gure 1.5. Comme dans le cas discret, on peut dnir les lois des variables alatoires marginales X et Y . Proposition 1.2 (Lois marginales) Si le couple (X, Y ) est absolument continu, les variables marginales X et Y sont absolument continues et la densit jointe f (x, y) dtermine les densits marginales f (x) et f (y) : f (x) = fX (x) =
f (x, y) dy
&
f (y) = fY (y) =
f (x, y) dx
Convention. Suivant le contexte, la densit marginale de X sera note f (x) ou fX , mais rarement fX (x), qui est lourdingue. Idem pour Y .
1.2. Cas absolument continu Exemple. Pour lexemple prcdent, on obtient (voir gure 1.6) : f (x) = 2e2x [0,+[(x) f (y) = 2ey (1 ey )[0,+[ (y) Une fois connues les lois marginales, on peut eectuer les calculs usuels sur les variables alatoires absolument continues. Par exemple, sous rserve dintgrabilit, lesprance de X est alors simplement : E[X] =
xf (x) dx.
2.0 1.8 1.6 1.4 1.2 1.0 0.8 0.6 0.4 0.2 0.0 0.0
0.5
0.4
0.3
fX (x)
0.2
fY (y)
0.1
0.2
0.4
0.6
0.8
1.0
1.2
1.4
1.6
1.8
2.0
0.0 0 1 2 3 4 5 6
Fig. 1.6 Reprsentation des densits marginales f (x) et f (y). Chausse-trappe2 . Pour lexemple prcdent, puisque X suit une loi exponentielle E(2), on a 1 E[X] = 2 . On rappelle au passage que si X E(), cest--dire si X a pour densit : f (x) = ex [0,+[(x),
1 alors E[X] = . Les Anglo-Saxons adoptent la convention inverse : pour eux, la variable alatoire T suit une loi exponentielle de paramtre si T a pour densit :
f (t) =
1 t e [0,+[(t),
auquel cas on a bien sr tout simplement E[T ] = . Lorsquon veut simuler des lois exponentielles laide dun logiciel, il faut donc faire attention la convention utilise par celui-ci. Dans le cas gnral, par dnition, les variables alatoires X et Y sont indpendantes si pour tout couple de borliens B et B de , on a :
(X B, Y B ) = (X B)(Y B ),
ou encore si pour toutes fonctions bornes (ou positives) g et h de E[g(X)h(Y )] = E[g(X)]E[h(Y )].
dans :
Si la loi jointe est absolument continue, lindpendance se vrie de faon simple.

2
Les cuistres crivent plutt chausse-trape, les deux orthographes tant acceptes.
10
Chapitre 1. Esprance conditionnelle Proposition 1.3 (Indpendance) Avec les notations prcdentes, les variables alatoires X et Y sont indpendantes si et seulement si pour tout couple (x, y) 2 : f (x, y) = f (x)f (y). Exemple. Pour lexemple prcdent, X et Y ne sont pas indpendantes puisque : f (0, 0) = 2 = fX (0)fY (0) = 0. Remarque. Le raisonnement sur les supports permet parfois de conclure rapidement la nonindpendance. Le support de la loi de X est ladhrence de lendroit o X a des chances de tomber : Supp(X) = Adh{x : f (x) = 0}. Cest gnralement un intervalle ferm IX . On dnit de mme le support IY de la loi de Y . Mais alors, si X et Y sont indpendantes, le support du couple (X, Y ) est IX IY , produit cartsien de IX par IY . Cest--dire, en gnral, un pav (ferm) de 2 . Donc si le support du couple (X, Y ) nest pas un pav, X et Y ne sont pas indpendantes.
y y
Supp(X, Y ) Supp(X)Supp(Y )
Fig. 1.7 Support du couple (X, Y ) ( gauche) et produit cartsien des supports de X et de Y ( droite). Exemple. Pour lexemple prcdent, le support de X est gal au support de Y , savoir + = [0, +[. Donc si X et Y taient indpendantes, le support du couple (X, Y ) serait le pav + + . Or le support de (X, Y ) est : Supp(X, Y ) = {(x, y) 2 : 0 x y} = + + , donc X et Y ne sont pas indpendantes (voir gure 1.7). On veut maintenant dnir lanalogue des probabilits conditionnelles vues dans le cas discret. Dnition 1.5 (Lois conditionnelles) La densit conditionnelle de Y sachant X = x est : f (y|x) = fY |X (y|x) = Arnaud Guyader - Rennes 2
f (x,y) f (x)
si f (x) > 0 si f (x) = 0
1.2. Cas absolument continu Interprtation graphique. Pour la reprsentation de la densit conditionnelle f (y|x0 ), il sut de faire une coupe de la surface dnie par la densit jointe f (x, y) par le plan dquation x = x0 . On obtient ainsi la fonction y f (x0 , y) : au facteur de normalisation f (x0 ) prs, ceci donne une ide de la densit conditionnelle f (y|x0 ).
11
f (y|x)
y x
Fig. 1.8 Densit conditionnelle f (y|x) = e(yx) {yx} . Exemple. Pour lexemple prcdent, pour tout x 0, on a : f (y|x) = e(yx) {yx} , cest--dire que, conditionnellement X = x, Y suit une loi exponentielle de paramtre 1 translate sur lintervalle [x, +[. Ceci est illustr gure 1.8. Ainsi dnie, pour tout x 0, la fonction f (.|x) est une densit de probabilit, cest--dire quelle est positive et somme 1. Les relations dj vues dans le cas discret entre marginales et conditionnelles sont encore valables : il sut de remplacer les sommes discrtes par des intgrales. Ainsi on a par exemple : f (y) =
f (y|x)f (x) dx.
De plus, si les variables alatoires X et Y sont indpendantes, on a bien sr fX|Y = fX et fY |X = fY . On veut maintenant dnir lesprance conditionnelle. Pour x x, lesprance conditionnelle de Y sachant X = x est : E[Y |X = x] = yf (y|x) dy.
La fonction : x (x) = E[Y |X = x] est une fonction relle de la variable relle. (X) est donc une variable alatoire : cest lesprance conditionnelle de Y sachant X. Dnition 1.6 (Esprance conditionnelle) La variable alatoire qui prend les valeurs E[Y |X = x] avec la densit f (x) est appele esprance conditionnelle de Y sachant X et on la note E[Y |X]. Exemple. Pour lexemple prcdent, on obtient pour tout x 0 : E[Y |X = x] = (x + 1){x0} , Esprance conditionnelle & Chanes de Markov Arnaud Guyader - Rennes 2
12
2.0 1.8 1.6 1.4 1.2 1.0 0.8 0.6 0.4 0.2 0.0 0.0 0.4 0.8 1.2 1.6 2.0 2.4 2.8 3.2 3.6 4.0
Fig. 1.9 Densit de la variable alatoire E[Y |X]. donc E[Y |X] = X + 1. Or on a vu que X E(2), donc la variable alatoire E[Y |X] suit une loi exponentielle de paramtre 2 translate sur lintervalle [1, +[ (voir gure 1.9). Proprits 1.2 (Calcul desprance par conditionnement) Si Y est intgrable, alors la variable alatoire E[Y |X] aussi et on a : E[E[Y |X]] = E[Y ]. Preuve. La preuve est la mme que dans le cas discret. La variable alatoire E[Y |X] prend les valeurs E[Y |X = x] avec densit f (x), donc son esprance vaut : E[E[Y |X]] =
E[Y |X = x]f (x) dx =
yf (y|x) dy f (x) dx,
donc daprs le thorme de Fubini : E[E[Y |X]] = et puisque f (y) =
f (y|x)f (x) dx
dy,
f (y|x)f (x) dx, on retrouve bien :

E[E[Y |X]] =
yf (y) dy = E[Y ].
Exemple. Pour lexemple prcdent, on a obtenu E[Y |X] = X + 1, avec X E(2), do : 3 E[Y ] = E[X + 1] = E[X] + 1 = , 2 rsultat que lon retrouve bien en considrant la loi marginale de Y : E[Y ] = Arnaud Guyader - Rennes 2
yf (y) dy =
y(2ey 2e2y ) dy = 2
3 1 = . 2 2
1.2. Cas absolument continu
13
Dans le cas gnral, on retrouve alors pour les couples absolument continus les proprits vues pour les couples discrets. On commence par dnir lesprance conditionnelle dun couple sachant lune des variables. Soit h : 2 une fonction, lesprance mathmatique de la variable alatoire h(X, Y ) est dnie si :
2
auquel cas elle vaut :
|h(x, y)|f (x, y) dx dy < +,
E[h(X, Y )] = que lon peut encore crire : E[h(X, Y )] =
h(x, y)f (x, y) dx dy,
h(x, y)f (y|x) dy f (x) dx.
La dnition suivante est alors naturelle. Dnition 1.7 (Esprance conditionnelle dun couple) Lesprance conditionnelle de h(X, Y ) sachant X = x est : E[h(X, Y )|X = x] =
h(x, y)f (y|x) dy = E[h(x, Y )|X = x].
Lesprance conditionnelle de h(X, Y ) sachant X, note E[h(X, Y )|X], est la variable alatoire qui prend les valeurs E[h(x, Y )|X = x] avec la densit de probabilit f (x). On peut alors numrer direntes proprits de lesprance conditionnelle. Dans ce qui suit, on ne considre que des bonnes fonctions, cest--dire telles quon nait pas de problme dintgrabilit. Proprits 1.3 (Proprits de lesprance conditionnelle) Sous rserve dintgrabilit des variables alatoires, on a les proprits suivantes : Calcul desprance par conditionnement : E[E[h(X, Y )|X]] =
E[h(x, Y )|X = x]f (x) dx = E[h(X, Y )].
Indpendance : si X et Y sont indpendantes, alors E[g(Y )|X] = E[g(Y )]. En particulier, E[Y |X] = E[Y ]. On a E[g(X)|X] = g(X). En particulier E[X|X] = X. Linarit : E[g(X) + h(Y )|X] = E[g(X)|X] + E[h(Y )|X] = g(X) + E[h(Y )|X]. Linarit(bis) : E[g(X)h(Y )|X] = g(X)E[h(Y )|X]. Preuve. Toutes les dmonstrations se font sans dicult en revenant la dnition de lesprance conditionnelle. Pour la premire relation, il sut par exemple de dire que : Esprance conditionnelle & Chanes de Markov Arnaud Guyader - Rennes 2
14
Chapitre 1. Esprance conditionnelle La variable alatoire E[h(X, Y )|X] prend les valeurs E[h(x, Y )|X = x] avec densit de probabilit f (x). Donc son esprance vaut : E[E[h(X, Y )|X]] = Par ailleurs, on a pour tout rel x : E[h(x, Y )|X = x] = do il vient, puisque f (x, y) = f (y|x)f (x) : E[E[h(X, Y )|X]] = et on reconnat E[h(X, Y )]. Und so weiter...
E[h(x, Y )|X = x]f (x) dx.
h(x, y)f (y|x) dy,
h(x, y)f (y|x) dy f (x) dx =
h(x, y)f (x, y) dx dy,
Remarque. Tout comme lesprance classique, lesprance conditionnelle est linaire. La dernire proprit est assez spectaculaire : du point de vue de lesprance conditionnelle, toute fonction de la variable alatoire X se comporte comme une constante, on peut donc la sortir du crochet.
1.3
Applications
Toute cette section est valable aussi bien dans le cas discret que dans le cas absolument continu. Ce nest que par souci de simplication quon se place parfois dans lune des deux situations.
1.3.1
Probabilits conditionnelles
Soit A un vnement qui sexprime en fonction de X et Y , par exemple : A = {X < Y } = { : X() < Y ()}. On peut crire sa probabilit comme lesprance dune indicatrice :
(A) = E[A ] = E[{X<Y } ] =
{x<y} (x, y)f (x, y) dx dy,
or il est souvent plus facile de calculer cette quantit en commenant par geler lune des variables et en intgrant par rapport lautre. Cest le principe du conditionnement. Dnition 1.8 (Probabilits conditionnelles) La probabilit conditionnelle de lvnement A sachant X = x est la quantit :
(A|X = x) = E[A |X = x] =
La probabilit conditionnelle de A sachant X, note valeurs (A|X = x) avec densit f (x). Arnaud Guyader - Rennes 2
A (x, y)f (y|x) dy.
(A|X), est la variable alatoire prenant les
1.3. Applications Remarque. Il faut noter que, tout comme lesprance conditionnelle E[Y |X], la probabilit conditionnelle (A|X) est une variable alatoire. Daprs les rsultats de la section prcdente, on peut alors appliquer la technique de calcul desprance par conditionnement. Proposition 1.4 (Calcul de probabilit par conditionnement)
15
(A) =
(A|X = x)f (x) dx.
Preuve. Il sut dappliquer le calcul desprance par conditionnement (proprits 1.3) la fonction h(x, y) = {(x,y)A} . Pour revenir lexemple initial, on a alors :
(A|X = x) = ({X<Y } |X = x) = E[{X<Y } |X = x] = E[{x<Y } |X = x] = (Y > x|X = x).

En particulier, si X et Y sont indpendantes :
(x < Y |X = x) = (x < Y ).
Exemple. Soit X et Y deux variables alatoires indpendantes, avec X E() et Y E(). On veut calculer la probabilit (X < Y ). On crit donc :
(X < Y ) =
(x < Y |X = x)f (x) dx =
(x < Y |X = x)ex dx.
Or on a par hypothse dindpendance :
(x < Y |X = x) = (x < Y ) = 1 FY (x) = ex .

Do il vient :
(X < Y ) =
e(+)x dx =
. +
Ce type de rsultat intervient constamment dans ltude des processus markoviens de sauts (par exemple les les dattente).
1.3.2
La rgression
Approximation dune variable alatoire par une constante Soit Y une variable alatoire de carr intgrable. On veut approcher Y par une constante. Si on sintresse lerreur quadratique, la solution est donne par lesprance. Proposition 1.5 (Approximation par une constante) Supposons Y telle que E[Y 2 ] < +. Parmi tous les rels a, la quantit E[(Y a)2 ] est minimale lorsque a = E[Y ]. Cest--dire : min E[(Y a)2 ] = E[(Y E[Y ])2 ] = E[Y 2 ] (E[Y ])2 = VarY.
a
16 Preuve. Notons m = E[Y ], alors pour tout rel a :
E[(Y a)2 ] = E[((Y m) + (m a))2 ]. On utilise la linarit de lesprance : E[(Y a)2 ] = E[(Y m)2 ] + 2(m a)E[(Y m)] + (m a)2 Or E[(Y m)] = 0 et par suite : E[(Y a)2 ] = E[(Y m)2 ] + (m a)2 . Cette quantit est minimale lorsque a = m = E[Y ]. Remarque. Si on considre lerreur en norme L1 , cest--dire si on cherche le rel a tel que E|Y a| soit minimale, on obtient non pas la moyenne de Y , mais sa mdiane. Rappel. Si Y admet un moment dordre 2, i.e. si E[Y 2 ] < +, alors Y admet un moment dordre 1, i.e. E|Y | < +. De manire gnrale, si Y admet un moment dordre p , i.e. si E[|Y |p ] < +, alors Y admet un moment dordre k pour tout k {1, . . . , p}. Plus prcisment, on a lingalit suivante entre moments : 1 p q E [|Y p |] p E [|Y q |] q . Approximation dune variable alatoire par une droite On considre un couple alatoire (X, Y ), dont on connat la loi jointe. On suppose que les variables marginales X et Y sont toutes deux de carr intgrable. Parler de la covariance du couple (X, Y ) a alors un sens puisque : 1 |X()Y ()| (X 2 () + Y 2 ()), 2
1 1
ce qui implique en passant aux esprances : 1 1 E|XY | E[X 2 + Y 2 ] = (E[X 2 ] + E[Y 2 ]) < +. 2 2 Supposons quon observe des ralisations de la variable alatoire X, mais pas celles de Y : pour chaque valeur x de X, on voudrait deviner la valeur y de Y . Ceci est impossible, puisque mme sachant X = x, Y est alatoire. On peut nanmoins chercher faire lerreur la plus petite possible en moyenne. Une ide simple est dapprocher Y par une fonction ane de X, cest--dire chercher la variable alatoire Y = aX + b la plus proche possible, en moyenne, de Y . Pour lerreur quadratique, on cherche donc minimiser : E[(Y (aX + b))2 ] = E[X 2 ]a2 + 2E[X]ab + b2 2E[XY ]a 2E[Y ]b + E[Y 2 ] = (a, b). Cette fonction des deux variables a et b est en fait issue dune forme quadratique dnie positive et atteint son minimum au point : a = b Arnaud Guyader - Rennes 2 =
Cov(X,Y ) 2 (X) E[Y ] Cov(X,Y ) E[X] 2 (X)
1.3. Applications comme le montre la factorisation de Gauss : (a, b) = (b (E[Y ] E[X]a))2 + (X)a En notant le coecient de corrlation linaire : = Cov(X, Y ) , (X)(Y ) Cov(X, Y ) (X)
2
17
+ 2 (Y )
Cov2 (X, Y ) . 2 (X)
lerreur minimale moyenne, appele erreur quadratique, est donc : min E[(Y (aX + b))2 ] = 2 (Y )(1 2 ).
a,b
Noter que ceci suppose (X) = 0 : si (X) = 0, la variable alatoire X est presque srement constante, donc chercher approcher Y par une fonction ane de X revient approcher Y par une constante c. On a vu prcdemment que le mieux est de prendre c = E[Y ]. On voit que lerreur quadratique est dautant plus faible que : 1. La valeur absolue || du coecient de corrlation linaire est proche de 1. En gnral, on sait simplement que : 1 1. Lorsque = 0, X et Y sont dits dcorrls et le mieux quon puisse faire est nouveau dapprocher Y par sa moyenne E[Y ]. Lorsque = 1, X et Y sont lis par une relation ane et lerreur est nulle. 2. La variable Y est peu disperse autour de sa moyenne.
y yi Mi
a,b x xi
Fig. 1.10 Droite de rgression.
Remarque. En statistiques, cest--dire dans la vraie vie, on ne connat pas la loi du couple (X, Y ). On dispose simplement dun nuage de points (xi , yi )1in . Or, si on cherche la droite dquation y = ax + b qui minimise la somme des carrs :
n i=1
(yi (axi + b))2 ,
on retrouve la droite de rgression ci-dessus en considrant les esprances, variances et covariances empiriques (voir gure 1.10). Esprance conditionnelle & Chanes de Markov Arnaud Guyader - Rennes 2
18
Chapitre 1. Esprance conditionnelle Approximation dune variable alatoire par une fonction On reprend le problme prcdent. On considre donc un couple alatoire (X, Y ) dont on connat la loi jointe, avec Y de carr intgrable. On suppose toujours quon nobserve que la variable alatoire X et quon veut approcher au mieux la variable alatoire Y . Par rapport ce qui prcde, on ne se restreint pas une approximation de Y par une fonction ane de X : parmi toutes les fonctions possibles, on cherche la fonction de X qui approche le mieux Y . On retrouve alors lesprance conditionnelle. Dnition 1.9 (Courbe de rgression) La courbe x y = E[Y |X = x] est appele courbe de rgression de Y en X. Par exemple, si X et Y sont indpendantes, la courbe de rgression de Y en X est tout simplement la droite horizontale y = E[Y ]. Exemples. 1. On considre nouveau le couple (X, Y ) de densit : f (x, y) = 2e(x+y) {0xy} La fonction de rgression de Y en X est la fonction : u: [0, +[ x (x + 1)
Sur cet exemple, on voit que la courbe de rgression concide avec la droite de rgression : ceci nest pas vrai en gnral, comme le montre lexemple suivant. 2. Soit (X, Y ) un couple alatoire de densit jointe : f (x, y) = 12 y(2 y x)]0,1[2 (x, y). 5
Quelques calculs permettent de montrer que pour tout x ]0, 1[ : E[Y |X = x] = 5 4x . 8 6x
La courbe de rgression est donc un morceau dhyperbole (voir gure 1.11). La fonction de rgression vrie une proprit de minimalit souvent utilise en statistiques. On considre une fonction u : et la quantit : E[(Y u(X))2 ]. Cette quantit varie lorsque la fonction u varie. Quand est-elle minimale ? Ce genre de problme, dit de calcul des variations, est en gnral dicile : on cherche une fonction minimisant un certain critre (et non un point de lespace de dimension nie n comme en optimisation classique). Mais ici tout est simple, au moins dun point de vue thorique... Thorme 1.2 (Esprance conditionnelle et rgression) Supposons Y telle que E[Y 2 ] < +. Parmi toutes les fonctions u : , lerreur dapproximation E[(Y u(X))2 ] est minimale lorsque u est la fonction de rgression x E[Y |X = x], i.e. lorsque u(X) = E[Y |X]. Arnaud Guyader - Rennes 2 Esprance conditionnelle & Chanes de Markov
1.3. Applications
y
1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1
19
x
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
Fig. 1.11 Courbe de rgression y =
54x 86x .
La preuve est calque sur celle dj vue pour lapproximation de Y par une constante. Preuve. Notons m(X) = E[Y |X], alors pour toute fonction u : , on peut crire : E[(Y u(X))2 ] = E[((Y m(X)) + (m(X) u(X)))2 ] On utilise la linarit de lesprance : E[(Y u(X))2 ] = E[(Y m(X))2 ] + 2E[(Y m(X))(m(X) u(X))] + E[(u(X) m(X))2 ]. Or le calcul desprance par conditionnement assure que : E[(Y m(X))(m(X) u(X))] = E[E[(Y m(X))(m(X) u(X))|X]], et puisque m(X) u(X) est une fonction de X, on sait que : E[(Y m(X))(m(X) u(X))] = E[E[(Y m(X))|X](m(X) u(X))], or par linarit de lesprance conditionnelle et puisque E[m(X)|X] = m(X) = E[Y |X], on en dduit que : E[(Y m(X))|X] = E[Y |X] E[m(X)|X] = E[Y |X] m(X) = 0. On a donc obtenu : E[(Y u(X))2 ] = E[(Y m(X))2 ] + E[(u(X) m(X))2 ]. Cette quantit est minimale lorsque u(X) = E[Y |X]. On donne un nom au minimum obtenu. Dnition 1.10 (Erreur quadratique moyenne) La quantit 2 = min E[(Y u(X))2 ] = E[(Y E[Y |X])2 ]
u
est appele lerreur quadratique moyenne, ou la variance rsiduelle, ou encore le rsidu. Nous allons voir que cette dernire approche peut sinterprter gomtriquement et fournir une reprsentation trs commode de lesprance conditionnelle. Esprance conditionnelle & Chanes de Markov Arnaud Guyader - Rennes 2
20
1.4
Interprtation gomtrique de lesprance conditionnelle
Soit (, F, ) un espace probabilis. On note L2 (, F, ) ou plus simplement L2 () lensemble des variables alatoires X : de carr intgrable, i.e. telles que : E[X 2 ] < +. On convient de plus didentier deux variables alatoires presque srement gales. Proprits 1.4 (Proprits de L2 ()) Si X et Y appartiennent L2 (), alors XY est intgrable. L2 () est un espace vectoriel. Preuve. On a dj vu dans le paragraphe sur la rgression que si X et Y sont de carr intgrable, la variable alatoire XY est elle aussi intgrable. Alors si et sont deux scalaires, la variable alatoire (X + Y ) est dans L2 () puisque : (X + Y )2 = 2 X 2 + 2XY + 2 Y 2 , qui est une somme de variables alatoires intgrables. Ceci fait de L2 () un sous-espace vectoriel de lespace des variables alatoires sur (, F, ). A part dans le cas o lespace est ni, lespace L2 () est de dimension innie. Nous allons maintenant voir en quoi L2 () ressemble lespace usuel n muni de la norme euclidienne. Rappelons quun produit scalaire est une forme bilinaire symtrique dnie positive, dont on peut dduire une norme. Proposition 1.6 (Le produit scalaire dans L2 ()) Lapplication L2 () L2 () ., . : (X, Y ) X, Y = E[XY ] X = E[X 2 ].
2
est un produit scalaire sur L2 (). La norme associe est :
Remarque. On crit la norme X plutt que X
an de ne pas alourdir les notations.
Preuve. Lintgrabilit de XY a t vue ci-dessus donc lapplication est bien dnie sur lespace produit L2 () L2 (). La bilinarit et la symtrie sont videntes. Soit maintenant X L2 (), il est clair que X, X = E[X 2 ] 0. Supposons que E[X 2 ] = 0, alors par lingalit de Tchebychev, pour tout n : 1 n2 E[X 2 ] = 0, X n do lon dduit par sous-sigma-additivit dune mesure de probabilit :
+ n=1 +
(X > 0) =
1 n
n=1
1 n
= 0,
cest--dire que X est presque srement gale 0. Puisquon a convenu au dbut de ce paragraphe didentier deux variables presque srement gales, on a donc X = 0. Ainsi ., . est bien une forme bilinaire symtrique dnie positive, cest--dire un produit scalaire. Arnaud Guyader - Rennes 2 Esprance conditionnelle & Chanes de Markov
1.4. Interprtation gomtrique de lesprance conditionnelle
21
Dans ce cadre, dire que les variables alatoires X et Y sont orthogonales pour le produit scalaire ., . signie que E[XY ] = 0. Dans le cas de variables centres, lorthogonalit correspond donc la non-corrlation. On rcupre automatiquement les proprits dune norme issue dun produit scalaire, vues en cours dalgbre linaire. Proprits 1.5 (Proprits de la norme dans L2 ()) Positivit : X 0 et X = 0 seulement pour X = 0. Homognit : pour tout rel a, aX = |a| X . Ingalit triangulaire : X + Y X + Y . Ingalit de Cauchy-Schwarz : X, Y X Y . La norme . permet de mesurer la distance entre deux variables alatoires : d(X, Y ) = Y X On lappelle la distance en moyenne quadratique entre X et Y . On peut alors associer cette norme la notion de convergence en moyenne quadratique : la suite de variables alatoires (Xn )n0 converge en moyenne quadratique vers la variable alatoire X et on note : Xn X si limn X Xn = 0, cest--dire si
n L2
lim E[(X Xn )2 ] = 0.
Nous donnons maintenant un rsultat d F. Riesz et dune grande importance thorique. Thorme 1.3 (Espace de Hilbert) Lespace L2 () est complet, cest--dire que toute suite (Xn )n0 de L2 () vriant le critre de Cauchy converge en moyenne quadratique vers une variable alatoire X de L2 (). Comme en analyse, lintrt du critre de Cauchy dans un espace complet est de permettre de montrer la convergence dune suite sans connatre sa limite. Preuve. Soit (Xn )n0 une suite de Cauchy dans L2 (). Il existe donc une suite dindices (nk )k0 telle que : 1 n nk , p 0 Xn+p Xn k . 2 En particulier, la suite de variables alatoires (Yk )k0 dnie par Y0 = Xn0 et : k 1 est telle que :
+ k=0 +
Yk = Xnk Xnk1 1 = Xn0 + 2 < +. 2k
Yk Xn0 +
k=0
On va montrer que (Yk )k0 converge presque srement vers une variable alatoire X. Considrons la variable alatoire Z dnie pour tout par :
K +
Z() =
K+
lim ZK () =
K+
lim
k=0
|Yk ()| =
k=0
|Yk ()| +, Arnaud Guyader - Rennes 2
22
Chapitre 1. Esprance conditionnelle avec les variables alatoires ZK dnie pour tout par :
K
ZK () =
k=0
|Yk ()| < +.
Autrement dit, la suite croissante de variables alatoires positives (ZK )K0 converge presque sre2 ment vers Z. Il en va de mme de la suite (ZK )K0 vers Z 2 et on peut donc appliquer le thorme de Beppo Lvi : 2 E[Z 2 ] = lim E[ZK ].
K+
Mais par lingalit triangulaire on a aussi pour tout K 0 :

K 2 E[ZK ] 2 + 2
= ZK
Yk
k=0
Yk
k=0
< +.
On en dduit que E[Z 2 ] < +. Mais alors par Tchebychev, pour tout n :
(Z n)
+ n=1
E[Z 2 ] , n2
do lon dduit par continuit monotone dcroissante dune mesure de probabilit :
(Z = +) =
ce qui donne :
{Z n}
= lim
n+
(Z n) ,
E[Z 2 ] = 0, n+ n2 cest--dire que Z est presque srement nie. Puisquon convient de confondre deux variables alatoires presque srement gales, quitte remplacer Z() par 0 aux ventuels points o on aurait Z() = +, on peut donc considrer que pour tout , on a :
(Z = +) lim
+ k=0
|Yk ()| < +.
En particulier, la srie de variables alatoires k0 Yk est absolument convergente sur , donc simplement convergente, et il existe une variable alatoire X nie sur telle que pour tout :
+
X() =
k=0
Yk ().
La variable alatoire X est de carr intgrable puisque par dnition, pour tout : |X()| Z(), et on a prouv ci-dessus que Z L2 (). Il reste voir que :
K + +
Yk =
k=0 k=K+1
Yk
k=K+1
Yk
1 0. 2K K+
On revient enn la suite (Xn )n0 . Pour tout n nK , on a par ingalit triangulaire : X Xn X XnK + Xn XnK , Arnaud Guyader - Rennes 2 Esprance conditionnelle & Chanes de Markov
1.4. Interprtation gomtrique de lesprance conditionnelle or il est clair que :

K
23
XnK =
k=0
Yk ,
do il vient : X Xn
1 1 1 + K = K1 0, K+ 2K 2 2
et la suite (Xn )n0 converge en moyenne quadratique vers la variable alatoire X. Remarque. Qua-t-on utilis comme outils ? Beppo Lvi et la continuit monotone dcroissante, or ceux-ci sont valables dans tout espace mesur (, F, m). Ainsi, le rsultat quon vient dtablir est en fait trs gnral : on le retrouve par exemple dans lespace classique dintgration (, B, ) lorsquon considre les fonctions f de carr intgrable sur . On le retrouve aussi dans lespace des suites (, P(), ) muni de la mesure de comptage, autrement dit dans ltude des sries numriques n0 un telles que + u2 < +. Dans ce dernier espace, le produit scalaire est : n=0 n
+
u, v =
n=0
un vn .
Un espace vectoriel ayant un produit scalaire et complet pour la norme induite par celui-ci est appel espace de Hilbert. Ces espaces jouissent de nombreuses proprits. Celle qui suit est cruciale.
Y H (Y )
H (Y )
Fig. 1.12 Projet orthogonal H (Y ) de Y sur le sous-espace H.
Thorme 1.4 (Thorme de la projection orthogonale) Soit H un sous-espace ferm de L2 (). Pour tout Y de L2 (), il existe une unique variable alatoire de H, note H (Y ), qui soit plus courte distance de Y . On lappelle le projet orthogonal de Y sur H et elle est entirement caractrise par la double proprit : H (Y ) H Y H (Y ) H Lapplication Y H (Y ) est linaire sur L2 (). De plus, H (Y ) = Y ssi Y H, et H (Y ) Y si Y H (voir gure 1.12). / Esprance conditionnelle & Chanes de Markov
2
<
24 Preuve. Notons : d = inf d(X, Y ).

XH
En considrant deux variables alatoires X1 et X2 de H, on lapplique U = (X1 Y ) et V = (X2 Y ) : 2 X1 + X2 Y + X1 X2 2 = 2( X1 Y 2 + X2 Y 2 ). 4 2 Mais, puisque H est un sous-espace de L2 (), la variable alatoire milieu (X1 + X2 )/2 appartient H et vrie : X1 + X2 Y d, 2 do lon dduit que pour tout couple (X1 , X2 ) de H : X1 X2
2 2 2
Rappelons lidentit du paralllogramme, valable ds quon considre un produit scalaire (cf. gure 1.13) : U + V 2 + U V 2 = 2( U 2 + V 2 ).
2( X1 Y
+ X2 Y
) 4d2 .
(1.1)
Cette ingalit prouve que linf ne peut tre atteint par deux lments distincts X1 et X2 de H, sinon on aurait X1 X2 2 < 0. Par dnition dune borne inf, il existe une suite (Xn ) de H telle que : lim d(Xn , Y ) = d.
n+
Si on applique lingalit 1.1, on obtient pour tout couple dentiers naturels (n, p) :
U +V U V
Fig. 1.13 Identit du paralllogramme : U + V
+ U V
2
= 2( U
+ V
2 ).
Xn+p Xn
2( Xn+p Y
+ Xn Y
) 4d2 .
Pour n assez grand, cette quantit peut tre rendue arbitrairement petite, indpendamment de p, ce qui prouve que (Xn ) est une suite de Cauchy de H, sous-espace de L2 (). Par le thorme de Riesz, elle est donc convergente vers une variable alatoire de L2 (). Mais puisque H est ferm par hypothse, celle-ci appartient ncessairement H : on la note H (Y ) et on lappelle le projet orthogonal de Y sur H. Montrons que (Y H (Y )) est orthogonale toute variable alatoire X de H. Soit donc X H, alors pour tout rel , on a aussi X H et par dnition de la borne inf, on a donc : H (Y ) + X Y Arnaud Guyader - Rennes 2 X
2 2 2
H (Y ) Y
ce qui scrit en dveloppant avec le produit scalaire : + 2 H (Y ) Y, V 0. Esprance conditionnelle & Chanes de Markov
1.4. Interprtation gomtrique de lesprance conditionnelle Ce trinme en ne peut tre de signe constant que si H (Y ) Y, V = 0. Les deux proprits H (Y ) H Y H (Y ) H
25
caractrisent bien H (Y ), car si X est un autre lment de H ayant ces deux proprits, alors (H (Y ) X) = (Y H (Y )) + (H (Y ) X) est dans H et orthogonal tout lment de H donc lui-mme, donc cest le vecteur nul. Cette caractrisation permet de voir facilement que la projection H est un oprateur linaire. Par ailleurs, il est clair que si Y H, alors H (Y ) = Y . Enn, puisque (Y H (Y )) et H (Y ) sont orthogonaux, la relation de Pythagore dans le triangle rectangle dhypotnuse Y implique que H (Y ) < Y , sauf si Y = H (Y ) H. Remarque. Le thorme de projection est encore valable si on considre un ensemble convexe ferm non vide C la place du sous-espace vectoriel ferm H. Considrons maintenant une variable alatoire X. On lui associe : L2 (X) = {u(X) avec u : borlienne telle que E[u2 (X)] < +},
ensemble des variables alatoires qui sexpriment comme fonctions de X et de carr intgrable. Il est clair que L2 (X) est un sous-espace de L2 (). On peut de plus montrer que cest un sous-espace ferm de L2 (). Lemme 1.1 (L2 (X) sous-espace ferm de L2 ()) Soit X une variable alatoire, alors lespace L2 (X) est un sous-espace ferm de lespace L2 () des variables alatoires de carr intgrable. Preuve. Notons X la probabilit image de la variable alatoire X, cest--dire la loi de probabilit dnie sur muni de la tribu borlienne B par : Ceci fait de (, B, X ) un espace probabilis. Soit E = L2 (, B, X ) lespace des variables alatoires de carr intgrable sur cet espace. Ce sont les fonctions f : borliennes telles que : B B
X (B) = (X B).
f 2 (x)X ( dx) < +.
Mais par le thorme de transfert, ceci est quivalent dire que : f 2 (X) d = E[f 2 (X)] < +.
Autrement dit, lapplication linaire : E L2 (X) f f (X)
est un isomorphisme de E vers L2 (X). De plus, toujours par le thorme de transfert, on a : f, g

E
f (x)g(x)X ( dx) = E[f (X)g(X)] = f (X), g(X)
L2 () ,
donc conserve le produit scalaire. Finalement, est une isomtrie. Mais par le thorme 1.3 on sait que E = L2 (, B, X ) est un espace de Hilbert. En particulier E est ferm. Par lisomtrie , cette proprit passe L2 (X), qui est donc bien un sous-espace ferm de L2 (). Esprance conditionnelle & Chanes de Markov Arnaud Guyader - Rennes 2
26
Par suite on peut appliquer le rsultat de projection orthogonale ci-dessus. Soit donc Y une autre variable alatoire de carr intgrable : il existe une unique variable alatoire L2 (X) (Y ) dans le sous-espace L2 (X) qui soit plus courte distance de Y . Mais, dans les cas discret et continu, on a dj trait ce problme dans le paragraphe sur la rgression : cest exactement lesprance conditionnelle de Y sachant X. Cest pourquoi il est naturel den partir comme dnition. Dnition 1.11 (Esprance conditionnelle) Soit (X, Y ) un couple alatoire, avec Y L2 (). Lesprance conditionnelle de Y sachant X, note E[Y |X], est la projection orthogonale de Y sur le sous-espace L2 (X) des variables alatoires fonctions de X et de carr intgrable. Ainsi lesprance conditionnelle de Y sachant X admet une interprtation gomtrique trs simple (cf. gure 1.14). Cette interprtation est fructueuse, car elle permet de retrouver sans eort certaines proprits usuelles de lesprance conditionnelle (un bte dessin et laaire est entendue).
E[Y |X]
L2 (X)
Fig. 1.14 Lesprance conditionnelle comme projection orthogonale.
Proprits 1.6 Soit (X, Y ) un couple alatoire, avec Y L2 (). Distance minimale : Z L2 (X), Y E[Y |X] Y Z . Orthogonalit : Z L2 (X), Y E[Y |X], Z = 0. Orthogonalit(bis) : Z L2 (X), Y, Z = E[Y |X], Z . Pythagore : Y 2 = E[Y |X] 2 + Y E[Y |X] 2 . Pythagore(bis) : E[Y |X] Y , avec galit si et seulement si Y est une fonction de X. Linarit : Soit Y1 et Y2 de carrs intgrables, et deux rels, alors : E[Y1 + Y2 |X] = E[Y1 |X] + E[Y2 |X]. Linarit(bis) : si u : est borne, alors E[u(X)Y |X] = u(X)E[Y |X]. Positivit : Si Y 0, alors E[Y |X] 0. Positivit(bis) : si Y1 et Y2 sont de carrs intgrables, avec Y1 Y2 , alors E[Y1 |X] E[Y2 |X]. Calcul desprance par conditionnement : E[E[Y |X]] = E[Y ]. Esprance conditionnelle et indpendance : si X et Y sont indpendantes, alors E[Y |X] = E[Y ].
Remarques. Arnaud Guyader - Rennes 2 Esprance conditionnelle & Chanes de Markov
1.5. Esprance conditionnelle : le cas gnral 1. Par commodit des notations, toutes les proprits ont t nonces en termes de produits scalaires et de normes. Cependant, il faut savoir les lire aussi bien en termes desprances et desprances conditionnelles. De mme, chaque fois quon crit Z L2 (X), il faut lire Z = u(X), avec u(X) L2 (). Par exemple, la proprit dorthogonalit(bis) scrit encore : pour toute fonction u telle que la variable alatoire u(X) soit de carr intgrable, on a : E[u(X)Y ] = E[u(X)E[Y |X]]. 2. Le thorme de projection orthogonale permet de comprendre toutes les mthodes dites de moindres carrs en statistiques. Dans ces applications, lespace H est engendr par les variables observables (X1 , . . . , Xn ), ou variables explicatives. Partant de celles-ci, on cherche estimer (ou expliquer) une autre variable Y , non observe. Lide est de chercher une fonction f : n telle que la variable alatoire f (X1 , . . . , Xn ) approche le mieux possible Y . Les mthodes de moindres carrs sont bases sur la distance L2 : dans ce cas, ce qui a t vu ci-dessus se gnralise sans problme et lunique solution au problme est lesprance conditionnelle de Y sachant le n-uplet (X1 , . . . , Xn ).
27
1.5
Esprance conditionnelle : le cas gnral
Soit (, F, ) un espace probabilis. On note L1 (, F, ), ou plus simplement L1 (), lensemble des variables alatoires X : intgrables, i.e. telles que : E|X| < +, en convenant toujours didentier deux variables alatoires presque srement gales. Dans ltude des cas discret et continu, pour dnir lesprance conditionnelle de Y sachant X, on a vu quil susait de supposer Y intgrable. Cest pourquoi si on veut donner une dnition gnrale, linterprtation gomtrique de L2 () nest pas compltement satisfaisante. Nanmoins, cest celle quil faudra garder en tte pour se souvenir de toutes les proprits usuelles. Du reste, pour la dnition qui suit, on part de la proprit de projection dj vue. Dnition 1.12 (Esprance conditionnelle) Soit (X, Y ) un couple alatoire, avec Y intgrable. Lesprance conditionnelle de Y sachant X est lunique variable alatoire fonction de X, note E[Y |X], telle que pour toute fonction borne u : , on ait : E[u(X)Y ] = E[u(X)E[Y |X]].
Ainsi il existe une fonction : mesurable telle que E[Y |X] = (X). On retrouve alors toutes les proprits vues ci-dessus non propres lespace L2 ().
Proprits 1.7 Soit (X, Y ) un couple alatoire, avec Y L1 (). Cas dgalit : si Y = g(X) est fonction de X, alors E[Y |X] = Y . En particulier E[X|X] = X. Linarit : Soit Y1 et Y2 intgrables, et deux rels, alors : Linarit(bis) : si u : est borne, alors E[u(X)Y |X] = u(X)E[Y |X]. Positivit : Si Y 0, alors E[Y |X] 0. Positivit(bis) : si Y1 et Y2 sont intgrables, avec Y1 Y2 , alors E[Y1 |X] E[Y2 |X]. Calcul desprance par conditionnement : E[E[Y |X]] = E[Y ]. Esprance conditionnelle et indpendance : si X et Y sont indpendantes, alors E[Y |X] = E[Y ]. Arnaud Guyader - Rennes 2 E[Y1 + Y2 |X] = E[Y1 |X] + E[Y2 |X]
28
1.6
Exercices
L o il y a une volont, il y a un chemin. Lnine.
Exercice 1.1 (Lets make a deal) Vous participez un jeu o lon vous propose trois portes au choix. Lune des portes cache une voiture gagner, et chacune des deux autres une chvre. Vous choisissez une porte, mais sans louvrir ! Lanimateur, qui sait o est la voiture, ouvre une autre porte, derrire laquelle se trouve une chvre. Il vous donne maintenant la possibilit de vous en tenir votre choix initial, ou de changer de porte. Quavez-vous intrt faire ? Remarque : Cest un problme auquel taient confronts les invits du jeu tlvis Lets make a deal de Monty Hall (animateur et producteur amricain), sauf que les lots de consolation ntaient pas des chvres. Exercice 1.2 (Le problme du dpistage) 1. Soit (, F, ) un espace probabilis. Soit (H1 , . . . , Hn ) une partition de en n vnements de probabilits non nulles. Soit A F tel que (A) > 0. Prouver la formule de Bayes (dite de probabilit des causes) :
(Hi |A) =
n j=1
(A|Hi )(Hi ) . (A|Hj )(Hj )
2. Application : Test de dpistage Une maladie est prsente dans la population, dans la proportion dune personne malade sur 1000. Un responsable dun grand laboratoire pharmaceutique vient vous vanter son nouveau test de dpistage : si une personne est malade, le test est positif 99%. Nanmoins, sur une personne non malade, le test est positif 0.2%. Ces chires ont lair excellent, vous ne pouvez quen convenir. Toutefois, ce qui intresse lusager, plus que les rsultats prsents par le laboratoire, cest la probabilit quune personne soit rellement malade lorsque son test est positif. Calculer cette probabilit. Exercice 1.3 (Composition de familles) Une population est compose de familles de 0, 1, 2 ou 3 enfants. Il y a une famille sans enfant pour 3 de 1 enfant, 4 de 2 enfants et 2 de 3 enfants. On suppose que les deux sexes sont quiprobables et quils sont indpendants pour deux enfants dirents. On choisit une famille au hasard. 1. Quelle est la probabilit quil ny ait aucun garon ? 2. Quelle est la probabilit quelle ait 2 enfants sachant quelle na aucun garon ? Exercice 1.4 (Livresse du gardien de nuit) Un gardien de nuit a 10 cls, dont une seule marche, pour ouvrir une porte. Il emploie deux mthodes : Mthode A : jeun, il retire du trousseau les cls dj essayes ; mthode B : ivre, chaque cl essaye est remise dans le trousseau. Soit XA et XB le nombre de cls essayes avant douvrir la porte (y compris la bonne cl). 1. Dterminer les lois de probabilits de XA et XB . 2. Calculer les esprances de XA et XB . 3. Le gardien est ivre un jour sur trois. Un jour, aprs avoir essay 8 cls, le gardien na toujours pas ouvert la porte. Quelle est la probabilit quil soit ivre ?
1.6. Exercices Exercice 1.5 (Memento) 1. On dit que la variable alatoire discrte X suit une loi gomtrique de paramtre p ]0, 1[ si X est valeurs dans , avec (X = k) = p(1 p)k1 . Soit m , dterminer (X > m). Montrer que X vrie la proprit suivante, dite dabsence de mmoire : (m, n) 2
29
(X > n + m | X > n) = (X > m).
2. Rappeler la densit dune loi exponentielle de paramtre > 0, ainsi que sa fonction de rpartition. Montrer que X vrie : t 0, s 0
(X > t + s | X > t) = (X > s),
cest--dire la proprit dabsence de mmoire. 3. Application : la dure de vie dune radio suit une loi exponentielle de moyenne 5 ans. Si jachte une radio qui a 5 ans, quelle est la probabilit quelle fonctionne encore deux ans plus tard ? Exercice 1.6 (Loi de succession de Laplace) On dispose de (N + 1) urnes, numrotes de 0 N . La ke urne contient k boules rouges et (N k) boules blanches. On choisit une urne au hasard. Quel que soit son numro, on en tire n fois de suite une boule, avec remise aprs chaque tirage. 1. Exprimer par un rapport de deux sommes la probabilit que le tirage suivant donne encore une boule rouge sachant que, au cours des n premiers tirages, seules des boules rouges ont t tires ? 2. Calculer la limite de cette probabilit lorsque N tend vers linni (penser aux sommes de Riemann). Exercice 1.7 (Transmission bruite) Un message doit tre transmis dun point successivement travers N canaux. Ce message peut prendre deux valeurs, 0 ou 1. Durant le passage par un canal, le message a la probabilit p ]0, 1[ dtre bruit, i.e. dtre transform en son contraire, et (1 p) dtre transmis dlement. Les canaux se comportent indpendamment les uns des autres. Pour tout n {1, . . . , N }, notons pn la probabilit quen sortie de n-me canal, le message soit le mme que celui transmis initialement. 1. Etablir une relation de rcurrence entre pn+1 et pn . 2. On considre une suite (un )n1 vriant la relation de rcurrence3 : un+1 = (1 2p)un + p. 3. En dduire pn pour tout n {1, . . . , N }.
1 Vrier que la suite (vn )n1 , dnie par vn = un 2 , est gomtrique.
4. Que vaut limN + pN ? Quest-ce que ce rsultat a dtonnant premire vue ? Exercice 1.8 (La roulette de la lose) Deux joueurs A et B jouent une succession de parties de pile ou face. A chaque coup, A a la probabilit p ]0, 1[ de gagner, auquel cas B lui donne 1e, sinon le contraire. La partie sarrte lorsque lun des deux est ruin. On cherche la probabilit que A nisse ruin. Pour tout n {0, . . . , 100}, on note donc pn la probabilit que A nisse ruin sil commence avec ne et B avec (100 n)e.
3
Une telle suite est dite arithmtico-gomtrique, pour des raisons videntes.
30
Chapitre 1. Esprance conditionnelle 1. Etablir une relation de rcurrence entre pn+1 , pn et pn1 . 2. On admet que la solution de cette quation est de la forme : pn = + Dterminer et . 3. En dduire la probabilit que A nisse ruin sil commence avec 50e. 4. De passage Dinard, vous rentrez au casino et jouez la roulette : il y a 18 numros rouges, 18 numros noirs et 1 numro vert, le zro. Vous jouez rouge pour 1e chaque fois. Vous commencez avec 50e et vous arrtez si vous avez 100e ou si vous tes ruin. Pourquoi valaitil mieux aller baguenauder sur les sentiers ctiers ce jour-l ? Exercice 1.9 (Un d et une pice) On lance un d quilibr, puis une pice de monnaie non biaise un nombre de fois gal au rsultat du d. Soit X le rsultat du d et Y le nombre de Pile amens par la pice de monnaie. 1. Dterminer la loi jointe du couple (X, Y ). 2. Soit n {1, . . . , 6}. Quelle est la loi de Y sachant X = n ? 3. En dduire E[Y |X = n], puis E[Y |X]. 4. Calculer E[Y ]. 1p p
n
Exercice 1.10 (Minimum et maximum) On tire deux variables U et V de faon indpendante et uniformment dans lensemble {1, 2, 3, 4, 5}. On en dduit les variables alatoires X = min(U, V ) et Y = max(U, V ). 1. Dterminer la loi jointe du couple (U, Y ). 3. En dduire E[U |Y ]. 2. Dterminer E[U |Y = n], pour n {1, 2, 3, 4, 5}.
5. Dterminer de mme E[U |X] et E[X|U ]. Corrig 1. La loi jointe du couple (U, Y ) est donne gure 1.15. 2. Soit n {1, 2, 3, 4, 5} x. Alors si Y = n, puisque Y est le maximum de U et V , il est clair que U peut prendre les valeurs de 1 n. On a donc : E[U |Y = n] = (U = 1|Y = n) + 2(U = 2|Y = n) + + n(U = n|Y = n). Il reste prciser les probabilits :
4. Dterminer E[Y |U ].
(U = k|Y = n) =
(U = k, Y = n) . (Y = n)
Puisquon connat la loi jointe, il reste prciser la loi marginale de Y , cest--dire sommer sur les colonnes dans le tableau de la question prcdente. Ce qui donne :
(Y = n) = (U = 1, Y = n) + + (U = n, Y = n) =
1 2n 1 1 (n 1) + n = . 25 25 25
1.6. Exercices
31
Y U 1
1/25
1/25
1/25
1/25
1/25
2/25
1/25
1/25
1/25
3/25
1/25
1/25
4/25
1/25
5/25
Fig. 1.15 Loi jointe pour le couple (U, Y ).
Ainsi, on obtient pour la loi conditionnelle de U sachant Y :
(U = k|Y = n) =
Au total, on obtient :
1/(2n 1) si 1 k (n 1) n/(2n 1) si k = n 1 n +n . 2n 1 2n 1
E[U |Y = n] = (1 + + (n 1))
La premire somme, entre parenthses, est arithmtique de raison 1, donc : 1 + + (n 1) = do nalement : E[U |Y = n] = n(n 1) , 2
Remarque : quand vous arrivez ici, aprs quelques calculs, pensez vrier que la formule fonctionne, par exemple pour n = 1 et n = 2. 3. On en dduit que : E[U |Y ] = Y (3Y 1) . 2(2Y 1)
n(n 1) n2 n(3n 1) + = . 2(2n 1) 2n 1 2(2n 1)
4. Pour dterminer E[Y |U ], on commence par calculer E[Y |U = n] pour tout n {1, 2, 3, 4, 5}. Lorsque U vaut n, il est clair que Y peut prendre les valeurs n, . . . , 5. Comme ci-dessus, il faut donc commencer par prciser la loi marginale de U . Or U est obtenue en tirant un nombre au hasard entre 1 et 5, donc U suit une loi uniforme sur lensemble {1, 2, 3, 4, 5} : 1 (U = n) = 5 . On en dduit que :
(Y = k|U = n) =
1/5 si (n + 1) k 5 n/5 si k = n
On en dduit lesprance conditionnelle de Y sachant U = n : E[Y |U = n] = n 1 n + ((n + 1) + + 5) . 5 5 Arnaud Guyader - Rennes 2
32
Chapitre 1. Esprance conditionnelle On reconnat nouveau une somme arithmtique dans la parenthse : (n + 1) + + 5 = et nalement on obtient : (n + 6)(5 (n + 1) + 1) (n + 6)(5 n) = , 2 2
n2 n + 30 . 10 Et lesprance conditionnelle de Y sachant U est donc : E[Y |U = n] = E[Y |U ] = U 2 U + 30 . 10
X U 1
5/25
1/25
4/25
1/25
1/25
3/25
1/25
1/25
1/25
2/25
1/25
1/25
1/25
1/25
1/25
Fig. 1.16 Loi jointe pour le couple (U, X). 5. Pour dterminer E[U |X], on reprend pas pas le raisonnement vu ci-dessus. La loi jointe du couple alatoire (U, X) est reprsente gure 1.16. Pour tout n entre 1 et 5, on a cette fois : E[U |X = n] = n(U = n|X = n) + + 5(U = 5|X = n). Pour la loi marginale de X, on a : (X = n) = de U sachant X = n :
112n 25 .
Ce qui donne pour la loi conditionnelle
(U = k|X = n) =
On a donc : E[U |X = n] = n Donc nalement :
1/(11 2n) si (n + 1) k 5 (6 n)/(11 2n) si k = n
6n 1 30 + 11n 3n2 + ((n + 1) = + 5) = . 11 2n 11 2n 22 4n E[U |X] = 30 + 11X 3X 2 . 22 4X Esprance conditionnelle & Chanes de Markov
1.6. Exercices Pour calculer lesprance conditionnelle de X sachant U , on a deux possibilits : ou bien on reprend la mthode plan-plan ci-dessus, ou bien on pense une ruse de sioux. Il sut en eet de remarquer, puisque lesprance conditionnelle est linaire, que : E[X + Y |U ] = E[X|U ] + E[Y |U ], or X + Y = U + V , puisque si X est gal U , Y est gal V et vice-versa. Donc : E[X + Y |U ] = E[U + V |U ] = E[U |U ] + E[V |U ], et on utilise les proprits classiques de lesprance conditionnelle : E[U |U ] = U dune part, et E[V |U ] = E[V ] dautre part, puisque U et V sont indpendantes. Si on fait les comptes, on a donc obtenu : E[X|U ] = U + E[V ] E[Y |U ]. Or E[V ] = 3 puisque V suit une loi uniforme et on a calcul E[Y |U ] ci-dessus. Finalement : E[X|U ] = et tout est dit. 11U U 2 , 10
33
Fig. 1.17 Tirage uniforme dans un triangle.
Exercice 1.11 (Des points dans 2 ) On tire un point de faon uniforme parmi ceux de la gure 1.17. Ceci donne un couple alatoire 1 (X, Y ) dont la loi jointe est : pij = (X = i, Y = j) = 15 , 1 j i 5. 1. Donner les lois marginales de X et de Y . 2. Soit j {1, . . . , 5} x : donner la loi conditionnelle de X sachant Y = j, cest--dire (X = i|Y = j). 3. Calculer E[X|Y = j], en dduire E[X|Y ], puis E[X] en fonction de E[Y ]. 4. Dterminer de mme la loi conditionnelle de Y sachant X = i. 5. Calculer E[Y |X = i], en dduire E[Y |X], puis E[Y ] en fonction de E[X]. 6. Dduire des questions prcdentes E[X] et E[Y ]. 7. Gnralisation : soit N x, reprendre les questions prcdentes en remplaant 5 par N (on ne demande pas le dtail des calculs, uniquement les rsultats). Esprance conditionnelle & Chanes de Markov Arnaud Guyader - Rennes 2
34 Corrig Le corrig est donn en annexe (sujet de juin 2006).
Exercice 1.12 (Somme alatoire de variables alatoires) Soit (Xn )n1 une suite de variables alatoires admettant la mme esprance m = E[X1 ]. Soit N une variable alatoire valeurs dans indpendante de la suite (Xn )n1 . On pose Sn = n Xk . k=1 On sintresse dans cet exercice la variable alatoire SN . 1. Si N G(1/2) et les variables Xn sont quiprobables sur {1, . . . , 6}, donner une faon de simuler SN laide dun d et dune pice. 2. Dterminer E[SN |N = n]. En dduire E[SN |N ]. 3. Que vaut E[SN ] ? 4. Application : la vre acheteuse. Le nombre de clients se rendant dans un magasin donn dans lespace dune journe est une variable alatoire de moyenne 50. La somme dpense par chacun des clients est aussi une variable alatoire de moyenne 20e. Avec des hypothses raisonnables, quel est le chire daaires quotidien moyen du magasin ? Corrig 1. Tout dabord, il sut de lancer une pice quilibre et de compter le nombre de lancers ncessaires pour voir apparatre Pile. On appelle N ce nombre, on sait quil suit une loi gomtrique de paramtre 1/2. Il sut alors de lancer N fois un d quilibr 6 faces et de faire la somme des rsultats obtenus pour obtenir SN . 2. Si N = n, alors : SN = Sn = X1 + + Xn est la somme de n variables de mme moyenne m, donc : E[SN |N = n] = nm. On en dduit que : E[SN |N ] = mN. 3. La technique de calcul desprance par conditionnement permet alors dcrire que : E[SN ] = E[E[SN |N ]] = mE[N ]. 4. Application : la vre acheteuse. Le nombre de clients se rendant dans un magasin donn dans lespace dune journe est une variable alatoire de moyenne 50. La somme dpense par chacun des clients est aussi une variable alatoire de moyenne 20e. En supposant que ce que dpense chaque client (variable alatoire Xi ) est indpendant du nombre N de clients passer dans le magasin dans la journe, on en dduit que le chire daaires quotidien moyen du magasin est : E[SN ] = 50 20 = 1000e.
Exercice 1.13 (North by Northwest) Soit X et Y deux variables alatoires discrtes valeurs dans . On suppose que X P(), loi de Poisson de paramtre > 0. On suppose que, pour tout entier n > 0, la loi de Y sachant X = n est la loi binmiale B(n, p) ; et que Y = 0 si X = 0. 1. Donner la loi jointe du couple alatoire (X, Y ). Arnaud Guyader - Rennes 2 Esprance conditionnelle & Chanes de Markov
1.6. Exercices 2. Montrer que Y suit une loi de Poisson de paramtre p. 3. Montrer que : n k
35
(X = n|Y = k) = e(1p)
((1 p))nk , (n k)!
cest--dire que, sachant Y = k, X suit une loi de Poisson translate. En dduire E[X|Y = k] et de faon gnrale que : : E[X|Y ] = Y + (1 p). 4. Application : un embranchement routier, le nombre X de vhicules arrivant en une heure suit une loi de Poisson P(100) (hypothse courante dans ce genre de situation). Les vhicules ont alors le choix entre deux directions A ou B : ils choisissent A avec la mme probabilit 1/3, et ce de faon indpendante. Sachant quen une heure, on sait simplement que 100 voitures ont pris la direction A, quel est le nombre moyen de voitures qui sont passes par lembranchement ? Exercice 1.14 (Esprance dune variable gomtrique) N Soit une urne contenant N boules noires et M boules blanches (N, M 1). On pose p = N +M . On eectue une suite de tirages avec remise et on dsigne par T le nombre de tirages ncessaires pour amener pour la premire fois une boule noire. 1. Quelle est la loi de T ? Que vaut E[T ] ? 2. On calcule ici lesprance de T par une autre mthode. On introduit une variable X qui prend la valeur 0 ou 1 selon que la premire boule tire est blanche ou noire. (b) Dterminer E[T |X = 0] en fonction de E[T ]. (a) Dterminer E[T |X = 1].
(c) Via un calcul desprance par conditionnement, en dduire E[T ].
Exercice 1.15 (Germinal revival) Un mineur est prisonnier dans un puits do partent trois tunnels. Le premier tunnel le mnerait la sortie au bout de 3 heures de marche. Le second le ramnerait son point de dpart au bout de 5 heures de marche, de mme que le troisime au bout de 7 heures. On suppose que les tunnels sont indiscernables et qu chaque fois quil est au point de dpart, le mineur emprunte lun des trois de faon quiprobable. On note T le nombre dheures ncessaires pour sortir du puits. Soit X {1, 2, 3} le numro du tunnel que le prisonnier choisit sa premire tentative. Reprendre le raisonnement de lexercice 1.14 (partie 2.) pour calculer le temps moyen quil faut au mineur pour sortir. Corrig On reprend le raisonnement de lexercice Esprance dune variable gomtrique et on obtient : E[T |X = 1] = 3, E[T |X = 2] = E[T ] + 5 et E[T |X = 3] = E[T ] + 7. Par ailleurs, le calcul desprance par conditionnement donne : E[T ] = E[T |X = 1](X = 1) + E[T |X = 2](X = 2) + E[T |X = 3](X = 3). Mais puisque le prisonnier choisit au hasard parmi les trois tunnels, on a :
(X = 1) = (X = 2) = (X = 3) = .
Esprance conditionnelle & Chanes de Markov Arnaud Guyader - Rennes 2
1 3
36 Ainsi il vient : E[T ] = do lon dduit : E[T ] = 15.
1 (3 + E[T ] + 5 + E[T ] + 7), 3
Il faut en moyenne 15 heures au mineur pour sortir. Autant dire que ce nest pas gagn... Exercice 1.16 (Variable Y dnie partir de X) On considre une variable alatoire X valeurs dans et telle que : i 1. Que vaut E[X] ?
(X = i) =
2 . 3i
Soit Y une variable alatoire telle que, sachant X = i, la loi de Y est lquiprobabilit sur {i, i + 1}. 2. Pour tout i , dterminer E[Y |X = i]. En dduire E[Y |X], puis E[Y ]. 3. Calculer la loi jointe du couple (X, Y ). 4. Dterminer la loi de Y . 6. Calculer Cov(X, Y ). Corrig 1. On a vu que X suit une loi gomtrique de paramtre 2/3 donc E[X] = 3/2. 2. Pour tout i , on a vu que : E[Y |X = i] = On en dduit que E[Y |X] = et par suite 1 2i + 1 (i + (i + 1)) = . 2 2 2X + 1 , 2 5. Pour tout j , dterminer E[X|Y = j]. En dduire E[X|Y ].
1 E[Y ] = E[E[Y |X]] = (2E[X] + 1) = 2. 2
3. La loi jointe du couple (X, Y ) est trs simple puisquon connat marginale et conditionnelle. Pour tout i , on a : 0 si j {i, i + 1} / pi,j = 1 si j {i, i + 1} 3i 4. La variable alatoire Y est valeurs dans
, avec
pj = (Y = j) =
1/3 si j = 1 4 si j 2 3j
5. On commence par dterminer la loi conditionnelle de X sachant Y = j. Or si Y = 1, il est clair que X vaut 1, donc que E[X|Y = 1] = 1. Si Y = j > 1, alors X ne peut valoir que j ou (j 1) et plus prcisment :
(X = j 1|Y = j) =
(X = j 1, Y = j) 3 = , (Y = j) 4
1.6. Exercices et de mme : do lon dduit :
37
(X = j|Y = j) = ,
3(j 1) j 4j 3 + = 4 4 4 On est donc oblig de faire attention la valeur 1 pour la variable alatoire X : E[X|Y = j] = E[X|Y ] = {Y =1} + 6. On a enn Cov(X, Y ) = E[XY ] E[X]E[Y ], or on a dj vu que E[X] = 3/2 et E[Y ] = 2 et E[XY ] = E[E[XY |X]] = E[XE[Y |X]] = E[X 1 2X + 1 ] = (2E[X 2 ] + E[X]). 2 2 4Y 3 {Y >1} 4
1 4
Il reste voir que E[X 2 ] = VarX + (E[X])2 , et se souvenir (ou recalculer) que la variance dune loi gomtrique de paramtre p est q/p2 (donc ici 3/4). On a donc : 1 3 9 3 15 E[XY ] = (2( + ) + ) = . 2 4 4 2 4 Finalement : Cov(X, Y ) = 3 15 3 = . 4 4
Exercice 1.17 (Couple alatoire) Rappels sur les sries entires : Pour tout x [1, 1[, on a : ln(1 x) = Pour tout x [1, 1[ et pour tout entier naturel k : k! = (1 x)k+1
+ n=0
xn , n n=1
(n + k)! n x . n!
On considre un couple alatoire (X, Y ) valeurs dans par : (i, j) 2 \ {(0, 0)} 1. Calculer
2 \ {(0, 0)} dont la loi jointe est dnie

1 (i + j 1)! . ln 2 i!j!3i 6j
(X = i, Y = j) =
3. Dterminer la loi de Y conditionnellement X = 0. Calculer E[Y |X = 0]. 5. En dduire E[Y |X].
(X = 0). 2. Pour tout i , calculer (X = i).
4. Pour tout i , dterminer la loi de Y conditionnellement X = i. Calculer E[Y |X = i].
6. En dduire lgalit suivante : 1 1 . E[Y ] E[X] = 5 5 ln 2
38 Corrig
1. Lorsque X = 0, Y peut prendre les valeurs 1, 2, etc. On a donc :
(X = 0) =
+ j=1
(X = 0, Y = j) =
+ j=1
1 (j 1)! 1 = j ln 2 j!6 ln 2
+ j=1
1 , j6j
et il sut alors dappliquer la formule donne en rappel pour obtenir :
(X = 0) =
.
ln 6 ln 5 ln 2
2. Lorsque X = i > 0, Y peut prendre les valeurs 0, 1, 2, etc. On a cette fois :
(X = i) =
+ j=0
1 (i + j 1)! 1 1 = i 6j ln 2 i!j!3 ln 2 i!3i
+ j=0
(j + (i 1))! , j!6j
et on applique la formule du rappel :
(X = i) =
3. Pour tout j > 0, on a donc :
1 1 6i 1 2i (i 1)! i = . ln 2 i!3i 5 ln 2 i5i 1 (X = 0, Y = j) = . (X = 0) (ln 6 ln 5)j6j 1 ln 6 ln 5

+ j=1
(Y = j|X = 0) =
La valeur moyenne de Y sachant X = 0 est donc :

+
E[Y |X = 0] =
j (Y = j|X = 0) =
j=1
1 , 6j
et on reconnat une srie gomtrique : E[Y |X = 0] = 4. Soit i > 0 x. Pour tout j 0, on a : 1 . 5(ln 6 ln 5)
(Y = j|X = i) =
(X = i, Y = j) (i + j 1)!5i = . (X = i) (i 1)!j!6i+j
+ j=1
Do lon dduit lesprance conditionnelle de Y sachant X = i :

+
E[Y |X = i] = ce qui scrit encore :
j=0
5i j (Y = j|X = i) = (i 1)!6i
((j 1) + i)! 1 , (j 1)! 6j
E[Y |X = i] = cest--dire, aprs simplications :
5i (i 1)!6i+1
(n + i)! 1 , n! 6n n=0
E[Y |X = i] = Arnaud Guyader - Rennes 2
i . 5
1.6. Exercices 5. Pour lexpression de lesprance conditionnelle de Y sachant X, il faut donc faire attention X=0: E[Y |X] = 1 1 1 1 {X=0} + X {X>0} = {X=0} + X. 5(ln 6 ln 5) 5 5(ln 6 ln 5) 5 1 1 E[{X=0} ] + E[X]. 5(ln 6 ln 5) 5
39
6. On en dduit lesprance de Y en fonction de celle de X : E[Y ] = E[E[Y |X]] =
La variable alatoire {X=0} est binaire, elle prend les valeurs 0 et 1 avec les probabilits respectives (X > 0) et (X = 0), donc son esprance est tout simplement : E[{X=0} ] = 0 (X > 0) + 1 (X = 0) = (X = 0) = On en dduit que : E[Y ] = 1 1 + E[X], 5 ln 2 5 ln 6 ln 5 . ln 2
ce qui est bien le rsultat voulu. Remarque. Une version plus gnrale de cet exercice se trouve dans louvrage Toutes les probabilits et les statistiques, de Jacques Dauxois et Claudie Hassenforder, Ellipses, 2004. Exercice 1.18 (Echauement) On considre la fonction f dnie sur
2 par : 2 .
f (x, y) = e(x+y) {x0,y0} 1. Vrier que f est une densit sur 2. Soit (X, Y ) un couple de densit f . Dterminer les marginales f (x) et f (y). 3. Calculer la covariance du couple (X, Y ). Corrig 1. Il est clair que f est une fonction positive. Par ailleurs, par le thorme de Fubini-Tonelli, le calcul de son intgrale double sur 2 se fait sans problme :
+ + 0
f (x, y) dx dy =
0
e(x+y) dy
dx = = 1,
et f est bien une densit sur
2 .
f (x, y) dy = = ex [0,+[ (x).
2. La densit f (x) de la variable alatoire X sobtient en intgrant par rapport y : f (x) =
3. On remarque que :
On voit donc que X suit une loi exponentielle de paramtre 1, ce que lon note : X E(1). Vu les rles symtriques jous par X et Y , la variable alatoire Y a la mme loi : Y E(1). (x, y) 2 f (x, y) = f (x)f (y),
donc X et Y sont indpendantes, donc leur covariance est nulle (rappelons que la rciproque est fausse en gnral, sauf dans le cas des vecteurs gaussiens).
40 Exercice 1.19 (Monte en puissance) Soit (X, Y ) un couple alatoire de densit jointe : f (x, y) =
1 x y e y ]0,+[2 (x, y) y
1. Dterminer la densit marginale f (y) de Y . 2. En dduire la densit conditionnelle f (x|y). 3. Que vaut E[X|Y = y]. En dduire lesprance conditionnelle de X sachant Y . 4. On considre cette fois : f (x, y) =
12 5 x(2
x y)]0,1[2 (x, y). Montrer que 5 4Y 8 6Y
E[X|Y ] = Corrig 1. La densit marginale de Y vaut :

+
f (y) =
0
1 x y e y ]0,+[ (y) dy, y
ce qui donne aprs calculs : cest--dire que Y (1).
f (y) = ey ]0,+[ (y),
2. On en dduit la densit conditionnelle f (x|y). Pour tout y > 0 : f (x|y) = donc sachant Y = y, X (1/y). 1 x f (x, y) = e y ]0,+[ (x), f (y) y
3. On sait que si X (), alors E[X] = 1/. Or sachant Y = y, X (1/y), donc : E[X|Y = y] = y, et par suite : E[X|Y ] = Y . 4. On considre cette fois : f (x, y) =
12 5 x(2
x y)]0,1[2 (x, y). Pour montrer que 5 4Y , 8 6Y
E[X|Y ] =
il sut dappliquer la mthode usuelle. Si vous narrivez pas ce rsultat, cest que vous avez fait une faute de calcul quelque part ! Exercice 1.20 (Mai 2007) Soit (X, Y ) un couple alatoire de densit jointe : f (x, y) = cx(y x)ey {0<xy} . 1. Soit V une variable alatoire qui suit une loi exponentielle de paramtre . Rappeler son moment dordre n, cest--dire E[V n ]. 2. Dterminer c pour que f soit eectivement une densit. 3. Calculer f (x|y), densit conditionnelle de X sachant Y = y. 4. En dduire que E[X|Y ] = Y /2. Arnaud Guyader - Rennes 2 Esprance conditionnelle & Chanes de Markov
1.6. Exercices 5. Calculer f (y|x), densit conditionnelle de Y sachant X = x. 6. En dduire que E[Y |X] = X + 2. Corrig Cf. annales en n de polycopi. Exercice 1.21 (Mai 2008) On considre le couple alatoire (X, Y ) de densit la fonction f dnie sur R2 par : f (x, y) = 2 0 si 0 x y 1 sinon 7. Dduire des questions 4 et 6 les quantits E[X] et E[Y ].
41
1. Reprsenter f et vrier quil sagit bien dune fonction de densit. 2. Les variables X et Y sont-elles indpendantes ? 3. Dterminer les lois marginales puis calculer E[X] et E[Y ]. 4. Calculer les lois conditionnelles f (y|x) et f (x|y). 5. Calculer E[X|Y ]. 6. En utilisant le rsultat prcdent et la valeur de E[Y ] de la question 3, retrouver la valeur de E[X].
Corrig Cf. annales en n de polycopi. Exercice 1.22 (Changement de couple) On considre la fonction suivante : f (x, y) = ey {0<x<y} . 1. Vrier que f (x, y) dnit une densit de probabilit sur 3. Calculer E[X], E[Y ], Cov(X, Y ). 4. Dterminer la densit conditionnelle fY |X de Y sachant X = x. En dduire E[Y |X = x], puis lesprance conditionnelle E[Y |X].
2 .
2. Calculer les densits marginales de X et Y . Les variables X et Y sont-elles indpendantes ?
5. Dterminer de mme E[X|Y ].
6. Dterminer la loi jointe fZ,T du couple (Z, T ) dni par : Z =X +Y T =Y X 7. En dduire les densits marginales de Z et T . Corrig Cet exercice est corrig en annexe, sujet de juin 2005. Exercice 1.23 (Jeu de chettes) Soit D le disque de centre (0, 0) et de rayon 1, (X, Y ) un point tir uniformment dans D. Esprance conditionnelle & Chanes de Markov Arnaud Guyader - Rennes 2
42 1. Donner la densit f (x, y) du couple (X, Y ).
2. Dterminer les lois marginales de X et Y . En dduire E[X] et E[Y ]. 3. Les variables X et Y sont-elles indpendantes ? 4. Calculer la covariance du couple (X, Y ). 5. Dterminer la fonction de rpartition G(u), puis la densit g(u), de la variable alatoire U = X 2 + Y 2. 6. Calculer lesprance de U . En dduire E[X 2 ], E[Y 2 ], la variance de X et celle de Y . 7. Dterminer la densit conditionnelle f (.|x) de Y sachant X = x. Calculer E[Y 2 |X = x], puis E[X 2 + Y 2 |X = x], puis E[X 2 + Y 2 |X].
8. Un tireur tire sur la cible D : la loi du point dimpact (X, Y ) sur la cible est uniforme. Au point dimpact est associe la distance au centre L = X 2 + Y 2 . Supposons quil tire n fois de faons indpendantes : ceci donne un n-uplet (L1 , . . . , Ln ) de variables alatoires. Soit 0 < a 1 : calculer la probabilit que lune au moins des chettes soit distance infrieure a du centre de la cible.
Corrig 1. Puisque le point (X, Y ) est tir uniformment dans le disque D, la densit f (x, y) du couple (X, Y ) est tout simplement lindicatrice du disque divis par la surface de ce disque. Cest la gnralisation dune loi uniforme sur un segment de (indicatrice du segment divis par sa longueur). Ainsi : 1 1 f (x, y) = D (x, y) = {x2 +y2 1} (x, y). 2. Si x est x entre 1 et 1, y ne peut varier quentre 1 x2 et + 1 x2 (faire un dessin !). On a alors : + 1x2 1 2 f (x) = dy = 1 x2 [1,1] (x). 1x2 Puisque labscisse X et lordonne Y jouent des rles symtriques, on a aussi : f (y) = On en dduit : E[X] = 2 2 1 y 2 [1,1] (y).
1
x
1
1 x2 dx,
et il y a deux faons de voir les choses : ou bien on y va brutalement et on reconnat peu de choses prs la drive de (1 x2 )3/2 . Ou bien on ruse on voit que cest lintgrale dune fonction impaire sur un domaine symtrique par rapport 0, donc elle vaut 0 (faire un dessin). Ainsi E[X] = 0, ce qui nest pas tonnant : on lance les chettes aussi bien dans les abscisses ngatives que positives. Puisque Y a mme loi que X, on a aussi E[Y ] = 0. 3. Les variables X et Y ne sont pas indpendantes, puisque le support de la loi du couple (X, Y ) nest pas un pav, mais un disque. On peut aussi le voir en vriant que la loi jointe f (x, y) nest pas gale au produit des marginales. 4. Par dnition la covariance du couple (X, Y ) est : cov(X, Y ) = E[XY ] E[X]E[Y ] = E[XY ] = Arnaud Guyader - Rennes 2 xyf (x, y) dx dy,
D
1.6. Exercices et par le thorme de Fubini (on intgre une fonction continue sur un domaine born donc no souci) : + 1x2 1 +1 y dy dx = 0, cov(X, Y ) = x 1 1x2 puisque pour tout x entre 1 et 1, le segment [ 1 x2 , + 1 x2 ] est symtrique par rapport 0 et la fonction y y est impaire. On en dduit que cov(X, Y ) = 0 alors que X et Y ne sont pas indpendantes : Etonnov, niet ? 5. La variable alatoire (X 2 + Y 2 ) est valeurs entre 0 et 1 et pour tout u [0, 1], on a : G(u) = (X 2 + Y 2 u) = X2 + Y 2 u ,
43
Autrement dit U suit une loi uniforme sur [0, 1], ce quon note U U[0,1] . On en dduit que sa densit est lindicatrice du segment [0, 1] : g(u) = [0,1] (u).
or X 2 + Y 2 est la distance au centre dun point M tir au hasard dans le disque. La probabilit que celle-ci soit plus petite que u correspond donc au rapport des surfaces entre le disque de centre O et de rayon u et le disque D, cest--dire que : si u 0 0 G(u) = u si 0 u 1 1 si u 1
6. Lesprance de U vaut donc 1/2. Puisque X et Y ont mme loi, on a E[X 2 ] = E[Y 2 ], et puisque U = (X 2 + Y 2 ), on a : E[U ] = E[X 2 ] + E[Y 2 ] = 2E[X 2 ] E[X 2 ] = Les variances de X et Y sont identiques et : 1 Var(X) = E[X 2 ] E[X]2 = E[X 2 ] = . 4 7. La densit conditionnelle f (.|x) de Y sachant X = x est : 1 f (y|x) = 2 2 (y). 2 1 x2 [ 1x ,+ 1x ] On en dduit : 1 E[Y |X = x] = 2 1 x2
2 + 1x2 1x2
1 1 E[U ] = . 2 4
y 2 dy =
1 x2 . 3 2x2 + 1 1 x2 = , 3 3
Mais alors :
E[X 2 + Y 2 |X = x] = E[X 2 |X = x] + E[Y 2 |X = x] = x2 + et de faon gnrale : E[X 2 + Y 2 |X] = 2X 2 + 1 . 3
8. La probabilit que lune au moins des chettes soit distance infrieure a du centre de la cible est : pa = (min(L1 , . . . , Ln ) a) = 1 (min(L1 , . . . , Ln ) > a) = 1 (L1 > a, . . . , Ln > a), Esprance conditionnelle & Chanes de Markov Arnaud Guyader - Rennes 2
44
Chapitre 1. Esprance conditionnelle or les variables alatoires L1 , . . . , Ln sont indpendantes et identiquement distribues, donc :
(L1 > a, . . . , Ln > a) = (L1 > a) (Ln > a) = (L1 > a)n .
Mais on a alors :
(L1 > a) = 1 (L1 a) = 1 (L2 a2 ) = 1 (X 2 + Y 2 a2 ) = 1 G(a2 ) = 1 a2 . 1

Ainsi : pa = 1 (1 a2 )n .
Exercice 1.24 (Lois exponentielles) Soit X et Y deux variables alatoires indpendantes suivant une loi exponentielle de mme paramtre > 0. 1. Quelle est la loi jointe fX,Y du couple (X, Y ) ? 2. Dterminer la loi jointe fV,W du couple (V, W ) dni par : V W 3. En dduire la densit de V . 4. Calculer f (w|v). Quelle loi reconnat-on ? = X +Y = X
Corrig Voir les annales, sujet de mai 2008. Exercice 1.25 (Minimum de variables exponentielles) 1. On considre deux variables alatoires indpendantes X1 et X2 exponentielles de paramtres respectifs 1 et 2 . Soit Y = min(X1 , X2 ) le minimum de ces deux variables. Montrer que Y suit une loi exponentielle de paramtre (1 + 2 ) (on pourra utiliser les fonctions de rpartition). 2. Montrer que :
(Y = X1 ) = (X1 < X2 ) =
Indication : on pourra calculer
1 . 1 + 2
(X1 < X2 ) en conditionnant par rapport X2 .
3. Deux guichets sont ouverts une banque : le temps de service au premier (respectivement second) guichet suit une loi exponentielle de moyenne 20 (respectivement 30) minutes. Aude et Vincent sont convoqus la banque pour sexpliquer sur leurs dcouverts respectifs : Aude choisit le guichet 1, Vincent le 2. Quelle est la probabilit que Aude sorte la premire ? 4. En moyenne, combien de temps faut-il pour que les deux soient sortis ? Indication : le max de deux nombres, cest la somme moins le min.
Corrig Arnaud Guyader - Rennes 2 Esprance conditionnelle & Chanes de Markov
1.6. Exercices 1. Notons FY la fonction de rpartition de Y , alors : FY (y) = (Y y) = (min(X1 , X2 ) y) = 1 P (min(X1 , X2 ) > y), ce qui scrit encore : FY (y) = 1 ({X1 > y} {X2 > y}) .
45
Or X1 et X2 sont indpendantes : FY (y) = 1 (X1 > y)(X2 > y) = 1 e1 y + (y)e2 y + (y) = 1 e(1 +2 )y + (y), 2. On a : cest--dire que Y E(1 + 2 ).
(Y = X1 ) = (X1 < X2 ) =
cest--dire :
+ 0
(X1 < X2 |X2 = x)fX2 (x) dx,
(Y = X1 ) =
+ 0
(X1 < x|X2 = x)2 e2 x dx.
Mais puisque X1 et X2 sont indpendantes, le premier terme dans lintgrale est simplement :
(X1 < x|X2 = x) = (X1 < x) = 1 e1 x ,

do lon dduit :
(Y = X1 ) =
Finalement on a bien :
+ 0
2 e2 x 2 e(1 +2 )x dx = 1
2 . 1 + 2
(Y = X1 ) =
1 . 1 + 2
3. Rappelons quune exponentielle de moyenne 20 a pour paramtre 1/20. La probabilit que Aude sorte la premire est donc tout simplement : p= 3 1/20 = . 1/20 + 1/30 5
4. Soit Xa , respectivement Xv , le temps ncessaire pour que Aude, respectivement Vincent, sorte de la banque. On cherche donc calculer E[max(Xa , Xv )]. Il sut de remarquer que : max(Xa , Xv ) = Xa + Xv min(Xa , Xv ), do par linarit de lesprance : E[max(Xa , Xv )] = E[Xa ] + E[Xv ] E[min(Xa , Xv )] = 20 + 30 1 = 38 min. 1/20 + 1/30
Exercice 1.26 (Variable Y dnie partir de X) Soit X une variable alatoire de densit : 2 ln(1 + x) [0,1] (x) (ln 2)2 1 + x Soit Y une variable alatoire telle que la loi conditionnelle de Y sachant X = x est : 1 1 (y) ln(1 + x) 1 + y [0,x] Esprance conditionnelle & Chanes de Markov Arnaud Guyader - Rennes 2
46 1. Donner la densit jointe du couple (X, Y ). 2. Les variables X et Y sont-elles indpendantes ?
3. Quelle est la loi de Y ? Loi conditionnelle de X sachant Y ? 4. Dterminer lesprance conditionnelle E[X|Y ].
Corrig Cf. annales, sujet de juin 2006. Exercice 1.27 (Laiguille de Buon) On suppose quon lance une aiguille de longueur unit sur un parquet dont les lames sont ellesmmes de largeur unit. On voudrait calculer la probabilit p que laiguille soit cheval sur deux lames. On modlise le problme comme suit : la variable alatoire X correspond la distance du milieu de laiguille au bord de lame le plus proche, la variable alatoire T correspond langle entre laiguille et laxe des abscisses (cf. gure 1.18, gauche). On suppose que X est uniformment distribue sur [0, 1/2], T uniformment distribue sur [/2, /2], et que ces deux variables sont indpendantes.
Fig. 1.18 Modlisation de lexprience de Buon ( gauche) et solution diabolique ( droite).
1. Expliquer pourquoi la probabilit cherche peut scrire : p= X 2. Soit t [/2, /2]. Que vaut 1 | sin T | . 2
2 3. Grce un calcul de probabilit par conditionnement, en dduire que p = .
1 (X 2 | sin t|) ?
4. Mthode heuristique : on jette un trs grand nombre daiguilles sur le parquet, de sorte quil y en ait dans toutes les directions. On peut donc les mettre bout bout de faon former un trs grand cercle, de rayon R (cf. gure 1.18, droite). (a) Quel est approximativement le nombre N dallumettes ncessaires pour former ce cercle ? (b) Quel est approximativement le nombre Ni de lames de parquet intersectes par ces allumettes ?
2 (c) En faisant le rapport entre ces deux nombres, retrouver le rsultat p = .
1.6. Exercices Exercice 1.28 (Casser un bton en trois) On casse un bton en trois morceaux au hasard et on veut connatre la probabilit de pouvoir faire un triangle avec ces trois morceaux. On suppose pour simplier les calculs que le bton est de longueur unit. 1. Premire mthode : on tire uniformment entre 0 et 1 deux variables alatoires indpendantes U et V . Reprsenter graphiquement, dans le carr [0, 1] [0, 1] les couples admissibles. En 1 dduire que la probabilit cherche vaut 4 . 2. Seconde mthode : on casse dabord le bton en deux morceaux (tirage dune variable alatoire X uniforme sur [0, 1]), puis on choisit au hasard lun des deux morceaux (pile ou face non biais), puis on recasse ce morceau en deux (tirage dune variable uniforme Y ). Dterminer la densit, note f (y|x), de Y sachant X = x. En dduire que la probabilit cherche 1 vaut ln 2 2 0.19.
47
3. Pourquoi ne trouve-t-on pas le mme rsultat ?
Exercice 1.29 (Triplet alatoire) Soit (X, Y, Z) un triplet alatoire. La loi marginale de X est donne par : f (x) = 1 3 x x e ]0,+[ (x). 6
La loi conditionnelle de Y sachant X = x est donne par : f (y|x) = 3 y2 (y). x3 ]0,x[
La loi conditionnelle de Z sachant X = x et Y = y est donne par : f (z|x, y) = 2 yz (z). y 2 ]0,y[
1. Soit V E(). Donner pour tout n : E[V n ].
2. Reprsenter lensemble des valeurs prises par le triplet (X, Y, Z).
3. Dterminer la densit jointe f (x, y, z). En dduire la densit de Z. 4. Que vaut la densit jointe du couple (X, Y ) conditionnellement Z = z ? 5. En dduire la densit de X sachant Z = z, note f (x|z), puis E[X|Z]. 6. Soit S = X + Y et T = X Y . Dterminer la densit jointe fS,T du couple (S, T ). Quelle loi suit la variable alatoire T ? Exercice 1.30 (Couple mixte) On rappelle que si V E(), on a : E[V n ] = n!/n . Soit alors (X, Y ) un couple de variables alatoires valeurs dans [0, +[, tel que : la loi marginale de Y est exponentielle de paramtre 1 ; la loi conditionnelle de X sachant Y = est une loi de Poisson de paramtre . Puisque le couple nest ni discret, ni absolument continu, on propose de noter p(n, ) sa loi jointe, p(n) = (X = n) la loi marginale de X, p() la densit de Y , etc. 1. Dterminer la loi jointe du couple (X, Y ), cest--dire p(n, ). 2. Dterminer la loi marginale de X, cest--dire p(n). Quel est le lien avec une loi gomtrique classique ? Que vaut E[X] ? 3. Dterminer la densit conditionnelle de Y sachant X = n, cest--dire p(|n). Esprance conditionnelle & Chanes de Markov Arnaud Guyader - Rennes 2
48
Chapitre 1. Esprance conditionnelle 4. Dterminer lesprance conditionnelle de Y sachant X = n, cest--dire E[Y |X = n]. En dduire E[Y |X]. E[Y ] = E[E[Y |X]]. Exercice 1.31 (Triplet exponentiel) Soit X1 , X2 et X3 des variables i.i.d. de loi exponentielle de paramtre . On pose : Y1 = X2 X1 Y2 = X3 X1 On sintresse la densit jointe du couple (Y1 , Y2 ) sachant X1 = x1 . Montrer que pour tout triplet (x1 , y1 , y2 ) de 3 , on a : f (y1 , y2 |x1 ) = 2 e(2x1 +y1 +y2 ) {y1 x1 ,y2 x1 } . Exercice 1.32 (Droite de rgression en statistiques) On considre les tailles et poids de dix enfants de six ans : Taille 121 123 108 118 111 109 114 103 110 115 Poids 25 22 19 24 19 18 20 15 20 21 1. Calculer les esprances, variances et covariance empiriques pour cet chantillon. 2. Dterminer la droite de rgression y = ax + b. 3. Quelle est lerreur quadratique moyenne pour cet chantillon ? Exercice 1.33 (Droite de rgression en probabilits) Soit (X, Y ) un couple alatoire de densit jointe : f (x, y) = 1 2x2 2xy+y2 2 e 2
5. Vrier sur cet exemple la relation vue en cours dans les cas classiques :
1. Montrer que X N (0, 1) et Y N (0, 2), lois normales centres de variances respectives 1 et 2. 2. Montrer que la covariance du couple (X, Y ) vaut 1. 3. En dduire lquation de la droite de rgression de Y en X : y = ax + b. 4. Montrer que, sachant X = x, Y suit une loi normale N (x, 1). En dduire la courbe de rgression : x E[Y |X = x]. 5. Sachant X = x, on veut la probabilit que Y sloigne de ax + b de plus de une unit, i.e. calculer : (|Y (aX + b)| > 1|X = x). Indication : si V N (0, 1), alors
(|V | > 1) 0.32.
Exercice 1.34 (Droite de rgression et courbe de rgression) Soit (X, Y ) un couple alatoire de densit jointe :
1 y2 2 1 f (x, y) = e 2 ( x2 2y+x +2x) {x>0} x 2
1.6. Exercices 1. 2. 3. 4. 5. 6. Montrer que X E(1), loi exponentielle de paramtre 1. Calculer f (y|x) pour montrer que, sachant X = x, Y suit une loi normale N (x2 , x2 ). En dduire la courbe de rgression : x E[Y |X = x]. Sachant X = x, donner une zone de conance 95% pour Y . Dterminer lquation de la droite de rgression de Y en X. Reprsenter graphiquement les rsultats.
49
Exercice 1.35 (Droite de rgression et points aberrants) Douze personnes sont inscrites une formation. Au dbut de la formation, ces stagiaires subissent une preuve A note sur 20. A la n de la formation, elles subissent une preuve B de niveau identique. Les rsultats sont donns dans le tableau suivant : Epreuve A 3 4 6 7 9 10 9 11 12 13 15 4 Epreuve B 8 9 10 13 15 14 13 16 13 19 6 19 1. Reprsenter le nuage de points. Dterminer la droite de rgression. Calculer le coecient de corrlation. Commenter. 2. Deux stagiaires semblent se distinguer des autres. Les supprimer4 et dterminer la droite de rgression sur les dix points restants. Calculer le coecient de corrlation. Commenter.
Notes Epreuve B
10
12
14
16
18
8 Notes Epreuve A
10
12
14
Fig. 1.19 Reprsentation des notes et droite de rgression pour lensemble des 12 stagiaires. Corrig 1. Le nuage de points ainsi que la droite de rgression sont reprsents gure 1.19. On cherche expliquer les notes lpreuve B, notes y1 , . . . , y12 partir des notes lpreuve A, notes x1 , . . . , x12 . Lquation de la droite de rgression est y = ax + avec : b, a=
4
12 i=1 (xi x)(yi 12 2 i=1 (xi x)
y)
0.11
Je ne crois aux statistiques que lorsque je les ai moi-mme falsies. Winston Churchill.
50
Chapitre 1. Esprance conditionnelle rapport de la covariance empirique entre les notes lpreuve A et celles lpreuve B et de la variance empirique des notes lpreuve A. Pour lordonne lorigine, on a : = y ax 12.0 b Le coecient de corrlation linaire vaut : =
12 i=1 (xi 12 i=1 (xi
x)(yi y)
x)2
12 i=1 (yi
y )2
0.10
Le coecient proche de 0 pourrait laisser penser quil ny a pas une forte corrlation linaire entre les notes lpreuve A et les notes lpreuve B. De fait, sur la gure 1.19, la droite de rgression ne semble pas reprsenter correctement le nuage de points.
Notes Epreuve B
10
12
14
16
18
8 Notes Epreuve A
10
12
Fig. 1.20 Reprsentation des notes et droite de rgression pour les 10 premiers stagiaires. 2. On limine les notes des deux derniers stagiaires, cest--dire les deux dernires colonnes du tableau. Le nuage de points ainsi que la droite de rgression sont reprsents gure 1.20. Lquation de la droite de rgression est encore y = ax + avec : b, a=
10 i=1 (xi x)(yi 10 2 i=1 (xi x)
y)
0.90
rapport de la covariance empirique entre les notes lpreuve A et celles lpreuve B et de la variance empirique des notes lpreuve A. Pour lordonne lorigine, on a : = y ax 5.5 b Le coecient de corrlation linaire vaut : =
10 i=1 (xi 10 i=1 (xi
x)(yi y)
x)2
10 i=1 (yi
y )2
0.90
1.6. Exercices On obtient cette fois une forte corrlation linaire puisque est proche de 1. De mme, sur la gure 1.20, la droite de rgression est tout fait reprsentative du nuage de points. Ainsi les notes des 2 derniers individus susaient masquer la forte corrlation linaire et fausser compltement la rgression linaire pour expliquer la seconde note partir de la premire : ce sont ce quon appelle des individus aberrants. On trouvera la dnition prcise de cette notion dans le livre de Pierre-Andr Cornillon et Eric Matzner-Lber [7], paragraphe 4.1.2. Exercice 1.36 (Un peu de prdiction) Soit x. Soit (Zn )n0 une suite de variables alatoires indpendantes centres et de mme variance 2 . On construit partir de (Zn )n0 la suite de variables alatoires (Xn )n0 comme suit X0 = Z0 Xn+1 = Zn Zn1 1. Pourquoi les Xn sont-elles de carrs intgrables ? 2. Montrer que la projection de Xn+1 sur le sous-espace de L2 engendr par les (Xi )0in , not dans le cours E[Xn+1 |X0 , . . . , Xn ], est :
n+1
51
Xn+1 =
j Xn+1j
j=1
On lappelle encore le prdicteur des moindres carrs de Xn+1 . 3. Calculer lerreur quadratique moyenne, encore appele erreur de prdiction, cest--dire : E[(Xn+1 Xn+1 )2 ]. Exercice 1.37 (Un problme dterministe) Le but de lexercice est de dterminer deux nombres rels a et b qui minimisent lintgrale :
1 0
(ex ax b)2 dx.
On utilise pour ce faire une interprtation stochastique du problme. Considrons lespace probabilis (, F, ) = ([0, 1], B[0,1] , [0,1] ). Dans ce contexte, une variable alatoire est tout simplement une fonction borlienne f : [0, 1] . Si elle est intgrable sur [0, 1], son esprance est :
1
E[f ] =
0
f (x) dx.
H = L2 ([0, 1], B[0,1] , [0,1] ) est donc lespace des fonctions borliennes de carrs intgrables sur lintervalle [0, 1]. Montrer que le problme de minimisation ci-dessus revient alors dterminer une droite de rgression. En dduire a et b. Corrig Si on adopte les notations vues en rgression dans le cours, la fonction identit x x correspond la variable alatoire X, tandis que la fonction x ex correspond la variable alatoire Y . De faon gnrale, faire une rgression linaire de la variable alatoire Y sur la variable alatoire X, cest chercher les deux rels a et b tels que lerreur quadratique moyenne faite en approchant Y par aX + b soit minimale. On veut donc trouver : arg min E (Y (aX + b))2 ,
a,b
52 ce qui, transpos dans notre contexte, scrit encore :

1
arg min
a,b 0
(ex ax b)2 dx.
Il nous sut donc dappliquer les formules habituelles donnant pente et ordonne lorigine en fonction des esprances, variances et covariance : a = Cov(X,Y ) Var(X) b = E[Y ] aE[X] Il reste valuer les quantits en jeu. Lesprance de X correspond la valeur moyenne prise par la fonction identit sur [0, 1] : 1 1 x dx = . E[X] = 2 0 De mme pour lesprance de Y :
1
E[Y ] =
0
ex dx = e 1.
La variance de X est comme dhabitude : Var(X) = E[X 2 ] E2 [X], avec : E[X 2 ] =

0 1
x2 dx =
1 , 3
do nalement : Var(X) =
1 12 .
De mme, on a : Cov(X, Y ) = E[XY ] E[X]E[Y ].
Or les variables alatoires X et Y sont lies par la relation Y = eX , donc : E[XY ] = E XeX =
0 1
xex dx,
ce qui donne aprs une intgration par parties : 1 E[XY ] = 1 Cov(X, Y ) = (3 e). 2 On en dduit que les coecients de la rgression linaire sont : a = 6(3 e) 1.69. b = 2(2e 5) 0.87. Autrement dit, sur lintervalle [0, 1], la meilleure approximation au sens de la norme L2 de la fonction x ex par une fonction ane est donne par la droite (cf. gure 1.21) : y = 6(3 e)x + 2(2e 5) 1.69x + 0.87. Remarque. Lapproche brutale consisterait voir la quantit optimiser comme une fonction des deux variables a et b :
1
(a, b) =
0
(ex ax b)2 dx, Esprance conditionnelle & Chanes de Markov
1.6. Exercices
53
2.8
1.0 0.8
. .... ... .... .... .... .... .... ..... ..... ..... ..... ..... .. ...... .... .... ..... ..... ..... .. ...... ..... ..... ..... ..... ...... ... ...... ..... ...... ...... ...... ....... .... ...... ....... ...... ....... ....... ....... ..... ....... ........ ........ ........ ........ ........ ...... ......... ......... .......... ......... ......... .......... ......... ..........
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Fig. 1.21 Approximation en norme L2 de x ex par une fonction ane sur [0, 1]. ce qui donne aprs dveloppement et calculs : (a, b) = 1 a2 + b2 + ab 2a + 2(1 e)b + (e2 1). 3 2
On eectue une factorisation la Gauss : (a, b) = b e 1 a 2

2
1 (a 6(3 e))2 12
7 2 57 e 20e + 2 2
Cette quantit est minimale lorsquon annule les 2 carrs, cest--dire lorsque : a = 6(3 e) b = e 1 a = 2(2e 5) 2 On retrouve le rsultat prcdent. Happy end !
Chapitre 2
Vecteurs gaussiens et conditionnement

Introduction
Le calcul conditionnel sexprime trs simplement dans le cadre gaussien, puisque tout se ramne du calcul matriciel. Cest pourquoi on dit quon est dans un cadre linaire. Cest ce qui devrait ressortir de ce chapitre. Au pralable, il convient de faire quelques rappels sur les lois normales uni- et multi-dimensionnelles.
2.1
2.1.1
Rappels sur les vecteurs gaussiens

Variables gaussiennes
Dans toute la suite, (, F, ) est un espace probabilis.
0.40
0.14
0.12
3 2 1
0 1 4
Fig. 2.1 Densits des lois normales N (0, 1) ( gauche) et N (2, 9) ( droite).
Dnition 2.1 (Variable gaussienne) On dit que la variable alatoire X : (, F, ) (, B) est gaussienne de moyenne m et de variance 55
56
Chapitre 2. Vecteurs gaussiens et conditionnement 2 > 0 et on note X N (m, 2 ), si X admet pour densit : f (x) = 1 2 2 e
(xm)2 2 2
Des exemples de courbes en cloches sont donns gure 2.1. Remarques. Supposons quon tire des nombres selon une loi normale N (m, 2 ), par exemple avec un ordinateur. Alors plus lcart-type est faible et plus on a des chances dobtenir des rsultats autour de la moyenne m : 68% de tomber distance infrieure ou gale , 95% de tomber distance infrieure ou gale 2, 99, 7% de tomber distance infrieure ou gale 3. Ceci est illustr gure 2.2. La loi dune variable gaussienne est compltement dnie par la seule donne de sa moyenne m et de sa variance 2 . Si la variance 2 est nulle, dire que X N (m, 0) signie que la variable alatoire X est (quasi-) dterministe : elle ne prend presque srement que la valeur m. Il y a un lien trs simple entre la loi normale centre rduite et toute autre loi normale, puisque : si X N (0, 1), alors Y = X + m N (m, 2 ). On verra que cette proprit admet une gnralisation vectorielle.
0.40
68%
95%
99, 7% Fig. 2.2 Intervalles de conance 68%, 95% et 99, 7% pour une N (0, 1). On rappelle que la fonction caractristique dune variable alatoire X est la fonction X :
X (t) = E[eitX ]
Pour aller vite, la fonction caractristique joue pour les variables alatoires densit le mme rle que la fonction gnratrice des moments pour les variables discrtes, cest--dire quil y a un lien entre les moments dune variable alatoire et les drives successives de sa fonction caractristique. Arnaud Guyader - Rennes 2 Esprance conditionnelle & Chanes de Markov
2.1. Rappels sur les vecteurs gaussiens Si X admet des moments de tout ordre, alors X est C sur X (0) = in E[X n ]. Rappelons aussi que la loi dune variable alatoire est compltement caractrise par sa fonction caractristique (do son nom, la vie est bien faite...). Proposition 2.1 (Fonction caractristique dune variable gaussienne) Si X N (m, 2 ), sa fonction caractristique est donne pour tout rel t par : X (t) = eimt
2 t2 2
57
et :
(n)
Preuve. Soit X N (0, 1), alors sa fonction caractristique est dnie par : X (t) = E[eitX ] =
x2 1 eitx e 2 dx, 2
quantit complexe quon peut dcomposer en parties relle et imaginaire : X (t) = quon crit plus simplement :
x2 1 cos(tx) e 2 dx + i 2 x2 1 sin(tx) e 2 dx, 2
1 X (t) = (F (t) + iG(t)). 2
Ainsi dnie, la fonction F :
cos(tx)e
x2 2
dx
est une intgrale dpendant dun paramtre. On peut donc lui appliquer la thorie de Lebesgue, en commenant par sassurer quelle est bien dnie pour tout rel t puisque :
cos(tx)e
x2 2
dx
cos(tx)e
x2 2
dx dx
x2 2
dx =
2.
On vrie de mme quelle est drivable sur par rapport t sous le signe dintgration : t
, sa drive sobtenant tout simplement en drivant

sin(tx)xe
x2 2
F (t) =
dx.
On eectue une intgration par parties : F (t) = sin(tx)e cest--dire :

x 2
2
cos(tx)e
x2 2
dx,
F (t) = tF (t), F (t) = e 2 .

t2
quation direntielle linaire du premier ordre, qui sintgre sans problme :
58 Et puisquon a la condition initiale : F (0) = on en dduit que : t
Chapitre 2. Vecteurs gaussiens et conditionnement
cos(0x)e
x2 2
dx =
2,
F (t) =
2 e 2 .
t2
Par ailleurs, la fonction G est identiquement nulle, puisque : G(t) =
sin(tx)e
x2 2
dx
est lintgrale dune fonction impaire sur un domaine symtrique par rapport 0, donc vaut 0. Ainsi, lorsque X N (0, 1), sa fonction caractristique est : t X (t) = e 2 .
t2
Si maintenant on considre Y = X + m, alors Y N (m, 2 ) et sa fonction caractristique est : Y (t) = E[eit(X+m) ] = eimt E[ei(t)X ] = eimt X (t), et on peut se servir de ce quon vient de voir pour en dduire : t Y (t) = eimt
2 t2 2
.
+ un n=0 n! ),
Exercice. A partir du dveloppement en srie entire de lexponentielle (eu = que si X N (0, 1), alors ses moments sont donns par : E[X 2n+1 ] = 0 (2n)! E[X 2n ] = 2n n!
montrer
Via le thorme de Paul Lvy, les fonctions caractristiques sont un outil ecace pour montrer la convergence en loi dune suite de variables alatoires : il sut de prouver la convergence simple de la suite des fonctions caractristiques. Cest dailleurs ainsi quon montre le rsultat qui fait toute limportance de la loi normale, savoir le thorme central limite. En voici la version la plus simple : si (Xn )n1 est une suite de variables alatoires indpendantes et identiquement distribues (en abrg i.i.d.) de carr intgrable, alors en notant Sn = X1 + + Xn , on a la convergence en loi vers la loi normale centre rduite : Sn nE[X1 ] L N (0, 1), n VarX1 n+ cest--dire que pour tout intervalle (a, b) de
n a
, on a :
b
S nE[X1 ] b n VarX1

n+
x2 1 e 2 dx. 2
Autrement dit, la somme dun grand nombre de variables alatoires i.i.d. se comporte comme une loi normale. Laspect remarquable de ce rsultat tient bien sr au fait que la loi commune des Xn peut tre nimporte quoi ! Celle-ci peut aussi bien tre discrte quabsolument continue, mixte ou singulire. La seule chose requise est lexistence du moment dordre 2. Arnaud Guyader - Rennes 2 Esprance conditionnelle & Chanes de Markov
2.1. Rappels sur les vecteurs gaussiens
59
2.1.2
Vecteurs gaussiens
La dnition dun vecteur gaussien est a priori un peu tordue. Dnition 2.2 (Vecteur gaussien) On dit que le vecteur alatoire1 X = [X1 , . . . , Xd ] est un vecteur gaussien si pour tout d-uplet (1 , . . . , d ) de rels, la variable alatoire 1 X1 + + d Xd est gaussienne. En particulier, une variable alatoire gaussienne est un vecteur gaussien de dimension 1. Par ailleurs, il dcoule de la dnition le rsultat suivant. Proposition 2.2 (Vecteur gaussien Composantes gaussiennes) Si le vecteur alatoire X = [X1 , . . . , Xd ] est un vecteur gaussien, alors chaque variable alatoire Xi est gaussienne. Preuve. Si X = [X1 , . . . , Xd ] est gaussien, alors en prenant 1 = 1 et i = 0 pour tout i 2, on en dduit que :
d
X1 =
i=1
i Xi
est gaussienne. Idem pour X2 , . . . , Xd .
La rciproque nest pas vraie, comme le montre la situation suivante.
F (t)
0.5
F (t)
3 2
0.0 0
Fig. 2.3 Fonction de rpartition F dune loi normale N (0, 1) et relation : F (t) = 1 F (t). Remarque : Composantes gaussiennes Vecteur gaussien. Soit X N (0, 1) et une variable alatoire indpendante de X et suivant une loi de Rademacher : elle prend les valeurs +1 et 1 de faon quiprobable. Considrons la nouvelle variable Y = X
1
Dans tout le polycopi, le symbole correspond la transposition.
60
Chapitre 2. Vecteurs gaussiens et conditionnement et le vecteur alatoire V = [X, Y ] . La variable alatoire Y est gaussienne, comme le montre sa fonction de rpartition : FY (u) = (Y u) = (X u) = (X u| = 1)( = 1) + (X u| = 1)( = 1), expression quon peut simplier grce lindpendance de X et : FY (u) = 1 1 ((X u) + (X u)) = ((X u) + (X u)), 2 2
et en notant FX la fonction de rpartition dune loi normale centre rduite, cest--dire :

t
FX (t) =
x2 1 e 2 dx, 2
1 (1 FX (u) + FX (u)) = FX (u), 2 la dernire galit venant de la symtrie dune loi normale centre rduite par rapport lorigine (voir gure 2.3) : u FX (u) = 1 FX (u). FY (u) =
on a donc :
Ainsi Y suit une loi normale N (0, 1), tout comme X. Mais le vecteur V = [X, Y ] nest pas gaussien, puisque si on considre la variable alatoire Z = X + Y = (1 + )X, on a :
(Z = 0) = (1 + = 0) = ( = 1) = ,
ce qui est impossible pour une variable gaussienne ! En eet, cette probabilit vaut 0 pour toute loi gaussienne N (m, 2 ), sauf si m = 2 = 0, auquel cas elle vaut 1. A titre indicatif la fonction de rpartition de Z est donne gure 2.4 : cest un exemple de loi mixte.
1 2
1.0
0.5
Fig. 2.4 Fonction de rpartition de la variable alatoire Z.
Il y a cependant une situation o les choses se passent bien.
2.1. Rappels sur les vecteurs gaussiens Proposition 2.3 (Composantes gaussiennes indpendantes Vecteur gaussien) Soit (X1 , . . . , Xd ) une suite indpendante de variables alatoires. Le vecteur X = [X1 , . . . , Xd ] est gaussien si et seulement si pour tout i {1, . . . , d}, la variable alatoire Xi est gaussienne.
2 Preuve. Si les variables alatoires gaussiennes Xi N (mi, i ) sont gaussiennes et indpendantes, alors la variable alatoire : d d
61
Y = 1 X1 + + d Xd N
i mi,
i=1 i=1
2 2 i i
Ceci se vrie par exemple sans problme sur la fonction caractristique de Y . Ainsi toute combinaison linaire des composantes Xi est une variable gaussienne et par suite X = [X1 , . . . , Xd ] est un vecteur gaussien. Comme on la vu en proposition 2.2, la rciproque est toujours vraie, que les composantes soient indpendantes ou non. Prenons un vecteur alatoire X = [X1 , . . . , Xd ] , non ncessairement gaussien, mais dont toutes les composantes Xi admettent un moment dordre 2, ce quon note de faon naturelle X L2 (). On peut alors dnir la moyenne m de ce vecteur par : E[X1 ] . , m = E[X] = . . E[Xd ] et sa matrice de covariance : = E[(X E[X])(X E[X]) ], encore appele matrice de dispersion, de taille d d, avec pour terme gnrique : i,j = Cov(Xi , Xj ). On peut donner une proprit gnrale sur ces matrices de dispersion. Proposition 2.4 (Matrice de covariance) Si elle existe, la matrice de covariance dun vecteur alatoire est symtrique relle positive. Elle est donc diagonalisable en base orthonorme : = P P, avec P = P 1 et = diag{1 , . . . , d }, les i tant tous positifs ou nuls. Achtung ! Quand on parle dune matrice symtrique relle S, dire quelle est positive ne signie pas que ses coecients sont positifs ! On entend par l que : u d , u Su 0.
On dit aussi que la forme quadratique associe est positive. Preuve. Laspect symtrique rel est clair par dnition de la matrice de covariance. Il faut prouver que pour tout vecteur rel u = [u1 , . . . , ud ] , on a u u 0. Or cette quantit vaut : u E[(X E[X])(X E[X]) ]u = E[(u (X E[X]))((X E[X]) u)] = E[(u (X E[X]))2 ] 0. Esprance conditionnelle & Chanes de Markov Arnaud Guyader - Rennes 2
62
Au passage, on a tabli le rsultat suivant, utile dans les applications. Proposition 2.5 (Variance et matrice de dispersion) Soit X = [X1 , . . . , Xd ] un vecteur alatoire de matrice de dispersion . La variable alatoire Z = 1 X1 + + d Xd = X a pour variance : 1 . Var(Z) = = [1 , . . . , d ] . . . d Remarque. La matrice nest pas ncessairement dnie positive. Par exemple, si X1 est une variable alatoire de variance 1, le vecteur X = [X1 , 1 + X1 ] a pour matrice de dispersion : = 1 1 1 1 ,
qui est clairement de rang 1. On voit que le vecteur alatoire X, a priori valeurs dans 2 , ne prend en fait ses valeurs que sur la droite dquation y = 1 + x. Ceci est vrai de faon gnrale : est de rang strictement infrieur d si et seulement si le vecteur alatoire X ne prend ses valeurs que dans un sous-espace ane de d . Rappelons que si X est un vecteur alatoire de dimension d, on peut dnir sa fonction caractristique comme suit X : u = [u1 , . . . , ud ] X (u) = E[ei u,X ] = E[ei
Pd
j=1
uj Xj
Sans numrer toutes les proprits de la fonction caractristique dun vecteur alatoire, disons simplement que : Comme en dimension 1, elle sert dmontrer la convergence en loi dune suite de vecteurs alatoires (cf. infra la version vectorielle du thorme central limite). Les variables alatoires X1 , . . . , Xd sont indpendantes si et seulement si : u
d d
X (u) =
j=1
Xj (uj ).
De plus, tout comme en dimension 1, une loi gaussienne multidimensionnelle est compltement caractrise par la fonction caractristique, laquelle ne fait intervenir que le vecteur moyenne et la matrice de dispersion. Proposition 2.6 (Fonction caractristique dun vecteur gaussien) Soit X un vecteur alatoire de dimension d, de vecteur moyenne m et de matrice de covariance , alors X est gaussien si et seulement si sa fonction caractristique scrit pour tout u d : X (u) = eiu m 2 u u On note alors X Nd (m, ). Arnaud Guyader - Rennes 2 Esprance conditionnelle & Chanes de Markov
1
2.1. Rappels sur les vecteurs gaussiens Preuve. Supposons le vecteur X = [X1 , . . . , Xd ] gaussien, de moyenne m et de matrice de covariance . Alors la variable alatoire : Y = u1 X1 + + ud Xd = u X est gaussienne, de moyenne : = u1 E[X1 ] + + ud E[Xd ] = u m, et de variance (cf. proposition 2.5) : 2 = u u. On peut alors appliquer la Proposition 2.1 : Y (t) = eit Et on conclut en remarquant que : X (u) = E[eiu X ] = E[eiY ] = Y (1) = eiu m 2 u u . Rciproquement, supposons X = [X1 , . . . , Xd ] vecteur alatoire de moyenne m, de matrice de covariance et de fonction caractristique : X (u) = eiu m 2 u u La variable alatoire : Y = 1 X1 + + d Xd = X a pour fonction caractristique : Y (t) = E[eitY ] = E[ei(t) X ] = X (t), cest--dire :
1 1 2 t2 2
63
= eiu mt 2 u ut .
Y (t) = ei(t) m 2 (t) (t) = ei( m)t 2 ( )t . La Proposition 2.1 assure donc que Y est gaussienne et plus prcisment : Y N m, . Ainsi X est bien un vecteur alatoire gaussien.
Les lois normales sont stables par transformation ane. Le rsultat suivant, sur lequel on serait tent de jeter un coup dil distrait, est dutilit constante dans la manipulation des vecteurs gaussiens. Proposition 2.7 (Transformation ane) Si X est un vecteur gaussien d-dimensionnel, avec X Nd (m, ), si A Mk,d () et si B Mk,1 (), alors le vecteur Y = AX + B est gaussien avec : Y Nk (Am + B, AA ).
64
Chapitre 2. Vecteurs gaussiens et conditionnement Preuve. Il sut dutiliser la caractrisation par la fonction caractristique ci-dessus. On a en eet : u k Y (u) = E[eiu Y ] = E[eiu (AX+B) ] = eiu B E[ei(u A)X ], cest--dire :

Y (u) = eiu B X (A u) = eiu (Am+B) 2 u (AA )u , ce qui exactement dire que : Y Nk (Am + B, AA ). Remarque. Il arrive souvent quun vecteur Y soit construit partir dun autre vecteur X par une transformation ane. Si X est un vecteur gaussien, par exemple lorsquil est compos de variables alatoires gaussiennes indpendantes, ce rsultat permet den dduire automatiquement le fait que Y est aussi un vecteur gaussien. Voir les exercices de n de chapitre : Processus autorgressif, Moyenne mobile. Rappel. Soit X et Y deux variables alatoires de carrs intgrables. On dit quelles sont non corrles si : Cov(X, Y ) = 0, ce qui quivaut dire que : E[XY ] = E[X]E[Y ], ou encore que la matrice de covariance du vecteur [X, Y ] est diagonale. Ceci est bien sr toujours vrai lorsquelles sont indpendantes, puisqualors on a plus gnralement pour toutes bonnes fonctions f et g : E[f (X)g(Y )] = E[f (X)]E[g(Y )]. La rciproque est fausse en gnral, comme le montre lexemple suivant.
y y = x2
Fig. 2.5 Supp(X, Y ) ( gauche) = Supp(X) Supp(Y ) ( droite). Exemple : Dcorrlation Indpendance Soit X N (0, 1) et Y = X 2 , donc E[Y ] = E[X 2 ] = Var(X) = 1. X et Y sont bien dcorrles puisque E[X]E[Y ] = 0 1 = 0 et : E[XY ] = E[X 3 ] = 0, Arnaud Guyader - Rennes 2 Esprance conditionnelle & Chanes de Markov
2.1. Rappels sur les vecteurs gaussiens une loi gaussienne ayant tous ses moments dordres impairs nuls. Cependant X et Y ne sont pas indpendantes. Ceci est clair intuitivement puisque Y est une fonction dterministe de X. On peut aussi le justier par lesprance conditionnelle : E[Y |X] = E[X 2 |X] = X 2 = E[Y ] = 1. Une dernire faon de le voir est de remarquer que le support du vecteur alatoire [X, Y ] est la parabole y = x2 du plan et non le produit cartsien + des supports des variables (voir gure 2.5). Dans le cas de vecteurs gaussiens, cependant, la dcorrlation est quivalente lindpendance. Proposition 2.8 (Indpendance Dcorrlation) Soit X = [X1 , . . . , Xd ] un vecteur alatoire gaussien. Les variables alatoires (X1 , . . . , Xd ) sont indpendantes si et seulement si elles sont non corrles, cest--dire si et seulement si la matrice de dispersion est diagonale. Preuve. Supposons X gaussien et de composantes indpendantes. Alors ces composantes sont a fortiori non corrles, cest--dire : (i, j) {1, . . . , d}2 Cov(Xi , Xj ) = 0,
65
et la matrice est diagonale. Ceci est dailleurs toujours vrai, laspect gaussien de X nest pas ncessaire. Rciproquement, supposons X gaussien et de matrice de covariance diagonale :
2 2 = diag(1 , . . . , d ).
Si on note m = [m1 , . . . , md ] la moyenne de X, celui-ci admet pour fonction caractristique : X (u) = eiu m 2 u u , quon peut factoriser en :
d
1
X (u) =
j=1
Xj (uj ),
o Xj est tout bonnement la fonction caractristique de Xj : j {1, . . . , d} Xj (uj ) = eimj uj

2 j u2 j 2
Ainsi la fonction caractristique du vecteur X = [X1 , . . . , Xd ] est le produit des fonctions caractristiques de ses composantes Xj : cest une caractrisation de lindpendance des Xj . Remarque. Pour pouvoir appliquer le critre dindpendance ci-dessus, il faut que le vecteur soit gaussien : le fait que les composantes le soient nest pas susant. Pour sen convaincre, il sut de revenir lexemple vu prcdemment : X N (0, 1) et Y = X, avec variable de Rademacher indpendante de X. On a vu que Y suit elle aussi une loi normale centre rduite, donc les deux variables X et Y sont gaussiennes. De plus, puisque X et sont indpendantes, on a : Cov(X, Y ) = E[XY ] E[X]E[Y ] = E[X 2 ] = E[]E[X 2 ] = 0, la dernire galit venant du fait que est centre. Ainsi X et Y sont gaussiennes et dcorrles. Pourtant elles ne sont pas indpendantes : il appert quune fois connue la ralisation de X, Y ne Esprance conditionnelle & Chanes de Markov Arnaud Guyader - Rennes 2
66
Chapitre 2. Vecteurs gaussiens et conditionnement peut valoir que la mme chose ou loppos. Plus rigoureusement, on peut nouveau le justier par les supports : le support du couple (X, Y ) est lunion des deux droites y = x et y = x, tandis que le produit cartsien des supports de X et Y est le plan 2 . Le problme, dj constat, vient de ce que le vecteur [X, Y ] nest pas gaussien, bien que ses composantes le soient. Etant donn un vecteur gaussien X = [X1 , . . . , Xd ] de moyenne m et de matrice de covariance donnes, on peut toujours se ramener un vecteur alatoire dont les composantes sont indpendantes. Proposition 2.9 (Changement de repre orthonormal) Soit X = [X1 , . . . , Xd ] un vecteur gaussien de moyenne m et de matrice de covariance . Il existe P orthogonale telle que P P = = diag(1 , . . . , d ), avec les j 0. Alors les composantes Yj du vecteur alatoire Y = P (X m) sont des variables alatoires gaussiennes indpendantes centres de variances respectives j . Preuve. Puisque est symtrique relle positive, elle est diagonalisable en base orthonorme : = P P , avec : = diag(1 , . . . , d ), o les j sont les valeurs propres positives de et P une matrice orthogonale. Si on considre maintenant le nouveau vecteur alatoire Y = [Y1 , . . . , Yd ] = P (X m) = P X P m, cest encore un vecteur gaussien, en tant que transforme ane dun vecteur gaussien (Proposition 2.7). Plus prcisment, on sait que : Y Nd (P m P m, P P ) = Nd (0, ). Ainsi le vecteur gaussien Y est centr et ses composantes sont indpendantes, puisque sa matrice de dispersion est diagonale (Proposition 2.8). Remarques : 1. La reprsentation de la densit de Y est bien plus simple que celle de X puisquon sest ramen un produit de densits gaussiennes indpendantes : en dimension 2, on obtient donc une surface en cloche plus ou moins aplatie suivant la direction (cf. exercice Changement de base). La surface en cloche standard correspond une loi centre et de matrice de covariance identit (cf. gure 2.6). 2. Si j = 0 pour un indice j, la loi du vecteur X est dgnre. Et on a alors Yj = 0 presque srement (cf. exercice Problme de dgnrescence). Applications. 1. Simulation : supposons quon ait simuler un vecteur gaussien X = [X1 , . . . , Xd ] de moyenne m et de matrice de covariance donnes. On dispose simplement dun gnrateur de variables normales centres rduites indpendantes (par exemple rnorm en R). On peut crire comme ci-dessus = P P = A A, avec A = P P et : = diag 1 , . . . , d . Il sut alors de simuler d variables i.i.d. Uj N (0, 1) et de considrer : X = AU + m. Le rsultat de transformation ane et le fait que la matrice de covariance de U soit lidentit assurent que X a les proprits requises.
67
Z 0.4
0.2
0.0 5 0 Y 5 5 0 X
Fig. 2.6 Densit dun vecteur gaussien centr de matrice de dispersion identit.
2. Composantes principales : dans les applications, on a souvent traiter des vecteurs gaussiens X = [X1 , . . . , Xd ] de trs grande dimension d, mais dont les coordonnes prsentent de trs fortes corrlations entre elles. Dans ce cas, aprs transformation comme ci-dessus, le nombre de valeurs propres j qui ne sont pas voisines de 0 est bien plus petit que d. Supposons que les valeurs propres soient ranges par ordre dcroissant dans . On se xe alors un seuil > 0 : il y a d valeurs propres j > . On considre le nouveau vecteur alatoire Y = [Y1 , . . . , Yd ] dni par Yj si j d Yj = 0 sinon et le vecteur X = P Y + m associ. Les vecteurs alatoires X et Y sont les versions tronques de X et Y . Lerreur quadratique moyenne faite en remplaant X par X est :
d
X X
= E[(X X) (X X)] = E[(Y Y ) (Y Y )] = Y Y
=
j=d +1
j .
Il sut de comparer cette erreur la dispersion totale de X :

d
X m
= E[(X m) (X m)] =
j ,
j=1
pour avoir une ide de la qualit de lapproximation, savoir : X approche bien X si tant est que le rapport : d j=d +1 j
d j=1 j
est petit. On dit alors quon a rduit X ses composantes principales.
68
Chapitre 2. Vecteurs gaussiens et conditionnement La situation agrable pour un vecteur gaussien est celle o la matrice de covariance est inversible (i.e. dnie positive). Il admet alors une densit dans d , que lon peut facilement expliciter. Proposition 2.10 (Densit dun vecteur gaussien) Si X Nd (m, ), avec inversible, alors X admet pour densit : f (x) = f (x1 , . . . , xd ) =
1 1 1 e 2 (xm) (xm) . (2)d/2 det
Remarque. En dimension 1, la formule exprimant la densit dune variable gaussienne en fonction de la moyenne m et de la variance 2 nest valable que si 2 est strictement positive, cest--dire inversible. Il nest donc pas tonnant quon retrouve la mme condition en dimension suprieure. Preuve. On utilise la transformation ane du rsultat prcdent : Y = P (X m), avec : P P = = diag(1 , . . . , d ). Dire que est inversible quivaut dire que les valeurs propres j sont toutes strictement positives. Les composantes Y1 , . . . , Yj sont indpendantes, avec Yj N (0, j ), donc Y admet pour densit :
d d
fY (y) =
j=1
fj (yj ) =
j=1
j 1 e 2j , 2j
y2
quon peut encore crire : fY (y) =
(2)d/2 det
e 2 y
1 y
Pour retrouver la densit de X, il sut alors dappliquer la formule de changement de variable pour le C 1 -diomorphisme : d d : x y = P (x m) Ce qui donne : fX (x) = fY (P (x m)) |detJ (x)| . Or est une transformation ane, donc : x d et puisque P est orthogonale : x d On en dduit la densit du vecteur X : f (x) = (2)d/2 det 1 e 2 (xm)
1 1 (xm)
J (x) = P,
|detJ (x)| = 1.
Reprsentation. La gure 2.7 correspond un vecteur gaussien [X, Y ] de moyenne m = [1, 2] et de matrice de dispersion : 1 1/ 2 . = 1 1/ 2 Arnaud Guyader - Rennes 2 Esprance conditionnelle & Chanes de Markov
69
Z 0.225
5 0.113
0 X 5 Y0 5 5
0.000
Fig. 2.7 Densit dun vecteur gaussien N2 (m, ).
La densit correspondante est donc :

1 2 2 f (x, y) = e((x1) 2(x1)(y2)+(y2) ) 2
Si nest pas inversible, on dit que la loi de X est dgnre. Comme mentionn plus haut, ceci signie que le vecteur alatoire ne prend ses valeurs que dans un sous-espace ane de d (cf. exercice Problme de dgnrescence). Exemple. Supposons que X1 N (0, 1), et considrons le vecteur gaussien X = [X1 , 1 + X1 ] . Sa matrice de dispersion est de rang 1 : 1 1 = , 1 1 On voit que le vecteur alatoire X ne prend en fait ses valeurs que sur la droite dquation y = 1+x, et non dans 2 tout entier. Ce vecteur nadmet donc pas de densit par rapport la mesure de Lebesgue de 2 . Enn, on peut gnraliser le thorme de la limite centrale aux vecteurs alatoires. Le principe est rigoureusement le mme quen dimension 1. On dit quune suite (Xn )n0 de vecteurs alatoires de d converge en loi vers un vecteur gaussien X Nd (m, ) si pour tout borlien B Bd , on a :
(Xn B) (X B). n+
Comme en dimension 1, la convergence simple sur d de la suite des fonctions caractristiques (n ) vers la fonction caractristique X est souvent le moyen le plus simple de montrer la convergence en loi.
70
Chapitre 2. Vecteurs gaussiens et conditionnement Thorme 2.1 (Thorme central limite) Soit (Xn )n1 L2 () une suite de vecteurs alatoires de d , indpendants et identiquement distribus, avec pour moyenne m = E[X1 ] et matrice de dispersion = E[(X1 m)(X1 m) ]. Alors nm la suite de vecteurs alatoires ( Snn ), o Sn = X1 + + Xn , converge en loi vers un vecteur gaussien centr de matrice de dispersion . On note : Sn nm L Nd (0, ). n+ n Remarques. Rappelons le point remarquable du thorme central limite : quelle que soit la loi des vecteurs alatoires Xn , on a convergence vers une loi gaussienne. Cest--dire que si n est assez grand, on a en gros : L(Sn ) N (nm, n). Avec les hypothses ci-dessus, on sintresse la suite (Sn ) des sommes partielles. La loi forte des grands nombres dit que : Sn p.s. m. n n+ Cest-a-dire quen premire approximation, la somme de n vecteurs alatoires i.i.d. de moyenne m se comporte comme une suite dterministe de vecteurs : Sn nm. Question qui en dcoule naturellement : quel est lordre de grandeur de lerreur eectue en remplaant Sn par nm ? Cest cette question que rpond le thorme central limite : lerreur faite en remplaant la somme partielle Sn par nm est de lordre de n. On peut donc voir la loi des grands nombres et le thorme central limite comme le dbut du dveloppement asymptotique de la somme Sn . Lexercice Sauts de puce donne un exemple dapplication de ce thorme.
2.2
2.2.1
Conditionnement des vecteurs gaussiens

Conditionnement pour un couple gaussien
Rappel du premier chapitre : soit (X, Y ) un couple alatoire dont on connat la loi jointe. Supposons quon observe X = x et quon veuille en dduire une estimation de Y . Ceci signie quon dnit une fonction de dans qui tout point x associe un point u(x). Si la qualit de lapproximation est mesure par lerreur quadratique moyenne, i.e. par la quantit : E[(Y u(X))2 ], on a vu que le mieux faire est de prendre pour u la fonction de rgression de Y sur X, cest--dire la fonction qui x associe E[Y |X = x]. Daprs le thorme de projection, la variable alatoire E[Y |X] est la fonction u(X) caractrise par la double proprit2 : u(X) L2 (X) Y u(X) L2 (X) avec comme en chapitre 1 : L2 (X) = {u(X) avec u : borlienne telle que E[u2 (X)] < +}.
Nanmoins, lesprance conditionnelle nest pas ncessairement un objet trs simple calculer ou estimer. Cest pourquoi, faute de mieux, on se contente parfois de chercher approcher au mieux
2
On rappelle que dans L2 () : X Y signie que E[XY ] = 0.
2.2. Conditionnement des vecteurs gaussiens Y par une fonction ane de X : cest ce quon appelle faire de la rgression linaire. Ce quon perd en qualit dapproximation, on le gagne en commodit de rsolution. La droite de rgression est donne par : f (X) = aX + b, avec a = Cov(X,Y ) Var(X) b = E[Y ] aE[X] cest--dire : f (X) = E[Y ] + Cov(X, Y ) (X E[X]). Var(X)
71
Nous allons voir que, dans le cas gaussien, ce procd est compltement lgitime : la fonction de rgression est exactement la droite de rgression ! Thorme 2.2 (Esprance conditionnelle droite de rgression) Si [X, Y ] est un vecteur gaussien, alors : E[Y |X] = E[Y ] + Cov(X, Y ) (X E[X]). Var(X)
Autrement dit, courbe de rgression et droite de rgression concident. Preuve. Il sut de prouver que la fonction u dnie par : u(X) = E[Y ] + Cov(X, Y ) (X E[X]), Var(X)
vrie bien la double proprit de caractrisation de lesprance conditionnelle. Puisque X est gaussienne, elle est dans L2 (), et par suite u(X) = aX + b est dans L2 (X). Il reste prouver que la variable alatoire (Y u(X)) est orthogonale au sous-espace L2 (X), cest--dire orthogonale toute variable alatoire f (X) fonction de X. On commence par montrer que (Y u(X)) est indpendante de X. Puisque le vecteur [X, Y ] est gaussien et que : X Y u(X) = X Y (aX + b) = 1 0 a 1 X Y + 0 b =A X Y + B,
le vecteur [X, Y u(X)] est gaussien aussi comme transforme ane dun vecteur gaussien, donc montrer lindpendance de ses composantes revient montrer leur dcorrlation. Or : Cov(X, Y u(X)) = Cov(X, Y ) Cov(X, u(X)) = Cov(X, Y ) Cov(X, aX + b), et par dnition de a, on a : Cov(X, aX + b) = Cov(X, aX) = aVar(X) = Cov(X, Y ), de sorte quon a bien Cov(X, Y u(X)) = 0, cest--dire que X et (Y u(X)) sont indpendantes. Mais si (Y u(X)) est une variable alatoire indpendante de X, elle est aussi indpendante de toute fonction f (X) de la variable X. Par suite : f (X), Y u(X) = E[f (X)(Y u(X))] = E[f (X)]E[Y u(X)] = 0, car (Y u(X)) est centre. Ainsi la seconde proprit de caractrisation de lesprance conditionnelle est vrie et le thorme est prouv.
72

Y
Cov(X,Y ) (X VarX
E[X]) X E[X]
E[Y |X] E[Y ] H = Vect(1, X) 1
Fig. 2.8 E[Y |X] projet orthogonal de Y sur la base orthogonale (1, X E[X]). Rappel. Dans un espace de Hilbert, le projet orthogonal de Y sur un sous-espace vectoriel H = Vect(e1 , . . . , ed ), avec les ei orthogonaux, est :
d
H (Y ) =
i=1
Y,
ei ei
ei = ei
d i=1
Y, ei ei . ei 2
Interprtation gomtrique. Dans le cas gnral, la variable alatoire : E[Y ] + Cov(X, Y ) (X E[X]) Var(X)
peut se voir comme la projection orthogonale de la variable alatoire Y sur lespace engendr par la variable alatoire constante 1 (que nous appellerons Michel) et la variable alatoire X. Notons H = Vect(1, X) ce sous-espace vectoriel de L2 (). Une famille orthogonale est forme des deux vecteurs 1 et X E[X]. Appliquons le rappel ci-dessus (voir aussi gure 2.8). La projection de Y sur le premier vecteur donne : E[Y 1] = E[Y ], E[12 ] et la projection sur le second vecteur donne : E[Y (X E[X])] Cov(X, Y ) = . 2] E[(X E[X]) Var(X) Au total, on retrouve bien la droite de rgression. Linterprtation gomtrique ci-dessus est toujours vraie. Dans le cas gaussien, on vient de plus de voir que la projection orthogonale de Y sur L2 (X) est exactement la projection orthogonale sur H = Vect(1, X).
2.2.2
Hyperplan de rgression
On ne fait dans ce paragraphe aucune hypothse de gaussianit. On suppose observer n variables alatoires X1 , . . . , Xn et on veut connatre la fonction ane des Xi , donc de la forme : f (X1 , . . . , Xn ) = b + a1 X1 + + an Xn , Arnaud Guyader - Rennes 2 Esprance conditionnelle & Chanes de Markov
2.2. Conditionnement des vecteurs gaussiens qui approche le mieux la variable alatoire Y au sens des moindres carrs, cest--dire telle que lerreur quadratique moyenne : E[(Y (b + a1 X1 + + an Xn ))2 ] soit minimale. Autrement dit, au lieu de chercher la droite de rgression, on cherche lhyperplan de rgression (voir gure 2.9 pour n = 2). Ceci revient dterminer la projection H (Y ) de Y sur le sous-espace : H = Vect(1, X1 , . . . , Xn ), engendr par la constante 1 et les variables alatoires Xi . Hypothses : Notons X = [X1 , . . . , Xn ] le vecteur form des variables Xi . On suppose dans toute la suite que la matrice de dispersion X = E[(X E[X])(X E[X]) ] est inversible. Puisquon parle de projections et derreurs quadratiques, on suppose aussi que toutes les variables alatoires sont de carrs intgrables.
Y
73
y = b + a1 x1 + a2 x2
X2
X1
Fig. 2.9 Interprtation graphique de lhyperplan de rgression.
Thorme 2.3 (Hyperplan de rgression) La projection orthogonale de Y sur H est :

n
H (Y ) = b +
i=1
ai (Xi E[Xi ]) = E[Y ] + Y,X 1 (X E[X]), X
avec : Y,X = E[(Y E[Y ])(X E[X]) ] = [Cov(Y, X1 ), . . . , Cov(Y, Xn )], matrice ligne de covariance de la variable alatoire Y et du vecteur alatoire X. Preuve. La projection orthogonale de Y sur H est de la forme :
n
H (Y ) = b +
i=1
ai Xi . Arnaud Guyader - Rennes 2
74
Chapitre 2. Vecteurs gaussiens et conditionnement Dire que Y H (Y ) est orthogonal H est quivalent dire que Y H (Y ) est orthogonal chacun des vecteurs qui engendrent H, cest--dire : 1, X1 , . . . , Xn . Lorthogonalit 1 donne :
n n
Y b cest--dire :
ai Xi , 1
i=1
= E[Y ] b
n
ai E[Xi ] = 0,
i=1
b = E[Y ] Lorthogonalit aux Xj donne les n quations :

n
ai E[Xi ].
i=1
Y b ce qui scrit encore :

n
ai Xi , Xj
i=1
=0
1 j n,
Y E[Y ] ou encore :
n
i=1
ai (Xi E[Xi ]), Xj
=0
1 j n,
Y E[Y ]
i=1
ai (Xi E[Xi ]), Xj E[Xj ]
=0
1 j n.
Avec les notations de lnonc, ces n quations se rsument sous forme matricielle : Y,X = [a1 , . . . , an ]X , cest--dire : [a1 , . . . , an ] = Y,X 1 . X En revenant H (Y ), ceci donne :
n
H (Y ) = b +
i=1
ai Xi = E[Y ] Y,X 1 E[X] + Y,X 1 X, X X
cest--dire : H (Y ) = E[Y ] + Y,X 1 (X E[X]). X Remarque. En prenant X = X1 , on retrouve bien la droite de rgression puisque Y,X = Cov(X, Y ) et X = Var(X). Corollaire 2.1 (Erreur quadratique moyenne) Lerreur quadratique moyenne dans lapproximation par lhyperplan de rgression, encore appele variance rsiduelle ou rsidu, est : E[(Y H (Y ))2 ] = Y Y,X 1 X,Y , X avec Y = Var(Y ) et X,Y = (Y,X ) . Arnaud Guyader - Rennes 2 Esprance conditionnelle & Chanes de Markov
2.2. Conditionnement des vecteurs gaussiens Preuve. Il sut de lcrire : E[(Y H (Y ))2 ] = E[((Y E[Y ]) Y,X 1 (X E[X]))2 ], X ce qui donne une combinaison de 3 termes. Le premier est simple : E[(Y E[Y ])2 ] = Var(Y ). Le deuxime lest un peu moins : E[(Y E[Y ])Y,X 1 (X E[X])] = Y,X 1 E[(Y E[Y ])(X E[X])] = Y,X 1 X,Y . X X X Et le troisime encore moins : E[(Y,X 1 (X E[X]))2 ] = E[(Y,X 1 (X E[X]))(Y,X 1 (X E[X])) ], X X X ce qui aboutit : E[(Y,X 1 (X E[X]))2 ] = Y,X 1 X,Y . X X On remet tout bout bout : E[(Y H (Y ))2 ] = Var(Y ) 2Y,X 1 X,Y + Y,X 1 X,Y = Var(Y ) Y,X 1 X,Y . X X X
75
X1
X,Y
Xn Y Y,X Y
Fig. 2.10 Les sous-matrices mises en jeu dans le calcul de E[Y |X]. Les matrices de covariance X , Y,X , Y,X et Y peuvent se voir comme des sous-matrices de la matrice de covariance globale du vecteur [X, Y ] = [X1 , . . . , Xn , Y ] . Cest ce que reprsente la gure 2.10. Remarque. On adopte ds prsent la notation Y pour la variance de la variable alatoire Y en vue de la gnralisation de n de chapitre : lorsque Y ne sera plus une variable alatoire, mais un vecteur alatoire, cette formule sera encore valide.
2.2.3
Esprance conditionnelle gaussienne
On suppose maintenant le vecteur [X1 , . . . , Xn , Y ] gaussien. Lesprance conditionnelle de Y sachant X = [X1 , . . . , Xn ] est la projection orthogonale de Y sur lespace des fonctions u(X) = u(X1 , . . . , Xn ), avec u : n telle que E[u2 (X)] < +. Cest la fonction qui minimise Esprance conditionnelle & Chanes de Markov Arnaud Guyader - Rennes 2
76
Chapitre 2. Vecteurs gaussiens et conditionnement E[(Y u(X))2 ]. On a vu que pour un vecteur gaussien bidimensionnel [X, Y ] , la droite de rgression concide avec la courbe de rgression. Plus gnralement, on montre que pour un vecteur gaussien [X1 , . . . , Xn , Y ], lesprance conditionnelle concide avec la projection sur lhyperplan de rgression. Thorme 2.4 (Esprance conditionnelle Hyperplan de rgression) Si [X1 , . . . , Xn , Y ] est un vecteur gaussien, alors : E[Y |X] = E[Y |X1 , . . . , Xn ] = E[Y ] + Y,X 1 (X E[X]), X Et la variance rsiduelle vaut : 2 = E[(Y E[Y |X])2 ] = Y Y,X 1 X,Y . X Preuve. On pourrait la calquer sur celle vue pour la droite de rgression. On adopte ici une autre technique, base sur la proprit de distance minimale vrie par lesprance conditionnelle. Notons comme ci-dessus H (Y ) la projection orthogonale de Y sur H = Vect(1, X1 , . . . , Xn ), cest-dire : H (Y ) = E[Y ] + Y,X 1 (X E[X]). X On a bien sr H (Y ) de la forme u(X) ci-dessus. De plus, dire que (Y H (Y )) est orthogonale au sous-espace H signie que (Y H (Y )) est dcorrle des variables Xi (puisque (Y H (Y )) est centre). Mais puisque tout est gaussien, cest exactement dire que (Y H (Y )) est indpendante du vecteur X. Pour toute fonction u, on a donc : E[(Y u(X))2 ] = E[((Y H (Y )) + (H (Y ) u(X)))2 ], ce qui donne : E[(Y u(X))2 ] = E[(Y H (Y ))2 ] + 2E[(Y H (Y ))(H (Y ) u(X))] + E[(H (Y ) u(X))2 ]. Or on vient de voir que : E[(Y H (Y ))(H (Y ) u(X))] = 0, et le troisime terme est positif, donc pour toute fonction u, on a E[(Y u(X))2 ] E[(Y H (Y ))2 ]. Remarque. Le terme Y,X 1 X,Y correspond la variance de la variable alatoire E[Y |X] : il X est donc positif et par suite E[(Y E[Y |X])2 ] Y . Ce qui est logique : il y a moins dincertitude sur la variable Y lorsquon connat X et quon prend cette information en compte. On a obtenu la dcomposition orthogonale (voir gure 2.11) : Y = E[Y |X] + W = (E[Y ] + Y,X 1 (X E[X])) + W, X cest--dire que W = Y E[Y |X] est une variable alatoire gaussienne indpendante des Xi . W est centre puisque E[E[Y |X]] = E[Y ] et, par le thorme de Pythagore, sa variance est la variance rsiduelle : 2 = Y Y,X 1 X,Y . X En bref, on a : W W N (0, 2 ) X Esprance conditionnelle & Chanes de Markov
2.2. Conditionnement des vecteurs gaussiens
77
E[Y |X]
H = Vect(1, X1 , . . . , Xn )
Fig. 2.11 Dcomposition orthogonale : Y = E[Y |X] + W . Application. Revenons notre problme initial : on observe une ralisation X = x = (x1 , . . . , xn ) du vecteur alatoire X et on voudrait en dduire une ide de Y . Puisque W est indpendante des Xi , lobservation prcdente na aucune consquence sur la loi de W . Par contre, lesprance conditionnelle de Y sachant X est dsormais xe : E[Y |X = x] = E[Y ] + Y,X 1 (x E[X]), X qui est un rel et non plus une variable alatoire. Mais alors la dcomposition orthogonale de Y devient : Y = E[Y |X = x] + W et on en dduit que, sachant X = x : Y N (E[Y |X = x], 2 ). Si on se souvient quinitialement Y N (E[Y ], Y ), on voit que la nouvelle loi de Y a une moyenne dpendant de lobservation X = x (voir gure 2.12). La variance rsiduelle 2 est plus petite que Var(Y ), mais ne dpend que de la covariance des deux variables X et Y , pas de lobservation x proprement dite. Cas particulier. Disons un mot du cas pathologique o la matrice de covariance X des Xi nest pas inversible. Concrtement, ceci signie que lune au moins des composantes Xi peut sexprimer linairement en fonction des autres. Si on diagonalise la matrice de covariance en base orthonorme, i.e. X = P P , certains termes de la diagonale sont nuls. On note + la matrice diagonale obtenue en inversant les lments non nuls de (voir gure 2.13), alors : + = P + P X est appele pseudo-inverse de Moore-Penrose de X (cf. cours dalgbre linaire). On montre alors que tous les rsultats obtenus pour lesprance conditionnelle sont conservs en remplaant 1 X par + . Par exemple : X E[Y |X] = E[Y ] + Y,X + (X E[X]). X Gnralisation. Si on suppose que le vecteur [X, Y ] = [X1 , . . . , Xn , Y1 , . . . , Ym ] est gaussien, toutes les formules et proprits vues prcdemment pour lesprance conditionnelle passent sans Esprance conditionnelle & Chanes de Markov Arnaud Guyader - Rennes 2
78
2 Var(Y )
E[Y ]
E[Y |X = x]
Fig. 2.12 Loi de Y et loi de Y sachant X = x.
Cest un vecteur gaussien, en tant que transforme ane du vecteur gaussien X, dont la moyenne vaut E[Y ] et la matrice de covariance : Y,X + X,Y . Le vecteur X W = Y E[Y |X]
problme. Lesprance conditionnelle de Y sachant X est un vecteur alatoire de taille m donn par la formule : E[Y |X] = E[Y ] + Y,X + (X E[X]). X
est un vecteur gaussien centr de matrice de covariance : Y Y,X + X,Y . Qui plus est, W est X indpendant de X.
1 2
1 1 1 2
r 0
= + =
1 r
Fig. 2.13 Matrice diagonale et sa pseudo-inverse de Moore-Penrose + .
2.3
Exercices
Tough aint enough. Clint Eastwood, Million Dollar Baby.
Exercice 2.1 (Moments dune loi normale) Pour tout n , on note :

+
In =
xn e
x2 2
dx.
2.3. Exercices 1. Soit n 0 x. Justier la convergence de lintgrale In . 3. Montrer que, pour tout n , on a : In+2 = (n + 1)In . 5. Dterminer I2n pour tout n .
79
2. Dterminer I0 et I1 .
4. Donner alors I2n+1 pour tout n . Pouvait-on prvoir ce rsultat sans calculs ?
6. Soit X une variable alatoire gaussienne de moyenne 1 et de variance unit, ce quon note X N (1, 1). Dterminer E[X 4 ]. Exercice 2.2 (Queue de la gaussienne) On appelle fonction de Marcum, ou queue de la gaussienne, la fonction note Q dnie pour tout rel x par : + t2 1 e 2 dt. Q(x) = 2 x 1. Soit X une variable alatoire qui suit une loi normale centre rduite N (0, 1). Reprsenter la densit de X, puis Q(x) sur ce mme dessin. Soit F la fonction de rpartition de X : donner la relation entre F (x) et Q(x). 2. Soit x > 0 x. Dans lintgrale dnissant Q(x), eectuer le changement de variable t = x+u et, tenant compte de eux 1, montrer quon a : 1 x2 Q(x) e 2 . 2 3. Pour t x > 0, montrer que : 1+ 1+ 4. En dduire que : 1 (1 + x2 ) 2 1
+ 1 t2 1 x2
t . x
1+
x
t2
1 t2
t2 1 e 2 dt Q(x) x 2
+ x
te 2 dt.
t2
5. Calculer la drive de 1 e 2 . En dduire que, pour tout x > 0, on a : t

x2 x2 1 1 e 2 Q(x) e 2 . 1 (1 + x2 )x 2 x 2
6. En dduire un quivalent de Q(x) en +. 7. Application : en communications numriques, pour une modulation binaire, les symboles transmis valent Eb , o Eb est appele nergie moyenne par bit. Quand il transite par un canal bruit gaussien, le signal reu en sortie Y est gal la somme du symbole dentre et dune variable alatoire indpendante B N (0, N0 ), o N0 est appel puissance moyenne 2 du bruit. (a) Supposons que le symbole dentre soit Eb . Donner la loi de Y en fonction de Eb et N0 . (b) On reoit y en sortie de canal, mais on ignore ce qutait le symbole dentre : quelle rgle simple proposez-vous pour dcider si en entre le symbole mis tait +Eb ou Eb ? Esprance conditionnelle & Chanes de Markov Arnaud Guyader - Rennes 2
80
Chapitre 2. Vecteurs gaussiens et conditionnement (c) Montrer que la probabilit derreur Pe faite avec cette rgle de dcision est : Pe = Q 2Eb N0 .
Eb La quantit N0 est appele rapport signal bruit et intervient trs souvent en communications numriques (on lexprime usuellement en dcibels).
Exercice 2.3 (Entropie dune variable alatoire) Si X est une variable alatoire relle admettant une densit f , on appelle entropie de X la quantit (si elle est dnie) :
+
h(X) = E[ log f (X)] =
f (x) log f (x) dx.
Grosso modo, lentropie dune variable alatoire mesure le degr dincertitude quon a sur lissue dun tirage de cette variable alatoire. 1. Supposons que X N (0, 1), loi normale centre rduite. Montrer quelle a pour entropie : 1 h(X) = (1 + log(2)). 2 2. Supposons que X N (0, 2 ), loi normale de moyenne m et de variance 2 > 0. Montrer 1 quelle a pour entropie : h(X) = 2 (1 + log(2 2 )). Ainsi, au moins pour les lois normales, lentropie est dautant plus grande que la variance est grande. On va montrer dans la suite que, parmi les variables alatoires de variance donne, celles qui ont la plus grande entropie sont celles qui suivent une loi normale. 3. Soit donc X1 N (0, 2 ), dont la densit est note , et X2 une variable alatoire centre de densit f et de variance 2 , cest--dire que :
+
x2 f (x) dx = 2 .
On suppose pour simplier que f est strictement positive sur (a) Vrier que (sous rserve dexistence des intgrales) :
+
h(X2 ) =
f (x) log
(x) dx f (x)
f (x) log (x) dx.
(b) Montrer que pour tout x > 0, log x x 1. En dduire que :

+
f (x) log
(x) dx 0. f (x)
(c) Montrer que :

+
f (x) log (x) dx =
1 (1 + log(2 2 )). 2
(d) En dduire que h(X2 ) h(X1 ). Arnaud Guyader - Rennes 2 Esprance conditionnelle & Chanes de Markov
2.3. Exercices Exercice 2.4 (Changement de base) Soit [X, Y ] un vecteur gaussien de moyenne m = [1, 2] et de matrice de covariance : = 3 1 1 3
81
1. Vrier que est bien une matrice de covariance. 2. Diagonaliser en base orthonorme, cest--dire crire une dcomposition : = P P , avec P matrice orthogonale et diagonale. 3. Reprsenter la fonction f:
(u, v) f (u, v) =
1 u v 1 e 2 ( 4 + 2 ) 4 2
4. En dduire la reprsentation de la densit du vecteur alatoire [X, Y ] . Exercice 2.5 (Problme de dgnrescence) Soit [X, Y ] un vecteur gaussien de moyenne m = [0, 1] et de matrice de covariance : = 1 2 2 4
1. Vrier que est bien une matrice de covariance. 2. Diagonaliser . 3. Montrer que le vecteur [X, Y ] ne prend ses valeurs que sur une droite de 2 , cest--dire quil existe deux rels et tels que : Y = X + (on pourra chercher et tels que Var(Y (X + )) = 0). Comment le vecteur se distribue-t-il sur cette droite ? 4. Gnralisation : soit X = [X1 , . . . , Xd ] un vecteur alatoire, non ncessairement gaussien, de moyenne m et de matrice de covariance . Supposons non inversible. Montrer que le vecteur alatoire X ne prend ses valeurs que dans un sous-espace ane de d . Quelle est, en fonction du spectre de , la dimension de ce sous-espace ane ?
5. Exemple : montrer que le vecteur alatoire X de moyenne m = [7, 0, 1] et de matrice de dispersion : 7 2 5 = 2 4 2 5 2 7 appartient un plan de
3 que lon prcisera.
Exercice 2.6 (Vecteur gaussien tridimensionnel) Soit V = [X, Y, Z] un vecteur gaussien de moyenne m = [1, 0, 3] et de matrice de covariance : 4 2 2 = 2 4 2 2 2 6
1. Quelle est la fonction caractristique de V ? 2. Quelles sont les lois marginales ?
3. Dterminer les lois des couples (X, Y ), (X, Z) et (Y, Z). Esprance conditionnelle & Chanes de Markov Arnaud Guyader - Rennes 2
82
Chapitre 2. Vecteurs gaussiens et conditionnement 4. Est-ce que deux composantes de V sont indpendantes ? 5. V admet-il une densit ? Si oui, la calculer. 6. Mmes questions avec V de moyenne m comme ci-dessus et matrice de covariance : 4 2 0 = 2 1 0 0 0 2 Exercice 2.7 (Exercice de maniement) Soit U1 , U2 et U3 variables alatoires indpendantes gaussiennes centres de variances non nulles gales v1 , v2 et v3 . On considre le vecteur alatoire [X, Y ] dni par : X = U1 + U2 Y = U2 + U3 1. Quelles sont les lois de X et Y ? 2. Montrer quon peut trouver une combinaison linaire non nulle de U1 , U2 et U3 qui soit indpendante de X et de Y . 3. Donner le coecient de corrlation linaire du couple (X, Y ), ainsi que la matrice de dispersion .
2 2 4. On note X et Y les variances respectives de X et Y . Montrer que [X, Y ] admet une densit et la prciser en fonction de , X et Y .
5. Mmes questions si on pose Y = U2 U3 . Exercice 2.8 (Probabilit dun quadrant) On considre un vecteur gaussien centr [X, Y ] de matrice de dispersion : = 1 1
On suppose dans un premier temps que 1 < < 1. 2. On veut calculer
1. Diagonaliser la matrice de dispersion sous la forme = P P . Prciser
1 .
3. Eectuer le changement de variables
(X 0, Y 0). Exprimer cette probabilit via une intgrale double.

u v = 1 P x y ,
puis un changement en coordonnes polaires pour montrer que :
(X 0, Y 0) =
4. En dduire lexpression quivalente :
1 arctan
1+ . 1
(X 0, Y 0) =
1 1 + arcsin . 4 2
5. Vrier que cette formule est encore valable pour = 1. Corrig Arnaud Guyader - Rennes 2 Esprance conditionnelle & Chanes de Markov
2.3. Exercices 1. On obtient = P P , avec : 1 P = 2 1 1 1 1 = 1+ 0 0 1 .
83
Une racine carre de linverse de est donc : 1 =

1 1+
0
1 1
2. La probabilit (X 0, Y 0) est la probabilit que le point alatoire (X, Y ) tombe dans le quadrant + + , cest--dire :
(X 0, Y 0) =
On peut encore lcrire :
+ +
f (x, y) dx dy =
+ + 2
1
x
e 2 [x,y]
1 [x,y]
dx dy.
(X 0, Y 0) =
+ + 2
1 2
2 +y 2 2xy 2(12 )
dx dy,
mais cest la forme matricielle de la densit qui va nous servir dans la suite. 3. Le changement de variables : (x, y) (u, v) dni par : u v a pour rciproque : = 1 P x y u = (x + y)/ v = (x y)/ 2(1 + ) 2(1 )
x = (u 1 + + v 1 )/2 y = (u 1 + v 1 )/ 2 f (1 (u, v)) J1 (u, v) du dv.
donc :
(X 0, Y 0) =
1 2 1 2
Or [x, y] = P [u, v] et par ailleurs 1 = P 1 P , donc : f (x, y) = e 2 [x,y]

1 1 [x,y]
1 2 1 2 1 2
e 2 [u,v]
P 1 P [u,v]
et le produit matriciel se simplie, pour donner : f (x, y) = f (1 (u, v)) = 1 2 e

u2 +v 2 2
Par ailleurs, lapplication 1 tant linaire, son jacobien est tout simplement la matrice J1 (u, v) = P , donc : J1 (u, v) = |det | = 1 2 .
Enn, pour les nouvelles coordonnes u et v, le domaine dintrt scrit : D= (u, v) 2 : u 0, u 1+ vu 1 1+ 1 .
84 Finalement, on a obtenu :
(X 0, Y 0) =
1 u2 +v2 2 e du dv. 2
Le changement en coordonnes polaires est alors compltement naturel :
(X 0, Y 0) =
1 r2 e 2 r dr d, 2
avec pour domaine dintgration (voir aussi gure 2.14) : D = (r, ) : r 0, arctan 1+ arctan 1
+
1+ 1
Ceci donne nalement :
(X 0, Y 0) =
1 arctan
r2 1+ e 2 1
=
0
1 arctan
1+ . 1
1 4. Pour vrier quon a de faon quivalente (X 0, Y 0) = 1 + 2 arcsin , il sut de 4 montrer que : 1 1 1+ 1 arctan = + arcsin . ] 1, 1[ 1 4 2
Ceci peut se faire en montrant tout dabord que les deux fonctions ont mme drive : 1 arctan 1+ 1
1 2 1 2
1 1 + arcsin 4 2
et en vriant ensuite que leurs valeurs en un point de lintervalle ] 1, 1[ concident, par exemple en 0 : 1 1 1 1 1+0 arctan = = + arcsin 0. 10 4 4 2 5. Si = 1, alors nest pas inversible et on a plus prcisment : Var(X Y ) = [1, 1] 1 1 = 0,
cest--dire que Y = X presque srement. Dans ce cas, puisquon sait de plus que X suit une loi normale centre rduite, la probabilit cherche est trs simple :
(X 0, Y 0) = (X 0) = ,
qui est bien gal srement, donc :
1 4 1 + 2 arcsin 1. Si = 1, alors on montre cette fois que Y = X presque
1 2
(X 0, Y 0) = (X 0, X 0) = (X = 0) = 0,
qui est bien gal
1 4
1 2
arcsin(1). Donc la formule est encore vraie en 1. Esprance conditionnelle & Chanes de Markov
2.3. Exercices
v q 1+ v = u 1
85
= arctan
1+ 1
q 1+ v = u 1
Fig. 2.14 Changement de variables en polaires.
Exercice 2.9 (Variations sur la sphre unit) Soit [X, Y, Z] un vecteur gaussien centr de matrice de dispersion : = 1 0
2 3
0 1
1 3
1 3
2 3
3 , dterminer la loi de la variable alatoire X + Y + Z. 2. Dterminer le noyau de . Existe-t-il (, , ) de 3 \{(0, 0, 0)} tel que Var(X +Y +Z) =
1. Pour tout triplet (, , ) de 0? 3. La loi du vecteur alatoire [X, Y, Z] admet-elle une densit ? 4. Entre quelles valeurs varie Var(X + Y + Z) = 0 lorsque (, , ) dcrit la sphre unit, i.e. 2 + 2 + 2 = 1 ? Indication : on pourra diagonaliser . 5. On note U = [U, V ] ?
1 X 3
2 3Y
et V =
1 X 3
1 1 + 6 Y + 2 Z. Quelle est la loi du vecteur alatoire
Exercice 2.10 (Processus autoregressif ) 2 Rappel : on peut montrer quune suite de variables alatoires gaussiennes Xn N (mn , n ) 2 ) sont toutes deux convergentes. Si m converge en loi si et seulement si les suites (mn ) et (n et 2 sont les limites respectives, alors la loi limite est la loi normale N (m, 2 ). Soit (n )n1 une suite de variables alatoires i.i.d. de loi N (0, 2 ), avec 2 > 0 et un paramtre rel. On considre la suite (Xn )n1 dnie par : X1 = 1 Xn+1 = Xn + n+1 Esprance conditionnelle & Chanes de Markov Arnaud Guyader - Rennes 2
86
Chapitre 2. Vecteurs gaussiens et conditionnement 1. Quelle est la loi de Xn ? Pour quelles valeurs de a-t-on convergence en loi ? Prciser alors la loi limite. 2. Calculer la covariance de Xn et Xn+k . 3. Quelle est la loi du vecteur alatoire [X1 , . . . , Xn ] ? 4. Exprimer la densit du vecteur [1 , . . . , n ] . Grce la formule de changement de variable, en dduire celle du vecteur [X1 , . . . , Xn ] . 5. Dterminer lestimateur du maximum de vraisemblance de (, 2 ) bas sur lobservation de lchantillon (X1 , . . . , Xn ). Corrig 1. On a pour tout n 1 :
n
Xn = n + n1 + + n1 1 =
nk k .
k=1
La variable Xn est la somme de (n 1) variables gaussiennes indpendantes, donc elle suit 2 une loi normale N (mn , n ), avec bien sr mn = 0 et :
n 2 n = k=1
2(nk) 2 =
n 2
1 2n 1 2
si || = 1 si || = 1
2. On a pour tout k 0 :
Daprs le rappel de lnonc, il y a donc convergence en loi de la suite (Xn ) si et seulement si || < 1, auquel cas on a : 2 L Xn N 0, . n+ 1 2 Xn+k = n+k + n+k1 + + k1 n+1 + k Xn = Wk + k Xn , avec Wk indpendante de Xn . On en dduit la covariance entre Xn et Xn+k : Cov(Xn , Xn+k ) = Cov(Xn , Wk + k Xn ) = k Var(Xn ) = n k 2
1 2n 1 2
k 2
si || = 1 si || = 1
3. On peut crire :
X1 . . . Xn
avec A matrice triangulaire infrieure forme de 1 sur la diagonale, de sur la premire sous-diagonale, de 2 sur la deuxime sous-diagonale, ..., le coecient An,1 valant n1 . Puisque [1 , . . . , n ] est un vecteur gaussien, [X1 , . . . , Xn ] lest aussi. La matrice de dispersion de [1 , . . . , n ] tant gale 2 In , on a : X1 . . N (0, 2 AA ). . Xn Arnaud Guyader - Rennes 2 Esprance conditionnelle & Chanes de Markov
= A
1 . . . n
2.3. Exercices 4. Puisque ses composantes sont indpendantes, le vecteur [1 , . . . , n ] a pour densit : g(1 , . . . , n ) = 1 12 (2 ++2 ) n 1 n e 2 2) 2 (2
87
et on peut appliquer la formule de changement de variable la bijection : 1 = x1 2 = x2 x1 ... = ... n = xn xn1 La densit du vecteur [X1 , . . . , Xn ] est donc : f (x1 , . . . , xn ) = g(x1 , x2 x1 , . . . , xn xn1 ) det(A1 ) . Mais puisque detA = 1, il en va de mme pour A1 et : f (x1 , . . . , xn ) = 1 12 (x2 +(x2 x1 )2 ++(xn xn1 )2 ) 1 . n e 2 (2 2 ) 2
5. On suppose donc observer un chantillon (x1 , . . . , xn ) du processus (X1 , . . . , Xn ) et on veut en dduire une estimation au maximum de vraisemblance du couple (, 2 ). On admet que cette solution existe et est unique. Il sut alors pour la trouver dcrire la log-vraisemblance du couple (, 2 ) : 1 n L(, 2 ) = ln f (x1 , . . . , xn ) = ln(2 2 ) 2 (x2 + (x2 x1 )2 + + (xn xn1 )2 ), 1 2 2 dont on cherche le point critique. On obtient pour drives partielles : L L 2 1 = 2 =
n1 k=1
xk (xk+1 xk )
n 1 + 4 (x2 + (x2 x1 )2 + + (xn xn1 )2 ) 1 2 2 2
Lannulation de la premire drive partielle donne lestimateur de au maximum de vraisemblance : n1 xk xk+1 = k=1 . n1 2 k=1 xk Do lon dduit celui de 2 , via lannulation de la seconde drive partielle : 2 = 1 n
n1 k=1
xk (xk+1 xk ).
Exercice 2.11 (Moyenne mobile) Soit (n )n1 une suite de variables alatoires i.i.d. de loi N (0, 2 ), et un paramtre rel. On considre la suite (Xn )n1 dnie par X1 = 1 Xn+1 = n + n+1 Esprance conditionnelle & Chanes de Markov Arnaud Guyader - Rennes 2
88
Chapitre 2. Vecteurs gaussiens et conditionnement 1. Soit X = [X1 , . . . , Xn ] . Pourquoi X est-il un vecteur gaussien ? 2. Dterminer la moyenne et la matrice de dispersion de X. 3. Justier le fait que X admet une densit et la prciser. Exercice 2.12 (Sauts de puce) Dans le plan, une puce part de lorigine O = A0 et saute chaque instant. De linstant 1 linstant n, ses points de chute successifs sont nots A1 , . . . , An . Chaque saut a la mme amplitude unit : Aj Aj+1 = 1 pour tout indice j. La direction de chaque saut suit une loi uniforme sur [0, 2]. 1. Soit V = [cos U, sin U ] un vecteur alatoire, avec U qui suit une loi uniforme sur [0, 2]. Dterminer esprance et matrice de covariance de V . 2. Ecrire Sn = OAn comme une somme de vecteurs alatoires indpendants et identiquement distribus. Que dire de la convergence en loi de la suite (Sn / n) ? 3. Soit maintenant [X, Y ] un vecteur gaussien centr de matrice de covariance identit. Considrons le vecteur alatoire [R, ] correspondant en coordonnes polaires. Dterminer sa densit jointe grce la formule de changement de variables. En dduire que R et sont indpendantes. 4. En calculant par exemple sa fonction de rpartition, montrer que la variable alatoire R2 , 1 carr de la distance lorigine, suit une loi exponentielle : R2 E( 2 ).
5. Pour notre puce, en dduire quau bout de n sauts le carr de sa distance lorigine suit peu prs une loi exponentielle de moyenne n.
2.1 1.7 1.3 0.9 0.5 0.1 0.3 0.7 1.81.41.00.60.2 0.2 0.6 1.0 1.4
2 0 2 4 6 8 10 12 12 10 8 6 4 2
10 0 10 20 30 40 50 60 1
11 15 19 23 27 31
Fig. 2.15 Exemples de trajectoires de la puce pour 10, 100 et 1000 sauts.
Corrig Des exemples de trajectoires de la puce sont donns gure 2.15. 1. Pour le vecteur moyenne, on a : E[cos U ] = Arnaud Guyader - Rennes 2 1 2
2
cos u du =
0
1 [sin u]2 = 0. 0 2
2.3. Exercices Et on trouve de la mme faon E[sin U ] = 0. Ainsi V est centr : E[V ] = E[cos U ] E[sin U ] = 0 0 ,
89
ce qui est vident puisque la puce ne privilgie aucune direction dans ses sauts. Pour la matrice de dispersion, on a : Var(cos U ) = E[cos2 U ] = De mme : 1 Var(sin U ) = E[sin2 U ] = E[1 cos2 U ] = 1 E[cos2 U ] = 1 Var(cos U ) = . 2 Pour la covariance entre abscisse et ordonne : Cov(cos U, sin U ) = E[cos U sin U ] = 1 2
2 0
1 2
2 0
cos2 u du =
1 1 u + sin(2u) 4 2
=
0
1 . 2
1 cos u sin u du = [cos 2u]2 = 0, 0 4
cest--dire quabscisse et ordonne de V sont dcorrles (mais clairement pas indpendantes, puisque la valeur de labscisse ne laisse plus le choix quentre deux valeurs possibles pour lordonne). Ainsi le vecteur alatoire centr V a pour matrice de covariance : = 1/2 0 0 1/2 .
2. La relation de Chasles donne la dcomposition : Sn = OAn = OA1 + A1 A2 + + An1 An = V1 + + Vn , avec les Vk i.i.d. de mme loi que le vecteur V de la question prcdente. Le thorme central limite nous apprend donc que : Sn nE[V ] Sn L = N (0, ) = N n n n+ 3. Le changement de variables en polaires scrit : x = r cos y = r sin Puisque le vecteur [X, Y ] a pour densit : f (x, y) = on en dduit que [R, ] a pour densit : g(r, ) = La densit de R est alors :
2
0 0
1/2 0 0 1/2
1 x2 +y2 2 e , 2
r r2 e 2 [0,+[ (r)[0,2] (). 2
g(r) =
0
g(r, ) d = re 2
r2
[0,+[ (r).
90 Quant celle de , on obtient :

+
g() =
0
g(r, ) dr =
r2 1 [0,2] () e 2 2
=
0
1 (), 2 [0,2]
cest--dire que suit une loi uniforme sur [0, 2]. Ainsi on a pour tout couple (r, ) [0, +[[0, 2] : g(r, ) = g(r) g(), donc les variables alatoires R et sont indpendantes. 4. Soit F la fonction de rpartition de R2 . Bien sr F (t) = 0 si t < 0, et pour tout t 0 on a : F (t) = (R t) = (R
2
t) =
0
g(r) dr = e
r2
= 1 e 2 ,
5. Notons Xn et Yn les coordonnes alatoires du point terminal An . Le carr de la distance 2 2 lorigine de la puce au bout de n sauts est donc OA2 = Xn + Yn , avec OAn = Sn qui suit n peu prs une loi normale N (0, n). Cest encore dire que, peu de choses prs : 2 Sn = n 2 n Xn Yn N 0 0 , 1 0 0 1 .
o lon reconnat la fonction de rpartition dune loi exponentielle : R2 E( 1 ). 2
Mais alors daprs la question prcdente on a, toujours peu de choses prs : 1 2 2 2 (X + Yn ) E( ), n n 2 cest--dire que le carr de la distance lorigine suit peu prs une loi exponentielle de 1 paramtre n . Exercice 2.13 (Vecteur gaussien bidimensionnel) On considre un vecteur gaussien [X, Y ] de moyenne m = [1, 1] et de matrice de covariance : = 1. Ecrire la densit du vecteur [X, Y ] . 2. Quelle est la loi de X ? de Y ? de X + Y ? 3. Dterminer lesprance conditionnelle E[X|Y ]. Quelle est sa loi ? Corrig Cf. sujet de juin 2005 en annexe. Exercice 2.14 (Conditionnement dune variable par un couple) Soit [X, Y, Z] un vecteur gaussien centr de matrice de covariance : 4 1 2 = 1 9 3 2 3 4 1 1 1 4
1. Calculer E[X|Y, Z], lesprance conditionnelle de X sachant le couple (Y, Z). Arnaud Guyader - Rennes 2 Esprance conditionnelle & Chanes de Markov
2.3. Exercices 2. Vrier sur cet exemple que X E[X|Y, Z] est indpendant de (Y, Z). 3. Calculer E[(X E[X|Y, Z])2 |Y, Z]. 4. Quelle est la loi de X sachant (Y, Z) ? Corrig 1. La formule de conditionnement pour un vecteur gaussien centr donne : E[X|Y, Z] = cest--dire : X,(Y,Z) 1 (Y,Z) Y Z = [1, 2] 9 3 3 4
1
91
Y Z
1 (10Y + 21Z). 27 1 2. On a donc X E[X|Y, Z] = X 27 (10Y +21Z). Le vecteur [X E[X|Y, Z], Y, Z] est gaussien car obtenu par transformation linaire dun vecteur gaussien. Pour montrer que sa premire composante est indpendante des deux dernires, il sut donc de vrier que les covariances sont nulles : 1 Cov(X E[X|Y, Z], Y ) = E[(X E[X|Y, Z])Y ] = E X (10Y + 21Z) Y , 27 E[X|Y, Z] = cest--dire en dveloppant : 7 10 7 10 E[Y 2 ] E[Y Z] = 1 9 (3) = 0. 27 9 27 9 On vrie de la mme faon que Cov(X E[X|Y, Z], Z) = 0. 3. Premire mthode (brutale, pour ceux qui ne connaissent pas leur cours) : puisque la variable alatoire (X E[X|Y, Z]) est indpendante du couple (Y, Z), il en va de mme pour la variable alatoire (X E[X|Y, Z])2 . De ce fait, on a : Cov(X E[X|Y, Z], Y ) = E[XY ] E[(X E[X|Y, Z])2 |Y, Z] = E[(X E[X|Y, Z])2 ] = E et il sut alors de dvelopper le carr : E[(X E[X|Y, Z])2 |Y, Z] = E[X 2 ]+ ce qui donne au total : 100 49 20 420 42 E[Y 2 ]+ E[Z 2 ] E[XY ]+ 2 E[Y Z] E[XZ], 2 27 81 27 27 27 X 1 (10Y + 21Z) 27
2
56 . 27 Seconde mthode (rudite, pour ceux qui connaissent leur cours) : la quantit cherche est exactement la variance rsiduelle, ou rsidu quadratique, ou rsidu, donn par la formule : E[(X E[X|Y, Z])2 |Y, Z] = 2 = X X,(Y,Z) 1 (Y,Z),X = 4 [1, 2] (Y,Z) 9 3 3 4
1
1 2
56 . 27
Etonnov, niet ? 4. On sait quon a la dcomposition en somme de variables indpendantes : X = E[X|Y, Z] + (X E[X|Y, Z]) = E[X|Y, Z] + T = 1 (10Y + 21Z) + T, 27
avec T indpendante du couple (Y, Z) et de loi N (0, 2 ). Donc sachant Y = y et Z = z, on 1 a simplement X = 27 (10y + 21z) + T , cest--dire que : XN 1 56 (10y + 21z), 27 27 . Arnaud Guyader - Rennes 2
92
Chapitre 2. Vecteurs gaussiens et conditionnement Exercice 2.15 (Mai 2007) Soit V = [X, Y ] un vecteur gaussien centr de matrice de covariance : =
2 X rX Y
rX Y 2 Y
1. Rappeler quelle condition V admet une densit f (x, y) et dans ce cas donner sa formule en fonction de X , Y et r. On suppose cette condition vrie dans toute la suite. 2. Donner lexpression de lesprance conditionnelle E[Y |X] en fonction de X , Y et r. 3. On considre un vecteur V = [X, Y ] ayant pour densit : (x, y) 2 f (x, y) = 1 x2 5y2 + xy e 8 8 4 4
(a) Dterminer sa matrice de covariance . (b) Sachant x = 1, quelle est la loi de Y ? (c) Sachant x = 1, en dduire un intervalle dans lequel se situe Y avec 95% de chances. Corrig Cf. corrig du sujet de mai 2007 en annexe. Exercice 2.16 (Covariances identiques) Soit [X, Y, Z] un vecteur gaussien centr tel que les variances soient gales 1 et les covariances gales 1/2. 1. Calculer E[Z|X, Y ]. 2. Calculer E[Z|X + Y ]. Faire un dessin pour expliquer le lien entre ce rsultat et le rsultat prcdent. 3. Sachant X = x, quelle est la loi de Y ? 5. Grce la mthode de conditionnement, calculer alors E[X 2 Y 2 ]. 6. Dterminer de mme E[X 2 Y 4 ]. 7. Gnralisation : on suppose que les covariances valent a ] 1/2, 1[. Vrier quon dnit bien ainsi une matrice de covariance. Que deviennent les rsultats prcdents ? Corrig 1. Pour calculer E[Z|X, Y ], on applique la formule de conditionnement : E[Z|X, Y ] = Z,(X,Y ) 1 ) (X,Y X Y 1 1 , = 2 2 1 1/2 1/2 1
1
4. En dduire E[Y 2 |X = x], puis E[Y 2 |X].
X Y
1 (X + Y ). 3
2. Puisque le couple (T, Z) = (X + Y, Z) est gaussien, on peut calculer E[Z|X + Y ] grce la formule de rgression classique : E[Z|X + Y ] = E[Z|T ] = Or : Cov(Z, T ) = Cov(Z, X + Y ) = E[Z(X + Y )] = E[ZX] + E[ZY ] = 1, et : Var(T ) = Var(X + Y ) = Var(X) + 2Cov(X, Y ) + Var(Y ) = 3. Arnaud Guyader - Rennes 2 Esprance conditionnelle & Chanes de Markov Cov(Z, T ) T. Var(T )
2.3. Exercices Finalement :
93
1 E[Z|X + Y ] = (X + Y ) = E[Z|X, Y ]. 3 On pouvait sen douter sans calculs : la valeur moyenne prise par la variable alatoire Z lorsquon connat la fois X et Y ne dpend que de la somme (X + Y ). De ce fait, la valeur moyenne prise par la variable alatoire Z lorsquon connat simplement la somme (X + Y ) va tre gale celle trouve prcdemment. Ceci vient du fait que Z a la mme covariance avec X quavec Y . Faire un dessin pour expliquer le lien entre ce rsultat et le rsultat prcdent. 3. On a la dcomposition orthogonale : Y = E[Y |X] + (Y E[Y |X]) = E[Y |X] + W, avec : E[Y |X] = X Cov(X, Y ) X= , Var(X) 2
et la variable rsiduelle W qui est indpendante de X qui suit une loi N (0, 2 ), avec le rsidu : Cov(X, Y )2 3 2 = Var(Y ) = . Var(X) 4 Ainsi, lorsque X = x, on a : Y N x 3 , 2 4 .
4. Sachant X = x, on a vu que Y suit une loi normale. Or, de faon gnrale, lorsque V N (m, 2 ), on a : E[V 2 ] = m2 + s2 , donc ici : E[Y 2 |X = x] = et plus gnralement : E[Y 2 |X] =
X 2 +3 4 .
x2 + 3 , 4
5. Par les proprits classiques de lesprance conditionnelle, on a alors : 1 E[X 2 Y 2 ] = E[E[X 2 Y 2 |X]] = E[X 2 E[Y 2 |X]] = E[X 4 + 3X 2 ]. 4 Or X suit une loi normale centre rduite, loi dont on connat tous les moments, en particulier 3 E[X 4 ] = 3. Ainsi E[X 2 Y 2 ] = 2 . 6. On applique la mme technique, mais en inversant les rles jous par X et Y : ceci vite davoir 2 calculer E[Y 4 |X]. Puisque X et Y sont interchangeables, il est clair que E[X 2 |Y ] = Y 4+3 . Ainsi : Y2+3 1 E[X 2 Y 4 ] = E[E[X 2 Y 4 |Y ]] = E Y 4 = E[Y 6 + 3Y 4 ]. 4 4 Or le moment dordre 6 dune loi normale centre rduite vaut 15, donc E[X 2 Y 4 ] = 6. 7. Gnralisation : on suppose que les covariances valent a ]1/2, 1[. Vrier quon dnit bien ainsi une matrice de covariance. Que deviennent les rsultats prcdents ? Ils se gnralisent... Exercice 2.17 (Vecteur gaussien tridimensionnel) On considre un vecteur gaussien [X, Y, Z] centr et de matrice de covariance : 2 1 1 = 1 2 1 1 1 2 Esprance conditionnelle & Chanes de Markov Arnaud Guyader - Rennes 2
94
Chapitre 2. Vecteurs gaussiens et conditionnement 1. Donner lesprance conditionnelle E[X|Y, Z]. 2. Quelle est la loi de Z sachant X = 1 et Y = 2 ? 4. Quelle est la loi du vecteur [X, Y ] sachant Z = 1 ? 5. On pose alors : 3. Dterminer lesprance conditionnelle du vecteur [X, Y ] sachant Z, note E[X, Y |Z]. U = X + Y + Z V =X Y +Z W =X +Y Z
Pourquoi le vecteur alatoire [U, V, W ] est-il gaussien ? 6. Quelles sont les lois de U , de V , de W ?
7. Dterminer la moyenne et la matrice de covariance de [U, V, W ] . Quen dduire sur la corrlation de U , V et W ? Corrig Le corrig de cet exercice est donn en annexe, sujet de juin 2005. Exercice 2.18 (Variance conditionnelle) Soit [X1 , X2 ] un vecteur gaussien centr de matrice de covariance : = 3 1 1 2
1. Dterminer lesprance conditionnelle E[X1 |X2 ].
2. Si [X, Y ] est un vecteur alatoire (non ncessairement gaussien), avec Y de carr intgrable, on dnit la variance conditionnelle de Y sachant X, note Var[Y |X], comme la variable alatoire : Var[Y |X] = E[(Y E[Y |X])2 |X]. Montrer que dans notre situation, on a :
2 Var[X1 |X2 ] = E[X1 ] E[(E[X1 |X2 ])2 ].
4. Vrier que : Var[X1 |X2 = 0] = E[(X1 E[X1 |X2 = 0])2 ]. Exercice 2.19 (Un t 2006) On considre un vecteur gaussien V = [X, Y, Z]T de moyenne m = [1, 1, 1] et de matrice de covariance : 1 1 1 = 1 2 2 1 2 3 1. Quelle est la loi du vecteur [X, Y ] ? Donner sa densit. 2. Dterminer lquation de la droite de rgression de Y en X. Prciser le rsidu quadratique. 3. Donner une variable alatoire U = X + Y + qui soit indpendante de X. 4. Quelle est la fonction caractristique du vecteur V ? 5. Donner lexpression de E[Z|X, Y ], esprance conditionnelle de Z sachant (X, Y ) ? Arnaud Guyader - Rennes 2 Esprance conditionnelle & Chanes de Markov
3. En dduire la variance conditionnelle Var[X1 |X2 ].
2.3. Exercices 6. En dduire une variable alatoire T = aX + bY + cZ + d qui soit indpendante de X et Y . Prciser la variance de T . 7. On observe Y = 1 et Z = 2. Quelle est la loi de la variable alatoire X sachant ces donnes ? Corrig Cf. sujet de juin 2006 en annexe. Exercice 2.20 (Statistique baysienne) Soit (X, M ) un couple alatoire dont la loi jointe est telle que : M suit une loi normale N (0, 2 ). Sachant M = m, X suit une loi normale N (m, 2 ). 1. Calculer E[X|M ]. 2. Montrer que la densit conditionnelle de M sachant X = x peut scrire : e 22 e 22 f (m|x) = cx , 2 2 2 2 o cx est une constante ne dpendant que de x.
2 4. Comparer 0 2 . Calculer E[M |X]. 2 2 3. En dduire que, sachant X = x, M N ( 0 x, 0 ), avec 0 = 2 2 2 2 . 2 + 2
(xm)2 m2
95
5. Par la mme mthode que ci-dessus, montrer que X N (0, 2 + 2 ).
6. Via le calcul de la densit jointe, montrer que (X, M ) est un vecteur alatoire gaussien, dont on prcisera moyenne et matrice de dispersion.
Corrig succinct 1. Daprs lnonc, on a : E[X|M = m] = m, donc de faon gnrale E[X|M ] = M . 2. On cherche dterminer la densit conditionnelle f (m|x). La formule de Bayes donne : f (m|x) = f (x|m)f (m) f (m, x) = . f (x) f (x)
Or x est x, donc on peut considrer f (x) comme une constante cx . La connaissance des densits du numrateur permet dcrire : e 22 e 22 . f (m|x) = cx 2 2 2 2
2 3. Aprs calculs, on trouve que ceci est la densit dune variable alatoire gaussienne N ( 0 x, 0 ), 2 avec : 22 2 2. 0 = 2 + 2 2
(xm)2 m2
4. On a :
2 0 =
2 1+
2 2
2 .
Pour tout x, on a donc : E[M |X = x] =
2 0 x. 2
On en dduit que :
2 0 X. 2
E[M |X] = Esprance conditionnelle & Chanes de Markov
96
Chapitre 2. Vecteurs gaussiens et conditionnement 5. On cherche la densit f de X. Le mme type de calcul que prcdemment montre que X suit une loi gaussienne N (0, 2 + 2 ).
6. On cherche la densit fX,M du couple (X, M ). On trouve que cest une densit gaussienne de moyenne (0, 0) et de matrice de covariance , avec : = 2 + 2 2 2 2 .
Exercice 2.21 (Esprance conditionnelle et indpendance) On considre trois variables alatoires U , V et W indpendantes et suivant la mme loi normale centre rduite N (0, 1). 1. On dnit le vecteur alatoire [X1 , X2 , X3 ] comme suit : X1 = U X =U +V 2 X3 = U + V + W (a) Quelle est la loi du vecteur [X1 , X2 , X3 ] ? (b) Dterminer E[X3 |X1 , X2 ]. Comparer E[X3 |X2 ].
(c) Expliquer le rsultat de la question prcdente par un dessin.
(d) Soit [X, Y, Z] un vecteur alatoire. Commenter larmation : E[Z|X, Y ] = E[Z|Y ] Z est indpendante de X. 2. On dnit cette fois le vecteur alatoire [X1 , X2 , X3 ] comme suit : X1 = U X =U +V 2 X3 = V (a) Quelle est la loi du vecteur [X1 , X2 , X3 ] ? (b) Dterminer E[X3 |X1 , X2 ]. Comparer E[X3 |X2 ]. (c) Expliquer le rsultat de la question prcdente par un dessin.
(d) Soit [X, Y, Z] un vecteur alatoire. Commenter larmation : Z est indpendante de X E[Z|X, Y ] = E[Z|Y ]. Corrig Cet exercice est corrig en annexe, sujet de mai 2007. Exercice 2.22 (Rgression linaire vs. Esprance conditionnelle) Soit [X, Y, Z] un vecteur gaussien centr de matrice de covariance : 1 0.4 0.8 = 0.4 1 0.6 0.8 0.6 1 1. Quelle est la loi du vecteur [Y, Z] sachant X = x ? 2. Dterminer la variable alatoire E[Z|X, Y ] et la loi de Z sachant (X, Y ) = (x, y). Arnaud Guyader - Rennes 2 Esprance conditionnelle & Chanes de Markov
2.3. Exercices 3. Etablir quil existe une variable alatoire U combinaison linaire de X et Z qui nest pas corrle avec Z. 4. Que dire de E[U Z 2 ] ? En dduire que E[XZ 2 ] = 0. 5. Prouver de mme que E[Y Z 2 ] = 0. 6. Soit T = 3X + 5Y + 2Z. Quelle est la rgression linaire T de T sur (X, Y ) ? Quel est lcart 2] ? quadratique entre T et T , cest--dire E[(T T ) 7. Quelle est lesprance conditionnelle T = E[T |X, Y ] ? Ecart quadratique entre T et T ? 2 . Quelle est la rgression linaire S de S sur (X, Y ) ? Ecart quadratique 8. Soit S = 3X+5Y +2Z et S ? entre S 9. Quelle est lesprance conditionnelle S = E[S|X, Y ] ? Ecart quadratique entre S et S ? 10. Comparer les carts quadratiques des deux questions prcdentes. Exercice 2.23 (Un hiver 2001) Soit [X1 , X2 , X3 ] un vecteur gaussien centr de matrice de covariance : 1 0 1 = 0 3 0 1 0 5 1. 2. 3. 4. 5.
97
Quelle est la loi du vecteur alatoire [X1 , X3 ] sachant X2 = 1 ? Trouver les variables alatoires E[X2 |X1 , X3 ] et E[X1 |X2 , X3 ]. Quelle est la loi de X1 conditionne par X2 = 7 et X3 = 11 ? 2 2 2 Dterminer E[X1 |X2 , X3 ] et vrier que E[X1 |X2 , X3 ] = E[X1 |X3 ]. Soit Y = 3X1 + 2X2 + X3 . Que vaut E[Y |X2 , X3 ] ? Quel est lcart quadratique entre Y et E[Y |X2 , X3 ], cest--dire E[(Y E[Y |X2 , X3 ])2 ] ? 2 6. Mmes questions avec Z = 3X1 + 2X2 + X3 .
Exercice 2.24 (Un hiver 2002) Soit [X, Y, Z] un vecteur gaussien centr de matrice de covariance : 4 1 2 = 1 3 3 2 3 4 1. 2. 3. 4.
Dterminer f (Y, Z) = E[X|Y, Z]. Calculer E[(X f (Y, Z))2 |Y, Z] et E[X 2 |Y, Z]. Quelle est la loi conditionnelle de X sachant (Y, Z) = (y, z). Dterminer E[3X + Y Z|Y, Z], E[Y X 2 exp(Z)|Y, Z], E[X/(1 + Y 2 )|Y, Z], ainsi que E[(X + Y )3 |Y, Z]. 5. Dterminer E[Y |Z] et E[Z|Y ]. En dduire E[XY Z]. 6. Dterminer E[Z 2 |Y ]. En dduire E[XY Z 2 ]. de matrice de covariance : 1 0 . 1 Arnaud Guyader - Rennes 2
Exercice 2.25 (Un printemps 2008) Soit X = [X1 , X2 , X3 ] un vecteur gaussien centr et 4 1 = 1 2 1 0 Esprance conditionnelle & Chanes de Markov
98 1. Quelles sont les lois marginales de X ?
2. Certaines composantes de X sont-elles indpendantes deux deux ? Si oui, lesquelles ? Certaines composantes de X sont-elles orthogonales deux deux ? Si oui, lesquelles ? 3. Quelle est la loi de (X1 , X2 ) ? 4. Sans calcul, dterminer E[X2 |X3 ] et E[(X2 E[X2 |X3 ])2 ]. 6. Calculer E[X1 |X2 , X3 ] et E[(X1 E[X1 |X2 , X3 ])2 ]. 5. Calculer E[X1 |X3 ] et E[(X1 E[X1 |X3 ])2 ].
7. Quelle est la loi de X1 sachant (X2 = x2 , X3 = x3 ) ? 2 2 8. On pose S = E[X1 |X2 , X3 ] et S le rsultat de la rgression linaire de X1 sur (X2 , X3 ). 2 S)2 ] E[(X 2 S)2 ]. Justier que E[(X1 1 Corrig Cete exercice est corrig en annexe, sujet de mai 2008. Exercice 2.26 (Observations bruites) On considre une variable alatoire X N (0, 2 ), de variance 2 connue. On dispose pour X de n observations Y1 , . . . , Yn bruites, cest--dire que : i {1, . . . , n} Yi = X + i .
Les variables alatoires i sont indpendantes, identiquement distribues suivant une loi N (0, 2 ), et indpendantes de X. On suppose de plus la variance 2 du bruit dobservation connue. On veut dduire de Y1 , . . . , Yn une estimation de X. 1. Expliquer pourquoi le vecteur [X, Y ] = [X, Y1 , . . . , Yn ] est gaussien. 2. Calculer Cov(X, Yi ), Var(Yi ) et Cov(Yi , Yj ). 3. Dterminer la matrice de covariance Y de [Y1 , . . . , Yn ] . Dterminer son inverse (on pourra : soit inverser un systme linaire ; soit la chercher sous la mme forme que Y , cest--dire termes diagonaux gaux, termes hors-diagonal gaux). 4. On note Xn = E[X|Y ] lestimateur des moindres carrs de X sachant Y . Dduire des questions prcdentes que : 2 (Y1 + + Yn ). Xn = n 2 + 2 5. Dterminer la variance rsiduelle
2 n = E[(X Xn )2 ].
La comparer la variance initiale 2 de la variable alatoire X. 6. En dduire que : L Xn X.

n+
2
7. Supposons X = x x. On dispose donc des observations Y1 , . . . , Yn , avec Yi = x + i . Quelle est la loi de Xn sachant X = x ? 8. Justier le fait que : p.s. Xn x.
n+
Vous savez, les gens normaux nont rien dexceptionnel... Jackie Berroyer, dans un lm de Laurence Ferreira-Barbosa (1993).
Chapitre 3
Chanes de Markov
Introduction
Un modle dynamique pour lequel le futur dpend de ltat prsent et du hasard est appel une chane de Markov : cest un modle simple pour reprsenter un phnomne alatoire voluant au cours du temps. Il est nanmoins ecace dans de nombreuses applications : les sciences de la vie (gntique, modles dpidmie), nance (les cours de la bourse), thorie du signal (problmes de ltrage, de prdiction), traitement dimage, traitement de la parole, informatique (les dattente dans les rseaux), etc. On se contente ici dtudier les chanes de Markov en temps discret et espace dtats ni.
3.1
Dnition dune chane de Markov
Soit (Xn )n0 une suite de variables alatoires valeurs dans un ensemble E suppos ni, typiquement E = {1, 2, . . . , M }. E est appel lespace dtats. Dnition 3.1 (Chane de Markov) (Xn )n0 est une chane de Markov si pour tout n 1 et toute suite (i0 , i1 , . . . , in1 , i, j) de E, on a lgalit suivante :
(Xn+1 = j|X0 = i0 , . . . , Xn1 = in1 , Xn = i) = (Xn+1 = j|Xn = i).

Remarque. Ceci suppose bien sr que le membre de gauche a un sens, cest--dire que :
(X0 = i0 , . . . , Xn1 = in1 , Xn = i) > 0.

Autrement dit, sachant le prsent, le futur est indpendant du pass. Ou encore : tant donn ltat prsent, toute information sur le pass est inutile pour prvoir ltat futur. A priori, rien ne dit que la probabilit prcdente est indpendante de linstant n. Cest pourtant une situation frquente et cest lhypothse, dite dhomognit, que nous faisons dsormais. Dnition 3.2 (Homognit) Une chane de Markov est dite homogne dans le temps si la probabilit prcdente ne dpend pas de n. On appelle alors probabilit de transition de ltat i vers ltat j la quantit : pij = (Xn+1 = j|Xn = i) = (X1 = j|X0 = i). On appelle matrice de transition de la chane la matrice P = [pij ]1i,jM de taille M M . 99
100
Chapitre 3. Chanes de Markov La connaissance de la loi initiale, cest--dire des (X0 = i) pour tout i {1, . . . , M }, et des probabilits de transition permet dcrire trs simplement la loi jointe du vecteur alatoire (X0 , . . . , Xn ), puisque :
(X0 = i0 , X1 = i1 , . . . , Xn = in ) = (X0 = i0 )(X1 = i1 |X0 = i0 )...(Xn = in |Xn1 = in1 ) = (X0 = i0 )pi0 i1 . . . pin1 in
On peut noncer quelques rsultats trs simples sur les matrices de transition. Proprits 3.1 (Matrice de transition) Toute matrice de transition vrie les proprits suivantes. Encadrement des coecients : (i, j) {1, . . . , M }2 , 0 pij 1. Somme par ligne : pour tout i {1, . . . , M }, on a :
M
pij = 1.
j=1
Spectre : P admet la valeur propre 1, le vecteur e = [1, . . . , 1] tant un vecteur propre associ. Preuve. Soit P = [pij ]1i,jM une matrice de transition. Pour tout couple (i, j), la quantit pi,j est une probabilit, donc elle est bien comprise entre 0 et 1. Pour tout indice i {1, . . . , M } :
M
pij =
j=1
(Xn = i) j=1
(Xn+1 = j, Xn = i) =
(Xn+1 {1, . . . , M }, Xn = i) , (Xn = i)
cest--dire :
pij =
j=1
(Xn = i) = 1. (Xn = i)

En notant e = [1, . . . , 1] , on a donc : Pe =
M j=1 p1j
. . .
M j=1 pM j
donc e est un vecteur propre pour la valeur propre 1.
1 . . . 1
= e,
On appelle encore matrice stochastique, ou matrice markovienne, toute matrice vriant les deux premires proprits (elle vrie alors aussi la dernire). Remarque. Le sous-espace propre associ la valeur propre 1 nest pas ncessairement de dimension gale 1. Pour preuve lexemple trivial de la matrice identit : noter que cet exemple Arnaud Guyader - Rennes 2 Esprance conditionnelle & Chanes de Markov
3.2. Equations de Chapman-Kolmogorov correspondrait une chane qui ne change jamais dtat, il ne prsente donc pas un grand intrt.... Exemple moins trivial, prendre pour matrice de transition : 0 1 0 0 1 0 0 0 P = 0 0 0 1 . 0 0 1 0
101
Cest bien une matrice de transition donc e est vecteur propre pour la valeur propre 1. Mais on voit que le vecteur v = [1, 1, 0, 0] est un autre vecteur propre associ 1. Noter que cette chane a elle aussi un comportement dterministe : si on connat ltat un instant, on le connat tous les instants suivants. A toute chane de Markov peut tre associ un graphe de transition de la faon suivante : les sommets du graphe sont les tats 1, . . . , M de la chane et il existe un arc, tiquet pij , de i vers j si pij > 0. Cette construction est commode lorsque la matrice P est trs creuse. Autrement dit lorsque dun tat on ne peut transiter que vers un petit nombre dtats.
1 2 1 2 2 3
0
1 3
Fig. 3.1 Graphe de transition de la ligne tlphonique.
Exemple : la ligne tlphonique On considre une ligne de tlphone. Ltat Xn de cette ligne ltape n est 0 si elle est libre et 1 si elle occupe. Entre deux instants successifs, il y a une probabilit 1/2 pour quun appel arrive. Si la ligne est occupe et quun appel arrive, cet appel est perdu. La probabilit pour que la ligne se libre entre linstant n et linstant (n + 1) est 1/3. Le graphe de transition de cette chane de Markov est donn gure 3.1. La matrice de transition est la suivante : P = 1/2 1/2 1/3 2/3 .
3.2
Equations de Chapman-Kolmogorov
Les probabilits de transition en n tapes sont en fait compltement dtermines par les probabilits de transition en un coup, cest--dire par la matrice de transition. Ceci est explicit par les quations de Chapman-Kolmogorov, que nous allons voir maintenant. Notation. La probabilit daller de ltat i ltat j en n coups est note : pij = (Xn = j|X0 = i),
(n)
et la matrice de transition en n coups est note : P (n) = pij Esprance conditionnelle & Chanes de Markov
(n) 1i,jM
. Arnaud Guyader - Rennes 2
102
Chapitre 3. Chanes de Markov On adopte aussi la convention P (0) = IM , matrice identit de taille M . Proposition 3.1 (Equations de Chapman-Kolmogorov) Pour tout n 0, la matrice de transition en n coups est la puissance nme de la matrice de transition de la chane, cest--dire : P (n) = P n . Preuve. Par rcurrence sur n. P (0) = IM = P 0 . Pour n 0, on suppose que P (n) = P n et on veut montrer que P (n+1) = P n+1 , cest--dire que : 1 i, j M Or on crit : pij
(n+1)
pij
(n+1)
= (P n+1 )(i, j).
= (Xn+1 = j|X0 = i) = M (Xn+1 = j, Xn = k|X0 = i) k=1 = M (Xn+1 = j|Xn = k, X0 = i) (Xn = k|X0 = i), k=1
mais par la proprit de Markov, on a :
(Xn+1 = j|Xn = k, X0 = i) = (Xn+1 = j|Xn = k),

donc : pij
(n+1)
= =
M k=1 (Xn+1 = (n) M k=1 pik pkj ,
j|Xn = k) (Xn = k|X0 = i)
ce qui exactement dire que dun point de vue matriciel : P (n+1) = P (n) P. Or par hypothse, on sait que P (n) = P n , donc la rcurrence passe. Remarque. On en dduit que pour tout couple dentiers naturels (m, n) : P (m+n) = P m+n = P m P n = P (m) P (n) . Cest plutt cette quation quon appelle relation de Chapman-Kolmogorov. Ce quon traduit comme suit : aller de i j en (m + n) pas, cest aller de i un certain k en m pas et de k j en n pas. Notation. Tout comme les transitions de la chane, la position initiale X0 peut tre alatoire. On convient de noter la loi de X0 comme un vecteur ligne de taille M : = [1 , . . . , M ] = [(X0 = 1), . . . , (X0 = M )] . De mme, on notera en vecteur ligne la loi de Xn :
(Xn ) = [(Xn = 1), . . . , (Xn = M )] .

Corollaire 3.1 (Loi marginale de la chane) Soit (Xn ) une chane de Markov de loi initiale et de matrice de transition P , alors pour tout entier naturel n, la loi de Xn est : (Xn ) = P n . Arnaud Guyader - Rennes 2 Esprance conditionnelle & Chanes de Markov
3.2. Equations de Chapman-Kolmogorov Preuve. Pour tout j {1, . . . , M }, on a :
103
(Xn = j) =
M i=1
(Xn = j, X0 = i) =
M i=1
(X0 = i) (Xn = j|X0 = i),
donc avec les notations adoptes :
(Xn = j) =
cest--dire :
M i=1
(n) i Pij
=
i=1
n i Pij ,
(Xn ) = P n .
Rappel. Pour une suite de variables alatoires (Xn )n0 valeurs dans un ensemble ni E = {1, . . . , M }, la loi de Xn est simplement le vecteur ligne (Xn ) = [(Xn = 1), . . . , (Xn = M )]. La convergence en loi correspond donc simplement la convergence de ce vecteur de taille M , cest--dire la convergence de chacune de ses M composantes. Puisque (Xn ) = P n , une condition susante pour la convergence en loi de (Xn ) est donc la convergence de la suite (P n )n0 des puissances de la matrice P . Exemple : La ligne tlphonique On note encore = [0 , 1 ] la loi initiale, probabilits que la ligne soit initialement libre ou occupe. La matrice de transition est : P = 1/2 1/2 1/3 2/3 .
Pour tudier les puissances successives de P , lide naturelle est de la diagonaliser. On obtient pour valeurs propres 1 (on le savait dj) et 1/6, vecteurs propres associs [1, 1] et [1/2, 1/3] . On en dduit la matrice de passage : 1 1/2 Q= , 1 1/3 ainsi que son inverse : Q1 = 2/5 3/5 6/5 6/5 1 0 0 0 2/5 3/5 2/5 3/5 .
En notant la matrice diagonale de coecients 1 et 1/6, on a donc : n =

n
do on dduit : P n P =
n
Ainsi, quelle que soit la loi initiale , on a convergence en loi :
(Xn ) = P n = n
2 3 , . 5 5
Interprtation : au bout dun certain temps (histoire doublier la condition initiale), on regarde ltat de la ligne. Il y a deux chances sur cinq pour quelle soit libre et trois chances sur cinq pour quelle soit occupe. Remarques. Esprance conditionnelle & Chanes de Markov Arnaud Guyader - Rennes 2
104
1 0 1
Chapitre 3. Chanes de Markov
Fig. 3.2 Graphe de transition pour une chane deux tats.
1. Une autre mthode pour tudier les puissances de P sur cet exemple trs simple est de noter 5 que P = I A, avec A2 = 6 A, et dappliquer la formule du binme. 2. On peut gnraliser le rsultat prcdent (voir gure 3.2). Si on considre la matrice de transition : 1 P = , 1 avec 0 < + < 2, on a : P n P =
n + + + +
En particulier, quelle que soit loi initiale , on a convergence en loi de (Xn ) vers le vecteur de probabilit + , + . 3. Si on se place dans le cas particulier = = 1, on na pas convergence de la suite des puissances de la matrice de transition P , puisque pour tout n 0 : P 2n = I2 P 2n+1 = P
Et, part dans le cas particulier o = [1/2, 1/2], on na pas convergence en loi de (Xn ). Ceci vient du phnomne de priodicit de la chane, nous y reviendrons plus tard. Il est important de voir ds maintenant que, mme lorsque la suite (P n ) converge, la convergence de la loi de Xn vers une loi indpendante de la condition initiale nest pas vraie pour toutes les chanes de Markov.
Fig. 3.3 Graphe de transition de la ruine du joueur.
Exemple : la ruine du joueur A joue contre B une suite de pile ou face non biaiss et indpendants. La somme de leurs fortunes est de 4e. A chaque partie, le joueur qui gagne reoit 1e. Le jeu sarrte lorsque lun des deux joueurs est ruin. Ltat Xn de la chane est la fortune de A ltape n, donc Xn {0, 1, 2, 3, 4}. Son graphe de transition est reprsent gure 3.3 et la matrice de transition est : 1 0 0 0 0 1/2 0 1/2 0 0 P = 0 1/2 0 1/2 0 . 0 0 1/2 0 1/2 0 0 0 0 1 Arnaud Guyader - Rennes 2 Esprance conditionnelle & Chanes de Markov
3.3. Classication des tats On vrie que :

n
105
P P
n
Et on voit que si la loi initiale est = [0 , . . . , 4 ], alors la loi asymptotique est : 1 1 1 1 3 3 = 0 + 1 + 2 + 3 , 0, 0, 0, 1 + 2 + 3 + 4 . 4 2 4 4 2 4 Au nal, lun des deux joueurs sera ruin, et ce avec une probabilit qui dpend de la rpartition initiale des 4e. Par exemple si A part avec 1e, alors il a trois chances sur quatre de nir ruin, tandis que sil part avec 2e, il na quune chance sur deux de nir ruin. Le graphe de transition pour P est donn gure 3.4. Le problme ici vient de lexistence de plusieurs classes de rcurrence, sujet sur lequel nous reviendrons par la suite.
1/4 0 1 2
1 3/4 1/2 1/4 0
0 0 0 0 0
0 0 0 0 0
0 0 0 1/4 0 1/2 . 0 3/4 0 1
1/2 3 3/4 4
Fig. 3.4 Transitions en temps inni pour la ruine du joueur.
Dnition 3.3 (Etat absorbant) On appelle tat absorbant tout tat tel que : une fois dans cet tat, la chane y reste. Autrement dit, ltat i est absorbant si pii = 1. Exemple. Dans le modle de la ruine du joueur, les tats 0 et 4 sont absorbants.
3.3
Classication des tats
Beaucoup de chanes ont la proprit suivante : dune part, la loi de Xn tend vers une limite ; dautre part, celle-ci est indpendante de la loi initiale . Cest par exemple le cas pour la ligne tlphonique, mais pas pour la ruine du joueur. On dit quelles sont ergodiques. Pour pouvoir les caractriser, il faut commencer par direncier les tats que la chane peut visiter une innit de fois (dits rcurrents) de ceux qui ne peuvent ltre quun nombre ni de fois (dits transitoires). Dnition 3.4 (Etats communicants) On dit que i communique avec j et on note i j sil existe une suite dindices i0 = i, i1 , . . . , in = j telle que : k {0, . . . , n 1} pik ,ik+1 > 0. Autrement dit, sur le graphe de transition, on peut aller de i j en un certain nombre dtapes. Remarques. i j ssi il existe n > 0 tel que : (P n )ij = (Xn = j|X0 = i) > 0. La communication entre tats est une relation transitive : si i j et j k, alors i k. Si i ne communique pas avec j, on note i j. Esprance conditionnelle & Chanes de Markov Arnaud Guyader - Rennes 2
106
Chapitre 3. Chanes de Markov Supposons que la chane soit initialement dans ltat i et notons : Ti = min{n 1 : Xn = i}, linstant de premier retour dans cet tat. Ti est une variable alatoire valeurs dans car il se peut quon ne revienne jamais, auquel cas Ti = +. On introduit donc : ri = (Ti < +|X0 = i). Dnition 3.5 (Etats transitoires, tats rcurrents) Avec les notations prcdentes, on dit que ltat i est : transitoire si ri < 1 ; rcurrent si ri = 1. Problme de cette dnition : en gnral, on ne sait pas calculer ri . Heureusement, il y a une faon commode de reconnatre un tat transitoire sur le graphe de transition dune chane de Markov. Proposition 3.2 (Transience et communication) Soit i {1, . . . , M }. Sil existe j tel que i j, mais j
{+},
i, alors i est transitoire. i. Alors la probabilit :
Preuve. Supposons i pour lequel il existe un tat j tel que i j, mais j rij = (Tj < +|X0 = i)
datteindre ltat j en un temps ni sachant quon est parti de ltat i est strictement positive. Mais puisque la probabilit de revenir en i une fois ltat j atteint est nulle, on a : ri 1 rij < 1.
Fig. 3.5 Une chane 7 tats. Exemple. On considre la chane 7 tats de la gure 3.5. 2 1, mais 1 2, donc 2 est transitoire. 3 4, mais 4 3, donc 3 est transitoire. Il reste deux ensembles : {1, 5} et {4, 6, 7}, lintrieur desquels il y a communication. Dnition 3.6 (Ensemble clos, ensemble irrductible) Un sous-ensemble A de E est clos, ou ferm, sil est impossible den sortir : i A, j A Arnaud Guyader - Rennes 2 pij=0
3.3. Classication des tats Un sous-ensemble B de E est irrductible si tous ses tats communiquent : (i, j) B B ij
107
Exemple. Dans lexemple de chane 7 tats ci-dessus, lensemble {1, 5} est ferm, lensemble {4, 6, 7} aussi. Mais alors {1, 4, 5, 6, 7} aussi, ainsi que {1, 2, 3, 4, 5, 6, 7}. Ces deux derniers exemples ne semblent pas bien pertinents, do la notion dirrductibilit pour prciser les choses : les ensembles {1}, {2}, {3}, {5}, {6}, {1, 5} et {4, 6, 7} sont irrductibles. Cette fois, ce sont les cinq premiers ensembles qui ne semblent pas pertinents. La proposition suivante prcise cette intuition. Proposition 3.3 (Ferm + Irrductible Rcurrents) Si un ensemble est ferm et irrductible, tous ses tats sont rcurrents. Exemple. Les seuls ensembles la fois ferms et irrductibles sont {1, 5} et {4, 6, 7}. De ce fait, les tats 1, 4, 5, 6 et 7 sont rcurrents. Preuve (heuristique). Elle se fait en deux tapes : La premire consiste remarquer que des tats communicants sont de mme nature : si i est rcurrent et si i j, alors j est rcurrent. Intuitivement : partons de j, alors on est sr de passer par i au bout dun temps ni, sinon on aurait une contradiction avec le fait que i est rcurrent et communique avec j. Or, chaque fois que la chane passe par i, elle a une probabilit non nulle daller vers j. Mais puisquelle passe une innit de fois par i (tat rcurrent), il est certain quelle nira bien par passer par j. En clair, partant de j, on est sr dy revenir en un temps ni. Dans un second temps, il reste voir que dans un ensemble ferm, il y a au moins un tat rcurrent. En eet, la chane va passer un temps inni dans cet ensemble, qui est de taille nie. Donc si elle passait un temps ni en chaque sommet, on aboutirait une contradiction.
On peut alors classer tous les tats dune chane de Markov. Thorme 3.1 (Partition de lensemble des tats) Soit E lespace dtats, alors on peut partitionner E comme suit : E = T R1 R k , o T est lensemble des tats transients et les Ri sont des classes de rcurrence, cest--dire des ensembles ferms et irrductibles dtats rcurrents. Preuve. Soit lensemble : T = {i E : j E, i j, j i}. Alors tout tat i de E est transient daprs ce qui a t vu plus haut. Montrons maintenant que tout tat i de E \ T est rcurrent : soit i E \ T et Ci = {j E : i j} Ci est clos puisque, pour tout j Ci , si j k, alors par transitivit i k donc k Ci ; ainsi, partant de Ci , on ne peut sortir. Par ailleurs, i ntant pas transitoire, pour tout j Ci , on a aussi j i. Ainsi, si j et k appartiennent Ci , j i et i k, donc j k : tous les tats de Ci communiquent et Ci est un ensemble clos et irrductible. Ci est donc une classe de rcurrence. Notons R1 = Ci . Si E = T R1 , la messe est dite. Sinon, on prend i E \ (T R1 ) et on itre le raisonnement. Puisque E est ni, on aboutira bien un nombre ni de classes de rcurrence. Esprance conditionnelle & Chanes de Markov Arnaud Guyader - Rennes 2
108
Exemple. Toujours dans le mme exemple, on a ainsi la partition (cf. gure 3.6) : E = T R1 R2 = {2, 3} {1, 5} {4, 6, 7}.
R1 T R2
Fig. 3.6 Partition de E pour la chane 7 tats.
Le cas confortable, et trs frquent, est celui o lespace dtats nest form que dune classe de rcurrence. Dnition 3.7 (Chane irrductible) Si E = R1 nest form que dune classe de rcurrence, on dit que la chane est irrductible. Sur le graphe de transition, ceci signie quon peut aller de nimporte quel sommet nimporte quel autre en un certain nombre dtapes. En thorie des graphes, cest ce quon appelle un graphe orient fortement connexe. Exemple. Si et sont strictement positifs, la chane deux tats est irrductible. Un cadre un peu plus gnral pour lequel les thormes asymptotiques du paragraphe suivant sappliqueront est celui o on a ventuellement, en plus, des tats transitoires. Dnition 3.8 (Chane indcomposable) Si E = T R1 est form dtats transitoires et dune seule classe de rcurrence, on dit que la chane est indcomposable. Exemples. Si > 0, mais = 0, la chane deux tats est indcomposable. La chane de la ruine du joueur nest ni irrductible, ni indcomposable, puisquelle a deux classes de rcurrence : E = T R1 R2 = {1, 2, 3} {0} {4}. Arnaud Guyader - Rennes 2 Esprance conditionnelle & Chanes de Markov
3.4. Comportement asymptotique
109
3.4
Comportement asymptotique
Le but de ce paragraphe est de faire le distinguo entre les direntes situations possibles pour la convergence en loi dune chane de Markov. On applique la notion dirrductibilit du paragraphe prcdent. Il faut de plus prciser le phnomne de priodicit que lon peut rencontrer dans certains modles.
1 0 1/3 1 2/3 2/3 2 1 1/3 3
Fig. 3.7 Graphe de transition pour le modle dEhrenfest.
Exemples. 1. La ligne tlphonique : si 0 < , < 1, on a convergence de la suite des puissances de matrices de transition (P n ) vers une matrice P dont toutes les lignes sont les mmes. Ceci assure la convergence en loi de la chane (Xn ). De plus, la loi de (Xn ) converge vers une loi de probabilit indpendante de la loi initiale de la chane. Cest la situation la plus confortable. 2. La ruine du joueur : on a encore convergence de la suite (P n ) vers une matrice P . Ceci implique quon a ici encore convergence en loi de la chane (Xn ). Nanmoins, puisque toutes les lignes de P ne sont pas gales, la loi limite de (Xn ) dpend de la loi initiale de la chane.
3. Modle dEhrenfest : on considre deux urnes A et B, contenant N boules elles deux, numrotes de 1 N . A chaque instant, on choisit un numro i {1, . . . , N } de faon quiprobable et on change durne la boule numro i. Ltat Xn de la chane est le nombre de boules linstant n dans lurne A. Par exemple, avec N = 3 boules (voir gure 3.7), on vrie quon na pas convergence de la suite (P n ), mais quon a convergence des deux sous-suites (P 2n ) et (P 2n+1 ). Plus prcisment, si on note Q et R les limites respectives de ces sous-suites, on a (voir aussi la gure 3.8) : 1/4 0 3/4 0 0 3/4 0 1/4 P 2n Q = 1/4 0 3/4 0 n+ 0 3/4 0 1/4 et : P 2n+1 R
n+
Ceci nest pas tonnant : le nombre de boules dans une urne change de parit chaque opration, donc on ne peut avoir convergence de (P n ). De mme, la loi de Xn dpend de la parit de n, donc il ny aura pas convergence en loi dans le cas gnral (i.e. sauf pour des lois initiales particulires). Dnition 3.9 (Priode dun tat) La priode di de ltat i est le plus grand entier naturel divisant tout nombre n tel que P n (i, i) > 0. Cest--dire en notant Zi = {n 1 : P n (i, i) > 0}, on a : di = pgcd(Zi ). Esprance conditionnelle & Chanes de Markov Arnaud Guyader - Rennes 2
0 3/4 0 1/4 1/4 0 3/4 0 = 0 3/4 0 1/4 1/4 0 3/4 0
110
Transitions paires

Transitions impaires
Fig. 3.8 Graphes de transition de P 2n et de P 2n+1 pour le modle dEhrenfest.
Si di = 1, on dit que i est apriodique. Si tous les tats sont apriodiques, on dit que la chane est apriodique. Exemples. 1. La ligne tlphonique : si 0 < , < 1, les deux tats sont apriodiques. 2. La ruine du joueur : les tats 0 et N sont apriodiques, tous les autres sont de priode 2. 3. Modle dEhrenfest : tous les tats sont de priode 2. Remarque. La priodicit est un phnomne thoriquement possible, mais trs rare en pratique. Proprits 3.2 (Autour de la priodicit) Si pii > 0, alors i est apriodique. Si i est apriodique, alors il existe n0 tel que : n n0 n Zi .
Si i et j communiquent, alors i et j ont mme priode. Si la chane est irrductible, tous les tats ont mme priode. Preuve. Il est clair que si on peut boucler sur ltat i, alors : Zi = {n 1 : P n (i, i) > 0} = , donc di = pgcd(Zi ) = 1. Puisque i est apriodique, il existe des entiers n1 , . . . , nk dans Zi dont le plus grand commun diviseur est 1. Mais alors le thorme de Bezout assure quil existe des entiers relatifs 1 , . . . , k tels que : 1 n1 + + k nk = 1. En notant + = sup(, 0) et = sup(, 0), on a donc :
k k
+ ni i
i=1
=1+
i=1
ni . i
Les deux sommes ci-dessus sont dans Zi comme sommes dlments de Zi et puisque Zi est stable pour laddition. Si on note :
k
N=
i=1
ni , i Esprance conditionnelle & Chanes de Markov
3.4. Comportement asymptotique on en dduit que les deux entiers positifs conscutifs N et (N + 1) sont dans Zi . Montrons alors que tout entier n tel que n N 2 1 est dans Zi . On eectue la division euclidienne de n par N : n = qN + r avec r < N. Puisque n N 2 1, on a q r et on peut crire q = r + r , do : n = r N + r(N + 1) n Zi , puisque N et (N + 1) sont dans Zi . Supposons que i et j communiquent, que i a pour priode d et j pour priode d < d. Puisque i et j communiquent, il existe deux entiers k et m tels que : (P k )ij > 0 et (P m )ji > 0.
111
Puisque la probabilit de revenir en i en (k + m) tapes vrie lingalit : (P k+m )ii (P k )ij (P m )ji > 0, on en dduit que (k + m) Zi . Mais puisque i a pour priode d, il sensuit que d divise (k + m). Par ailleurs, pour tout entier l de Zj , cest--dire tel que (P l )jj > 0, on a : (P k+l+m )ii (P k )ij (P l )jj (P m )ji > 0, de sorte que d divise (k + l + m). Mais puisquon vient de dire que d divise (k + m), on en dduit que d divise aussi l. Or ceci est vrai pour tout entier l de Zj , donc par dnition du plus grand commun diviseur, on en dduit que d divise d . Ceci contredit le fait que d < d. Ce point dcoule directement du prcdent.
Remarque. Sil existe n0 > 0 tel que i est apriodique.
(Xn0 = i|X0 = i) > 0 et (Xn0 +1 = i|X0 = i) > 0, ltat
1/2 1 2 3
1/2
Fig. 3.9 Triangle et carr.
Exemple : triangle et carr. On considre lexemple de la gure 3.9. Pour ltat 2, on a Z2 = {3, 4, 6, 7, . . .} donc d2 = 1. La chane tant irrductible, on en dduit que tous les tats sont apriodiques : cette chane est apriodique. Si on revient aux exemples du dbut de paragraphe, on voit que la situation o tout se passe bien est celle de la ligne tlphonique, la fois irrductible et apriodique. Cest ce que nous allons prciser maintenant.
112
Chapitre 3. Chanes de Markov Dnition 3.10 (Loi stationnaire) Un vecteur de probabilit ligne est une loi stationnaire, ou invariante, ou dquilibre, dune chane de Markov de matrice de transition P si : P = . Le vecteur de probabilit est stationnaire si cest un vecteur propre gauche de la matrice de transition P pour la valeur propre 1. Exemple. Pour la chane dEhrenfest 3 boules, on cherche donc = [0 , . . . , 3 ] tel que :
3 i=0 i
P = =1
Aprs calculs, on obtient : = 1 3 3 1 , , , , 8 8 8 8
cest--dire que la loi stationnaire correspond une loi binomiale B 3, 1 . De faon gnrale, pour 2 1 le modle dEhrenfest M boules, on montre quil y a une unique loi stationnaire B M, 2 . Lemme 3.1 Si X0 , alors pour tout n 0 : Xn . Preuve. On sait que si
(X0 ) = , alors (Xn ) = P n . Si X0 , on a donc : (Xn ) = P n = (P )P n1 = P n1 = = .
En physique, la loi stationnaire correspond ltat dquilibre pour le systme. Proprits 3.3 (Existence dune loi stationnaire) Pour toute matrice de transition P , il existe (au moins) une loi stationnaire . Preuve. Soit p0 un vecteur de probabilit ligne de taille M . On considre la suite (pn ) dnie par : 1 pn = n+1
n
p0 P i .
i=0
Lensemble P des lois de probabilits sur un ensemble M lments scrit : P = {p M : p1 + + pM = 1}. + Cest un compact de M (ferm et born), donc de toute suite dlments de P on peut extraire une sous-suite convergente dans P. Notons donc (pnk )k0 une telle sous-suite et sa probabilit limite. On veut montrer que est une loi stationnaire pour P . Il sut de remarquer que : p nk P = p nk + p0 P nk +1 p0 , nk + 1
et de passer la limite lorsque k tend vers linni pour obtenir : P = .
3.4. Comportement asymptotique Remarque. On a vu au dbut du chapitre que 1 est valeur propre de P , donc cest aussi une valeur propre de P . Ainsi il existe un vecteur colonne v non nul tel que P v = v, ce qui quivaut dire que v P = v . Ce qui est moins vident, cest de montrer quil existe un vecteur propre qui soit un vecteur de probabilit. Proposition 3.4 (Loi stationnaire et tats transitoires) Si est une loi stationnaire dune chane de Markov, alors pour tout tat i transitoire, on a i = 0. Preuve. On montre la contrapose, savoir : j > 0 implique j rcurrent. Soit donc j un tat tel que j > 0. Soit Nj le nombre de visites ltat j, cest--dire :
+
113
Nj =
n=1
{Xn =j} ,
+
de sorte que :
+
E[Nj |X0 = i] = On en dduit que :

M i=1
(Xn = j|X0 = i) =
M +
(P n )ij .
n=1
n=1
i E[Nj |X0 = i] =
i
i=1
(P n )ij
n=1
et tout tant positif, on peut intervertir les ordres de sommation :

M i=1 + M
i E[Nj |X0 = i] =
i (P n )ij
n=1 i=1
mais puisque P n = , cette dernire expression se simplie :

M i=1 +
i E[Nj |X0 = i] =
j = +.
n=1
Soit maintenant Tjk la date de k-me visite ltat j : Tjk = min{n > Tjk1 : Xn = j}, avec bien sr pour initialisation Tj0 = 0. Alors de la proprit de Markov on dduit que pour eectuer k visites ltat j partant linstant 0 de ltat i, il faut commencer par aller de ltat i ltat j, ce qui arrive avec probabilit rij , puis boucler (k 1) fois sur ltat j, ce qui arrive avec k1 probabilit rj . Autrement dit :
k1 (Tjk < +|X0 = i) = rij rj .
Rappelons que si une variable alatoire X est valeurs dans la forme :

+
, son esprance peut scrire sous
E[X] =
k=1
(X k),
rsultat que lon applique la variable alatoire Nj :

+
E[Nj |X0 = i] =
k=1
(Nj k|X0 = i).

114 Or
(Nj k|X0 = i) = (Tjk < +|X0 = i), donc :

+
E[Nj |X0 = i] =
k1 rij rj = k=1
rij , 1 rj
avec la convention 1/(1 rj ) = + si rj = 1. On en dduit :

M i=1 M
i E[Nj |X0 = i] =
i
i=1
rij 1 rj
i
i=1
1 1 = . 1 rj 1 rj
Si on rapproche les deux rsultats obtenus, on a donc : 1 +, 1 rj cest--dire que rj = 1, et ltat j est rcurrent. La loi stationnaire nest pas ncessairement unique, comme le montre lexemple dune chane de Markov deux tats de matrice de transition P = I. Pour avoir unicit de la loi stationnaire, il ne faut avoir quune classe de rcurrence. Proposition 3.5 (Irrductibilit Unicit de la loi stationnaire) Si la chane est irrductible, alors la loi stationnaire est unique. De plus i > 0 pour tout tat i de E. Preuve. Soit une loi stationnaire dune chane de Markov irrductible. On commence par prouver que toutes les coordonnes de sont strictement positives. Puisque est un vecteur de probabilit, il est clair quil existe un tat i tel que i > 0. Soit alors j un autre tat : tant donn que la chane est irrductible, il existe k tel que (P k )ij > 0. On utilise alors la stationnarit de , qui implique en particulier P k = :
M
j =
l=1
l (P k )lj i (P k )ij > 0.
Passons lunicit de . On sait quil existe une loi stationnaire par la proposition 3.3. Pour montrer quelle est unique, il sut de prouver que le sous-espace propre associ la valeur propre 1 est de dimension 1 pour P . Mais puisquune matrice et sa transpose ont mmes valeurs propres avec mmes ordres de multiplicit, et quon sait que le vecteur constant e = [1, . . . , 1] vrie P e = e, il nous sut de montrer que tout vecteur f = [f1 , . . . , fM ] vriant P f = f est constant, cest--dire brivement : P f = f f1 = = fM . Si u et v sont deux vecteurs (colonnes), on convient de noter uv le vecteur dni par : i {1, . . . , M } (uv)i = ui vi ,
et u2 le vecteur colonne uu. Introduisons loprateur : : On vrie que :

M
M M
f
(f ) = f 2 2f (P f ) + P (f 2 )
i {1, . . . , M } Arnaud Guyader - Rennes 2
(f )i =
j=1
Pij (fi fj )2 0
(+)
3.4. Comportement asymptotique Par ailleurs, puisque est stationnaire, on a P (f 2 ) = (f 2 ), donc : (f ) = 2((f 2 ) f (P f )) = 2(f (f P f )). Donc si f est un vecteur propre de P pour la valeur propre 1, on dduit de lquation ci-dessus que : (f ) = 2(f (f P f )) = 0, mais on a aussi simplement :
M
115
(f ) =
i=1
i (f )i ,
avec (f )i 0 pour tout i daprs ci-dessus, et i > 0 puisque la chane est irrductible. On dduit des deux dernires quations que : i {1, . . . , M } (f )i = 0
Et, nouveau grce (+), on conclut que si Pij > 0, alors fi = fj . Et puisque la chane est irrductible, on en dduit de proche en proche que : (i, j) {1, . . . , M }2 ce qui nit la dmonstration. fi = fj ,
Exemple. Pour le modle de ruine du joueur, si on cherche rsoudre le systme dquations P = , on obtient une innit de vecteurs de probabilits solutions, tous ceux de la forme : = [p, 0, 0, 0, 1 p], avec p loisible entre 0 et 1. Ceci est bien sr d au fait que la chane nest pas irrductible : il y a deux classes de rcurrence correspondant aux deux tats absorbants. Remarquons nanmoins que tout vecteur de probabilit solution est nul sur les tats rcurrents 1, 2 et 3, comme annonc en proposition 3.4. Remarque. En fait, ce rsultat est encore vrai si on suppose seulement que la chane est indcomposable. Dans ce cas, on a vu que lunique loi stationnaire vaut 0 sur tous les tats transients. Ceci permet de gagner du temps dans la rsolution du systme linaire P = . Mme si la loi stationnaire est unique, on nest pas assur de la convergence de la loi de Xn vers : les phnomnes de priodicit peuvent poser problme, comme on la vu dans le modle dEhrenfest. Thorme 3.2 (Convergence en loi) Si la chane est irrductible et apriodique, de loi stationnaire , alors : (i, j) {1, . . . , M } pij j
n (n)
En particulier, pour toute loi initiale , la loi de Xn converge vers :
(Xn ) = P n n
Esprance conditionnelle & Chanes de Markov Arnaud Guyader - Rennes 2
116
Chapitre 3. Chanes de Markov Remarque. Une autre faon dexprimer le rsultat ci-dessus est de dire que la suite de matrices (P n ) converge vers une matrice dont toutes les lignes sont gales : 1 . . . M . . n . P = . = . n+ . . 1 . . . M p((i1 , i2 ), (j1 , j2 )) = pi1 j1 pi2 j2 . En dautres termes, on introduit une chane de Markov deux coordonnes, chacune se dplaant indpendamment suivant la dynamique donne par P . On commence par vrier que cette nouvelle chane est irrductible. Puisque P lest, il existe deux entiers k et l tels que : (P k )i1 j1 > 0 et (P l )i2 j2 > 0.
Preuve. Soit S = E E et la probabilit de transition p sur S comme suit :
Puisque j1 et j2 sont apriodiques, alors par le deuxime point des proprits 3.2, on sait que pour m assez grand on a : (P l+m )j1 j1 > 0 et (P k+m )j2 j2 > 0, On crit alors : p(k+l+m) ((i1 , i2 ), (j1 , j2 )) = (P k+l+m )i1 j1 (P k+l+m )i2 j2 . de sorte que : p(k+l+m) ((i1 , i2 ), (j1 , j2 )) = (P k )i1 j1 (P l+m )j1 j1 (P l )i2 j2 (P k+m )j2 j2 > 0, et la chane p est donc irrductible. On vrie alors facilement que lunique loi stationnaire de p est . Soit (Xn , Yn ) la chane sur S, soit T le premier instant auquel les deux coordonnes sont gales : T = min{n 0 : Xn = Yn }, et soit Vii linstant de premire visite de ltat (i, i) : Vii = min{n 0 : Xn = Yn = i}. Puisque P est irrductible, on a Vii < + presque srement et puisque T Vii , on en dduit que T est ni presque srement. On veut maintenant prouver que sur lvnement {T n}, Xn et Yn ont mme loi. Pour cela on crit :
(Xn = j, T n) =
n
(T = m, Xm = i, Xn = j)
m=1 i=1
que lon simplie grce la proprit de Markov :
(Xn = j, T n) =
(Xn = j|Xm = i)(T = m, Xm = i).
m=1 i=1
Par dnition de T et puisque Xn et Yn ont mme dynamique :
(Xn = j, T n) =
(Yn = j|Ym = i)(T = m, Ym = i),

m=1 i=1
3.4. Comportement asymptotique et en remontant les quations avec Y au lieu de X, on arrive donc :
117
(Xn = j, T n) = (Yn = j, T n).

On a alors :
(Xn = j) = (Xn = j, T n) + (Xn = j, T > n) = (Yn = j, T n) + (Xn = j, T > n),

ce qui se majore facilement :
(Xn = j) (Yn = j) + (Xn = j, T > n).

De faon symtrique on a :
(Yn = j) (Xn = j) + (Yn = j, T > n).

Mais puisque le maximum de deux nombres positifs est infrieur leur somme, on a alors : |(Xn = j) (Yn = j)| (Xn = j, T > n) + (Yn = j, T > n), et en sommant sur j :
M j=1
|(Xn = j) (Yn = j)| 2(T > n).
Si on considre comme conditions initiales X0 = x et Y0 , il vient :

M j=1
|(Xn = j|X0 = x) j | 2(T > n).
Mais puisque T est presque srement nie, on a :
(T > n) 0, n+
do on dduit :
M j=1
|(Xn = j|X0 = x) j | 0,
n+
donc a fortiori : (i, j) {1, . . . , M } et la convergence en loi est prouve.
pij j ,
n
(n)
Rappel. Soit (Xn ) une suite de variables alatoires i.i.d. valeurs dans lespace dtats ni {1, . . . , M } et de loi commune , alors pour toute fonction f : {1, . . . , M } , on a : 1 n
n k=1
f (Xk )
n
p.s.
f i i
i=1
Cest ce quon appelle la loi forte des grands nombres. On montre (mais nous ladmettrons...) que ceci est encore vrai pour des variables qui ne sont plus indpendantes, mais dpendance markovienne, si tant est que la loi soit dnie de faon unique !
118
Chapitre 3. Chanes de Markov Thorme 3.3 (Loi forte des grands nombres) Soit (Xn ) irrductible de loi stationnaire , soit f : E une fonction, alors : 1 n
n k=1
f (Xk )
n
p.s.
f i i
i=1
Remarque. Ainsi, la loi des grands nombres est vrie sous des hypothses moins fortes que la convergence en loi. Ceci nest pas tonnant car il y a un phnomne de moyennisation sur lensemble dune trajectoire, qui fait que lventuelle priodicit de la chane nest pas gnante. La loi des grands nombres nous renseigne en particulier sur le temps relatif pass par une trajectoire de la chane dans chacun des tats et donne une interprtation simple de la loi dquilibre . Corollaire 3.2 (Temps moyen dans chaque tat) Soit (Xn ) irrductible de loi stationnaire , alors le temps relatif pass par une trajectoire de la chane dans ltat i converge presque srement vers i : 1 n
n k=1
{Xk =i} i n
p.s.
Preuve. Il sut dappliquer la loi forte des grands nombres la fonction f: E x {x=i}
Sa moyenne sous vaut bien sr i et la somme : 1 n

n k=1
{Xk =i}
compte le nombre de passages de la chane par ltat i sur le nombre total dtapes : quantit que lon peut interprter comme le temps relatif pass dans ltat i entre les dates 1 et n.
Exemples. 1. Dans le modle de la ligne tlphonique, sur un intervalle de temps assez long, celle-ci est donc occupe les trois cinquimes du temps. 2. Dans le modle dEhrenfest 3 boules, il y a 1 ou 2 boules dans lurne A les trois quarts du temps. 3. Pour le modle dEhrenfest M boules, on a vu que la loi stationnaire est une loi binomiale B M, 1 . Donc, si M est grand, se comporte peu de choses prs comme un loi normale : 2 N M M , 2 4 .
La moyenne du nombre de boules dans lurne A est M/2, ctait intuitivement vident puisquil ny aucune dissymtrie entre les deux urnes. De plus, la proportion du temps passe avec un nombre de boules compris entre M/2 M et M/2 + M est de lordre de 95%. Arnaud Guyader - Rennes 2 Esprance conditionnelle & Chanes de Markov
3.5. Exercices Application. Si on considre M = 10000 dans le modle dEhrenfest et quon observe le comportement de la chane sur une longue priode de temps, il y aura en gros entre 4900 et 5100 boules dans les deux urnes pendant 95% du temps. Considrer de grandes valeurs pour M nest pas farfelu puisquEhrenfest a dvelopp son modle pour la physique statistique, les boules correspondant des molcules, donc en trs grand nombre. Remarque : Chane indcomposable. Les rsultats asymptotiques (convergence en loi et loi des grands nombres) sont encore vris si on suppose seulement la chane indcomposable. Pour la convergence en loi, aucune hypothse de priodicit nest requise sur les tats transients, car de toute faon la chane va les quitter au bout dun certain temps. Rsultat que lon retrouve dans la loi des grands nombres : puisque i = 0 pour tout tat transitoire, le temps relatif pass par la chane dans ltat i tend vers zro avec n.
En rsum, jaimerais avoir un message un peu positif vous transmettre... Je nen ai pas. Est-ce que deux messages ngatifs, a vous irait ? Woody Allen.
119
3.5
Exercices
Exercice 3.1 (Lancers de pice) On lance une pice quilibre : les rsultats des lancers sont des variables alatoires indpendantes Y0 , Y1 , . . . valeurs 0 ou 1. Pour tout n 1, on note Xn = Yn + Yn1 . 1. Calculer
(X3 = 0|X1 = 0, X2 = 1) et (X3 = 0|X2 = 1).
2. Est-ce que (Xn ) est une chane de Markov ? Corrig 1. Si X1 = 0 et X2 = 1, ceci signie que Y0 = Y1 = 0 et Y2 = 1, auquel cas X3 {1, 2}, donc (X3 = 0|X1 = 0, X2 = 1) = 0. Par contre
(X3 = 0|X2 = 1) =
(Y3 = 0, Y2 = 0, Y1 = 1) (1/2)3 1 = = . (X2 = 1) 1/2 4
2. Lexemple ci-dessus montre que (Xn ) nest pas une chane de Markov. Les situations des exercices suivants sont modlises par des chanes de Markov. Donner dans chaque cas la matrice et le graphe de transition associs. Exercice 3.2 (Le rat et le labyrinthe) Un rat se dplace dans un labyrinthe qui comporte neuf compartiments (voir gure 3.10). A chaque tape, il change de compartiment. Lorsquil est dans un compartiment k portes, il choisit lune de ces k portes de faon quiprobable. Xn est le numro du compartiment dans lequel se trouve le rat ltape n. Exercice 3.3 (La roulette de la lose) On joue la roulette : il y a 18 numros rouges, 18 numros noirs et 1 vert, le numro zro. On joue rouge pour 1e chaque fois. On commence avec 50e et on sarrte si on a 100e ou si on est ruin. Xn est notre fortune aprs n coups.
120
1 4 7
2 5 8
3 6 9
Fig. 3.10 Labyrinthe
Exercice 3.4 (Gare au gorille) Un zoo a reu six gorilles, trois mles et trois femelles rpartis au hasard en deux cages de trois singes. Le directeur presbyte, incapable de discerner les sexes, dcide de favoriser leur reproduction en permutant chaque semaine deux pensionnaires pris au hasard, un dans chaque cage. Xn est le nombre de guenons prsentes la semaine n dans la premire cage. Exercice 3.5 (Modle de diusion dEhrenfest) On considre deux urnes A et B, contenant N boules elles deux, numrotes de 1 N . A chaque instant, on choisit un numro i {1, . . . , N } de faon quiprobable et on change durne la boule numro i. Ltat Xn de la chane est le nombre de boules linstant n dans lurne A. Exercice 3.6 (Singin in the rain) Un employ se rend chaque matin pied de son appartement son bureau et fait le contraire le soir. Il dispose en tout de 3 parapluies, certains chez lui, les autres au bureau. A Rennes, ville peu ensoleille, il pleut 2 fois sur 3 lorsquil fait le trajet, et ce indpendamment du pass. Xn est le nombre de parapluies son domicile lorsquil le quitte le matin. Exercice 3.7 (La Suisse (son chocolat, ses banques, son temps mesur)) Un magasin suisse vend des horloges, entre 0 et 3 par jour, avec les probabilits : p = [p0 , p1 , p2 , p3 ] = [0.3, 0.4, 0.2, 0.1] Chaque soir, le grant peut en commander nouveau, qui seront disponibles en magasin le matin. On dit que lhelvte applique une mthode (i, j)0i<j3 sil passe commande lorsqu la fermeture il lui reste un nombre infrieur ou gal i en stock an den avoir j en magasin le matin suivant. Xn est le nombre dhorloges dans le magasin le soir la fermeture. 1. Mthode (2, 3) : donner la matrice de transition. 2. Mmes questions avec les mthodes (1, 3) et (0, 3). Exercice 3.8 (Un jeudi soir rue Saint-Michel) Un tudiant rennais, passablement enivr aprs moult boissons frelates, part dun point dorigine et chaque instant avance dune unit avec probabilit p et recule avec probabilit (1 p). Ltat Xn de la chane est labscisse de livrogne ltape n. Remarque : ce modle est appel marche alatoire sur . Par rapport aux situations prcdentes, lespace dtats est inni. Ltude thorique des chanes de Markov espace dtats inni est plus dlicate, nous ne la verrons pas en cours.
3.5. Exercices Exercice 3.9 (Collections et problmes de caries) 1. Soit T une variable alatoire gomtrique de paramtre p ]0, 1[, cest--dire que T est valeurs dans et pour tout k : (T = k) = p(1 p)k1 . Dterminer lesprance de T. 2. Un enfant collectionne des images. Son album comporte N images. Chaque jour, il achte une tablette de chocolat, dans laquelle il y a une image. Soit Xn le nombre dimages distinctes dont dispose lenfant au soir du jour n, avec la convention X0 = 0. Donner matrice et graphe de transition de (Xn ). 3. Pour i {1, . . . , N }, soit Ti la variable alatoire dnie par : Ti = min{n 1 | Xn = i} Que signie concrtement Ti ? Et (Ti+1 Ti ) ? Donner la loi de (Ti+1 Ti ), cest--dire : k
121
(Ti+1 Ti = k).
4. En dduire E[Ti+1 Ti ], puis E[TN ] et enn un quivalent de E[TN ] (rappel : 1 + 1/2 + + 1/N ln N ). Interprter. Dterminer approximativement le nombre de tablettes de chocolat quil devra manger sil veut complter son album de 100 images1 . 5. Application : on lance un d six faces jusqu ce quon ait vu les six numros sortir. Combien de fois en moyenne va-t-il falloir lancer le d ? Corrig 1. On a : E[T ] =
k=1 +
k(T = k) =
+ k=1
kp(1 p)k1 = p
k=1
k(1 p)k1 .
On reconnat une srie entire de type 1 1 xk . Or la drive de 1x est (1x)2 , donc : E[T ] = p
kxk1 ,
drive terme terme de la srie entire
1 1 = . 2 (1 (1 p)) p
2. Pour tout n 1, Xn est donc compris entre 1 et N et on a bien sr X1 = 1. Dans la matrice de transition, de taille N , seules la diagonale et la surdiagonale ne sont pas nulles, avec P (i, i) = P (i, i + 1) =
i N N i N
Tous les tats sont transitoires, sauf ltat {N }, qui est absorbant. La seule loi stationnaire
1 2 N
Fig. 3.11 Graphe de transition pour la collection dimages. est donc dterministe : cest = [0, . . . , 0, 1], ce quon vrie sans problme par la rsolution du systme P = .
1
On trouvera plus dinformations sur ce thme dans le livre de Gilles Pags et Claude Bouzitat [6].
122
Chapitre 3. Chanes de Markov 3. Ti correspond au nombre de jours ncessaires pour avoir i images distinctes. (Ti+1 Ti ) est le nombre de jours ncessaire pour obtenir une (i + 1)-me nouvelle image. Si au jour n on a i i images, la probabilit de ne pas en avoir de nouvelle le jour suivant est N , celle den avoir i une nouvelle tant NN . La probabilit (Ti+1 Ti = k) est la probabilit de ne pas avoir de nouvelle image pendant (k 1) jours et den avoir une nouvelle le k-me jour. On a donc :
(Ti+1 Ti = k) =
N i N
i N
k1
.
N i N .
4. La premire question donne alors : E[Ti+1 Ti ] =
Autrement dit (Ti+1 Ti ) suit une loi gomtrique de paramtre

N N i .
Par linarit de lesprance :
E[TN ] = E[TN TN 1 ] + + E[T2 T1 ] + E[T1 ], or il est clair que T1 = 1, donc E[T1 ] = 1. Ainsi : E[TN ] =
N 1 i=0
N =N N i
N k=1
1 N ln N. k
5. Application : on lance un d six faces jusqu ce quon ait vu les six numros sortir. Le problme est rigoureusement le mme. Le nombre moyen de lancers ncessaires est donc : E[T ] = E[T6 ] = 6 1 + 1 1 1 1 1 + + + + 2 3 4 5 6 14, 7.
En moyenne, il faut donc environ N ln N jours lenfant pour complter son album. Sil y a 100 images dans lalbum, il faut environ 100 ln(100) 460 jours pour le complter2 .
Exercice 3.10 (Flash-back) On revient sur certains exercices dj vus : le labyrinthe, la roulette, les gorilles priapiques, le modle dEhrenfest, les parapluies, les horloges, la collection. 1. La chane est-elle irrductible ? indcomposable ? 2. Dterminer la (ou les) loi(s) stationnaire(s). 3. Pour les chanes irrductibles, prciser la priodicit. Exercice 3.11 (Classication dtats) On considre la matrice de transition suivante : P = .4 0 .5 0 0 .3 .3 0 0 .5 0 .5 0 0 .5 0 0 .5 0 .5 0 .3 0 .3 .4
1. Quels sont les tats rcurrents, quels sont les tats transitoires ? 2. Dterminer la (ou les) loi(s) stationnaire(s).
` Le rsultat exact est : 100 1 + relative denviron 10%.
2 1 2
+ +
1 100
519. Lapproximation par lquivalent donne donc une erreur
3.5. Exercices Corrig 1. On a 1 2, mais 2 1, donc 1 est transient. De mme 3 2, mais 2 3. De mme 5 2, mais 2 5. Par contre, on a 2 4 et 4 2. Ainsi, il y trois tats transitoires, T = {1, 3, 5}, et une unique classe de rcurrence, R1 = {2, 4}.
123
2. Il ny a quune classe de rcurrence donc la chane est irrductible et il y a unicit de la loi stationnaire = [1 , 2 , 3 , 4 , 5 ]. On a alors sans calcul : 1 = 3 = 5 = 0. Il reste rsoudre le systme P = avec les deux quations restantes : ceci donne 2 = 4 = 1/2.
Exercice 3.12 (Trac routier) Sur une route, en moyenne, trois camions sur quatre sont suivis par une voiture, tandis que seule une voiture sur cinq est suivie par un camion. Dterminer les proportions de voitures et de camions sur cette route. Corrig Si on se place un endroit donn de la route, on note (Xn ) la chane de Markov deux valeurs : Xn = 1 si le n-me vhicule quon voit passer est une voiture, Xn = 2 si cest un camion. Les hypothses donnent alors la matrice de transition suivante : P = 4/5 1/5 3/4 1/4
Cette chane est clairement irrductible. On dtermine sa loi stationnaire en rsolvant le systme P = , ce qui donne : 15 4 , . = 19 19 Ceci correspond aux proportions respectives de voitures et de camions sur cette route. Exercice 3.13 (Mujeres al borde de un ataque de nervios) Un jour donn, Aude est soit nerve , soit grognon, soit de bonne humeur. Si elle est nerve aujourdhui, elle sera nerve ou grognon ou de bonne humeur demain avec probabilits 0.7, 0.2 et 0.1 respectivement. Si elle est grognon aujourdhui, elle sera nerve ou grognon ou de bonne humeur demain avec probabilits 0.4, 0.3 et 0.3 respectivement. Si elle est de bonne humeur aujourdhui, elle sera nerve ou grognon ou de bonne humeur demain avec probabilits 0.2, 0.4 et 0.4 respectivement. En moyenne, combien de jours par an Aude est-elle nerve ? Connaissant Aude, ce modle vous semble-t-il raliste ? Exercice 3.14 (Boules et urnes) On considre 4 boules numrotes de 1 4, rparties en deux urnes A et B. A chaque instant, on tire un nombre k au hasard entre 1 et 4, on enlve la boule numro k de lurne dans laquelle elle se trouve et on la remet au hasard dans lune des deux urnes. On note Xn le nombre de boules dans lurne A linstant n. 1. Donner la matrice et le graphe de transition de (Xn ). 2. La chane est-elle irrductible ? apriodique ? 3. Loi(s) stationnaire(s) ? 4. On commence avec lurne A vide. Au bout dun temps suppos assez grand, on observe le nombre de boules dans lurne A. Quelle est ( peu de choses prs) la probabilit que ce nombre soit pair ? Esprance conditionnelle & Chanes de Markov Arnaud Guyader - Rennes 2
124
Chapitre 3. Chanes de Markov 5. On commence avec lurne A pleine. On observe une ralisation (X0 , X1 , . . . , Xn , . . . ) de la chane. Quelle est la proportion du temps o il y a strictement moins de boules dans A que dans B ? 6. Gnraliser ltude prcdente avec M boules numrotes de 1 M .
Corrig Cet exercice est corrig en annexe, sujet de juin 2005. Exercice 3.15 (Changements de signes) On considre la chane de Markov (Xn ) valeurs dans {N, . . . , N } \ {0}, dnie pour tout n 1 par : Xn = signe(Xn1 )Zn , o les Zn sont indpendantes et identiquement distribues de loi uniforme sur lensemble {1, . . . , N } et avec la convention : signe(x) = 1 si x > 0, et signe(x) = 1 si x < 0. 1. Donner la matrice de transition P de cette chane. Dterminer P n selon la parit de n. 2. La chane est-elle irrductible ? apriodique ? 3. Dterminer la loi stationnaire de la chane. Comparer limn P n . Corrig 1. P est une matrice de taille 2N . Soit J la matrice carre de taille N ne comportant que des 1, [0] la matrice carre de taille N ne comportant que des 0. Alors P se dcrit trs simplement par blocs : 1 [0] J . P = N J [0] Puisque J 2 = N J, on a pour tout n 1 : J n = N n1 J. Le calcul des puissances de P se fait trs simplement par blocs et on obtient pour tout n 1 : P 2n = P et P 2n+1 = 1 N J [0] [0] J .
2. Tous les tats communiquent donc la chane est irrductible. Tous les tats sont clairement de priode 2. 3. La chane tant irrductible, elle admet une unique loi stationnaire , solution de P = . La rsolution du systme donne la loi uniforme sur les 2N tats : = 1 1 ,..., . 2N 2N
On na pas limn P n = , o serait la matrice aux lignes identiques, toutes gales . Ceci vient du fait que la chane nest pas apriodique. Exercice 3.16 (Bistochasticit et Monopoly) 1. On dit quune matrice de transition (ou matrice stochastique) P est bistochastique si la somme de chaque colonne est aussi gale 1. Soit (Xn ) une chane de Markov ayant une telle matrice comme matrice de transition : vrier que la loi uniforme est une loi stationnaire de cette chane. 2. Un jeu du genre Monopoly a dix cases (voir gure 3.12 droite). On part de la case 0 et on lance un d quilibr six faces pour avancer le pion. Xn est la position du pion aprs le n-me lancer. Arnaud Guyader - Rennes 2 Esprance conditionnelle & Chanes de Markov
3.5. Exercices (a) Dterminer la matrice de transition de la chane de Markov (Xn ). (b) La chane est-elle irrductible ? apriodique ? (c) Dterminer la (ou les) loi(s) stationnaire(s).
125
1 D B 0 9 8
Fig. 3.12 Ttradre et Monopoly
Exercice 3.17 (Le scarabe) Un scarabe se dplace sur les artes dun ttradre rgulier (voir gure 3.12 gauche). Quel que soit le sommet o il se trouve un instant donn, il choisit au hasard et de faon quiprobable le sommet vers lequel il va se diriger. Il lui faut une unit de temps pour latteindre. On suppose de plus que le scarabe se dplace en continu, cest--dire quil ne sarrte jamais en un sommet. Xn est la position du scarabe linstant n. 1. Dterminer la matrice de transition de la chane de Markov (Xn ). Loi(s) stationnaire(s) ? 2. A-t-on convergence en loi de (Xn ) ? 3. Le scarabe paye 1e chaque fois quil passe au sommet A, 2e chaque fois quil passe au sommet B, 3e chaque fois quil passe au sommet C, 4e chaque fois quil passe au sommet D. Soit CN le cot de sa trajectoire jusqu linstant N . Que dire de la convergence de CN ? N 4. Supposons maintenant quen chaque sommet, le scarabe reste sur place avec probabilit 7/10 et parte vers chacun des autres sommets avec probabilit 1/10. Que deviennent les rsultats prcdents ? Corrig 1. La matrice de transition P de la chane de Markov (Xn ) a des coecients 1/3 partout sauf sur sa diagonale. Cette chane est une marche alatoire sur un graphe connexe, et lunique loi stationnaire est la loi uniforme = [0.25, 0.25, 0.25, 0.25]. Ceci nest pas tonnant puisquon peut tout aussi bien remarquer que la matrice P est bistochastique. 2. Partant du sommet A, on peut y revenir en 2 coups, 3 coups, 4 coups, etc. Donc A est apriodique. Puisque tous les sommets communiquent, ils sont tous apriodiques et la chane est apriodique. On a donc convergence de la loi de (Xn ) vers . 3. Par contre, on a le thorme ergodique, i.e. la convergence presque sre de la suite de variables alatoires ( CN ) vers le cot moyen, savoir 1+2+3+4 = 2.5 e. N 4 4. La chane est bistochastique donc la loi stationnaire est toujours la loi uniforme . On na plus de priodicit, donc il y a convergence en loi : la loi de Xn tend vers . A fortiori, on a la loi des grands nombres.
126
Chapitre 3. Chanes de Markov Exercice 3.18 (Le coup du parapluie) Un employ lambda, appelons le Franz Kafka, se rend chaque matin de son appartement son bureau et fait le contraire le soir. Il dispose en tout de 3 parapluies, certains chez lui, les autres au bureau. A Prague, ville peu ensoleille au del du raisonnable, il pleut 2 fois sur 3 lorsquil fait le trajet, et ce indpendamment du pass. Soit Xn le nombre de parapluies son domicile lorsquil le quitte le matin. 1. Dterminer la matrice de transition de la chane de Markov associe. 2. Quelle est la proportion du temps o Kafka est mouill ? 3. Gnraliser avec n parapluies. Corrig 1. La chane de Markov associe a pour matrice de 1/3 2/3 2/9 5/9 P = 0 2/9 0 0 =[ transition : 0 0 2/9 0 5/9 2/9 2/9 7/9
2. Aprs calculs, lunique loi stationnaire est :
1 3 3 3 , , , ]. 10 10 10 10
Sur un trajet du matin, Kafka est mouill sil na aucun parapluie chez lui et quil pleut : 1 1 ceci arrive avec probabilit : 10 2 = 15 . Sur un trajet du soir, il est mouill sil na aucun 3 parapluie au bureau (i.e. ils taient tous au domicile le matin et il faisait beau le matin) et 2 1 3 quil pleut : ceci arrive avec probabilit : 10 1 3 = 15 . Que ce soit le matin ou le soir, 3 Kafka est mouill une fois sur quinze. 3. La gnralisation avec n parapluies ne pose pas problme : les lignes de la matrice de transition sont les mmes que ci-dessus. La loi stationnaire est cette fois =[ 3 3 1 , ,..., ]. 3n + 1 3n + 1 3n + 1
2 9n+3 .
Et que ce soit laller ou au retour, Kafka est mouill avec probabilit
Exercice 3.19 (Modle pidmiologique) On considre lvolution dun virus dans une population de taille N . Au jour n, il y a Xn individus infects et Sn = (N Xn ) individus sains. Le jour suivant, les Xn individus prcdemment infects sont sains, mais chacun des Sn individus prcdemment sains a eu une probabilit p de rencontrer chacun des In infects de la veille et donc de contracter linfection, toutes ces rencontres tant indpendantes lune de lautre. Il est clair que si personne nest infect, il en sera de mme le lendemain. Le paramtre p est appel taux de contact infectieux. 1. On suppose que la population ne compte que 3 individus et que le taux de contact infectieux est p = 1/3. (a) Donner matrice et graphe de transition de la chane de Markov (Xn ). (b) La chane est-elle irrductible ? indcomposable ? (c) Dterminer la (ou les) loi(s) stationnaire(s). Interprter. 2. On suppose toujours avoir une population de 3 individus, mais le taux de contact infectieux est le paramtre p ]0, 1[. En notant q = (1 p), donner le graphe de transition. Loi(s) stationnaire(s) ? Arnaud Guyader - Rennes 2 Esprance conditionnelle & Chanes de Markov
3.5. Exercices 3. On suppose maintenant une population de N individus, avec taux de contact infectieux p ]0, 1[. Justier le fait que (Xn ) admet pour probabilits de transition :
j pij = CN i (1 q i )q i(N ij) {i+jN } .
127
Corrig Le corrig est donn en annexe, sujet de juin 2006. Exercice 3.20 (Pile ou Face) On joue une suite innie de Pile ou Face non biaiss : ceci fournit une suite de variables alatoires (Xn )n0 indpendantes et identiquement distribues avec (Xn = P ) = (Xn = F ) = 1/2. A partir de cette suite on considre la chane de Markov (Yn )n1 dnie par : Y1 = (X0 , X1 ), Y2 = (X1 , X2 ), et de faon gnrale Yn = (Xn1 , Xn ) pour tout n 1. Cette chane est donc valeurs dans lespace dtats : E = {E1 , E2 , E3 , E4 } = {(P, F ), (F, F ), (F, P ), (P, P )}. 1. 2. 3. 4. Donner la matrice et le graphe de transition de (Yn ). La chane est-elle irrductible, apriodique ? Loi(s) stationnaire(s) ? Retrouver le rsultat de la question prcdente en calculant directement la loi de Yn :
(Yn ) = [(Yn = E1 ), (Yn = E2 ), (Yn = E3 ), (Yn = E4 )] .

Corrig Le corrig est donn en annexe, sujet de mai 2007. Exercice 3.21 (Mai 2008) Soit lespace dtats E = {1, 2, 3, 4} dune chane de Markov homogne. 1. Complter la matrice suivante pour quelle soit une matrice de transition : . 1 0 0 2 . 2 0 0 3 P = 0 . 1 1 2 2 1 1 . 0 2 4 2. 3. 4. 5.
Reprsenter le graphe associ. La chane est-elle irrductible ? Indcomposable ? Dterminer la (ou les) loi(s) stationnaire(s). On considre quau temps 0, on est dans ltat 3. Pour un grand nombre dunit de temps n, quelles sont les probabilits quon soit dans chacun des quatre tats ?
Corrig Le corrig est donn en annexe, sujet de mai 2008. Exercice 3.22 (Et les Athniens satteignirent) On reprend le problme de transmission bruite vu au premier chapitre (exercice 1.7) : un message doit tre transmis dun point successivement travers N canaux. Ce message peut prendre deux valeurs, 0 ou 1. Durant le passage par un canal, le message a la probabilit p ]0, 1[ dtre bruit, i.e. dtre transform en son contraire, et (1 p) dtre transmis dlement. Les canaux se comportent indpendamment les uns des autres. Pour tout n {1, . . . , N }, notons pn la probabilit quen sortie de ne canal, le message soit le mme que celui transmis initialement. Esprance conditionnelle & Chanes de Markov Arnaud Guyader - Rennes 2
128
Chapitre 3. Chanes de Markov 1. Modliser le problme par une chane de Markov deux tats, de matrice de transition P . 2. Montrer que (P n ) converge vers une matrice P que lon prcisera. 3. En dduire limn+ pn . Exercice 3.23 (Simulation dune chane de Markov) On veut simuler les dplacements dun scarabe sur les sommets dun ttradre ABCD et tudier la chane de Markov associe (voir exercice 3.17). On rappelle que Xn correspond la position du scarabe ltape n. On suppose que le scarabe part du sommet A. Quel que soit le sommet o il se trouve un instant donn, il choisit au hasard de faon quiprobable de se diriger vers lun des trois autres sommets. 1. Simuler une trajectoire X0 , . . . , X1000 du scarabe laide de la fonction sample. Vrier sur cet exemple la loi des grands nombres, cest--dire que le scarabe passe peu prs un quart du temps en chaque sommet. 2. On veut observer la convergence en loi, cest--dire vrier que :
(Xn ) = [(Xn = A), (Xn = B), (Xn = C), (Xn = D)] = n+

Etudier la position du scarabe pour n = 50.
1 1 1 1 , , , . 4 4 4 4
3. On considre maintenant que les dplacements du scarabe sont rgis par la matrice de transition : 0 2/3 0 1/3 1/3 0 2/3 0 P = 0 1/3 0 2/3 . 2/3 0 1/3 0 (a) Vrier la loi des grands nombres. (b) Que dire de la convergence en loi ? 4. Tirer au hasard une matrice de transition P laide de la fonction runif. Vrier que la loi des grands nombres et la convergence en loi permettent de trouver un mme vecteur probabilit ligne . Retrouver prcisment cette loi dquilibre grce la fonction eigen et en utilisant sa proprit caractristique : est un vecteur propre gauche de P associ la valeur propre 1. Corrig Les simulations sont eectues laide du logiciel R. 1. Le rsultat est reprsent gure 3.13. P=matrix(1/3,4,4)-diag(1/3,4) # P est la matrice de transition. mu0=c(1,0,0,0) # le scarabe part du sommet A. n0=1001 # le scarabe marche de linstant 0 linstant n0-1. x=numeric(n0) x[1]=sample(1:4,1,prob=mu0) for (i in 1:(n0-1)){x[i+1]=sample(1:4,1,prob=P[x[i],])} plot(table(x)/n0,type=h,xlab=position du scarabee,ylab=frequences empiriques) 2. Le rsultat est reprsent gure 3.14. Arnaud Guyader - Rennes 2 Esprance conditionnelle & Chanes de Markov
3.5. Exercices
129
0.00
0.05
0.10
0.15
0.20
0.25
Fig. 3.13 Frquences empiriques pour une seule trajectoire de longueur 1000.
0.00
0.05
0.10
0.15
0.20
0.25
Fig. 3.14 Frquences empiriques la date 50 pour 1000 trajectoires.
130
Chapitre 3. Chanes de Markov P=matrix(1/3,4,4)-diag(1/3,4) # P est la matrice de transition. mu0=c(1,0,0,0) # le scarabe part du sommet A. n0=51 # le scarabe marche de linstant 0 linstant n0-1. ns=1000 # on simule ns trajectoires du scarabe. S=matrix(0,nrow=ns,ncol=n0) for (j in (1:ns)){ S[j,1]=sample(1:4,1,prob=mu0) for (i in 1:(n0-1)){S[j,i+1]=sample(1:4,1,prob=P[S[j,i],])}} plot(table(S[,n0])/ns,type=h,xlab=position du scarabee,ylab=frequences empiriques)
0.25 0.00 0.05 0.10 0.15 0.20
Fig. 3.15 Frquences empiriques pour une seule trajectoire de longueur 1000. 3. (a) Le rsultat est reprsent gure 3.15. La chane tant irrductible et la matrice de transition bistochastique, la seule loi dquilibre est nouveau la loi uniforme sur les quatre tats. P=matrix(c(0,2/3,0,1/3,1/3,0,2/3,0,0,1/3,0,2/3,2/3,0,1/3,0),4,4,byrow=TRUE) mu0=c(1,0,0,0) n0=1001 x=numeric(n0) x[1]=sample(1:4,1,prob=mu0) for (i in 1:(n0-1)){x[i+1]=sample(1:4,1,prob=P[x[i],])} plot(table(x)/n0,type=h,xlab=position du scarabee,ylab=frequences empiriques) (b) Le rsultat est reprsent gure 3.16. La chane tant priodique, de priode 2, le scarabe ne peut tre quau sommet A ou C aprs un nombre pair de dplacements. On voit donc que la loi des grands nombres sapplique, mais pas la convergence en loi. P=matrix(c(0,2/3,0,1/3,1/3,0,2/3,0,0,1/3,0,2/3,2/3,0,1/3,0),4,4,byrow=TRUE) mu0=c(1,0,0,0) n0=51 ns=1000 Arnaud Guyader - Rennes 2 Esprance conditionnelle & Chanes de Markov
3.5. Exercices
0.5
131
0.0
0.1
0.2
0.3
0.4
Fig. 3.16 Frquences empiriques la date 50 pour 1000 trajectoires.
S=matrix(0,nrow=ns,ncol=n0) for (j in (1:ns)){ S[j,1]=sample(1:4,1,prob=mu0) for (i in 1:(n0-1)){S[j,i+1]=sample(1:4,1,prob=P[S[j,i],])}} plot(table(S[,n0])/ns,type=h,xlab=position du scarabee,ylab=frequences empiriques) 4. Le rsultat est reprsent gure 3.17. Si on tire une matrice au hasard, on est sr dobtenir une chane irrductible et apriodique. La convergence en loi comme la loi des grands nombres permettent donc de retrouver la loi stationnaire thorique. P=matrix(runif(16),4,4) P=P/(rowSums(P)%*%t(rep(1,4))) vp=as.numeric(eigen(t(P))$vectors[,1]) vp=vp/(sum(vp)) mu0=c(1,0,0,0) n0=1001 ns=1000 S=matrix(0,nrow=ns,ncol=n0) for (j in (1:ns)){ S[j,1]=sample(1:4,1,prob=mu0) for (i in 1:(n0-1)){S[j,i+1]=sample(1:4,1,prob=P[S[j,i],])}} m=matrix(1:3,nrow=1,ncol=3) layout(m) plot(table(S[,n0])/ns,type=h,xlab=position du scarabee,ylab=frequences empiriques) plot(table(S[1,])/n0,type=h,xlab=position du scarabee,ylab=frequences empiriques) plot(vp,type=h,xlab=position du scarabee,ylab=probabilit thorique)
0.35
0.35
0.30
0.30
0.25
0.25
0.20
0.20
0.15
0.15
0.10
0.10
0.05
0.00
0.05
0.00
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
Fig. 3.17 Loi stationnaire obtenue de 3 faons : convergence en loi ( gauche), loi des grands nombres (au centre), vecteur propre principal ( droite).
Annexe A
Annales
Universit de Rennes 2 Licence MASS 3 Arnaud Guyader Mercredi 8 Juin 2005 Dure : 2 heures Calculatrice autorise
Examen de Probabilits
I. Couple alatoire (6 points) On considre la fonction suivante : f (x, y) = ey {0<x<y} . 1. Vrier que f (x, y) dnit une densit de probabilit sur
2 .
2. Calculer les densits marginales f (x) et f (y) de X et Y . Les variables X et Y sont-elles indpendantes ? 3. Calculer E[X], E[Y ], Cov(X, Y ). 4. Dterminer la densit conditionnelle f (y|x) de Y sachant X = x. En dduire E[Y |X = x], puis lesprance conditionnelle E[Y |X]. 5. Dterminer de mme E[X|Y ]. 6. On considre le couple alatoire (Z, T ) dni par Z =X +Y T =Y X Dterminer la loi jointe fZ,T (z, t) du couple (Z, T ). 7. En dduire les densits marginales de Z et T .
133
134
Annexe A. Annales II. Vecteur gaussien bidimensionnel (4 points) On considre un vecteur gaussien [X, Y ] de moyenne m = [1, 1] et de matrice de covariance : = 1. Ecrire la densit du vecteur [X, Y ] . 2. Quelle est la loi de X ? de Y ? de X + Y ? 3. Dterminer lesprance conditionnelle E[X|Y ]. Quelle est sa loi ? III. Vecteur gaussien tridimensionnel (6 points) On considre un vecteur gaussien [X, Y, Z] centr et de matrice de covariance : 2 1 1 = 1 2 1 1 1 2 1. Donner lesprance conditionnelle E[X|Y, Z]. 2. Quelle est la loi de Z sachant X = 1 et Y = 2 ? 4. Quelle est la loi du vecteur [X, Y ] sachant Z = 1 ? 5. On pose alors : 3. Dterminer lesprance conditionnelle du vecteur [X, Y ] sachant Z, note E[X, Y |Z]. U = X + Y + Z V =X Y +Z W =X +Y Z 1 1 1 4
Pourquoi le vecteur alatoire [U, V, W ] est-il gaussien ? 6. Quelles sont les lois de U , de V , de W ?
7. Dterminer la moyenne et la matrice de covariance de [U, V, W ] . Quen dduire sur la corrlation de U , V et W ? IV. Chane de Markov (4 points) On considre 4 boules numrotes de 1 4, rparties en deux urnes A et B. A chaque instant, on tire un nombre k au hasard entre 1 et 4, on enlve la boule numro k de lurne dans laquelle elle se trouve et on la remet au hasard dans lune des deux urnes. On note Xn le nombre de boules dans lurne A linstant n. 1. Justier par une phrase le fait que (Xn ) est une chane de Markov. 2. Donner la matrice et le graphe de transition de (Xn ). 3. La chane est-elle irrductible ? apriodique ? 4. Loi(s) stationnaire(s) ? 5. On commence avec lurne A vide. Au bout dun temps suppos assez grand, on observe le nombre de boules dans lurne A. Quelle est ( peu de choses prs) la probabilit que ce nombre soit pair ? 6. On commence avec lurne A pleine. On observe une ralisation (X0 , X1 , . . . , Xn , . . . ) de la chane. Quelle est la proportion du temps o il y a strictement moins de boules dans lurne A que dans lurne B ? 7. Bonus : Gnraliser ltude prcdente avec M boules numrotes de 1 M . Arnaud Guyader - Rennes 2 Esprance conditionnelle & Chanes de Markov
135 Universit de Rennes 2 Licence MASS 3 Arnaud Guyader Mercredi 8 Juin 2005 Dure : 2 heures Calculatrice autorise
Examen de Probabilits Corrig
I. Couple alatoire On considre la fonction suivante : 1. f (x, y) est mesurable positive et on vrie sans problme que son intgrale sur 2 vaut 1. Donc f (x, y) dnit bien une densit de probabilit sur 2 . 2. Pour les densits marginales, on obtient f (x) = ex ]0,+[ (x), cest--dire que X suit une loi exponentielle E(1). De mme, on trouve : f (y) = yey ]0,+[(y). Les variables X et Y ne sont pas indpendantes puisque : f (x, y) = f (x)f (y). On pouvait larmer ds le dbut puisque le support de la loi jointe nest pas un produit dintervalles. 3. Rappelons que si V E(1), alors : E[V n ] = n! On a donc : E[X] = 1. De mme : E[Y ] = E[V 2 ] = 2! = 2. Pour la covariance : Cov(X, Y ) = E[XY ] E[X]E[Y ] = E[XY ] 2. Or : E[XY ] = f (x, y) = ey {0<x<y} .
xyf (x, y) dx dy =
1 2
+ 0
y 3 ey dy =
1 E[V 3 ] = 3, 2
do lon dduit : Cov(X, Y ) = 1. 4. La densit conditionnelle f (y|x) de Y sachant X = x vaut par dnition pour tout x > 0 : f (y|x) = f (x, y) = exy {x<y} . f (x)
+
Cest donc une loi exponentielle translate. Son esprance vaut : E[Y |X = x] = De faon gnrale, on a donc : E[Y |X] = X + 1. Esprance conditionnelle & Chanes de Markov Arnaud Guyader - Rennes 2 yexy dy = x + 1.
136 5. De mme, on a successivement : f (x|y) = 1 . y {0<x<y}
Annexe A. Annales
Cest donc une loi uniforme sur [0, y]. Sa moyenne vaut : E[X|Y = y] = et de faon gnrale : E[X|Y ] = Y . 2 y , 2
6. On dnit naturellement le C 1 diomorphisme entre ouverts de : U V (x, y) (z, t) = (x + y, y x)
avec U = {(x, y) 2 : 0 < x < y} et V = {(z, t) 2 : 0 < t < z}. Le thorme de changement de variable donne alors pour la densit du couple alatoire (Z, T ) : fZ,T (z, t) = fX,Y (1 (z, t)) |J1 (z, t)|. Quelques calculs donnent : 1 1 fZ,T (z, t) = e 2 (z+t) {0<t<z} . 2 7. Les densits marginales sont : fZ (z) = e 2 {z>0} ez {z>0} .
z
et : fT (t) = et {t>0} , cest--dire que T E(1). II. Vecteur gaussien bidimensionnel On considre un vecteur gaussien [X, Y ] de moyenne m = [1, 1] et de matrice de covariance : = 1. La densit du vecteur [X, Y ] est : f (x, y) =
1 2 2 1 e 6 (4(x1) 2(x1)(y+1)+(y+1) 2 3
1 1 1 4
2. X N (1, 1), Y N (1, 4). Enn X + Y N (0, 7), car E[X + Y ] = E[X] + E[Y ] et : Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(X, Y ). Arnaud Guyader - Rennes 2 Esprance conditionnelle & Chanes de Markov
137 3. Pour dterminer lesprance conditionnelle E[X|Y ], on utilise la formule gnrale du conditionnement gaussien : E[X|Y ] = E[X] + Cov(X, Y ) (Y E[Y ]), Var(Y )
ce qui donne ici : E[X|Y ] = 1 + 1 (Y + 1). Puisque Y N (1, 4), on a : 4 1 E[X|Y ] N (1, ). 4
III. Vecteur gaussien tridimensionnel On considre un vecteur gaussien [X, Y, Z] centr et 2 1 = 1 2 1 1
1. Lesprance conditionnelle de X sachant (Y, Z) est :
de matrice de covariance : 1 1 2
1 E[X|Y, Z] = X,(Y,Z)1 [Y, Z] = (Y + Z). Y,Z 3 2. On a la dcomposition orthogonale : 1 Z = E[Z|X, Y ] + (Z E[Z|X, Y ]) = E[Z|X, Y ] + W = (X + Y ) + W, 3 avec W indpendante du couple (X, Y ). Quant sa loi : W N (0, 2 ), avec 2 variance rsiduelle donne par : 4 2 = Z Z,(X,Y ) 1 (X,Y ),Z = X,Y 3 4 Il suit que, sachant X = 1 et Y = 2, Z N (1, 3 ) 3. Lesprance conditionnelle E[X, Y |Z] est donne par la formule de projection : Autrement dit, cest tout simplement le vecteur [E[X|Z], E[Y |Z]] . 4. On a comme ci-dessus la dcomposition orthogonale : E[X, Y |Z] = (X,Y ),Z 1 Z = [Z/2, Z/2] . Z
avec W vecteur gaussien indpendant de Z, et plus prcisment W N ([0, 0] , W ), avec : W = X,Y (X,Y ),Z 1 Z,(X,Y ) = Z 5. On pose alors U V W = X + Y + Z = X Y +Z = X +Y Z 3/2 1/2 1/2 3/2
[X, Y ] = E[X, Y |Z] + ([X, Y ] E[X, Y |Z]) = [Z/2, Z/2] + W,
Le vecteur alatoire [U, V, W ] est gaussien, puisque cest limage du vecteur gaussien [X, Y, Z] par une application linaire. Si on note : 1 1 1 A = 1 1 1 , 1 1 1 on a [U, V, W ] = A[X, Y, Z] Esprance conditionnelle & Chanes de Markov Arnaud Guyader - Rennes 2
138
Annexe A. Annales 6. Les variables U , V et W sont donc gaussiennes. Par symtrie, elles suivent la mme loi N (0, 4). La variance sobtient par exemple via la formule : Var(U ) = Var(X) + Var(Y ) + Var(Z) 2Cov(X, Y ) 2Cov(X, Z) + 2Cov(Y, Z). 7. Le vecteur gaussien [U, V, W ] est centr et sa matrice 4 0 0 4 2 = AA = 0 0 de covariance est : 0 0 . 4
Cette matrice est diagonale, ce qui est dans le cas gaussien une condition ncessaire et susante dindpendance des variables U , V et W .
IV. Chane de Markov On considre 4 boules numrotes de 1 4, rparties en deux urnes A et B. A chaque instant, on tire un nombre k au hasard entre 1 et 4, on enlve la boule numro k de lurne dans laquelle elle se trouve et on la remet au hasard dans lune des deux urnes. On note Xn le nombre de boules dans lurne A linstant n. 1. Lopration eectue chaque tape est alatoire, mais ne dpend que de la composition prsente des urnes, indpendamment de ce qui sest pass au pralable. Ceci fait de (Xn ) une chane de Markov. 2. La variable alatoire Xn est valeurs dans {0, 1, 2, 3, 4}. Sa matrice de transition est : 1/2 1/2 0 0 0 1/8 1/2 3/8 0 0 P = 0 1/4 1/2 1/4 0 . 0 0 3/8 1/2 1/8 0 0 0 1/2 1/2 Le graphe de transition est donn gure A.1.
Fig. A.1 Graphe de transition de la chane de Markov (Xn ). 3. On peut passer de tout tat tout autre donc la chane est irrductible. Par ailleurs on peut boucler sur chaque tat, donc elle est apriodique. 4. Lirrductibilit de la chane entrane lexistence dune unique loi stationnaire , cest--dire un vecteur ligne : = [0 , 1 , 2 , 3 , 4 ], avec les i compris entre 0 et 1 et sommant 1. On la dtermine en rsolvant le systme dquations P = . Aprs quelques calculs, on obtient : = On peut noter que de faon gnrale : i {0, 1, 2, 3, 4}
i i = C4
1 4 6 4 1 , , , , . 16 16 16 16 16 1 2
i
1 2
4i
1 cest--dire que le nombre de boules dans lurne A suit une loi binmiale B(4, 2 ).
139 5. Le thorme de convergence en loi pour les chanes de Markov irrductibles et apriodiques assure que la loi de Xn tend vers la loi , indpendamment de la rpartition initiale entre les deux urnes. La probabilit que le nombre de boules dans lurne A soit pair linstant n est donc : 1 (Xn {0, 2, 4}) 0 + 2 + 4 = . n 2 6. La loi forte des grands nombres pour les chanes de Markov irrductibles assure que la proportion du temps o il y a moins de boules dans lurne A que dans lurne B tend vers la probabilit que ceci arrive pour la loi . Cest--dire qu on a la convergence presque sre : 1 n+1
n k=0
{0,1} (Xk ) 0 + 1 = n
p.s.
5 . 16
7. La gnralisation avec M boules est directe : la chane est encore irrductible et apriodique, dunique loi stationnaire B(M, 1 ). 2
140 Universit de Rennes 2 Licence MASS 3 Arnaud Guyader
Annexe A. Annales Jeudi 8 Juin 2006 Dure : 2 heures Aucun document autoris
I. Variable Y dnie partir de X (3 points) Soit X une variable alatoire de densit : 2 ln(1 + x) [0,1] (x) (ln 2)2 1 + x Soit Y une variable alatoire telle que la loi conditionnelle de Y sachant X = x est : 1 1 (y) ln(1 + x) 1 + y [0,x] 1. Donner la densit jointe du couple (X, Y ). 2. Quelle est la densit de Y ? Densit conditionnelle de X sachant Y ? 3. Les variables X et Y sont-elles indpendantes ? 4. Dterminer lesprance conditionnelle E[X|Y ].
Fig. A.2 Tirage uniforme dans un triangle.
II. Couple alatoire discret (6 points) On tire un point de faon uniforme parmi ceux de la gure A.3. Ceci donne un couple alatoire 1 (X, Y ) dont la loi jointe est : pij = (X = i, Y = j) = 15 , 1 j i 5. 1. Donner les lois marginales de X et de Y . Arnaud Guyader - Rennes 2 Esprance conditionnelle & Chanes de Markov
141 2. Soit j {1, . . . , 5} x : dterminer la loi conditionnelle de X sachant Y = j, cest--dire (X = i|Y = j). 3. Calculer E[X|Y = j], en dduire E[X|Y ], puis E[X] en fonction de E[Y ]. 4. Dterminer de mme la loi conditionnelle de Y sachant X = i. 5. Calculer E[Y |X = i], en dduire E[Y |X], puis E[Y ] en fonction de E[X]. 6. Dduire des questions prcdentes E[X] et E[Y ]. 7. Gnralisation : soit N x, reprendre les questions prcdentes en remplaant 5 par N (on ne demande pas le dtail des calculs, uniquement les rsultats). III. Vecteur gaussien (6 points) On considre un vecteur gaussien V = [X, Y, Z]T de moyenne m = [1, 1, 1] et de matrice de covariance : 1 1 1 = 1 2 2 1 2 3 1. Quelle est la loi du vecteur [X, Y ] ? Donner sa densit. 2. Dterminer lquation de la droite de rgression de Y en X. Prciser le rsidu quadratique. 3. Donner une variable alatoire U = X + Y + qui soit indpendante de X. 4. Quelle est la fonction caractristique du vecteur V ? 5. Donner lexpression de E[Z|X, Y ], esprance conditionnelle de Z sachant (X, Y ) ? 6. En dduire une variable alatoire T = aX + bY + cZ + d qui soit indpendante de X et Y . Prciser la variance de T . 7. On observe Y = 1 et Z = 2. Quelle est la loi de la variable alatoire X sachant ces donnes ? IV. Modle pidmiologique (5 points) On considre lvolution dun virus dans une population de taille N . Au jour n, il y a Xn individus infects et Sn = (N Xn ) individus sains. Le jour suivant, les Xn individus prcdemment infects sont sains, mais chacun des Sn individus prcdemment sains a eu une probabilit p de rencontrer chacun des In infects de la veille et donc de contracter linfection, toutes ces rencontres tant indpendantes lune de lautre. Il est clair que si personne nest infect, il en sera de mme le lendemain. Le paramtre p est appel taux de contact infectieux. 1. On suppose que la population ne compte que 3 individus et que le taux de contact infectieux est p = 1/3. (a) Donner matrice et graphe de transition de la chane de Markov (Xn ). (b) La chane est-elle irrductible ? indcomposable ? (c) Dterminer la (ou les) loi(s) stationnaire(s). Interprter. 2. On suppose toujours avoir une population de 3 individus, mais le taux de contact infectieux est le paramtre p ]0, 1[. En notant q = (1 p), donner la matrice de transition. Loi(s) stationnaire(s) ? 3. On suppose maintenant une population de N individus, avec taux de contact infectieux p ]0, 1[. Justier le fait que (Xn ) admet pour probabilits de transition :
j pij = CN i (1 q i )j q i(N ij) {i+jN } .
142 Universit de Rennes 2 Licence MASS 3 Arnaud Guyader
Annexe A. Annales Jeudi 8 Juin 2006 Dure : 2 heures Aucun document autoris
I. Variable Y dnie partir de X Soit X une variable alatoire de densit : 2 ln(1 + x) [0,1] (x) (ln 2)2 1 + x Soit Y une variable alatoire telle que la loi conditionnelle de Y sachant X = x est : 1 1 (y) ln(1 + x) 1 + y [0,x] 1. Puisquon connat f (x) et f (y|x), on en dduit la densit jointe du couple (X, Y ) : f (x, y) = f (y|x)f (x) = 1 2 . 2 (1 + x)(1 + y) {0yx1} (ln 2)
2. La densit de Y sobtient en marginalisant la loi jointe par rapport x. Pour tout y dans [0, 1] : 1 2 1 2 f (y) = dx = [ln(1 + x)]1 , y 2 (1 + x)(1 + y) 2 (1 + y) (ln 2) (ln 2) y ce qui donne : 2 (ln 2 ln(1 + y))[0,1] (y). (ln 2)2 (1 + y) On en dduit la densit conditionnelle de X sachant Y : f (y) = f (x|y) = f (x, y) 1 . = f (y) (1 + x)(ln 2 ln(1 + y)) {0yx1}
En toute rigueur, cette formule nest valable que pour y [0, 1[, mais pour y = 1 on a forcment x = 1, Autrement dit, la loi de X sachant Y = 1 nadmet pas de densit, cest un Dirac au point 1. 3. Le support de la loi jointe f (x, y) est le domaine : D = {(x, y) : 0 y x 1}, qui nest pas un pav, donc X et Y ne peuvent tre indpendantes. Une autre faon de le vrier est de remarquer que le produit des marginales nest pas gal la loi jointe : f (x, y) = f (x)f (y). Une autre mthode est de voir que la densit conditionnelle de X sachant Y nest pas gale la densit marginale de X : f (x|y) = f (x). Dans la mme ide, on vrie aussi que : f (y|x) = f (y). Arnaud Guyader - Rennes 2 Esprance conditionnelle & Chanes de Markov
143 4. Soit y [0, 1] x. On a par dnition :

1
E[X|Y = y] =
y
xf (x|y) dx =
1 ln 2 ln(1 + y)
1 y
x dx, 1+x
et il sut dcrire : pour en dduire : E[X|Y = y] =
1 x =1 , 1+x 1+x 1 1y [x ln(1 + x)]1 = 1. y ln 2 ln(1 + y) ln 2 ln(1 + y)
Noter que cette formule est encore valable pour y = 1, puisque le dveloppement limit de ln(1 + y) au voisinage de y = 1 donne : 1 ln(1 + y) = ln 2 + (1 y) + o(1 y), 2 do lon dduit : 1y 1 1, y1 ln 2 ln(1 + y) ce qui est bien la moyenne de la variable X lorsque Y = 1. De faon gnrale, on a donc : E[X|Y ] = 1Y 1. ln 2 ln(1 + Y )
Fig. A.3 Tirage uniforme dans un triangle II. Couple alatoire discret On tire un point de faon uniforme parmi ceux de la gure A.3. Ceci donne un couple alatoire 1 (X, Y ) dont la loi jointe est : pij = (X = i, Y = j) = 15 , 1 j i 5. 1. La variable alatoire X est valeurs dans {1, . . . , 5} et pour tout i dans cet ensemble, on a : pi. = (X = i) =
i
pij =
j=1
i . 15
De mme, Y est valeurs dans {1, . . . , 5} et pour tout j dans cet ensemble, on a : p.j = (Y = j) =
5
pij =
i=j
6j . 15 Arnaud Guyader - Rennes 2
144 2. Soit j {1, . . . , 5} x, la loi conditionnelle de X sachant Y = j est : pi|j = 3. On en dduit :

5
Annexe A. Annales
pij 1 = p.j 6j
1 j i 5.
E[X|Y = j] =
i=j
ipi|j
1 = 6j
i,
i=j
et on reconnat la somme des termes dune suite arithmtique, do : E[X|Y = j] = j+5 . 2
On en dduit lesprance conditionnelle de X sachant Y : E[X|Y ] = 1 5 Y + . 2 2
Puisquon sait que E[E[X|Y ]] = E[X], on en dduit une premire relation entre les esprances de X et Y : 5 1 E[X] = E[Y ] + . 2 2 4. Soit i {1, . . . , 5} x, la loi conditionnelle de Y sachant X = i est : pj|i = 5. On en dduit :
i
1 pij = pi. i
1 j i 5.
i
E[Y |X = i] =
jpj|i
j=1
1 = i
j,
j=1
et on reconnat nouveau une somme arithmtique : E[Y |X = i] = do lesprance conditionnelle : 1 1 E[Y |X] = X + , 2 2 et une seconde relation entre les esprances de X et Y : E[Y ] = 1 1 E[X] + . 2 2 i+1 , 2
6. Les questions prcdentes donnent un systme linaire de deux quations deux inconnues : E[X] = 1 E[Y ] + 5 2 2 E[Y ] = 1 E[X] + 1 2 2 que lon rsout sans problme pour arriver E[X] = Arnaud Guyader - Rennes 2
11 3 7 et E[Y ] = 3 .
145 7. Gnralisation : pour N x, les calculs prcdents se gnralisent sans dicult. On commence par remarquer quil y a maintenant N (N +1) points dans le triangle. On obtient 2 donc comme loi jointe : pij = (X = i, Y = j) = La loi marginale de X est : pi. = tandis que celle de Y scrit : p.j = 2(N + 1 j) . N (N + 1) 2 N (N + 1) 2i , N (N + 1) 1 j i N.
La loi conditionnelle de X sachant Y = j est donc : pi|j = On en dduit : 1 N +1j 1 j i N.
j+N 1 N E[X|Y ] = Y + , 2 2 2 do une premire relation entre les esprances : E[X|Y = j] = N 1 E[X] = E[Y ] + . 2 2
De mme, on trouve : pj|i = On en dduit :
1 i
1 j i N.
1 1 i+1 E[Y |X] = X + , 2 2 2 do une seconde relation entre les esprances : E[Y |X = i] = E[Y ] = 1 1 E[X] + . 2 2
2N +1 3
Les deux relations obtenues permettent den dduire E[X] =
et E[Y ] =
N +2 3 .
III. Vecteur gaussien On considre un vecteur gaussien V = [X, Y, Z]T de moyenne m = [1, 1, 1] et de matrice de covariance : 1 1 1 = 1 2 2 1 2 3 1. Le vecteur [X, Y ] est gaussien comme image du vecteur gaussien V par une application linaire : X X 1 0 0 = Y . Y 0 1 0 Z Plus prcisment, il est de moyenne = [1, 1] et de matrice de covariance : = Esprance conditionnelle & Chanes de Markov 1 1 1 2 Arnaud Guyader - Rennes 2
146 Puisque est inversible, il admet une densit donne par la formule : f (x, y) =
Annexe A. Annales
1 1 exp ([x, y] )1 ([x, y] ) . 2 2 det
Aprs calculs de det et 1 , on obtient : f (x, y) = 1 1 5 exp x2 + 3x + xy y 2 2y 2 2 2 .
2. La droite de rgression de Y en X correspond lesprance conditionnelle de Y sachant X : E[Y |X] = E[Y ] + Cov(Y, X) (X E[X]) = X 2, Var(X)
cest--dire la droite dquation y = x 2. Le rsidu quadratique est alors : 2 = Var(Y ) Cov2 (Y, X) = 1. Var(X)
3. Puisque E[Y |X] est la projection orthogonale de Y sur H = Vect(1, X), on en dduit que la variable alatoire U = Y E[Y |X] = Y X + 2 est orthogonale H, donc en particulier la variable alatoire X E[X] de H. Ceci signie que : 0 = U, X E[X] = E[U (X E[X])] = Cov(U, X). Donc les variables alatoires U et X sont dcorrles et puisque le vecteur [X, U ] est gaussien comme image du vecteur gaussien V par une application ane, ceci est quivalent dire que X et U sont indpendantes. 4. Soit u = [u1 , u2 , u3 ] 3 , alors la fonction caractristique du vecteur V est : V (u) = eiu m 2 u u . En dveloppant, on a donc : 1 V (u) = exp i(u1 u2 + u3 ) (u2 + 2u1 u2 + 2u1 u3 + 2u2 + 4u2 u3 + 3u2 ) . 2 3 2 1 5. Lesprance conditionnelle de Z sachant (X, Y ) est : E[Z|X, Y ] = E[Z] + Z,(X,Y ) 1 ) ([X, Y ] ). (X,Y Or (X,Y ) = , donc son inverse a dj t calcule. On obtient alors : E[Z|X, Y ] = Y + 2. 6. Par le mme raisonnement que ci-dessus, on en dduit que la variable alatoire T = Z E[Z|X, Y ] = Z Y 2 est indpendante de X et de Y . La variance de T est le rsidu quadratique, cest--dire : s2 = Var(Z) Z,(X,Y ) 1 ) (X,Y ),Z = 1. (X,Y Arnaud Guyader - Rennes 2 Esprance conditionnelle & Chanes de Markov
1
147 7. On sait quon a la dcomposition : X = E[X|Y, Z] + W, avec W N (0, v) indpendante du couple (Y, Z). Or le mme calcul que ci-dessus donne : E[X|Y, Z] = 1 3 Y + , 2 2
1 et la variance v de W est le rsidu quadratique : v = 2 . Sachant que Y = 1 et Z = 2, la variable alatoire X suit donc une loi N (2, 1/2).
IV. Modle pidmiologique 1. On suppose que la population ne compte que 3 individus et que le taux de contact infectieux est p = 1/3.
4 9 1 9 5 9
4 9
4 9
Fig. A.4 Graphe de transition pour le modle pidmiologique (a) Si Xn = 0, personne nest infect le jour n, donc le jour suivant non plus. Ainsi p00 = 1 et p0j = 0 pour tout j {1, 2, 3}. En dautres termes, ltat {0} est absorbant. Sachant Xn = 1 : puisque la personne infecte le jour n est gurie le lendemain, on a ncessairement Xn+1 {0, 1, 2}. Plus prcisment, la probabilit que Xn+1 = 0 est la probabilit que la personne infecte nait rencontr aucune des deux autres personnes, ce qui arrive avec probabilit p10 = 2/3 2/3 = 4/9 ; la probabilit que Xn+1 = 2 est la probabilit que la personne infecte ait rencontr chacune des deux autres personnes, ce qui arrive avec probabilit p12 = 1/3 1/3 = 1/9 ; par suite, la probabilit que Xn+1 = 1 est gale : 4 p11 = 1 (p10 + p12 ) = . 9 Sachant Xn = 2, puisque les personnes infectes le jour n sont guries le lendemain, on a ncessairement Xn+1 {0, 1}. Plus prcisment, la probabilit que Xn+1 = 0 est la probabilit que la personne saine ne rencontre aucune des deux personnes infectes, ce qui arrive avec probabilit p20 = 2/3 2/3 = 4/9 ; la probabilit que Xn+1 = 1 est donc p21 = 1 p20 = 5/9. Sachant Xn = 3, on a forcment Xn+1 = 0. On en dduit la matrice de transition : 1 0 0 0 4 4 1 0 P = 9 9 9 4 5 0 0 . 9 9 1 0 0 0 Le graphe de transition est donn gure A.4. Esprance conditionnelle & Chanes de Markov Arnaud Guyader - Rennes 2
148
Annexe A. Annales (b) La chane est indcomposable : il y a un tat rcurrent {0} et trois tats transitoires {1, 2, 3}.
(c) Puisque la chane est indcomposable, il y a unicit de la loi stationnaire . De plus, celle-ci est nulle pour les tats transitoires, donc : = [1, 0, 0, 0]. On pouvait aussi obtenir ce rsultat en rsolvant le systme linaire P = . Ceci signie que, quelque soit le nombre de personnes initialement infectes, on est presque sr quau bout dun certain temps, toute la population sera saine.
2. On suppose toujours avoir une population de 3 individus, mais le taux de contact infectieux est le paramtre p ]0, 1[. En notant q = (1 p), on obtient la matrice de transition : 1 0 0 0 q2 2pq p2 0 . P = 2 2 q 1q 0 0 1 0 0 0
Le raisonnement fait ci-dessus tient toujours donc lunique loi stationnaire est encore = [1, 0, 0, 0].
3. On suppose maintenant une population de N individus, avec taux de contact infectieux p ]0, 1[. Sachant que Xn = i, on a forcment Xn+1 {0, . . . , N i}, ce qui explique lindicatrice dans la formule. On remarque aussi que la probabilit quune personne saine un jour le soit encore le lendemain est gale la probabilit quelle ne rencontre aucune des i personnes infectes, ce qui arrive avec probabilit q i , puisque les rencontres sont indpendantes. Soit alors j {0, . . . , N i} : la probabilit de transition pij est la probabilit que parmi les (N i) personnes saines, j soient infectes. Puisque les rencontres sont indpendantes et que linfection arrive avec probabilit 1 q i , cest exactement la probabilit quune loi binmiale B(N i, 1 q i ) prenne la valeur j. Ceci donne bien :
j pij = CN i (1 q i )j q i(N ij) {i+jN } .
149 Universit de Rennes 2 Licence MASS 3 Arnaud Guyader Mercredi 16 Mai 2007 Dure : 2 heures Aucun document autoris
I. Couple alatoire (5 points) Soit (X, Y ) un couple alatoire de densit jointe : f (x, y) = cx(y x)ey {0<xy} . 1. Soit V une variable alatoire qui suit une loi exponentielle de paramtre . Rappeler son moment dordre n, cest--dire E[V n ]. 2. Dterminer c pour que f soit eectivement une densit. 3. Calculer f (x|y), densit conditionnelle de X sachant Y = y. 4. En dduire que E[X|Y ] = Y /2. 5. Calculer f (y|x), densit conditionnelle de Y sachant X = x. 6. En dduire que E[Y |X] = X + 2. 7. Dduire des questions 4 et 6 les quantits E[X] et E[Y ].
II. Couple gaussien (5 points) Soit V = [X, Y ] un vecteur gaussien centr de matrice de covariance : =
2 X rX Y
rX Y 2 Y
1. Rappeler quelle condition V admet une densit f (x, y) et dans ce cas donner sa formule en fonction de X , Y et r. On suppose cette condition vrie dans toute la suite. 2. Donner lexpression de lesprance conditionnelle E[Y |X] en fonction de X , Y et r. 3. On considre un vecteur V = [X, Y ] ayant pour densit : (x, y) 2 f (x, y) = 1 x2 5y2 + xy e 8 8 4 4
(a) Dterminer sa matrice de covariance . (b) Sachant x = 1, quelle est la loi de Y ? (c) Sachant x = 1, en dduire un intervalle dans lequel se situe Y avec 95% de chances. III. Esprance conditionnelle et indpendance (6 points) On considre trois variables alatoires U , V et W indpendantes et suivant la mme loi normale centre rduite N (0, 1). Esprance conditionnelle & Chanes de Markov Arnaud Guyader - Rennes 2
150 1. On dnit le vecteur alatoire [X1 , X2 , X3 ] comme suit : X1 = U X2 = U + V X3 = U + V + W (a) Quelle est la loi du vecteur [X1 , X2 , X3 ] ? (b) Dterminer E[X3 |X1 , X2 ]. Comparer E[X3 |X2 ]. (c) Expliquer le rsultat de la question prcdente par un dessin.
Annexe A. Annales
(d) Soit [X, Y, Z] un vecteur alatoire. Commenter larmation : E[Z|X, Y ] = E[Z|Y ] Z est indpendante de X. 2. On dnit cette fois le vecteur alatoire [X1 , X2 , X3 ] comme suit : X1 = U X =U +V 2 X3 = V (a) Quelle est la loi du vecteur [X1 , X2 , X3 ] ? (b) Dterminer E[X3 |X1 , X2 ]. Comparer E[X3 |X2 ]. (c) Expliquer le rsultat de la question prcdente par un dessin.
(d) Soit [X, Y, Z] un vecteur alatoire. Commenter larmation : Z est indpendante de X E[Z|X, Y ] = E[Z|Y ].
IV. Pile ou Face (4 points) On joue une suite innie de Pile ou Face non biaiss : ceci fournit une suite de variables alatoires (Xn )n0 indpendantes et identiquement distribues avec (Xn = P ) = (Xn = F ) = 1/2. A partir de cette suite on considre la chane de Markov (Yn )n1 dnie par : Y1 = (X0 , X1 ), Y2 = (X1 , X2 ), et de faon gnrale Yn = (Xn1 , Xn ) pour tout n 1. Cette chane est donc valeurs dans lespace dtats : E = {E1 , E2 , E3 , E4 } = {(P, F ), (F, F ), (F, P ), (P, P )}. 1. Donner la matrice et le graphe de transition de (Yn ). 2. La chane est-elle irrductible, apriodique ? 3. Loi(s) stationnaire(s) ? 4. Retrouver le rsultat de la question prcdente en calculant directement la loi de Yn :
(Yn ) = [(Yn = E1 ), (Yn = E2 ), (Yn = E3 ), (Yn = E4 )] .
151 Universit de Rennes 2 Licence MASS 3 Arnaud Guyader Mercredi 16 Mai 2007 Dure : 2 heures Aucun document autoris
I. Couple alatoire Soit (X, Y ) un couple alatoire de densit jointe : f (x, y) = cx(y x)ey {0<xy} . 2. La constante c doit tre positive pour que f soit positive. Plus prcisment, il faut que lintgrale double de f sur 2 soit gale 1. Or le thorme de Fubini-Tonelli permet dcrire :
+ y 0
1. Si V E(), alors E[V n ] = n!/n .
ce qui donne :
f (x, y) dx dy =
0
cx(y x)ey dx
dy,
f (x, y) dx dy = c
0
x2 x3 y 2 3
ey dy =
0
c 6
+ 0
y 3 ey dy,
et on retrouve le moment dordre 3 dune loi exponentielle de paramtre 1 : c f (x, y) dx dy = E[V 3 ] = c. 6 2 Il faut donc que c soit gale 1 pour que f soit une densit de probabilit. 3. Pour dterminer f (x|y), on commence par calculer la loi marginale de Y : f (y) =
y 0
f (x, y) dx = ey {y>0}
x(y x) dx =
y 3 y e {y>0} , 6
cest--dire que Y (4, 1). On a alors : f (x|y) = 6x(y x) f (x, y) = {0<xy} . f (y) y3
4. Ceci permet de calculer lesprance de X sachant Y = y > 0 : E[X|Y = y] =
xf (x|y) dx =
6 y3
y 0
x2 (y x) dx =
y , 2
do on dduit de faon plus gnrale que E[X|Y ] = Y /2. Esprance conditionnelle & Chanes de Markov Arnaud Guyader - Rennes 2
152 5. La densit de X est : f (x) =
Annexe A. Annales
f (x, y) dy = x{x>0}
+ x
(y x)ey dy = x{x>0}
+ 0
ueux du,
grce au changement de variable u = y x, do : f (x) = xex {x>0}

+ 0
ueu du = xex {x>0} E[V ] = xex {x>0} ,
cest--dire que X (2, 1). On a donc : f (y|x) = f (x, y) = (y x)e(yx) {0<xy} . f (x)
Autrement dit, sachant X = x, Y suit une loi (2, 1) translate sur lintervalle [x, +[. 6. Pour tout x > 0, on a donc E[Y |X = x] = x + E[(2, 1)] = x + 2, rsultat que lon peut retrouver par le calcul :
+
E[Y |X = x] =
y(y x)e(yx) dy =
+ 0
(u + x)ueu du,
quon spare en deux intgrales :

+
E[Y |X = x] =
u2 eu du + x
0
ueu du,
et on reconnat les moments dune loi exponentielle de paramtre 1 : E[Y |X = x] = E[V 2 ] + xE[V ] = 2 + x. 7. Des questions 4 et 6, en prenant les esprances, on tire le systme dquations linaires : E[X] = E[Y ]/2 E[Y ] = E[X] + 2 E[X] = 2 E[Y ] = 4 On en dduit que E[Y |X] = X + 2.
Vrication : rappelons que si T (n, ), alors E[T ] = n. Or on a vu plus haut que X (2, 1) et Y (4, 1), donc on retrouve bien E[X] = 2 et E[Y ] = 4. II. Couple gaussien Soit V = [X, Y ] un vecteur gaussien centr de matrice de covariance : =
2 X rX Y
rX Y 2 Y
1. Le vecteur gaussien V admet une densit sur est inversible, cest--dire ssi :
2 si et seulement si sa matrice de dispersion
2 2 det = (1 r 2 )X Y = 0.
Dans ce cas, on a : f (x, y) = 1 e
2 2 Y x2 2rX Y xy+X y 2 2 2 2 (1r 2 ) X Y
2X Y
1 r2
153 2. Lesprance conditionnelle de Y sachant X est : E[Y |X] = Cov(X, Y ) rX Y rY X= X. X= 2 Var(X) X X
3. On considre un vecteur gaussien centr V = [X, Y ] ayant pour densit : f (x, y) = 1 x2 + 5y2 xy e 4 4 2 4
(a) Par identication des coecients avec ceux de la question 1, on obtient : = 5 1 1 1 .
Autrement dit le coecient de corrlation linaire r vaut 1/ 5. (b) On a la dcomposition : Y = E[Y |X] + W , avec W normale centre indpendante de X et de variance : 4 2 2 = Y (1 r 2 ) = . 5 (c) On sait que, avec probabilit 0.95, une variable alatoire suivant une loi normale tombe une distance infrieure deux fois lcart-type par rapport sa moyenne. On en dduit que, sachant x = 1, on a avec 95% de chances : Y 1 4 1 4 , + . 5 5 5 5 Par ailleurs on a E[Y |X] =
X 5.
Donc sachant x = 1, Y suit une loi normale N
1 4 5, 5
III. Esprance conditionnelle et indpendance On considre trois variables alatoires U , V et W indpendantes et suivant la mme loi normale centre rduite N (0, 1). 1. On dnit le vecteur alatoire [X1 , X2 , X3 ] comme suit : X1 = U X =U +V 2 X3 = U + V + W (a) Le vecteur [X1 , X2 , X3 ] sien : X1 1 0 X2 = 1 1 1 1 X3
est gaussien en tant que transforme linaire dun vecteur gaus 1 1 1 U X1 0 0 0 V X2 N 0 , 1 2 2 . 1 2 3 0 1 W X3 X1 X2
(b) On en dduit lesprance conditionnelle de X3 sachant X1 et X2 : E[X3 |X1 , X2 ] = X3 ,(X1 ,X2 ) 1 ,X2 X1 On trouve aussi : E[X3 |X2 ] = Esprance conditionnelle & Chanes de Markov = X2 .
Cov(X2 , X3 ) X2 = X2 , Var(X2 ) Arnaud Guyader - Rennes 2
154
Annexe A. Annales cest--dire que : E[X3 |X1 , X2 ] = E[X3 |X2 ]. Noter quon peut retrouver ces rsultats en considrant directement U , V et W : E[X3 |X1 , X2 ] = E[U +V +W |U, U +V ] = U +V +E[W |U, U +V ] = U +V +E[W ] = U +V, puisque W est indpendante de U et V . De mme : E[X3 |X2 ] = E[U + V + W |U + V ] = U + V + E[W |U + V ] = U + V.
X3
V X2 = E[X3 |X2 ] = E[X3 |X1 , X2 ] U X1
Fig. A.5 Interprtation gomtrique de lgalit E[X3 |X1 , X2 ] = E[X3 |X2 ]. (c) Puisque les variables sont centres et de carrs intgrables, lesprance conditionnelle de X3 sachant (X1 , X2 ) correspond la projection orthogonale de X3 sur le plan vectoriel engendr par X1 et X2 . La gure A.5 explique alors pourquoi dans notre cas particulier on a lgalit : E[X3 |X1 , X2 ] = E[X3 |X2 ].
2. On dnit cette fois le vecteur alatoire [X1 , X2 , X3 ] comme suit : X1 = U X =U +V 2 X3 = V
(d) Cette armation est fausse puisque si on prend [X, Y, Z] = [X1 , X2 , X3 ], X1 et X3 ne sont pas indpendantes (cf. Cov(X1 , X3 ) = 1) mais E[X3 |X1 , X2 ] = E[X3 |X2 ].
(b) On a cette fois :
(a) Le vecteur [X1 , X2 , X3 ] est gaussien lui aussi : X1 1 1 0 0 X2 N 0 , 1 2 1 . X3 0 1 1 0 X2 . 2
E[X3 |X1 , X2 ] = X2 X1 = X3 = E[X3 |X2 ] =
(d) Cette armation est fausse aussi puisque si on prend [X, Y, Z] = [X1 , X2 , X3 ], X1 = U et X3 = V sont indpendantes mais E[X3 |X1 , X2 ] = E[X3 |X2 ]. Arnaud Guyader - Rennes 2
(c) On voit que X3 = (U + V ) U = X2 X1 , donc X3 appartient au plan vectoriel engendr par X1 et X2 . Par consquent sa projection orthogonale sur ce plan est luimme : ceci explique gomtriquement lgalit E[X3 |X1 , X2 ] = X3 . Pour la relation E[X3 |X2 ] = X2 , voir gure A.6. 2
155
X2 = U + V
X3 = V
E[X3 |X2 ] =
X2 2
X1 = U
Fig. A.6 Interprtation gomtrique de lingalit E[X3 |X1 , X2 ] = X3 = E[X3 |X2 ] = IV. Pile ou Face La chane de Markov (Yn )n1 est valeurs dans lespace dtats : E = {E1 , E2 , E3 , E4 } = {(P, F ), (F, F ), (F, P ), (P, P )}. 1. La matrice de transition de la chane est : 0 1/2 1/2 0 0 1/2 1/2 0 P = 1/2 0 0 1/2 1/2 0 0 1/2 et le graphe de transition est reprsent gure A.7.
X2 2 .
FF
PF
FP
PP
Fig. A.7 Graphe de transition pour le jeu de Pile ou Face. 2. La chane est irrductible puisque tous les tats communiquent entre eux. Elle est aussi apriodique, puisque E2 = (F, F ) lest (on peut boucler sur cet tat) et que la chane est irrductible. Esprance conditionnelle & Chanes de Markov Arnaud Guyader - Rennes 2
156
Annexe A. Annales 3. On trouve pour unique loi stationnaire la loi uniforme sur les quatre tats : = 1 1 1 1 , , , , 4 4 4 4
ou bien en rsolvant le systme dquations P = , ou bien en remarquant que la matrice P est bistochastique. 4. Puisque Yn = (Xn1 , Xn ), avec Xn1 et Xn indpendantes, on a par exemple :
(Yn = E1 ) = ((Xn1 , Xn ) = (P, F )) = (Xn1 = P )(Xn = F ) = ,

et mme chose pour E2 , E3 et E4 . Ainsi, pour tout n 1, on a : (Yn ) = . En particulier (Y1 ) = (Y2 ) = . Mais par dnition de la matrice de transition P , on sait quon a aussi P (Y2 ) = (Y1 )P , cest--dire que P = , et est donc une loi dquilibre de la chane (Yn ). Puisque cette chane est irrductible, cest mme lunique loi dquilibre. De plus, le calcul de la loi de Yn montre que cette chane est tout le temps lquilibre.
1 4
157 Universit de Rennes 2 Licence MASS 3 Nicolas Jgou Mercredi 7 Mai 2008 Dure : 2 heures Aucun document autoris
I. Couple alatoire On considre le couple alatoire (X, Y ) de densit la fonction f dnie sur R2 par : f (x, y) = 2 0 si 0 x y 1 sinon
1. Reprsenter f et vrier quil sagit bien dune fonction de densit. 2. Les variables X et Y sont-elles indpendantes ? 3. Dterminer les lois marginales puis calculer E[X] et E[Y ]. 4. Calculer les lois conditionnelles f (y|x) et f (x|y). 5. Calculer E[X|Y ]. 6. En utilisant le rsultat prcdent et la valeur de E[Y ] de la question 3, retrouver la valeur de E[X]. II. Lois exponentielles Soit X et Y deux variables alatoires indpendantes suivant une loi exponentielle de mme paramtre > 0. 1. Quelle est la loi jointe fX,Y du couple (X, Y ) ? 2. Dterminer la loi jointe fV,W du couple (V, W ) dni par : V W 3. En dduire la densit de V . 4. Calculer f (w|v). Quelle loi reconnat-on ? III. Vecteur gaussien Soit X = [X1 , X2 , X3 ] un vecteur gaussien centr et 4 1 1 2 = 1 0 1. Quelles sont les lois marginales de X ? Esprance conditionnelle & Chanes de Markov = X +Y = X
de matrice de covariance : 1 0 . 1 Arnaud Guyader - Rennes 2
158
Annexe A. Annales 2. Certaines composantes de X sont-elles indpendantes deux deux ? Si oui, lesquelles ? Certaines composantes de X sont-elles orthogonales deux deux ? Si oui, lesquelles ? 3. Quelle est la loi de (X1 , X2 ) ? 4. Sans calcul, dterminer E[X2 |X3 ] et E[(X2 E[X2 |X3 ])2 ]. 6. Calculer E[X1 |X2 , X3 ] et E[(X1 E[X1 |X2 , X3 ])2 ]. 5. Calculer E[X1 |X3 ] et E[(X1 E[X1 |X3 ])2 ].
7. Quelle est la loi de X1 sachant (X2 = x2 , X3 = x3 ) ? 2 2 8. On pose S = E[X1 |X2 , X3 ] et S le rsultat de la rgression linaire de X1 sur (X2 , X3 ). 2 S)2 ] E[(X 2 S)2 ]. Justier que E[(X1 1 IV. Chane de Markov Soit lespace dtats E = {1, 2, 3, 4} dune chane de Markov homogne.
1. Complter la matrice suivante pour quelle soit une matrice de transition : . 1 0 0 2 . 2 0 0 3 P = 0 . 1 1 2 2 1 1 . 0 2 4 2. Reprsenter le graphe associ. 3. La chane est-elle irrductible ? Indcomposable ? 4. Dterminer la (ou les) loi(s) stationnaire(s). 5. On considre quau temps 0, on est dans ltat 3. Pour un grand nombre dunit de temps n, quelles sont les probabilits quon soit dans chacun des quatre tats ?
159 Universit de Rennes 2 Licence MASS 3 Nicolas Jgou Mercredi 7 Mai 2008 Dure : 2 heures Aucun document autoris
I. Couple alatoire 1. La densit est reprsente en gras sur la gure suivante :
1
X
Fig. A.8 Reprsentation de la densit. f est bien une densit car f 0 et vaut 1.
R2
f (x, y)dxdy, qui correspond au volume reprsent,
2. Les variables X et Y ne sont pas indpendantes. En eet, le support de (X, Y ) est triangulaire alors que le produit cartsien des supports de X et Y est [0, 1]2 . 3. Soit 0 x 1, on a : f (x) = =
x
f (x, y)dy
R 1
2dy
= 2(1 x). On calcule ainsi : E[X] =

0 1
2x(1 x)dx =
1 . 3 Arnaud Guyader - Rennes 2
160 Soit maintenant 0 y 1, on a : f (y) = =

0
Annexe A. Annales
f (x, y)dx
R y
2dx
= 2y. Ainsi : E[Y ] =

0 1
2y 2 dy =
2 . 3
4. Soit x [0, 1] x. Pour x y 1, on a : f (y|x) = f (x, y) f (x) 2 = 2(1 x) 1 . = 1x
Finalement : f (y|x) =
cest--dire que, sachant X = x, Y suit une loi uniforme sur [x, 1]. Soit maintenant y [0, 1] x. Pour tout 0 x y, on a : f (x|y) = f (x, y) f (y) 2 = 2y 1 = . y
1 (y), 1 x {xy1}
Autrement dit, sachant Y = y, X suit une loi uniforme sur [0, y]. 5. Pour y x dans [0, 1], calculons dabord E[X|Y = y] : E[X|Y = y] =
R
1 (x)dx y {0xy}
y
1 = y y = . 2
xdx
0
Ainsi E[X|Y ] = Y . Remarquons quon avait directement ce rsultat en utilisant la question 2 prcdente (moyenne dune loi uniforme). 6. On sait que E[E[X|Y ]] = E[X]. Or la question prcdente donne E[X] = 1 E[X] = . 3
E[Y ] 2
et on retrouve :
161 II. Lois exponentielles 1. X et Y sont indpendantes, la densit du couple (X, Y ) est donc le produit des densits de X et de Y : fX,Y (x, y) = ex [0,+[(x)ey [0,+[(y) = 2 e(x+y) [0,+[2 (x, y). 2. Le changement de variable propos est linaire et bijectif avec comme bijection rciproque : X = W Y = V W Le support de (X, Y ) est D = R2 ce qui scrit pour (V, W ) : = (v, w) 2 : 0 w v . + On introduit le C 1 -diomorphisme : D x = w : (v, w) y = vw Alors : fV,W (v, w) = fX,Y ((v, w))|detJ (v, w)|. On en dduit : 3. Soit v > 0 x, on a : f (v) = =
0 2
fV,W (v, w) = 2 ev {0wv} (v, w).
f (v, w)dw
R v
2 ev dw
= vev . 4. On en dduit : f (w|v) = f (v, w) f (v) 2 ev {0wv} (v, w) = 2 vev {0v} 1 = {0wv} (w). v
Ainsi, sachant v > 0 x, W suit une loi uniforme sur [0, v]. III. Vecteur gaussien 1. X est gaussien donc toutes ses composantes sont gaussiennes. Elles sont par ailleurs toutes centres et les variances se lisent sur la diagonale de . On a donc : X1 N (0, 4) X2 N (0, 2) X3 N (0, 1).
2. X tant gaussien, lindpendance de deux variables quivaut leur dcorrelation. Nous avons donc X2 et X3 indpendantes. Les composantes tant centres, la non-corrlation quivaut lorthogonalit. Les deux variables prcdentes sont donc aussi orthogonales. Esprance conditionnelle & Chanes de Markov Arnaud Guyader - Rennes 2
162 3. On peut poser [X1 , X2 ] = AX avec A= 1 0 0 0 1 0 .
Annexe A. Annales
Ainsi [X1 , X2 ] est gaussien comme transformation ane dun vecteur gaussien. Il est bien sr centr et les lments de sa matrice de covariance sont donns dans : [X1 , X2 ] N [0, 0] , 4 1 1 2 .
4. Calculer E[X2 |X3 ] revient projeter orthogonalement X2 sur H = Vect(1, X3 ) or X2 est orthogonale 1 car cest une variable centre et on a vu que X2 est aussi orthogonale X3 . On a donc E[X2 |X3 ] = 0 et la variance rsiduelle E[(X2 E[X2 |X3 ])2 ] est gale la variance de X2 , soit E[(X2 E[X2 |X3 ])2 ] = 2. 5. On obtient : E[X1 |X3 ] = E[X1 ] + et E[(X1 E[X1 |X3 ])2 ] = Var(X1 ) 6. On obtient : E[X1 |X2 , X3 ] = E[X1 ] + X1 ,(X2 ,X3 ) 1 ,X3 X2 = [1, 1] = [1, 1] = De plus : E[(X1 E[X1 |X2 , X3 ])2 ] = X1 X1 ,(X2 ,X3 ) 1 ,X3 X1 ,(X2 ,X3 ) X2 = 4 [1, 1] = 2.5. 1/2 0 0 1 1 1
Cov(X1 , X3 ) (X3 E(X3 )) = X3 Var(X3 ) Cov2 (X1 , X3 ) = 3. Var(X3 )
2 0 0 1
X2 E[X2 ] X3 E[X3 ]
X2 X3 X2 X3
1/2 0 0 1
1 X2 X3 . 2
7. On a la dcomposition orthogonale X1 = E[X1 |X2 , X3 ] + W . La variable W est centre et de variance : Var(W ) = E[(X1 E[X1 |X2 , X3 ])2 ] = 2.5. Par ailleurs, comme W est indpendante de (X2 , X3 ), sachant (X2 , X3 ) = (x2 , x3 ), on a : X1 N (E[X1 |x2 , x3 ], Var(W )) = N 1 x2 x3 , 2.5 . 2
2 8. S est le projet orthogonal de X1 sur L2 (X2 , X3 ), espace des variables alatoires fonctions de 2 X2 et X3 et de carr intgrable. S est le projet orthogonal de X1 sur H = Vect(X2 , X3 ), qui
163 est un sous-espace vectoriel de L2 (X2 , X3 ). Dans le cas gaussien, ces deux projets concident 2 mais X1 ntant pas gaussienne, ce nest pas le cas ici. On a donc :
2 2 E[(X1 S)2 ] E[(X1 S)2 ].
IV. Chane de Markov 1. On complte la matrice de sorte que la somme des lignes soit gale 1 : 1 1 2 2 0 0 1 2 0 0 P = 3 3 1 1 0 0 2 2 1 1 1 4 4 0 2 2. Lensemble {1, 2} est clos et irrductible alors que lensemble {3, 4} est transitoire. La chane est donc indcomposable avec : R T = {1, 2} {3, 4} . 3. La chane admet une loi stationnaire unique , solution de P = . Aprs calcul, on obtient : = 2 3 , , 0, 0 . 5 5
4. Quelle que soit la loi initiale, on a convergence de la loi de (Xn ) vers . Ainsi, les probabilits quon soit pour n grand dans les tats 3 et 4 sont nulles alors que celles quon soit dans les tats 1 et 2 sont respectivement 2/5 et 3/5.
Si jtais pas tellement contraint, oblig pour gagner ma vie, je vous le dis tout de suite, je supprimerais tout. Je laisserais pas passer plus une ligne. Louis-Ferdinand Cline, Voyage au bout de la nuit, prface la 2me dition, 1949.
Bibliographie
[1] Nicolas Bouleau. Probabilits de lingnieur. Hermann, 2002. [2] Yves Ducel. Introduction la thorie mathmatique des probabilits. Ellipses, 1998. [3] Rick Durrett. Essentials of stochastic processes. Springer Texts in Statistics. Springer-Verlag, New York, 1999. [4] Dominique Foata et Aim Fuchs. Calcul des probabilits. Dunod, 1998. [5] Dominique Foata et Aim Fuchs. Processus stochastiques. Dunod, 2002. [6] Gilles Pags et Claude Bouzitat. En passant par hasard... Les probabilits de tous les jours. Vuibert, 2000. [7] Pierre-Andr Cornillon et Eric Matzner-Lber. Rgression (Thorie et applications). Springer, 2007. [8] Didier Dacunha-Castelle et Marie Duo. Probabilits et statistiques 2. Problmes temps mobile. Masson, 1993. [9] Didier Dacunha-Castelle et Marie Duo. Probabilits et statistiques 1. Problmes temps xe. Masson, 1994. [10] Philippe Barbe et Michel Ledoux. Probabilits. Belin, 1998. [11] Guy Auliac, Christiane Cocozza-Thivent, Sophie Mercier et Michel Roussignol. Exercices de probabilits. Cassini, 1999. [12] Michel Benam et Nicole El Karoui. Promenade alatoire. Editions de lEcole Polytechnique, 2004. [13] Valrie Girardin et Nikolaos Limnios. Probabilits. Vuibert, 2001. [14] Jean Jacod et Philip Protter. Lessentiel en thorie des probabilits. Cassini, 2003. [15] Dominique Bakry, Laure Coutin et Thierry Delmotte. Chanes de Markov nies. Format lectronique, http ://www.lsp.ups-tlse.fr/Bakry/, 2004. [16] Marie Cottrell, Valentine Genon-Catalot, Christian Duhamel et Thierry Meyre. Exercices de probabilits. Cassini, 1999. [17] Jean-Pascal Ansel et Yves Ducel. Exercices corrigs en thorie des probabilits. Ellipses, 1996. [18] Michel Mtivier. Probabilits : dix leons dintroduction. Ellipses, 1987. [19] Jacques Neveu. Probabilits. Ed. de lEcole Polytechnique, 1996. [20] James R. Norris. Markov Chains. Cambridge University Press, 1997. [21] Jean-Yves Ouvrard. Probabilits 1. Cassini, 1998. [22] Eva Cantoni, Philippe Huber, Elvezio Ronchetti. Matriser lalatoire (Exercices rsolus de probabilits et statistique). Springer, 2006. [23] Sheldon M. Ross. Initiation aux probabilits. Presses polytechniques et universitaires romandes, 1987. [24] Bernard Ycart. Chanes de Markov. Cahiers de Mathmatiques Appliques, CMA 11, 2004. [25] Bernard Ycart. Vecteurs et suites alatoires. Cahiers de Mathmatiques Appliques, 2004. 165

Proba Et Chaines de Markov Rennes

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Proba Et Chaines de Markov Rennes

Diunggah oleh

Hak Cipta:

Format Tersedia

Universit de Rennes 2 Licence MASS 3

Anne 2007/2008 Second Semestre

Esprance conditionnelle & Chanes de Markov

Table des matires

Chapitre 1. Esprance conditionnelle

Fig. 1.1 Loi jointe pour le max et la somme.

Fig. 1.2 Loi jointe et lois marginales pour le max et la somme.

1.1. Cas discret

Fig. 1.3 Mmes lois marginales mais loi jointe dirente.

Esprance conditionnelle & Chanes de Markov

Arnaud Guyader - Rennes 2

Chapitre 1. Esprance conditionnelle

0.03 0.08 0.02 0.04 0.01

Fig. 1.4 Lois de Poisson de paramtres 2 et 20.

Or Y et Z sont indpendantes, donc :

et on reconnat la formule du binme :

1.1. Cas discret

donc : E[E[Y |X]] =

pj|iyj , yj , Arnaud Guyader - Rennes 2

Esprance conditionnelle & Chanes de Markov

6 or, par dnition, p.j = pij , donc : E[E[Y |X]] =

Chapitre 1. Esprance conditionnelle

g(yj )p.j = E[f (X)]E[g(Y )],

Arnaud Guyader - Rennes 2

Esprance conditionnelle & Chanes de Markov

Ceci est une autre faon de dire que :

h(xi , yj )pj|i pi. =

E[h(xi , Y )|X = xi ](X = xi )

Cas absolument continu

sous-entendu : par rapport la mesure de Lebesgue sur

Esprance conditionnelle & Chanes de Markov

Arnaud Guyader - Rennes 2

Chapitre 1. Esprance conditionnelle

Prenons par exemple la premire expression :

(2ey 2e2y ) dy,

ce qui donne nalement :

f (x, y) dx dy = 2ey + e2y

Arnaud Guyader - Rennes 2

Esprance conditionnelle & Chanes de Markov

Si la loi jointe est absolument continue, lindpendance se vrie de faon simple.

Esprance conditionnelle & Chanes de Markov

Arnaud Guyader - Rennes 2

si f (x) > 0 si f (x) = 0

Esprance conditionnelle & Chanes de Markov

f (y|x)f (x) dx.

Chapitre 1. Esprance conditionnelle

E[Y |X = x]f (x) dx =

yf (y|x) dy f (x) dx,

donc daprs le thorme de Fubini : E[E[Y |X]] = et puisque f (y) =

f (y|x)f (x) dx, on retrouve bien :

Esprance conditionnelle & Chanes de Markov

1.2. Cas absolument continu

|h(x, y)|f (x, y) dx dy < +,

E[h(X, Y )] = que lon peut encore crire : E[h(X, Y )] =

h(x, y)f (x, y) dx dy,

h(x, y)f (y|x) dy f (x) dx.

h(x, y)f (y|x) dy = E[h(x, Y )|X = x].

E[h(x, Y )|X = x]f (x) dx = E[h(X, Y )].

E[h(x, Y )|X = x]f (x) dx.

h(x, y)f (y|x) dy,

h(x, y)f (y|x) dy f (x) dx =

h(x, y)f (x, y) dx dy,

(A) = E[A ] = E[{X<Y } ] =

{x<y} (x, y)f (x, y) dx dy,